标签:性能优化

字节刚发布 Coding 模型,彻底摆脱 Claude

字节跳动正式发布了专为Agentic Coding任务优化的代码模型Doubao-Seed-Code,标志着其正式进入编程模型领域。该模型具备多项显著特点:支持多模态输入,提供2...

4倍速吊打Cursor新模型!英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦!实测被曝性能“滑铁卢”?

Cognition公司近日推出高速AI编码模型SWE-1.5,该模型专为软件工程任务设计,现已在Windsurf代码编辑器中开放使用。通过与推理服务提供商Cerebras合作,SWE-1...

开源大模型SOTA又刷新!中国MiniMax M2全球排名第五,开源榜一

MiniMax作为中国AI独角兽企业,近期发布了专为智能体和代码任务设计的新一代模型M2,在开源领域刷新了多项性能纪录。M2以Claude Sonnet 8%的价格实现了近两倍...

Meta用40万个GPU小时做了一个实验,只为弄清强化学习Scaling Law

在大型语言模型(LLM)领域,强化学习(RL)的算力扩展正成为关键研究范式,但其扩展规律尚未明确。Meta等机构的研究者通过40万GPU小时的实验,提出了可预测R...

告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

中国科学院计算技术研究所的研究团队在NeurIPS 2025发表论文《SpaceServe: Spatial Multiplexing of Complementary Encoders and Decoders for Multimodal LL...

Java 30周年献礼:新LTS版本Java 25,服务器内存砍掉22%,AI开发起飞

2025年9月16日,Oracle公司发布Java 25,这是继JDK 21之后的首个LTS版本,官方将提供支持至2033年,为企业级用户带来稳定保障。此次更新包含18个JDK增强提案...

训练效率提升25%、成本降23%!上海期智研究院、算秩未来联合推出MegatronApp:专为万亿参数大模型训练打造的系统工具包

上海期智研究院与算秩未来在WAIC 2025世界人工智能大会上联合发布了开源项目MegatronApp,这是国内首个针对Megatron-LM框架的增强工具链。该工具链聚焦高可用...

苹果憋一年终超同参数 Qwen 2.5?三行代码即可接入 Apple Intelligence,自曝如何做推理

苹果在WWDC全球开发者大会上推出了新一代专为增强Apple Intelligence功能开发的基座语言模型。该模型家族包括一个约3B参数的紧凑型设备端模型和一个基于服务...

谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!

谷歌研究团队提出了一种突破性的AI架构设计框架Miras,通过重新定义注意力机制和记忆管理方式,显著提升了序列模型的性能。该框架的核心创新在于将传统遗忘机...

三个LLM顶一个OpenAI?2亿条性能记录加持,路由n个「小」模型逆袭

路由LLM是一种通过智能调度机制动态分配请求到多个候选大语言模型(LLM)的技术范式,旨在通过异构模型的协同增效突破单一模型的性能上限。当前大模型研究面...
1 2 3 7