标签:性能优化
推理快30%,性能超过千亿参数模型,15B模型Apriel-1.6重新定义端侧推理
ServiceNow人工智能团队最新发布的Apriel-1.6-15b-Thinker模型,以150亿参数的轻量级体量,在多模态推理能力上实现了显著突破。该模型不仅击败了体量大其十倍...
基于 SGlang RBG + Mooncake 打造生产级云原生大模型推理平台
大语言模型(LLM)推理服务正迅速成为企业级应用的核心基础设施,其生产级落地需平衡性能、稳定性与成本。当前架构正从单体模式向分布式演进,主流路径包括Pr...
基于文本AI的终结?Agent协作可直接「复制思维」,Token效率暴涨
在Agentic AI时代,多智能体系统(MAS)的发展使得AI从独立运作转向协同合作。传统MAS依赖自然语言进行智能体间的交流,虽然可解释但效率低下且信息易丢失。...
月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%
月之暗面联合清华大学提出的全新加速引擎Seer,通过创新技术显著提升大语言模型(LLM)的强化学习训练效率。该系统针对传统RL训练中生成阶段(rollout phase...
字节刚发布 Coding 模型,彻底摆脱 Claude
字节跳动正式发布了专为Agentic Coding任务优化的代码模型Doubao-Seed-Code,标志着其正式进入编程模型领域。该模型具备多项显著特点:支持多模态输入,提供2...
4倍速吊打Cursor新模型!英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦!实测被曝性能“滑铁卢”?
Cognition公司近日推出高速AI编码模型SWE-1.5,该模型专为软件工程任务设计,现已在Windsurf代码编辑器中开放使用。通过与推理服务提供商Cerebras合作,SWE-1...
开源大模型SOTA又刷新!中国MiniMax M2全球排名第五,开源榜一
MiniMax作为中国AI独角兽企业,近期发布了专为智能体和代码任务设计的新一代模型M2,在开源领域刷新了多项性能纪录。M2以Claude Sonnet 8%的价格实现了近两倍...
Meta用40万个GPU小时做了一个实验,只为弄清强化学习Scaling Law
在大型语言模型(LLM)领域,强化学习(RL)的算力扩展正成为关键研究范式,但其扩展规律尚未明确。Meta等机构的研究者通过40万GPU小时的实验,提出了可预测R...
告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
中国科学院计算技术研究所的研究团队在NeurIPS 2025发表论文《SpaceServe: Spatial Multiplexing of Complementary Encoders and Decoders for Multimodal LL...
Java 30周年献礼:新LTS版本Java 25,服务器内存砍掉22%,AI开发起飞
2025年9月16日,Oracle公司发布Java 25,这是继JDK 21之后的首个LTS版本,官方将提供支持至2033年,为企业级用户带来稳定保障。此次更新包含18个JDK增强提案...






