标签:推理

英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练

华为推出的盘古Ultra模型在推理任务中展现出了与DeepSeek-R1等大规模模型竞争的能力。尽管盘古Ultra的参数量仅为135B,但其在数学竞赛、编程等推理任务中的表...

榨干3000元显卡,跑通千亿级大模型的秘方来了

一体机厂商正在积极采用英特尔锐炫™显卡与至强®W处理器的组合,因其成本低廉且性能强劲。这种组合使得一体机能够在10万元以内的成本下,高效运行671B的DeepSe...

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

「推理」已成为语言模型的下一个主要前沿领域,学术界和工业界在探索模型推理性能提升的过程中,提出了一个核心问题:什么方法有效,什么方法无效?近期研究...

原生多模态大模型也能强化学习,思维链长达几万字,商汤日日新V6来了

商汤推出的「日日新 SenseNova V6」大模型在多模态推理与交互能力上展现了行业领先水平。该模型通过多模态长思维链训练、全局记忆、强化学习等技术突破,显著...

AI看柯南2分钟揪真凶,商汤600B多模态MoE推理封神!交互记忆全线升级

商汤科技最新发布的第六代大模型SenseNova V6,标志着多模态大模型技术的重大突破。该模型不仅在文本、图像和视频的原生融合上实现了全面升级,还展现了强大...

LLM「想太多」有救了!高效推理让大模型思考过程更精简

大语言模型(LLM)在复杂推理任务中表现出色,但常常出现「过度思考」的现象,导致推理过程冗长且效率低下。这种「过度思考」不仅增加了计算资源的消耗,还影...

7B扩散LLM,居然能跟671B的DeepSeek V3掰手腕,扩散vs自回归,谁才是未来?

香港大学与华为诺亚方舟实验室合作开发的扩散推理模型 Dream 7B,在开源扩散语言模型领域取得了新的突破,成为当前性能最佳的模型。该模型在通用能力、数学推...

实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

最近,针对国内外7款大模型进行了一场数学能力测试,测试题目主要来自“阿里巴巴全球数学竞赛”和“中国数学奥林匹克(CMO)”的真题,涵盖了多个数学领域,包括...

第一个免费可用的智能Agent产品全量上线,中国公司智谱打造,推理模型比肩R1

国产AI领域迎来了一款名为「AutoGLM 沉思」的自主智能体产品,由中国公司智谱推出。这款产品不仅具备深度研究能力,还能动手操作,标志着AI技术从单纯的语言...

OpenAI破大防,拒绝率从98%骤降2%!陈怡然团队提出全新思维链劫持攻击

随着大型推理模型(LRMs)的快速发展,其推理能力和安全性之间的平衡成为关键问题。近期研究表明,模型的安全审查透明化反而成为其弱点,攻击者可以通过「思...
1 5 6 7 8 9 10