标签:语言模型
谷歌干掉了「等你说完才翻译」!70+语言边听边译
Google近期发布了名为Gemini 3.5 Live Translate的最新语音对语音翻译模型,标志着实时同声传译技术的重大突破。该模型打破了传统翻译设备“等待说完再翻译”的...
新架构模型HRM-Text创新纪录!1B参数、1000美元,图灵奖得主都亲自下场了
Sapient Intelligence发布的约1B参数语言模型HRM-Text在MATH、GSM8K和ARC-Challenge等推理基准测试中取得了优异成绩。其训练成本仅约1500美元,且从零预训练...
AI写小说的套路被扒光了: Claude爱平铺,GPT总做梦,Gemini只会“他如何如何”
马里兰大学与谷歌深度思维团队联合开展了一项名为故事显微镜的研究,通过分析叙事特征来鉴别大语言模型生成的文本。研究团队收集了上万个写作提示,让人类作...
大模型也需要睡觉!让AI打个盹,醒来更聪明
卡内基梅隆大学和马里兰大学的研究团队提出了一种旨在提升大语言模型处理长上下文和复杂逻辑能力的新机制。研究表明,大语言模型在面对长上下文和深度推理任...
哈萨比斯出的难题,GPT之父接上了:用一个知识停在1930年的模型
在能力测试环节,模型对1930年后的历史事件表现出明显的信息惊讶度攀升,验证了时间截断的有效性。尽管在Python编程测试中整体落后于现代版本,但该模型能够...
模型性能提升近50%,成本削减83%!约翰·霍普金斯大学发布专业领域提示优化框架
约翰·霍普金斯大学提出的EGO-Prompt框架通过进化图优化技术,显著提升了小型语言模型在专业领域任务中的性能,同时大幅降低推理成本。该框架的核心创新在于将...
长上下文快2.9倍,解码快6倍:Kimi 用线性注意力实现性能与效率双突破
月之暗面团队开发的Kimi Linear模型通过创新的混合线性注意力架构,在公平比较中全面超越传统全注意力机制,实现了推理速度与模型性能的双重突破。该模型的核...
最具争议性研究:大模型中间层输出可 100% 反推原始输入
一项来自意大利罗马第一大学GLADIA Research Lab的研究表明,主流Transformer语言模型在信息处理过程中几乎不会丢失任何输入内容,从数学意义上看具有可逆性...
扩散语言模型新发现:其计算潜力正在被浪费?
掩码扩散语言模型(MDLM)作为一种新兴的生成范式,挑战了传统自回归模型从左到右的token生成方式。这种模型通过训练时随机遮蔽序列位置并学习填充,具备多to...
OpenAI、Anthropic、DeepMind联手发文:现有LLM安全防御不堪一击
OpenAI、Anthropic和Google DeepMind罕见合作发表研究,揭示了当前大语言模型防御机制在自适应攻击下的系统性脆弱性。研究团队通过构建通用自适应攻击框架,...




