标签:长上下文

大模型也需要睡觉!让AI打个盹,醒来更聪明

卡内基梅隆大学和马里兰大学的研究团队提出了一种旨在提升大语言模型处理长上下文和复杂逻辑能力的新机制。研究表明,大语言模型在面对长上下文和深度推理任...

LLM近期重大架构进化一览:从Gemma 4到DeepSeek V4

随着大模型上下文窗口不断扩展,KV缓存膨胀与注意力计算成本飙升已成为制约长序列推理的核心瓶颈。近期多款主流开源模型的架构演进表明,降低长上下文推理的...

DeepSeek V4:架构极度聪明,黄仁勋担心的事也许就此开始

在参数训练与模型精炼环节,方案引入梯度整列独立更新技术与约束边界残差连接机制,确保深层网络传播过程中的数值稳定,并配套路由解耦与激活截断策略消除训...

Claude Opus 4.7突袭!Anthropic把“不乱猜”做成了核心卖点

Anthropic 正式发布新一代旗舰模型 Claude Opus 4.7,定位为迄今能力最强的通用可用模型,标志着人工智能行业竞争焦点从追求对话流畅性转向考核自主任务执行...

谷歌迎来“DeepSeek时刻”!TurboQuant引爆AI圈、全球开发者疯狂复现:6倍无损压缩,内存股集体暴跌

谷歌研究院近期发布TurboQuant压缩算法,实现了大语言模型运行中键值缓存(KV cache)的极致无损压缩:可将内存占用降低至少6倍,并在H100显卡上实现最高8倍...

端侧天花板!Qwen3.5家族强悍系列模型来袭

模型性能极限突破放缓,但模型进化依然在向着极致的能效加速,新一代语言系统摆脱单纯堆砌物理算力的传统路径,转而依靠混合计算网络、高质量清洗数据及强化...

上海AI Lab胡侠:KV Cache压缩之后,可让价格2万美金的GPU发挥出20万美金的价值丨GAIR 2025

大模型在处理超长上下文方面已取得显著突破,部分模型如MiniMax-M1、Qwen2.5-1M已能支持百万Token级别的输入。然而,提升上下文长度仍面临巨大挑战,尤其在金...

Gemini 3.0发布:从“工具辅助”到“主动代理”,谷歌做了这几点

谷歌发布最新AI模型Gemini 3,标志着人工智能从“工具辅助”向“主动代理”的跨越式演进。这款被称为“全能型选手”的模型在多个核心基准测试中对标甚至超越GPT-5.1...

刚刚,豆包编程模型来了,我们用四个关卡考了考它!

AI编程助手正经历从代码补全工具向具备自主规划能力的Agentic Coder演进。2025年,行业分化为IDE增强和任务委托两条技术路线,前者以GitHub Copilot为代表提...

刚刚,Kimi开源新架构,开始押注线性注意力

在智能体时代,推理的计算需求成为核心瓶颈,标准注意力机制的低效问题日益凸显。线性注意力虽能降低计算复杂度,但受限于表达能力,在语言建模中表现历来不...
1 2 3