标签:架构创新
HuggingFace CEO力荐,Bengio团队也押注:这个1500美元训出的HRM模型,凭什么火了?
该架构的核心突破在于摒弃传统的显式思维链输出,转而采用潜空间推理机制。模型在生成最终回答前,通过内部的高层战略模块与低层执行模块进行双时间尺度的多...
入围CVPR 2026最佳论文决选,ViT³用「测试时训练」突破Transformer复杂度瓶颈
阿里巴巴与清华大学合作的研究提出了ViT³模型,旨在解决视觉Transformer在处理高分辨率图像和复杂多模态输入时计算与显存成本急剧增加的问题。该研究将测试时...
新架构模型HRM-Text创新纪录!1B参数、1000美元,图灵奖得主都亲自下场了
Sapient Intelligence发布的约1B参数语言模型HRM-Text在MATH、GSM8K和ARC-Challenge等推理基准测试中取得了优异成绩。其训练成本仅约1500美元,且从零预训练...
Agnes团队:不堆参数、不烧算力!小模型也能跑出大模型能力
当前大模型发展高度依赖扩大参数规模、数据量和算力,面临训练成本高昂且边际收益递减的行业困局。针对这一瓶颈,研究者提出了Mythos架构假想,其核心思路是...
曝GPT-5.5用上「全球最快芯片」,Claude慌了!
随着AI应用重心向推理端转移,市场对高并发、低延迟的Token生成需求急剧攀升。Cerebras凭借晶圆级芯片WSE-3实现120B模型每秒2000 Token的生成速度,推动公司...
全球首款RISC-V+AI智通融合服务器CPU,蓝芯算力重磅亮相移动云大会
蓝芯算力在移动云大会上正式发布全球首款RISC-V与AI智通融合服务器处理器LX500,实现单硅片内通用逻辑运算与人工智能推理的深度协同。该芯片彻底摒弃传统中央...
DeepSeek V4:架构极度聪明,黄仁勋担心的事也许就此开始
在参数训练与模型精炼环节,方案引入梯度整列独立更新技术与约束边界残差连接机制,确保深层网络传播过程中的数值稳定,并配套路由解耦与激活截断策略消除训...
GPU时代落幕?硅谷巨头集体「叛逃」,英伟达1500亿疯狂自救
英伟达2026财年营收、净利润均表现亮眼,数据中心业务三年增长13倍,但财报发布后股价大幅下跌,华尔街已经嗅到行业变局:英伟达多家核心头部客户开始分散算...
AI芯片新贵,疯狂融资,围攻英伟达
英伟达凭借GPU、CUDA和NVLINK的深度布局,占据AI芯片85%的市场份额,营收与市值屡创新高,近乎垄断行业。随着AI推理需求的崛起,众多竞争对手纷纷推出差异化...
Transformer亲爹痛斥:当前AI陷死胡同,微调纯属浪费时间!
Transformer架构的发明者之一Llion Jones近期发出警示,认为当前AI领域可能正陷入与RNN时代相似的困境。尽管Transformer推动了AI革命,但它并非通向通用人工...
1
2




