标签:AI模型
性能不减,吞吐量提升6.4倍!英伟达用混合算子和架构定义小模型新标准
NVIDIA最新研究颠覆了传统小型语言模型的设计理念,参数数量减少不再直接等同于速度提升,关键在于模型架构与硬件特性的深度匹配。研究团队通过Nemotron-Flas...
Nature重磅!清华团队揭秘大模型新规律:告别参数内卷,智能密度每3.5个月翻一番
清华大学与面壁智能团队在《自然-机器智能》发表的研究揭示了大语言模型进化的核心规律——致密律(Densing Law),标志着AI发展从参数堆砌转向效率革命。研究...
开源视觉推理模型Top1,易主了。
编程支持成为另一亮点,结合Coding Plan服务展现出较高性价比。在复刻Linear官网案例时,模型通过视频输入实现了90%的页面还原度,但在Wispr Flow等复杂动效...
下一个Transformer可能又被Google做出来了
当前顶尖大模型被比喻为患有顺行性遗忘症的患者,它们仅能依赖预训练阶段获得的'出厂知识'进行回应,而无法将交互中获得的新信息转化为长期记忆。Google研究...
源神阿里!图像生成Ovis-Image再开源,7B小参数媲美GPT-4o和20B开源模型
在人工智能领域,图像生成技术正经历着快速迭代。阿里推出的Ovis-Image模型以7B参数实现了媲美20B+开源模型和GPT-4o的文本渲染能力,证明了通过优化的架构设...
V3.2逼近Gemini 3,DeepSeek硬气喊话:接下来我要堆算力了
OpenAI前首席科学家Ilya Sutskever近期提出,过去五年依赖算力堆叠模型的'规模时代'正面临瓶颈,单纯扩大模型规模难以实现质变。然而DeepSeek通过V3.2系列模...
DeepSeek V3.2 正式版发布,V4 还没来,但已经是开源模型里 Agent 能力最强了
DeepSeek近日发布了V3.2正式版模型,包括DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个版本。此次更新的核心在于推理能力和Agent工具调用能力的显著提升。其中...
DeepSeek-V3.2正式版发布,将开源模型的能力推向极致
DeepSeek团队正式开源了DeepSeekV3.2的两个版本:标准版和Speciale版。标准版专注于日常任务与通用智能体场景,在推理能力与输出效率之间取得了平衡,其性能...
脆弱性:AWS大中华区AI业务的「无妄之灾」与「待解之局」
Anthropic近期对中国企业发布的“AI断供令”直接导致AWS大中华区Bedrock平台下架Claude模型,引发连锁反应。作为AWS“AI大模型超市”理念的核心载体,Bedrock平台...
微软Fara-7B计算机操作模型,开启端侧智能代理新时代
微软发布了专为计算机操作设计的70亿参数智能代理Fara-7B,该模型通过纯视觉感知和合成数据训练,在端侧实现了高效能与安全性。与传统聊天机器人不同,Fara-7...





