大模型

LLM,VLM,模型

中科院、百度提出新架构:突破参数限制,实现高效推理

针对大模型参数规模扩大与性能提升不匹配的挑战,中国科学院信息工程研究所联合百度与北京师范大学AI学院提出了Inner Thinking Transformer架构(ITT)。该架...

多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%

近年来,DeepSeek R1、OpenAI o1/o3等大语言模型在数学和编程领域的推理能力取得显著进展,但在国际数学奥林匹克竞赛(IMO)组合问题、抽象推理语料库(ARC)...

DeepSeek R1之后,基础模型要如何做商业化?

基础模型公司的商业化路径呈现多元化趋势,主要可分为四大方向。向应用方向发展的企业通过通用接口解决简单任务,但面临用户粘性差的核心挑战。 这类商业模式...

DeepSeek推出后,移动端AI风向要变

高通凭借系统级芯片设计构建了技术护城河,其异构计算架构整合了NPU、GPU与低功耗子系统,能在保持设备续航的同时处理复杂推理任务。通过AI软件栈和开发者生...

Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场

加州大学圣迭戈分校Hao AI Lab通过开发游戏智能体评估框架,为大型语言模型的性能测试开辟了新路径。研究团队利用《超级马里奥》《2048》和《俄罗斯方块》等...

部分国产芯片适配满血版 DeepSeek,仍「遥遥无期」

国内AI芯片行业近期围绕DeepSeek模型的适配展开激烈竞争,真实技术实力通过适配满血版DeepSeek模型的能力得以显现。目前仅有华为、寒武纪、摩尔线程及昆仑芯...

标点符号成大模型训练神器!KV缓存狂减一半,可处理400万Tokens长序列,来自华为港大等 | 开源

华为、港大等机构的研究团队提出了一种基于自然语言分隔符的新型大语言模型SepLLM,通过将文本语义信息压缩至标点符号中,显著提升了训练推理效率。该方法发...

玄铁首款服务器级 CPU 下月交付:性能达服务器级,搭载 Matrix AI 引擎

---2月28日,达摩院举办的2025玄铁RISC-V生态大会在北京召开,全球数百家企业和机构代表共同探讨RISC-V架构在高性能计算与AI领域的突破与生态建设。中国工程...

字节发布Trae国内版,但不支持Claude 3.7

字节跳动旗下AI原生集成开发环境Trae正式推出国内版本,用户可通过trae.com.cn直接下载使用。此次发布的国内版本虽暂未接入Claude 3.7模型,但已支持豆包1.5 ...

AI三小时做的小游戏,9天赚12万!马斯克:AI游戏前景无限

一名独立开发者借助AI工具,仅用3小时开发出一款多人在线飞行模拟游戏,并在9天内实现17360美元收入。该游戏通过广告和虚拟商品销售盈利,最高同时在线人数超...
1 82 83 84 85 86 589