❤️ 实时更新精心挑选的评分较高的最新文章摘要(每日最多10篇),助你随时了解人工智能领域的最新动态和热门事件 ❤️
◈ 12月07日 星期日 【 6 篇 】
◎ VLA、世界模型与一副AI眼镜:理想在押注怎样的未来?
理想汽车正式推出AI眼镜Livis,标志着其从汽车制造商向人工智能终端公司的战略拓展。这款售价1699元起的穿戴设备并非简单的智能配饰,而是被定位为”穿戴机器人”,与理想现有的汽车机器人、空间智能体和充电机器人共同构成其人工智能终端生态。Livis的推出,实质上是将理想在自动驾驶领域积累的VLA(视觉+语言+行动)技术路线从车内延伸至车外场景。
产品命名体系透露出理想的生态布局野心。Livis既是眼镜产品名称,也是未来AI终端系列的后缀品牌名,而核心交互入口仍沿用”理想同学”这一成熟IP。软件架构上采用Livis OS系统,通过手机App整合车控、眼镜控制等功能模块,形成跨终端统一体验。这…
来源:
钛媒体AGI
◎ 影石刘靖康:全景无人机,是「马车时代的汽车」
影石在2025年完成了两项重要里程碑:6月上市,12月发布全球首款全景无人机影翎Antigravity A1。这一系列动作不仅标志着公司从创业团队成长为市值千亿的超级独角兽,更展现了其在影像技术领域的持续创新力。创始人刘靖康在极客公园创新大会2026上提出,影像的终极形态并非设备本身,而是内容,这一理念成为公司进军无人机赛道的核心驱动力。
影石选择无人机赛道并非盲目挑战行业巨头,而是基于对行业本质的深刻洞察。刘靖康认为,无人机技术门槛低于造车和手机,但市场规模不容小觑。公司推出的全景无人机采用了创新的交互方式:通过VR眼镜实现体感操控,用户只需手指方向即可控制飞行,眼睛看哪里就拍摄哪里。这…
来源:
极客公园
◎ 字节即梦张楠:帮人类提升创造力,才是更有意义的「目标函数」
在极客公园IF2026创新大会上,字节跳动即梦Dreamina负责人张楠与主持人张鹏围绕AI与人类创作的关系展开深度对话。会上放映的AI短片《老妈的心愿》成为讨论起点,这部由青年导演小文借助即梦AI工具完成的18分钟作品,通过400多个分镜、上万张生成图和数千条视频,实现了故事与画面的无缝衔接,证明AI已能支持完整影视创作流程。
关于AI与创作者的关系演变,张楠提出从“驾驭AI”到“与AI共创”的转变趋势。青年导演合作计划显示,创作者初期往往追求对AI的绝对控制,但随着实践深入,逐渐发现AI能带来超预期的创意碰撞。这种协作模式被比喻为摄影中“偶然捕捉白鹭入镜”的惊喜时刻,AI正从工具升级为…
来源:
Founder Park
◎ 本周AI项目推荐:造梦次元、Tiimo、AnuNeko、Creaibo……
本周多个AI项目展现出在不同领域的突破性探索。造梦次元作为AI原生互动内容社区,累计用户超1000万,其核心逻辑是用户与AI共同创造多分支剧情,虚拟IP“紫樱”通过多模态交互实现3800万次互动,重新定义了内容生产的参与式体验。该平台日均用户互动时长超100分钟,验证了“互动内容”模式的商业潜力。
针对特定人群需求的产品表现亮眼。Tiimo专为ADHD群体设计,通过可视化时间线和AI任务拆解功能,解决时间感知障碍问题。其成功印证了垂直场景深度打磨的价值,全球百万下载量及App Store年度应用奖项显示,服务于神经多样性人群的市场被长期低估。另一款差异化产品AnuNeko放弃实用功能,专注…
来源:
硅星人Pro
◎ 市场远远低估了淘宝闪购的野心
阿里集团近期将”饿了么”APP全面升级为”淘宝闪购”,标志着其大消费战略进入新阶段。这一更名不仅是品牌层面的调整,更是阿里整合资源、强化即时零售赛道布局的关键举措。数据显示,整合后的淘宝闪购日订单峰值达1.2亿单,月度交易用户突破3亿,直接带动手机淘宝DAU同比增长20%,印证了业务模式的可行性。
在财务表现方面,即时零售业务展现出强劲增长势头。最新季度收入达229亿元,同比增长60%,单位经济效益显著改善,10月以来每单亏损较七八月份收窄一半。值得注意的是,非茶饮订单占比提升至75%以上,客单价实现两位数增长,显示平台正从餐饮外卖向全品类即时零售转型。盒马、天猫超市等零售业务的闪购订单环…
来源:
雷峰网
◎ 字节即梦张楠:AI 时代,如何探索人的想象力?
在极客公园IF 2026创新大会上,字节跳动即梦Dreamina负责人张楠与极客公园创始人张鹏围绕AI与人类创作的关系展开深度对话。AI被定义为人类能力的「放大器」,而非简单工具,这一观点通过青年导演合作计划中的实践得到验证。导演小文借助即梦AI将编剧构思转化为完整影片《老妈的心愿》,展现了技术如何降低创作门槛,实现表达平权。
创作模式正经历显著转变。从初期试图精准控制AI,到逐渐接受与AI「深度共创」,创作者们发现技术能带来意外灵感。导演胤超将AI生成比作摄影中偶遇白鹭的惊喜时刻,这种不可预测性反而成为创作魅力。技术变革使得传统影视行业中处于弱势的编剧等角色,能够突破资源限制实现创作自由…
来源:
极客公园
◈ 12月06日 星期六 【 8 篇 】
◎ 今年用过最值当的 AI 工具
Lovart作为一款多模态AI工具,已成为团队核心生产力工具。在图片和视频创作场景中,其表现显著优于传统设计软件,能够满足90%的视觉内容需求。通过订阅模式,团队在两个月内实现成本回收,相比外包设计节省了大量时间和费用。工具的核心优势体现在直观的Touch Edit功能,允许用户通过点击图像区域直接修改元素,解决了自然语言描述不精准的痛点。
Nano Banana Pro模型与Touch Edit的协同展现出行业领先的修图能力。典型案例显示,用户可快速完成服装替换(如将连帽衫改为薄荷绿针织衫)、人物置换(如替换为马斯克形象)等复杂操作,生成效果自然真实。多元素组合编辑功能支持在咖啡馆场景…
来源:
AI产品阿颖
◎ 智能体A2A落地华为新旗舰,鸿蒙开发者新机遇来了
华为在Mate80系列和MateX7发布会上展示了鸿蒙6系统的突破性功能,首次实现了Agent to Agent(A2A)智能体协作的商用落地。这一技术通过AI与大屏交互的深度融合,将分散的应用整合为能听懂指令并相互配合的“智能服务团”。用户只需通过自然语言指令,即可让订票软件、攻略社区和打车智能体协同完成跨城出行规划等复杂任务,标志着手机交互形态正从GUI向LUI(自然语言交互)演进。
鸿蒙6的技术核心在于重构了应用连接方式。通过意图框架Intents Kit和统一通信协议,系统能将APP功能转化为可调用的“原子化意图”,实现跨应用的意图理解与指令分发。HMAF框架和全栈工具链的引入,使…
来源:
量子位
◎ Yann LeCun离开Meta后首篇论文?使用了宇树机器人做研究
伯克利、纽约大学和约翰・开普勒林茨大学的研究团队提出了一种名为GenMimic的新方法,使机器人能够通过观看AI生成的视频学习并复现人类动作。这一突破性技术让人联想到《黑客帝国》中Neo通过脑机接口瞬间学会功夫的场景。研究人员开发了一个通用框架,使人形机器人能够零样本执行生成视频中的动作,即便视频中存在噪声或变形,机器人也能准确提取核心动作逻辑。
GenMimic的核心贡献包括提出首个从生成视频到机器人动作的通用框架,以及开发了一种新的强化学习策略。该策略使用对称正则化和选择性加权的3D关键点奖励进行训练,能够在现有动作捕捉数据上训练,并泛化到充满噪声的合成视频。此外,研究团队还创建了Ge…
来源:
机器之心
◎ 刚刚,英伟达CUDA迎来史上最大更新!
英伟达正式发布了CUDA Toolkit 13.1,官方称其为“20年来最大的一次更新”。此次更新涵盖多项突破性技术,核心是引入了CUDA Tile编程模型,这是一种基于数据块(Tile)的高层抽象方法,允许开发者通过定义数据块及其运算来编写算法,而无需直接处理底层硬件细节。Tile模型通过CUDA Tile IR虚拟指令集和cuTile Python DSL实现,显著提升了AI算法开发效率,并能兼容未来GPU架构。当前版本仅支持Blackwell系列GPU,未来将扩展至更多硬件。
另一个重要更新是运行时API对Green Context的支持,这是一种轻量级上下文管理机制,允许开发者…
来源:
机器之心
◎ Gemini 首次反超 ChatGPT,谷歌CEO劈柴哥复盘:不止是十年算力与全栈豪赌,更是找回了“老谷歌”那个味儿
Gemini在用户停留时长上首次超越ChatGPT,桌面和移动端平均停留时间达到7.2分钟,高于ChatGPT的6分钟和Claude的6分钟。这一数据表明用户不再只是出于新鲜感使用Gemini,而是真正依赖它解决问题。与此同时,Gemini的月度下载量从2025年年中的1500万激增至年底的6600万,虽然仍落后于ChatGPT的8700万,但追赶速度惊人。谷歌将Gemini深度整合到Android和Google Workspace生态系统的策略正在显效,特别是在用户获取方面。
Gemini的成功并非偶然,其转折点与Gemini 3的发布高度重合。Gemini 3在一系列基准测试中超越了O…
来源:
AI前线
◎ 100万亿Token看懵硅谷!全球一半算力写代码,另一半在「搞颜色」 ?
2025年的AI领域呈现出前所未有的多元化与专业化发展趋势。开源模型已从闭源替代品转变为特定场景的首选,其流量占比达到30%,其中中国开源模型的崛起尤为显著。以DeepSeek、Qwen等为代表的中国开源模型,从2024年仅占1.2%增长至2025年近30%的全球流量份额,在迭代速度和角色扮演等场景展现统治级表现。这种增长并非短期现象,而是由模型持续进入生产环境所驱动。
推理优化模型使用量飙升至50%以上,标志着AI应用从简单文本生成向复杂问题解决的转型。用户需求呈现深度化特征:平均输入Token数增长4倍至6k,输出长度翻倍至400Token,反映工作负载向长上下文、多步任务执行的演进。…
来源:
新智元
◎ 耗时15年、扫描1400个大脑!她发现了藏在人脑中的「生物版ChatGPT」
MIT神经科学家Ev Fedorenko通过大规模脑扫描研究揭示了大脑中专司语言处理的独立神经网络,其功能机制与大型语言模型(LLM)存在显著相似性。这项历时15年的研究涉及约1400名受试者,发现人类大脑中存在一个类似”生物版ChatGPT”的专用系统——语言网络,其核心功能是建立词语与意义的映射关系并完成句子组合,而非参与高级认知或情感处理。
语言网络被确认为解剖结构明确的独立功能单元,主要分布于左额叶侧面和中颞回区域,体积仅相当于一颗草莓大小。功能核磁共振显示,这些区域在语言处理时呈现协同激活模式,个体间差异微小。与布罗卡区等传统语言功能区不同,该系统专门负责语言结构的计算,下游连接…
来源:
新智元
◎ 下一个Transformer可能又被Google做出来了
当前顶尖大模型被比喻为患有顺行性遗忘症的患者,它们仅能依赖预训练阶段获得的”出厂知识”进行回应,而无法将交互中获得的新信息转化为长期记忆。Google研究员Ali Behrouz在论文《Nested Learning: The Illusion of Deep Learning Architectures》中提出,这种局限性源于传统AI架构中”架构”与”优化器”的人为割裂,创造了一种虚假的二元对立。
论文提出的嵌套学习理论打破了训练与推理的界限,认为智能应是一个连续的记忆压缩过程。基于此,团队开发了HOPE框架,其核心在于模拟人类大脑的多层次记忆系统:快系统Titans模块像海马体般处理即…
来源:
硅星人Pro
◈ 12月05日 星期五 【 10 篇 】
◎ 海螺 AI 很可能成为 AI Video 领域的 Cursor。
海螺AI近期宣布支持第三方模型,包括Sora 2、Veo 3.1和Nano Banana Pro,显著提升了其视频生成工具的灵活性和实用性。作为MiniMax旗下的产品,海螺AI在海外市场已广受欢迎,尤其在动作流畅度要求高的场景中表现突出。此次更新解决了用户此前需在多平台间切换的痛点,实现了从图片生成到视频创作的一站式体验。用户现在可以直接在海螺AI中使用Nano Banana Pro等模型,大幅简化了工作流程。
视频Agent功能的加入进一步提升了创作效率。该功能允许用户输入需求后自动生成分镜提示词、批量产出图片并转换为视频,且已支持Nano Banana Pro模型。实际操作中,用户可…
来源:
AI产品阿颖
◎ Agentic AI时代,向量数据库成“必选项”
从ChatGPT到Agentic AI的演进,正在重塑AI基础设施的格局。随着自主决策型AI的崛起,传统数据库在高频读写、语义模糊和成本敏感的新需求面前显得力不从心。向量数据库从辅助工具转变为支撑下一代智能体系统的核心基础设施,其重要性日益凸显。
Agentic AI对数据库提出了四类刚性需求:高性能读写、个性化存储、成本平衡和多模态处理。与传统RAG场景不同,Agentic AI需要在单次任务中完成数十次读写操作,处理百亿量级的个性化数据,并实现跨模态的关联检索。Zilliz的解决方案通过多层存储架构和多种数据类型支持,有效应对这些挑战。在电商客服等场景中,这种能力使得AI能够在毫秒级内…
来源:
钛媒体AGI
◎ Pocket 大绞杀
Pocket相机市场正迎来前所未有的激烈竞争。大疆凭借Pocket 3在两年内实现从百万级到千万级的销量突破,其100%市占率和超高毛利率吸引了众多厂商入局。OPPO、vivo已组建团队攻坚Pocket项目,小米联手浩瀚推出口袋相机,影石也可能重启云台相机项目,一场针对大疆的围剿战正在布局。然而,大疆的领先地位并非轻易可撼动,其核心优势在于系统工程能力和供应链管理,尤其是物理防抖技术和量产稳定性,这些需要长期积累的工程化体系支撑。
Pocket 3的断代领先源于其难以复制的技术壁垒。物理防抖技术通过无刷电机的精准控制实现,而供应链的复用策略(如显示屏等核心部件)大幅降低了成本并提升了效率。…
来源:
雷峰网
◎ 2025年的冬天,上海凭什么被称为“世界具身智能第一战场”?
2025年的冬天,上海张江科学会堂即将迎来一场具身智能产业的里程碑事件——GDPS 2025全球开发者先锋大会。这场大会被视为硅基生命向物理世界进军的入场券,标志着中国具身智能产业从数字演练转向实体应用的重大跨越。上海作为这一变革的核心舞台,通过独特的政策支持和产业生态建设,正在加速推动技术突破与商业化落地。
上海的成功源于其构建的“服务型政府”极致生态。不同于简单的资金支持,这座城市通过开放高端制造、医疗康养、城市治理等上百个核心场景,让企业能够直接在实际环境中测试和优化机器人技术。政府角色从管理者转变为“首席场景官”,主动提供公共资源作为试验田。同时,上海推出“算力券”政策,最高每年支…
来源:
量子位
◎ 华人40%霸榜!2026 IEEE Fellow名单出炉,清华国内第一
2026年IEEE Fellow名单公布,华人学者占比高达40%,再次彰显其在全球电气电子工程领域的突出贡献。美国电气电子工程师学会(IEEE)最新一届Fellow名单中,来自清华大学、北京大学、中国科学院等机构的中国大陆学者,以及香港、台湾地区及海外华人学者共同构成了庞大阵容。这一顶级学术荣誉仅授予在电气工程、计算机科学等领域取得重大突破的学者,每年入选比例不足会员总数的0.1%。
中国大陆高校表现尤为亮眼,清华大学以崔鹏(网络嵌入)、党智敏(介电材料)、付昊桓(高性能计算)等7位入选者领跑;电子科技大学有段兆云(真空电子器件)、冯钢(无线网络)等4位学者上榜;北京大学、南京大学等院校均…
来源:
新智元
◎ 硅基生命的「成年礼」:上海具身智能的入世大考与万亿生态突围
2025年全球开发者先锋大会(GDPS)即将在上海揭幕,标志着中国具身智能产业进入关键发展阶段。这场盛会不仅是技术展示平台,更是产业跨越“达尔文之海”的助推器,凸显了上海在推动物理世界智能化进程中的核心作用。黄浦江畔的张江科学会堂周边,密集的算力运转与产业活力交织,形成独特的创新生态。
上海通过“服务型政府”模式构建了开发者友好环境,其核心在于深度解决行业痛点。城市主动开放高端制造、医疗康养等上百个核心场景作为试验田,政府角色从管理者转变为“首席场景官”,直接为企业发放“市场准入证”。在算力支持方面,上海推出年补贴高达4000万元的“算力券”政策,将算力资源转化为公共基础设施,同时每年投入…
来源:
AI科技评论
◎ Anthropic内部揭秘20万代码交互记录背后的职业变迁
Anthropic的内部研究揭示了AI在软件开发领域的深刻变革。132名工程师在一年内将AI使用率从28%提升至60%,代码合并量激增67%,标志着软件工程从编写代码向管理代码的范式转移。这种转变不仅体现在效率提升上,更重塑了工程师的角色和技能需求。
能力膨胀现象打破了传统技术栈的壁垒。后端工程师通过自然语言交互快速构建前端界面,非技术人员直接编写SQL查询,技术实现的门槛被大幅降低。数据显示,8.6%的AI任务用于解决长期积压的边缘问题,代码库健康度显著提升。工程师逐渐从具体语法编写转向系统架构设计,单位时间内人机协作的产出效率提高了50%,但这也要求工程师具备更全面的系统视野。 …
来源:
AIGC开放社区
◎ 谷歌DeepMind团队新框架:让AI告别每次从头开始,在任务流中越用越聪明
Evo-Memory框架的提出标志着大型语言模型从被动检索迈向主动经验复用的关键突破。该框架由谷歌DeepMind与伊利诺伊大学联合开发,通过测试时自我进化机制,使智能体能够在持续任务流中实现真正的终身学习。传统大模型虽具备长上下文记忆能力,但仅能静态回溯对话内容,无法将具体经验提炼为通用方法论。这种缺陷导致智能体每次面对相似任务时都需从零开始,如同”过目不忘的初学者”永远无法进阶为专家。
研究团队构建的Evo-Memory基准测试颠覆了传统静态评估模式,将数据集重构为流式任务链,模拟真实世界连续发生的场景。智能体被要求在处理当前任务时动态维护不断演进的记忆库,形成包含基础模型、记忆更新机…
来源:
AIGC开放社区
◎ 硅基生命的“成年礼”:上海具身智能的入世大考与万亿生态突围
2025年冬天的上海即将迎来一场全球开发者先锋大会(GDPS 2025),这场盛会标志着中国具身智能产业的重要跨越。大会不仅是技术展示的平台,更是硅基生命向物理世界进军的起点。上海作为主办城市,展现了其在开发者生态建设上的卓越成就,通过开放场景、提供算力支持和促进产业集聚,为具身智能的发展创造了理想环境。
上海的核心优势在于其“服务型政府”的极致生态。政府不仅提供资金支持,还开放了高端制造、医疗康养和城市治理等上百个核心场景,允许企业“带机入场”。这种“首席场景官”的角色,使得开发者能够直接在实际环境中测试和优化技术。此外,上海的“算力券”政策将算力从奢侈品转变为公共基础设施,小型创业团队…
来源:
机器人前瞻
◎ 刚刚,摩尔线程登陆A股,市值直逼3000亿
国产GPU初创公司摩尔线程正式登陆A股,股价暴涨,市值直逼3000亿人民币,成为国产GPU第一股。公司拟募资80亿元,用于AI训练芯片、图形芯片等研发项目。创始人张建中在接受采访时表示,AI训推一体芯片项目旨在打造最先进的智算平台,满足万卡甚至十万卡集群需求;新一代图形芯片将服务于数字孪生和物理仿真;AI SoC芯片则聚焦端侧AI需求。他强调,“算力即国力,GPU芯片已成为算力的基石”,并认为AI仍处于高速发展阶段,尚未形成泡沫。
摩尔线程成立于2020年,专注于全功能GPU的研发,已推出四代GPU架构,覆盖AI智算、高性能计算、图形渲染等多个领域。公司员工中研发人员占比78.69%,体现…
来源:
半导体行业观察
◈ 12月04日 星期四 【 10 篇 】
◎ PixVerse V5.5 的震撼,做 AI 视频的人都知道这次更新的可贵之处
PixVerse V5.5模型的发布标志着国内AI视频生成技术迈入新阶段。作为首个具备Sora2级分镜能力的本土模型,其多镜头配置与音频原生直出的特性显著降低了专业级视频创作的门槛。通过真实场景测试发现,该模型能自动完成镜头切换、音效匹配等传统需导演干预的复杂决策,用户仅需提供方向性提示即可获得叙事完整的视频内容。
技术突破主要体现在三方面:分镜设计实现从静态画面到动态叙事的跨越,音频系统支持配乐、台词与音效的智能匹配,多镜头协同运作可生成符合影视语言规则的连贯内容。以《闻官军收河南河北》诗词视频为例,模型能根据诗歌意境自动规划16个分镜,每个镜头精确控制5秒时长,并通过正反打等专业手法增…
来源:
AI产品阿颖
◎ 新任IEEE Fellow要来参加雷峰网GAIR大会啦!
国际电气和电子工程师协会(IEEE)公布了2026年新晋Fellow名单,共348位学者入选,其中华人学者126位,占比36.2%。AI领域有42位学者入选,研究方向涵盖高性能计算、AI可解释性、边缘计算等前沿领域。这些学者的研究不仅推动了AI技术的进步,更回应了产业界对可信、高效、可扩展AI系统的需求。
在理论层面,崔鹏的因果推断与稳定学习研究解决了传统AI模型在数据分布变化时的性能下降问题。通过识别变量间的因果联系,模型在新数据场景下展现出更强的鲁棒性和泛化能力,为复杂环境中的AI应用提供了理论基础。史元春的模型压缩技术则聚焦应用侧瓶颈,将庞大模型精简至适合小型设备运行的规模,同时保…
来源:
AI科技评论
◎ 刚刚,云计算一哥出手,大家AI Agent自由了
最先进的Agentic AI技术正在深刻改变太空探索和工程领域的工作方式。蓝色起源公司通过内部开发的BlueGPT平台,将生成式AI工具全面应用于火箭研发的各个环节,包括代码编写、审批流程优化、供应链管理和飞控软件开发,使总体工程速度提升了75%。这一案例展示了AI Agent在复杂工程系统中的实际价值,其核心优势在于不仅能够回答问题,还能自主执行任务并实现工作流程自动化。
亚马逊云科技在re:Invent大会上发布的一系列创新成果,标志着AI Agent时代已经全面开启。其推出的Strands Agents SDK扩展了TypeScript支持和边缘设备兼容性,使开发者能够在更广泛场景中…
来源:
机器之心
◎ Anthropic嘲讽奥特曼:我们从不玩 “红色警报”!CEO放话:Claude更赚钱!流量仅GPT 1%敢冲3500亿IPO?
Anthropic公司正筹备可能成为史上规模最大的IPO之一,目标估值高达3500亿美元。这家成立仅5年的人工智能企业已委托硅谷知名律所Wilson Sonsini推进上市流程,计划最快于2025年初完成首次公开募股。在潜在IPO前,公司正进行一轮私募融资,并与微软、英伟达达成价值150亿美元的战略合作,承诺投入300亿美元使用微软云基础设施。
核心产品Claude聊天机器人已实现商业化落地,年营收呈现10倍级增长。首席执行官Dario Amodei披露,2023年营收从零突破至1亿美元,2024年预计达10亿美元,年底有望增至80-100亿美元区间。企业客户数量预计将超过30万家,202…
来源:
AI前线
◎ 误入人均10个顶级offer的技术天团活动,顶尖AI人才的选择逻辑我悟了
活动现场聚集了近200名顶尖AI技术人才,他们手握多个顶级offer,参与京东TGT计划(Tech Genius Team)的燃力之旅活动。这些候选人来自清华、北大、浙大、港科大等全球顶尖高校,部分已入职的TGT成员分享了选择京东的原因和入职后的体验。
Daniel和Kyrie作为2025届TGT成员,分别专注于推荐系统与大模型应用、信息检索与大模型研究。两人在博士期间发表了多篇顶会论文,并拥有丰富的大厂实习经历。尽管手握多个顶级offer,他们最终选择了京东,原因各不相同。Daniel看重京东在生成式推荐算法上的资源投入和纯粹的技术氛围,而Kyrie则被京东的创业热情、数据质量以及技…
来源:
量子位
◎ 多模态思维链如何重塑 AI 与短视频的未来
快手高级算法专家文彬在AICon全球人工智能开发与应用大会上分享了Keye-VL多模态大模型的技术突破与应用实践。该模型通过多模态思维链技术实现了动态视频理解与复杂推理能力的显著提升,其核心创新包括Auto-Think(自动思考决策)和Agentic-Think(代理工具思考)两大机制。
多模态思维链技术经历了从文本推理到图文交错推理的演进过程。传统模型在复杂图表分析和视频理解等场景表现不足,而Keye-VL通过分阶段思考显著提升了推理精度。例如在医疗影像分析中,模型能同时生成报告并标注病灶位置;在视频内容审核中,可精准识别违规内容。技术实现上采用冷启动与强化学习两阶段训练范式,通过构造长…
来源:
AI前线
◎ 从MiniMax到DeepSeek:为何头部大模型都在押注「交错思维」?
MiniMax新一代大模型M2在轻量级软件工程Agent基准测试mini-SWE-agent中表现最佳,超越了DeepSeek、GLM、Qwen、Kimi等其他竞品。该测试主要评估大模型在真实软件开发任务中的多步推理、环境交互和工程化能力。M2的核心优势在于其采用的「交错思维」(Interleaved Thinking)技术,该技术使模型能够在工具调用过程中持续积累上下文理解,并根据反馈实时调整策略,形成「思考-行动-反思」的闭环。这种机制显著提升了M2在复杂任务中的规划性、执行稳健性和自我纠错能力。
交错思维技术的核心在于将推理与工具调用交替进行,形成动态循环。与传统的线性思维模式(如C…
来源:
机器之心
◎ 多人会话视频生成新突破:香港科技大学,浙江大学用单人数据实现多人交互视频生成
AnyTalker框架通过创新的音频-人脸交叉注意力机制(AFCA)和两阶段训练策略,实现了高质量、可扩展的多人对话视频生成。该技术由香港科技大学、浙江大学等机构联合开源,仅需极少量多人对话数据即可生成具有自然眼神交流和即时反馈的视频,显著降低了对大规模昂贵数据集的依赖。视频生成技术正从单体向群体演变,而AnyTalker解决了现有方案在多人场景中难以处理多音频流或缺乏自然互动的核心痛点。
AFCA模块采用递归调用的循环系统,不预设身份数量,实现了音频与人脸的动态耦合。该模块通过3D VAE、T5编码器和Wav2Vec2模型分别处理视频、文本和音频特征,并引入CLIP图像编码器确保身份一致…
来源:
AIGC开放社区
◎ Transformers来到了v5时代:从工具包到真理之源,AI时代的操作系统内核的极简进化论
Transformers v5的发布标志着AI基础设施演进的重要里程碑。该版本通过模块化重构、统一量化标准和端云生态整合,将碎片化的开发流程收敛为工业标准,日均安装量从v4时代的2万次跃升至300万次,总安装量突破12亿次。生态系统内的模型架构从40种扩展至400多种,Hub模型权重数量从1000个激增至75万个以上,反映出AI开发门槛的显著降低和大模型技术的普及。
极简代码重构成为v5的核心突破。面对模型架构爆发式增长带来的维护压力,开发团队采用做减法的策略,通过AttentionInterface接口将复杂的底层算子从模型主文件中剥离,使模型定义文件仅保留基础数学原理。基于机器学习的代…
来源:
AIGC开放社区
◎ 半导体大厂,加速扩产
在AI技术快速发展和汽车电子渗透率提升的双重推动下,全球半导体行业正迎来新一轮扩产热潮。根据SEMI预测,2025年全球半导体产能将同比增长15%,创下历史新高。这一趋势下,从晶圆制造到先进封装,各领域巨头纷纷加码产能布局,形成技术突破与规模扩张并行的竞争格局。
SK海力士成为AI超级周期的最大赢家,其战略聚焦HBM和1c DRAM双线并进。HBM领域,SK海力士占据全球超过60%市场份额,几乎垄断英伟达订单,其HBM4产品2026年产能已售罄。1c DRAM方面,计划到2026年月产能提升8-9倍至16-19万片,占DRAM总产能三分之一以上。这一布局既巩固了高端市场优势,又保障了标准型…
来源:
半导体行业观察
◈ 12月03日 星期三 【 10 篇 】
◎ 全球最大云厂商,将「最牛马」的工作交给了 AI Agent
亚马逊云科技在2025年re:Invent大会上发布了一系列围绕AI Agent的重大更新,标志着其在Agent时代的云计算核心重构。这些更新分为两大方向:面向客户的Agent应用与平台工具,以及面向未来的底层基础设施。前者包括Amazon Connect、Kiro等产品,后者则涵盖新一代Trn4 AI芯片和Trn3超级服务器等硬件升级。此次发布的核心目标在于解决行业两大关键问题:如何确保Agent安全合规地「用好」,以及如何让其以经济可行的方式「跑起来」。
AI Agent的价值已从传统的「聊天」转向「行动」。AWS今年重点推出了多款针对企业数字化经营核心场景的Agent产品。在代码运维…
来源:
极客公园
◎ 夸克 AI 眼镜 S1 体验:超越 Meta 的决心,以及方法论
阿里巴巴旗下首款自研硬件夸克AI眼镜S1的发布,标志着互联网巨头正式进军智能穿戴领域。这款产品在双十一预售期间便成为销冠,其核心逻辑在于通过供应链「死磕」和生态重构,解决智能眼镜行业的「不可能三角」问题。与市场上同类产品不同,S1并非单纯模仿Ray-Ban Meta,而是选择了一条更艰难的路径——在极致轻量化的机身中集成显示功能,同时保持佩戴舒适度。
硬件创新是S1最突出的亮点。通过与嘉联益合作开发的7层柔性电路板技术,镜腿宽度被压缩至全球最窄的7.55毫米,整机重量控制在51克。采用钛合金一体双料注塑框架,配合1:1前后均衡配重设计,解决了传统智能眼镜压鼻梁和头重脚轻的痛点。更关键的是,…
来源:
极客公园
◎ 原来这届中国AI年轻人,已经卷到业界都惊了
在小红书上,一场为期五个多月的广告算法大赛引发了技术爱好者们的热烈讨论和积极参与。这场由腾讯广告主办的竞赛以360万元奖金池为激励,聚焦于「全模态生成式推荐」这一前沿赛题,旨在解决传统推荐系统面临的冷启动问题。与依赖历史行为数据的判别式方法不同,生成式方法通过多模态信息理解商品本质特征,实现对新用户和新物品的精准推荐。这种从「匹配」到「推理」的范式迁移,被视为推荐系统的下一次技术跃迁。
比赛数据规模达到千万量级,涵盖文本、视觉、协同行为等多模态特征,且包含大量真实业务中的噪声和缺失值,高度接近工业实战场景。参赛选手需要融合处理不同模态的数据,并设计创新的生成式框架。冠军团队Echoch和亚…
来源:
机器之心
◎ 借鉴人脑「海马体-皮层」机制,红熊AI重做了一个「记忆系统」
记忆正成为AI从即时回答工具迈向个性化超级助手的关键突破点。近期,Google Research发表的《Nested Learning: The Illusion of Deep Learning Architectures》论文被视为《Attention is All You Need》的“精神续作”,提出了一种全新的机器学习范式——嵌套学习(Nested Learning)。这一技术使得大语言模型能够在学习新技能的同时保留旧技能,标志着AI向类脑记忆和进化迈出了重要一步。
大模型的发展风向已从单纯的规模扩展转向记忆能力的比拼。过去依赖“暴力革命”的模型扩展方式逐渐显现疲态,业界开始…
来源:
机器之心
◎ Claude Code 豪气收购一家0收入前端公司:押注一位高中辍学创始人
Anthropic宣布收购开发者工具初创公司Bun,标志着其正式进军开发者工具领域。此次收购的具体财务条款未披露,但Anthropic明确表示,Bun将成为其AI编程产品Claude Code、Claude Agent SDK及未来相关工具的基础架构支撑。官方声明强调,此次收购将显著提升Claude Code的性能、稳定性和功能扩展能力。
Bun作为JavaScript工具链的创新者,其单文件可执行程序技术解决了AI编程工具在智能体分发和运行效率上的核心痛点。该技术允许开发者将JavaScript项目编译为自包含的二进制文件,无需依赖Bun或Node.js环境即可运行,同时支持原生插件并具…
来源:
AI前线
◎ 视觉思维链全新架构,加州大学让多模态大模型有了灵性,整体性能提升5.3%
加州大学伯克利分校团队提出了一种名为视觉思维链(CoVT)的全新架构,旨在解决多模态大模型在处理视觉信息时被迫将其翻译成文本的局限性。人类通过视觉信号直接建立空间感,而传统视觉语言模型(VLMs)将连续、高维的视觉信息压缩为离散的文本符号,导致关键感知细节的流失。这种“视觉翻译”在处理需要精确感知的任务时尤为明显,例如计数或距离判断,甚至可能因文本描述的不准确而产生幻觉。
CoVT架构的核心创新在于允许模型在推理过程中生成连续的视觉Token,而非仅依赖文本符号。这些视觉Token通过四个轻量级专家模型(SAM、DepthAnything v2、PIDINet和DINOv2)的训练内化为模…
来源:
AIGC开放社区
◎ 云计算一哥10分钟发了25个新品!Kimi和MiniMax首次上桌
亚马逊云科技在re:Invent 2025大会上展示了其在AI和云计算领域的前沿进展。CEO Matt Garman以惊人的速度发布了25个新产品,凸显了公司在技术创新上的高效执行力。整个发布会围绕AI Agent展开,涵盖了从算力到模型的全面解决方案,体现了亚马逊云科技对实用性的重视。
在算力方面,亚马逊云科技展示了其强大的自研芯片能力。Trainium3 Ultra Servers的全面可用标志着公司在AI芯片领域的重大突破,性能较上一代提升显著。同时,下一代芯片Trainium4的曝光预示着未来算力的进一步提升。与英伟达的深度合作也带来了P6e-GB300实例,为超大规模模型训练提供…
来源:
量子位
◎ 硅片国产化浪潮,提速!
在全球科技竞争日益激烈的背景下,半导体产业已成为各国争夺技术制高点的关键领域。硅片作为芯片制造的“第一原材料”,其质量与性能直接决定了芯片的良率与可靠性,是产业链中不可替代的战略基石。然而,全球大尺寸硅片市场长期被日本信越、SUMCO、德国Siltronic等国际巨头主导,我国在高性能硅片领域高度依赖进口,产业链安全面临严峻挑战。数据显示,2024年我国12英寸硅片国产化率仅约18%-20%,高端硅片的“卡脖子”风险如悬顶之剑,不仅增加了采购成本,更潜藏着供应链中断的安全隐患。
在这一背景下,以杭州中欣晶圆半导体股份有限公司为代表的中国企业正通过技术攻坚与自主创新,推动国产硅片实现突破。中…
来源:
半导体行业观察
◎ 创始人因「嫌年薪435万少」拒当董事长?公司回应:不满激励机制;OPPO刘作虎亲自带队攻坚Pocket项目;苹果宣布AI主管卸任
艾比森创始人丁彦辉因对公司激励机制不满,在董事会选举中投下反对票,引发广泛关注。公司回应称此前“薪酬不满意”的表述为董秘笔误,实际矛盾集中在治理结构和利益分配机制上。丁彦辉2024年税前报酬达435.56万元,较上年增长51%,但公司透露其改革诉求涉及更深的制度优化。作为LED显示行业龙头企业,艾比森此次事件折射出上市公司治理结构改革的迫切性。
OPPO首席产品官刘作虎亲自挂帅Pocket项目,标志着手机巨头正式进军年增速超100%的手持影像市场。该项目集结高规格研发团队,计划将手机影像技术迁移至新品类,避开影石在全景赛道的优势。行业数据显示,大疆Pocket系列全球销量约1000万台,今…
来源:
雷峰网
◎ 直击爱奇艺 AI 剧场创作营:当奥斯卡摄影大师遇上 AI
130年前,卢米埃尔兄弟的《火车进站》让观众首次感受到影像的震撼力量;如今,AI技术正以相似的颠覆性冲击着电影行业。奥斯卡得主鲍德熹与爱奇艺发起的「AI剧场」创作营,试图探索15分钟以上商业级AI剧情长片的可能性,这标志着AI影像创作正式步入叙事「深水区」。这场实验集结了30组全球创作者,通过密集训练筛选出15组进入制片环节,首批作品预计2025年1月上线。
15分钟的时长设定背后,是工业级叙事的严苛挑战。爱奇艺副总裁朱梁指出,AI视频目前面临五大技术瓶颈:视觉连贯性不足、人物表现生硬、材质塑料感明显、物理规律失真以及长镜头调度混乱。这些缺陷导致观众容易「跳戏」,而创作营的核心目标正是在技…
来源:
极客公园
◈ 12月02日 星期二 【 10 篇 】
◎ 对谈 Skyris 张宇诺:AI 陪伴机器人会飞,理所应当 | 00 后创业者系列
张宇诺的创业项目Skyris源于对宠物陪伴价值的深刻理解与技术创新的结合。“陪伴最重要的两件事情,第一是生命感,第二是主动性”,这一理念贯穿产品设计始终。童年与藏獒金金的相遇奠定了他对跨物种情感连接的认知,而荷兰猪吞吞的“宅”则激发其思考:飞行能力可赋予硬件主动陪伴的属性,如同幻想世界中会飞的小精灵——这正是Skyris将无人机技术与宠物陪伴逻辑融合的底层逻辑。
技术实现上,团队突破了无人机“噪音、重量和续航”的不可能三角,并将生命感作为核心差异点。与传统规则型机器人不同,Skyris通过情绪模型驱动行为:硬件会依据视觉、听觉感知用户状态,自主做出贴近、躲避等反应。这种设计试图复现宠物…
来源:
AI科技评论
◎ Agent 正在终结云计算“流水线”,Infra 必须学会“思考” | 专访无问芯穹夏立雪
一个以智能体为基本运行单元的全新时代正在加速到来,基础设施的演进方向从AI Infra逐步迈向Agent Infra乃至更高级的Agentic Infra,成为推动智能体规模化落地的关键力量。无问芯穹联合创始人夏立雪在访谈中系统阐释了智能体基础设施的技术突破与实践路径,揭示了从传统”处理”范式向”思考”范式转型对基础设施层的颠覆性影响。
传统云计算架构建立在”请求-响应”的确定性范式上,而Agentic AI的”感知-推理-行动-记忆”循环构成非线性、有状态的认知过程。这种转变要求基础设施从被动流水线升级为主动解决方案提供者,需具备四大核心能力:灵活适配的运行环境、完善的工具调用支持、精准…
来源:
AI前线
◎ 诺奖得主萨金特港大最新演讲:AI的突破本质上是经济学的数百年进化(万字实录)
托马斯·萨金特的演讲围绕人工智能与经济学的交叉展开,探讨了AI如何改变经济规律的核心问题。作为理性预期理论的奠基人,萨金特指出,当前AI的本质仍是“开普勒式”的数据拟合,而非“牛顿式”的机制解释。他通过科学史中的托勒密、开普勒与牛顿的对比,强调经济学需要结构化的理论模型,而非仅依赖统计拟合。
萨金特剖析了智能的三个核心能力:模式识别、概括与决策,并指出人类直觉在复杂经济系统中的局限性。他援引心理学家史蒂芬·平克的观点,认为进化塑造的认知本能难以适应现代经济分析,而AI的发展正是为了弥补这些缺陷。机器学习的技术根基(如动态规划、贝叶斯推断)实际源自经济学、统计学等传统学科,AI并非全新领…
来源:
钛媒体AGI
◎ 库克怒换苹果AI一号位:谷歌系不行、找微软高管救火!Siri藏“大雷”全靠OS团队翻盘?
苹果公司近期进行了重大人事调整,AI业务负责人John Giannandrea卸任,由前微软高管Amar Subramanya接替。这一变动正值苹果面临Siri重大升级延期和AI战略执行不力的压力。Giannandrea的离职被视为苹果在AI领域追赶竞争对手的努力受挫的标志性事件,他曾被视为从谷歌引进的关键人才,但在任期内未能推动苹果AI业务取得实质性突破。
此次重组不仅是人事变动,更涉及深层次的结构调整。AI业务不再作为独立部门运营,而是被整合至负责iOS和macOS的核心操作系统团队,由软件工程高级副总裁Craig Federighi直接监管。这种整合反映了苹果试图将AI能力更深度地嵌…
来源:
AI前线
◎ 商汤分拆了一家AI医疗公司,半年融资10亿,剑指“医疗世界模型”
商汤医疗作为商汤集团“1+X”战略生态的核心延伸,半年内迅速跻身准独角兽行列,累计融资规模已达10亿元。其核心目标是以医疗大模型驱动的“未来医院”设计者与赋能者为定位,构建医疗领域的世界模型,实现对医疗场景的全面感知与深度理解。技术架构上,商汤医疗采用“通专融合”路线,以自研医疗大语言模型“大医®”为核心中枢,结合多模态基础模型群及医学专病知识库,形成系统化能力平台。
“大医®”在专业测试集上的表现超过DeepSeek满血版、GPT-5等通用模型,其优势源于超250B tokens的高质量医疗语料库和工业级RAG框架,有效降低“幻觉”风险。团队通过专项训练强化模型的临床思维能力,包括复杂数…
来源:
量子位
◎ 台积电美国厂,真成功了?
台积电作为全球半导体制造巨头,其核心运营和人才资源高度集中于台湾。超过90%的产能位于台湾,支撑全球60%以上的半导体产量和90%以上的先进节点产能。公司通过本土大学合作培养工程师,并建立紧密的供应链生态系统,形成“一小时配送”的高效运营模式。这种集群效应成为其竞争力的关键,但也在海外扩张中面临复制难题。
台积电的全球扩张受到地缘政治和客户需求的驱动。美国、日本和德国的晶圆厂项目旨在分散风险并满足政府战略需求,但创始人张忠谋曾公开质疑美国工厂的经济可行性,认为成本上升将削弱竞争力。亚利桑那州项目作为最大海外投资,初期良率表现优于预期,但供应链分散、人才短缺和本地生态不成熟仍是主要挑战。相比…
来源:
半导体行业观察
◎ V3.2逼近Gemini 3,DeepSeek硬气喊话:接下来我要堆算力了
OpenAI前首席科学家Ilya Sutskever近期提出,过去五年依赖算力堆叠模型的”规模时代”正面临瓶颈,单纯扩大模型规模难以实现质变。然而DeepSeek通过V3.2系列模型的发布,展示了强化学习与优化方法在突破瓶颈方面的潜力。研究员Zhibin Gou明确表示,训练后的瓶颈应通过优化方法和数据解决,而非等待更好的基础模型。
V3.2作为日常主力模型,在保持性能的同时显著提升了效率。其核心创新是引入DeepSeek稀疏注意力(DSA)技术,将计算复杂度从O(L²)降至O(Lk)。测试显示,该模型在多项基准测试中达到GPT-5水平,同时输出Token量大幅减少。更重要的是,V3.2首…
来源:
硅星人Pro
◎ 月薪涨150被骂抠门?宁德时代宣布涨薪,回应来了;小米汽车将开放「现车选购」,预计年底前可提;字节联手中兴打造首款豆包助手手机
宁德时代宣布自2026年起对1-6职级员工基本工资上调150元,创始人曾毓群确认该举措旨在吸引和保留人才。尽管网友对涨幅评价不一,但舆论整体持肯定态度。数据显示,2024年公司人均薪酬达23.63万元,前三季度净利润同比增长36.2%至490亿元。
字节跳动豆包团队联合中兴推出首款豆包助手手机努比亚M153,售价3499元,强调无自研手机计划。该机型技术预览版主打操作系统级AI助手功能,支持跨平台比价,目前已售罄。中兴通讯股价受消息刺激涨停,H股涨幅超10%。
小米汽车宣布开放现车选购服务,涵盖全新车、展车及准新车,承诺年底前提车。11月交付量超4万台,部分车型交付周期缩短至22…
来源:
雷峰网
◎ MV导演诞生!上海巨人网络用让AI听懂音乐并掌镜拍摄MV
上海巨人网络AI实验室提出的YingVideo-MV框架通过创新的级联架构,将音乐语义分析、导演级镜头规划与时间感知视频生成相结合,显著提升了音乐视频生成的质量。该技术突破了传统音频驱动视频生成中运镜单一和长序列画面崩坏的限制,实现了精准口型同步、自然肢体动作与丰富运镜的高质量输出。数字人技术在音乐视频、Vlog和广告领域的应用面临的核心挑战在于如何让虚拟形象呈现具有感染力的表演,而非简单的对口型。现有模型通常难以处理复杂运镜、场景调度及长时间连续表演,导致画面单调、动作僵硬或身份特征丢失。
YingVideo-MV采用”先想后做”的两阶段设计逻辑,将长视频生成拆解为可控的短片段生成与拼接…
来源:
AIGC开放社区
◎ 实测可灵O1,AI视频界的Banana也来了。
可灵O1的推出标志着AI视频领域进入多模态大一统时代。这款全新视频大模型整合了参考生视频、文生视频、首尾帧生视频等六大核心功能,首次实现通过自然语言指令完成视频内容的增删改查。其名称中的”O”源自拉丁语前缀”Omni”,暗示着全模态融合的技术野心,与GPT-4o的命名逻辑形成行业呼应。
视频编辑能力实现革命性突破。传统需要专业后期人员数小时完成的内容修改,现在通过自然语言指令即可实现:在《马达加斯加的企鹅》片段中为企鹅添加西装墨镜,或让《哆啦A梦》中的小夫从画面中彻底消失。模型支持3-10秒时长的自由生成,将影视级特效制作的门槛降至普通用户级别。测试显示,对综艺节目艺人画面处理等场景具有显…
来源:
数字生命卡兹克
◈ 12月01日 星期一 【 10 篇 】
◎ Open AI危?劈柴哥独家揭秘Gemini 3为何将改写AI战局:谷歌的长期主义与半年重大突破节奏
谷歌CEO Sundar Pichai近期访谈揭示了公司AI战略的核心逻辑:通过长期技术积累与全栈式布局,将Gemini系列模型深度整合至搜索、广告、云服务等成熟业务线,形成独特的“乘法效应”。 华尔街评论员Jim Cramer指出,这种商业模式使谷歌在AI商业化竞争中占据优势,而OpenAI等纯技术公司正面临变现压力。
Gemini 3的爆发性应用背后是谷歌长达十年的系统性投入。 从2012年Google Brain的“猫脸论文”到2016年TPU芯片发布,再到2023年合并Google Brain与DeepMind,技术底座的建设使得Transformer、BERT等成果持续涌现。劈柴…
来源:
AI前线
◎ 脆弱性:AWS大中华区AI业务的「无妄之灾」与「待解之局」
Anthropic近期对中国企业发布的“AI断供令”直接导致AWS大中华区Bedrock平台下架Claude模型,引发连锁反应。作为AWS“AI大模型超市”理念的核心载体,Bedrock平台长期存在严重依赖Claude的畸形生态——该模型占平台90%以上的调用量。此次断供不仅使AWS大中华区失去字节跳动(月贡献800-900万美元MRR)和腾讯等头部客户,更暴露出其生成式AI业务面临无货可卖的困境。目前仅剩的自研Nova模型能力不足,工具类产品Kiro和Quick Suite市场表现疲软,预计将导致数亿美元营收损失。
深层次矛盾在于AWS“模型超市”商业模式的战略性缺陷。与微软等竞争对手不…
来源:
雷峰网
◎ 人间清醒 Linus:不玩 AI 编程工具,却为 Vibe Coding 点了个赞,还爆料 AI 治服了当年被他怒喷的英伟达
Linux创始人Linus Torvalds在近期访谈中深入探讨了AI对软件开发的影响、内核维护的哲学转变,以及硬件生态的演变。作为Linux内核和Git版本控制系统的主要维护者,他坦言自己过去20年已从程序员转型为技术管理者,更多承担项目方向把控而非具体编码工作。在AI技术席卷全球的背景下,Linus对vibe coding(氛围编程)持辩证态度:认为其适合编程入门教育,能让新手通过计算机实现原本无法完成的任务,但明确反对将其用于生产级代码,指出长期维护将面临灾难性后果。
关于Linux内核发展,Linus揭示了维护理念的重要转变。与早期主要对新功能说”不”不同,现在他更常需要打破维护团…
来源:
AI前线
◎ 2025具身智能融资风云:岁末年关,抢囤冬粮
具身智能行业正面临资本热潮与潜在寒冬的双重挑战。过去一年,超过200亿元资金涌入该领域,是去年的4倍,推动四五家本土公司接近百亿估值,而美国对标企业Figure AI估值已高达2700亿元人民币。然而,多位投资人预测,明年下半年可能迎来行业降温,若二级市场传导至一级市场,融资将变得困难,企业需在半年内筹集足够资金以应对洗牌。
头部公司估值飙升,融资频率加快。2025年,人形机器人赛道融资达214亿元,智元、宇树等公司估值突破百亿,乐聚更以15亿元Pre-IPO轮融资创下单笔纪录。行业融资规模接近自动驾驶2020年水平,但商业化进度滞后,且融资事件更碎片化,头部公司通过“少量多次”融资维持热…
来源:
AI科技评论
◎ 盖雅工场董事长章新波:Agent可为SaaS投资带来「确定性保底」丨SaaS+Agent十人谈
盖雅工场作为劳动力管理领域的SaaS厂商,在AI领域已有15年探索历程,其近期对Agent策略的选择引发行业关注。董事长章新波提出“Agent不能是通才,而是要成为某个领域的专才”的核心观点,反映出垂直SaaS厂商在技术浪潮中的差异化思考。早期通过智能排班系统将AI运筹算法引入劳动力效能管理,如今面对大模型技术变革,公司采取既激进又保守的策略——仅推出五个垂直场景Agent,而非盲目跟随行业发布数十个通用型Agent。
商业模式创新是Agent技术带来的关键挑战。尽管按结果付费的合同模板已准备就绪,但企业客户仍倾向于传统订阅制。章新波分析指出,开源类产品因增量分成逻辑清晰更易实现价值付费,…
来源:
雷峰网
◎ 永别了,对OpenAI的盲目崇拜!这才是99.5%普通人真正需要的AI
当AI的普及率和密度真正提升时,才是AI爆发的时代。当前AI产业面临的核心矛盾在于,技术红利过度集中于少数国家和科技巨头,而全球99.5%的普通用户仍被排除在实质性应用之外。Agnes AI创始人Bruce Yang指出,这种现象形成了明显的马太效应:ChatGPT等头部产品的订阅用户仅占全球网民的0.5%,平均单次使用时长仅14分钟,反映出AI渗透率存在严重的”虚高实浅”问题。
资源分布的结构性失衡是阻碍普惠AI实现的关键障碍。现有AI产业严重依赖企业级场景和高技能白领市场,导致技术演进与大众需求脱节。语言资源不均、使用成本高企及区域教育差距,更使新兴市场用户面临系统性边缘化。Agnes…
来源:
新智元
◎ ChatGPT三岁生日,谷歌却为它准备了「葬礼」
ChatGPT的诞生与三年技术演进彻底重塑了全球科技格局。2022年12月OpenAI低调发布的研究预览版,如今已发展为数字世界的核心基础设施。从最初纯文本交互到多模态能力爆发,AI技术经历了两个关键阶段:2023-2024年的”对话革命”时期,人类首次体验到通用人工智能的潜力;2024-2025年的多模态应用爆发期,视觉、音频等感知能力的突破催生了Vibe Coding等新型生产力范式。
谷歌Gemini 3的崛起标志着行业权力格局的重构。OpenAI早期建立的技术优势正在被颠覆,Gemini移动端月活用户激增至6.5亿,用户停留时长已超越ChatGPT。这种转变引发行业震动,Huggi…
来源:
新智元
◎ 阶跃星辰开源GUI智能体,本地部署的GELab-Zero-4B,精通Android应用
阶跃星辰开源了首个完整的GUI智能体解决方案GELab-Zero,该方案包含4B参数量的轻量化模型和即插即用的工程套件,能够在消费级硬件上实现完全本地化的Android应用自动化操作。基于GUI的解决方案被公认为当前阶段的最佳路径,它通过视觉识别和触控操作与应用程序交互,具备对所有应用程序的通用兼容性,且无需应用开发商进行额外接口适配。然而,移动应用生态系统的碎片化特征构成了巨大工程壁垒,包括不同品牌设备、屏幕分辨率、系统版本和应用版本的差异。
GELab-Zero的核心价值在于提供了一套完整的推理工程基础设施,支持一键启动,自动处理环境依赖和设备管理,将推理链路从云端拉回本地。该方案能够…
来源:
AIGC开放社区
◎ 一个七万亿美元的芯片机会
人工智能基础设施的快速发展正在重塑全球技术格局,预计到2030年,AI优化数据中心的资本支出将超过7万亿美元。这一规模远超以往任何计算转型,标志着生成式AI模型产业化和超大规模计算园区建设的结构性融合。仅亚马逊、微软、谷歌和Meta四家公司的投资就超过3200亿美元,而主权国家倡议和专业基础设施提供商的投入更为庞大,例如5000亿美元的Stargate计划。与传统云计算周期不同,AI建设更注重吞吐量密度,以每瓦浮点运算次数和每机架浮点运算次数为核心指标,推动了对半导体的巨大需求。
半导体行业正经历深远变革,GPU、AI加速器、HBM内存和先进封装技术成为资本配置的核心。英伟达凭借其CUDA…
来源:
半导体行业观察
◎ Transformer作者爆料GPT-5.1内幕!OpenAI内部命名规则变乱了
我们正在经历一次静悄悄但本质性的AI范式转换,其意义不亚于Transformer本身的诞生。过去一年,关于AI发展的观点呈现两极分化:一方面存在”模型到顶论”,另一方面却频繁出现GPT-5.1、Gemini 3等重大版本更新。Transformer作者Łukasz Kaiser从内部视角揭示了AI发展的真实轨迹:AI能力增长遵循平滑的指数曲线,类似持续生效的摩尔定律,当前感知的”放缓”实质是技术范式从预训练向推理模型的根本转变。
预训练技术已进入S曲线的平稳期,而推理模型仍处于快速发展初期。这种转变使得模型从单纯记忆答案转向具备思维链能力,能够主动使用工具进行推理分析。以Codex为例,编…
来源:
硅星人Pro





这个主题很棒,赞
收藏啦收藏啦
有啥改进意见,欢迎提出
精选内容有重复的😅
精选内容很好,方便查看