视频生成

视频,video

让模型自己找关键帧、视觉线索,小红书Video-Thinker破解视频推理困局

在视频理解领域,多模态大语言模型(MLLM)面临的核心挑战在于如何突破静态图像处理的局限,实现对动态视频内容的深度推理。当前主流方法普遍存在对外部工具...

Google 2025 年度回顾:八大研究突破领域

2025年标志着人工智能从工具性应用向基础设施化转型的关键节点。AI不再仅作为被动工具,而是展现出与人类协同思考、行动和探索世界的自主能力。Google及其研...

ARR 超300万刀、实现月度盈亏平衡!ListenHub 完成天使+轮融资,加速出海进程

MarsWave近日宣布完成200万美元天使+轮融资,由天际资本领投,小米联合创始人王川跟投。在AI音频赛道普遍面临盈利质疑的背景下,MarsWave凭借清晰的商业化路...

独家丨ListenHub完成200万美元融资,靠“自来水”做到ARR 300万美元进军北美

ListenHub产品的母公司MarsWave近期完成了200万美元天使+轮融资,由天际资本领投,小米联合创始人王川跟投。目前公司年经常性收入已突破300万美元,并实现月...

售价超 17000 元的 iPhone 折叠屏,是苹果给 iPad mini 准备的“豪华葬礼”

多方供应链爆料显示,苹果首款折叠屏手机iPhone Fold预计将于2026年底或2027年发布,其起售价或高达2399美元(约合人民币17200元),成为苹果史上最昂贵的量...

为什么是这10个词,定义了2025年AI叙事

2025年标志着人工智能领域从技术探索迈向深度产业化的关键转折点。AI不再局限于代码与算法,而是通过Agent(智能体)渗透至千行百业,推动机器人实现具身智能...

我的2025年度AI大盘点 – 前路已明。

2025年AI领域的关键进展与突破性成果呈现出多元化发展态势。在大型语言模型方面,GPT-5.2 Thinking凭借卓越的写作能力脱颖而出,其指令遵循精度、风格迁移流...

3D数字人骨骼觉醒:腾讯混元开源十亿参数3D人体动作生成新SOTA

腾讯混元3D数字人团队近期开源了HY-Motion 1.0系统,这是业界首个将DiT架构扩展至十亿参数量级的3D动作生成模型。该系统通过独创的三阶段训练范式与精细的数...

对话GameSkill陈迪:把世界冠军变成AI教练,塞进你的电脑里

在AI技术成为主流叙事、大模型与算力竞争白热化的背景下,一家名为GameSkill的公司选择以8B小模型实现端侧推理,聚焦电竞场景推出'1元1局'的AI教练服务。其核...

世界首个!李飞飞团队推出物理推理基准,大模型统统不及格?

斯坦福大学与中国科学技术大学的研究团队开发了首个定量评估视觉语言模型(VLMs)物理理解能力的基准测试QuantiPhy。该测试包含超过3355个视频-文本问答对,...
1 12 13 14 15 16 247