视频生成

让模型自己找关键帧、视觉线索，小红书Video-Thinker破解视频推理困局

在视频理解领域，多模态大语言模型（MLLM）面临的核心挑战在于如何突破静态图像处理的局限，实现对动态视频内容的深度推理。当前主流方法普遍存在对外部工具...

AIGC动态

2个月前

2025年标志着人工智能从工具性应用向基础设施化转型的关键节点。AI不再仅作为被动工具，而是展现出与人类协同思考、行动和探索世界的自主能力。Google及其研...

AI-Agent

2个月前

MarsWave近日宣布完成200万美元天使+轮融资，由天际资本领投，小米联合创始人王川跟投。在AI音频赛道普遍面临盈利质疑的背景下，MarsWave凭借清晰的商业化路...

AI-Agent

2个月前

ListenHub产品的母公司MarsWave近期完成了200万美元天使＋轮融资，由天际资本领投，小米联合创始人王川跟投。目前公司年经常性收入已突破300万美元，并实现月...

AIGC动态

2个月前

多方供应链爆料显示，苹果首款折叠屏手机iPhone Fold预计将于2026年底或2027年发布，其起售价或高达2399美元（约合人民币17200元），成为苹果史上最昂贵的量...

AIGC动态

2个月前

2025年标志着人工智能领域从技术探索迈向深度产业化的关键转折点。AI不再局限于代码与算法，而是通过Agent（智能体）渗透至千行百业，推动机器人实现具身智能...

AI-Agent

2个月前

2025年AI领域的关键进展与突破性成果呈现出多元化发展态势。在大型语言模型方面，GPT-5.2 Thinking凭借卓越的写作能力脱颖而出，其指令遵循精度、风格迁移流...

AI-Agent

2个月前

腾讯混元3D数字人团队近期开源了HY-Motion 1.0系统，这是业界首个将DiT架构扩展至十亿参数量级的3D动作生成模型。该系统通过独创的三阶段训练范式与精细的数...

AIGC动态

2个月前

在AI技术成为主流叙事、大模型与算力竞争白热化的背景下，一家名为GameSkill的公司选择以8B小模型实现端侧推理，聚焦电竞场景推出'1元1局'的AI教练服务。其核...

AIGC动态

2个月前

斯坦福大学与中国科学技术大学的研究团队开发了首个定量评估视觉语言模型（VLMs）物理理解能力的基准测试QuantiPhy。该测试包含超过3355个视频-文本问答对，...

AIGC动态

2个月前