标签：内生智能

让模型自己找关键帧、视觉线索，小红书Video-Thinker破解视频推理困局

在视频理解领域，多模态大语言模型（MLLM）面临的核心挑战在于如何突破静态图像处理的局限，实现对动态视频内容的深度推理。当前主流方法普遍存在对外部工具...

AIGC动态

3个月前