标签:内生智能

让模型自己找关键帧、视觉线索,小红书Video-Thinker破解视频推理困局

在视频理解领域,多模态大语言模型(MLLM)面临的核心挑战在于如何突破静态图像处理的局限,实现对动态视频内容的深度推理。当前主流方法普遍存在对外部工具...