标签:多模态

与DeepSeek-OCR不谋而合,NeurIPS论文提出让LLM像人一样读长文本

在 NeurIPS 2025 论文中,来自南京理工大学、中南大学、南京林业大学的研究团队提出了一个极具突破性的框架 ——VIST(Vision-centric Token Compression in LL...

OpenAI引爆新赛道:AI不再卖技术,而是卖「活人感」!

一段小女孩与AI玩具告别的视频引发了广泛关注,揭示了对话式AI如何深度融入人类情感世界。这一场景不仅触动了公众情感,更凸显了实时交互技术的革命性潜力。...

美团开源全模态,比肩顶级闭源模型,开源新SOTA

美团LongCat团队发布了5600亿参数的开源全模态模型LongCat-Flash-Omni,该模型能够实现毫秒级的实时音频-视觉交互。其核心是一个端到端的全模态架构,能够接...

刚刚,AI视频的天花板被掀翻!测完SkyReels后飘了:我亦有成为专业导演的潜质

昆仑万维近日推出全新升级的AI视频创作平台SkyReels,标志着多模态内容生成技术进入新阶段。该平台通过'模型+平台'双轨模式,集成图像、音频、视频、数字人等...

美团新独立APP,点不了菜只能点AI

美团最新开源的多模态模型LongCat-Flash-Omni实现了全模态实时交互能力,在Omni-Bench等综合性基准测试中超越同类开源模型,达到与闭源Gemini-2.5-Pro相当的...

AI深度应用关键元年,快手重塑内容与商业价值

2025年被广泛视为AI深度应用的关键转折点,多模态生成与Agent技术正推动AI向更高效、更贴合用户需求的方向发展。在这一背景下,快手作为以技术驱动的科技公司...

智源悟界 · Emu3.5 重塑世界模型格局:首提多模态 Scaling 范式,AI 理解世界再进化

北京智源人工智能研究院发布了大规模多模态世界模型“悟界·Emu3.5”,该模型在模拟复杂物理世界方面展现出惊人的逼真度,并揭示了“多模态Scaling范式”的存在。...

MiniMax M2:所有坑都踩过,才能做出所有人都能用上的Agent

MiniMax最新发布的MiniMax M2模型标志着基础模型领域的重要进展。这款专为编程和智能体(agent)优化设计的模型,在保持轻量级和灵敏度的同时,展现出卓越的综...

刷新SOTA高出19.05分!英伟达开源OmniVinci全模态理解模型,只用1/6的数据,实现全方位超越

英伟达研究团队推出的OmniVinci全模态理解大语言模型,通过创新的架构设计和数据策略,仅用六分之一训练数据便在关键基准测试中超越现有顶尖模型19.05分。该...

MiniMax,可能是今年最大的黑马。

MiniMax公司最新发布的M2语言模型在性能与成本效益方面展现出显著优势,引发行业关注。该模型在Artificial Analysis测试榜单中位列全球第五,总分低于GPT-5、...
1 2 3 38