标签:多模态融合

斯坦福MIT天团出手!1美元养龙虾,图文视频全包,打工人神外挂

Agnes平台近期在Zenmux平台上正式上线其核心模型矩阵,涵盖文本Agent与多模态生成两大方向,显著提升开发者工具链的完整性与可用性。此次发布包含四款主力模...

京东卷出新高度!硬刚「复杂指令」长时长、自由态数字人直播终于丝滑了

京东在2026年GTC大会上正式迈入AI智能体应用的新阶段,其核心突破在于解决了长期困扰行业的数字人“躯壳”问题——即如何让AI智能体实现高表现力、长时长、自由态...

刚刚,国产视频模型登顶全球第一!给谷歌Veo上了一课,还把钱给挣了

SkyReels V4凭借在文本生成视频(含音频)任务中获得第三方机构Artificial Analysis盲评全球第一的成绩,标志着国产AI视频模型首次站上世界顶端,其表现超越...

内容创作的「Windows 时代」来了

在AI时代,内容领域的未来正经历着深刻的变革。随着大模型技术的兴起,AI产品如文生文、文生图、文生视频等在内容创作领域备受关注。然而,用户在实际创作中...

PixVerse V2 登场!一口气生成5个“Sora”,视频生成赛道“卷”飞了

PixVerse V2是爱诗科技推出的一款基于DiT(Diffusion + Transformer)架构的视频生成产品,它在模型能力和产品化效果上都有显著提升。PixVerse V2能够单次生...

复旦邱锡鹏教授讲述MOSS 2 研发进展:如何实现世界模型?

复旦大学计算机学院教授邱锡鹏在CCF大模型论坛上,分享了复旦大学自然语言处理实验室在对话式大语言模型MOSS研发的最新进展。他指出,MOSS初代技术框架基于GP...

开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑

在最新的开源多模态SOTA模型竞争中,CogVLM2成功夺得王冠,由大模型创业公司智谱AI推出。该模型在OCRbench、TextVQA等三项关键基准测试中大幅领先于GPT-4v和G...