多模态模型 | 学习AIGC

这年头学不会数理化，只能怪自己懒，谷歌NotebookLM上新，秒出科普视频

谷歌NotebookLM新推出的“电影级视频概览”功能，允许用户上传资料后自动生成定制化、沉浸式视频讲解，依托Gemini 3、Nano Banana Pro与Veo 3等前沿AI模型实现...

AIGC动态

3个月前

Game over！视频GPT-4o时刻！字节Seedance 2.0引爆全球

字节跳动推出的多模态AI视频生成模型Seedance 2.0引发全球热议，其突破性技术被认为将彻底改变影视内容生产模式。该模型支持文本、图像、视频和音频四模态输...

AIGC动态

4个月前

AI看不懂的色盲测试背后，藏着一场像素与诗意的战争。

AI在色盲测试中的表现引发了对其视觉认知能力的深入思考。尽管现代多模态AI能够精准识别颜色甚至描述细微色差，却在经典的色盲测试图中屡屡失败。实验显示，G...

AIGC动态

4个月前

10B超越Gemini-2.5-Pro！阶跃星辰端侧多模态天花板开源

阶跃星辰多模态智能团队最新开源的STEP3-VL-10B模型以100亿参数规模实现了超越千亿参数模型的性能突破。该模型在数学推理、视觉感知及复杂指令遵循等任务中，...

AIGC动态

4个月前

上科大何旭明团队新作：克服简单样本偏置，让多模态模型学会「难题优先」

多模态模型在感知、理解与生成等方面的能力持续提升，但其输出中仍普遍存在与客观事实不一致的内容，即多模态幻觉现象。当模型面对信息缺失、语义含混或视觉...

AIGC动态

4个月前

超前布局协和10年，这家国产AI「三冠王」终于藏不住了

医疗AI正从工具蜕变为临床协助者，云知声的山海·知医大模型5.0在权威医疗评测MedBench4.0中斩获大语言模型、多模态模型和智能体评测「三冠王」。这一成就标志...

AIGC动态

5个月前

MV导演诞生！上海巨人网络用让AI听懂音乐并掌镜拍摄MV

上海巨人网络AI实验室提出的YingVideo-MV框架通过创新的级联架构，将音乐语义分析、导演级镜头规划与时间感知视频生成相结合，显著提升了音乐视频生成的质量...

AIGC动态

6个月前

实测可灵O1，AI视频界的Banana也来了。

可灵O1的推出标志着AI视频领域进入多模态大一统时代。这款全新视频大模型整合了参考生视频、文生视频、首尾帧生视频等六大核心功能，首次实现通过自然语言指...

AIGC动态

6个月前

Google 首席 AI 架构师：Gemini 逆风翻盘的18个关键

DeepMind CTO Koray Kavukcuoglu在访谈中罕见披露了Google在AI领域的真实处境：两年前曾'远远落后'，如今通过系统性重构实现追赶。这一转变始于对落后状态的...

AI-Agent

6个月前

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

寒武纪项目的最新成果Cambrian-S引起了广泛关注，这一模型专注于解决人工智能领域的核心问题：让AI真正学会感知世界。不同于传统硅基芯片研发，该团队将重点...

AIGC动态

6个月前

标签：多模态模型

这年头学不会数理化，只能怪自己懒，谷歌NotebookLM上新，秒出科普视频

Game over！视频GPT-4o时刻！字节Seedance 2.0引爆全球

AI看不懂的色盲测试背后，藏着一场像素与诗意的战争。

10B超越Gemini-2.5-Pro！阶跃星辰端侧多模态天花板开源

上科大何旭明团队新作：克服简单样本偏置，让多模态模型学会「难题优先」

超前布局协和10年，这家国产AI「三冠王」终于藏不住了

MV导演诞生！上海巨人网络用让AI听懂音乐并掌镜拍摄MV

实测可灵O1，AI视频界的Banana也来了。

Google 首席 AI 架构师：Gemini 逆风翻盘的18个关键

谢赛宁李飞飞LeCun搞的寒武纪，究竟是个啥？

热门网址

标签：多模态模型

AstronClaw

LibTV-AI视频创作

AI大学堂

热门网址