标签:多模态
拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩
阿里最新发布的多模态模型Qwen-VLo在图像生成和编辑领域展现了强大的能力,引发了广泛关注。该模型在原有的多模态理解和生成能力基础上进行了全面升级,具备...
音画同步,AI视频也能有完美「原声音」,可灵AI刚上线的!
可灵AI推出的Kling-Foley模型标志着生成式AI在音视频同步领域的重要突破。该模型能够通过多模态控制,自动生成与视频内容同步的高质量立体声音频,涵盖音效、...
豆包大模型“考上”清北的背后
豆包大模型1.6(Seed 1.6-Thinking)在2025年高考中取得了文科683分、理科648分的成绩,位列全球顶级通用大语言模型的前列,具备冲击清华和北大的实力。这一...
@所有开发者:Agent变现,阿里云百炼联合支付宝首创「AI打赏」!Agent Store全新发布
阿里云百炼3.0的发布标志着AI Agent技术进入商业化落地新阶段。2025年被定义为Agent元年,行业正经历从概念验证到实际工具的关键转型。此次升级的核心突破在...
2G 内存跑 Gemma 3n 完整版!全球首个 10B 内模型杀疯 LMArena:1300 分碾压记录
谷歌正式发布了Gemma 3n完整版,这是一款面向开发者的开源大模型,具备输入图像、音频和视频的能力,并支持文本输出。Gemma 3n的设计亮点在于其天生多模态和...
5款大模型考「山东卷」,Gemini、豆包分别获文理第一名
近期,5款主流大模型参与了2025年山东高考全科闭卷测评,结果显示AI的应试能力已实现质的飞跃。字节跳动Seed团队组织的测评采用750分制,未进行任何提示工程...
谷歌让机器人「长脑子」了!首发离线具身VLA模型,断网精准操控
谷歌发布了首个在具身机器人上本地离线运行的VLA模型——Gemini Robotics On-Device,标志着具身智能迈向实用化新阶段。该模型最初为ALOHA机器人训练,经过调整...
将思维链(CoT)引入具身世界,哪种路径能真正打通机器人「知行合一」?
大模型处理复杂问题时,越来越倾向于生成推理链条,将问题拆解为多个环节逐步解决。支撑这一能力的核心技术是思维链(Chain of Thought, CoT),它从最初的提...
月之暗面刚开源多模态Kimi-2506:智能体、视觉理解,重磅大升级
月之暗面(MoonshotAI)近期对其开源的多模态模型Kimi-VL-A3B-Thinking进行了重大升级,发布了2506版本。这一版本在多个方面实现了显著提升,尤其是在性能表...
北大卢宗青:现阶段世界模型和 VLA 都不触及本质|具身先锋十人谈
卢宗青是一位具身智能领域的创业者,拥有深厚的学术背景和实践经验。他曾在北京大学担任计算机学院长聘副教授,并负责过多个国家级科研项目。他的研究领域从...




