标签:多模态
Adobe 新研究:不用再「喂」训练数据,VLM 靠和自己玩游戏变聪明
视觉语言模型(VLM)面临数据稀缺和人类知识天花板两大核心挑战。当前训练方法高度依赖人工标注数据和强化学习奖励设计,导致多模态标注成本高昂,且模型能力...
告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
中国科学院计算技术研究所的研究团队在NeurIPS 2025发表论文《SpaceServe: Spatial Multiplexing of Complementary Encoders and Decoders for Multimodal LL...
可能是目前效果最好的开源生图模型,混元生图3.0来了
腾讯混元最新发布并开源了原生多模态生图模型HunyuanImage 3.0,其参数规模高达80B,是目前参数量最大的开源生图模型。该模型将理解与生成一体化融合,成为首...
XTransfer 发布自研外贸金融大模型 TradePilot 2.0,技术架构全面升级
XTransfer于2024年6月推出的外贸金融大模型TradePilot在专业测评中表现优异,综合得分超越GPT-4等知名模型,并在智能风控、智能客服等领域实现快速落地应用。...
即梦图片4.0来了,我整理了10个好用到爆的进阶玩法。
字节推出的即梦图片4.0背后搭载seedream4.0模型,与NanoBanana特性相近,各有胜负,但在部分方面表现更优,支持直出4K图、可自由控制图片比例、文生图审美和...
智谱AI、清华开源新视觉大模型:刷新41项纪录,同级别最强
智谱AI与清华大学联合开源最新视觉大模型GLM - 4.5V,其在多个领域表现卓越。测试数据显示,GLM - 4.5V在42项主流测试中创造41项新记录,尤其在视觉智能体方...
科学能力太强,这个多模态推理「六边形战士」被严重低估!Intern-S1开源登顶
在2025世界人工智能大会(WAIC 2025)上,上海AI实验室发布了新一代科学多模态大模型Intern-S1,标志着人工智能在科研领域的重大突破。Intern-S1不仅多模态能...
什么是真正好用的推理模型?阶跃Step 3:开源的,多模态的,低成本的,国产芯片适配的
阶跃星辰在WAIC期间发布的新一代基础大模型Step 3,填补了市场对兼具多模态能力、强推理性能、低成本及开源特性的模型需求空缺。该模型总参数达321B,采用MoE...
机器人的「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证实验
机械臂技术正从单一抓取任务向复杂自主操作迈进,其核心挑战在于感知、理解与动作控制的高效协同。近年来,视觉-语言-动作(VLA)模型的发展使机器人能够整合...
具身智能大脑+首个SaaS开源框架,智源研究院刷新10项测评基准,加速群体智能新范式
智源研究院在具身智能领域取得了显著进展,推出了RoboBrain 2.0和RoboOS 2.0两大创新技术。RoboBrain 2.0作为“通用具身大脑”,面向真实物理环境,集感知、推...