标签:多模态

五百行代码打造SOTA视觉智能体!UniPat AI最新开源

SWE-Vision是一种极简的视觉智能体框架,旨在通过让模型编写并执行Python代码来弥补其在基础视觉任务中的精度缺陷。研究发现,尽管当前多模态大模型在编程能...

AI的七窍打通了!谷歌发布Gemini Embedding 2原生多模态嵌入模型

谷歌正式发布了名为 Gemini Embedding 2 的新型基础架构,实现了 AI 像人类一样用五种感官同步感知世界。这个系统将文字、图像、视频、音频和文档数据全部整...

谷歌AGI底座降临!首个原生全模态嵌入模型上线,已实现全模态SOTA

谷歌正式发布了首个原生全模态 Embedding 模型 Gemini Embedding 2,该模型能够将文本、图像、音视频及 PDF 文档无损融合于统一向量空间。这一突破性进展实现...

14B规模竟也能单卡实时生成视频?多亏这个强大的开源底座

春节期间Seedance 2.0爆火推动视频生成领域关注度提升,字节跳动联合北大、安努智能、Canva开源具备实时生成能力的Helios视频模型家族,包含三个版本,全面覆...

北大王选所彭宇新团队:让多模态大模型学会「看懂物种关系」丨CVPR 2026

当前多模态大模型推动视觉理解能力提升,已在多种视觉任务中实现较高水平的识别推理,但在复杂层级视觉识别任务中仍存在明显不足。现实世界诸多视觉概念天然...

彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

当前多模态大模型领域长期遵循搭配视觉编码器负责感知理解、变分自编码器完成内容生成的默认范式,这种设计在感知与生成之间留下天然鸿沟,后续业界提出的共...

上海一群青年,造了个学术版OpenClaw

在心肌病基因调控网络的单细胞转录组学数据分析场景中,一款AI可从5亿篇文献中精准定位相关研究,14个智能体并行工作,经11轮迭代将性能提升11%以上,原本研...

阶跃星辰杀入季后赛,强势跻身AI“新六小虎”第一梯队

国产大模型圈的季后赛已紧锣密鼓拉开帷幕。一方面,字节豆包、阿里千问、腾讯元宝等巨头砸超40亿元红包吸引用户,除夕夜豆包AI互动达19亿次,千问“一句话下单...

端侧天花板!Qwen3.5家族强悍系列模型来袭

模型性能极限突破放缓,但模型进化依然在向着极致的能效加速,新一代语言系统摆脱单纯堆砌物理算力的传统路径,转而依靠混合计算网络、高质量清洗数据及强化...

可灵3.0系列模型正式上线:属于每个人的导演时代来临

可灵AI 3.0系列模型的发布标志着AI视频创作进入影视级导演时代。该系列包含视频3.0、视频3.0 Omni及图片3.0、图片3.0 Omni模型,覆盖从生成到后期的全流程链...
1 2 3 43