标签:多模态

对话阶跃星辰姜大昕:我们就是“多模态卷王”,这便是阶跃冲击AGI的方式

阶跃星辰是一家成立仅两年的大模型公司,已经发布了22款自研基座模型,涵盖文字、图像、视频、语音、音乐和推理等多个模态,其中大多数为多模态模型。创始人...

字节开源图像编辑黑科技!1/30参数1/13数据,性能提升9.19%

字节跳动最近开源了一种新的图像编辑方法,名为SuperEdit,该方法在性能上比当前最先进的图像编辑方法提高了9.19%,同时仅使用了1/30的训练数据和1/13的模型...

o3解读:OpenAI发力tool use,Manus们会被模型取代吗?

OpenAI近期发布了o3和o4-mini两个新模型,标志着其在推理和多模态能力上的重大突破。o3模型凭借其全面的推理能力、丰富的工具使用方式以及全新的多模态CoT(C...

图像编辑开源新SOTA,来自多模态卷王阶跃!大模型行业正步入「多模态时间」

全球AI大模型的发展正迅速进入“多模态时代”,这一趋势不仅体现在技术进展上,也反映在应用和落地的需求中。多模态技术已成为AI领域的关键能力,尤其是在智能...

「拍照问夸克」,从「Know-What」到「Get it Done」的跃迁

夸克近期推出的「拍照问夸克」功能,标志着AI多模态入口的进一步升级。通过将相机作为与AI交互的核心工具,夸克AI相机不仅简化了用户的操作流程,还提供了更...

英伟达开源「描述一切」模型,拿下7个基准SOTA

为了实现这些功能,DAM 采用了两个关键创新:焦点提示(focal prompt)和局部视觉骨干网络(localized vision backbone)。焦点提示通过提供完整图像和目标区...

“DeepSeek不是万能的”,李彦宏今年押注AI 应用:模型价再“打骨折”,重点布局多智能体、多模态

在百度 Create 开发者大会上,百度创始人李彦宏发布了两款新的大模型——文心大模型 4.5 Turbo 和文心大模型 X1 Turbo,并宣布了一系列支持开发者全面拥抱 MCP...

最新实测!文心4.5T/X1T双卷王登场效果惊人,骨折价卷到DeepSeek

百度最新发布的两款大模型——文心大模型4.5 Turbo和文心大模型X1 Turbo,标志着其在多模态、深度推理和低成本方面的显著突破。这两款模型不仅在性能上超越了市...

高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI

昆仑万维最新发布的Skywork-R1V 2.0版本,标志着多模态推理模型的又一次重大突破。作为全球首个工业界多模态推理模型,R1V 2.0不仅在技术上实现了显著进化,...

字节跳动开源多模态AI Agent—UI-TARS-1.5

字节跳动开源了多模态AI Agent UI-TARS的最新1.5版本,该版本在多个基准测试中表现出色,展现了其强大的通用性和扩展能力。在计算机使用方面,UI-TARS-1.5在O...
1 9 10 11 12 13 41