标签:多模态
o3解读:OpenAI发力tool use,Manus们会被模型取代吗?
OpenAI近期发布了o3和o4-mini两个新模型,标志着其在推理和多模态能力上的重大突破。o3模型凭借其全面的推理能力、丰富的工具使用方式以及全新的多模态CoT(C...
图像编辑开源新SOTA,来自多模态卷王阶跃!大模型行业正步入「多模态时间」
全球AI大模型的发展正迅速进入“多模态时代”,这一趋势不仅体现在技术进展上,也反映在应用和落地的需求中。多模态技术已成为AI领域的关键能力,尤其是在智能...
「拍照问夸克」,从「Know-What」到「Get it Done」的跃迁
夸克近期推出的「拍照问夸克」功能,标志着AI多模态入口的进一步升级。通过将相机作为与AI交互的核心工具,夸克AI相机不仅简化了用户的操作流程,还提供了更...
英伟达开源「描述一切」模型,拿下7个基准SOTA
为了实现这些功能,DAM 采用了两个关键创新:焦点提示(focal prompt)和局部视觉骨干网络(localized vision backbone)。焦点提示通过提供完整图像和目标区...
“DeepSeek不是万能的”,李彦宏今年押注AI 应用:模型价再“打骨折”,重点布局多智能体、多模态
在百度 Create 开发者大会上,百度创始人李彦宏发布了两款新的大模型——文心大模型 4.5 Turbo 和文心大模型 X1 Turbo,并宣布了一系列支持开发者全面拥抱 MCP...
最新实测!文心4.5T/X1T双卷王登场效果惊人,骨折价卷到DeepSeek
百度最新发布的两款大模型——文心大模型4.5 Turbo和文心大模型X1 Turbo,标志着其在多模态、深度推理和低成本方面的显著突破。这两款模型不仅在性能上超越了市...
高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI
昆仑万维最新发布的Skywork-R1V 2.0版本,标志着多模态推理模型的又一次重大突破。作为全球首个工业界多模态推理模型,R1V 2.0不仅在技术上实现了显著进化,...
字节跳动开源多模态AI Agent—UI-TARS-1.5
字节跳动开源了多模态AI Agent UI-TARS的最新1.5版本,该版本在多个基准测试中表现出色,展现了其强大的通用性和扩展能力。在计算机使用方面,UI-TARS-1.5在O...
复旦大学团队提出跨模态越狱防御新架构 BlueSuffix
复旦大学联合香港城市大学、新加坡管理大学的研究团队在视觉-语言模型安全防御领域取得重要进展,提出了一种基于强化微调的黑盒防御新架构——BlueSuffix。该架...
微软上线两款新模型:增强RAG和AI Agent
微软在Azure AI Foundry上线了Cohere的Embed 4和Command A两款新模型,旨在增强RAG(检索增强生成)和AI Agent的功能。Embed 4是一款多模态嵌入模型,支持超...