标签:多模态

国产大模型「五强争霸」,决战AGI!

中国基础大模型市场近年来经历了显著变革,形成了以字节、阿里、阶跃星辰、智谱和DeepSeek为代表的“基模五强”格局。这五家企业凭借雄厚的资金、高密度的人才...

RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型(MRMs)在多模态大语言模型(MLLMs)的性能提升中扮演着关键角色,尤其在训练和评估阶段能够提供稳定的奖励信号。然而,尽管强化学习(RL)在...

KuaiMod来了!快手用大模型重构短视频生态格局

短视频已成为现代用户日常生活中不可或缺的一部分,不仅是娱乐方式,更是信息获取、观点表达和社交构建的主要媒介。随着短视频内容的爆炸式增长,平台面临着...

对话阶跃星辰姜大昕:我们就是“多模态卷王”,这便是阶跃冲击AGI的方式

阶跃星辰是一家成立仅两年的大模型公司,已经发布了22款自研基座模型,涵盖文字、图像、视频、语音、音乐和推理等多个模态,其中大多数为多模态模型。创始人...

字节开源图像编辑黑科技!1/30参数1/13数据,性能提升9.19%

字节跳动最近开源了一种新的图像编辑方法,名为SuperEdit,该方法在性能上比当前最先进的图像编辑方法提高了9.19%,同时仅使用了1/30的训练数据和1/13的模型...

o3解读:OpenAI发力tool use,Manus们会被模型取代吗?

OpenAI近期发布了o3和o4-mini两个新模型,标志着其在推理和多模态能力上的重大突破。o3模型凭借其全面的推理能力、丰富的工具使用方式以及全新的多模态CoT(C...

图像编辑开源新SOTA,来自多模态卷王阶跃!大模型行业正步入「多模态时间」

全球AI大模型的发展正迅速进入“多模态时代”,这一趋势不仅体现在技术进展上,也反映在应用和落地的需求中。多模态技术已成为AI领域的关键能力,尤其是在智能...

「拍照问夸克」,从「Know-What」到「Get it Done」的跃迁

夸克近期推出的「拍照问夸克」功能,标志着AI多模态入口的进一步升级。通过将相机作为与AI交互的核心工具,夸克AI相机不仅简化了用户的操作流程,还提供了更...

英伟达开源「描述一切」模型,拿下7个基准SOTA

为了实现这些功能,DAM 采用了两个关键创新:焦点提示(focal prompt)和局部视觉骨干网络(localized vision backbone)。焦点提示通过提供完整图像和目标区...

“DeepSeek不是万能的”,李彦宏今年押注AI 应用:模型价再“打骨折”,重点布局多智能体、多模态

在百度 Create 开发者大会上,百度创始人李彦宏发布了两款新的大模型——文心大模型 4.5 Turbo 和文心大模型 X1 Turbo,并宣布了一系列支持开发者全面拥抱 MCP...
1 2 3 4 5 6 34