标签:多模态

ICML 2025 Spotlight | 快手、南开联合提出模块化双工注意力机制,显著提升多模态大模型情感理解能力!

新一代人工智能发展的重要方向是“情智兼备”,这是迈向通用人工智能的关键一步。在人机交互场景中,具备情智的数字人与机器人需要精准解译多模态交互信息,深...

阿里达摩院开源多模态医学大模型—灵枢

大模型在医疗领域的应用面临三大主要难题:医疗知识覆盖不足、幻觉风险高以及推理能力欠缺。为了解决这些问题,阿里巴巴达摩院的研究团队开源了统一多模态医...

Cursor终结者?Grok 4正式登顶!马斯克扬言编程碾压,20万N卡年赚47亿美金!

Grok 4的发布标志着xAI在人工智能领域的又一次重大突破。这款通用模型不仅跳过了Grok 3.5,还带来了多个专为特定任务设计的模型,包括编码模型、多模态代理和...

高考数学142分,多学科推理MMMU跑分76.0直逼人类专家,Skywork R1V 3.0用强化学习探索跨学科推理

在电影《银翼杀手2049》中,虚拟伴侣Joi通过全息投影与现实世界无缝互动,展现了AI在未来可能具备的高度智能和情感理解能力。然而,现实中要实现这种科幻场景...

开源多模态大模型EarthMind,观测地球统一框架

地球观测数据在自然灾害监测和城市发展规划评估中发挥着关键作用,但如何高效理解和分析这些复杂数据一直是科学界的难题。现有的多模态模型虽然在通用图像理...

智源新出OmniGen2开源神器,一键解锁AI绘图「哆啦 A 梦」任意门

2024年9月,智源研究院发布了统一图像生成模型OmniGen,该模型在单一架构内支持多种图像生成任务,包括文本生成图像、图像编辑和主题驱动图像生成。用户仅需...

干翻 GPT-4V 的面壁 8B「小钢炮」,被Nature 收录了

清华大学与面壁智能团队在边缘设备上成功实现了多模态大模型的落地,推出了MiniCPM-V系列模型,该系列包括MiniCPM-V 1.0、MiniCPM-V 2.0和MiniCPM-Llama3-V 2...

不走寻常路的淘天技术节:AI狼人杀、Poster路演、博见社轮番上阵

淘天集团举办的第四届硬核少年技术节于6月30日至7月4日在北京和杭州两地同步举行,展示了其在AI技术领域的深厚积累和创新能力。与传统的技术节不同,硬核少年...

文心大模型 4.5 系列正式开源,涵盖 10 余款模型

百度于6月30日正式开源了文心大模型4.5系列,涵盖10款不同参数规模的模型,包括47B、3B激活参数的混合专家(MoE)模型和0.3B参数的稠密型模型。这些模型已在...

百度文心大模型4.5系列正式开源,同步开放API服务

百度近日宣布文心大模型4.5系列正式开源,并同步提供API服务。此次开源共推出10款模型,涵盖从47B参数的混合专家(MoE)模型到轻量级0.3B稠密型模型,覆盖文...
1 5 6 7 8 9 41