多模态 | 第 8 页

打败 Qwen2.5-VL，完全开源可复现LLaVA-OneVision-1.5 的多模态模型

LLaVA（大型语言与视觉助手）的发展历程展现了开源社区在多模态模型领域的突破性进展。从2023年4月首次提出视觉指令微调方法，到2024年8月推出功能全面的LLaV...

AIGC动态

5个月前

新豆包模型让郭德纲喊出发疯文学：(这班)不上了！不上了！不上了！！！

火山引擎近期对豆包语音大模型进行了重大升级，推出了豆包语音合成模型2.0和豆包声音复刻模型2.0。此次升级的核心目标是让AI语音从“像人”走向“懂人”，通过深...

AI-Agent

6个月前

当我们谈论「AI 搜索」，我们在谈些什么？

AI搜索正经历从传统信息检索向任务解决和创意生产平台的转型，交付能力成为行业竞争的核心分水岭。百度近期全面升级文心助手的AIGC创作能力，支持8种模态内容...

AI-Agent

6个月前

Adobe 新研究：不用再「喂」训练数据，VLM 靠和自己玩游戏变聪明

视觉语言模型（VLM）面临数据稀缺和人类知识天花板两大核心挑战。当前训练方法高度依赖人工标注数据和强化学习奖励设计，导致多模态标注成本高昂，且模型能力...

AIGC动态

6个月前

告别「解码器饥饿」！中国科学院NeurIPS推SpaceServe，高并发克星

中国科学院计算技术研究所的研究团队在NeurIPS 2025发表论文《SpaceServe: Spatial Multiplexing of Complementary Encoders and Decoders for Multimodal LL...

AIGC动态

6个月前

可能是目前效果最好的开源生图模型，混元生图3.0来了

腾讯混元最新发布并开源了原生多模态生图模型HunyuanImage 3.0，其参数规模高达80B，是目前参数量最大的开源生图模型。该模型将理解与生成一体化融合，成为首...

AIGC动态

6个月前

XTransfer 发布自研外贸金融大模型 TradePilot 2.0，技术架构全面升级

XTransfer于2024年6月推出的外贸金融大模型TradePilot在专业测评中表现优异，综合得分超越GPT-4等知名模型，并在智能风控、智能客服等领域实现快速落地应用。...

AIGC动态

6个月前

即梦图片4.0来了，我整理了10个好用到爆的进阶玩法。

字节推出的即梦图片4.0背后搭载seedream4.0模型，与NanoBanana特性相近，各有胜负，但在部分方面表现更优，支持直出4K图、可自由控制图片比例、文生图审美和...

AIGC动态

7个月前

智谱AI、清华开源新视觉大模型：刷新41项纪录，同级别最强

智谱AI与清华大学联合开源最新视觉大模型GLM - 4.5V，其在多个领域表现卓越。测试数据显示，GLM - 4.5V在42项主流测试中创造41项新记录，尤其在视觉智能体方...

AIGC动态

8个月前

科学能力太强，这个多模态推理「六边形战士」被严重低估！Intern-S1开源登顶

在2025世界人工智能大会（WAIC 2025）上，上海AI实验室发布了新一代科学多模态大模型Intern-S1，标志着人工智能在科研领域的重大突破。Intern-S1不仅多模态能...

AIGC动态

8个月前

标签：多模态

打败 Qwen2.5-VL，完全开源可复现LLaVA-OneVision-1.5 的多模态模型

新豆包模型让郭德纲喊出发疯文学：(这班)不上了！不上了！不上了！！！

当我们谈论「AI 搜索」，我们在谈些什么？

Adobe 新研究：不用再「喂」训练数据，VLM 靠和自己玩游戏变聪明

告别「解码器饥饿」！中国科学院NeurIPS推SpaceServe，高并发克星

可能是目前效果最好的开源生图模型，混元生图3.0来了

XTransfer 发布自研外贸金融大模型 TradePilot 2.0，技术架构全面升级

即梦图片4.0来了，我整理了10个好用到爆的进阶玩法。

智谱AI、清华开源新视觉大模型：刷新41项纪录，同级别最强

科学能力太强，这个多模态推理「六边形战士」被严重低估！Intern-S1开源登顶

热门网址

标签：多模态

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址