标签:多模态

全球OCR最强模型仅0.9B!百度文心衍生模型刚刚横扫4项SOTA

百度最新发布的自研多模态文档解析模型PaddleOCR-VL以0.9B轻量级参数量,在OmniDocBench V1.5榜单上以92.6分斩获全球综合性能第一。该模型在文本识别、公式识...

打败 Qwen2.5-VL,完全开源可复现LLaVA-OneVision-1.5 的多模态模型

LLaVA(大型语言与视觉助手)的发展历程展现了开源社区在多模态模型领域的突破性进展。从2023年4月首次提出视觉指令微调方法,到2024年8月推出功能全面的LLaV...

新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!

火山引擎近期对豆包语音大模型进行了重大升级,推出了豆包语音合成模型2.0和豆包声音复刻模型2.0。此次升级的核心目标是让AI语音从“像人”走向“懂人”,通过深...

当我们谈论「AI 搜索」,我们在谈些什么?

AI搜索正经历从传统信息检索向任务解决和创意生产平台的转型,交付能力成为行业竞争的核心分水岭。百度近期全面升级文心助手的AIGC创作能力,支持8种模态内容...

Adobe 新研究:不用再「喂」训练数据,VLM 靠和自己玩游戏变聪明

视觉语言模型(VLM)面临数据稀缺和人类知识天花板两大核心挑战。当前训练方法高度依赖人工标注数据和强化学习奖励设计,导致多模态标注成本高昂,且模型能力...

告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

中国科学院计算技术研究所的研究团队在NeurIPS 2025发表论文《SpaceServe: Spatial Multiplexing of Complementary Encoders and Decoders for Multimodal LL...

可能是目前效果最好的开源生图模型,混元生图3.0来了

腾讯混元最新发布并开源了原生多模态生图模型HunyuanImage 3.0,其参数规模高达80B,是目前参数量最大的开源生图模型。该模型将理解与生成一体化融合,成为首...

XTransfer 发布自研外贸金融大模型 TradePilot 2.0,技术架构全面升级

XTransfer于2024年6月推出的外贸金融大模型TradePilot在专业测评中表现优异,综合得分超越GPT-4等知名模型,并在智能风控、智能客服等领域实现快速落地应用。...

即梦图片4.0来了,我整理了10个好用到爆的进阶玩法。

字节推出的即梦图片4.0背后搭载seedream4.0模型,与NanoBanana特性相近,各有胜负,但在部分方面表现更优,支持直出4K图、可自由控制图片比例、文生图审美和...

智谱AI、清华开源新视觉大模型:刷新41项纪录,同级别最强

智谱AI与清华大学联合开源最新视觉大模型GLM - 4.5V,其在多个领域表现卓越。测试数据显示,GLM - 4.5V在42项主流测试中创造41项新记录,尤其在视觉智能体方...
1 2 3 4 37