标签:多模态

Agent 落地,数据库先变

随着人工智能向落地应用深化,AI智能体开始深入生产场景,数据库的角色随之发生根本性转变。传统的数据库主要围绕数据的存储与查询,而在AI时代,数据库已演...

24小时直播,只靠一张照片?虎牙实时多模态数字人VAM 1.0率先突围行业三堵墙

虎牙近期推出了基于DiT架构的实时多模态数字人基础模型虎牙VAM 1.0。用户仅需输入一张照片,即可生成具备说话、聆听、唱歌跳舞以及游戏互动能力的AI数字人。...

MiniMax M3 实测:第一流的模型,已经对执行层动手了

在多轮协作与代码交付实测中,M3展现出极高的执行力与指令遵循度,能够在规定需求下快速完成包含状态管理、界面设计与数值平衡的复杂应用开发。相较于具备创...

GAIR Paper 107|高校联合腾讯发布 GameCraft-Bench:AI已能端到端开发游戏,Claude Opus 四成达到可玩水平

随着人工智能在游戏构建领域的快速发展,自动生成的游戏项目往往面临在真实引擎中无法运行以及交互体验不佳的问题。传统的评测基准主要关注静态代码测试或局...

一文总结2026火山引擎FORCE大会 – 向Coding和Agent全面进军。

伴随基础模型的升级,豆包专业版推出了全新的办公模式。底座模型智能体能力的提升,使得该办公模式能够出色执行复杂的通用办公任务,实现了从底层模型到上层...

AI成绩单背后,藏着一位华人“出题人”

随着前沿大语言模型能力的快速提升,传统的MMLU等基准评测逐渐面临“旧考卷失灵”的困境,前沿模型准确率逼近满分,难以有效区分模型间的真实能力差距。为解决...

智谱创始人唐杰隔空对话马斯克:赶超Claude Fable 5不用等到2027年

近期,马斯克与智谱创始人唐杰围绕中美大模型差距问题展开了隔空对话。针对中国大模型何时达到国际领先水平的疑问,有技术专家认为目前智谱GLM-5.2与海外顶尖...

CVPR前沿观察:AI下半场,阿里云破题Agent

在Agent时代,人工智能的核心挑战已从单纯的视觉感知转向对复杂世界的理解、生成及与真实业务的融合。决定智能体能否进入业务流程的关键,在于其处理复杂输入...

入围CVPR 2026最佳论文决选,ViT³用「测试时训练」突破Transformer复杂度瓶颈

阿里巴巴与清华大学合作的研究提出了ViT³模型,旨在解决视觉Transformer在处理高分辨率图像和复杂多模态输入时计算与显存成本急剧增加的问题。该研究将测试时...

万字解读:为何长上下文治不了多模态 AI 的「健忘症」?丨GAIR Live 031

在跨模态检索方面,评测实验表明,多模态长记忆的瓶颈不在于模型的推理层,而在于检索层,只要提供准确的证据,模型准确率可大幅提升。面对长上下文带来的证...
1 2 3 47