多模态 | 学习AIGC

AI视觉原生统一！商汤开源视觉任务大统一模型SenseNova-Vision

商汤科技正式发布并全面开源日日新 SenseNova-Vision 理解生成统一视觉大模型，完成了大模型体系的重要视觉能力升级。该模型创新性地将各类计算机视觉任务统...

AIGC动态

2天前

阶跃发布端侧全家桶，1加N架构100毫秒本地调用

阶跃发布了Step Edge系列端侧多模态模型，采用“1加N”架构，旨在实现实时响应、数据隐私保护和推理成本优化。该系列由一个文本视觉基础模型和音频、GUI、图像...

AIGC动态

3天前

小扎“消失”三年后发帖，只为它：Meta最强Agent模型进军编程

Meta在AI负责人Alexandr Wang的领导下，正式发布了面向智能体编程的多模态AI模型Muse Spark 1.1，旨在智能体任务和编程领域与OpenAI和Anthropic等公司的同类...

AI-Agent

6天前

让Skill“有图可依”：openJiuwen首发多模态Skill范式Skill-Omni

openJiuwen社区正式发布了业界最早工程化落地的多模态Skill范式Skill-Omni，旨在解决当前智能体技能主要依赖纯文本、难以处理视觉和图形用户界面任务的局限性...

AIGC动态

1周前

谷歌贴身对标字节：最新轻量版 Nano Banana 2 四秒出图，单张仅 0.034 美元，还能直出视频

谷歌正式推出Nano Banana 2 Lite文生图模型，以0.034美元的单图成本和4秒的极速生成能力，直接向字节跳动的Seedream 5.0 Lite发起挑战。该模型在几乎同价位的...

AIGC动态

2周前

Agent 落地，数据库先变

随着人工智能向落地应用深化，AI智能体开始深入生产场景，数据库的角色随之发生根本性转变。传统的数据库主要围绕数据的存储与查询，而在AI时代，数据库已演...

AI-Agent

2周前

24小时直播，只靠一张照片？虎牙实时多模态数字人VAM 1.0率先突围行业三堵墙

虎牙近期推出了基于DiT架构的实时多模态数字人基础模型虎牙VAM 1.0。用户仅需输入一张照片，即可生成具备说话、聆听、唱歌跳舞以及游戏互动能力的AI数字人。...

AIGC动态

2周前

MiniMax M3 实测：第一流的模型，已经对执行层动手了

在多轮协作与代码交付实测中，M3展现出极高的执行力与指令遵循度，能够在规定需求下快速完成包含状态管理、界面设计与数值平衡的复杂应用开发。相较于具备创...

AIGC动态

2周前

GAIR Paper 107｜高校联合腾讯发布 GameCraft-Bench：AI已能端到端开发游戏，Claude Opus 四成达到可玩水平

随着人工智能在游戏构建领域的快速发展，自动生成的游戏项目往往面临在真实引擎中无法运行以及交互体验不佳的问题。传统的评测基准主要关注静态代码测试或局...

AIGC动态

3周前

一文总结2026火山引擎FORCE大会 – 向Coding和Agent全面进军。

伴随基础模型的升级，豆包专业版推出了全新的办公模式。底座模型智能体能力的提升，使得该办公模式能够出色执行复杂的通用办公任务，实现了从底层模型到上层...

AI-Agent

3周前

标签：多模态

AI视觉原生统一！商汤开源视觉任务大统一模型SenseNova-Vision

阶跃发布端侧全家桶，1加N架构100毫秒本地调用

小扎“消失”三年后发帖，只为它：Meta最强Agent模型进军编程

让Skill“有图可依”：openJiuwen首发多模态Skill范式Skill-Omni

谷歌贴身对标字节：最新轻量版 Nano Banana 2 四秒出图，单张仅 0.034 美元，还能直出视频

Agent 落地，数据库先变

24小时直播，只靠一张照片？虎牙实时多模态数字人VAM 1.0率先突围行业三堵墙

MiniMax M3 实测：第一流的模型，已经对执行层动手了

GAIR Paper 107｜高校联合腾讯发布 GameCraft-Bench：AI已能端到端开发游戏，Claude Opus 四成达到可玩水平

一文总结2026火山引擎FORCE大会 – 向Coding和Agent全面进军。

热门网址

标签：多模态

AstronClaw

LibTV-AI视频创作

AI大学堂

热门网址