标签:多模态

字节开源王炸Bernini!轻松拿捏各类视频编辑任务

Bernini团队发布并开源了一款将多模态大模型与扩散模型深度融合的统一视频生成与编辑框架。该框架通过物理分工理念,让多模态大模型担任语义规划师,基于DiT...

谷歌Gemma 4添新,超强多模态智能塞进你的笔记本电脑

谷歌近期发布了Gemma 4家族的新成员Gemma 4 12B模型,该模型将先进的多模态智能推理、视觉与音频处理能力整合,并专为笔记本电脑等本地设备运行而优化。在性...

硅谷CEO深夜站台!MiniMax M3冲上开源第一,中文社区却吵翻了?

在多项极限测试中,M3展现出卓越的综合实力。在代码生成与多模态理解方面,M3能够流畅生成复杂动画代码,并在极低消耗下完成长逻辑代码编写。面对长达五十页...

拒绝蒸馏!微软发布自研MAI-Thinking-1追平Claude Opus 4.6:完全从零训练,不沾任何第三方模型输出

微软在Build大会上发布了一系列自研AI模型,标志着其从AI应用整合者向全栈AI基础设施与模型提供者的战略转型。公司高管强调致力于打造支持人类的“人本主义超...

MiniMax M3来了:编程超 GPT-5.5,即将开源

MiniMax近期发布了M3大语言模型,该模型在编程、百万上下文和原生多模态三个核心方向上均达到了国际前沿水平,并且即将开源。作为国内首个齐备图片与视频输入...

400 tokens/秒!阶跃Step 3.7 Flash,把Agent任务成本打到Claude零头

阶跃星辰正式发布了Step 3.7 Flash多模态大模型,旨在解决人工智能代理在规模化应用中面临的高成本与高延迟问题。该模型以极高的生成速度和仅需竞品九分之一...

I/O大会开完,谷歌连搜索框都变智能体了

谷歌I/O大会正式确立了向全天候智能体时代转型的核心战略,大模型行业竞争焦点已从基准测试榜单全面转向工程落地与规模化应用。当前全球用户通过谷歌渠道每月...

Coding Plan 只是过渡。

针对早期模型调用成本难以预估的行业痛点,市场曾广泛采用按梯度划分调用额度的编程类算力订阅模式。随着生成式人工智能向复杂任务场景延伸,服务形态迅速从...

Hassabis狂赞!谷歌爆改50年鼠标,指哪AI打哪,连提示词都省了

谷歌DeepMind近期发布基于多模态大模型驱动的实验性交互原型「AI-enabled pointer」,旨在系统性重构传统的人机操作逻辑。该技术方案突破了数十年来指针设备...

手机跑多模态也能快到飞起!面壁MiniCPM-V 4.6开源

大模型技术正加速向移动终端演进,实现复杂图文与视频任务的本地化实时处理。MiniCPM-V 4.6作为一款专为端侧部署深度优化的多模态模型,依托视觉编码器与轻量...
1 2 3 46