标签:多模态

Coding Plan 只是过渡。

针对早期模型调用成本难以预估的行业痛点,市场曾广泛采用按梯度划分调用额度的编程类算力订阅模式。随着生成式人工智能向复杂任务场景延伸,服务形态迅速从...

Hassabis狂赞!谷歌爆改50年鼠标,指哪AI打哪,连提示词都省了

谷歌DeepMind近期发布基于多模态大模型驱动的实验性交互原型「AI-enabled pointer」,旨在系统性重构传统的人机操作逻辑。该技术方案突破了数十年来指针设备...

手机跑多模态也能快到飞起!面壁MiniCPM-V 4.6开源

大模型技术正加速向移动终端演进,实现复杂图文与视频任务的本地化实时处理。MiniCPM-V 4.6作为一款专为端侧部署深度优化的多模态模型,依托视觉编码器与轻量...

清华系团队出手!一张 4090 即可「爆改」,1.3B小钢炮震撼开源

面壁智能联合清华大学及开源社区正式发布了端侧多模态大模型MiniCPM-V 4.6,该模型仅具备约1.3B参数规模,却在多模态性能与运行效率上实现了对同级别主流模型...

去掉 VAE 之后,商汤用 8B 参数重新定义了开源生图的上限

商汤推出的SenseNova U1系列模型基于自研的NEO-unify架构,彻底摒弃传统视觉编码器与变分自编码器,直接在像素与文本层面实现端到端协同学习。该设计突破了多...

DeepSeek多模态新范式:一张图压缩7056倍,思考能力反超GPT和Claude

技术实现方面,研究基于DeepSeek-V4-Flash紧凑架构,采用压缩稀疏注意力机制对海量视觉信息进行极致压缩。一张图片的关键信息在模型缓存中仅占用约90个存储单...

北大开源统一世界模型框架:多类合成推理任务一套搞定

在架构设计上,系统以Pipeline模块为核心调度中枢,统筹管理单轮推理与多轮交互流程。底层采用模型抽象规范,配合Operator模块完成多模态原始信号的校验与标...

DeepSeek首次有了视觉能力,技术论文却被它连夜删掉了

近期,深度求索在开启视觉能力灰度测试后,迅速发布并随后撤回了相关技术论述,其核心在于提出了视觉基元推理框架。传统大模型常依赖自然语言处理图像信息,...

一个小众模型突然火了,可能代表新的范式。

近年大模型密集发布,虽在性能参数上持续优化,但底层架构的范式演进仍是技术发展的核心。行业已历经三大关键里程碑:通过内部思维链实现深度计算的推理范式...

确认!DeepSeek多模态AI已经开测

视觉能力的落地建设直接依托核心研发团队的专项攻关。多模态研究组负责人主导了整体架构设计与跨模态对齐方案,其前期统筹的统一多模态框架及基于稀疏专家的...
1 2 3 45