标签:多模态

DeepSeek多模态新范式:一张图压缩7056倍,思考能力反超GPT和Claude

技术实现方面,研究基于DeepSeek-V4-Flash紧凑架构,采用压缩稀疏注意力机制对海量视觉信息进行极致压缩。一张图片的关键信息在模型缓存中仅占用约90个存储单...

北大开源统一世界模型框架:多类合成推理任务一套搞定

在架构设计上,系统以Pipeline模块为核心调度中枢,统筹管理单轮推理与多轮交互流程。底层采用模型抽象规范,配合Operator模块完成多模态原始信号的校验与标...

DeepSeek首次有了视觉能力,技术论文却被它连夜删掉了

近期,深度求索在开启视觉能力灰度测试后,迅速发布并随后撤回了相关技术论述,其核心在于提出了视觉基元推理框架。传统大模型常依赖自然语言处理图像信息,...

一个小众模型突然火了,可能代表新的范式。

近年大模型密集发布,虽在性能参数上持续优化,但底层架构的范式演进仍是技术发展的核心。行业已历经三大关键里程碑:通过内部思维链实现深度计算的推理范式...

确认!DeepSeek多模态AI已经开测

视觉能力的落地建设直接依托核心研发团队的专项攻关。多模态研究组负责人主导了整体架构设计与跨模态对齐方案,其前期统筹的统一多模态框架及基于稀疏专家的...

阿里HappyHorse开启灰测,720P视频生成低至0.44元/秒

阿里巴巴视频生成模型已正式开启灰度测试,面向多元用户群体构建分级服务矩阵。专业机构与企业客户可依托独立官网及阿里云生态完成服务部署,大众用户则通过...

马斯克来抖音卖老干妈了??

近期网络流传的马斯克直播带货及游戏联动截图,实则均为人工智能生成内容,这展示了最新图像生成模型的真实水平,标志着“有图为证”时代的终结。该模型最显著...

再封神!OpenAI掀翻AI图像生成,极度逼真,立刻商用

OpenAI 再次引发行业震动,传闻中的 GPT-Image-2 正处于灰度测试阶段,其表现被外界视为又一次技术封神。此前 GPT-4o 的发布已对原有的 AI 生图工作流造成巨...

去掉像素中介!上海交大让AI边看边想边画,用同一个“大脑”跨模态推理

来自国内外知名高等学府与合作实验室的人工智能专家团队,近期攻克了一项关键技术创新点。他们开发的新型架构彻底移除了图像编码至语义分析的像素级中转过程...

雷军刘强东,投了个29岁哥大学霸

作为近年刚诞生的新型组织,其核心管理层展现出极高的专业水准,创始人由一位出生在 1997 年的年轻学人担任。他在全球知名研究机构从事深度学习课题研究,并...
1 2 3 44