标签:多模态
马斯克来抖音卖老干妈了??
近期网络流传的马斯克直播带货及游戏联动截图,实则均为人工智能生成内容,这展示了最新图像生成模型的真实水平,标志着“有图为证”时代的终结。该模型最显著...
再封神!OpenAI掀翻AI图像生成,极度逼真,立刻商用
OpenAI 再次引发行业震动,传闻中的 GPT-Image-2 正处于灰度测试阶段,其表现被外界视为又一次技术封神。此前 GPT-4o 的发布已对原有的 AI 生图工作流造成巨...
去掉像素中介!上海交大让AI边看边想边画,用同一个“大脑”跨模态推理
来自国内外知名高等学府与合作实验室的人工智能专家团队,近期攻克了一项关键技术创新点。他们开发的新型架构彻底移除了图像编码至语义分析的像素级中转过程...
雷军刘强东,投了个29岁哥大学霸
作为近年刚诞生的新型组织,其核心管理层展现出极高的专业水准,创始人由一位出生在 1997 年的年轻学人担任。他在全球知名研究机构从事深度学习课题研究,并...
GPT-6,曝光了
伴随技术迭代的节奏,企业内部管理结构也随之进行了深刻的重组。为了确保新项目研发所需的计算资源,多款非核心的前沿试验项目已被中止或推迟。由此波及到与...
实时交互 AI 技术基建,Soul 打出了王牌
Soul平台正通过持续的开源动作,构建覆盖多模态实时交互能力的AI生态系统,推动社交从功能工具向情感连接本质回归。其核心路径聚焦于“真实场景可用”与“多模态...
五百行代码打造SOTA视觉智能体!UniPat AI最新开源
SWE-Vision是一种极简的视觉智能体框架,旨在通过让模型编写并执行Python代码来弥补其在基础视觉任务中的精度缺陷。研究发现,尽管当前多模态大模型在编程能...
AI的七窍打通了!谷歌发布Gemini Embedding 2原生多模态嵌入模型
谷歌正式发布了名为 Gemini Embedding 2 的新型基础架构,实现了 AI 像人类一样用五种感官同步感知世界。这个系统将文字、图像、视频、音频和文档数据全部整...
谷歌AGI底座降临!首个原生全模态嵌入模型上线,已实现全模态SOTA
谷歌正式发布了首个原生全模态 Embedding 模型 Gemini Embedding 2,该模型能够将文本、图像、音视频及 PDF 文档无损融合于统一向量空间。这一突破性进展实现...
14B规模竟也能单卡实时生成视频?多亏这个强大的开源底座
春节期间Seedance 2.0爆火推动视频生成领域关注度提升,字节跳动联合北大、安努智能、Canva开源具备实时生成能力的Helios视频模型家族,包含三个版本,全面覆...




