标签:多模态AI
世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超越Nano Banana
北京智源人工智能研究院最新发布的悟界·Emu3.5标志着开源原生多模态世界模型的重大突破。该模型以34B参数量实现图、文、视频任务的统一处理,其核心突破在于...
                    苹果传统强项再发力,视觉领域三种模态终于统一
苹果虽在大模型领域表现不佳,但在计算机视觉领域的智能研究是其传统强项。为解决视觉模型拆分、难以统一泛化的痛点,Apple研究团队提出了ATOKEN(A Unified ...
                    年仅24岁、博士退学、项目平平,却签下2.5亿美元天价Offer?Meta的这波操作,全网看懵了
在 AI 军备竞赛日益激烈的背景下,Meta 为 24 岁的 AI 研究员 Matt Deitke 开出 2.5 亿美元薪酬包,刷新行业纪录。今年夏天,Meta 首席执行官马克·扎克伯格邀...
                    刚刚,全网最懂图文调研的智能体模型震撼上线,看完我直接卸了浏览器
七月国产大模型开源成高频现象,各大厂商纷纷开源数十款模型,八月这一势头未减。昆仑万维在八月开启 Skywork AI 技术发布周,连续五天推出多个新模型,覆盖...
                    AI写代码新姿势:一个截图,代替千行代码
商汤科技在GDC全球开发者先锋大会上发布了办公小浣熊2.0和代码小浣熊2.0的升级版本,并推出开源框架LazyLLM及万象应用开发平台。办公小浣熊2.0通过融合多模态...
                    OpenAI前CTO 官宣新公司,Lilian Weng联创,阵容最豪华的AI创企出现了
前 OpenAI 首席技术官 Mira Murati 联合多位行业顶尖人才创立了 AI 公司 Thinking Machines Lab,团队成员包括前 OpenAI 安全研究副总裁 Lilian Weng、OpenAI...
                    从骁龙8至尊版,我看到了AI手机的未来 | 智在终端
2024年最后一季度,安卓市场因骁龙8至尊版的发布而再次火热。AI成为手机市场的核心关键词,各大厂商通过实际进展证明端侧AI已成为手机竞争的新焦点。骁龙8至...
                    Sora终于来了,但多模态AI呼唤实用主义
OpenAI发布的视频生成模型Sora Turbo在实测中未能超越市场上现有视频模型,存在视频时长、生成效果一致性、指令遵循等方面的不足。Sora项目被比作视频版GPT-1...
                    实时音视频领域拓荒者的十年
实时对话式AI的机遇正在被业界广泛讨论和探索。RTE(实时互联网)大会自2015年引入中国以来,已发展成为全球规模最大的音视频行业峰会,吸引了众多行业专家和...
                    CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡
在CNCC 2024上,智谱展示了其最新的多模态AI技术成果,其中包括AutoGLM,一个能够模拟用户操作手机和浏览器的智能体,以及GLM-4-Voice情感语音模型,后者以其...
                     
                             
                         
                             
                        





