标签:端到端

去掉 VAE 之后,商汤用 8B 参数重新定义了开源生图的上限

商汤推出的SenseNova U1系列模型基于自研的NEO-unify架构,彻底摒弃传统视觉编码器与变分自编码器,直接在像素与文本层面实现端到端协同学习。该设计突破了多...

独家|不信人形的朱啸虎,又投了一家机器人公司

在技术演进路线上,该团队以研发柔性自主决策系统为核心,提出“一脑多形”的整体架构,意图通过统一的核心控制底层驱动多种形态的物流运载装备。有别于依赖预...

彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器

当前多模态大模型领域长期遵循搭配视觉编码器负责感知理解、变分自编码器完成内容生成的默认范式,这种设计在感知与生成之间留下天然鸿沟,后续业界提出的共...

击败GPT、Gemini,复旦×创智孵化创业团队「模思智能」,语音模型上新了

模思智能发布的多说话人自动语音识别模型MOSS-Transcribe-Diarize在语音识别与分析领域取得突破性进展。该模型由复旦邱锡鹏团队研发,能够同时完成语音转文字...

马斯克10年梦成真!特斯拉全球首次自动驾驶横穿美国,人类0接管

2026年1月1日,特斯拉FSD(全自动驾驶系统)创造了历史性突破——全球首次实现人类零接管横穿美国大陆。车主David Moss驾驶搭载FSD V14.2的Model 3,从洛杉矶出...

中山大学王广润:大模型的微调只是对空间建模的微调 | GAIR 2025

王广润博士在GAIR 2025大会的演讲聚焦于基础模型与物理世界建模的前沿探索。他指出,真实世界的动态性和复杂性要求AI不仅具备感知能力,还需理解物理规律并预...

中心动态重分配哈希,北邮团队提出并开源CRH项目 | AAAI 2026

基于哈希中心的深度哈希方法已成为大规模图像检索的主流技术,但传统方法存在哈希中心初始化随机化、忽略类间语义关系的问题。两阶段方法SHC通过分离的中心生...

腾讯开源 HunyuanOCR,用纯粹视觉语言模型架构,仅1B参数刷新多项高阶任务SOTA

腾讯HunyuanOCR通过创新的端到端视觉语言模型架构,仅用10亿参数便解决了传统OCR系统的级联误差与通用大模型效率低下的双重难题。该系统摒弃了传统多模块串联...

理想智驾逆袭往事:端到端的百日冲刺

李想在2024年3月的春季战略会上对自动驾驶团队发出严厉警告,要求必须转向端到端技术路线,否则团队将面临重组。这一指令源于理想智驾长期处于行业追赶状态,...

特斯拉世界模拟器亮相ICCV!VP亲自解密端到端自动驾驶技术路线

特斯拉自动驾驶副总裁Ashok Elluswamy在计算机视觉顶会ICCV上展示了其世界模拟器技术,该技术能够生成高度真实的驾驶场景视频,用于自动驾驶模型的训练和评估...
1 2