端到端 | 学习AIGC

去掉 VAE 之后，商汤用 8B 参数重新定义了开源生图的上限

商汤推出的SenseNova U1系列模型基于自研的NEO-unify架构，彻底摒弃传统视觉编码器与变分自编码器，直接在像素与文本层面实现端到端协同学习。该设计突破了多...

AIGC动态

1个月前

独家｜不信人形的朱啸虎，又投了一家机器人公司

在技术演进路线上，该团队以研发柔性自主决策系统为核心，提出“一脑多形”的整体架构，意图通过统一的核心控制底层驱动多种形态的物流运载装备。有别于依赖预...

AIGC动态

1个月前

彻底告别VE与VAE！商汤硬核重构多模态：砍掉所有中间编码器

当前多模态大模型领域长期遵循搭配视觉编码器负责感知理解、变分自编码器完成内容生成的默认范式，这种设计在感知与生成之间留下天然鸿沟，后续业界提出的共...

AIGC动态

3个月前

击败GPT、Gemini，复旦×创智孵化创业团队「模思智能」，语音模型上新了

模思智能发布的多说话人自动语音识别模型MOSS-Transcribe-Diarize在语音识别与分析领域取得突破性进展。该模型由复旦邱锡鹏团队研发，能够同时完成语音转文字...

AIGC动态

5个月前

马斯克10年梦成真！特斯拉全球首次自动驾驶横穿美国，人类0接管

2026年1月1日，特斯拉FSD（全自动驾驶系统）创造了历史性突破——全球首次实现人类零接管横穿美国大陆。车主David Moss驾驶搭载FSD V14.2的Model 3，从洛杉矶出...

AIGC动态

6个月前

中山大学王广润：大模型的微调只是对空间建模的微调 | GAIR 2025

王广润博士在GAIR 2025大会的演讲聚焦于基础模型与物理世界建模的前沿探索。他指出，真实世界的动态性和复杂性要求AI不仅具备感知能力，还需理解物理规律并预...

AIGC动态

6个月前

中心动态重分配哈希，北邮团队提出并开源CRH项目 | AAAI 2026

基于哈希中心的深度哈希方法已成为大规模图像检索的主流技术，但传统方法存在哈希中心初始化随机化、忽略类间语义关系的问题。两阶段方法SHC通过分离的中心生...

AIGC动态

7个月前

腾讯开源 HunyuanOCR，用纯粹视觉语言模型架构，仅1B参数刷新多项高阶任务SOTA

腾讯HunyuanOCR通过创新的端到端视觉语言模型架构，仅用10亿参数便解决了传统OCR系统的级联误差与通用大模型效率低下的双重难题。该系统摒弃了传统多模块串联...

AIGC动态

7个月前

理想智驾逆袭往事：端到端的百日冲刺

李想在2024年3月的春季战略会上对自动驾驶团队发出严厉警告，要求必须转向端到端技术路线，否则团队将面临重组。这一指令源于理想智驾长期处于行业追赶状态，...

AIGC动态

8个月前

特斯拉世界模拟器亮相ICCV！VP亲自解密端到端自动驾驶技术路线

特斯拉自动驾驶副总裁Ashok Elluswamy在计算机视觉顶会ICCV上展示了其世界模拟器技术，该技术能够生成高度真实的驾驶场景视频，用于自动驾驶模型的训练和评估...

AIGC动态

8个月前

标签：端到端

去掉 VAE 之后，商汤用 8B 参数重新定义了开源生图的上限

独家｜不信人形的朱啸虎，又投了一家机器人公司

彻底告别VE与VAE！商汤硬核重构多模态：砍掉所有中间编码器

击败GPT、Gemini，复旦×创智孵化创业团队「模思智能」，语音模型上新了

马斯克10年梦成真！特斯拉全球首次自动驾驶横穿美国，人类0接管

中山大学王广润：大模型的微调只是对空间建模的微调 | GAIR 2025

中心动态重分配哈希，北邮团队提出并开源CRH项目 | AAAI 2026

腾讯开源 HunyuanOCR，用纯粹视觉语言模型架构，仅1B参数刷新多项高阶任务SOTA

理想智驾逆袭往事：端到端的百日冲刺

特斯拉世界模拟器亮相ICCV！VP亲自解密端到端自动驾驶技术路线

热门网址

标签：端到端

AstronClaw

LibTV-AI视频创作

AI大学堂

热门网址