端到端 | 学习AIGC

彻底告别VE与VAE！商汤硬核重构多模态：砍掉所有中间编码器

当前多模态大模型领域长期遵循搭配视觉编码器负责感知理解、变分自编码器完成内容生成的默认范式，这种设计在感知与生成之间留下天然鸿沟，后续业界提出的共...

AIGC动态

2周前

击败GPT、Gemini，复旦×创智孵化创业团队「模思智能」，语音模型上新了

模思智能发布的多说话人自动语音识别模型MOSS-Transcribe-Diarize在语音识别与分析领域取得突破性进展。该模型由复旦邱锡鹏团队研发，能够同时完成语音转文字...

AIGC动态

2个月前

马斯克10年梦成真！特斯拉全球首次自动驾驶横穿美国，人类0接管

2026年1月1日，特斯拉FSD（全自动驾驶系统）创造了历史性突破——全球首次实现人类零接管横穿美国大陆。车主David Moss驾驶搭载FSD V14.2的Model 3，从洛杉矶出...

AIGC动态

3个月前

中山大学王广润：大模型的微调只是对空间建模的微调 | GAIR 2025

王广润博士在GAIR 2025大会的演讲聚焦于基础模型与物理世界建模的前沿探索。他指出，真实世界的动态性和复杂性要求AI不仅具备感知能力，还需理解物理规律并预...

AIGC动态

3个月前

中心动态重分配哈希，北邮团队提出并开源CRH项目 | AAAI 2026

基于哈希中心的深度哈希方法已成为大规模图像检索的主流技术，但传统方法存在哈希中心初始化随机化、忽略类间语义关系的问题。两阶段方法SHC通过分离的中心生...

AIGC动态

3个月前

腾讯开源 HunyuanOCR，用纯粹视觉语言模型架构，仅1B参数刷新多项高阶任务SOTA

腾讯HunyuanOCR通过创新的端到端视觉语言模型架构，仅用10亿参数便解决了传统OCR系统的级联误差与通用大模型效率低下的双重难题。该系统摒弃了传统多模块串联...

AIGC动态

4个月前

理想智驾逆袭往事：端到端的百日冲刺

李想在2024年3月的春季战略会上对自动驾驶团队发出严厉警告，要求必须转向端到端技术路线，否则团队将面临重组。这一指令源于理想智驾长期处于行业追赶状态，...

AIGC动态

5个月前

特斯拉世界模拟器亮相ICCV！VP亲自解密端到端自动驾驶技术路线

特斯拉自动驾驶副总裁Ashok Elluswamy在计算机视觉顶会ICCV上展示了其世界模拟器技术，该技术能够生成高度真实的驾驶场景视频，用于自动驾驶模型的训练和评估...

AIGC动态

5个月前

将思维链（CoT）引入具身世界，哪种路径能真正打通机器人「知行合一」？

大模型处理复杂问题时，越来越倾向于生成推理链条，将问题拆解为多个环节逐步解决。支撑这一能力的核心技术是思维链（Chain of Thought, CoT），它从最初的提...

AIGC动态

9个月前

何恺明CVPR最新讲座PPT上线：走向端到端生成建模

今年的CVPR会议在美国田纳西州纳什维尔顺利闭幕，吸引了众多学术界人士参与。MIT副教授何恺明成为焦点，他的讲座全场爆满，并参与了多个重要活动，包括最佳论...

AIGC动态

9个月前

标签：端到端

彻底告别VE与VAE！商汤硬核重构多模态：砍掉所有中间编码器

击败GPT、Gemini，复旦×创智孵化创业团队「模思智能」，语音模型上新了

马斯克10年梦成真！特斯拉全球首次自动驾驶横穿美国，人类0接管

中山大学王广润：大模型的微调只是对空间建模的微调 | GAIR 2025

中心动态重分配哈希，北邮团队提出并开源CRH项目 | AAAI 2026

腾讯开源 HunyuanOCR，用纯粹视觉语言模型架构，仅1B参数刷新多项高阶任务SOTA

理想智驾逆袭往事：端到端的百日冲刺

特斯拉世界模拟器亮相ICCV！VP亲自解密端到端自动驾驶技术路线

将思维链（CoT）引入具身世界，哪种路径能真正打通机器人「知行合一」？

何恺明CVPR最新讲座PPT上线：走向端到端生成建模

热门网址

标签：端到端

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址