标签:端到端
击败GPT、Gemini,复旦×创智孵化创业团队「模思智能」,语音模型上新了
模思智能发布的多说话人自动语音识别模型MOSS-Transcribe-Diarize在语音识别与分析领域取得突破性进展。该模型由复旦邱锡鹏团队研发,能够同时完成语音转文字...
马斯克10年梦成真!特斯拉全球首次自动驾驶横穿美国,人类0接管
2026年1月1日,特斯拉FSD(全自动驾驶系统)创造了历史性突破——全球首次实现人类零接管横穿美国大陆。车主David Moss驾驶搭载FSD V14.2的Model 3,从洛杉矶出...
中山大学王广润:大模型的微调只是对空间建模的微调 | GAIR 2025
王广润博士在GAIR 2025大会的演讲聚焦于基础模型与物理世界建模的前沿探索。他指出,真实世界的动态性和复杂性要求AI不仅具备感知能力,还需理解物理规律并预...
中心动态重分配哈希,北邮团队提出并开源CRH项目 | AAAI 2026
基于哈希中心的深度哈希方法已成为大规模图像检索的主流技术,但传统方法存在哈希中心初始化随机化、忽略类间语义关系的问题。两阶段方法SHC通过分离的中心生...
腾讯开源 HunyuanOCR,用纯粹视觉语言模型架构,仅1B参数刷新多项高阶任务SOTA
腾讯HunyuanOCR通过创新的端到端视觉语言模型架构,仅用10亿参数便解决了传统OCR系统的级联误差与通用大模型效率低下的双重难题。该系统摒弃了传统多模块串联...
理想智驾逆袭往事:端到端的百日冲刺
李想在2024年3月的春季战略会上对自动驾驶团队发出严厉警告,要求必须转向端到端技术路线,否则团队将面临重组。这一指令源于理想智驾长期处于行业追赶状态,...
特斯拉世界模拟器亮相ICCV!VP亲自解密端到端自动驾驶技术路线
特斯拉自动驾驶副总裁Ashok Elluswamy在计算机视觉顶会ICCV上展示了其世界模拟器技术,该技术能够生成高度真实的驾驶场景视频,用于自动驾驶模型的训练和评估...
将思维链(CoT)引入具身世界,哪种路径能真正打通机器人「知行合一」?
大模型处理复杂问题时,越来越倾向于生成推理链条,将问题拆解为多个环节逐步解决。支撑这一能力的核心技术是思维链(Chain of Thought, CoT),它从最初的提...
何恺明CVPR最新讲座PPT上线:走向端到端生成建模
今年的CVPR会议在美国田纳西州纳什维尔顺利闭幕,吸引了众多学术界人士参与。MIT副教授何恺明成为焦点,他的讲座全场爆满,并参与了多个重要活动,包括最佳论...
2499 元产品背后:地瓜机器人将智驾 know-how 转为机器人新解法
AI技术正在重塑机器人领域的技术边界,具身智能成为下一个竞争焦点。随着AI泛化能力的提升,机器人有望在家庭和工业场景中彻底改变体力劳动的边界,加速从专...
1
2




