清华特奖获得者顾煜贤,加入DeepSeek
文章摘要
【关 键 词】 深度求索、顾煜贤、大模型、知识蒸馏、模型压缩
DeepSeek近期在算法、研发、产品等多个核心部门展开大规模人才招聘,同时其V4正式版模型即将于本月中旬上线。清华大学计算机系博士生顾煜贤已正式加入DeepSeek团队,并作为核心作者参与了DeepSeek V4的研发工作。顾煜贤曾荣获苹果博士奖学金及蚂蚁In-Tech奖学金等多项荣誉。他主张在硬件资源受限的背景下,通过算法创新来突破计算瓶颈。其本科与博士阶段均就读于清华大学,在交互式人工智能课题组开展深入研究,致力于大语言模型效率提升的理论与算法构建。
顾煜贤的学术研究主要聚焦于提升大语言模型在预训练、下游适配和推理等全生命周期中的整体效率。在高效模型架构探索中,他参与研发的Jet-Nemotron系列模型取得了突破性进展。该模型创新性地引入了后神经架构搜索机制与新型线性注意力模块,在达到顶尖全注意力模型精度的同时,大幅降低了计算成本。实验数据显示,Jet-Nemotron在GPU上的生成吞吐量实现了数十倍的显著加速,并且在多项权威基准测试中的准确率超越了多个参数规模更大的主流开源模型,展现出卓越的性能与效率平衡。
在模型压缩与知识蒸馏方向,顾煜贤提出了一种将大语言模型有效蒸馏为更小模型的新颖方法。该方法利用反向Kullback-Leibler散度替代传统的正向目标,并推导出相应的优化策略。基于此方法构建的MiniLLM模型在指令跟随任务中展现出更精准的回答质量和更强的长文本生成能力,同时具备更低的曝光偏差与更好的校准能力。这一知识蒸馏技术已获得产业界的广泛认可,被多家领先科技企业和开源平台实际应用。相关研究成果在国际顶级人工智能学术会议上发表并获得大量引用,持续推动着大语言模型向更高效、更易部署的方向发展。
原文和模型
【原文链接】 阅读原文 [ 1124字 | 5分钟 ]
【原文作者】 机器之心
【摘要模型】 qwen3.7-max-2026-05-20
【摘要评分】 ★☆☆☆☆



