标签:模型压缩
大模型每百天性能翻倍!清华团队“密度法则”登上 Nature 子刊
OpenAI前首席科学家Ilya Sutskever指出,随着互联网公开语料接近枯竭,传统大模型预训练模式将难以为继。这一背景下,清华大学提出的'密度法则'(Densing Law...
Karpathy盛赞DeepSeek-OCR“淘汰”tokenizer!实测如何用Claude Code 让新模型跑在N卡上
DeepSeek团队最新发布的DeepSeek-OCR模型在OCR领域实现了多项技术突破。该6.6GB大小的专用模型首次量化了'视觉-文本token压缩比',验证了10倍近无损压缩和20...
全新开源的DeepSeek-OCR,可能是最近最惊喜的模型。
DeepSeek团队最新发布的DeepSeek-OCR模型突破了传统OCR的局限,将文字识别与结构化信息生成结合,实现了从图片到可编辑Markdown文档的端到端转换。该模型不仅...
苹果也在蒸馏大模型,给出了蒸馏Scaling Laws
苹果研究人员提出的蒸馏扩展定律为量化评估知识蒸馏效果提供了理论框架。该定律通过计算预算在教师模型与学生模型之间的分配关系,能够预测不同配置下学生模...
清华&面壁开源高效压缩技术:一块 80 G A100 轻松加载 50 个 7B 模型
清华大学与面壁智能团队提出了一种名为Delta Compression的技术,通过存储主干模型与任务专用模型之间的参数差值,显著降低了模型对显卡的存储需求。在此基础...
如何把大模型压缩到1bit?论文作者这样说
这篇文章讨论了对大模型进行压缩的重要性,尤其是在部署代价高昂的情况下。模型量化是一种压缩方法,通过将大模型的参数转换为低位宽的表示来节省空间占用。...
总结374篇相关工作,陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述
机器之心编辑部撰写的这篇文章主要讨论了大语言模型(LLMs)的知识蒸馏技术及其在研究和工业界中的应用。文章首先指出,尽管闭源LLMs如GPT-4、Gemini和Claude...
让大模型“瘦身”90%!清华&哈工大提出极限压缩方案:1bit量化,能力同时保留83%
### 摘要总结清华大学和哈尔滨工业大学的研究团队提出了一种名为OneBit的大模型1bit极限压缩框架,实现了大模型权重压缩超过90%的同时保留83%的能力。这一突...
清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!
摘要总结:清华大学和哈尔滨工业大学的研究团队在模型量化领域取得了重要进展,他们提出了一种名为「OneBit」的方法,成功将大型语言模型(LLM)压缩至1bit,...





