2张4090竟能本地微调万亿参数Kimi K2!趋境联合清华北航把算力门槛击穿了

AIGC动态2小时前发布 QbitAI
57 0 0
2张4090竟能本地微调万亿参数Kimi K2!趋境联合清华北航把算力门槛击穿了

 

文章摘要


【关 键 词】 大模型微调技术低成本方案异构计算开源项目

微调超大参数模型的成本门槛已被显著降低,仅需2-4张消费级显卡即可在本地完成对DeepSeek 671B或Kimi K2 1TB等万亿级参数模型的微调。这一突破性进展源于KTransformers与LLaMA-Factory两个国产开源项目的协同创新。KTransformers通过GPU+CPU异构计算架构,将Kimi K2 1TB模型的微调显存需求从理论值2000GB压缩至90GB,而DeepSeek 671B模型仅需70GB显存。

技术实现上,LLaMA-Factory作为统一调度框架管理微调全流程,KTransformers则作为高性能后端接管Attention/MoE等核心算子。对比测试显示,KTransformers是当前唯一能在消费级硬件上支持MoE模型微调的方案,在DeepSeek-14B等较小模型上也展现出更高的吞吐量和更低显存占用。其核心技术包括:将专家层负载转移至CPU内存、LoRA与高性能算子融合设计,以及利用Intel AMX指令集优化CPU计算效率。

实际应用效果验证表明,微调后的模型在风格化输出和专业领域表现均有显著提升。以DeepSeek 671B为例,使用NekoQA-10K数据集微调后,模型输出从标准AI回答转变为”喵娘”风格;在非洲医疗数据集(AfriMed-QA)上的评测指标(BLEU、ROUGE等)也获得大幅提升。这种低成本微调能力开启了AI个性化定制的新阶段,包括打造私有知识库助手、风格化写作代理、专业领域专家系统等场景。

操作层面,项目团队提供了开箱即用的wheel包,用户只需简单配置即可通过LLaMA-Factory界面启动微调流程。这种”底层高性能+上层易用性”的组合,使得高校团队和个人开发者都能基于消费级硬件开展大模型定制。趋境科技与清华KVCache.AI的合作,标志着从推理到微调的全栈优化能力已经形成,为AI大模型的实际落地提供了更具性价比的技术路径。项目代码和详细指南已在GitHub开源,开发者可直接部署体验。

原文和模型


【原文链接】 阅读原文 [ 2421字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...