标签:模型复现

租了8张H100,他成功复现了DeepSeek的mHC,结果比官方报告更炸裂

DeepSeek提出的mHC架构通过多流并行设计和双拟随机矩阵约束,解决了传统Transformer在大规模训练中的信号爆炸问题。传统残差连接采用单一信息流设计,而超连...

开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了

DeepSeek-R1模型的开源引发了全球技术社区对模型复现的热潮,其中Hugging Face主导的Open R1项目成为焦点。该项目通过公开训练代码、评估工具和合成数据集,...

Karpathy最新四小时视频教程:从零复现GPT-2,通宵运行即搞定

AI领域专家Andrej Karpathy推出了长达四小时的教程视频,主题为“让我们来复现GPT-2(1.24亿参数)”。该视频属于“Neural Networks:zero to hero”系列,内容全...

抱抱脸Open了OpenAI的秘密武器,网易参与复现

OpenAI的ChatGPT背后的关键技术RLHF(人类反馈强化学习)被Hugging Face等研究机构成功复现并开源。研究人员详细列出了25个关键实施细节,并展示了模型性能随...