监督微调 | 学习AIGC

大模型SFT后效果≠RL潜力！港科大、阿里提出自适应冷启动新范式

近年来，强化学习逐步确立为大语言模型后训练的核心领域。虽然有大量实证表明该路径能有效激发模型的复杂推理能力，但在实际操作中直接把普通模型投入使用极...

AIGC动态

1周前

在大模型时代，Scaling Law曾被视为AI领域的黄金准则，但随着模型规模扩展到百亿、千亿级，其边际效益开始递减。业界逐渐将重心从预训练转向后训练阶段，这一...

AIGC动态

6个月前

我们已进入大模型时代，大模型成为智能化基础设施核心，支撑多种下游应用，但多数模型是细分领域任务的专家，离通用人工智能（AGI）尚远，且存在“灾难性遗忘”...

AIGC动态

7个月前

Colossal-AI近期发布了开源大模型后训练工具箱，旨在帮助开发者通过低成本方式对DeepSeek V3/R1等大规模模型进行监督微调与强化学习优化。该工具箱支持高达67...

AIGC动态

1年前 (2025)

著名AI研究者Sebastian Raschka基于DeepSeek技术报告，系统阐述了增强大语言模型推理能力的四大核心方法。_推理模型被定义为擅长处理需要多步骤中间推导的复...

AIGC动态

1年前 (2025)