美团之后，京东也开始自研大模型了

54 0 0

文章摘要

研发团队为了保证学习效果专门建立了详尽的高质量数据管道。在处理公开网络资讯时加入特定的查重与隐私保护模块，并利用微调小模型去除广告杂项。大模型能有多聪明完全取决于它吃进去的数据有多好。代码数据经过逻辑重组延长篇幅，科学文献通过文档还原器变成可读文本。合成数据也在后期扮演关键角色，通过改写内容与构建沙盒环境记录有效操作，增强了处理实时任务的可靠性。

为了适应人类指令要求，后期训练分为微调、偏好优化与再强化三个阶段。传统的强化学习方法存在整句奖惩不分好坏词汇的问题，新推出的 FiberPO 算法实现了分级评分机制。这种方式保留了准确用语同时避免整体偏差，从而获得了更高的单位产出价值。使用了新算法的 JoyAI-LLM Flash 在各个维度上都展现出了极其出色的成绩，尤其在代码和工具使用上令人印象深刻。

为了适应终端部署限制，采用了额外的轻量预测块提升每秒文字吞吐量。配合前期训练的数值稳定技术提供了多种精度的模型版本选择以匹配本地电脑。工程师设计了针对不同场景的网络交互方案，将短句服务集中在单台机器，将长文档服务放在集中存管节点。这些措施消除了技术转化的最后一公里风险。这些扎实的技术经验，为京东将模型真正铺进各类商业场景扫清了最后的障碍。