最近听过最过瘾的推荐系统和 LLM 技术分享。

68 0 0

文章摘要

互联网核心的搜索、推荐和广告系统正全面进入大模型时代，经历着底层基础设施的重构。传统推荐系统依赖历史行为与统计相关性，面临模块独立、难以端到端优化以及冷启动效果不佳等瓶颈。大模型的引入正在打破这些局限，推动推荐系统从传统的筛选模式向生成与推理模式演进。

快手提出的OneRec生成式框架将传统多阶段推荐流程统一，直接生成用户下一步可能交互的内容，并验证了推荐系统同样存在Scaling Law。为进一步理解用户真实兴趣，OneReason模型将推荐任务重新定义为溯因推理任务，旨在通过推断行为背后的原因来预测未来需求。推荐任务本质上是一种推理任务，模型需要完成从行为到兴趣再到未来需求的逻辑推断。

在模型训练方面，预训练阶段实现了推荐物料与自然语言的多粒度对齐，监督微调阶段重构了专属推理链条。然而实验发现，仅靠监督微调让模型模仿推理过程并未带来效果提升。真正的转折发生在强化学习阶段，通过最终推荐结果反向牵引推理过程，模型才真正具备了思考能力，这表明会写推理链并不等同于拥有推理能力。

为解决线上部署的成本与延迟问题，Fast-Slow Thinking架构应运而生。慢系统进行深度推理，快系统负责实时响应，两者通过思考令牌结合。该方案在冷启动和低活用户场景中取得了显著的业务收益。此外，快手开放了推荐大模型基座与真实数据举办挑战赛，推动行业在接近真实的工业环境中进行探索。未来的推荐系统将向智能体推荐方向演进，从单纯的内容推荐转向帮助用户完成特定目标，实现从千人千面到千人千策的跨越。