文章摘要
【关 键 词】 推荐系统、生成式AI、端到端架构、算力优化、大模型应用
传统推荐架构面临规模化瓶颈与范式局限,级联式设计导致算力碎片化,整体算力利用效率(MFU)长期低于1%。快手提出的生成式端到端架构OneRec通过统一召回、粗排、精排与重排环节,实现模型规模扩大与成本下降的协同优化,核心场景服务成本降至原系统1/10。该方案将稀疏ID转化为语义Token序列,通过Behavior Transformer处理用户行为,最终由Decoder生成推荐结果,首次验证了在CPM 20元、广告占比10%的商业场景下,7.6B参数模型在线服务的成本可行性。
技术实现上,OneRec创新性地采用多模态语义ID(SID)离散化方案,通过Vision-Language Model提取视频内容特征,结合协同过滤信号与语义保持Loss训练,使Token既能表征内容本质又契合推荐需求。强化学习框架设计三类奖励机制:用户体验偏好、业务生态约束(如创作者成长)及格式合法性验证,实现天级响应业务策略调整。实战数据显示,该系统在保持全量QPS条件下,不仅降低90%推理成本,更显著提升用户消费深度,为商业化内容插入创造增量空间。
OneRecV2针对早期架构进行深度优化,采用Lazy Decoder Only设计解决计算-监督错配问题。通过移除冗余的用户历史编码计算,将94%训练资源集中于解码环节,使同等资源下模型规模从0.5B扩展至8B,验证推荐场景的Scaling Law效应。当前系统已实现跨业务快速迁移,从短视频到本地生活、电商场景的落地周期缩短至1.5个月,子场景效果提升显著。
OneRec-Think尝试突破行为数据的单一维度,构建文本、图像与行为联合训练的统一基座。虽然当前效果暂未超越纯行为数据模型,但已证实多模态融合的可行性,并展现出交互式推荐潜力——模型能根据用户实时提示(如”心情不好”)动态调整推荐策略。该方向揭示了行为ID与多模态数据的天然互补性,为构建具备世界知识理解能力的推荐系统开辟新路径。
原文和模型
【原文链接】 阅读原文 [ 5656字 | 23分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆




