阿里妈妈发布MUSE:用多模态搞定十万级超长行为序列,并开源Taobao-MM数据集

阿里妈妈发布MUSE:用多模态搞定十万级超长行为序列,并开源Taobao-MM数据集

 

文章摘要


【关 键 词】 推荐系统多模态建模长期兴趣数据挖掘算法优化

推荐系统长期以来面临”短期健忘症”的困境,受限于算力和存储,用户多年前的行为数据往往被截断或遗忘。阿里妈妈与武汉大学团队提出的MUSE框架,通过多模态搜索技术重构用户跨越时空的兴趣图谱,为这一难题提供了创新解决方案。

当前CTR建模已走过从短期行为到两阶段长期行为建模的技术演进,但单纯在ID-based结构上叠加改进的边际收益逐渐降低。MUSE突破性地利用图像与文本语义力量,系统性提升了终身兴趣建模的质量与可用长度,其架构与现有模型正交,可作为可插拔模块使用。线上实验显示,该框架在10万长度用户行为序列建模中实现CTR提升12.6%,同时开源了Taobao-MM数据集支持学界研究。

在技术实现层面,MUSE展现出三个关键设计原则:GSU阶段采用轻量余弦检索即可获得显著效果提升;ESU阶段则需要深度融合多模态信息;高质量表征对ESU效果影响尤为显著。具体架构包含SCL多模态预训练、基于余弦相似度的GSU检索,以及SimTier+SA-TA双路建模的ESU系统。SimTier通过相似度直方图捕捉语义兴趣分布,SA-TA则在ID attention中注入多模态信号,二者协同构建完整的终身兴趣表示。

工程落地方面,通过将GSU与Matching阶段并行处理,并将多模态embedding预缓存至GPU显存,MUSE在引入10万级行为序列的同时保持了延迟可控。这种异步预取设计有效解决了超长序列带来的I/O瓶颈,使新增计算开销主要集中在可接受的ESU部分。

该研究为业界提供了可直接复用的实践经验:优先提升多模态embedding质量,用余弦检索替代复杂GSU结构;在ESU中分步引入相似度直方图和语义增强attention;通过架构重组解决序列拉取瓶颈。这些方法特别适用于具备长行为日志和丰富内容特征的业务场景。

作为首个同时支持长序列和多模态embedding的公开数据集,Taobao-MM填补了该领域的研究空白。其包含1亿样本、900万用户和3500万级item,为验证多模态长序列建模方案提供了基准。这项工作的核心价值在于跳出ID-only框架的局限,从信号获取、架构设计和工程实现三个维度重新组织推荐系统,展示了算法与工程深度协同带来的突破性进展。

原文和模型


【原文链接】 阅读原文 [ 5331字 | 22分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...