打破确定性魔咒!北航团队提出VBF++:用“不确定性建模”刷新多模态视频推荐 SOTA

AIGC动态2小时前发布 ai-front
26 0 0
打破确定性魔咒!北航团队提出VBF++:用“不确定性建模”刷新多模态视频推荐 SOTA

 

文章摘要


【关 键 词】 多模态推荐变分贝叶斯对抗优化元学习不确定性建模

VBF++框架通过概率化建模解决了多模态视频推荐系统中确定性融合方法面临的三大核心挑战。传统方法采用点估计策略,为输入计算单一最优权重向量,难以应对真实短视频生态中的认知不确定性、上下文无关先验和目标错位问题。该研究提出的VBF++框架将融合过程重新表述为变分推理问题,实现了从”点估计”到”分布建模”的范式转变。

上下文感知的结构化先验机制是VBF++的首要创新点。不同于传统变分方法假设所有视频服从相同简单分布,该框架根据视频语义类别动态调整融合策略的先验分布。实验显示,训练后的策略在潜在空间中自动聚类为有意义的语义群组:动作类视频视觉模态权重达0.68,音乐类视频声学模态权重升至0.71,纪录片则文本模态占主导(0.59)。这种自适应特性显著提升了模型对多模态数据的理解能力。

推荐引导的对抗优化(RAR)模块有效解决了变分自编码器目标与推荐任务之间的错位问题。通过建立经验回放缓冲区和引入判别器进行对抗训练,强制编码器生成的融合策略分布逼近高质量策略集合。这种设计确保模型在保持多样性的同时,生成的策略直接服务于推荐排序目标,而非单纯的特征重构。

元学习器的集成赋予模型应对冷启动和跨域推荐的能力。基于MAML思想的元学习机制,使模型能够通过少量梯度更新快速适应新内容和领域变化。实验数据表明,在跨域推荐设置下,VBF++相比基线方法取得18.0%-25.2%的性能提升,验证了该模块的有效性。

在三个真实数据集上的全面评估证实了VBF++的优越性能。该框架在所有数据集和指标上均超越14种基线方法,在数据稀疏的TikTok数据集上,Precision@10相比最先进的MVideoRec提升4.7%-8.3%。可视化分析揭示,传统注意力机制的融合策略几乎坍缩为单点,而VBF++则形成结构化的椭圆置信区域,既保留探索空间又确保准确性。

这项研究为多模态推荐系统提供了新的理论基础和技术路径,其创新性主要体现在将不确定性量化引入融合过程,并通过对抗优化和元学习增强了模型的实用性和适应性。工作不仅刷新了当前最佳性能,更重要的是建立了可解释的、语义感知的融合策略生成机制,为处理复杂多模态数据中的噪声和不确定性提供了系统解决方案。

原文和模型


【原文链接】 阅读原文 [ 2117字 | 9分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...