谷歌创新框架:从非结构化数据,实现多模态学习

AIGC动态2个月前发布 AIGCOPEN
338 0 0
谷歌创新框架:从非结构化数据,实现多模态学习

 

文章摘要


【关 键 词】 多模态学习注意力机制LANISTR框架数据融合实验结果

在数据爆炸时代,大模型学习非结构化数据如视频、音频和图片面临重大挑战。多模态学习,特别是处理多种输入和异构数据时,深度神经网络易出现过拟合和泛化不足。

针对此,谷歌提出了LANISTR框架,一种基于注意力机制的创新方法。它使用基于掩码的训练和一种新的多模态掩码损失,来学习跨模态之间的关系。

现实世界的数据通常是多模态的,单一模态无法全面描绘事件。因此,LANISTR采用基于Transformer架构的交叉注意力机制,通过多模态融合编码器,将不同模态的信息高效整合。这种方法类似于人脑在不同感官信号间切换注意力的方式。

LANISTR的多模态融合编码器由文本、图像、表格和时间序列四种编码器组成,每种编码器针对特定模态进行优化,不仅增强了单个模态特征的理解,还促进了模态间的交互学习。

文本编码器通过掩码语言模型学习词语依赖和语境;图像编码器采用Vision Transformer学习图像高层次特征;表格编码器针对稀疏和多样的表格数据进行了优化;时间序列编码器使用循环神经网络捕捉时间动态模式。

实验结果表明,LANISTR在存在大量模态缺失的情况下,依然表现出色。例如,在使用极少量有标签数据的MIMIC-IV和亚马逊产品评论数据集上,LANISTR相比最先进的方法,在AUROC和准确率上分别有显著提升,证明了其在多模态学习方面的能力。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 1446字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 glm-4
【摘要评分】 ★★★☆☆

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...