谷歌创新框架：从非结构化数据，实现多模态学习

AIGC动态1年前 (2024)发布 AIGCOPEN

2,008 0 0

文章摘要

【关键词】 多模态学习、注意力机制、LANISTR框架、数据融合、实验结果

在数据爆炸时代，大模型学习非结构化数据如视频、音频和图片面临重大挑战。多模态学习，特别是处理多种输入和异构数据时，深度神经网络易出现过拟合和泛化不足。

针对此，谷歌提出了LANISTR框架，一种基于注意力机制的创新方法。它使用基于掩码的训练和一种新的多模态掩码损失，来学习跨模态之间的关系。

现实世界的数据通常是多模态的，单一模态无法全面描绘事件。因此，LANISTR采用基于Transformer架构的交叉注意力机制，通过多模态融合编码器，将不同模态的信息高效整合。这种方法类似于人脑在不同感官信号间切换注意力的方式。

LANISTR的多模态融合编码器由文本、图像、表格和时间序列四种编码器组成，每种编码器针对特定模态进行优化，不仅增强了单个模态特征的理解，还促进了模态间的交互学习。

文本编码器通过掩码语言模型学习词语依赖和语境；图像编码器采用Vision Transformer学习图像高层次特征；表格编码器针对稀疏和多样的表格数据进行了优化；时间序列编码器使用循环神经网络捕捉时间动态模式。

实验结果表明，LANISTR在存在大量模态缺失的情况下，依然表现出色。例如，在使用极少量有标签数据的MIMIC-IV和亚马逊产品评论数据集上，LANISTR相比最先进的方法，在AUROC和准确率上分别有显著提升，证明了其在多模态学习方面的能力。

原文和模型

【原文链接】 阅读原文 [ 1446字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 glm-4
【摘要评分】 ★★★☆☆

智谱AI

智谱AI是一家国内的AI大模型...

# AIGC动态 # 图像生成 # 大模型 # 视频生成 # 音频生成 # LANISTR框架 # 多模态学习 # 实验结果 # 数据融合 # 注意力机制

文章版权归作者所有，未经允许请勿转载。

Mamba一作再祭神作，H100利用率飙至75%！FlashAttention三代性能翻倍，比标准注意力快16倍

新智元

1,448

被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作

机器之心

611

标点符号成大模型训练神器！KV缓存狂减一半，可处理400万Tokens长序列，来自华为港大等 | 开源

量子位

843

CVPR 2024｜多模态场景感知，小红书高保真人体运动预测方法来了！

admin

2,726

图解Transformer工作原理

AI大模型实验室

3,544

新PyTorch API：几行代码实现不同注意力变体，兼具FlashAttention性能和PyTorch灵活性

机器之心

2,524

暂无评论

暂无评论...

谷歌创新框架：从非结构化数据，实现多模态学习

文章摘要

原文和模型

麦肯锡：ChatGPT等生成式AI应用激增，大中华区增长最快

老黄一口气解密三代GPU！粉碎摩尔定律打造AI帝国，量产Blackwell解决ChatGPT全球耗电难题

相关文章

暂无评论

热门网址

热门文章

谷歌创新框架：从非结构化数据，实现多模态学习

文章摘要

原文和模型

麦肯锡：ChatGPT等生成式AI应用激增，大中华区增长最快

老黄一口气解密三代GPU！粉碎摩尔定律打造AI帝国，量产Blackwell解决ChatGPT全球耗电难题

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章