Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型

关注+2024-04-12作者：学臣

4月12日消息:Meta AI近日推出了一种名为MA-LMM的新型模型，旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力，但在处理视频输入方面存在一些限制，例如上下文长度限制和GPU内存限制。

为了克服这些限制，研究人员提出了MA-LMM，这是一种记忆增强的大型多模态模型，采用了在线处理视频帧和存储特征的方法。

MA-LMM模型的核心思想是通过顺序处理视频帧并将特征存储在长期记忆库中，以有效地保留长视频序列中的判别信息。该模型由三个主要组件组成:视觉特征提取器、可训练的查询变压器（Q-Former）以及大型语言模型。通过这种结构，MA-LMM能够在不增加GPU内存负担的情况下，显著提高处理长视频序列的效率，并有效地解决了LLMs中的上下文长度限制问题。实验证明，MA-LMM在各种任务中表现出了优越性能。与现有模型相比，在长期视频理解、视频问答、视频字幕生成和在线动作预测等任务中，MA-LMM均取得了更好的效果。其创新性的设计以及利用长期记忆库和顺序处理的方法使得该模型能够在各种复杂场景下取得显著成果，证明了其在多模态视频理解应用中的有效性和多功能性。