Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

关注+2024-04-01作者：佚名

近期，中国香港中文大学和 SmartMore 的研究人员推出了一种名为 Mini-Gemini 的新颖框架，通过增强多模态输入处理来推动 VLMs 的发展。Mini-Gemini 采用了双编码器系统和一种新颖的补丁信息挖掘技术，结合一个特别策划的高质量数据集，使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容，从而使其脱颖而出。Mini-Gemini 的方法论包括一个双编码器系统，其中包括一个卷积神经网络，用于精细处理图像，增强视觉标记而不增加它们的数量。它利用补丁信息挖掘来提取详细的视觉线索。该框架在一个复合数据集上进行训练，将高质量的图像文本对和面向任务的指令相结合，以提高模型性能和应用范围。Mini-Gemini 兼容各种大型语言模型（LLMs），参数范围从2B 到34B，实现了高效的任意推断。这一设置使 Mini-Gemini 在零样本基准测试中取得了卓越的成绩，并支持高级多模态任务。

在评估 Mini-Gemini 的有效性时，该框架在几个零样本基准测试中展示了领先的表现。具体来说，在 MM-Vet 和 MMBench 基准测试中，它超越了 Gemini Pro 模型，分别获得了79.6和75.6的分数。当配置为 Hermes-2-Yi-34B 时，Mini-Gemini 在 VQAT 基准测试中取得了令人瞩目的70.1分，超过了现有的 LLaVA-1.5模型在所有评估指标上的表现。这些结果验证了 Mini-Gemini 在处理复杂的视觉和文本任务时的高效性和精度。

该研究介绍了 Mini-Gemini，通过双编码器系统、补丁信息挖掘和高质量数据集推动了 VLMs 的发展。Mini-Gemini 在多个基准测试中展现了出色的性能，超越了现有模型，标志着多模态人工智能能力的重要进步。

然而，正如研究人员所承认的那样，Mini-Gemini 在视觉理解和推理能力方面仍有改进空间，他们断言未来的工作将探索视觉理解、推理和生成的高级方法。