总结论文时安全检查不通过，跳过。
 "多模态大型语言模型（MM-LLMs）：近期进展
杜震*，于亚汉*，李辰星，董家华，苏丹，储晨辉†，于东
1腾讯AI实验室
2京都大学
3中国科学院沈阳自动化研究所
scoutzhang@tencent.com，yahan@nlp.ist.i.kyoto-u.ac.jp

摘要
在过去的一年中，多模态大型语言模型（MM-LLMs）取得了显著的进步，通过成本效益的训练策略，增强了现成的大型语言模型（LLMs）以支持MM输入或输出。由此产生的模型不仅保留了LLMs固有的推理和决策能力，而且增强了多种MM任务。在本文中，我们提供了一个全面的调查，旨在促进MM-LLMs的进一步研究。具体来说，我们首先概述了模型架构和训练流程的一般设计公式。随后，我们简要介绍了26个现有的MM-LLMs，每个模型都以其特定的公式为特征。此外，我们回顾了MM-LLMs在主流基准测试上的表现，并总结了增强MM-LLMs效能的关键训练配方。最后，我们探索了MM-LLMs的有前景的方向，同时维护了一个实时跟踪该领域最新发展的网站1。我们希望这个调查能够为MM-LLMs领域的持续进步做出贡献。

1 引言
多模态（MM）预训练研究在过去几年中见证了显著的进步，持续推动了各种下游任务的性能边界（Li等人，2020；Akbari等人，2021；Fang等人，2021；Yan等人，2021；Li等人，2021；Radford等人，2021；Li等人，2022；Zellers等人，2022；Zeng等人，2022b；Yang等人，2022；Wang等人，2022a,b）。然而，随着模型和数据集规模的不断扩大，传统的MM模型产生了巨大的计算成本，特别是从头开始训练时。认识到MM研究在各种模态的交叉点上运作，一个合理的方法是利用现成的单模态基础模型，特别是强大的大型语言模型（LLMs）（OpenAI，2022）。这一策略旨在减轻计算开销并提高MM预训练的效能，导致了一个新的领域：MM-LLMs的出现。

MM-LLMs利用LLMs作为认知动力源来增强各种MM任务。LLMs贡献了如强大的语言生成、零样本迁移能力和上下文学习（ICL）等理想属性。同时，其他模态的基础模型提供了高质量的表示。考虑到来自不同模态的基础模型是单独预训练的，MM-LLMs面临的主要挑战是如何有效地连接LLM与其他模态的模型，以实现协作推理。该领域的主要关注点一直是通过MM预训练（PT）+ MM指令调整（IT）流程来优化模态之间的对齐和与人类意图的对齐。随着GPT-4（Vision）（OpenAI，2023）和Gemini（Team等人，2023）的亮相，展示了令人印象深刻的MM理解和生成能力，MM-LLMs的研究热情日益高涨。"

请注意，这段翻译是基于提供的英文摘要内容进行的直译。由于原文中包含了一些专业术语和缩写，可能需要根据具体的研究背景和领域知识进行适当的调整。此外，原文中的一些日期和引用信息（如arXiv:2401.13601v2 [cs.CL]）在翻译中保持原样，以便于读者查阅原文。
 LLMs（大型语言模型）的研究已经点燃了火花。初步研究主要集中在多模态（MM）内容理解和文本生成方面，例如（Open）Flamingo（Alayrac等人，2022年；Awadalla等人，2023年）、BLIP-2（Li等人，2023年c）、Kosmos-1（Huang等人，2023年c）、LLaVA/LLaVA-1.5（Liu等人，2023年e、d）、MiniGPT-4（Zhu等人，2023年a）、MultiModal-GPT（Gong等人，2023年）、VideoChat（Li等人，2023年d）、Video-LLaMA（Zhang等人，2023年e）、IDEFICS（IDEFICS，2023年）、Fuyu-8B（Bavishi等人，2023年）和QwenAudio（Chu等人，2023年b）。为了追求能够处理多模态输入和输出的MM-LLMs（Aiello等人，2023年），一些研究还探索了特定模态的生成，例如Kosmos-2（Peng等人，2023年）和MiniGPT-5（Zheng等人，2023b）引入了图像生成，SpeechGPT（Zhang等人，2023年a）引入了语音生成。最近的研究努力集中在模仿人类般的任何到任何模态转换，为人工通用智能的道路提供了启示。一些努力旨在将LLMs与外部工具结合起来，以实现接近‘任何到任何’的多模态理解和生成，例如Visual-ChatGPT（Wu等人，2023年a）、ViperGPT（Surís等人，2023年）、MM-REACT（Yang等人，2023年）、HuggingGPT（Shen等人，2023年）和AudioGPT（Huang等人，2023年b）。相反，为了减轻级联系统中传播的错误，NExT-GPT（Wu等人，2023年d）和CoDi-2（Tang等人，2023年b）开发了任意模态的端到端MM-LLMs。本文中，我们提出了一项全面的调查，旨在促进MM-LLMs的进一步研究。为了向读者提供对MM-LLMs的整体理解，我们首先从模型架构（第2节）和训练流程（第3节）的角度概述了一般设计公式。我们将一般模型架构分解为五个组件：模态编码器（第2.1节）、输入投影器（第2.2节）、LLM主干（第2.3节）、输出投影器（第2.4节）和模态生成器（第2.5节）。训练流程阐明了如何增强预训练的仅文本LLM以支持多模态输入或输出，主要由两个阶段组成：多模态预训练（MM PT，第3.1节）和多模态微调（MM IT，第3.2节）。在本节中，我们还提供了主流多模态预训练和微调数据集的总结。接下来，我们在第4节讨论了26个最先进的（SOTA）MM-LLMs，每个都具有特定的公式，并总结了它们的发展趋势。在第5节中，我们全面回顾了主要MM-LLMs在主流基准测试上的性能，并提炼了关键的训练配方以提高MM-LLMs的效能。在第6节中，我们提供了MM-LLMs研究的有希望的方向。此外，我们还建立了一个网站（https://mm-llms.github.io）来跟踪MM-LLMs的最新进展并促进众包更新。最后，我们在第7节总结了整篇文章，并在附录A中讨论了与MM-LLMs相关的调查。我们希望我们的调查能够帮助研究人员更深入地理解这个领域，并激发更有效的MM-LLMs的设计。

2 模型架构
在本节中，我们提供了一般模型架构的五个组成部分的详细概述，以及每个组成部分的实现选择，如图2所示。强调多模态理解的MM-LLMs通常只包括前三个组件。在训练过程中，模态编码器、LLM主干和模态生成器通常保持冻结状态。主要的优化重点是输入和输出投影器。由于投影器是轻量级组件，MM-LLMs中可训练参数的比例相对于总参数计数显著较小（通常约为2%）。总体参数计数取决于MM-LLMs中使用的LLM的规模。因此，MM-LLMs可以高效地训练以支持各种多模态任务。

2.1 模态编码器
模态编码器（ME）的任务是编码来自不同模态的输入IX以获得相应的特征FX，公式如下：
FX=
 图像视频
音频
模态编码器 ! 输入投影器Θ!→#
文本 $!!……图像视频NFNet-F6ViTCLIP ViTEva-CLIP ViTAudioC-FormerHuBERTBEATs"!线性投影器MLPCross-aAenBonQ-FormerP-Former…#!LLM主干Flan-T5ChatGLMUL2QwenChinchillaOPTPaLMLLaMALLaMA-2…S!输出投影器Θ$→%微型变换器MLP…%!模态生成器 "#!图像视频音频音频LDMStable DiﬀusionZeroscope…
❄
❄
❄
""$
多模态理解多模态生成…统一图像绑定Vicuna图2：MM-LLMs的一般模型架构以及每个组件的实现选择。
图像识别的SOTA水平。ViT通过首先将图像分割成块，然后进行线性投影以展平这些块，接着通过多个Transformer块进行编码，将Transformer（Vaswani等人，2017）应用于图像。CLIP ViT通过对比学习优化ViT，构建了文本和图像之间的联系，包括一个ViT和一个文本编码器。利用大量文本-图像对，它将配对的文本和图像视为正样本，其他视为负样本。其Eva版本稳定了庞大CLIP的训练和优化过程，为扩展和加速昂贵的MM基础模型训练提供了新方向。对于视频，它们可以被均匀采样为5帧，经历与图像相同的预处理。音频模态通常由C-Former（Chen等人，2023b）、HuBERT（Hsu等人，2021）、BEATs（Chen等人，2023f）和Whisper（Radford等人，2023）编码。C-Former采用CIF对齐机制（Dong和Xu，2020；Zhang等人，2022a）进行序列转导，并使用Transformer提取音频特征。HuBERT是基于BERT（Kenton和Toutanova，2019）的自监督语音表示学习框架，通过预测离散隐藏单元来实现。BEATs是一个迭代音频预训练框架，旨在从音频Transformer中学习双向编码器表示。3D点云模态通常由ULIP-2（Salesforce，2022；Xu等人，2023a,b）编码，使用PointBERT（Yu等人，2022）作为主干。此外，为了处理众多异构模态编码器，一些MM-LLMs，特别是any-to-any类型的，使用ImageBind（Girdhar等人，2023），这是一个统一的编码器，覆盖了包括图像、视频、文本、热图等在内的六种模态。2.2 输入投影器
输入投影器ΘX→T的任务是将其他模态的编码特征FX与文本特征空间T对齐。对齐后的特征PX作为提示与文本特征FT一起输入到LLM主干。给定X-text数据集{IX, t}，目标是最小化X条件下的文本生成损失Ltxt-gen：
arg min
ΘX→TLtxt-gen(LLM(PX,FT), t), (2)
其中PX=ΘX→T(FX)。
输入投影器可以直接通过线性投影器或多层感知器（MLP），即几个线性投影器与非线性激活函数交替实现。还有更复杂的实现，如交叉注意力，Q-Former（Li等人，2023c）或P-Former（Jian等人，2023）。交叉注意力使用一组可训练的向量作为查询，将编码特征FX作为键，将特征序列压缩到固定长度。然后，压缩后的表示直接输入到LLM（Bai等人，2023b）或进一步用于X-text交叉注意力融合（Alayrac等人，2022）。Q-Former从FX中提取相关特征，然后选择的特征用作提示PX。同时，P-Former生成“参考提示”，对Q-Former产生的提示施加对齐约束。然而，Q-和P-Former都需要一个单独的PT过程进行初始化。2.3 LLM主干
以LLMs（Zhao等人，2023c；Naveed等人，2023；Luo等人，2023）为核心代理，MM-LLMs可以继承一些显著的特性，如零样本泛化、少样本ICL、Chain-of-Thought（CoT）和指令遵循。"

请注意，这段内容包含了一些专业术语和缩写，可能需要相关领域的知识才能完全理解。
 LLM（大型语言模型）从各种模态处理表示，参与对输入的语义理解、推理和决策。它产生（1）直接的文本输出t，和（2）来自其他模态的信号令牌SX（如果有的话）。这些信号令牌作为指令，指导生成器是否产生多模态（MM）内容，如果是，指定要产生什么内容：
t, SX = LLM(PX, FT)，（3）
其中，其他模态的对齐表示PX可以被视为LLM主干的软提示调优。此外，一些研究工作引入了参数高效的微调（PEFT）方法，如前缀调优（Prefix-tuning，Li和Liang，2021）、适配器（Adapter，Houlsby等，2019）和LoRA（Hu等，2021）。在这些情况下，额外可训练参数的数量非常少，甚至不到LLM参数总数的0.1%。我们在附录B中介绍了主流的PEFT方法。
在MM-LLMs中常用的LLM包括Flan-T5（Chung等，2022）、ChatGLM（Zeng等，2022a）、UL2（Tay等，2022）、Qwen（Bai等，2023a）、Chinchilla（Hoffmann等，2022）、OPT（Zhang等，2022b）、PaLM（Chowdhery等，2023）、LLaMA（Touvron等，2023a）、LLaMA-2（Touvron等，2023b）和Vicuna（Chiang等，2023）。我们在附录C中简要介绍了这些模型。

2.4 输出投影器
输出投影器ΘT→X将LLM主干的信号令牌表示SX映射成模态生成器MGX能理解的特征HX。给定X文本数据集{IX, t}，首先将其输入LLM生成对应的SX，然后映射成HX。为了促进映射特征HX的对齐，目标是最小化HX与MGX的条件文本表示τX之间的距离：
arg min ΘT→X Lmse(HX, τX(t))。（4）
优化仅依赖于字幕文本，不利用任何音频或视觉资源X，其中HX=ΘT→X(SX)，τX是MGX中的文字条件编码器。输出投影器由Tiny Transformer或MLP实现。

2.5 模态生成器
模态生成器MGX的任务是在不同模态下产生输出。通常，现有工作使用现成的潜在扩散模型（LDMs）（Zhao等，2022），例如用于图像合成的Stable Diffusion（Rombach等，2022）、用于视频合成的Zeroscope（Cerspense，2023）和用于音频合成的AudioLDM-2（Liu等，2023b,c）。输出投影器映射的特征HX作为去噪过程中的条件输入，用于生成MM内容。在训练期间，真实内容首先通过预训练的VAE（Kingma和Welling，2013）转换为潜在特征z0。然后，向z0添加噪声ϵ以获得带噪声的潜在特征zt。使用预训练的Unet（Ronneberger等，2015）ϵX来计算条件LDM损失LX-gen如下：
LX-gen:=Eϵ∼N (0,1),t||ϵ−ϵX(zt, t,HX)||2，（5）
通过最小化LX-gen来优化参数ΘX→T和ΘT→X。

3 训练流程
MM-LLMs的训练流程可以分为两个主要阶段：MM预训练（PT）和MM微调（IT）。

3.1 MM预训练
在预训练阶段，通常利用X-Text数据集，输入和输出投影器通过优化预定义的目标（有时在LLM主干上应用PEFT）来实现不同模态之间的对齐。对于MM理解模型，优化仅关注方程（2），而对于MM生成模型，优化涉及方程（2）、（4）和（5）。在后一种情况下，方程（2）还包括真实信号令牌序列。X-Text数据集包括图像-文本、视频-文本和音频-文本，其中图像-文本有两种类型：图像-文本对（即<img1> <txt1>）和交错的图像-文本语料库（即<txt1> <img1> <txt2><txt3> <img2> <txt4>）。这些X-Text数据集的详细统计数据在附录F的表3中呈现。

3.2 MM微调
MM微调是一种方法，涉及使用一组指令格式的数据集
 这段文字描述了多模态大型语言模型（MM-LLMs）的研究进展，包括它们的训练方法、架构和一些最新的模型。以下是翻译：

"通过InstructGPT（Ouyang等人，2022年）、OPT-IML（Iyer等人，2022年）和InstructBLIP（Dai等人，2023年）等作品得到体现。MM IT包括监督式微调（SFT）和基于人类反馈的强化学习（RLHF），旨在与人类意图或偏好对齐并增强MM-LLMs的交互能力。SFT将部分预训练阶段数据转换为指令感知格式。以视觉问答（QA）为例，可以采用各种模板，如（1）<Image>{问题}问题的答案简短；（2）<Image>检查图像并回答以下问题：{问题}。然后，使用相同的优化目标对预训练的MM-LLMs进行微调。SFT数据集可以构建为单轮问答或多轮对话。SFT之后，RLHF涉及对模型的进一步微调，依赖于对MM-LLMs响应的反馈（例如，手动或自动标记的自然语言反馈（NLF））（Sun等人，2023年）。这个过程采用强化学习算法有效地整合了不可微的NLF。模型被训练为基于NLF生成相应的响应（Chen等人，2023年；Akyürek等人，2023年）。SFT和RLHF数据集的统计数据在附录F的表4中呈现。现有MM-LLMs在MM PT和MM IT阶段使用的数据集多样，但都是表3和表4中数据集的子集。

4 最先进的MM-LLMs
基于之前定义的设计公式，我们对26个最先进MM-LLMs的架构和训练数据集规模进行了全面比较，如表1所示。随后，我们将简要介绍这些模型的核心贡献并总结它们的发展趋势。
（1）Flamingo（Alayrac等人，2022年）代表了一系列视觉语言（VL）模型，旨在处理交错的视觉数据和文本，生成自由形式的文本作为输出。（2）BLIP-2（Li等人，2023年c）引入了一个更高效的框架，包括轻量级的Q-Former来弥合模态差距，并利用冻结的LLMs。利用LLMs，BLIP-2可以通过自然语言提示进行零样本图像到文本生成。（3）LLaV A（Liu等人，2023年e）开创了将IT技术转移到MM领域的先河。针对数据稀缺问题，LLaV A引入了一个使用ChatGPT/GPT-4创建的新型开源MM指令遵循数据集，以及MM指令遵循基准LLaV A-Bench。（4）MiniGPT-4（Zhu等人，2023年a）提出了一种简化的方法，其中只训练一个线性层来对齐预训练的视觉编码器和LLM。这种高效方法使得复制GPT-4展示的能力成为可能。（5）mPLUG-Owl（Ye等人，2023年）为MM-LLMs提出了一个新的模块化训练框架，结合了视觉上下文。为了评估不同模型在MM任务中的性能，该框架包括一个名为OwlEval的指令评估数据集。（6）X-LLM（Chen等人，2023年b）扩展到多种模态，包括音频，并在汉藏语的背景下展示了强大的可扩展性。利用Q-Former的语言可转移性，X-LLM成功应用于汉藏语。（7）VideoChat（Li等人，2023年d）开创了一个高效的以聊天为中心的MM-LLM，用于视频理解对话，为未来研究设定了标准，并为学术界和工业界提供了协议。（8）InstructBLIP（Dai等人，2023年）基于预训练的BLIP-2模型进行训练，在MM IT期间仅更新Q-Former。通过引入指令感知的视觉特征提取和相应的指令，模型能够提取灵活多样的特征。（9）PandaGPT（Su等人，2023年）是一个开创性的通用模型，具有理解并根据指令在6种不同模态（文本、图像/视频、音频、热能、深度和惯性测量单元）上行动的能力。（10）PaLI-X（Chen等人，2023年g）使用混合的视觉语言目标和单模态目标进行训练，包括前缀完成和掩蔽标记完成。这种方法在下游任务结果和微调设置中实现帕累托前沿方面证明是有效的。（11）Video-LLaMA（Zhang等人，2023年e）引入了一个多分支的跨模态预训练框架，使LLMs能够同时
 模型 I → O 模态编码器 输入投射器 LLM 骨干网络 输出投射器 模态生成器 #.PT #.IT
Flamingo I+V+T → T I/V: NFNet-F6 交叉注意力 Chinchilla-1.4B/7B/70B (冻结) – – – –
BLIP-2 I+T → T I: CLIP/Eva-CLIP ViT@224 Q-Former w/ 线性投射器 Flan-T5/OPT (冻结) – – 129M –
LLaV A I+T → T I: CLIP ViT-L/14 线性投射器 Vicuna-7B/13B (PT: 冻结; IT: PEFT) – – – –
MiniGPT-4 I+T → T I: Eva-CLIP ViT-G/14 Q-Former w/ 线性投射器 Vicuna-13B (PT: 冻结; IT: PEFT) – – – –
mPLUG-Owl I+T → T I: CLIP ViT-L/14 交叉注意力 LLaMA-7B(PT: 冻结; IT: PEFT) – – – –
X-LLM I+V+A+T → T I/V: ViT-G; A: C-Former Q-Former w/ 线性投射器 ChatGLM-6B (冻结) – – – –
VideoChat V+T → T I: ViT-G Q-Former w/ 线性投射器 Vicuna (冻结) – – – –
InstructBLIP I+V+T → T I/V: ViT-G/14@224 Q-Former w/ 线性投射器 Flan-T5/Vicuna (冻结) – – 129M 1.2M
PandaGPT I+T → T I: ImageBind 线性投射器 Vicuna-13B (PEFT) – – – –
PaLI-X I+T → T I: ViT 线性投射器 UL2-32B (PEFT) – – – –
Video-LLaMA I+V+A+T → T I/V: EV A-CLIP ViT-G/14; A: ImageBind Q-Former w/ 线性投射器 Vicuna/LLaMA (冻结) – – – –
Video-ChatGPT V+T → T I: CLIP ViT-L/14 线性投射器 Vicuna-v1.1 (初始化自 LLaV A, 冻结) – – – –
Shikra I+T → T I: CLIP ViT-L/14@224 线性投射器 Vicuna-7B/13B (PEFT) – – 600K 5.5M
DLP I+T → T I: CLIP/Eva-CLIP ViT Q-Former+P-Former w/ 线性投射器 OPT/Flan-T5 (冻结) – – – –
BuboGPT I+A+T → T I: CLIP/Eva-CLIP ViT; A: ImageBind Q-Former w/ 线性投射器 Vicuna (冻结) – – – –
ChatSpot I+T → T I: CLIP ViT-L/14 线性投射器 Vicuna-7B/LLaMA (PT: 冻结; IT: PEFT) – – – –
Qwen-VL-(Chat) I+T → T I: ViT@448 从 OpenClip’s ViT-bigG 初始化的 Cross-attention Qwen-7B (PT: 冻结; IT: PEFT) – – 1.4B†50M†
NExT-GPT I+V+A+T → I+V+A+T I/V/A: ImageBind 线性投射器 Vicuna-7B (PEFT) Tiny Transformer I: Stable Diffusion; V: Zeroscope; A: AudioLDM – –
MiniGPT-5 I+T → I+T I: Eva-CLIP ViT-G/14 Q-Former w/ 线性投射器 Vicuna-7B (PEFT) Tiny Transformer w/ MLP I: StableDiffusion-2 – –
LLaV A-1.5 I+T → T I: CLIP ViT-L@336 MLP Vicuna-v1.5-7B/13B (PT: 冻结; IT: PEFT) – – 0.6M 0.7M
MiniGPT-v2 I+T → T I: Eva-CLIP ViT
 以下是您提供的内容的中文翻译：

"模型 LLM 主干 OKVQA IconVQA VQAv2GQA VizWiz SQAIVQATPOPE MMEPMMECMMB MMBCNSEEDILLaV AWMM-Vet QBench HM VSR
Flamingo Chinchilla-7B 44.7 – – – – 28.8 – – – – – – – – – – – – 57.0 31.8
BLIP-2 Flan-T5 XXL(13B) 45.9 40.6 65.0 44.7 19.6 61.0 42.5 85.3 1293.8 290.0 – – 46.4 38.1 22.4 – 53.7 50.9
LLaV A Vicuna-13B 54.4 43.0 – 41.3 – – 38.9 – – – – – – – – – – – 51.2
MiniGPT-4 Vicuna-13B 37.5 37.6 – 30.8 – – 19.4 – – – – – – – – – – – 41.6
InstructBLIP Vicuna-7B – – – 49.2 34.5 60.5 50.1 – – – 36.0 23.7 53.4 60.9 26.2 56.7 – –
InstructBLIP Vicuna-13B – 44.8 – 49.5 33.4 63.1 50.7 78.9 1212.8 291.8 – – – 58.2 25.6 – 57.5 52.1
Shikra Vicuna-13B 47.2 – 77.4∗– – – – – – – – 58.8 – – – – 54.7 – –
IDEFICS-9B LLaMA-7B – – 50.9 38.4 35.5 – 25.9 – – – 48.2 25.2 – – – – – – –
IDEFICS-80B LLaMA-65B – – 60.0 45.2 36.0 – 30.9 – – – 54.5 38.1 – – – – – – –
Qwen-VL Qwen-7B – – 78.8∗59.3∗35.2 67.1 63.8 – – – 38.2 7.4 56.3 – – 59.4 – –
Qwen-VL-Chat Qwen-7B – – 78.2∗57.5∗38.9 68.2 61.5 – 1487.5 360.7 60.6 56.7 58.2 – – – – – –
LLaV A-1.5 Vicuna-1.5-7B – – 78.5∗62.0∗50.0 66.8 58.2 85.9 1510.7 316.1‡64.3 58.3 58.6 63.4 30.5 58.7 – –
+ShareGPT4V Vicuna-1.5-7B – – 80.6 – 57.2 68.4 – – 1567.4 376.4 68.8 62.2 69.7 72.6 37.6 63.4 – –
LLaV A-1.5 Vicuna-1.5-13B – – 80.0∗63.3∗53.6 71.6 61.3 85.9 1531.3 295.4‡67.7 63.6 61.6 70.7 35.4 62.1 – –
MiniGPT-v2 LLaMA-2-Chat-7B 56.9 47.7 – 60.3 30.
 "更具挑战性的基准测试现有的基准测试可能无法充分挑战多模态大型语言模型（MM-LLMs）的能力，因为许多数据集在预训练（PT）或微调（IT）集中以不同程度出现过。这意味着模型可能在训练期间已经学会了这些任务。此外，当前的基准测试主要集中在视觉语言（VL）子领域。因此，为了MM-LLMs的发展，构建一个更具挑战性、更大规模的基准测试至关重要，该基准测试应包含更多模态，并使用统一的评估标准。同时，基准测试可以定制以评估MM-LLMs在实际应用中的熟练程度。例如，GOAT-Bench（Lin等人，2024年）的引入旨在评估各种MM-LLMs在识别和响应模因中呈现的微妙社交滥用方面的能力。

移动/轻量级部署为了在资源受限的平台（如低功耗移动和物联网设备）上部署MM-LLMs并实现最佳性能，轻量级实现至关重要。在这方面的一个显著进展是MobileVLM（Chu等人，2023年a）。这种方法战略性地缩小了LLaMA的规模，允许无缝的现成部署。MobileVLM进一步引入了一个轻量级下采样投影器，参数少于2000万，有助于提高计算速度。然而，这一途径需要进一步探索以实现更多发展。

具身智能具身智能旨在通过有效理解环境、识别相关对象、评估它们的空间关系并制定全面的计划来复制人类般的感知和与周围环境的互动（Firoozi等人，2023年）。具身AI任务，如具身规划、具身视觉问答和具身控制，使机器人能够通过利用实时观察自主执行长期计划。这一领域的一些典型工作包括PaLM-E（Driess等人，2023年）和EmbodiedGPT（Mu等人，2023年）。PaLM-E通过训练MM-LLM引入了一个多具身智能体。除了作为具身决策者之外，PaLM-E还展示了处理一般视觉语言任务的能力。EmbodiedGPT通过CoT方法引入了一种经济高效的解决方案，增强了具身智能体与现实世界互动的能力，并建立了一个连接高级规划与低级控制的闭环。尽管基于MM-LLM的具身智能在与机器人集成方面取得了进展，但仍需进一步探索以增强机器人的自主性。

持续的信息技术在实际应用中，MM-LLMs需要适应新的多模态任务以支持额外的功能。然而，当前的MM-LLMs仍然是静态的，无法适应不断出现的新要求。因此，需要一种方法使模型足够灵活，以便高效地利用新兴数据，同时避免重新训练MM-LLMs的巨额成本。这与持续学习的原则相一致，即模型被设计为类似于人类学习那样增量学习新任务。持续的信息技术旨在在保持原始多模态信息技术（MM IT）阶段学习任务的优越性能的同时，持续微调MM-LLMs以适应新的多模态任务。它引入了两个主要挑战：（1）灾难性遗忘，即模型在学习新任务时忘记先前的知识（Robins，1995年；McCloskey和Cohen，1989年；Goodfellow等人，2013年；Zhang等人，2023d,c,b；Zheng等人，2023a），以及（2）负向迁移，即在学习新任务时，未见任务的性能下降（Zheng等人，2024年；Dong等人，2023b,a）。最近，He等人建立了一个基准测试，以促进MM-LLMs持续信息技术的发展。尽管取得了这些进展，但在开发更好方法以解决灾难性遗忘和负向迁移的挑战方面仍有巨大的机会和改进空间。

7 结论
在本文中，我们对多模态大型语言模型（MM-LLMs）进行了全面的调查，重点关注了最近的进展。起初，我们将模型架构分为五个组件，提供了一般设计公式和训练流程的详细概述。随后，我们介绍了各种最先进（SOTA）的MM-LLMs，每种都以其特定的公式脱颖而出。我们的调查还揭示了它们在多样化的多模态基准测试中的能力，并展望了这一快速发展领域的未来发展。我们希望这项调查能为研究人员提供见解，为MM-LLMs领域的持续进步做出贡献。"
 限制
在本文中，我们对当前的多模态大型语言模型（MM-LLMs）领域进行了全面的探索，从不同的视角出发，结合我们的见解进行了综合分析。鉴于这个领域的动态性质，有可能某些方面可能逃过了我们的审查，最近的进展可能没有完全包含在内。为了应对这一固有的挑战，我们建立了一个专门的网站进行实时跟踪，利用众包来捕捉最新的进展。我们的目标是让这个平台发展成为推动该领域持续发展的连续贡献源。鉴于篇幅限制，我们无法深入探讨所有技术细节，只提供了主流MM-LLMs核心贡献的简洁概述。展望未来，我们承诺在我们的网站上持续监测和不断增强相关细节，随着新见解的出现而融入。

参考文献
Emanuele Aiello, Lili Yu, Yixin Nie, Armen Agha-
janyan, 和 Barlas Oguz. 2023. 联合训练大型自回归多模态模型。arXiv预印本 arXiv:2309.15564。
Hassan Akbari, Liangzhe Yuan, Rui Qian, Wei-Hong Chuang, Shih-Fu Chang, Yin Cui, 和 Boqing Gong. 2021. Vatt: 用于从原始视频、音频和文本进行多模态自监督学习的Transformers。在神经信息处理系统进展，34:24206–24221。
Afra Feyza Akyürek, Ekin Akyürek, Aman Madaan, Ashwin Kalyan, Peter Clark, Derry Wijaya, 和 Niket Tandon. 2023. RL4F: 使用强化学习生成自然语言反馈以修复模型输出。arXiv预印本 arXiv:2305.08844。
Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, 等。2022. Flamingo: 用于少量样本学习的多模态视觉语言模型。在神经信息处理系统进展，35:23716–23736。
Akari Asai, Sewon Min, Zexuan Zhong, 和 Danqi Chen. 2023. 基于检索的语言模型及其应用。在计算语言学协会第61届年会（第6卷：教程摘要），第41–46页。
Anas Awadalla, Irena Gao, Josh Gardner, Jack Hes-
sel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Shiori Sagawa, 等。2023. Openflamingo: 一个用于训练大型自回归视觉-语言模型的开源框架。arXiv预印本 arXiv:2308.01390。
Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, 等。2023a. Qwen技术报告。arXiv预印本 arXiv:2309.16609。
Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, 和 Jingren Zhou. 2023b. Qwen-VL: 一个具有多种能力的前沿大型视觉-语言模型。CoRR，abs/2308.12966。
Max Bain, Arsha Nagrani, Gül Varol, 和 Andrew Zisserman. 2021. Frozen in time: 用于端到端检索的联合视频和图像编码器。在IEEE/CVF国际计算机视觉会议上，第1728–1738页。
Rohan Bavishi, Erich Elsen, Curtis Hawthorne, Maxwell Nye, Augustus Odena, Arushi Somani, 和 Sağın Taşırlar. 2023. 介绍我们的多模态模型。
Ali Furkan Biten, Ron Litman, Yusheng Xie, Srikar Appalaraju, 和 R Manmatha. 2022. Latr: 用于场景文本视觉问答的布局感知Transformer。在IEEE/CVF计算机视觉和模式识别会议论文集，第16548–16558页。
Andy Brock, Soham De, Samuel L Smith, 和 Karen Si-
monyan. 2021. 高性能大规模图像识别无需归一化。在国际机器学习会议上，第1059–1071页。
PMLR。
Tom Brown, Benjamin Mann, Nick Ryder, Melanie
Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind
Neelakantan, Pranav Shyam, Girish Sastry, Amanda
Ask
 这段文字列出了一系列学术论文的标题、作者和发表信息。由于内容较多，我将逐个进行翻译。请注意，这些翻译可能不是官方或最终版本，仅供参考。

1. Fei-Long Chen, Du-Zhen Zhang, Ming-Lun Han, Xiu-Yi Chen, Jing Shi, Shuang Xu, and Bo Xu. 2023a.
   陈飞龙，张杜珍，韩明伦，陈秀义，史静，徐双，徐畅，徐波。2023a。
   《Vlp: 视觉语言预训练综述》。《机器智能研究》，20(1):38–56。

2. Feilong Chen, Minglun Han, Haozhi Zhao, Qingyang Zhang, Jing Shi, Shuang Xu, and Bo Xu. 2023b.
   陈飞龙，韩明伦，赵浩志，张庆阳，史静，徐双，徐畅，徐波。2023b。
   《X-llm: 通过将多模态视为外语来引导高级大型语言模型》。arXiv预印本 arXiv:2305.04160。

3. Jun Chen, Deyao Zhu, Xiaoqian Shen, Xiang Li, Zechun Liu, Pengchuan Zhang, Raghuraman Krishnamoorthi, Vikas Chandra, Yunyang Xiong, and Mohamed Elhoseiny. 2023c.
   陈俊，朱德耀，沈晓倩，李翔，刘泽春，张鹏川，Raghuraman Krishnamoorthi，Vikas Chandra，熊云阳，Mohamed Elhoseiny。2023c。
   《Minigpt-v2: 将大型语言模型作为视觉语言多任务学习的统一接口》。arXiv预印本 arXiv:2310.09478。

4. Keqin Chen, Zhao Zhang, Weili Zeng, Richong Zhang, Feng Zhu, and Rui Zhao. 2023d.
   陈克勤，张兆，曾伟利，张日功，朱峰，赵瑞。2023d。
   《Shikra: 释放多模态LLM的指代对话魔力》。arXiv预印本 arXiv:2306.15195。

5. Lin Chen, Jisong Li, Xiaoyi Dong, Pan Zhang, Conghui He, Jiaqi Wang, Feng Zhao, and Dahua Lin. 2023e.
   陈琳，李季松，董晓毅，张潘，何丛辉，王佳琪，赵峰，林达华。2023e。
   《ShareGPT4V: 通过更好的字幕改进大型多模态模型》。arXiv预印本 arXiv:2311.12793。

6. Sanyuan Chen, Yu Wu, Chengyi Wang, Shujie Liu, Daniel Tompkins, Zhuo Chen, Wanxiang Che, Xiangzhan Yu, and Furu Wei. 2023f.
   陈三元，吴宇，王成义，刘树杰，Daniel Tompkins，陈卓，车万祥，于向阳，魏富如。2023f。
   《BEATs: 通过声学分词器进行音频预训练》。《国际机器学习会议论文集》，ICML 2023，2023年7月23-29日，美国夏威夷檀香山，页码5178–5193。

7. Shoufa Chen, Chongjian Ge, Zhan Tong, Jiangliu Wang, Yibing Song, Jue Wang, and Ping Luo. 2022a.
   陈守法，葛崇坚，童战，王江流，宋一兵，王觉，罗平。2022a。
   《Adapt-former: 为可扩展视觉识别调整视觉变换器》。《神经信息处理系统进展》，35:16664–16678。

8. Xi Chen, Josip Djolonga, Piotr Padlewski, Basil Mustafa, Soravit Changpinyo, Jialin Wu, Carlos Riquelme Ruiz, Sebastian Goodman, Xiao Wang, Yi Tay, et al. 2023g.
   陈曦，Josip Djolonga，Piotr Padlewski，Basil Mustafa，Soravit Changpinyo，吴嘉林，Carlos Riquelme Ruiz，Sebastian Goodman，肖旺，易泰，等。2023g。
   《PaLI-X: 扩展多语言视觉和语言模型》。arXiv预印本 arXiv:2305.18565。

9. Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr Padlewski
 这段文字列出了一系列学术论文的标题和作者，以及它们的发表信息。以下是这些论文的中文翻译：

1. Linhao Dong 和 Bo Xu. 2020. Cif: 用于端到端语音识别的连续积分和触发。在2020年IEEE国际声学、语音和信号处理会议（ICASSP）上发表，第6079-6083页。IEEE。

2. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, 等。2020. 图像的价值是16x16个词：大规模图像识别的Transformers。在国际学习表示会议上发表。

3. Danny Driess, Fei Xia, Mehdi SM Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, 等。2023. Palm-e: 一个具身多模态语言模型。arXiv预印本 arXiv:2303.03378。

4. Yifan Du, Zikang Liu, Junyi Li, 和 Wayne Xin Zhao. 2022a. 视觉语言预训练模型综述。在第31届国际人工智能联合会议（IJCAI 2022）上发表，地点奥地利维也纳，2022年7月23日至29日，第5436-5443页。

5. Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, 和 Jie Tang. 2022b. GLM: 使用自回归填空的通用语言模型预训练。在第60届计算语言学协会年会（长论文卷）上发表，第320-335页。

6. Han Fang, Pengfei Xiong, Luhui Xu, 和 Yu Chen. 2021. Clip2video: 通过图像片段掌握视频-文本检索。arXiv预印本 arXiv:2106.11097。

7. Yuxin Fang, Wen Wang, Binhui Xie, Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang, Xinlong Wang, 和 Yue Cao. 2023. Eva: 在大规模上探索遮蔽视觉表示学习的极限。在IEEE/CVF计算机视觉和模式识别会议论文集上发表，第19358-19369页。

8. Hao Feng, Qi Liu, Hao Liu, Wengang Zhou, Houqiang Li, 和 Can Huang. 2023. DocPedia: 在频域中释放大型多模态模型的力量，用于多文档理解。arXiv预印本 arXiv:2311.11810。

9. Roya Firoozi, Johnathan Tucker, Stephen Tian, Anirudha Majumdar, Jiankai Sun, Weiyu Liu, Yuke Zhu, Shuran Song, Ashish Kapoor, Karol Hausman, 等。2023. 机器人学中的基础模型：应用、挑战和未来。arXiv预印本 arXiv:2312.07843。

10. Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Jinrui Yang, Xiawu Zheng, Ke Li, Xing Sun, 等。2023. Mme: 多模态大型语言模型的综合评估基准。arXiv预印本 arXiv:2306.13394。

11. Chin-Lun Fu, Zih-Ching Chen, Yun-Ru Lee, 和 Hung-Yi Lee. 2022. AdapterBias: 在NLP任务中为适配器提供参数高效的令牌依赖表示转换。在计算语言学协会发现（NAACL 2022）上发表，第2608-2621页。

12. Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, 等。2023. Datacomp: 寻找下一代多模态数据集。arXiv预印本 arXiv:2304.14108。

13. Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, 和 Ishan Misra. 2023. Imagebind: 一个嵌入空间将它们全部绑定。在IEEE/CVF计算机视觉和模式识别会议论文集上发表，第15180-15190页。

14. Tao Gong
 这段文字列出了一系列学术论文的标题和作者，以及它们的发表信息。以下是这些论文的中文翻译：

1. Kaiming He, Xiangyu Zhang, Shaoqing Ren, 和 Jian Sun. 2016. 深度残差学习用于图像识别。在 IEEE 计算机视觉与模式识别会议论文集中，第 770-778 页。

2. Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, 等。2022. 训练计算最优的大型语言模型。arXiv 预印本 arXiv:2203.15556。

3. Or Honovich, Thomas Scialom, Omer Levy, 和 Timo Schick. 2022. 不自然指令：几乎不需要人类劳动的语言模型调优。arXiv 预印本 arXiv:2212.09689。

4. Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin De Laroussilhe, Andrea Gesmundo, Mona Attariyan, 和 Sylvain Gelly. 2019. NLP 的参数高效迁移学习。在国际机器学习会议上，第 2790-2799 页。PMLR。

5. Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, 和 Abdelrahman Mohamed. 2021. Hubert: 通过隐藏单元的掩蔽预测进行自监督语音表示学习。IEEE/ACM 音频、语音和语言处理交易，29:3451–3460。

6. Edward J Hu, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen, 等。2021. LoRA: 大型语言模型的低秩适应。在国际学习表示会议上。

7. Jiaxing Huang, Jingyi Zhang, Kai Jiang, Han Qiu, 和 Shijian Lu. 2023a. 视觉指令调优：面向通用多模态模型的调查。arXiv 预印本 arXiv:2312.16602。

8. Rongjie Huang, Mingze Li, Dongchao Yang, Jiatong Shi, Xuankai Chang, Zhenhui Ye, Yuning Wu, Zhiqing Hong, Jiawei Huang, Jinglin Liu, 等。2023b. Audiogpt: 理解和生成语音、音乐、声音和说话头。arXiv 预印本 arXiv:2304.12995。

9. Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Qiang Liu, 等。2023c. 语言并非万能：将感知与语言模型对齐。arXiv 预印本 arXiv:2302.14045。

10. Drew A Hudson 和 Christopher D Manning. 2019. Gqa: 用于现实世界视觉推理和组合问题回答的新数据集。在 IEEE/CVF 计算机视觉与模式识别会议论文集中，第 6700-6709 页。

11. IDEFICS. 2023. 介绍 IDEFICS: 一个开放的、可复现的最先进视觉语言模型。Srinivasan Iyer, Xi Victoria Lin, Ramakanth Pasunuru, Todor Mihaylov, Daniel Simig, Ping Yu, Kurt Shuster, Tianlu Wang, Qing Liu, Punit Singh Koura, 等。2022. 通过泛化视角扩展语言模型指令元学习。arXiv 预印本 arXiv:2212.12017。

12. Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc Le, Yun-Hsuan Sung, Zhen Li, 和 Tom Duerig. 2021. 通过嘈杂文本监督扩大视觉和视觉-语言表示学习。在国际机器学习会议上，第 4904-4916 页。PMLR。

13. Yiren Jian, Chongyang Gao, 和 Soroush V osoughi. 2023. 通过解耦语言预训练引导视觉-语言学习。在第三十七届神经信息处理系统会议上。

14. Kushal Kafle, Brian Price, Scott Cohen, 和 Christopher Kanan. 2018. Dvqa: 通过问答理解数据可视化。在 IEEE 计算机视觉与模式识别会议论文集中，第
这部分触发了 LLM 安全检查，跳过本页。
 潘路，Swaroop Mishra，唐林夏，梁强，Kai-Wei Chang，Song-Chun Zhu，Oyvind Tafjord，Peter Clark，和Ashwin Kalyan。2022。学习解释：通过思维链进行科学问题解答的多模态推理。神经信息处理系统进展，35:2507–2521。
潘路，梁强，陈家琪，Tony Xia，赵一舟，张伟，周宇，梁晓丹，和Song-Chun Zhu。2021。Iconqa：一个新的抽象图理解与视觉语言推理的基准。在第三十五届神经信息处理系统数据集和基准轨迹（第二轮）。
Ziyang Luo，Can Xu，Pu Zhao，Qingfeng Sun，Xibo Geng，Wenxiang Hu，Chongyang Tao，Jing Ma，Qingwei Lin，和Daxin Jiang。2023。WizardCoder：通过EvolInstruct赋予大型语言模型编码能力。arXiv预印本 arXiv:2306.08568。
Muhammad Maaz，Hanoona Rasheed，Salman Khan，和Fahad Shahbaz Khan。2023。Video-ChatGPT：通过大型视觉和语言模型实现详细视频理解。arXiv预印本 arXiv:2306.05424。
Minesh Mathew，Dimosthenis Karatzas，和CV Jawahar。2021。Docvqa：一个用于文档图像上的视觉问答（VQA）的数据集。在IEEE/CVF冬季计算机视觉应用会议论文集，第2200–2209页。
Michael McCloskey 和 Neal J Cohen。1989。连接主义网络中的灾难性干扰：顺序学习问题。在心理学与动机心理学，第24卷，第109–165页。Elsevier。
Xinhao Mei，Chutong Meng，Haohe Liu，Qiuqiang Kong，Tom Ko，Chengqi Zhao，Mark D Plumbley，Yuexian Zou，和Wenwu Wang。2023。Wavcaps：一个由ChatGPT辅助的弱标记音频字幕数据集，用于音频-语言多模态研究。arXiv预印本 arXiv:2303.17395。
Anand Mishra，Shashank Shekhar，Ajeet Kumar Singh，和Anirban Chakraborty。2019。Ocr-vqa：通过阅读图像中的文本进行视觉问答。在2019国际文档分析与识别会议（ICDAR），第947–952页。IEEE。
Yao Mu，Qinglong Zhang，Mengkang Hu，Wenhai Wang，Mingyu Ding，Jun Jin，Bin Wang，Jifeng Dai，Yu Qiao，和Ping Luo。2023。Embodiedgpt：通过具身思维链进行视觉-语言预训练。在第三十七届神经信息处理系统会议。
Humza Naveed，Asad Ullah Khan，Shi Qiu，Muhammad Saqib，Saeed Anwar，Muhammad Usman，Nick Barnes，和Ajmal Mian。2023。大型语言模型的全面概述。arXiv预印本 arXiv:2307.06435。
OpenAI。2022。OpenAI：介绍ChatGPT。OpenAI。2023。GPT-4技术报告。
Vicente Ordonez，Girish Kulkarni，和Tamara Berg。2011。Im2text：使用100万张带字幕的照片描述图像。神经信息处理系统进展，24。
Long Ouyang，Jeffrey Wu，Xu Jiang，Diogo Almeida，Carroll Wainwright，Pamela Mishkin，Chong Zhang，Sandhini Agarwal，Katarina Slama，Alex Ray，等。2022。通过人类反馈训练语言模型遵循指令。神经信息处理系统进展，35:27730–27744。
Artemis Panagopoulou，Le Xue，Ning Yu，Junnan Li，Dongxu Li，Shafiq Joty，Ran Xu，Silvio Savarese，Caiming Xiong，和Juan Carlos Niebles。2023。X-InstructBLIP：一个将X模态指令感知表示与LLMs对齐并实现新兴跨模态推理的框架。arXiv预印本 arXiv:2311.18799。
Zhiliang Peng，Wenhui Wang，Li Dong，Yaru Hao，Shaohan Huang，Shuming Ma，和Furu Wei。2023。Kosmos-2：将多模态大型语言模型与世界联系起来。arX
 以下是您提供的参考文献列表的中文翻译：

1. Olaf Ronneberger, Philipp Fischer, 和 Thomas Brox.
   2015年。U-net: 用于生物医学图像分割的卷积网络。在《医学图像计算和计算机辅助干预——MICCAI 2015: 第18届国际会议，德国慕尼黑，2015年10月5-9日，会议记录，第三部分，第18卷，第234-241页。Springer出版社。

2. Ludan Ruan 和 Qin Jin.
   2022年。调查：基于Transformer的视频-语言预训练。《AI Open》，3:1–13。

3. Salesforce.
   2022年。Ulip。

4. Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, 等。
   2022年。Laion-5b: 用于训练下一代图像-文本模型的开放大规模数据集。《神经信息处理系统进展》，35:25278–25294。

5. Christoph Schuhmann, Andreas Köpf, Richard Vencu, Theo Coombes, 和 Romain Beaumont.
   2022年。Laion coco: 来自Laion2b-en的600M合成标题。（未提供出版信息）

6. Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, 和 Aran Komatsuzaki.
   2021年。Laion-400m: 经过剪辑过滤的4亿图像-文本对开放数据集。arXiv预印本 arXiv:2111.02114。

7. Dustin Schwenk, Apoorv Khandelwal, Christopher Clark, Kenneth Marino, 和 Roozbeh Mottaghi.
   2022年。A-okvqa: 使用世界知识的可视化问答基准。在《欧洲计算机视觉会议》，第146–162页。Springer出版社。

8. Piyush Sharma, Nan Ding, Sebastian Goodman, 和 Radu Soricut.
   2018年。概念性标题：用于自动图像描述的清理、超类化、图像替代文本数据集。在《第56届计算语言学协会年会（第一卷：长论文），第2556–2565页。

9. Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, 和 Yueting Zhuang.
   2023年。Hugginggpt: 使用Chatgpt及其伙伴解决AI任务。arXiv预印本 arXiv:2303.17580。

10. Oleksii Sidorov, Ronghang Hu, Marcus Rohrbach, 和 Amanpreet Singh.
    2020年。Textcaps: 一个用于阅读理解的图像描述数据集。在《计算机视觉——ECCV 2020: 第16届欧洲会议，英国格拉斯哥，2020年8月23–28日，会议记录，第16部分，第742–758页。Springer出版社。

11. Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, 和 Marcus Rohrbach.
    2019年。朝着能够阅读的VQA模型。在《IEEE/CVF计算机视觉和模式识别会议论文集》，第8317–8326页。

12. Shezheng Song, Xiaopeng Li, 和 Shasha Li.
    2023年。如何弥合模态之间的差距：多模态大型语言模型的综合调查。arXiv预印本 arXiv:2311.07594。

13. Yixuan Su, Tian Lan, Huayang Li, Jialu Xu, Yan Wang, 和 Deng Cai.
    2023年。Pandagpt: 一个模型遵循所有指令。arXiv预印本 arXiv:2305.16355。

14. Zhiqing Sun, Sheng Shen, Shengcao Cao, Haotian Liu, Chunyuan Li, Yikang Shen, Chuang Gan, Liang-Yan Gui, Yu-Xiong Wang, Yiming Yang, 等。
    2023年。将大型多模态模型与事实增强的RLHF对齐。arXiv预印本 arXiv:2309.14525。

15. Dídac Surís, Sachit Menon, 和 Carl Vondrick.
    2023年。Vipergpt: 通过Python执行进行视觉推理。arXiv预印本 arXiv:2303.08128
这部分触发了 LLM 安全检查，跳过本页。
 这段文字列出了一系列在计算机视觉和模式识别领域的会议论文，以及一些相关的预印本论文。以下是这些论文的中文翻译：

1. 在计算机视觉和模式识别会议论文集，第19313-19322页。
   Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu,
   Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupata, Jack Hessel, Ali Farhadi, 和 Yejin Choi. 2022.
   《Merlot reserve: 通过视觉、语言和声音的神经脚本知识》。在计算机视觉和模式识别IEEE/CVF会议论文集，第16375-16387页。

2. Aohan Zeng, Xiao Liu, Zhengxiao Du, Zihan Wang,
   Hanyu Lai, Ming Ding, Zhuoyi Yang, Yifan Xu,
   Wendi Zheng, Xiao Xia, 等. 2022a. GLM-130B:
   《一个开放的双语预训练模型》。在第十一届国际学习表示会议。

3. Yan Zeng, Xinsong Zhang, 和 Hang Li. 2022b. 多粒度视觉语言预训练：将文本与视觉概念对齐。在国际机器学习会议，第25994-26009页。

4. Dong Zhang, Shimin Li, Xin Zhang, Jun Zhan,
   Pengyu Wang, Yaqian Zhou, 和 Xipeng Qiu. 2023a.
   《SpeechGPT: 赋予大型语言模型内在的跨模态对话能力》。在计算语言学协会发现会议：EMNLP 2023，新加坡，2023年12月6-10日，第15757-15773页。

5. Duzhen Zhang, Wei Cong, Jiahua Dong, Yahan Yu, Xiuyi Chen, Yonggang Zhang, 和 Zhen Fang. 2023b.
   《无灾难性遗忘的持续命名实体识别》。在2023年自然语言处理经验方法会议。

6. Duzhen Zhang, Hongliu Li, Wei Cong, Rongtao Xu,
   Jiahua Dong, 和 Xiuyi Chen. 2023c. 任务关系蒸馏和原型伪标签用于增量命名实体识别。在第32届ACM国际信息和知识管理会议论文集，第3319-3329页。

7. Duzhen Zhang, Yahan Yu, Feilong Chen, 和 Xiuyi Chen. 2023d. 分解对数蒸馏用于增量命名实体识别。在第46届ACM SIGIR信息检索研究与发展会议论文集，第1919-1923页。

8. Duzhen Zhang, Tielin Zhang, Shuncheng Jia, Qingyu Wang, 和 Bo Xu. 2022a. 脉冲神经网络的最新进展和新前沿。在第31届国际人工智能联合会议论文集，IJCAI 2022，奥地利维也纳，2022年7月23-29日，第5670-5677页。

9. Hang Zhang, Xin Li, 和 Lidong Bing. 2023e. Video-LLaMA: 一个用于视频理解的指令调整的音频-视觉语言模型。在2023年自然语言处理经验方法会议，EMNLP 2023 - 系统演示，新加坡，2023年12月6-10日，第543-553页。

10. Jeffrey O Zhang, Alexander Sax, Amir Zamir, Leonidas Guibas, 和 Jitendra Malik. 2020. Side-tuning: 通过附加侧网络实现网络适应的基线。在计算机视觉-ECCV 2020: 第16届欧洲会议，英国格拉斯哥，2020年8月23-28日，第698-714页，Springer。

11. Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, 等. 2022b. Opt: 开放预训练变换器语言模型。arXiv预印本 arXiv:2205.01068。

12. Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, 和 Tong Sun. 2023f. Llavar: 增强视觉指令调整以理解丰富的文本图像。arXiv预印本 arXiv:2306.17107。

13. Bo Zhao, Boya Wu, 和 Tiejun Huang. 2023a. Svit: 通过视觉指令调整扩展。arXiv预印本 arXiv:2307.04087。

14. Liang Zhao, En Yu, Zheng Ge,
 以下是您提供的英文内容的中文翻译：

万荣朱，杰克·赫塞尔，阿纳斯·阿瓦达拉，
萨米尔·伊兹哈克·加德雷，杰西·道奇，亚历克斯·方，
杨勇杰，路德维希·施密特，威廉·杨·王，
和崔艺真。2023b。多模态c4：一个开放的、十亿规模的图像与文本交错的语料库。
arXiv预印本 arXiv:2304.06939。

朱玉科，奥利弗·格罗思，迈克尔·伯恩斯坦，和李飞飞。
2016。Visual7w：图像中的问题回答。
在IEEE计算机视觉和模式识别会议论文集中，第4995-5004页。

相关调查
在大型语言模型（LLMs）出现之前，已经进行了几项关于传统多模态预训练（MM PT）的调查（阮和金，2022；杜等人，2022a；龙等人，2022；陈等人，2023a）。这些模型在预训练阶段涉及大量的计算成本，这归因于使用大规模模型和数据集进行端到端训练。由于没有整合LLMs，这些模型在指令遵循、图像-文本对齐（ICL）、上下文转换（CoT）和交互能力方面存在缺陷。此外，训练流程仅包括预训练阶段，没有包含后训练（IT）阶段。

近年来，出现了几项关于多模态-LLMs的调查。尹等人和吴等人专门深入研究了早期的视觉理解模型。黄等人主要强调视觉后训练，而宋等人关注模态对齐方法。最后，崔等人全面回顾了多模态-LLMs在自动驾驶领域的应用。

与他们的工作相比，我们的主要区别如下：
•我们全面覆盖了过去一年几乎所有的多模态-LLMs，不仅包括理解模型，还包括生成模型。我们的覆盖范围超越了视觉模态，包括音频和3D等多种模式；
•为了向读者提供对多模态-LLMs的全面理解，我们引入了一个通用的模型架构，该架构包含任何到任何模态的转换，详细概述了每个组件的功能角色和实现选择；
•我们总结了现有多模态-LLMs的发展趋势，并提供了一些可以提高效果的训练配方；
•我们为多模态-LLMs研究人员建立了一个开源网站，支持众包更新，旨在促进多模态-LLMs领域的合作。我们期待这项调查将照亮多模态-LLMs领域的未来研究。

B 主流的预训练后训练方法
预训练后训练（PEFT）涉及在保持预训练的LLM冻结状态的同时，调整少量的适配器。
 在接下来的部分，我们将回顾几种代表性的参数效率型微调（PEFT）方法。在这些方法中，x和h分别代表原始模块的输入和输出，而h'表示在附加PEFT后模块的输出。

前缀调整（Prefix-tuning，Li和Liang，2021；Lester等人，2021）涉及在注意力模块的键（keys）和值（values）中添加可学习的标记。这个过程可以表示为：
h' = Attn (xWq, [Pk, xWk], [Pv, xWv])，(6)
其中Pk, Pv ∈ Rl×d代表两组前缀标记。[·, ·]表示连接，Attn定义为：
Attn (Q, K, V) := softmax(QK^T / √d) V.

适配器（Adapter，Houlsby等人，2019；He等人，2021；Rebuffi等人，2017；Zhang等人，2020）通常是一个残差块，由一个下投影矩阵A、一个非线性激活函数σ(·)和一个上投影矩阵B组成。它可以插入到预训练的大型语言模型（LLM）的任何层中，表示如下：
h' = h + σ(xA)B. (7)

LoRA（Hu等人，2021）是最常用的PEFT方法。它假设参数的变化发生在低秩空间内。给定一个预训练的矩阵W ∈ Rc×d，LoRA学习一个增量更新∆W，并将∆W分解为两个低秩矩阵A ∈ Rc×r和B ∈ Rr×d的矩阵乘积，其中r远小于min(c, d)。LoRA遵循以下前向过程：
h = Wx + ∆Wx = Wx + ABx. (8)

QLoRA（Dettmers等人，2023）是一种量化的LoRA。QLoRA的基本原理包括将预训练权重量化为4位，然后使用LoRA执行PEFT。

除了上述的PEFT方法，还有几种其他方法，包括AdaptBias（Fu等人，2022）、Compacter（Karimi Mahabadi等人，2021）和AdapterFormer（Chen等人，2022a）。

常用的大型语言模型（LLM）背骨如下：
- Flan-T5（Chung等人，2022）研究了T5（Raffel等人，2020）的信息技术（IT），这是一种使用统一的文本到文本训练来处理所有自然语言处理问题的编码器-解码器架构，展现出强大的零样本（zero-shot）和CoT（连续文本）能力。
- ChatGLM2是一个中英文双语对话模型，通过自回归掩码填充目标进行优化。它基于GLM（Du等人，2022b；Zeng等人，2022a）架构，针对中文问答和对话进行了优化。
- UL2（Tay等人，2022）是一个编码器-解码器模型，利用去噪目标的混合训练，在多个基准测试中超越了T5。
- Qwen（Bai等人，2023a）在大规模和多样化的数据集上进行训练，主要关注中文和英文。它采用SFT和RLHF技术进行对齐，产生了像Qwen-Chat这样的对话模型。
- Chinchilla（Hoffmann等人，2022）是一个因果解码器，训练于广泛的文本数据。它认为模型大小应该随着训练令牌数量翻倍而翻倍。
- OPT（Zhang等人，2022b）是GPT-3（Brown等人，2020）的一个克隆，旨在发布一个开源模型，复制GPT-3的性能。
- PaLM（Chowdhery等人，2023）是一个具有并行注意力和前馈层的因果解码器结构，能够实现高达15倍的训练速度。显著的变化包括RoPE嵌入、SwiGLU激活、多查询注意力等。
- LLaMA（Touvron等人，2023a）包括具有高效因果注意力的仅解码器模型。
- LLaMA-2（Touvron等人，2023b）专注于微调一个更优越、更安全的LLaMA-2-Chat模型用于对话生成，集成了40%更多的训练数据，具有分组查询注意力和更大的上下文长度。

2https://github.com/THUDM/ChatGLM-6B
 • Vicuna（Chiang等人，2023年）是在LLaMA基础上构建的模型，利用从ShareGPT.com获取的用户对话数据，并通过SFT（Supervised Fine-Tuning）进行训练。
D SOTA MM-LLMs（续）
(20) LLaV A-1.5（Liu等人，2023d）报告了对LLaV A框架的简单修改，包括应用MLP（多层感知器）投影，并引入针对学术任务定制的VQA（视觉问答）数据，以及简单的响应格式化提示。这些调整增强了MM（多模态）理解能力。
(21) MiniGPT-v2（Chen等人，2023c）是一个MM-LLM（多模态大型语言模型），旨在作为多样化VL（视觉语言）多任务学习的统一接口。为了创建一个能够处理多种VL任务的单一模型，在训练和推理过程中为每个任务加入了标识符。这有助于清晰地区分任务，最终提高学习效率。
(22) CogVLM（Wang等人，2023）是一个开源的MM-LLM（多模态大型语言模型），通过在注意力和前馈层中集成可训练的视觉专家模块，弥合了模态之间的差距。这允许在不牺牲NLP（自然语言处理）下游任务性能的情况下，深度融合MM特征。
(23) DRESS（Chen等人，2023h）引入了一种使用自然语言反馈来增强与人类偏好对齐的方法。DRESS扩展了条件强化学习算法，以整合不可微的自然语言反馈，训练模型根据反馈生成适当的响应。
(24) X-InstructBLIP（Panagopoulou等人，2023）引入了一个跨模态框架，具有指令感知表示，足以赋能LLM（大型语言模型）处理多模态（包括图像/视频、音频和3D）的多样化任务。值得注意的是，它在不需要模态特定的PT（预训练）的情况下实现了这一点。
(25) CoDi-2（Tang等人，2023a）是一个MM（多模态）生成模型，擅长处理模态交错指令跟随、上下文生成和多轮对话中的用户模型交互。它通过自回归生成潜在特征，增强了CoDi（Tang等人，2023b）处理复杂模态交错输入和指令的能力。
(26) VILA（Lin等人，2023）在视觉任务上表现优异，并展现出显著的推理能力，同时保持了仅文本的能力。它通过利用LLM学习的全能力，使用图像-文本对的交错属性，并实施精细的文本数据重混合来实现这一点。

E VL基准测试
表2中介绍的18个VL（视觉语言）基准测试包括OKVQA（Schwenk等人，2022）、Icon-VQA（Lu等人，2021）、VQAv2（Goyal等人，2017）、GQA（Hudson和Manning，2019）、VizWiz（Gurari等人，2018）、SQAI: ScienceQA-IMG（Lu等人，2022）、VQAT: TextVQA（Singh等人，2019）、POPE（Li等人，2023g）、MMEP: MME Perception（Fu等人，2023）、MMEC: MME Cognition（Fu等人，2023）、MMB: MMBenchmark（Liu等人，2023f）、MMBCN: MMBench-Chinese（Liu等人，2023f）、SEEDI: SEED-Bench（Image）（Li等人，2023b）、LLaV AW: LLaV A-Bench（In-the-Wild）（Liu等人，2023a）、MM-Vet（Yu等人，2023）、QBench（Wu等人，2023b）、HM: HatefulMemes（Kiela等人，2020）和VSR（Liu等人，2023a）。

F 训练数据集
MM PT（预训练）和MM IT（信息检索）数据集的统计数据分别在表3和表4中展示。
 数据集名称 X 模态 #.X #.T #.X-T
ALIGN (Jia et al., 2021) 图像 1.8亿 1.8亿 1.8亿
LTIP (Alayrac et al., 2022) 图像 3.12亿 3.12亿 3.12亿
MS-COCO (Lin et al., 2014) 图像 124K 620K 620K
Visual Genome (Krishna et al., 2017) 图像 108K 450K 450K
CC3M (Sharma et al., 2018) 图像 330万 330万 330万
CC12M (Changpinyo et al., 2021) 图像 1240万 1240万 1240万
SBU (Ordonez et al., 2011) 图像 100万 100万 100万
LAION-5B (Schuhmann et al., 2022) 图像 59亿 59亿 59亿
LAION-400M (Schuhmann et al., 2021) 图像 4亿 4亿 4亿
LAION-en (Schuhmann et al., 2022) 图像 23亿 23亿 23亿
LAION-zh (Schuhmann et al., 2022) 图像 1.42亿 1.42亿 1.42亿
LAION-COCO (Schuhmann et al., 2022b) 图像 600万 600万 600万
Flickr30k (Young et al., 2014) 图像 31K 158K 158K
AI Challenger Captions (Wu et al., 2017) 图像 300K 150万 150万
COYO (Byeon et al., 2022) 图像 7.47亿 7.47亿 7.47亿
Wukong (Gu et al., 2022) 图像 1010万 1010万 1010万
COCO Caption (Chen et al., 2015) 图像 164K 100万 100万
WebLI (Chen et al., 2022b) 图像 100亿 120亿 120亿
Episodic WebLI (Chen et al., 2023g) 图像 400万 400万 400万
CC595k (Liu et al., 2023e) 图像 59.5K 59.5K 59.5K
RefCOCO (Kazemzadeh et al., 2014) 图像 20K 142K 142K
RefCOCO+ (Yu et al., 2016) 图像 20K 142K 142K
Visual-7W (Zhu et al., 2016) 图像 47.3K 328K 328K
OCR-VQA (Mishra et al., 2019) 图像 207K 100万 100万
ST-VQA (Biten et al., 2022) 图像 23K 32K 32K
DocVQA (Mathew et al., 2021) 图像 12K 50K 50K
TextVQA (Singh et al., 2019) 图像 28.4K 45.3K 45.3K
DataComp (Gadre et al., 2023) 图像 14亿 14亿 14亿
GQA (Hudson and Manning, 2019) 图像 113K 220万 220万
VGQA (Krishna et al., 2017) 图像 108K 170万 170万
VQAv2(Goyal et al., 2017) 图像 265K 140万 140万
DVQA (Kafle et al., 2018) 图像 300K 350万 350万
OK-VQA (Schwenk et al., 2022) 图像 14K 14K 14K
A-OKVQA (Schwenk et al., 2022) 图像 23.7K 24.9K 24.9
 数据集名称 类型 I →O 来源 方法 多轮对话 #.I/V/A #.对话轮次 #.实例
MiniGPT-4 的 IT (Zhu et al., 2023a) SFT I+T →T CC3M, CC12M 自动化 % 134M/–/– 1 5K
StableLLaV A (Li et al., 2023f) SFT I+T →T SD (Rombach et al., 2022) 自动化+手动 % 126K/–/– 1 126K
LLaV A 的 IT (Zhang et al., 2023f) SFT I+T →T MS-COCO 自动化 " 81K/–/– 2.29 150K
SVIT (Zhao et al., 2023a) SFT I+T →T MS-COCO, Visual Genome 自动化 " 108K/–/– 5 3.2M
LLaV AR (Zhang et al., 2023f) SFT I+T →T MS-COCO, CC3M, LAION LLaV A+自动化 " 20K/–/– 2.27 174K
ShareGPT4V (Chen et al., 2023e) SFT I+T →T LCS, COCO, SAM, TextCaps, WikiArt 自动化+手动 % 100K/–/– – –
DRESS 的 IT (Chen et al., 2023h) SFT I+T →T LLaV A 的 IT, VLSafe 自动化+手动 " 193K/–/– ∼4 –
VideoChat 的 IT (Li et al., 2023d) SFT V+T →T WebVid 自动化 " –/8K/– 1.82 11K
Video-ChatGPT 的 IT (Maaz et al., 2023) SFT V+T →T ActivityNet (Caba Heilbron et al., 2015) 继承 " –/100K/– 1 100K
Video-LLaMA 的 IT (Zhang et al., 2023e) SFT I/V+T →T MiniGPT-4, LLaV A, 和 VideoChat 的 IT 自动化 " 81K/8K/– 2.22 171K
InstructBLIP 的 IT (Dai et al., 2023) SFT I/V+T →T 多个（InstructBLIP 的图2） 自动化 % – – ∼1.6M
X-InstructBLIP 的 IT (Panagopoulou et al., 2023) SFT I/V/A/3D+T →T 多个（X-InstructBLIP 的图4） 自动化 % – – ∼1.8M
MIMIC-IT (Li et al., 2023a) SFT I/V+T →T 多个 自动化 % 8.1M/502K/– 1 2.8M
PandaGPT 的 IT (Su et al., 2023) SFT I+T →T MiniGPT-4 和 LLaV A 的 IT 继承 " 81K/–/– 2.29 160K
MGVLID (Zhao et al., 2023b) SFT I+B+T →T 多个 自动化+手动 % 108K/–/– – 108K
M3IT (Li et al., 2023e) SFT I/V/B+T →T 多个 自动化+手动 % –/–/– 1 2.4M
LAMM (Yin et al., 2023b) SFT I+3D+T →T 多个 自动化+手动 " 91K/–/– 3.27 196K
BuboGPT 的 IT (Zhao et al., 2023d) SFT (I+A)/A+T →T Clotho, VGGSS 自动化 % 5K/–/9K – 9K
mPLUG-DocOwl 的 IT (Ye et al., 2023) SFT I/Tab/Web+T →T 多个 继承 % – – –
T2M (Wu et al.