这篇论文介绍了一个名为Large World Model（LWM）的人工智能模型，它旨在通过结合视频和语言数据来提高对世界的理解。LWM模型能够处理长达百万个令牌（tokens）的序列，这在现有的语言模型中是非常罕见的。以下是论文的主要内容概述：

1. **背景与挑战**：当前的语言模型在理解难以用文字描述的世界方面存在不足，并且在处理复杂和长形式任务时遇到困难。视频序列提供了语言和静态图像中缺失的时间信息，因此与语言联合建模具有吸引力。然而，由于内存限制、计算复杂度和有限的数据集，从数百万令牌的视频和语言序列中学习是一个挑战。

2. **贡献**：
   - LWM训练了迄今为止最大的上下文大小的神经网络，用于长视频和语言序列，为困难的检索任务和长视频理解设定了新的基准。
   - 提出了解决视觉-语言训练挑战的方案，包括使用掩蔽序列打包来混合不同序列长度，损失加权来平衡语言和视觉，以及模型生成的问答（QA）数据集用于长序列聊天。
   - 提供了一个高度优化的实现，包括RingAttention、掩蔽序列打包和其他关键特性，用于训练数百万长度的多模态序列。
   - 全面开源了一个7B参数的模型系列，能够处理超过1M令牌的长文本文档（LWM-Text, LWM-Text-Chat）和视频（LWM, LWM-Chat）。

3. **方法**：
   - **第一阶段**：学习长上下文语言模型。通过RingAttention技术和逐步增加上下文大小的方法，从32K到1M令牌，训练LWM-Text和LWM-Text-Chat模型。
   - **第二阶段**：学习长上下文视觉-语言模型。在第一阶段的基础上，通过架构修改和逐步训练，将视觉输入（图像和视频）与文本结合起来，训练LWM和LWM-Chat模型。

4. **评估**：
   - 在单针检索（Single Needle Retrieval）和多针检索（Multi-Needle Retrieval）任务中，LWM模型展示了在长视频理解方面的有效性。
   - 在图像理解和短视频理解任务中，LWM模型的表现平均，但在图像和视频生成任务中表现出色。
   - 在长视频理解方面，LWM能够准确回答关于长达1小时YouTube视频的问题。

5. **结论与未来工作**：LWM模型为训练大型视频和语言数据集铺平了道路，有助于开发具有更广泛能力的AI系统。未来的工作可以集中在改进视频标记化、增加模态、获取更多高质量的视频数据等方面。

论文还提供了详细的训练步骤、模型架构、评估结果和未来工作的讨论。此外，论文还开源了代码和模型，以便研究社区可以进一步探索和改进这些模型。
 "百万长度视频和语言的全球模型与环形注意力
刘浩∗，严伟∗，Matei Zaharia，Pieter Abbeel
加州大学伯克利分校
摘要
当前的语言模型在理解那些不容易用语言表达的世界方面存在不足，并且在处理复杂、长篇的任务时遇到困难。视频序列提供了语言和静态图像中缺失的时间信息，这使得它们成为与语言联合建模的有吸引力的对象。这样的模型能够发展出对人类文本知识和物理世界的理解，从而为辅助人类提供更广泛的AI能力。然而，由于内存限制、计算复杂度和有限的数据集，从数百万的文本和视频序列中学习提出了挑战。为了解决这些挑战，我们策划了一个包含多样化视频和书籍的大型数据集，利用环形注意力技术可扩展地训练长序列，并逐步将上下文大小从4K增加到1M个标记。本文的贡献如下：
最大的上下文大小神经网络：我们在长视频和语言序列上训练了其中一个最大的上下文大小的变换器，为困难的检索任务和长视频理解设定了新的基准。克服视觉-语言训练挑战的解决方案，包括使用掩蔽序列打包混合不同序列长度，损失加权平衡语言和视觉，以及模型生成的QA数据集用于长序列聊天。一个高度优化的实现，包括环形注意力、掩蔽序列打包和其他关键特性，用于训练数百万长度的多模态序列。完全开源了一个7B参数模型家族，能够处理超过1M个标记的长文本文档和视频。这项工作为在大规模的长视频和语言数据集上训练，发展对人类知识和多模态世界的理解，以及更广泛的能力铺平了道路。
∗同等贡献。通讯：haoliu@cs.berkeley.edu，wilson1.yan@berkeley.edu
Large World Model的代码和模型可在largeworldmodel.github.io获取。arXiv:2402.08268v1 [cs.LG] 2024年2月13日"

请注意，这段翻译是基于您提供的英文摘要内容。由于原文中的一些术语和概念可能具有特定的含义，我尽量保持了原文的准确性。如果有特定的术语需要进一步解释或者有其他问题，请告知。
 "目录
1 引言 3
2 概述 4
3 第一阶段：学习长上下文语言模型 4
3.1 扩展上下文 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2 训练步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.3 长上下文学习的聊天微调 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.4 语言评估结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.4.1 单针检索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.4.2 多针检索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.4.3 短上下文语言评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.4.4 聊天评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4 第二阶段：学习长上下文视觉-语言模型 9
4.1 视觉的架构修改 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.2 训练步骤 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.3 视觉-语言评估结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.3.1 长视频理解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.3.2 图像理解和短视频理解 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.3.3 图像和视频生成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.3.4 遮蔽序列打包消融 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
5 更多细节 13
6 相关工作 14
7 结论 15
A 更多单针检索结果 20
B 更多视频理解示例 21
C 更多图像理解示例 23
D 更多视频生成示例 24
E 更多图像生成示例 25
F 训练超参数 26"
 用户：穿着霸王龙服装的人骑的是什么交通工具？
GPT-4V：抱歉，我无法提供这方面的帮助。
Gemini Pro Vision：骑的是电动滑板车。
Video-LLaVA：穿着霸王龙服装的人骑的是卡车。
LWM：穿着霸王龙服装的人骑的是摩托车。

用户：在蹦床上的女孩穿的是什么颜色的夹克？
GPT-4V：提供的序列中没有包含蹦床上女孩的明确图像，因此我无法描述夹克的颜色。
Gemini Pro Vision：蹦床上的女孩穿的是绿色夹克。
Video-LLaVA：蹦床上的女孩穿的是黑色夹克。
LWM：蹦床上的女孩穿的是蓝色夹克。

1小时YouTube视频合集，包含超过500个片段
图1 LWM能够回答超过1小时的YouTube视频合集问题。LWM-Chat-1M与Gemini Pro Vision、GPT-4V以及开源模型的定性比较。我们的模型能够回答需要理解超过1小时长、包含超过500个视频片段的YouTube视频合集的问题。

图2 LWM能够在1M上下文中以高准确率检索事实。针对Gemini Pro和GPT-4的针式检索比较，每个模型的最大上下文长度分别为32K和128K。
我们的模型在能够扩展到8倍更长上下文长度的同时，表现仍然具有竞争力。请注意，为了展示细粒度结果，x轴从0-128K是对数刻度，从128K到1M是线性刻度。

1 引言
目前对世界建模的方法大多局限于短序列的语言或短序列的图像和片段[BMR+20,TLI+23,TMS+23,Ope23,TAB+23]，导致模型缺乏对难以用文本或短片段表示的世界部分的理解，并且无法处理复杂的长形式语言和视觉任务。
视频序列中的时间结构提供了语言或短片段中缺失的有用信息，对于长文档检索或编码等应用至关重要。
长视频提供了短片段无法把握的丰富上下文，展示了场景如何连接，事件的发展，以及视频中动作的因果关系。这种对多样化长语言和视频场景的暴露也拓宽了AI系统在各种现实世界情境中的泛化能力。通过联合建模长视频和书籍，模型可以发展对多模态世界以及长文本序列的理解。
 视频，引领着更先进的人工智能系统，这些系统具备多模态理解能力，能够在更广泛的任务中协助人类。为了从视频和语言序列中学习，我们需要训练一个能够处理每序列数百万甚至更多标记的模型，并在非常大的数据集上进行训练。然而，由于高内存成本、计算复杂度以及缺乏合适的数据集，建模数百万标记极其困难。幸运的是，我们有RingAttention [LZA24]，这是一种可以任意扩展上下文大小而不进行近似或增加开销的技术，允许在长序列上进行可扩展的训练。

我们从公开的书籍和视频数据集中策划了一个包含多样化活动视频和长篇书籍的大型视频和语言数据集。考虑到高昂的计算成本，我们逐渐将上下文大小从较小的4K扩展到更大的1M，以有效降低成本，这种方法在有效扩展上下文方面表现良好。此外，我们发现了与视频和语言训练相关的挑战：我们发现，为了达到最佳性能，混合视频、图像和文本的训练至关重要，因为图像代表更高的视觉质量，视频提供序列信息，而文本保留语言理解。为了实现这一点，我们实施了一种高效的掩蔽序列打包，以有效训练不同序列长度，而不是标准的序列打包机制。此外，确定图像、视频和文本训练之间的正确平衡对于跨模态理解至关重要，我们提出了一个被证明有效的比率。此外，为了解决长序列聊天数据集的缺乏，我们开发了一种模型生成的问答方法，使用短上下文模型从书籍中生成QA数据集。我们发现这对于长序列聊天能力至关重要。

本文的具体贡献如下：我们在视频和文本序列上训练了迄今为止上下文大小最大的变换器之一，并在长视频理解和长上下文事实检索方面取得了迄今为止最好的结果。我们发现了与视频和文本序列训练相关的一系列挑战，并提出了解决方案：损失加权以平衡语言和视觉，掩蔽序列打包以有效训练不同序列长度，以及模型生成的QA数据集用于长序列聊天。一个高度优化的开源实现，带有RingAttention、掩蔽序列打包和其他关键功能，适用于数百万长度的多模态训练。完全开源了一个7B参数模型家族，能够处理长文本文档和1M标记的视频。我们的工作为在长视频和语言的大规模数据集上训练铺平了道路，对于未来开发既理解人类知识又理解多模态世界、具备更广泛能力的人工智能系统具有重要意义。

2 概述
我们训练了一个具有高达一百万个标记上下文窗口的大型自回归变换器模型，基于Llama2 7B [TMS+23]。为了实现这一目标，我们利用了几种策略：通过书籍扩展上下文到1M，然后联合训练长多模态序列，包括文本-图像、文本-视频数据和书籍。
我们的训练阶段和数据集如图3所示，模型架构如图4所示。

3 第一阶段：学习长上下文语言模型
这个阶段的目标首先是开发LWM-Text和LWM-Text-Chat，这是一组通过使用RingAttention和修改位置编码参数来适应更长序列长度，在逐渐增加序列长度数据上训练的长上下文语言模型。
增长上下文大小的训练步骤在3.2节中展示。在3.3节中，我们将展示如何构建模型生成的QA数据以实现长序列对话。
 图3展示了大型世界模型的多模态训练。第一阶段，LLM上下文扩展，专注于使用Books3数据集扩大上下文大小，上下文大小从32K增长到1M。第二阶段，视觉-语言训练，专注于训练不同长度的视觉和视频内容。饼图详细说明了495B个标记在图像、短视频和长视频以及33B个文本数据上的分配。下面的面板展示了理解和回应关于复杂多模态世界的查询的交互能力。

为了解决这些计算限制，我们使用了RingAttention [LZA24, LA23] 实现，它利用块状计算与序列并行来理论上扩展到无限上下文，仅受可用设备数量的限制。我们进一步将RingAttention与FlashAttention [DFE+22, RS21] 结合使用Pallas [BFH+18] 来优化性能，与使用XLA编译器相比。一般来说，给定足够大的每个设备的标记数量，RingAttention期间的通信成本与计算完全重叠，不会增加任何额外开销。

在增加上下文长度上的渐进式训练。尽管我们的实现允许我们在数百万标记的长文档上进行训练，但由于注意力的二次计算复杂性，它仍然成本高昂，其中梯度步骤时间大致与上下文大小线性增长。
 "图4 LWM 是一个自回归变换器，用于处理数百万长度的序列标记。视频中的每一帧都通过 VQGAN 被标记化为 256 个标记。这些标记与文本标记连接起来，输入到变换器中以自回归的方式预测下一个标记。输入和输出标记的顺序反映了多样化的训练数据格式，包括图像-文本、文本-图像、视频、文本-视频以及纯文本格式。模型基本上是以任何到任何的方式使用多种模态进行训练。为了区分图像和文本标记，以及为了解码，我们用特殊的分隔符 <vision> 和 </vision> 包围视频和图像标记。我们还包括 <eof> 和 <eov> 视觉标记来标记图像和视频中间和最终帧的结束。为了简化，这些分隔符没有显示出来。例如，当在 1M 标记序列长度上训练一个 7B 模型时，每个梯度步骤大约需要 7 分钟，这使得在一整天的完整训练后只能进行大约 200 步。因此，我们采用了受 [JHY+23] 启发的训练方法，我们的模型从 32K 标记开始，以二的幂次方递增，最终达到 1M 标记。直观上，这允许模型通过先学习较短范围的依赖关系，然后转向更长的序列来节省计算资源。通过这样做，我们能够训练比直接在最大目标序列长度上训练多几个数量级的标记。增长上下文大小的渐进式训练在图 3 中展示。

对于长上下文的位置外推。为了在更长的上下文中扩展位置嵌入，我们采用了 [RGG+23] 中探索的方法的简单、放大版本，即 RoPE [SAL+24] 的 θ 随着上下文长度的增加而放大。我们通常发现这种方法由于只需要调整一个超参数，因此是一种稳定的方法来扩展位置嵌入。我们随着上下文窗口大小的增加而放大 RoPE 的 θ —— 这些值在表 1 中显示。

3.2 训练步骤
我们从 LLaMA-2 7B [TMS+23] 开始初始化，并在 5 个阶段逐步增加模型的有效上下文长度 - 32K、128K、256K、512K 和 1M。对于每个阶段，我们使用来自 The Pile [GBB+20] 的 Books3 数据集的不同过滤版本进行训练。表 1 详细说明了每个训练阶段的信息，如标记数量、总时间以及 Books3 数据集的过滤约束。每个连续的运行都是从前一个序列长度的运行初始化的。

3.3 长上下文学习的聊天微调
构建长上下文推理的 QA 数据。我们构建了一个简单的 QA 数据集，用于学习长上下文聊天能力。我们将 Books3 数据集中的文档分成固定大小的 1000 标记块，将每个块输入到我们的短上下文语言模型，并提示它生成一个关于段落的问题-答案对。然后，给定一个上下文长度，比如 32K，我们构建一个 6"
 图5 针线检索任务。我们的LWM-Text-Chat-1M在1M上下文窗口的不同位置几乎达到了完美的准确率。
图6 使用LWM-1M进行的多针线检索任务。N是上下文中事实的数量，R是模型被要求检索的事实数量。通过将相邻的块连接在一起，以及在序列末尾以聊天形式添加相关的问答对，来处理单个32K token的示例。
训练细节。对于聊天微调，我们在UltraChat [DCX+23]和我们自定义的QA数据集的混合上训练每个模型，大约是7:3的比例。我们发现将UltraChat数据预打包到训练序列长度至关重要，并将它们与我们的QA数据示例分开，因为UltraChat数据通常包含更高比例的丢失标记，而我们的QA数据由于给定上下文中没有长文档的丢失，每序列的丢失标记比例要低得多。表2显示了每次运行的进一步训练细节。请注意，对于每个聊天模型，并没有进行渐进式训练，而是从相同上下文长度的各自预训练模型初始化。

3.4 语言评估结果
3.4.1 单针线检索
我们在流行的针线检索任务 [gka23] 上进行评估——更具体地说，是一个更易于评估的版本 [AI23]，该版本从上下文中找到并检索随机分配给随机城市的数字。图5显示了我们的1M上下文模型在整个上下文中几乎完美的检索准确率。此外，图2显示，与当前可用的最佳大型语言模型（LLMs）相比，我们可以扩展到更大的上下文。附录A显示了我们其他较短上下文长度模型的更多单针线检索结果。
 表1 LWM-Text 训练阶段
32K 128K 256K 512K 1M
参数 7B 7B 7B 7B 7B
序列长度 215217218219220
RoPE θ 1M 10M 10M 25M 50M
每批处理的标记数 4M 4M 4M 4M 4M
总标记数 4.8B 12B 12B 3B 1.8B
墙钟时间 8h 45h 83h 47h 58h
计算（TPU）v4-512 v4-512 v4-512 v4-512 v4-512
表2 LWM-Text-Chat 训练细节
128K 256K 512K 1M
参数 7B 7B 7B 7B
序列长度 217218220
RoPE θ 10M 10M 25M 50M
每批处理的标记数 4M 4M 4M 4M
总标记数 1.2B 1.2B 1.2B 1.2B
墙钟时间 6h 10h 20h 40h
计算（TPU）v4-512 v4-512 v4-512 v4-512
3.4.2 多针检索
我们还在不同设置下，通过混合多个针（needle）并尝试检索特定子集来检验我们模型在更复杂的针检索任务上的性能。
图6显示了在不同设置下的多针检索结果。我们的模型在上下文中从多个针中检索单个针时表现良好，当被要求检索多个针时性能略有下降。表3显示了我们模型、Gemini Pro和GPT-4之间的多针比较，我们的模型在检索一个针时能够与GPT-4竞争或表现更好，而在检索多个针时性能略有下降。此外，我们的模型也能很好地扩展到长达1M标记的上下文长度。然而，我们注意到在增加针检索任务难度时准确性有所下降，这表明我们的模型在利用1M上下文方面还有改进空间。
我们相信我们发布的模型将为未来开发更长上下文模型提供基础，并鼓励包含更高水平合成而非纯事实检索的困难长程任务的更具挑战性的基准测试。

表3 多针检索准确性基线比较
上下文长度 模型 N= 2, R= 2 N= 4, R= 1 N= 4, R= 2
32K Gemini Pro 0.34 0.44 0.6
GPT-4 0.97 0.95 0.9
LWM-Text-1M (我们的模型) 0.84 0.97 0.84
128K Gemini Pro - - -
GPT-4 0.92 0.8 0.82
LWM-Text-1M (我们的模型) 0.83 0.98 0.83
1M Gemini Pro - - -
GPT-4 - - -
LWM-Text-1M (我们的模型) 0.67 0.84 0.69

3.4.3 短上下文语言评估
表4展示了Llama2-7B模型与从32K到1M的上下文扩展版本之间的比较分析。评估涵盖了各种语言任务，
 展示扩大上下文大小并不会损害短上下文任务的性能。实际上，结果表明，具有更大上下文容量的模型在这些任务上表现得同样好，甚至更好。这一证据表明，上下文扩展没有负面影响，突显了模型在不损失短上下文效率的情况下适应不同任务要求的能力。

表4 语言任务评估：比较Llama2-7B和LWM-Text的上下文扩展版本（从32K到1M）。结果表明，扩大上下文对短上下文任务的性能没有负面影响。

LWM-Text
任务/指标 Llama-2 7B 32k 128k 256k 512k 1M
arc_challenge/acc 0.4 0.43 0.45 0.44 0.44 0.43
arc_challenge/acc_norm 0.43 0.47 0.47 0.46 0.46 0.46
hellaswag/acc 0.57 0.57 0.57 0.56 0.57 0.57
hellaswag/acc_norm 0.77 0.76 0.76 0.75 0.75 0.75
mmlu 0.39 0.4 0.41 0.41 0.36 0.35
openbookqa/acc 0.32 0.33 0.31 0.32 0.33 0.3
openbookqa/acc_norm 0.44 0.44 0.44 0.43 0.41 0.41

3.4.4 聊天评估
我们还在MT-Bench [ZCS+23a]上评估了我们的模型，以测试其对话能力。
表5显示了我们每个模型的MT-Bench分数。表6说明了聊天和事实检索任务的混合与MT-Bench分数和针式检索精度之间的关系。随着聊天比例的增加和事实检索的减少，MT-Bench分数提高，表明通过MT-Bench测量的聊天性能更好。相反，针式检索精度降低，这表明增加聊天互动能力可能会降低系统从输入上下文中检索特定信息或“针”的精度。

在不同的上下文大小中，我们发现支持更长输入序列的模型在MT-Bench分数上略有下降。我们假设这是因为我们在更长序列训练上使用了较少的例子，可以通过简单地在更多数据上训练来改进。此外，通过获取更高质量的长上下文聊天数据，这种权衡可以通过更接近UltraChat数据集的聊天分布来解决。

表5 不同上下文大小的MT-Bench结果。尽管在更长序列长度上的训练较少，但它们的对话能力仅略有下降。

模型 MT-Bench
LWM-Text-Chat-128k 4.62
LWM-Text-Chat-256k 5
LWM-Text-Chat-512k 4.83
LWM-Text-Chat-1M 4.19

表6 聊天和事实检索任务的混合与MT-Bench分数和针式检索精度之间的关系。
聊天/问答混合比例 MT-Bench 针式检索精度
0% / 100% 2.42 100%
40% / 60% 4.14 100%
70% / 30% 4.62 96%
90% / 10% 5.1 55%
100% / 0% 5.8 31%

4 第二阶段：学习长上下文视觉-语言模型
我们的第二阶段旨在有效联合训练长视频和语言序列。我们将在第4.1节介绍LWM和LWM-Chat的架构修改，以整合视觉输入。第4.2节讨论了在不同序列长度上的训练。评估结果在第4.3节展示。在这个阶段，我们通过在各种长度的视觉-语言数据上微调之前开发的1M上下文语言模型来增强其能力。使用的数据集和训练过程中的步骤如图3所示。
 表格 7 LWM 和 LWM-Chat 训练阶段
1K 8K Chat-32K Chat-128K Chat-1M
参数 7B 7B 7B 7B 7B
序列长度 210213215217220
RoPE θ 50M 50M 50M 50M 50M
每批令牌数 8M 8M 8M 8M 8M
总令牌数 363B 107B 10B 3.5B 0.4B
墙上时钟 83h 32h 10h 6h 8h
计算 v4-1024 v4-1024 v4-1024 v4-1024 v4-1024
4.1 视觉架构修改
模型如图 4 所示。我们使用了来自 aMUSEd [PBRvP24] 的预训练 VQGAN [ERO21]，它可以将 256×256 的输入图像分词为 16×16 的离散令牌。视频通过逐帧应用 VQGAN 进行分词，并将代码连接起来。为了在生成时区分模态，以及知道何时切换，我们引入了标记文本生成结束/视觉生成开始，反之亦然的机制。为了定义视觉生成的结束，我们引入了新的令牌 <eof> 和 <eov>，分别代表帧结束和视觉边界结束。为了定义文本生成的结束，我们用 <vision> 和 </vision> 文本令牌包裹视觉令牌。模型通过交错连接视觉和文本令牌进行训练，并进行自回归预测。

4.2 训练步骤
我们从我们的 LWM-Text-1M 文本模型开始初始化，并在大量结合文本-图像和文本-视频数据上执行类似的渐进式训练过程，唯一的例外是我们不再额外缩放 RoPE θ，因为它已经支持到 1M 上下文。表 7 显示了每个训练阶段的详细信息，模型从先前的较短序列长度阶段开始初始化。对于每个阶段，我们在以下数据上进行训练：
• LWM-1K：我们在包含 LAION-2B-en [SBV+22] 和 COYO-700M [BPK+22] 的文本-图像数据集上进行训练。这些数据集被过滤，只包括至少 256 分辨率的图像——总共大约有 1B 文本-图像对。在训练过程中，我们连接文本-图像对，并随机交换模态的顺序，以模拟文本-图像生成、无条件图像生成和图像描述。我们将文本-图像对打包成 1K 令牌的序列。
• LWM-8K：我们在 WebVid10M [BNVZ21] 和 3M Intern-Vid10M [WHL+23] 的文本-视频数据集混合上进行训练。与之前的作品 [HCS+22,HSG+22,VBK+22] 类似，我们以 50-50 的比例联合训练图像和视频。我们将图像打包成 8K 令牌的序列，30 帧视频以 4FPS 的速度。与图像训练类似，我们为每个文本-视频对随机交换模态的顺序。
• LWM-Chat-32K/128K/1M：对于最后的三个阶段，我们在每个下游任务的聊天数据混合上进行训练：文本-图像生成、图像理解、文本-视频生成和视频理解。我们通过从预训练数据中采样随机子集并添加聊天格式来构建文本-图像和文本-视频聊天数据的简单版本。对于图像理解，我们使用 ShareGPT4V [CLD+23] 的图像聊天指令数据。最后，对于视频理解聊天数据，我们使用 Valley-Instruct-73K [LZY+23b] 和 Video-ChatGPT-100K 指令数据 [MRKK23] 的混合。对于所有短上下文数据，我们将序列打包到训练上下文长度。在打包过程中，我们发现屏蔽注意力至关重要，以便每对文本-视觉只关注自己，以及重新加权损失，使计算与非打包+填充训练制度相同。对于视频理解数据，如果视频太长，我们均匀采样最大帧数以适应模型的训练上下文长度。在训练过程中，我们为每个下游任务分配 25% 的每个批次。
 用户：这个视频是关于什么的？
助手：这个视频是关于一个男人在给汽车换轮胎。他展示了如何使用千斤顶和备用轮胎来换轮胎。
00:32 01:23 02:14 03:06 04:09
助手回答了关于一个3分钟动物视频的问题。

00:06 00:28 00:51 01:14 01:37 02:00
用户：这个视频是关于什么的？
助手：在视频中，一个人正在一条被树木环绕的土路上骑越野摩托车。背景中还有其他人在骑车。这个人戴着头盔，以高速骑行。
用户：这个人戴的手套是什么颜色？
助手：这个人戴着红色的手套。
助手回答了关于一个2分钟视频的问题，视频中有一个男人沿着小径骑车。

图7展示了LWM（Long Video Understanding Model）可以回答关于视频的问题。更多例子可以在附录B中找到。

为了前两个训练阶段，我们额外混合了16%的批次为来自OpenLLaMA [GL23]的纯文本数据，因为我们发现在训练视觉数据时保留语言能力是有益的。

4.3 视觉-语言评估结果
4.3.1 长视频理解
尽管视觉-语言模型[LZY+23a, Ope23, TAB+23]可以处理长视频，但通常这是通过对视频帧进行大范围的时间子采样来实现的，因为模型的上下文长度有限。例如，Video-LLaVA [LZY+23a]限制于从视频中均匀采样8帧，无论原始视频有多长。因此，模型可能会丢失对准确回答问题重要的更精细的时间信息。相比之下，我们的模型是在1M个标记的长序列上训练的，因此可以同时关注数千帧视频，以在短时间间隔内检索精细信息。图1展示了我们的模型正确回答了一个长达1小时的YouTube合辑视频的问题，该合辑由500多个独立片段组成。我们的基线方法通常由于帧数有限而难以回答问题。更多结果展示在图7和附录B中。

尽管我们展示了我们的模型可以在复杂的长视频中进行问答，但我们注意到在所有1M个标记的上下文中更好地利用上下文仍有改进空间，因为我们模型生成的答案可能并不总是准确的，模型在需要对视频有更高层次理解的更复杂问题上仍然挣扎。我们希望我们的模型将有助于未来开发改进的基础模型，以及长视频理解的基准。
 4.3.2 图像理解和短视频理解
表8和表9展示了图像理解和短视频理解的常见基准测试结果。图17展示了图像理解的定性示例。我们的模型在基线模型中表现一般，并且落后于当前最佳（SOTA）模型。我们假设这可能是因为我们的模型在文本-图像和文本-视频对齐的训练上有限，而基线模型可以利用经过更广泛、大规模基于CLIP训练的视觉骨干网络。相比之下，我们的模型使用VQGAN标记，并需要从头学习文本-图像对齐，通常在OCR任务上表现不佳，因为VQGAN在重建图像中的文本方面能力不足。然而，我们相信我们的模型将为未来的基于VQ的视-语言模型架构提供一个有希望的方向，并且通过更严格的训练和学习更好的标记器，可以表现得很好。附录B展示了更多的图像理解和附录B展示了更多的短视频理解定性示例。

表8 图像理解基准测试
方法 视觉标记 VQAv2 GQA VisWiz SQA TextVQA POPE MM-Vet
MiniGPT-4 [ZCS+23b] CLIP - 30.8 47.5 25.4 19.4 - 22.1
Otter [LZC+23] CLIP - 38.1 50 27.2 21.2 - 24.6
InstructBLIP [DLL+23] CLIP - 49.2 34.5 60.5 50.1 - 26.2
LLaV A-1.5 [LLLL23] CLIP 78.5 62 38.9 66.8 58.2 85.9 30.5
LWM VQGAN 55.8 44.8 11.6 47.7 18.8 75.2 9.6

表9 视频理解基准测试
MSVD-QA MSRVTT-QA TGIF-QA
方法 视觉标记 准确率 分数 准确率 分数 准确率 分数
VideoChat [LHW+23] CLIP 56.3 2.8 45 2.5 34.4 2.3
LLaMA-Adapter [GHZ+23] CLIP 54.9 3.1 43.8 2.5 - -
Video-LLaMA [ZLB23] CLIP 51.6 2.5 29.6 1.8 - -
Video-ChatGPT [MRKK23] CLIP 64.9 3.3 49.3 2.8 51.4 3
Video-LLaV A [LZY+23a] CLIP 70.7 3.9 59.2 3.5 70 4
LWM VQGAN 55.9 3.5 44.1 3.1 40.9 3.1

4.3.3 图像和视频生成
除了能够进行图像/视频描述和问答（QA），我们的模型还可以根据文本生成图像和视频。图8展示了这些能力的示例。我们使用无分类器引导[HS22]对自回归采样的logits进行处理，类似于之前的研究[YXK+22,GPA+22]。对于无条件分支，我们以<bos><vision>初始化每个序列。附录E和D展示了更多的图像和视频生成示例。

4.3.4 遮蔽序列打包消融研究。
正如4.2节提到的，正确遮蔽注意力和重新加权损失对于某些下游任务，特别是图像理解至关重要。表10展示了我们的模型在有无打包校正的情况下的比较。简单地打包在图像理解任务的准确率上显示出显著下降。我们假设简单的打包会降低性能，因为这样做会降低文本标记答案的权重，这对于良好的图像理解基准测试表现是一个重要方面。

表10 在三个任务中比较标准和遮蔽序列打包机制的消融研究。遮蔽序列打包对性能至关重要。
VQAv2 SQA POPE
简单打包 48.3 34.8 62.5
LWM 55.8 47.7 75.2
 "一只黑色的狗
海底的一只大象
由牛仔布制成的立方体
一杯葡萄酒
一辆黄黑相间的巴士在雨林中穿梭
烟花在天空中绽放
海浪拍打着岸边
LWM能够根据文本输入生成图像和视频。图像和视频生成的例子。附录E和附录D展示了更多例子。
5 更多细节
MFU。我们使用TPUv4-1024训练我们的模型，这大约相当于450个A100，使用FSDP [Fac23]和RingAttention进行大上下文训练，批量大小为8M。图9显示了每个训练阶段的模型FLOPS利用率。蓝色条形表示语言训练，橙色条形表示视觉-语言训练。我们的训练即使对于非常大的上下文尺寸也能实现良好的MFU。
图9 跨序列长度的高MFU训练。LWM-Text和LWM/LWM-Chat的每个训练阶段的模型FLOPS利用率。"

请注意，这段文字中包含了一些专业术语和缩写，例如"MFU"（可能指的是"Model Floats Utilization"，即模型浮点运算利用率），"TPUv4-1024"（谷歌的张量处理单元版本），"FSDP"（可能指的是"Fully Sharded Data Parallel"，全分片数据并行），"RingAttention"（可能是一种注意力机制的名称），以及"FLOPS"（浮点运算次数）。这些术语在翻译时保持原样，因为它们是特定领域的技术术语。
 "训练损失曲线。图10和图11展示了分别针对语言和视觉-语言模型训练的每个阶段的训练损失曲线。
图10 LWM-Text模型各训练阶段的训练损失曲线。
图11 LWM和LWM-Chat模型各训练阶段的训练损失曲线。请注意，损失由不同模态的损失组合而成，可能无法直接跨阶段比较。1K训练中期的急剧峰值是由于将EOF和EOV标记新加入到视觉码本中。
训练超参数。请参阅附录F
扩展推理 我们通过实现RingAttention进行解码，将推理代码扩展以支持百万长度序列。对如此长序列的推理至少需要v4-128，并且需要32个张量并行和4个序列并行的TPU网格分片。我们在纯单精度下进行推理，可以通过量化等可扩展性技术进一步改进。
6 相关工作
我们的工作与那些扩展语言模型上下文窗口以允许更多标记的努力相关[CWCT23, TSP+23, LYZ+23, 等等]，通常通过使用新颖的外推方法扩展预训练的位置编码，然后对更长的上下文数据进行模型微调。
我们的模型采用了一种简单的方法，即随着训练上下文窗口大小的逐渐增加，逐步增加RoPE位置编码中的θ，我们发现这种方法是有效的。已经有研究探讨了不建模成对交互的架构，如稀疏注意力和滑动窗口[CGRS19, BPC20]；我们的工作利用RingAttention [LZA24]和BPT [LA23]来为长序列建模精确的成对交互，以获得最佳性能。通过跳过因果掩蔽计算的负载平衡也可以进一步改进训练性能[BNQ+23]。
我们的工作还与指令调整的研究相关[TGZ+23, CLL+23, GGL+23, 等等]。这些研究专注于使用对话数据对模型进行微调，以增强它们在14"（此处原文似乎有遗漏，未提供完整的句子或上下文）的能力。"
 语言任务。我们的方法旨在通过训练模型理解复杂、长序列的视频和语言来推进模型。为了实现这一点，我们通过在书籍和长视频上训练来扩展模型的上下文大小，并在模型生成的问答数据上进行微调，以学习长序列上的聊天能力。我们的工作也与结合视觉和语言的努力有关[LLWL23, LZY+23a, AGG+23, ZHZ+23, JXC+23, 等]。这些努力通常使用CLIP [RKH+21]或BLIP [LLXH22]将视觉信息编码为嵌入，以便输入到语言模型中。它们利用CLIP的跨模态理解来编码图像中的文本信息具有潜在优势。然而，它们只能被训练为基于视觉输入预测文本，而不能反过来，限制了它们从视觉和语言信息的多样化格式中学习的能力。在它们确实预测视觉标记[JXC+23]的情况下，通常需要一个更强的扩散解码器，因为CLIP嵌入相对有损。另一方面，我们的工作是自回归的“标记输入，标记输出”，使我们能够灵活地模拟多样化的图像-文本、文本-图像、文本-视频、视频-文本以及纯视频、图像或文本格式。

7 结论
在本文中，我们解决了通过结合语言和视频来更好地理解世界的学习模型的挑战。我们利用RingAttention可扩展地在大量长视频和书籍数据集上训练，并逐渐增加序列长度，从32K到1M标记，以保持计算可管理。我们开发了掩蔽序列打包和损失加权，有效地在多样化的视频、图像和书籍数据集上进行训练。最后，我们展示了LWM具有非常有效的1M上下文大小，这是迄今为止最大的，使其能够成功处理涉及长视频和语言序列的复杂任务。我们开源了我们针对百万级序列训练优化的RingAttention、掩蔽序列打包和其他关键特性的实现，以及一个能够处理超过1M多模态标记的7B参数模型。我们希望这项工作为推进具有可靠推理能力和对世界有基础理解的AI模型铺平道路。

局限性和未来工作。尽管这项工作为大型自回归模型实现了超过1M标记的有效上下文，并在理解超过1小时长视频和长形式语言序列方面显示出有希望的结果，但它确实存在一些需要解决的局限性：

• 更好的视频标记化。这项工作使用图像标记器处理视频——改进标记化以使其更紧凑不仅可以提高视频质量，还可以使处理更长的视频成为可能，或者在更短的视频中进行更有效的训练。
• 更多模态。我们的工作为从更多模态源（如音频和其他长序列）学习铺平了道路。
• 更好和更多的视频数据。与过去几年受到相当关注的文本和图像数据集不同，视频数据集缺乏所需的视觉质量和数量。未来的研究可以通过从YouTube获取视频来解决这个问题。

致谢
本项目部分由海军研究办公室授予的N00014-21-1-2769和神经启发式分布式深度学习ARO MURI支持。我们感谢Google TPU Research Cloud授予我们访问TPU的权限，并感谢Google Cloud为我们的研究提供存储信用。

参考文献
[AGG+23]Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Shiori Sagawa, 等。Openflamingo: 一个开源框架，用于训练大型自回归视觉-语言模型。
arXiv预印本arXiv:2308.01390, 2023.
[AI23] Arize AI. 海底捞针 - 压力测试LLMs。https://github.com/Arize-ai/LLMTest_NeedleInAHaystack, 2023.