这篇论文提出了一种名为“Multimodal Pathway”（M2PT）的方法，旨在通过利用其他模态的无关数据来提高特定模态的Transformer模型性能。例如，可以使用音频或点云数据集来改进ImageNet模型。这种方法的核心思想是，尽管目标模态的数据样本与其他模态的数据样本无关，但通过构建连接两个模型的路径，可以使目标模态的数据同时被两个模型处理，从而利用从两个模态中学到的通用序列到序列建模能力。

为了实现这一目标，作者提出了一种名为“Cross-Modal Re-parameterization”的方法，它通过重参数化目标模型的权重，使其能够利用辅助模型（在另一个模态上训练的模型）的权重，而不需要额外的推理成本。这种方法在图像、点云、视频和音频识别任务中都观察到了显著且一致的性能提升。

论文的主要贡献包括：
1. 提出了Multimodal Pathway框架，通过利用在其他模态上训练的模型来改进Transformer。
2. 提出了一种无推理成本的Multimodal Pathway实现方法，即Cross-Modal Re-parameterization。
3. 在四个代表性模态（图像、视频、点云和音频）上实现了显著且一致的性能提升，展示了该方法作为有前景的方法的潜力。

论文还讨论了与现有单模态预训练和多模态预训练方法的关系，以及结构重参数化方法。此外，作者还进行了一系列的消融研究，以验证M2PT设计选择的有效性，并探讨了模态互补知识的性质。最后，论文讨论了数据规模对M2PT效果的影响，并指出了当前研究的局限性，即需要进一步的理论解释来揭示改进背后的深层原因。
 多模态路径：利用其他模态的无关数据改进变换器
张一元1 丁小寒2 龚凯雄1
葛一晓2 沈颖2 岳向阳1*
1 香港中文大学 2 腾讯AI实验室
yiyuanzhang.ai@gmail.com, xiaohding@gmail.com, xyyue@ie.cuhk.edu.hk
https://ailab-cvc.github.io/M2PT/

摘要
我们提出利用其他模态的无关数据来改进特定模态的变换器，例如，使用音频或点云数据集来改进ImageNet模型。我们想强调的是，目标模态的数据样本与其他模态无关，这使我们的方法与利用不同模态的配对或交错数据的其他工作有所区别。我们提出了一种名为多模态路径的方法——给定一个目标模态和一个为其设计的变换器，我们使用另一个模态的数据训练的辅助变换器，并构建连接两个模型组件的路径，以便目标模态的数据可以被两个模型处理。通过这种方式，我们利用了从两个模态获得的变换器的通用序列到序列建模能力。作为一个具体的实现，我们像往常一样使用模态特定的分词器和任务特定的头部，但通过我们提出的名为跨模态重参数化的方法利用辅助模型的变换器块，这种方法利用辅助权重而不需要任何推理成本。在图像、点云、视频和音频识别任务上，我们观察到使用其他模态的无关数据可以显著且一致地提高性能。代码和模型可在https://github.com/AILab-CVC/M2PT 上获取。

1. 引言
变换器[19, 22, 50, 51]已被广泛应用于各种模态的任务，如文本分类[10]、地图构建[65]、目标检测[4]、点云分析[66]和音频频谱识别[24]。除了众多单模态任务，变换器在多模态数据上也很有效，例如，CLIP[43]使用图像-文本对在图像识别上取得了优异的性能。变换器在多个模态上的成功展示了它们能够普遍建立序列到序列建模的能力，给定的输入序列可以被视为多模态数据的通用嵌入[4, 20, 24, 55, 58, 66]。为了简洁起见，我们称这种能力为通用建模能力。

我们想指出，CLIP[43]代表了一种方法论的重大成功，即通过另一种模态的数据帮助提高模型在某一模态上的性能，但局限性也很明显——两种模态的数据样本必须相关。这种局限性似乎如此不可避免，以至于几乎不吸引文献研究的兴趣。以另外两种模态，图像和音频为例，我们可能期望通过图像-音频对的训练可以帮助模型识别图像，但很难相信一个纯音频数据集能够在没有音频和图像样本之间相关性的情况下提高ImageNet分类模型的性能。

在本文中，我们提出即使使用另一模态的无关数据，也能提高变换器在某一模态上的性能，如图1所示。动机是我们可以将某一模态的训练过程视为将模态数据转换为序列，并使用变换器块建立序列到序列的映射。对于特定模态，我们认为训练好的模型在序列到序列建模中编码的知识可以促进另一个建模过程，其输入序列来自另一模态。换句话说，除了通过在特定模态上的训练获得的明显模态特定知识外，我们还可以通过其他模态获得的知识来促进对目标模态的建模。
 "不相关数据 相关数据
LAION -400M
LAION -2B
LAION -5B21K 火车集

单一模态
多模态
1K 训练集

验证集 检测 分割 分类
视频 图像
点云 音频 图 1. 与已知的利用良好对齐的多模态数据的范式相比，我们关注的是数据样本来自多个模态但彼此不相关的场景，这是文献中的一个开放问题。

在给定一个特定模态的情况下，设计模型利用另一种模态的一些不相关数据似乎很困难，因为不同模态的数据样本在语义、数据格式、预处理等方面可能差异显著，而且由于任何两个样本之间没有相关性，设计一个合理的目标函数似乎几乎不可能。在本文中，我们通过不直接混合两种模态的训练数据，而是将一个在特定单模态数据集上训练的模型视为相应模态的代理，并使用该模型来解决这个问题。具体来说，给定一个目标模态和一个辅助模态，我们提出了一个名为多模态路径（Multimodal Pathway）的框架，通过分别使用两种模态的单模态数据训练的两个变换器（transformers），来提高目标模态的性能。我们在目标和辅助模型的组件之间构建路径，以利用后者编码的模态互补知识来帮助前者。注意，路径是一个抽象概念，可能指代两个模型之间的任何连接。我们简称该模型为多模态路径变换器（Multimodal Pathway Transformer）。

本文提出了一个简单而有效的多模态路径变换器（M2PT）的实现，关键在于实现连接两个模型的路径的具体方法。如上所述，由于变换器在不同模态上的通用建模能力，变换器可能有不同的分词器，但其主体结构可能相同。对于具有相同主体结构的目标模型和辅助模型，前者主体中的一层应该在后者中有对应的层。例如，目标模型第9个块的查询层（Query layer）的对应层是辅助模型中的第9个查询层，它们在两个模型中扮演类似的角色。基于此，我们通过在目标模型的变换器块的每个线性层中增加其在辅助模型中的对应层来构建两个模型之间的连接。在这种概念设计中，我们让两层接受相同的输入并将它们的输出相加，如图2所示。

然而，考虑到计算和延迟的预算，我们希望实现一种多模态路径，它实现了路径并充分利用辅助模型，但与在目标模态上训练的常规模型相比，只带来边际的训练成本和完全无推理成本。我们注意到，上述概念结构可以通过重参数化方法等效实现，这等效地将模型结构之间的连接转换为两个模型权重之间的连接。具体来说，我们通过为目标线性层添加其对应权重来构建每个目标线性层的路径。

1 除了变换器，最近的一项工作，UniRepLKNet [18]，揭示了ConvNets同样有效地处理来自不同模态的嵌入，使用相同架构，在包括全球天气预报和音频识别的任务中取得了最先进的性能。
2"
 多模态路径变换器（M2PT）实现结构与跨模态重参数化
头
辅助模态
目标模态 QKVProj
注意力
Tokens结构=公式等效+
归一化
归一化+FCFC+
参数化
FC FC' FC概念结构=
Q K V Q' K' V'Proj Proj'
注意力
Tokens归一化
归一化+FC FC'FC'+
=等效图2.（左）多模态路径变换器（M2PT）框架。我们以点云和图像模态为例。
变换器的常见实践遵循相同的流程：1）使用标记器将输入数据转换为序列，2）变换器块处理序列，3）头解码序列。我们通过在不同模态的组件之间建立路径来升级序列到序列的建模，以便处理特定模态的标记可以利用用另一种模态训练的变换器块。（中）M2PT的概念设计，其中路径通过让目标模型中的线性层（包括注意力块中的Query/Key/Value/投影层以及FFN块中的那些）与其在辅助模型中的对应层合作来实现。（右）跨模态重参数化通过用辅助模型的权重重参数化目标模型的权重来高效实现M2PT，引入的训练成本很小，完全无推理成本。

IN-1K K400 PartNet Audioset
+0.4%
+0.7%
+0.4% +1.0% +1.5%+0.9% +3.8% +0.8%
+0.6% +5.7%
+1.0% +0.8%Top-1 Acc. Top-1 Acc. mIoU Top-1 Acc. 辅助
目标
图3. M2PT在图像、视频、点云和音频四种模态中带来的一致性改进。这些指标分别是ImageNet-1K准确率、Kinetics-400准确率、PartNet mIoU和AudioSet准确率。这些数字代表了M2PT模型相对于使用MAE风格方法[30, 31, 41, 68]在四种模态上预训练的基线模型性能的改进百分比。

在训练的辅助模型中的部分通过一个可学习的乘数进行缩放，表示路径的强度，因此该方法被命名为跨模态重参数化。重参数化的一个显著优势是额外的训练成本很小（即，重参数化的模型将具有与原始模型相同数量的线性层，并且每个线性层在投影输入之前只需要计算两个权重矩阵的和），并且我们可以在训练后合并权重，使得结果模型的结构和参数数量与常规模型相同。

我们在图像、视频、点云和音频模态上进行了实验。图3显示了M2PT在四种模态中带来的相对改进。这些结果揭示了变换器中序列到序列建模的模态互补知识确实存在。

作为早期探索，我们的实证研究证实，这些改进不仅仅是由于更多的参数，并且表明这种模态互补知识可能与处理层次化表示的能力有关。层次化抽象存在于多种模态中，概念从低级到高级，这可能解释了学习知识的普遍性。换句话说，当一个变换器在训练图像时，它学习了（能力A）如何理解图像和（能力B）如何一般性地将标记从低级模式转换为更高级，而不假设它们最初来自图像。与此同时，当另一个变换器在预训练音频数据时，它学习了不同的“能力A”用于音频和类似的“能力B”，以便帮助前述的变换器进行图像识别。

总之，我们的贡献如下：
• 我们提出了多模态路径，这是一个通过利用在其他模态上训练的模型来改进变换器的框架。
• 我们提出了一个无推理成本的多模态路径实现方法，名为跨模态重参数化。
 参数化。
• 多模态路径表示了这一方向的早期探索，它提供了一个新颖的视角。我们在四种代表性模态上实现了显著且一致的改进，这展示了我们方法作为一个有前景的方法的潜力。
2. 相关工作
单模态预训练。单模态预训练范式的演变从监督式转变为自监督式。例如，Devlin等人[10]引入了掩码重构范式并取得了显著成果。当时，视觉预训练主要强调对比学习[5, 7, 29]。随后，利用大量未标记数据，BERT范式开始流行，像MAE[30]这样的先驱成功地将其应用于视觉预训练，而其他人[24, 41, 49, 64]则将这一范式扩展到了点云、音频和视频感知等领域。
我们使用MAE风格的单模态预训练方法来获取每种模态的权重，这样做是为了简单起见。我们不使用监督预训练，因为我们希望确保两个单模态数据集完全无关，避免使用标签，考虑到两个数据集的标签可能会有所重叠。
多模态预训练。现有的多模态学习方法需要成对[53-56]或交错数据[1]。
在这两种情况下，不同模态的数据样本都是良好对齐的。最近的一项研究强调了文献中的主要趋势——现有的多模态预训练方法过度依赖于良好对齐的多模态样本对/元组[60]。例如，VideoBERT[46]和CBT[45]利用了良好对齐的视频和语音数据；许多模型是使用大规模的图像-文本数据进行预训练的，例如VisualBERT[34]，VL-BERT[44]，ViLBERT[39]，LXMERT[48]，UNITER[8]，LLaVa[37]，OneLLM[27]，EVA-CLIP[47]，GVT[52]，VL-GPT[69]。
如今，使用弱对齐或未对齐的多模态数据作为预训练语料库的研究仍然不足[60]。这项工作代表了这一方向的早期探索，旨在填补这一领域的空白。
结构重参数化是一种在训练过程中构建额外结构并通过转换参数来转换训练结构的方法[3, 11-18]。结构重参数化的一个主要缺点是构建的层必须与输入一起参与计算，导致显著的额外训练成本。
相比之下，跨模态重参数化是一种比结构重参数化更高效的重参数化方法。具体来说，每个重参数化层在前向计算中的额外计算增加了两个权重矩阵，
3. 方法
3.1. 架构设计
我们为特定模态设计了一个变换器，分为三个模块——模态特定的分词器、模态不可知的变换器块和模态特定的头。我们假设令牌的维度为D，这是一个预定义的架构超参数，并描述如何将多种模态的输入数据分词为D维令牌。
图像分词器。我们用xI∈RH×W×C表示图像，其中H×W指定图像的分辨率，C是通道数。遵循ViT[20]，我们使用S×S patch嵌入层，该层通过S×S卷积层实现，步长为S，将图像投影到D维令牌。即xI∈RH×W×C→x′I∈RHW
S2×D。
视频分词器。类似于2D图像，我们使用视频块作为学习视频表示的基本单元。给定一个N帧视频x∈RN×H×W×C，类似于图像，我们使用S×S嵌入层，使得xV∈RN×H×W×C→x′V∈RNHW
S2×D。
遵循ViT[20]，我们默认使用S=14。
点云分词器。给定一个包含P个点的点云X={xi}P
i=1，其中pi∈R3表示3D坐标，fi∈Rc编码属性，例如颜色、视角、法线等。我们使用最远点采样从原始点中以固定采样比率1/4采样代表性骨架，然后使用K最近邻方法对接近的点进行分组。然后我们通过构建每个组对之间的邻接矩阵RP
4×P
4
来模拟几何相关性，然后将其投影到D维令牌。即xP∈RP×→x′
P∈RP
4×P
4→x′′
P∈RP
4×D。
音频谱图
 "Transformer 块。我们采用了视觉变换器（ViT）[20]中的 Transformer 块的结构设计，其中每个 Transformer 块由一个自注意力块和一个前馈网络（FFN）块组成。线性层包括注意力块中的查询/键/值/投影层以及 FFN 块中的两层。为了公平性和可复现性，我们在每种模态上的每个 M2PT 模型都使用与 ViT-Base 相同的架构超参数（例如，标记维度、块数量和头数量）。

3.2. 跨模态重参数化
对于特定模态上的 M2PT 模型，我们在 Transformer 块中使用跨模态重参数化来利用另一个在另一种模态上训练的模型的权重。具体来说，设 θ 为 Transformer 中任意一层的可训练参数，x 为输入，y 为输出，我们用 f 表示操作，使得 y = f(x;θ)。通过跨模态重参数化，我们简单地用另一种模态上训练的对应层的参数来重参数化这一层。设 θ' 为对应层的参数，操作变为 y = f(x;θ+λθ')。我们称 λ 为跨模态比例因子，θ' 为跨模态参数。训练完成后，我们通过计算和保存 ˆθ = θ+λθ' 来合并模型，这样模型将不再有额外的参数，推理成本和模型大小将与普通模型完全相同。

通过跨模态重参数化，我们以边际训练成本实现了所提出的 M2PT Transformer 块，并且完全没有任何推理成本。对于线性层，其参数形成一个矩阵 W∈RDin×Dout，输入和输出是矩阵 x∈RB×Din 和 y∈RB×Dout。为了简洁起见，我们省略了偏置项，原始操作由 y = xW 表示。

如图 2 所示的概念结构，线性层及其对应层接受相同的输入。输出将是 y = xW + λ(xW')。注意，xW + λ(xW') = x(W + λW')，因此这两个层可以通过一个具有可训练的标量 λ 和一个以辅助模型中的对应矩阵初始化的额外可训练矩阵来等效实现。原始权重矩阵和额外的矩阵都是可训练的。在每次前向计算中，层计算等效权重矩阵，然后使用它来投影输入，即 y = x(W + λW')。

训练完成后，我们通过计算 ˆW = W + λW' 来合并参数，并仅保存它。对于推理，我们只需构建一个常规线性层并加载 ˆW。

总结来说，为了构建和使用具有跨模态重参数化的 M2PT，我们需要：
- 根据目标模态构建分词器和头部。
- 使用跨模态重参数化构建 Transformer 块。对于每个线性层，除了原始权重矩阵外，我们添加一个额外的可训练权重矩阵，并用辅助模态上训练的 Transformer 的相应矩阵初始化它，并添加一个初始化为 0 的可训练标量参数。
- 像训练普通模型一样训练重参数化的跨模态模型。
- 训练完成后，转换训练好的模型并保存用于推理的模型。

4. 实验
4.1. 设置
数据集。对于图像识别，我们在三个代表性的图像数据集上评估模型性能。1) ImageNet-1K [9] 是视觉感知任务最广泛采用的基准，包含近 130 万张图片，分为 1000 个类别。2) MSCOCO 2017 [36] 是对象检测的常见基准。M2PT 在训练集上训练，并在 Mask RCNN [28] 的验证集上评估。3) ADE-20K [67] 用于语义分割实验，与 UperNet [57] 结合使用，并采用单尺度评估设置。对于点云，我们在 ShapeNetPart [61] 上评估 M2PT 的性能，该数据集包含 16,880 个模型和 16 个类别。对于音频识别，我们遵循 AudioMAE [31]，使用 AudioSet-2k [23] 数据集。对于视频，我们在动作识别数据集 Kinetics-400 [32] 上进行实验，该数据集包含 240k 训练视频和 20k 验证视频，来自 400 个类别。

实验细节。对于目标模态和辅助模态的一对，我们通过在辅助模态的数据集上进行自监督训练来获取辅助模型。具体来说，辅助图像模型在 ImageNet-1K [9] 上通过 MAE [30] 预训练，辅助点云模型在 ShapeNet
 表1. 图像识别任务的实验结果。在ImageNet上，我们报告了在Transformer块中的线性层进行微调（tune acc）或固定（fix acc）的结果。*：结果是由运行官方代码报告的。每个模型的架构都是ViT-B。相对于基线的改进以绿色显示。

方法 | ImageNet MS COCO ADE20K
--- | ---
tune acc(%) | fix acc(%) | AP box(%) | AP mask (%) | mIOU(%)
预训练设置
SemMAE[33] | 83.4 | 65.0 | - | - | 46.3
MFF [38] | 83.6 | 67.0 | 48.1 | 43.1 | 47.9
MAE∗[30] | 83.3 | 65.6 | 47.3 | 42.4 | 46.1
M2PT-Video (Ours) | 83.6↑0.4% | 67.1↑2.3% | - | - | -
M2PT-Audio (Ours) | 83.7↑0.4% | 67.3↑2.6% | - | - | -
M2PT-Point (Ours) | 83.9↑0.7% | 67.8↑3.4% | 50.0↑5.7% | 44.0↑3.8% | 47.9↑3.9%
从头开始设置
ViT [20] | 76.5 | 14.5 | 46.2 | 40.5 | 39.7
M2PT-Point (Ours) | 81.9↑7.1% | 19.5↑34.5% | 48.9↑5.8% | 42.2↑4.2% | 42.5↑7.1%

我们没有使用有监督预训练，因为我们希望消除预训练数据集中标签的影响，以确保数据样本的相关性，考虑到两个数据集的标签可能存在某种重叠。在目标模型的初始化方面，我们采用了两种设置。1）目标模型（即在公式9中表示的权重Win）是使用目标模态上的自监督方法预训练的权重初始化的。我们使用相应预训练方法描述的默认微调配置来微调M2PT模型。基线模型也使用预训练权重进行初始化，并使用相同的配置进行微调，以便这个设置简称为预训练设置。2）目标模型通常随机初始化，我们使用广泛采用的训练配置来训练M2PT模型。基线模型也从头开始使用相同的配置进行训练，以便进行公平比较，所以这个设置简称为从头开始设置。

指标。我们在包括ImageNet-1K、AudioSet、Kinetics-400的top-1准确率，ADE20K的mIoU，ShapeNetPart和PartNet的box/mask AP以及MS COCO的MS COCO上报告M2PT模型的性能。为了公平评估多个指标下相对于基线的改进，我们在表1、2、3、4中报告了相对百分比的改进。例如，与MAE预训练模型相比，ADE20K的mIoU从46.1提高到47.9，相对改进是(47.9-46.1)/(46.1) = 3.9%（表1）。

4.2. 主要结果
图像识别。我们首先在预训练设置下进行了一组实验，其中目标权重是使用MAE在ImageNet上预训练的ViT初始化的，辅助权重分别来自视频、音频和点数据集上预训练的模型。这样的三个模型分别标记为M2PT-Video、M2PT-Audio和M2PT-Point，基线（原始MAE预训练的ViT）在ImageNet上使用MAE [30]最初采用的微调配置进行训练，结果准确率在表1的“tune acc”列中报告。然后我们将表现最好的模型M2PT-Point转移到COCO目标检测和ADE20K语义分割任务。改进是显著的：ImageNet准确率从83.3提高到83.9，COCO box AP从47.3提高到50.0，ADE20K mIoU从46.1提高到47.9，相对改进分别为0.7%、5.7%和3.9%。

除了微调目标和辅助权重，我们还测试了
 表2. 在点云数据集上的实验结果。我们报告了ShapeNet-Part和PartNet上的类别mIoU（mIoU C）和实例mIoU（mIoU I）。相对于基线的改进以绿色显示。
方法 | ShapeNet-Part | PartNet
mIoU C(%) | mIoU I(%) | mIoU (%)
预训练设置
PointNet++ [42] | 81.9 | 85.1 | 42.5
Point-BERT [62] | 84.1 | 85.6 | -
Point-MLP [40] | 84.6 | 86.1 | 48.1
Point-MAE [62] | 84.2 | 86.1 | 47.4
M2PT-Video | 85.6↑1.7% | 87.5↑1.6% | 50.1↑5.7%
M2PT-Image | 85.6↑1.7% | 87.5↑1.6% | 49.2↑3.8%
M2PT-Audio | 85.6↑1.7% | 87.5↑1.6% | 48.1↑1.5%
从头开始设置
N/A | 50.2 | 68.4 | -
M2PT-Video | 50.8↑1.2% | 68.8↑0.6% | -
M2PT-Image | 51.0↑1.2% | 69.0↑0.8% | -
M2PT-Audio | 50.9↑1.1% | 68.9↑0.7% | -
从81.9显著提高到76.5，相对改进为7.1%，表明辅助权重显著促进了训练过程。直观上，Cross-Modal Scales以0初始化，但随着训练的进行很快会变为非零，因此模型将逐渐受到辅助权重的影响，并从模态互补知识中受益。当我们将这两个模型转移到COCO和ADE20K时，我们观察到box AP和mIoU的一致改进。

3D点云理解。表2展示了在ShapeNet-Part和PartNet数据集上的实验结果，我们将M2PT与现有的点云预训练方法（如Point-BERT [41]和Point-MAE [62]）进行比较。M2PT在ShapeNet-Part上将类别mIoU从84.2提高到85.6，实例mIoU从86.1提高到87.5，并在PartNet上将mIoU从47.4提高到50.1。在从头开始的设置下，我们也观察到了一致的改进。

音频识别。对于预训练设置，目标权重以AudioMAE预训练模型初始化。如表3所示，我们将M2PT与现有的竞争方法（包括SSAST [26]、AST [24]和AudioMAE [31]）进行比较。M2PT在Audioset平衡分割上相对于基线提高了0.8%的top-1准确率，表明M2PT在音频识别中也是有效的。在从头开始的设置下，M2PT带来了3.6%的相对改进。

视频理解。对于Kinetics-400的实验，我们只采用预训练设置，因为在视频数据集上从头开始训练模型并不是常见做法，这将导致性能下降。我们使用Video-MAE预训练的ViT来初始化目标权重。自然地，基线应该是直接在Kinetics-400上微调的VideoMAE预训练模型。表4显示，与SlowFast [21]、MViTv2 [35]、TimeSFormer [2]和VideoMAE [49]等先前的工作相比，M2PT至少提高了+0.8 top-1准确率（82.3 vs. 81.5），这揭示了通过其他模态的不相关数据也可以增强视频理解的时间感知能力。

表3. 在AudioSet-2k上的实验结果。相对于基线的改进以绿色显示。
方法 | 模型 | Top-1 Acc. (%)
预训练设置
PSLA [25] | CNN+Trans | 31.9
AST [24] | ViT-B | 34.7
SSAST [26] | ViT-B | 31.0
AudioMAE [31] | ViT-
 表5. M2PT设计选择的消融研究，包括重新参数化的层和Cross-Modal Scale λ的配置。
目标数据集是ImageNet-1K，辅助模态是点云。
组件 Cross-Modal ScaleTop-1准确率(%)Attn QKV Attn Proj FFN 第一个FFN 第二个FFN 初始化 可训练
✔ 0 ✔ 83.4
✔ 0 ✔ 83.6
✔ 0 ✔ 83.6
✔ 0 ✔ 83.7
✔ ✔ ✔ ✔ 0 ✔ 83.9
✔ ✔ ✔ ✔ 10^-2✘ 83.5
✔ ✔ ✔ ✔ 10^-2✔ 83.6
✔ ✔ ✔ ✔ 10^-4✔ 83.6
✔ ✔ ✔ ✔ 10^-6✔ 83.7

表6. 更改辅助权重顺序或减少预训练轮数的ImageNet准确率。
辅助权重顺序 预训练轮数 Top-1准确率
正常 20 83.55
正常 220 83.69
正常 300 83.93
反向 300 83.61

4.4. 实证讨论
4.4.1 关于模态互补知识
在多种模态上的观察到的改进表明，辅助变换器已经学习到了一些能够转移到目标模态的知识。
我们通过两组实验（表6）继续研究这种模态互补知识的性质。
1) 我们调查这种知识是否与处理层次化表示的能力有关。
在多种模态中存在抽象层次，概念从低级到高级，这可能解释了所学知识的可转移性。例如，在图像和点云模态中，这种层次可能包括纹理（在图像中）或单个点（在点云中）、物体部分和整个物体。考虑到变换器块处理的概念层次由其深度决定，我们通过反转辅助权重的顺序来设计一个实验。具体来说，第一个目标块的对应部分应该是第一个辅助块，其权重通过Cross-Modal Re-parameterization连接，这是显而易见的。在反转顺序设置下，由于变换器有12个块，我们让第i个块与(13-i)-th块连接，以便目标-辅助对应关系被中断。我们观察到这样做将准确率降低到83.61%，比正常M2PT低0.32%。总之，我们观察到辅助变换器中的模态互补知识可以转移到另一种模态，但如果低到高的对应关系被中断，这种知识可能会受到损害，这表明这种知识可能有助于理解无论模态如何的一般层次概念。

2) 我们调查改进是否仅仅是由于更多的可训练参数或更好的初始化，通过验证更好的预训练过程是否能带来更高质量的知识。我们尝试使用训练不足的权重作为辅助权重。具体来说，默认的辅助权重是通过在点云数据上进行300轮自监督预训练得到的，但我们分别使用在第20轮和第220轮保存的检查点作为辅助权重。不出所料，我们观察到性能降低到83.55%和83.69%，但仍然高于基线。这一现象表明，辅助权重带来的改进不能简单地解释为在另一种模态上训练的权重仅仅提供了一个比随机初始化稍好的初始化，或者模型仅仅从更多的可训练参数中受益（如果是这样，将第20轮的检查点训练到300轮不会对目标模态带来可观察的最终改进）。

4.4.2 关于数据规模的讨论
1) 从小规模数据到大规模数据。以前的工作如Image2Point [59]和Point-CLIP [63]遵循一个共同的共识，即拥有更大数据规模的模态可以用来帮助拥有较小数据规模的模态。因此，Image2Point引入了图像预训练模型来解决数据不足的3D感知任务。不同的是，M2PT建立了一种全新的方法论并打破了前者的共识——我们发现，尽管点云数据的规模有限，但这些数据仍然为图像、视频和音频感知任务带来了令人印象深刻的改进。令人印象深刻的是，后者模态的预训练数据量比点云数据大得多，但点云数据仍然产生了影响。

2) 从大规模数据到小规模数据。