这篇论文介绍了一个名为Mega-TTS的新型大规模零样本（zero-shot）文本到语音（Text-to-Speech, TTS）系统。该系统旨在通过引入内在的归纳偏差（inductive biases）来提高TTS的质量和效率。以下是论文的主要内容总结：

1. **背景与挑战**：传统的TTS系统通常在有限的数据集上训练，这限制了它们产生多样化和泛化结果的能力。相比之下，大规模TTS系统通过在数万小时的语音数据上训练，显著提高了零样本能力。然而，现有的大规模TTS系统通常使用音频编解码器将语音编码为潜在特征，并使用自回归语言模型或扩散模型来生成语音，这忽略了语音的内在特性，可能导致结果不佳或不可控。

2. **Mega-TTS系统设计**：作者提出了一种新的TTS系统，该系统将语音分解为多个属性（如内容、音色、韵律和相位），并为每个属性设计了具有适当归纳偏差的模块。具体来说，Mega-TTS选择频谱图作为中间特征，因为它很好地分离了相位和其他属性。系统使用基于GAN的声码器来适当构建相位，而不需要语言模型来建模。此外，系统使用全局向量来建模音色，因为音色是一个随时间变化缓慢的全局属性。对于韵律，系统采用了基于VQGAN的声学模型来生成频谱图，并使用潜在代码语言模型来适应韵律的分布，因为韵律在句子中变化迅速，且与文本的关联较弱。

3. **训练与评估**：Mega-TTS在包含20K小时语音数据的多领域数据集上进行训练，并在未见过的说话者上评估其性能。实验结果表明，Mega-TTS在零样本TTS、语音编辑和跨语言TTS任务上超越了现有的最先进的TTS系统，展现出更自然、更健壮的语音生成能力，以及更相似的说话者特征。

4. **主要贡献**：论文的主要贡献包括提出了Mega-TTS系统，该系统考虑了内在的归纳偏差，并通过不同的方式建模不同的语音属性。此外，作者还在多领域和多语言数据集上训练了Mega-TTS，并在多种下游语音生成任务上展示了其性能。

5. **实验结果**：在VCTK、AISHELL-3和LibriSpeech测试清洁数据集上的实验表明，Mega-TTS在说话者相似性、语音自然度和生成鲁棒性方面均优于现有的零样本TTS系统。此外，Mega-TTS在语音编辑和跨语言TTS任务上也表现出色。

6. **结论**：Mega-TTS通过在大规模TTS系统中引入适当的归纳偏差，提高了语音合成的质量和效率。尽管在数据覆盖和重建鲁棒性方面仍有局限性，但作者计划通过扩大训练数据集和探索新的模型结构来解决这些问题。同时，作者也意识到了潜在的滥用风险，并计划在Mega-TTS项目的开源许可中加入限制措施。

7. **附录**：论文还包含了关于模型配置、主观评估细节、说话者分割模型、说话者相似性模型、ASR模型、误差条和随机种子选择、信息瓶颈的超参数选择、数据集大小和模型大小的消融研究、局限性和未来工作以及更广泛的影响等方面的详细信息。
 "Mega-TTS: 具有内在归纳偏置的零样本文本到语音大规模转换
Ziyue Jiang∗†♠♡Yi Ren∗♡Zhenhui Ye∗†♠♡Jinglin Liu♡Chen Zhang†♡♠
Qian Yang♠Shengpeng Ji♠Rongjie Huang♠Chunfeng Wang♡
Xiang Yin♡Zejun Ma♡Zhou Zhao‡♠
♠浙江大学 &♡字节跳动
ziyuejiang@zju.edu.cn, ren.yi@bytedance.com, zhaozhou@zju.edu.cn
摘要
将文本到语音（TTS）扩展到大型和多样化的数据集已被证明在实现音色和语音风格泛化方面非常有效，特别是在零样本TTS中。然而，以往的工作通常使用音频编解码器将语音编码为潜在特征，并使用自回归语言模型或扩散模型来生成它，这忽略了语音的内在特性，可能导致次优或不可控的结果。我们认为，语音可以分解为几个属性（例如，内容、音色、韵律和相位），并且每个属性都应该使用具有适当归纳偏置的模块来建模。从这个角度出发，我们精心设计了一个新颖且大型的零样本TTS系统，称为Mega-TTS，它使用大规模野数据进行训练，并以不同的方式建模不同的属性：1）我们选择频谱图作为中间特征，而不是使用音频编解码器编码的潜在特征，因为频谱图很好地分离了相位和其他属性。相位可以通过基于GAN的声码器适当构建，不需要语言模型来建模。2）我们使用全局向量来建模音色，因为音色是一个随时间变化缓慢的全局属性。3）我们进一步使用基于VQGAN的声学模型来生成频谱图，并使用潜在代码语言模型来适应韵律的分布，因为韵律在句子中随时间快速变化，而语言模型可以捕捉局部和长距离依赖。我们将Mega-TTS扩展到包含20,000小时语音的多领域数据集，并在未见过的说话者上评估其性能。实验结果表明，Mega-TTS在零样本TTS、语音编辑和跨语言TTS任务上超越了最先进的TTS系统，由于每个模块的适当归纳偏置，具有更优越的自然度、鲁棒性和说话者相似性。音频样本可在 https://mega-tts.github.io/demo-page 获得。
1 引言
文本到语音（TTS）合成[ 53,2,49,35,48,45,29,66,43,28]旨在从文本生成类似人类的语音，并在机器学习领域引起了显著关注。传统的TTS系统[ 13,11,60,8,21]通常在有限的数据集上训练，这损害了它们的模型产生多样化和泛化结果的能力。相比之下，大规模TTS系统[ 58,67,27]在数万小时的语音数据上进行训练，显著提高了它们的零样本能力[ 58,67]。当前的大规模TTS系统通常将语音波形编码为潜在特征。"

请注意，这是一篇学术论文的摘要和引言部分的翻译，其中包含了专业术语和特定的研究成果。在翻译时，我尽量保持了原文的准确性和专业性。
 表1：人类语音中不同组成部分的固有属性说明。
模态 组成部分 固有属性 适合的语言模型（LM）
人类语音 相位 高度动态，与语义无关 %
音色 全局且稳定 %
韵律 长期依赖性
! 快速变化
与文本的关联性弱
内容 与神经编解码器模型[14]的单调对齐 %
使用自回归语言模型（LM）[58]或扩散模型[50]作为中间表示进行建模。

如表1所示，人类语音可以被分解为几个属性：内容、音色、韵律、相位等。然而，当前的大规模TTS系统直接使用神经音频编解码器模型将整个语音编码成潜在表示，并忽略了语音的以下固有特性：1）相位高度动态且与语义无关，这意味着人们对相位的感知远不如对韵律和音色敏感，尤其是对于单声道音频。因此，波形重建只需要一个合理的相位，没有必要建模所有可能的相位。使用LM或扩散模型对相位进行建模可能会浪费大量模型参数，因为它们建模了相位的全部分布。2）音色应在句子中保持稳定，作为一个全局向量。使用时变潜在表示对音色进行建模代价高昂。3）韵律通常具有局部和长期依赖性，并且随着时间的推移快速变化，与文本的关联性弱，这使得条件化的音素级LLMs（语言模型）天然适合于生成韵律序列。4）内容与语音有单调对齐，而自回归语言模型无法保证这一点，这可能导致重复或遗漏单词问题[59, 58, 67]。

为了利用大型且多样化的训练数据集，同时匹配模型的归纳偏置和语音的固有特性，我们提出了一个零样本文本到语音模型，称为Mega-TTS。具体来说，1）考虑到神经音频编解码器模型的局限性，我们选择梅尔频谱作为中间表示，以分离相位和其他属性。我们采用基于GAN的声码器来重建相位信息，以提高我们模型的效率。2）为了建模音色信息，我们采用全局向量，因为音色是一个随时间变化缓慢的全局属性。我们从一个与同一说话者的其他语音中提取全局信息，使用全局说话者编码器来分解音色和内容信息。3）为了捕捉句子中的韵律信息，我们采用基于VQGAN的声学模型来生成梅尔频谱，并采用一种名为P-LLM的潜在代码语言模型来适应韵律的分布。P-LLM能够捕捉韵律建模的局部和长期依赖性。

为了评估Mega-TTS的零样本性能，我们在VCTK[57]、AISHELL-3[51]和LibriSpeech test-clean[42]数据集上进行了实验。所有测试说话者在训练语料库中都是未见过的。我们的Mega-TTS在说话者相似度、语音自然度和生成鲁棒性方面超越了最先进的零样本TTS系统[8,58]，这展示了引入适当归纳偏置的优越性。此外，Mega-TTS在语音编辑[52,3]和跨语言TTS[67]任务上也超越了最先进的模型。这项工作的主要贡献总结如下：
•我们提出了Mega-TTS，一个考虑固有归纳偏置的零样本文本到语音系统。我们不是使用音频编解码器编码的潜在表示作为中间表示[64,14,58]，而是将梅尔频谱分解为内容、音色、韵律和相位属性，并根据它们的固有属性对每个属性进行建模。

4这就是为什么基于GAN的声码器[31]如此流行。
5我们的方法在潜在代码中保留了一小部分时变的音色信息，而大部分以全局向量表示。
 我们在一个包含20,000小时语音数据的多领域和多语言数据集上训练了Mega-TTS。值得注意的是，现有的大规模TTS系统[58,50]通常是基于有声书的语音语料库进行训练的，而我们的系统则是基于多领域语音语料库进行训练的。
•我们在3个下游语音生成任务上评估了Mega-TTS，展示了Mega-TTS可以应用于各种语音生成任务。我们还提出了一种通过Mega-TTS提取的离散韵律标记进行语音编辑的新颖采样策略。

2 背景
在本节中，我们将简要概述这项工作的背景，包括零样本文本到语音和用于语音合成的生成模型。
零样本文本到语音。文本到语音模型通常从文本[59, 2,35,48,29,47,36,22]生成mel频谱图，然后使用单独预训练的声码器[41,31,62,20]从生成的mel频谱图合成语音波形，或者直接以端到端的方式从文本生成波形[45,15,30,37]。几十年来，对个性化语音生成的需求不断增加，这为TTS模型[53]带来了挑战，特别是在零样本多说话人场景中涉及领域转移的问题。以前的方法可以分为说话人适应[13,11,60,23]和说话人编码[25,1,26,61]方法。传统工作通常在小数据集上进行训练[11,23,21,8]，而一些最近的工作[4,58,27,67]则是在大规模数据集上进行训练，并在零样本场景中展示了有效性。这些系统利用神经音频编解码模型[64,14]将音频波形转换为潜在表示，并将其视为语音生成的中间表示。其中，SPEAR-TTS[27]将TTS任务分解为两个序列到序列任务，这使得可以使用丰富的仅音频数据进行训练。NaturalSpeech 2[50]使用文本条件的扩散模型来生成神经音频编解码模型的潜在向量。V ALL-E[58,67]提出了第一个用于文本到语音的神经编解码语言模型，展示了强大的上下文学习能力，以克服零样本语音生成的挑战。然而，这些方法忽略了语音的内在属性，可能导致结果不佳或不可控。考虑到不同语音属性的本质，自回归语言模型非常适合韵律建模。ProsoSpeech[46]提出了通过语言模型预测的潜在韵律向量来改善TTS的韵律建模。然而，它缺乏上下文学习能力，这限制了其应用场景。

用于语音合成的生成模型。像语言模型[4,33]、VAE[34,47]、GAN[31,30]、归一化流[39,29]和扩散模型[32,24,43,22]这样的生成模型已经被应用于语音或音频合成多年。以前的自回归生成模型主要针对波形生成[41,18]和连续声学特征生成[59,49]。最近，像AudioLM[4]和V ALL-E[58]这样的语音生成系统提出利用神经音频编解码模型[64,14]将音频波形转换为离散代码作为中间表示，并设计LLM来生成这些代码以实现语音合成。尽管神经音频编解码模型可以实现良好的重建质量，但它们忽略了语音的内在本质[14]，可能不适合作为语音生成的中间表示的生成器。编码的潜在包含相位、内容和音色属性，语言模型不适合预测这些属性，因为存在误差传播问题。

3 方法
为了在大规模TTS系统中引入适当的归纳偏差，我们提出了Mega-TTS，这是一个零样本TTS系统，用于在各种场景中自然和稳健地生成语音。如图1所示，Mega-TTS由一个基于VQGAN的[16] TTS模型和一个韵律大型语言模型组成。我们以不同的方式仔细建模不同的语音属性。首先，我们选择mel频谱图作为中间表示，因为它很好地分离了相位和其他属性。其次，我们使用全局音色编码器从同一说话人的随机前一句话中提取全局向量，以分离音色和内容信息。最后，我们进一步使用基于VQGAN的声学模型来处理相位和内容属性。
 这段内容是关于一种名为Mega-TTS的语音合成系统（Text-to-Speech，文本到语音）的架构和设计理念。以下是对这段内容的中文翻译：

"Conv
StacksConv
StacksVector
Quantization
Phoneme-level
Pooling
P-LLM Training
Content 
Encoder
Mel-SpectrogramProsody
EncoderMel
Decoder
TextProsody Code
Timbre
Encoder
Reference MelTimbre LatentGAN
Discriminator
DP & LRP-LLM
Timbre Latent23
P-LLM
Previous
Mel-Spectrogram1234
Current
Mel-Spectrogram567...1 4 5678... Content Latent
1234 5678...Prosody Code
Prosody
EncoderProsody
Encoder
(a) Mega-TTS (b) P-LLM Training (c) Prosody Encoder
图1：Mega-TTS的整体架构。在子图(a)中，P-LLM表示韵律大型语言模型；DP & LR表示在FastSpeech [48]中提出的持续时间预测器和长度调节器。在子图(b)中，P-LLM自回归地预测离散的韵律代码。
模型用于生成梅尔频谱图，并提出一种名为P-LLM的潜在代码语言模型来适应韵律的分布，因为语言模型能够捕捉局部和长距离的依赖关系。在推理过程中，我们提出使用给定文本序列的内容，从提示语音中提取的音色，以及我们的P-LLM预测的韵律来生成目标语音，这是一种名为韵律导向语音解码的新型TTS解码机制。最后，为了证明我们的模型可以应用于各种场景，我们为下游任务设计了推理策略。我们将在以下小节中详细描述这些设计以及训练和推理过程。

3.1 将语音分解为不同组成部分
为了在不同的语音属性中引入适当的归纳偏差，我们需要分别表达这些属性，并仔细设计不同的架构。Mega-TTS的整体模型架构如图1所示。我们使用三种类型的编码器分别编码内容、韵律和音色表示。然后我们采用基于GAN的梅尔频谱图解码器，使用这些表示生成梅尔频谱图。我们描述了分离策略和所提出的编码器的详细设计如下。

分离策略。我们使用自编码器的重构损失和一个精心设计的瓶颈，将梅尔频谱图分解为内容、韵律和音色表示[44]：
1) 我们将梅尔频谱图输入韵律编码器，并且我们也引入了精心调整的维度缩减和音素级别的下采样到韵律编码器，以限制信息流；2) 内容编码器将音素序列编码为内容表示；
3) 我们将来自同一说话者不同语音的参考梅尔频谱图输入以分离音色和内容信息，并对音色编码器的输出进行时间平均，以获得一维全局音色向量。正确设计的瓶颈将学会从韵律编码器的输出中移除内容信息和全局音色信息，这确保了分离性能。由于页面空间有限，我们将关于信息瓶颈的超参数选择的更多细节放在附录D中。

编码器的架构设计。1) 韵律编码器由两个卷积堆栈、一个音素级别池化层和一个向量量化（VQ）瓶颈组成。第一个卷积堆栈根据音素边界将梅尔频谱图压缩为音素级别的隐藏状态，第二个堆栈捕获音素级别的相关性。然后向量量化层[54]利用这些隐藏状态获得音素级别的韵律代码u={u1, u2, ..., uT}和隐藏状态Hprosody。为了减轻分离的难度，只使用梅尔频谱图的低频带（每个梅尔频谱图帧中的前20个bin）作为输入，因为它几乎包含了完整的韵律信息，与全频带相比，音色/内容信息显著减少[46]；2) 内容编码器由几个前馈Transformer层组成。为了实现语音内容和生成语音之间的单调对齐，我们采用了..."
 这段文字是关于非自回归文本到语音合成（TTS）系统中的持续时间预测器和长度调节器的介绍，以及一个名为P-LLM的潜在代码语言模型的详细描述。以下是对这段内容的中文翻译：

在非自回归TTS系统中，持续时间预测器和长度调节器遵循常见做法[48,50]。不同的是，我们将由韵律编码器提取的韵律信息输入到持续时间预测器中，以减轻一对多映射问题[48,45]；3) 音色编码器被设计用来提取包含给定语音说话人身份的全局向量Htimbre。音色编码器由几个卷积层堆叠而成。为了确保音色信息在时间轴上的稳定性，我们对音色编码器的输出进行时间平均，以获得一维音色向量Htimbre。

为了保持良好的感知质量，我们引入了一个基于生成对抗网络（GAN）的mel频谱图解码器。我们采用基于不同长度随机窗口的多长度鉴别器[10,63]作为鉴别器。

总体而言，第一阶段训练损失Lof Mega-TTS可以表示为：
LVQ=∥yt−ˆyt∥2+∥sg[E(yt)]−zq∥2
2+∥sg [zq]−E(yt)∥2
2, (1)
L=E[LVQ+LAdv], (2)
其中yt是目标语音，ˆyt是生成的语音。Lrec=∥yt−ˆyt∥2是重建损失，sg[·]表示停止梯度操作，zq是码本条目的时间集合。LVQ是VQVAE损失函数[54,16]，LAdv是LSGAN风格的对抗损失[38]，其目标是最小化预测的mel频谱图与真实mel频谱图之间的分布距离。

3.2 P-LLM
P-LLM是一个潜在代码语言模型，用于捕捉韵律建模的局部和长距离依赖。我们描述了面向韵律的语音解码机制和P-LLM的细节如下。

面向韵律的语音解码。记(yp,xp)和(yt,xt)为提示和目标语音-转录对。我们的目标是在给定未见过的语音提示yp的情况下合成高质量的目标语音yt。在推理过程中，期望目标语音的音色˜Htimbre与提示语音的音色相同。因此，为了生成目标语音yt，我们只需要目标语音的韵律信息˜u。因此，面向韵律的语音解码过程可以表示为：
编码：u=Eprosody (yp), Hcontent =Econtent (xp),˜Htimbre =Etimbre (yp),
˜Hcontent =Econtent (xt),
韵律预测：˜u=f(˜u|u, Hcontent ,˜Htimbre ,˜Hcontent ;θ),
解码：ˆyt=D(˜u,˜Htimbre ,˜Hcontent ),(3)
其中Eprosody, Etimbre, Econtent和D分别表示韵律编码器、音色编码器、内容编码器和mel解码器。u是提示语音的韵律标记，˜u是目标语音预测的韵律标记，f是韵律预测函数，θ是P-LLM的参数。ˆyt是生成的语音。

生成韵律代码。所提出的面向韵律的语音解码机制需要目标语音的预测韵律代码˜u。利用LLMs强大的上下文学习能力，我们设计了P-LLM模块来预测˜u。P-LLM是一个基于解码器的基于transformer的架构[7]，用于韵律建模，它使用yp的韵律代码u作为提示，以及Hcontent,˜Hcontent和˜Htimbre作为条件。P-LLM的自回归韵律预测过程可以表示为：
p
˜u|u, Hcontent ,˜Htimbre ,˜Hcontent ;θ
=TY
t=0p
˜ut|˜u<t,u, Hcontent ,˜Htimbre ,˜Hcontent ;θ
,
(4)
其中θ是我们P-LLM的参数。由于离散的韵律序列u是音素级别的，我们直接将其与Hcontent,˜Hcontent和˜Htimbre连接作为输入。P-LLM在训练阶段通过交叉熵损失以教师强制模式进行训练。
 345345
P-LLM
提示
梅尔频谱图1 2 34567...
1 2 3 4
韵律
编码器
  零样本TTS模式3
P-LLM
当前
梅尔频谱图12 67...45
12345678...
韵律
编码器
  语音编辑模式
掩码提示概率
计算候选路径
音色潜在内容潜在
韵律潜在
掩蔽区域图2：Mega-TTS的推理模式。在子图 中，P-LLM从提示语音中获取信息，为目标语音生成韵律代码；在子图 中，P-LLM利用掩蔽语音的上下文信息执行语音编辑。

3.3 推理中的语音提示
为了促进各种语音生成任务的上下文学习，我们设计了不同的语音提示机制，以鼓励Mega-TTS遵循语音提示中的信息。
TTS的推理。对于零样本TTS，P-LLM使用u, Hcontent,˜Htimbre,˜Hcontent根据方程4生成目标韵律代码˜u，用于目标语音。我们使用top-k随机抽样方案[17]来抽样结果，因为我们观察到基于抽样的方法可以增加生成语音的多样性。然后，我们将内容˜Hcontent, 音色˜Htimbre, 和韵律˜u信息连接起来，使用梅尔解码器生成目标语音yt。
利用我们P-LLM的适当归纳偏差和强大的上下文学习能力，生成的语音不仅可以保留类似的音色，还可以保留提示语音的节奏习惯。对于跨语言TTS，u, Hcontent,˜Htimbre,˜Hcontent从外语提示语音中提取，后续程序与零样本TTS相同。
语音编辑的推理。在语音编辑中，预测的韵律代码应该在掩蔽区域的左右边界实现平滑过渡。以前的工作，如EditSpeech [52]，提出分别执行左右自回归推理，然后在最小L2-范数差异融合点连接梅尔频谱图。然而，梅尔频谱图的L2-范数差异远非人类感知，导致音频自然性差。由于Mega-TTS中的韵律表示是离散的，我们可以通过操作离散韵律表示来解决过渡问题。首先，我们将掩蔽区域左侧的区域视为提示，以top-k随机抽样策略生成N个候选路径。其次，N个生成的路径被用作新提示，以生成掩蔽区域右侧区域的概率矩阵，真实韵律代码用于从概率矩阵中获取每个解码步骤的概率。在第三阶段，我们对候选路径的每个解码步骤的对数概率进行求和。最后，我们选择在第二步中实现最大概率的路径作为预测结果。语音编辑的解码策略可以表述如下：
Max
i∈[1,N]Likelihood =Max
i∈[1,N]RY
t=Lp
ui
t|ui
<t, Hcontent ,˜Htimbre ,˜Hcontent ;θ
·TY
t=Rp
ugt
t|ui
<t, Hcontent ,˜Htimbre ,˜Hcontent ;θ
,
其中L和R是掩蔽区域的左右边界。T是梅尔频谱图的长度。
ui是第i个候选路径中的韵律代码。ugt
t是真实的韵律代码。由于我们的
 4 实验
在本节中，我们将展示Mega-TTS的评估结果，并与基线在客观和主观指标方面进行比较。

4.1 实验设置
训练数据集。我们使用GigaSpeech [9] 和WenetSpeech [65] 作为训练语料库，总共包含20,000小时的多领域英语和中文演讲。由于GigaSpeech和WenetSpeech中的演讲没有说话者身份，且一个演讲片段中可能出现多个说话者，我们使用开源的自动说话者分割模型[6,5]对数据集进行处理。我们还使用外部对齐工具提取音素级别的对齐。更多信息可以在附录A.3中找到。

评估数据集。我们使用两个数据集进行评估：1) VCTK数据集[57]，一个包含108名说话者的英语数据集；2) LibriSpeech [42] test-clean，一个包含40名说话者的英语数据集。对于这些数据集，我们为40名说话者中的每一位随机抽取10句话，得到用于评估的400句话的子集；具体来说，为了合成每个样本，我们随机选择同一说话者的不同话语作为语音提示。请注意，评估数据集中的所有说话者在训练期间都是未见过的。

模型配置。我们的Mega-TTS由三个编码器、一个韵律大语言模型、一个mel解码器和一个鉴别器组成。韵律编码器、音色编码器和mel生成器由5个卷积块组成，隐藏层大小为320。内容编码器是一个4层的Transformer[56]，具有2个注意力头，嵌入维度为320，1D卷积滤波器大小为1280，以及5个1D卷积核大小。持续时间预测器是一个3层的1D卷积，具有ReLU激活和层归一化，隐藏层大小为320。鉴别器遵循SyntaSpeech[63]中提出的架构。P-LLM模型是一个仅包含解码器的架构，包含8个Transformer层，8个注意力头，512个嵌入维度，2048个1D卷积滤波器大小，以及5个1D卷积核大小。模型参数总数为222.5M。我们在附录A.1中添加了更详细的模型配置。

训练和推理。在训练阶段，我们在8个NVIDIA A100 GPU上训练Mega-TTS，每个GPU的批量大小为30个句子。我们使用Adam优化器，β1=0.9，β2=0.98，ϵ=10^-9，并遵循[56]中的相同学习率调度。VQ-GAN TTS模型的训练需要320k步，P-LLM的训练需要100K步直到收敛。预测的mel频谱图使用预训练的HiFi-GAN V18[31]转换为音频样本。在推理阶段，我们使用前5个随机抽样方案[17]来采样多样化的结果。

客观指标。我们评估了零样本TTS的音高距离和说话者相似性。在音高距离方面，我们计算了真实演讲和合成演讲的音高轮廓之间的平均动态时间扭曲（DTW）[40]距离。对于余弦说话者相似性，我们使用为说话者验证9微调的WavLM模型[12]来计算真实演讲和合成演讲之间的余弦说话者相似性得分。相似性得分的范围在[-1,1]之间，较大的值表示输入样本的相似性更高。此外，我们还评估了跨语言TTS的字错误率（WER）。我们使用发布的HuBERT-Large模型[19]中的ASR系统将生成的演讲转录成文本。然后，测量转录文本与原始目标文本之间的WER。我们使用测试集中的所有样本进行客观评估。我们在附录A.4和附录A.5中提供了更多信息。
 表2：零样本文本到语音合成的客观和主观比较。我们在VCTK和LibriSpeech测试清晰数据集上，以95%的置信区间评估不同系统的音频质量、语音韵律和说话者相似度。

数据集 方法 主观客观
MOS-Q (↑) MOS-P (↑) MOS-S (↑) 音高 (↓) 说话者 (↑)
VCTK 真实数据 4.35±0.11 4.48 ±0.10 4.33 ±0.13 - 0.915
YourTTS [8] 4.04±0.10 4.18 ±0.09 3.76 ±0.12 32.43 0.847
Mega-TTS 4.27±0.09 4.32 ±0.11 4.27 ±0.10 17.45 0.877
LibriSpeech 真实数据 4.23±0.13 4.49 ±0.11 4.29 ±0.16 - 0.956
YourTTS [8] 3.83±0.12 4.06 ±0.13 3.22 ±0.21 44.05 0.909
Mega-TTS 4.08±0.17 4.21 ±0.17 3.90 ±0.18 35.46 0.936

表3：Mega-TTS与V ALL-E之间的比较。

方法 CMOS-Q CMOS-P MOS-S (↑)
V ALL-E [58] -0.23 -0.27 4.06 ±0.22
Mega-TTS 0.00 0.00 4.11 ±0.21

表4：在VCTK数据集上的语音编辑任务中，语音质量、语音韵律和说话者相似度的MOS评估（↑），带有95%的置信区间。

方法 MOS-Q (↑) MOS-P (↑) MOS-S (↑)
EditSpeech [52] 3.57±0.12 3.87 ±0.14 3.93 ±0.14
A3T [3] 3.73±0.13 3.96 ±0.14 3.97 ±0.12
Mega-TTS 3.81±0.14 4.11 ±0.14 4.36 ±0.16

主观指标。我们通过亚马逊机械土耳其（Amazon Mechanical Turk）进行MOS（平均意见评分）和CMOS（比较平均意见评分）评估，以衡量测试集上的音频自然度。我们保持不同模型之间的文本内容和提示语音一致，以排除其他干扰因素。我们随机选择每个数据集测试集的50个样本进行主观评估，每个音频至少由20名测试者听取。我们从三个方面分析MOS：MOS-Q（质量：清晰度、高频和原始音色重建），MOS-P（韵律：音高、能量和持续时间的自然度），以及MOS-S（说话者相似度）。我们还从音频质量和语音韵律方面分析CMOS。我们告诉测试者在评分时专注于一个相应的方面，忽略其他方面。我们在附录A.2中提供了更多关于主观评估的信息。

4.2 零样本合成的结果
我们将Mega-TTS的零样本合成性能与基线系统进行比较，包括：
1) YourTTS [8]，一个在1000小时语音数据集上训练的强大零样本TTS模型。我们使用官方代码和发布的checkpoint10；2) V ALL-E，一个大规模的零样本TTS模型，使用音频编解码模型生成离散语音代码和LLM来生成它们。对于V ALL-E，我们直接从V ALL-E演示页面下载前16个话语。音频样本包括来自LibriSpeech的8个样本和来自VCTK的8个样本。如表2所示，Mega-TTS在音频质量和语音韵律方面显著优于YourTTS。在说话者相似度方面，Mega-TTS在VCTK上显著优于YourTTS，MOS-S提高了+0.51，在LibriSpeech上提高了+0.68 MOS-S，展示了Mega-TTS在零样本场景中的有效性。此外，如表3所示，Mega-TTS在所有指标上都优于V ALL-E。可以看出，Mega-TTS能够生成比V ALL-E更自然的语音，展示了引入内在归纳偏差的有效
 表5：跨语言文本到语音合成的比较，附带95%置信区间。
我们同样测量了单词错误率（WER）和说话者相似度分数来进行客观评估。
方法 主观 客观
MOS-Q（↑） MOS-P（↑） MOS-S（↑） WER（↓） 说话者（↑）
YourTTS [8] 3.65±0.21 3.92 ±0.18 3.32 ±0.27 7.59% 0.883
V ALL-E X [67] 3.73±0.17 3.97 ±0.18 3.81 ±0.16 - -
Mega-TTS 3.85±0.17 4.08 ±0.19 3.86 ±0.18 3.04% 0.919

表6：在50个特别难的句子上，Mega-TTS与其他系统在鲁棒性上的比较。每种类型的单词错误在每个句子中只计算一次。
方法 重复 跳过 错误句子 错误率
Tacotron [59] 10 16 22 44%
V ALL-E [58] 8 11 14 28%
FastSpeech [48] 0 0 0 0%
Mega-TTS 0 0 0 0%

4.3 零样本语音编辑的结果
我们将我们的Mega-TTS生成的音频样本质量与SOTA语音编辑基线进行比较，包括1）EditSpeech [52]；2）A3T [3]。由于生成的语音文本内容在语音编辑评估中已经被编辑，所以没有真实基准。因此，我们只进行主观评估。我们手动定义了测试样本的修改操作（即插入、替换和删除）。然后我们在VCTK数据集上进行实验。我们评估了每个音频样本的音频质量、语音韵律和说话者相似度。结果展示在表4中。可以看出，Mega-TTS在感知质量、韵律和说话者相似度分数上都取得了最高分，这展示了我们提出的语音提示机制在语音编辑中的有效性以及Mega-TTS强大的上下文学习能力。

4.4 零样本跨语言TTS的结果
为了比较Mega-TTS与零样本跨语言TTS模型V ALL-E X [67]，我们直接从V ALL-E X演示页面下载了话语，该页面包含来自LibriSpeech、EMIME和AISHELL-3的6对话语。由于YourTTS [8]仅用于英语TTS，我们使用中文样本作为提示来评估英语TTS的性能。结果列在表5中。可以看出，Mega-TTS在音频质量、语音韵律和说话者相似度分数方面超过了V ALL-E X，这进一步展示了引入适当的归纳偏差到不同语音属性的优越性。对于客观评估，我们使用LibriSpeech测试集-clean中的所有文本样本作为目标句子，并随机选择AISHELL-3中的一个音频作为每个目标句子的语音提示。结果显示，Mega-TTS实现了显著低于YourTTS的WER，展示了我们方法的有效性。

4.5 鲁棒性评估的结果
为了进一步评估所提出模型的鲁棒性，我们采用了FastSpeech [48]之后的50个特别难的句子。如表6所示，Tacotron [59]和V ALL-E [58]在这些复杂句子上表现出较差的鲁棒性。相比之下，我们的Mega-TTS显示出与非自回归模型相当的鲁棒性，例如FastSpeech [48]，没有任何重复或跳过问题。可以看出，直接用像V ALL-E [58]这样的LLMs对离散语音标记进行建模会导致鲁棒性问题。相比之下，Mega-TTS不仅利用了LLMs的上下文学习能力，而且还通过引入适当的归纳偏差到每个语音组件，保持了良好的鲁棒性。
 5 结论
在本文中，我们提出了Mega-TTS，旨在为大规模零样本TTS系统引入适当的归纳偏差。我们将语音分解为不同的属性，并以不同的方式对不同属性进行建模。我们使用20,000小时的多领域语音数据训练Mega-TTS，并在未见过的数据库上评估其性能。我们在三个语音合成任务上的实验结果表明，Mega-TTS在音频质量、语音韵律、说话人相似度和鲁棒性方面优于最先进的零样本TTS模型。由于篇幅有限，我们在附录F中讨论了局限性和未来的工作，在附录G中讨论了更广泛的影响。

参考文献
[1] Sercan Arik, Jitong Chen, Kainan Peng, Wei Ping, 和 Yanqi Zhou. 少量样本的神经声音克隆。神经信息处理系统进展，31，2018年。
[2] Sercan Ö Arık, Mike Chrzanowski, Adam Coates, Gregory Diamos, Andrew Gibiansky, Yong-guo Kang, Xian Li, John Miller, Andrew Ng, Jonathan Raiman, 等。Deep Voice: 实时神经文本到语音。在国际机器学习会议上，页195–204。PMLR，2017年。
[3] He Bai, Renjie Zheng, Junkun Chen, Mingbo Ma, Xintong Li, 和 Liang Huang. A3T: 对齐感知的声学和文本预训练，用于语音合成和编辑。在国际机器学习会议上，页1399–1411。PMLR，2022年。
[4] Zalán Borsos, Raphaël Marinier, Damien Vincent, Eugene Kharitonov, Olivier Pietquin, Matt Sharifi, Olivier Teboul, David Grangier, Marco Tagliasacchi, 和 Neil Zeghidour. Audiolm: 一种语言建模方法用于音频生成。arXiv预印本 arXiv:2209.03143，2022年。
[5] Hervé Bredin 和 Antoine Laurent. 端到端的说话人分割，用于重叠感知的重新分割。在Interspeech 2021会议论文集中，2021年。
[6] Hervé Bredin, Ruiqing Yin, Juan Manuel Coria, Gregory Gelly, Pavel Korshunov, Marvin Lavecchin, Diego Fustes, Hadrien Titeux, Wassim Bouaziz, 和 Marie-Philippe Gill. pyannote.audio: 用于说话人分割的神经构建块。在2020年IEEE国际声学、语音和信号处理会议上。
[7] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, 等。语言模型是少样本学习者。神经信息处理系统进展，33:1877–1901，2020年。
[8] Edresson Casanova, Julian Weber, Christopher D Shulby, Arnaldo Candido Junior, Eren Gölge, 和 Moacir A Ponti. Yourtts: 朝着零样本多说话人TTS和零样本声音转换发展。在国际机器学习会议上，页2709–2720。PMLR，2022年。
[9] Guoguo Chen, Shuzhou Chai, Guanbo Wang, Jiayu Du, Wei-Qiang Zhang, Chao Weng, Dan Su, Daniel Povey, Jan Trmal, Junbo Zhang, 等。Gigaspeech: 一个不断发展的多领域ASR语料库，包含10,000小时的转录音频。arXiv预印本 arXiv:2106.06909，2021年。
[10] Jiawei Chen, Xu Tan, Jian Luan, Tao Qin, 和 Tie-Yan Liu. Hifisinger: 朝着高保真神经歌唱声音合成发展。arXiv预印本 arXiv:2009.01776，2020年。
[11] Mingjian Chen, Xu Tan, Bohan Li, Yanqing Liu, Tao Qin, Sheng Zhao, 和 Tie-Yan Liu. Adaspeech: 用于定制声音的自适应文本到语音。arXiv预印本 arXiv:2103.00993，2021年。
[12] Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, 等。Wavlm: 用于全栈语音处理的大规模自监督预训练。IEEE选定主题信号处理杂志，16:1505–1518，2022年。