这篇论文介绍了一个名为Mega-TTS的新型大规模零样本(zero-shot)文本到语音(Text-to-Speech, TTS)系统。该系统旨在通过引入内在的归纳偏差(inductive biases)来提高TTS的质量和效率。以下是论文的主要内容总结: 1. **背景与挑战**:传统的TTS系统通常在有限的数据集上训练,这限制了它们产生多样化和泛化结果的能力。相比之下,大规模TTS系统通过在数万小时的语音数据上训练,显著提高了零样本能力。然而,现有的大规模TTS系统通常使用音频编解码器将语音编码为潜在特征,并使用自回归语言模型或扩散模型来生成语音,这忽略了语音的内在特性,可能导致结果不佳或不可控。 2. **Mega-TTS系统设计**:作者提出了一种新的TTS系统,该系统将语音分解为多个属性(如内容、音色、韵律和相位),并为每个属性设计了具有适当归纳偏差的模块。具体来说,Mega-TTS选择频谱图作为中间特征,因为它很好地分离了相位和其他属性。系统使用基于GAN的声码器来适当构建相位,而不需要语言模型来建模。此外,系统使用全局向量来建模音色,因为音色是一个随时间变化缓慢的全局属性。对于韵律,系统采用了基于VQGAN的声学模型来生成频谱图,并使用潜在代码语言模型来适应韵律的分布,因为韵律在句子中变化迅速,且与文本的关联较弱。 3. **训练与评估**:Mega-TTS在包含20K小时语音数据的多领域数据集上进行训练,并在未见过的说话者上评估其性能。实验结果表明,Mega-TTS在零样本TTS、语音编辑和跨语言TTS任务上超越了现有的最先进的TTS系统,展现出更自然、更健壮的语音生成能力,以及更相似的说话者特征。 4. **主要贡献**:论文的主要贡献包括提出了Mega-TTS系统,该系统考虑了内在的归纳偏差,并通过不同的方式建模不同的语音属性。此外,作者还在多领域和多语言数据集上训练了Mega-TTS,并在多种下游语音生成任务上展示了其性能。 5. **实验结果**:在VCTK、AISHELL-3和LibriSpeech测试清洁数据集上的实验表明,Mega-TTS在说话者相似性、语音自然度和生成鲁棒性方面均优于现有的零样本TTS系统。此外,Mega-TTS在语音编辑和跨语言TTS任务上也表现出色。 6. **结论**:Mega-TTS通过在大规模TTS系统中引入适当的归纳偏差,提高了语音合成的质量和效率。尽管在数据覆盖和重建鲁棒性方面仍有局限性,但作者计划通过扩大训练数据集和探索新的模型结构来解决这些问题。同时,作者也意识到了潜在的滥用风险,并计划在Mega-TTS项目的开源许可中加入限制措施。 7. **附录**:论文还包含了关于模型配置、主观评估细节、说话者分割模型、说话者相似性模型、ASR模型、误差条和随机种子选择、信息瓶颈的超参数选择、数据集大小和模型大小的消融研究、局限性和未来工作以及更广泛的影响等方面的详细信息。 "Mega-TTS: 具有内在归纳偏置的零样本文本到语音大规模转换 Ziyue Jiang∗†♠♡Yi Ren∗♡Zhenhui Ye∗†♠♡Jinglin Liu♡Chen Zhang†♡♠ Qian Yang♠Shengpeng Ji♠Rongjie Huang♠Chunfeng Wang♡ Xiang Yin♡Zejun Ma♡Zhou Zhao‡♠ ♠浙江大学 &♡字节跳动 ziyuejiang@zju.edu.cn, ren.yi@bytedance.com, zhaozhou@zju.edu.cn 摘要 将文本到语音(TTS)扩展到大型和多样化的数据集已被证明在实现音色和语音风格泛化方面非常有效,特别是在零样本TTS中。然而,以往的工作通常使用音频编解码器将语音编码为潜在特征,并使用自回归语言模型或扩散模型来生成它,这忽略了语音的内在特性,可能导致次优或不可控的结果。我们认为,语音可以分解为几个属性(例如,内容、音色、韵律和相位),并且每个属性都应该使用具有适当归纳偏置的模块来建模。从这个角度出发,我们精心设计了一个新颖且大型的零样本TTS系统,称为Mega-TTS,它使用大规模野数据进行训练,并以不同的方式建模不同的属性:1)我们选择频谱图作为中间特征,而不是使用音频编解码器编码的潜在特征,因为频谱图很好地分离了相位和其他属性。相位可以通过基于GAN的声码器适当构建,不需要语言模型来建模。2)我们使用全局向量来建模音色,因为音色是一个随时间变化缓慢的全局属性。3)我们进一步使用基于VQGAN的声学模型来生成频谱图,并使用潜在代码语言模型来适应韵律的分布,因为韵律在句子中随时间快速变化,而语言模型可以捕捉局部和长距离依赖。我们将Mega-TTS扩展到包含20,000小时语音的多领域数据集,并在未见过的说话者上评估其性能。实验结果表明,Mega-TTS在零样本TTS、语音编辑和跨语言TTS任务上超越了最先进的TTS系统,由于每个模块的适当归纳偏置,具有更优越的自然度、鲁棒性和说话者相似性。音频样本可在 https://mega-tts.github.io/demo-page 获得。 1 引言 文本到语音(TTS)合成[ 53,2,49,35,48,45,29,66,43,28]旨在从文本生成类似人类的语音,并在机器学习领域引起了显著关注。传统的TTS系统[ 13,11,60,8,21]通常在有限的数据集上训练,这损害了它们的模型产生多样化和泛化结果的能力。相比之下,大规模TTS系统[ 58,67,27]在数万小时的语音数据上进行训练,显著提高了它们的零样本能力[ 58,67]。当前的大规模TTS系统通常将语音波形编码为潜在特征。" 请注意,这是一篇学术论文的摘要和引言部分的翻译,其中包含了专业术语和特定的研究成果。在翻译时,我尽量保持了原文的准确性和专业性。 表1:人类语音中不同组成部分的固有属性说明。 模态 组成部分 固有属性 适合的语言模型(LM) 人类语音 相位 高度动态,与语义无关 % 音色 全局且稳定 % 韵律 长期依赖性 ! 快速变化 与文本的关联性弱 内容 与神经编解码器模型[14]的单调对齐 % 使用自回归语言模型(LM)[58]或扩散模型[50]作为中间表示进行建模。 如表1所示,人类语音可以被分解为几个属性:内容、音色、韵律、相位等。然而,当前的大规模TTS系统直接使用神经音频编解码器模型将整个语音编码成潜在表示,并忽略了语音的以下固有特性:1)相位高度动态且与语义无关,这意味着人们对相位的感知远不如对韵律和音色敏感,尤其是对于单声道音频。因此,波形重建只需要一个合理的相位,没有必要建模所有可能的相位。使用LM或扩散模型对相位进行建模可能会浪费大量模型参数,因为它们建模了相位的全部分布。2)音色应在句子中保持稳定,作为一个全局向量。使用时变潜在表示对音色进行建模代价高昂。3)韵律通常具有局部和长期依赖性,并且随着时间的推移快速变化,与文本的关联性弱,这使得条件化的音素级LLMs(语言模型)天然适合于生成韵律序列。4)内容与语音有单调对齐,而自回归语言模型无法保证这一点,这可能导致重复或遗漏单词问题[59, 58, 67]。 为了利用大型且多样化的训练数据集,同时匹配模型的归纳偏置和语音的固有特性,我们提出了一个零样本文本到语音模型,称为Mega-TTS。具体来说,1)考虑到神经音频编解码器模型的局限性,我们选择梅尔频谱作为中间表示,以分离相位和其他属性。我们采用基于GAN的声码器来重建相位信息,以提高我们模型的效率。2)为了建模音色信息,我们采用全局向量,因为音色是一个随时间变化缓慢的全局属性。我们从一个与同一说话者的其他语音中提取全局信息,使用全局说话者编码器来分解音色和内容信息。3)为了捕捉句子中的韵律信息,我们采用基于VQGAN的声学模型来生成梅尔频谱,并采用一种名为P-LLM的潜在代码语言模型来适应韵律的分布。P-LLM能够捕捉韵律建模的局部和长期依赖性。 为了评估Mega-TTS的零样本性能,我们在VCTK[57]、AISHELL-3[51]和LibriSpeech test-clean[42]数据集上进行了实验。所有测试说话者在训练语料库中都是未见过的。我们的Mega-TTS在说话者相似度、语音自然度和生成鲁棒性方面超越了最先进的零样本TTS系统[8,58],这展示了引入适当归纳偏置的优越性。此外,Mega-TTS在语音编辑[52,3]和跨语言TTS[67]任务上也超越了最先进的模型。这项工作的主要贡献总结如下: •我们提出了Mega-TTS,一个考虑固有归纳偏置的零样本文本到语音系统。我们不是使用音频编解码器编码的潜在表示作为中间表示[64,14,58],而是将梅尔频谱分解为内容、音色、韵律和相位属性,并根据它们的固有属性对每个属性进行建模。 4这就是为什么基于GAN的声码器[31]如此流行。 5我们的方法在潜在代码中保留了一小部分时变的音色信息,而大部分以全局向量表示。 我们在一个包含20,000小时语音数据的多领域和多语言数据集上训练了Mega-TTS。值得注意的是,现有的大规模TTS系统[58,50]通常是基于有声书的语音语料库进行训练的,而我们的系统则是基于多领域语音语料库进行训练的。 •我们在3个下游语音生成任务上评估了Mega-TTS,展示了Mega-TTS可以应用于各种语音生成任务。我们还提出了一种通过Mega-TTS提取的离散韵律标记进行语音编辑的新颖采样策略。 2 背景 在本节中,我们将简要概述这项工作的背景,包括零样本文本到语音和用于语音合成的生成模型。 零样本文本到语音。文本到语音模型通常从文本[59, 2,35,48,29,47,36,22]生成mel频谱图,然后使用单独预训练的声码器[41,31,62,20]从生成的mel频谱图合成语音波形,或者直接以端到端的方式从文本生成波形[45,15,30,37]。几十年来,对个性化语音生成的需求不断增加,这为TTS模型[53]带来了挑战,特别是在零样本多说话人场景中涉及领域转移的问题。以前的方法可以分为说话人适应[13,11,60,23]和说话人编码[25,1,26,61]方法。传统工作通常在小数据集上进行训练[11,23,21,8],而一些最近的工作[4,58,27,67]则是在大规模数据集上进行训练,并在零样本场景中展示了有效性。这些系统利用神经音频编解码模型[64,14]将音频波形转换为潜在表示,并将其视为语音生成的中间表示。其中,SPEAR-TTS[27]将TTS任务分解为两个序列到序列任务,这使得可以使用丰富的仅音频数据进行训练。NaturalSpeech 2[50]使用文本条件的扩散模型来生成神经音频编解码模型的潜在向量。V ALL-E[58,67]提出了第一个用于文本到语音的神经编解码语言模型,展示了强大的上下文学习能力,以克服零样本语音生成的挑战。然而,这些方法忽略了语音的内在属性,可能导致结果不佳或不可控。考虑到不同语音属性的本质,自回归语言模型非常适合韵律建模。ProsoSpeech[46]提出了通过语言模型预测的潜在韵律向量来改善TTS的韵律建模。然而,它缺乏上下文学习能力,这限制了其应用场景。 用于语音合成的生成模型。像语言模型[4,33]、VAE[34,47]、GAN[31,30]、归一化流[39,29]和扩散模型[32,24,43,22]这样的生成模型已经被应用于语音或音频合成多年。以前的自回归生成模型主要针对波形生成[41,18]和连续声学特征生成[59,49]。最近,像AudioLM[4]和V ALL-E[58]这样的语音生成系统提出利用神经音频编解码模型[64,14]将音频波形转换为离散代码作为中间表示,并设计LLM来生成这些代码以实现语音合成。尽管神经音频编解码模型可以实现良好的重建质量,但它们忽略了语音的内在本质[14],可能不适合作为语音生成的中间表示的生成器。编码的潜在包含相位、内容和音色属性,语言模型不适合预测这些属性,因为存在误差传播问题。 3 方法 为了在大规模TTS系统中引入适当的归纳偏差,我们提出了Mega-TTS,这是一个零样本TTS系统,用于在各种场景中自然和稳健地生成语音。如图1所示,Mega-TTS由一个基于VQGAN的[16] TTS模型和一个韵律大型语言模型组成。我们以不同的方式仔细建模不同的语音属性。首先,我们选择mel频谱图作为中间表示,因为它很好地分离了相位和其他属性。其次,我们使用全局音色编码器从同一说话人的随机前一句话中提取全局向量,以分离音色和内容信息。最后,我们进一步使用基于VQGAN的声学模型来处理相位和内容属性。 这段内容是关于一种名为Mega-TTS的语音合成系统(Text-to-Speech,文本到语音)的架构和设计理念。以下是对这段内容的中文翻译: "Conv StacksConv StacksVector Quantization Phoneme-level Pooling P-LLM Training Content Encoder Mel-SpectrogramProsody EncoderMel Decoder TextProsody Code Timbre Encoder Reference MelTimbre LatentGAN Discriminator DP & LRP-LLM Timbre Latent23 P-LLM Previous Mel-Spectrogram1234 Current Mel-Spectrogram567...1 4 5678... Content Latent 1234 5678...Prosody Code Prosody EncoderProsody Encoder (a) Mega-TTS (b) P-LLM Training (c) Prosody Encoder 图1:Mega-TTS的整体架构。在子图(a)中,P-LLM表示韵律大型语言模型;DP & LR表示在FastSpeech [48]中提出的持续时间预测器和长度调节器。在子图(b)中,P-LLM自回归地预测离散的韵律代码。 模型用于生成梅尔频谱图,并提出一种名为P-LLM的潜在代码语言模型来适应韵律的分布,因为语言模型能够捕捉局部和长距离的依赖关系。在推理过程中,我们提出使用给定文本序列的内容,从提示语音中提取的音色,以及我们的P-LLM预测的韵律来生成目标语音,这是一种名为韵律导向语音解码的新型TTS解码机制。最后,为了证明我们的模型可以应用于各种场景,我们为下游任务设计了推理策略。我们将在以下小节中详细描述这些设计以及训练和推理过程。 3.1 将语音分解为不同组成部分 为了在不同的语音属性中引入适当的归纳偏差,我们需要分别表达这些属性,并仔细设计不同的架构。Mega-TTS的整体模型架构如图1所示。我们使用三种类型的编码器分别编码内容、韵律和音色表示。然后我们采用基于GAN的梅尔频谱图解码器,使用这些表示生成梅尔频谱图。我们描述了分离策略和所提出的编码器的详细设计如下。 分离策略。我们使用自编码器的重构损失和一个精心设计的瓶颈,将梅尔频谱图分解为内容、韵律和音色表示[44]: 1) 我们将梅尔频谱图输入韵律编码器,并且我们也引入了精心调整的维度缩减和音素级别的下采样到韵律编码器,以限制信息流;2) 内容编码器将音素序列编码为内容表示; 3) 我们将来自同一说话者不同语音的参考梅尔频谱图输入以分离音色和内容信息,并对音色编码器的输出进行时间平均,以获得一维全局音色向量。正确设计的瓶颈将学会从韵律编码器的输出中移除内容信息和全局音色信息,这确保了分离性能。由于页面空间有限,我们将关于信息瓶颈的超参数选择的更多细节放在附录D中。 编码器的架构设计。1) 韵律编码器由两个卷积堆栈、一个音素级别池化层和一个向量量化(VQ)瓶颈组成。第一个卷积堆栈根据音素边界将梅尔频谱图压缩为音素级别的隐藏状态,第二个堆栈捕获音素级别的相关性。然后向量量化层[54]利用这些隐藏状态获得音素级别的韵律代码u={u1, u2, ..., uT}和隐藏状态Hprosody。为了减轻分离的难度,只使用梅尔频谱图的低频带(每个梅尔频谱图帧中的前20个bin)作为输入,因为它几乎包含了完整的韵律信息,与全频带相比,音色/内容信息显著减少[46];2) 内容编码器由几个前馈Transformer层组成。为了实现语音内容和生成语音之间的单调对齐,我们采用了..." 这段文字是关于非自回归文本到语音合成(TTS)系统中的持续时间预测器和长度调节器的介绍,以及一个名为P-LLM的潜在代码语言模型的详细描述。以下是对这段内容的中文翻译: 在非自回归TTS系统中,持续时间预测器和长度调节器遵循常见做法[48,50]。不同的是,我们将由韵律编码器提取的韵律信息输入到持续时间预测器中,以减轻一对多映射问题[48,45];3) 音色编码器被设计用来提取包含给定语音说话人身份的全局向量Htimbre。音色编码器由几个卷积层堆叠而成。为了确保音色信息在时间轴上的稳定性,我们对音色编码器的输出进行时间平均,以获得一维音色向量Htimbre。 为了保持良好的感知质量,我们引入了一个基于生成对抗网络(GAN)的mel频谱图解码器。我们采用基于不同长度随机窗口的多长度鉴别器[10,63]作为鉴别器。 总体而言,第一阶段训练损失Lof Mega-TTS可以表示为: LVQ=∥yt−ˆyt∥2+∥sg[E(yt)]−zq∥2 2+∥sg [zq]−E(yt)∥2 2, (1) L=E[LVQ+LAdv], (2) 其中yt是目标语音,ˆyt是生成的语音。Lrec=∥yt−ˆyt∥2是重建损失,sg[·]表示停止梯度操作,zq是码本条目的时间集合。LVQ是VQVAE损失函数[54,16],LAdv是LSGAN风格的对抗损失[38],其目标是最小化预测的mel频谱图与真实mel频谱图之间的分布距离。 3.2 P-LLM P-LLM是一个潜在代码语言模型,用于捕捉韵律建模的局部和长距离依赖。我们描述了面向韵律的语音解码机制和P-LLM的细节如下。 面向韵律的语音解码。记(yp,xp)和(yt,xt)为提示和目标语音-转录对。我们的目标是在给定未见过的语音提示yp的情况下合成高质量的目标语音yt。在推理过程中,期望目标语音的音色˜Htimbre与提示语音的音色相同。因此,为了生成目标语音yt,我们只需要目标语音的韵律信息˜u。因此,面向韵律的语音解码过程可以表示为: 编码:u=Eprosody (yp), Hcontent =Econtent (xp),˜Htimbre =Etimbre (yp), ˜Hcontent =Econtent (xt), 韵律预测:˜u=f(˜u|u, Hcontent ,˜Htimbre ,˜Hcontent ;θ), 解码:ˆyt=D(˜u,˜Htimbre ,˜Hcontent ),(3) 其中Eprosody, Etimbre, Econtent和D分别表示韵律编码器、音色编码器、内容编码器和mel解码器。u是提示语音的韵律标记,˜u是目标语音预测的韵律标记,f是韵律预测函数,θ是P-LLM的参数。ˆyt是生成的语音。 生成韵律代码。所提出的面向韵律的语音解码机制需要目标语音的预测韵律代码˜u。利用LLMs强大的上下文学习能力,我们设计了P-LLM模块来预测˜u。P-LLM是一个基于解码器的基于transformer的架构[7],用于韵律建模,它使用yp的韵律代码u作为提示,以及Hcontent,˜Hcontent和˜Htimbre作为条件。P-LLM的自回归韵律预测过程可以表示为: p ˜u|u, Hcontent ,˜Htimbre ,˜Hcontent ;θ =TY t=0p ˜ut|˜u