AI声音盒子！Meta AI在语音生成领域取得突破，推出Voicebox模型

资讯1年前 (2023)更新花花

2,112 0 0

简述：

Meta AI的研究人员在语音生成领域取得了重大突破，他们推出了Voicebox模型，这是首个能够在没有特定训练的情况下完成语音生成任务的模型，表现出卓越的性能。

体验地址：

Meta Voicebox

语音盒可以通过上下文明确训练的任务学习。它比自回归模型更灵活，因为它不仅可以以过去为条件，还可以以未来的语境为条件。我们证明语音盒可用于单语和跨语言零镜头文本到语音合成、样式转换、瞬态噪声消除、内容编辑和多样化的样本生成。

据最新报道，Meta AI的研究人员在语音生成领域取得了重大突破。他们成功开发了Voicebox模型，这是一种具有突破性的生成式人工智能模型，能够在未经特定训练的情况下完成各种语音生成任务，并具备先进的性能。

传统的语音生成系统需要针对每个任务进行特定的训练，并使用精心准备的训练数据。而Voicebox采用了一种新的方法，只需利用原始音频和相应的转录文本进行学习。与自回归模型只能修改音频片段末尾不同，Voicebox可以修改给定样本的任意部分，而不仅仅是音频片段的结尾。

Voicebox基于一种名为Flow Matching的方法，该方法已被证明优于扩散模型。在零样本文本转语音任务中，Voicebox在可理解性（5.9% 与 1.9% 的错误率）和音频相似度（0.580 与 0.681）方面超过了目前英语模型VALL-E的最新技术水平，同时速度还提高了20倍。在跨语言风格转移方面，Voicebox在降低平均单词错误率（从10.9% 降至 5.2%）和提高音频相似度（从0.335 提升至 0.481）方面超过了YourTTS。

Voicebox的成功意味着现在可以更灵活地进行语音生成，并具备更广泛的应用前景。它可以用于上下文文本转语音合成，使无法说话的人获得语音能力，或者让用户自定义虚拟助手和非玩家角色的语音。

Voicebox还能进行跨语言风格转移，使人们能够以自然、真实的方式进行跨语言交流。此外，Voicebox还具备语音降噪和编辑的能力，能够轻松处理音频中的噪声干扰和纠正发音错误。它还能生成多样的语音样本，更好地模拟现实世界中的人们的说话方式。

然而，由于潜在的滥用风险，Meta AI并未公开Voicebox模型和代码。尽管他们致力于向AI社区开放并分享研究成果，推动人工智能技术的发展，但他们认为在开放与责任之间需要保持适当的平衡。因此，他们在研究论文中详细介绍了方法和结果，并分享了音频样本。

对于这项突破性的研究成果，业内普遍认为Meta AI在语音生成领域迈出了重要一步。Voicebox模型的问世标志着生成式人工智能研究的新篇章。虽然这项技术带来了潜在的误用和风险，但Meta AI通过构建高效的分类器来区分真实语音和Voicebox生成的音频，并采取负责任的研究和分享方式，以应对这些问题。我们期待看到更多研究者在这一成果的基础上进行深入研究，并将其应用于更多实际场景中。

（编辑观点）

Voicebox模型的问世对语音生成领域具有重要意义。它的灵活性和高效性使得语音生成更加便捷和多样化，为人们提供了更广阔的应用前景。然而，我们也要意识到这项技术的潜在风险，并需要以负责任的态度对待。Meta AI通过构建分类器和选择适当的分享方式来应对风险，这值得肯定。希望更多研究者能够在这一成果的基础上不断探索，为语音生成领域的发展做出更多贡献。