简述:
Meta AI的研究人员在语音生成领域取得了重大突破,他们推出了Voicebox模型,这是首个能够在没有特定训练的情况下完成语音生成任务的模型,表现出卓越的性能。
体验地址:
据最新报道,Meta AI的研究人员在语音生成领域取得了重大突破。他们成功开发了Voicebox模型,这是一种具有突破性的生成式人工智能模型,能够在未经特定训练的情况下完成各种语音生成任务,并具备先进的性能。
传统的语音生成系统需要针对每个任务进行特定的训练,并使用精心准备的训练数据。而Voicebox采用了一种新的方法,只需利用原始音频和相应的转录文本进行学习。与自回归模型只能修改音频片段末尾不同,Voicebox可以修改给定样本的任意部分,而不仅仅是音频片段的结尾。
Voicebox基于一种名为Flow Matching的方法,该方法已被证明优于扩散模型。在零样本文本转语音任务中,Voicebox在可理解性(5.9% 与 1.9% 的错误率)和音频相似度(0.580 与 0.681)方面超过了目前英语模型VALL-E的最新技术水平,同时速度还提高了20倍。在跨语言风格转移方面,Voicebox在降低平均单词错误率(从10.9% 降至 5.2%)和提高音频相似度(从0.335 提升至 0.481)方面超过了YourTTS。
Voicebox的成功意味着现在可以更灵活地进行语音生成,并具备更广泛的应用前景。它可以用于上下文文本转语音合成,使无法说话的人获得语音能力,或者让用户自定义虚拟助手和非玩家角色的语音。
Voicebox还能进行跨语言风格转移,使人们能够以自然、真实的方式进行跨语言交流。此外,Voicebox还具备语音降噪和编辑的能力,能够轻松处理音频中的噪声干扰和纠正发音错误。它还能生成多样的语音样本,更好地模拟现实世界中的人们的说话方式。
然而,由于潜在的滥用风险,Meta AI并未公开Voicebox模型和代码。尽管他们致力于向AI社区开放并分享研究成果,推动人工智能技术的发展,但他们认为在开放与责任之间需要保持适当的平衡。因此,他们在研究论文中详细介绍了方法和结果,并分享了音频样本。
对于这项突破性的研究成果,业内普遍认为Meta AI在语音生成领域迈出了重要一步。Voicebox模型的问世标志着生成式人工智能研究的新篇章。虽然这项技术带来了潜在的误用和风险,但Meta AI通过构建高效的分类器来区分真实语音和Voicebox生成的音频,并采取负责任的研究和分享方式,以应对这些问题。我们期待看到更多研究者在这一成果的基础上进行深入研究,并将其应用于更多实际场景中。
(编辑观点)
Voicebox模型的问世对语音生成领域具有重要意义。它的灵活性和高效性使得语音生成更加便捷和多样化,为人们提供了更广阔的应用前景。然而,我们也要意识到这项技术的潜在风险,并需要以负责任的态度对待。Meta AI通过构建分类器和选择适当的分享方式来应对风险,这值得肯定。希望更多研究者能够在这一成果的基础上不断探索,为语音生成领域的发展做出更多贡献。