人工智能语音研究
语音盒:大规模文本引导的多语言通用语音生成
这是一个基于 Meta 的非自回归流匹配模型构建的最先进的语音生成模型。通过学习使用大量数据解决文本引导的语音填充任务,Voicebox 通过上下文学习在语音任务中胜过单一用途 AI 模型。Voicebox可以合成六种语言的语音,消除瞬态噪音,编辑内容,在语言内部和跨语言传输音频样式,并生成各种语音样本。此外,它生成语音的速度比最先进的自动回归模型快 20 倍。
模型概述
Voicebox 是一种非自回归流匹配模型,经过训练以填充 给定音频上下文和文本的语音。我们训练一个纯英语语音盒 60K 小时数据和 50K 小时数据的多语言版本 涵盖六种语言(英语、法语、德语、西班牙语、波兰语和 葡萄牙语)。
应用概述
语音盒可以通过上下文明确训练的任务 学习。它比自回归模型更灵活,因为它 不仅可以以过去为条件,还可以以未来的语境为条件。我们证明 语音盒可用于单语和跨语言零镜头 文本到语音合成、样式转换、瞬态噪声消除、 内容编辑和多样化的样本生成。