谷歌重磅升级AI语音技术：2分钟对话3秒生成，将彻底改变人机交互方式

1,038 0 0

科技界近期又迎来一大突破——谷歌全新发布的AI语音技术，以2分钟对话仅需3秒生成的惊人速度，引领业界标准进入新纪元。这项技术不仅刷新了速度记录，还在多说话人之间的语音连贯性和音质方面取得了飞跃性进展，预示着人与机器的交互方式即将迎来颠覆性改变。

近年来，谷歌持续深耕音频生成领域，研发的模型能够通过文本、节奏控制、特定声音等多种输入方式创造出高质量、自然的语音。最近，谷歌协同内部多团队，推出了两项革命性功能：NotebookLM音频概述，可将文档内容转换成生动对话；Illuminate则生成关于研究论文的AI讨论，使专业知识更易理解和消化。

这些突破建立在谷歌过去在音频领域的大量研究成果之上，包括SoundStream神经音频编解码器、AudioLM音频语言建模框架，以及能生成30秒多人对话的SoundStorm。最新的技术在这些成果的基础上进一步改进，采用了更高效的语音编解码器，实现在低比特率下压缩音频而不失质量。

为了达到这一技术突破，谷歌开发了专门的Transformer架构，该架构高效处理信息层次结构。模型首先在数十万小时的语音数据上进行预训练，然后在高质量对话数据集上进行微调，这些数据集包含了真实对话中的自然特征，如语气、停顿。为了确保技术不被滥用，谷歌还引入了SynthID技术，为AI生成的音频添加了独特的水印。