Voicebox：文本引导的多语言规模化通用语音生成

科技2年前 (2023)发布 lindl

730 0 0

原文：https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/

Meta AI的研究团队最近推出了一个突破性的语音生成AI模型，名为Voicebox。这是第一个能够广泛泛化的生成性AI模型，具有跨多种任务的通用性。Voicebox提供了多种风格的输出，能从零开始创建输出，也能修改现有样本。它产生高质量音频剪辑并提供六种语言的语音合成功能，同时可应用于降噪、内容编辑、风格转换和多样性样本生成。

与此前的语音生成AI不同，Voicebox采用从原始音频和对应的转录中学习的方法，无需针对每个任务进行特定训练或使用精心准备的练数据。与自回归音频生成模型不同，Voicebox能够修改给定样本的任何部分，不仅仅限于音频剪辑的末尾。

基于名为Flow Matching的方法，Voicebox在零射击文本到语音任务上取得了显著成果，超过了目前最先进的英语模型VALL-E，在可理解性和音频相似度方面表现更出色，且速度更快。在跨语言风格转换方面，Voicebox同样优于YourTTS，在字错误率和音频相似度方面均取得改进。

Voicebox为英语和多语言基准测试设立了新的最先进标准。作为一款功能强大的语音生成AI，Voicebox具有广泛的潜在用途，包括跨语言风格转换、降噪和多样性输出生成等。

# 科技