原文:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/
Meta AI的研究团队最近推出了一个突破性的语音生成AI模型,名为Voicebox。这是第一个能够广泛泛化的生成性AI模型,具有跨多种任务的通用性。Voicebox提供了多种风格的输出,能从零开始创建输出,也能修改现有样本。它产生高质量音频剪辑并提供六种语言的语音合成功能,同时可应用于降噪、内容编辑、风格转换和多样性样本生成。
与此前的语音生成AI不同,Voicebox采用从原始音频和对应的转录中学习的方法,无需针对每个任务进行特定训练或使用精心准备的练数据。与自回归音频生成模型不同,Voicebox能够修改给定样本的任何部分,不仅仅限于音频剪辑的末尾。
基于名为Flow Matching的方法,Voicebox在零射击文本到语音任务上取得了显著成果,超过了目前最先进的英语模型VALL-E,在可理解性和音频相似度方面表现更出色,且速度更快。在跨语言风格转换方面,Voicebox同样优于YourTTS,在字错误率和音频相似度方面均取得改进。
Voicebox为英语和多语言基准测试设立了新的最先进标准。作为一款功能强大的语音生成AI,Voicebox具有广泛的潜在用途,包括跨语言风格转换、降噪和多样性输出生成等。
© 版权声明
本文转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权或其它疑问请点击联系删除。
相关文章
暂无评论...