微软的 AI 只需 3 秒的音频就能模仿任何人的声音
微软研究人员周四宣布了一个名为 VALL-E 的新文本到语音 AI 模型,如果给定 3 秒的音频样本,它可以准确地模拟语音。 一旦 VALL-E 学会了一种声音,它就可以创建听起来像那个人的音频。 它还将尝试保持说话者的情绪基调。
微软将 VALL E 称为“神经语言编解码器模型”,它基于 Meta 于 2022 年 10 月宣布的名为 EnCodec 的技术。VALL-E 是一种文本转语音方法,可根据文本和声学生成离散编解码器代码 输入。
来源和详细信息:
https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/