微软最近发布的AI声音生成工具VALLE,只需3秒音频即可模仿人说话,这一创新技术不仅展示了人工智能在语音合成领域的突破性进展,也引发了广泛的关注和讨论,以下是对这款应用软件的详细介绍:

微软发布 AI 声音生成工具 VALLE,只需 3 秒音频即可模仿人说话

1、技术原理:VALLE采用了先进的“重复感知抽样”和“分组程序代码建模”技术,这些技术使得模型能够快速学习并复制特定的声音特征,通过60000小时英语语音数据的训练,VALLE能够使用特定语音的3秒剪辑来生成内容,并且可以复制说话者的情绪和语气,即使说话者本人从未说过的单词也可以模仿。

2、性能优势:与传统的文本到语音转换模型相比,VALLE在许多情况下表现出更优越的性能,它能够更加准确地模拟说话者的声音,包括情绪和语气,从而提供更为自然和真实的听觉体验,研究人员也指出,VALLE在某些方面仍存在问题,例如文本提示中的某些单词可能会发音不清晰、完全遗漏或在输出中出现两次,该模型目前难以模仿某些声音,尤其是带有口音的声音。

3、潜在应用:VALLE具有广泛的应用前景,包括但不限于个性化语音助手、视频游戏配音、以及社交媒体上匿名分享声音等,其独特的能力使其成为跨语言文本语音合成和语音克隆领域的重要工具。

4、安全与伦理考量:由于VALLE可能被用于制造深度伪造(deepfake)内容,如身份欺诈和虚假信息传播,微软已经发布了关于使用VALLE的道德声明,强调了在使用该技术时必须考虑的安全和伦理问题。

微软发布 AI 声音生成工具 VALLE,只需 3 秒音频即可模仿人说话

5、开源与访问:尽管微软已经在GitHub上创建了一个VALLE存储库,但目前该存储库仅包含一个描述文件,VALLE尚未开源,这意味着外部开发者和研究人员暂时无法直接访问或修改VALLE的源代码。

VALLE代表了AI声音生成技术的一个重要进步,其能够在短短几秒钟内模仿人类的声音和情感表达,这项技术的推出不仅展示了微软在人工智能领域的创新能力,也为未来的应用开发和研究提供了新的可能性。

微软发布 AI 声音生成工具 VALLE,只需 3 秒音频即可模仿人说话