微软升级Azure AI语音服务推出9种更真实的AI语音

关注+2024-04-02作者：路西蓝

4月2日消息:微软近期对其Azure AI语音服务进行了重大升级，推出了9种新的更真实的AI语音，旨在为用户带来更加自然和沉浸式的对话体验。这次升级的核心是引入了零样本学习（Zero-shot）的文本到语音(TTS)模型，这些模型在提高合成语音自然度的同时，更好地模仿了提示语音中的特征。

Azure AI语音服务的Personal Voice功能通过这些新模型，使得个性化语音的创建变得快速而简单。用户只需提供一小段语音样本，即可在几秒钟内生成能模仿其独特语音特征的AI语音。这种高度自然的语音输出，不仅流畅自然，还能精准捕捉到人类语音的细微差别，如语调、节奏和情感表达，极大地提升了合成语音的生动性和真实感。

微软的这项服务支持超过400种神经语音，覆盖了140多种语言和地区，使得文本到语音的转换不仅快速，而且无障碍。此外，通过自定义神经语音功能，用户可以轻松为其业务创建独特的品牌声音，无论是个人化应用还是跨语种配音，都能满足需求。

Azure AI语音服务的应用场景非常广泛，包括个性化的语音助手、沉浸式游戏体验、多语言配音、媒体和娱乐内容的创作，以及语音翻译等。这些新的Zero-shot TTS模型不仅适用于个人化应用，也能为需要实时互动的场景提供支持。

微软还特别强调了负责任的AI使用，对于Zero-shot TTS模型的使用实施了严格的指导原则和访问控制，以确保技术的负责任部署和使用，保护个人和社会的权利。

此外，微软还发布了9种针对对话优化的AI语音，这些语音覆盖了多种语言，为用户提供了更多的选择和多样性。这些语音在阅读对话和非正式文本时听起来更自然、更引人入胜，甚至包括笑声和填充停顿等插入语，为虚拟对话增添了人性化的触感。

新的通用可用（GA）语音包括多种语言选项，如英语、德语、法语和中文等，这些语音都经过了针对对话风格的优化，扩展了微软在91种语言及其变种中传达内容的能力，体现了微软克服语言障碍、促进全球交流更加包容和无障碍的坚定承诺。

用户可以通过Azure AI语音服务的在线语音库查看详细介绍和演示效果，并通过更新体验链接进一步探索这些新功能。微软的这次升级，无疑将为各种业务场景提供更加丰富和真实的语音交互体验。

微软升级Azure AI语音服务 推出9种更真实的AI语音

微软升级Azure AI语音服务推出9种更真实的AI语音