微软NaturalSpeech语音合成推出第三代 生成语音更自然了
微软NaturalSpeech项目推出了第三代语音合成技术,以实现超自然的零样本语音合成。NaturalSpeech3通过属性分解扩散模型和数据/模型扩展,提高了语音合成的质量和自然度。这一成果将进一步推动语音合成技术的发展,为实现智能语音交互提供更强大的支持。
NaturalSpeech 3:可克隆音色和感情的语音合成系统
随着大规模文本到语音模型的发展,取得了显著进展,但在语音质量、相似度和韵律方面仍存在不足。考虑到语音涉及到多个属性,这为生成带来了巨大挑战。这一研究符合微软的负责任AI原则。