访问数:287
Seed-TTS
厂家:字节跳动
简介:
Seed TTS,这是一个大规模自回归文本到语音(TTS)模型家族,能够生成与人类语音几乎无法区分的语音。
Seed TTS是语音生成的基础模型,擅长上下文学习中的语音,在客观和主观评价中实现了与真实人类语音相匹配的说话人相似性和自然度性能。
Seed TTS提供了对各种语音属性(如情感)的卓越控制,并能够为野外说话者生成高度表达和多样化的语音。
详细介绍 - Seed-TTS
字节还提出了一种语音因子分解的自蒸馏方法,以及一种增强学习方法来增强模型的鲁棒性、说话人相似性和可控性。
另外,还提出了Seed TTS模型的一个非自回归(NAR)变体,名为Seed TTSDiT,它利用了一个完全基于扩散的架构。与以前基于NAR的TTS系统不同,Seed TTSDiT不依赖于预先估计的音素持续时间,而是通过端到端处理执行语音生成。
字节证明,该变体在客观和主观评估方面都达到了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。
--文 by AixTong.com--