AI 资源精选

首页 >音频相关 >Parler-TTS

访问数：376

Parler-TTS

简介：

Parler TTS是一个用于高保真文本到语音（TTS）模型的训练和推理库。这里演示的模型Parler TTS Mini v0.1是第一个使用10k小时的有声读物进行训练的迭代模型。它生成高质量的语音，其特征可以使用简单的文本提示进行控制（例如性别、背景噪声、语速、音高和混响）。

确保良好生成的提示：
1、使用术语“非常清晰的音频”以生成最高质量的音频，以及术语“非常嘈杂的音频”用于高水平的背景噪声
2、使用标点符号可用于控制生成的节奏，例如，在讲话中使用逗号添加小中断
3、其它语音特征（性别、语速、音高和混响）可以直接通过提示进行控制

详细介绍 - Parler-TTS

目前并不支持中文，但其生成的语音非常自然，且有情感性。

不过，经过测试，经常也会生成一些非常不正确的音频，如：语速突然变慢，内容也不正确。

整体感觉，正确生成后，效果非常好。

--文 by AixTong.com--