ToucanTTS
前往官网
arrow_forward_ios一套用于最先进语音合成的工具包,一个覆盖超过7,000种语言的大型多语言模型。
什么是ToucanTTS
- ToucanTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ToucanTTS在语音合成中表现出高质量和自然度。
ToucanTTS特点
- 多语言和多说话者支持:通过大规模的多语言预训练模型,支持涵盖超过7,000种语言的多语言语音合成。实现多说话者语音合成,并克隆节奏、重音和语调等韵律跨说话者
- 人机协同编辑:允许对合成语音进行人机协同编辑,例如用于诗歌朗诵和文学研究
- 交互式演示:提供大规模多语言语音合成、跨说话者风格克隆、语音设计和人工编辑的诗歌朗诵的交互式演示
- 架构和组件:主要基于FastSpeech 2架构,具有一些修改,例如受PortaSpeech启发的基于正规化流的PostNet。包括经CTC训练的自包含对齐器和各种应用的谱图重建。提供多语言模型、对齐器、嵌入函数、声码器和嵌入GAN的预训练模型
- 易用性:完全采用Python和PyTorch构建,旨在简单且适合初学者,同时功能强大
- 口腔表征:IMS Toucan系统将音素的口腔表征作为输入,使多语言数据可以惠及低资源语言