加载中,请稍候...
一套用于最先进语音合成的工具包,一个覆盖超过7,000种语言的大型多语言模型。
什么是ToucanTTS
  • ToucanTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ToucanTTS在语音合成中表现出高质量和自然度。
ToucanTTS详情

ToucanTTS特点
  • 多语言和多说话者支持通过大规模的多语言预训练模型,支持涵盖超过7,000种语言的多语言语音合成。实现多说话者语音合成,并克隆节奏、重音和语调等韵律跨说话者
  • 人机协同编辑允许对合成语音进行人机协同编辑,例如用于诗歌朗诵和文学研究
  • 交互式演示提供大规模多语言语音合成、跨说话者风格克隆、语音设计和人工编辑的诗歌朗诵的交互式演示
  • 架构和组件主要基于FastSpeech 2架构,具有一些修改,例如受PortaSpeech启发的基于正规化流的PostNet。包括经CTC训练的自包含对齐器和各种应用的谱图重建。提供多语言模型、对齐器、嵌入函数、声码器和嵌入GAN的预训练模型
  • 易用性完全采用Python和PyTorch构建,旨在简单且适合初学者,同时功能强大
  • 口腔表征IMS Toucan系统将音素的口腔表征作为输入,使多语言数据可以惠及低资源语言