TTS快速使用及配置

版本要求 1.103.25以上

目前支持IndexTTS的文本转音频
目前支持Windows(cpu,cuda,zluda),Linux(cpu,cuda,rocm)设备

设备

  • zluda windows上a卡使用cuda的一个兼容

hip官方支持的不需要改,不支持的还需要单独修改驱动

  • directml测试无法运行tts,可能是微软的问题…

最新支持torch 2.4.1…比amd都懒,感觉是不更新了?

安装

  • 理论上使用时会自动安装(如果不存在),但是为了防止下载时卡住,所以建议还是先下载

  • 下载安装包与模型

  1. 下载tts一键包
  2. 下载模型,可以根据机器性能选择1.5/2

2占用内存较大N卡8G左右,A卡会更大

设置配音

  • 文本生成语音之前需要先设置配音,然后生成的语音就会以提供的配音样本为准进行生成

右下角可能会弹出调用麦克风请求(如果有杀毒软件)

文本生成语音

  • 选择工作区中的文件
  • 点击右上角文本到语音处理

  • 弹出页面后点击生成即可

新配置部分

缓存

  • 默认情况下,每段生成的音频都会进行缓存,在每分句配置不变的情况下,会采用之前生成的音频,方便进行修改

自动分句

  • 默认情况下会尝试将文本中的对话部分单独提取出来,并尝试在配音表中找到对应的配置

如xxx说:“yyyy”,会尝试在配音表中找到xxx,并以相关引用音频应用到yyyy文本中

选择工作流处理

  • 默认情况下,使用default/[TTS]基础文本解析工作流,可以自动处理文本和字幕.

常规处理,解析后需要自己根据上下文编辑

  • 如果需要自定义解析,可以使用插件,安装后创建工作流
  • 按住Alt键再点击文本到语音处理会出现选择工作流,选择创建好的工作流

按住Alt选择表示重新选择工作流处理,也就是下次不按的话,会按照上一次选择的值

站长,试了一下字幕生成语音,的确非常棒,我用几秒的声音样本试了一下,总体还是不错的,现在有两个问题请教一下:
1、10秒的样本和1分钟样本克隆出来的音色会有差别吗?
2、中英文混搭的时候效果还不错,但是一些英文简写效果不太好,不会按字母拼出来,是否有解决办法
3、数字也是类似,比如100,会读成一零零
4、我提了一个针对语速的建议,

1.不清楚.因为indextts的文档并没有提过,但是你可以理解为样本为音频提示词(对比大语言模型的文本提示词)
2/3. 中文的可以用替换文本功能,比如它如果读的有问题,你可以通过文本替换,一个是替换为拼音 ,比如乒乓,可以改为ping1pang1.100可以手动替换为文本一百.

3.我有空加个替换规则吧.某些通用读法替换