TTS快速使用及配置

admin · 2025 年7 月 3 日 02:12

版本要求 1.103.25以上

目前支持IndexTTS的文本转音频
目前支持Windows(cpu,cuda,zluda),Linux(cpu,cuda,rocm)设备

设备

zluda windows上a卡使用cuda的一个兼容

hip官方支持的不需要改,不支持的还需要单独修改驱动

directml测试无法运行tts,可能是微软的问题…

最新支持torch 2.4.1…比amd都懒,感觉是不更新了?

安装

理论上使用时会自动安装(如果不存在),但是为了防止下载时卡住,所以建议还是先下载
下载安装包与模型

下载tts一键包
下载模型,可以根据机器性能选择1.5/2

2占用内存较大N卡8G左右,A卡会更大

设置配音

文本生成语音之前需要先设置配音,然后生成的语音就会以提供的配音样本为准进行生成

右下角可能会弹出调用麦克风请求(如果有杀毒软件)

文本生成语音

选择工作区中的文件
点击右上角文本到语音处理

弹出页面后点击生成即可

新配置部分

生成部分被重构,其他基本一样
[新]TTS-文本生成语音

缓存

默认情况下,每段生成的音频都会进行缓存,在每分句配置不变的情况下,会采用之前生成的音频,方便进行修改

自动分句

默认情况下会尝试将文本中的对话部分单独提取出来,并尝试在配音表中找到对应的配置

如xxx说：“yyyy”,会尝试在配音表中找到xxx,并以相关引用音频应用到yyyy文本中

选择工作流处理

默认情况下,使用default/[TTS]基础文本解析工作流,可以自动处理文本和字幕.

常规处理,解析后需要自己根据上下文编辑

如果需要自定义解析,可以使用插件,安装后创建工作流
按住Alt键再点击文本到语音处理会出现选择工作流,选择创建好的工作流

按住Alt选择表示重新选择工作流处理,也就是下次不按的话,会按照上一次选择的值

webnet · 2025 年7 月 19 日 14:26

站长，试了一下字幕生成语音，的确非常棒，我用几秒的声音样本试了一下，总体还是不错的，现在有两个问题请教一下：
1、10秒的样本和1分钟样本克隆出来的音色会有差别吗？
2、中英文混搭的时候效果还不错，但是一些英文简写效果不太好，不会按字母拼出来，是否有解决办法
3、数字也是类似，比如100，会读成一零零
4、我提了一个针对语速的建议，

admin · 2025 年7 月 19 日 14:34

1.不清楚.因为indextts的文档并没有提过,但是你可以理解为样本为音频提示词(对比大语言模型的文本提示词)
2/3. 中文的可以用替换文本功能,比如它如果读的有问题,你可以通过文本替换,一个是替换为拼音 ,比如乒乓,可以改为ping1pang1.100可以手动替换为文本一百.

admin · 2025 年7 月 19 日 15:34

3.我有空加个替换规则吧.某些通用读法替换