本地部署 IndexTTS2
IndexTTS2 是由 哔哩哔哩(Bilibili)开发的一款工业级可控高效零样本语音合成系统,于2025年9月8日发布。可将文字快速转换为自然流畅的语音,支持中文和英文场景,适合普通用户日常体验、开发者二次开发等多种需求。
IndexTTS 2.0 核心功能升级
- 精准时长控制:IndexTTS2首次在自回归架构中实现了精准时长控制,支持两种生成模式,一种可通过明确指定生成的token数实现精确时长控制,另一种则自由生成,保持输入提示的韵律特征。而1.x版本时长不可控,IndexTTS2在影视配音等需严格音画同步的场景中具有明显优势,其音画同步误差<0.02%。
- 音色与情感解耦:该模型实现了情感特征与说话人音色的解耦,用户可以独立指定音色来源和情绪来源,例如用一段音频保留音色,再用另一段不同情感的音频或文本描述赋予情绪,在零样本条件下,模型能精准还原目标音色并完全重现指定情绪。1.x版本则无法做到这一点,情感表达和音色的结合不够灵活。
- 多种情感控制方式:IndexTTS2新增了四种情感控制方式,包括使用情感参考音频、使用情感向量控制、使用情感描述文本控制以及默认的与音色参考音频相同的方式。用户可以根据需求选择不同的方式来精确调控合成语音的情感表达,而1.x版本的情感控制方式相对单一。
- 文本驱动的情感控制:内置T2E模块,基于Qwen-3微调模型,将自然语言描述转为情绪向量,用户只需输入文字描述,如“愤怒地质问”,即可驱动合成语音的情绪表现,降低了使用门槛,1.x版本可能缺乏这样便捷的文本驱动情感控制功能。
- 引入GPT潜在表征:IndexTTS2引入了GPT潜在表征,并设计三阶段训练策略,提升了强情感场景下的语音稳定性和清晰度,解决了数据不足和过拟合问题,使合成结果更加自然流畅。1.x版本在强情感表达时可能会出现口齿不清等问题。
- 性能提升:在技术性能上,多数据集实验表明,IndexTTS2在词错率、说话人相似度和情绪保真度上均超越当前最先进零样本TTS模型。例如,IndexTTS2的词错误率为1.883%,而1.x版本为1.921%,IndexTTS2降低了0.038%。
系统要求
- 最低16GB内存,将虚拟内存设置得大一些。
- 预留足够硬盘空间,建议24GB以上。
- macOS 11及以上版本,支持Intel和M系列芯片。
- Windows10/11,可用Intel, AMD GPU,推荐用NVIDIA GPU。
在魔当中找到 IndexTTS2
打开魔当,点击左侧菜单的“本地部署”,可以看到多个可以在本地部署的AI应用,找到IndexTTS2。当然也有旧版1.x的IndexTTS,旧版对硬件要求更低一些。
点击IndexTTS2图标,进入应用介绍页。
点击安装按钮,会打开安装窗口,全自动安装IndexTTS2。如果已经安装过IndexTTS2,也不必担心,这样的操作可以当作是更新IndexTTS2的程序,不会重复下载模型文件。
安装成功后,关闭此窗口。
开始运行 IndexTTS2
在应用的详情页,点击右侧的运行按钮,会打开运行窗口。
在成功启动后,会自动打开您的浏览器。