本地部署 IndexTTS2

IndexTTS2 是由哔哩哔哩（Bilibili）开发的一款工业级可控高效零样本语音合成系统，于2025年9月8日发布。可将文字快速转换为自然流畅的语音，支持中文和英文场景，适合普通用户日常体验、开发者二次开发等多种需求。

IndexTTS 2.0 核心功能升级

精准时长控制：IndexTTS2首次在自回归架构中实现了精准时长控制，支持两种生成模式，一种可通过明确指定生成的token数实现精确时长控制，另一种则自由生成，保持输入提示的韵律特征。而1.x版本时长不可控，IndexTTS2在影视配音等需严格音画同步的场景中具有明显优势，其音画同步误差<0.02%。
音色与情感解耦：该模型实现了情感特征与说话人音色的解耦，用户可以独立指定音色来源和情绪来源，例如用一段音频保留音色，再用另一段不同情感的音频或文本描述赋予情绪，在零样本条件下，模型能精准还原目标音色并完全重现指定情绪。1.x版本则无法做到这一点，情感表达和音色的结合不够灵活。
多种情感控制方式：IndexTTS2新增了四种情感控制方式，包括使用情感参考音频、使用情感向量控制、使用情感描述文本控制以及默认的与音色参考音频相同的方式。用户可以根据需求选择不同的方式来精确调控合成语音的情感表达，而1.x版本的情感控制方式相对单一。
文本驱动的情感控制：内置T2E模块，基于Qwen-3微调模型，将自然语言描述转为情绪向量，用户只需输入文字描述，如“愤怒地质问”，即可驱动合成语音的情绪表现，降低了使用门槛，1.x版本可能缺乏这样便捷的文本驱动情感控制功能。
引入GPT潜在表征：IndexTTS2引入了GPT潜在表征，并设计三阶段训练策略，提升了强情感场景下的语音稳定性和清晰度，解决了数据不足和过拟合问题，使合成结果更加自然流畅。1.x版本在强情感表达时可能会出现口齿不清等问题。
性能提升：在技术性能上，多数据集实验表明，IndexTTS2在词错率、说话人相似度和情绪保真度上均超越当前最先进零样本TTS模型。例如，IndexTTS2的词错误率为1.883%，而1.x版本为1.921%，IndexTTS2降低了0.038%。

系统要求

最低16GB内存，将虚拟内存设置得大一些。
预留足够硬盘空间，建议24GB以上。
macOS 11及以上版本，支持Intel和M系列芯片。
Windows10/11，可用Intel, AMD GPU，推荐用NVIDIA GPU。

在魔当中找到 IndexTTS2

打开魔当，点击左侧菜单的“本地部署”，可以看到多个可以在本地部署的AI应用，找到IndexTTS2。当然也有旧版1.x的IndexTTS，旧版对硬件要求更低一些。

点击IndexTTS2图标，进入应用介绍页。

点击安装按钮，会打开安装窗口，全自动安装IndexTTS2。如果已经安装过IndexTTS2，也不必担心，这样的操作可以当作是更新IndexTTS2的程序，不会重复下载模型文件。

安装成功后，关闭此窗口。

开始运行 IndexTTS2

在应用的详情页，点击右侧的运行按钮，会打开运行窗口。

在成功启动后，会自动打开您的浏览器。

本地部署 IndexTTS2 ​

IndexTTS 2.0 核心功能升级 ​

系统要求 ​

在魔当中找到 IndexTTS2 ​

开始运行 IndexTTS2 ​

本地部署 IndexTTS2

IndexTTS 2.0 核心功能升级

系统要求

在魔当中找到 IndexTTS2

开始运行 IndexTTS2