PilotTTS - 魔当一键部署本地AI软件，不写代码不配环境

应用特点

开源文本转语音TTS

系统要求

建议16GB以上内存。硬盘空间20GB以上。
macOS 15及以上版本，仅支持M系列芯片。
Windows10/11 64位，NVIDIA显卡，6GB以上显存。
注意：NVIDIA显卡，请安装较新版本的驱动。

应用介绍

1. 项目背景与团队 PilotTTS 是由高德语音团队（AMAPVOICE）于 2026 年 5 月底推出的开源轻量级自回归文本转语音（TTS）大模型系统。由于高德在出行导航、车载语音等实际业务中对高自然度、方言和情感表达有极高的现实需求，该团队开发了此项目，旨在打造一个不仅效果顶尖，且对开发者和普通用户都极度友好的工业级语音合成方案。

2. 核心功能与产品特点 对于普通用户和自媒体创作者而言，PilotTTS 带来了极高且可控的实用价值：

神级的情绪与语气控制（优点）：它彻底解决了传统 AI 语音“语气全靠抽卡”的痛点。用户可以直接在文本中插入标签来控制声音。它支持 11 种细分情感（如开心、悲伤、愤怒、严肃、关切等），并且支持精准插入 4 种副语言语气词（笑声、换气呼吸声、哭腔、咳嗽声），让生成的音频像真人演员在说话。
降维打击的方言克隆（优点）：支持 14 种中国方言（如四川话、粤语、东北话等）。最厉害的是它具备“跨方言克隆”能力——小白用户只需提供一段自己说普通话的录音，模型就能用他自己的音色去说地道的方言，非常适合做整活、爆款短视频。
顶级的零样本声音克隆（优点）：只需 3-5 秒的参考音频，就能极其逼真地复制任何人的声音，且字音对齐极度精准，极少出现吞音、错音。
对普通用户的局限性（缺点）：目前该项目核心发力于中文方言和中英双语，原生多语言（如日、韩、法等小语种）能力较弱；此外，目前官方版本主要依赖 NVIDIA 显卡进行本地加速，虽然对显存要求低（8GB 即可畅玩），但非英伟达显卡或纯 CPU 运行会非常缓慢。

3. 适用场景 该项目非常适合用于智能出行与导航配音、小说有声书播客制作、动漫/游戏 NPC 角色配音、自媒体短视频剪辑以及企业级的虚拟数字人客服等场景。

4. 底层硬核技术 PilotTTS 在学术和工程上的突破在于其“极简模块化”与“极致数据工程”的结合。它并没有盲目追求几百亿的庞大参数，而是基于以下开源链条组装：

LLM 主干网络：采用阿里的轻量级大模型 Qwen3-0.6B（仅 6 亿参数）。
声学特征提取：使用 Meta 的 w2v-bert-2.0。
音频生成后端：结合了 CosyVoice3 的条件流匹配（Conditional Flow Matching）解码器与 Vocoder 声码器。
通过创新的 Q-Former 调节机制，成功将“说话人是谁（音色）”与“怎么说话（风格、方言）”彻底解耦。同时，团队将一整套全开源的高质量数据清洗与标注管线（Data Pipeline）完全公开，让外界用 20 万小时的数据就练出了超越传统百万小时数据的 SOTA（业内顶尖）效果。

GitHubhttps://github.com/AMAPVOICE/PilotTTS

许可证Apache-2.0