Skip to content
PilotTTS

PilotTTS

超逼真的零样本声音克隆,精准操控 11 种情感、4 种人类语气词(如笑声/换气)以及 14 种方言

应用特点

开源文本转语音TTS

系统要求

建议16GB以上内存。硬盘空间20GB以上。
macOS 15及以上版本,仅支持M系列芯片。
Windows10/11 64位,NVIDIA显卡,6GB以上显存。
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

1. 项目背景与团队 PilotTTS 是由高德语音团队(AMAPVOICE)于 2026 年 5 月底推出的开源轻量级自回归文本转语音(TTS)大模型系统。由于高德在出行导航、车载语音等实际业务中对高自然度、方言和情感表达有极高的现实需求,该团队开发了此项目,旨在打造一个不仅效果顶尖,且对开发者和普通用户都极度友好的工业级语音合成方案。

2. 核心功能与产品特点 对于普通用户和自媒体创作者而言,PilotTTS 带来了极高且可控的实用价值:

  • 神级的情绪与语气控制(优点):它彻底解决了传统 AI 语音“语气全靠抽卡”的痛点。用户可以直接在文本中插入标签来控制声音。它支持 11 种细分情感(如开心、悲伤、愤怒、严肃、关切等),并且支持精准插入 4 种副语言语气词(笑声、换气呼吸声、哭腔、咳嗽声),让生成的音频像真人演员在说话。
  • 降维打击的方言克隆(优点):支持 14 种中国方言(如四川话、粤语、东北话等)。最厉害的是它具备“跨方言克隆”能力——小白用户只需提供一段自己说普通话的录音,模型就能用他自己的音色去说地道的方言,非常适合做整活、爆款短视频。
  • 顶级的零样本声音克隆(优点):只需 3-5 秒的参考音频,就能极其逼真地复制任何人的声音,且字音对齐极度精准,极少出现吞音、错音。
  • 对普通用户的局限性(缺点):目前该项目核心发力于中文方言和中英双语,原生多语言(如日、韩、法等小语种)能力较弱;此外,目前官方版本主要依赖 NVIDIA 显卡进行本地加速,虽然对显存要求低(8GB 即可畅玩),但非英伟达显卡或纯 CPU 运行会非常缓慢。

3. 适用场景 该项目非常适合用于智能出行与导航配音、小说有声书播客制作、动漫/游戏 NPC 角色配音、自媒体短视频剪辑以及企业级的虚拟数字人客服等场景。

4. 底层硬核技术 PilotTTS 在学术和工程上的突破在于其“极简模块化”与“极致数据工程”的结合。它并没有盲目追求几百亿的庞大参数,而是基于以下开源链条组装:

  • LLM 主干网络:采用阿里的轻量级大模型 Qwen3-0.6B(仅 6 亿参数)。
  • 声学特征提取:使用 Meta 的 w2v-bert-2.0
  • 音频生成后端:结合了 CosyVoice3 的条件流匹配(Conditional Flow Matching)解码器与 Vocoder 声码器。
  • 通过创新的 Q-Former 调节机制,成功将“说话人是谁(音色)”与“怎么说话(风格、方言)”彻底解耦。同时,团队将一整套全开源的高质量数据清洗与标注管线(Data Pipeline)完全公开,让外界用 20 万小时的数据就练出了超越传统百万小时数据的 SOTA(业内顶尖)效果。