超逼真的零样本声音克隆,精准操控 11 种情感、4 种人类语气词(如笑声/换气)以及 14 种方言
建议16GB以上内存。硬盘空间20GB以上。
macOS 15及以上版本,仅支持M系列芯片。
Windows10/11 64位,NVIDIA显卡,6GB以上显存。
注意:NVIDIA显卡,请安装较新版本的驱动。1. 项目背景与团队
PilotTTS 是由高德语音团队(AMAPVOICE)于 2026 年 5 月底推出的开源轻量级自回归文本转语音(TTS)大模型系统。由于高德在出行导航、车载语音等实际业务中对高自然度、方言和情感表达有极高的现实需求,该团队开发了此项目,旨在打造一个不仅效果顶尖,且对开发者和普通用户都极度友好的工业级语音合成方案。
2. 核心功能与产品特点 对于普通用户和自媒体创作者而言,PilotTTS 带来了极高且可控的实用价值:
3. 适用场景 该项目非常适合用于智能出行与导航配音、小说有声书播客制作、动漫/游戏 NPC 角色配音、自媒体短视频剪辑以及企业级的虚拟数字人客服等场景。
4. 底层硬核技术 PilotTTS 在学术和工程上的突破在于其“极简模块化”与“极致数据工程”的结合。它并没有盲目追求几百亿的庞大参数,而是基于以下开源链条组装:
Qwen3-0.6B(仅 6 亿参数)。w2v-bert-2.0。CosyVoice3 的条件流匹配(Conditional Flow Matching)解码器与 Vocoder 声码器。