本地部署 SoulX-Podcast
SoulX-Podcast 是由 Soul AI 团队 开发的一个开源项目,目标是将一段文字内容,自动生成像真实播客一样的多人对话音频。你可以把它理解为一个“AI播客工厂”:只需输入对话脚本,它就能自动为不同角色分配声音,加入自然的语气、笑声、叹息等情感表达,生成长达数分钟的高质量播客音频。
它不仅能做单人朗读(比如有声书),更擅长生成多轮、多角色的真实对话场景,比如两个主持人聊天、嘉宾访谈、脱口秀等。
核心功能
- 多角色对话生成:支持多人轮流说话,模拟真实播客场景。
- 支持多种语言和方言:不仅支持普通话和英文,还支持四川话、河南话、粤语等中文方言,让播客更具地方特色和亲和力。
- 零样本声音克隆(Zero-Shot Voice Cloning):只需提供一段几秒钟的参考音频(比如你说话的录音),AI就能模仿你的声音生成播客,无需大量训练数据。
- 情感化语音控制:可以添加笑声(笑声)、叹息(sigh)、停顿等非语言元素,让语音更生动、更像真人。
- 长文本生成:支持生成长篇幅的播客内容,适合制作完整节目。
系统要求
- 最低16GB内存,将虚拟内存设置得大一些。
- 预留足够硬盘空间,建议21GB以上。
- macOS 11及以上版本,支持Intel和M系列芯片。
- Windows10/11,可用Intel, AMD GPU,推荐用NVIDIA GPU,最好是8G以上显存。
使用技巧
方言格式:
如果想用方言生成语音,可用以下几种。如果不想用方言,就不要加方言的标记。
- Sichuan:四川话
- Henan:河南话
- Yue:广东话,粤语
副语言控制(语气,情绪)
在一句话中要适量使用副语言控制,用得太密集可能效果会变差。
- laughter:笑声
- sigh:叹息声
- coughing:咳嗽
- breathing:呼吸
- throat_clearing: 清嗓子
示例
以下是使用方言和副语言控制的示例,其中[S1], [S2]代表某个说话人,<|Sichuan|>是使用的方言,<|sigh|>是叹息:
[S1]<|Sichuan|>哎哟喂,这个搞反了噻<|laughter|>!
[S2]<|Henan|>俺这不是怕恁路上不得劲儿嘛!<|sigh|>在魔当中找到 SoulX-Podcast
打开魔当,点击左侧菜单的“本地部署”,可以看到多个可以在本地部署的AI应用,找到SoulX-Podcast。
点击SoulX-Podcast图标,进入应用介绍页。
点击安装按钮,会打开安装窗口,全自动安装SoulX-Podcast。如果已经安装过,也不必担心,这样的操作可以当作是更新SoulX-Podcast的程序,不会重复下载模型文件。
安装成功后,关闭此窗口。
开始运行 SoulX-Podcast
- 有NVIDA显卡,且正常安装驱动的电脑,可使用NVIDIA GPU加速,如果显存不足,内存够大,可关闭GPU加速,用CPU生成。
- 如果想制作方言播客,可选中“方言多人对话”。
在应用的详情页,点击右侧的运行按钮,会打开运行窗口。
在成功启动后,会自动打开您的浏览器。