本地部署 SoulX-Podcast

SoulX-Podcast 是由 Soul AI 团队 开发的一个开源项目，目标是将一段文字内容，自动生成像真实播客一样的多人对话音频。你可以把它理解为一个“AI播客工厂”：只需输入对话脚本，它就能自动为不同角色分配声音，加入自然的语气、笑声、叹息等情感表达，生成长达数分钟的高质量播客音频。

它不仅能做单人朗读（比如有声书），更擅长生成多轮、多角色的真实对话场景，比如两个主持人聊天、嘉宾访谈、脱口秀等。

核心功能

多角色对话生成：支持多人轮流说话，模拟真实播客场景。
支持多种语言和方言：不仅支持普通话和英文，还支持四川话、河南话、粤语等中文方言，让播客更具地方特色和亲和力。
零样本声音克隆（Zero-Shot Voice Cloning）：只需提供一段几秒钟的参考音频（比如你说话的录音），AI就能模仿你的声音生成播客，无需大量训练数据。
情感化语音控制：可以添加笑声（笑声）、叹息（sigh）、停顿等非语言元素，让语音更生动、更像真人。
长文本生成：支持生成长篇幅的播客内容，适合制作完整节目。

系统要求

最低16GB内存，将虚拟内存设置得大一些。
预留足够硬盘空间，建议21GB以上。
macOS 11及以上版本，支持Intel和M系列芯片。
Windows10/11，可用Intel, AMD GPU，推荐用NVIDIA GPU，最好是8G以上显存。

使用技巧

方言格式：

如果想用方言生成语音，可用以下几种。如果不想用方言，就不要加方言的标记。

Sichuan：四川话
Henan：河南话
Yue：广东话，粤语

副语言控制（语气，情绪）

在一句话中要适量使用副语言控制，用得太密集可能效果会变差。

laughter：笑声
sigh：叹息声
coughing：咳嗽
breathing：呼吸
throat_clearing: 清嗓子

示例

以下是使用方言和副语言控制的示例，其中[S1], [S2]代表某个说话人，<|Sichuan|>是使用的方言，<|sigh|>是叹息：

[S1]<|Sichuan|>哎哟喂，这个搞反了噻<|laughter|>！
[S2]<|Henan|>俺这不是怕恁路上不得劲儿嘛！<|sigh|>

在魔当中找到 SoulX-Podcast

打开魔当，点击左侧菜单的“本地部署”，可以看到多个可以在本地部署的AI应用，找到SoulX-Podcast。

点击SoulX-Podcast图标，进入应用介绍页。

点击安装按钮，会打开安装窗口，全自动安装SoulX-Podcast。如果已经安装过，也不必担心，这样的操作可以当作是更新SoulX-Podcast的程序，不会重复下载模型文件。

安装成功后，关闭此窗口。

开始运行 SoulX-Podcast

有NVIDA显卡，且正常安装驱动的电脑，可使用NVIDIA GPU加速，如果显存不足，内存够大，可关闭GPU加速，用CPU生成。
如果想制作方言播客，可选中“方言多人对话”。

在应用的详情页，点击右侧的运行按钮，会打开运行窗口。

在成功启动后，会自动打开您的浏览器。

本地部署 SoulX-Podcast ​

核心功能 ​

系统要求 ​

使用技巧 ​

方言格式： ​

副语言控制（语气，情绪） ​

示例 ​

在魔当中找到 SoulX-Podcast ​

开始运行 SoulX-Podcast ​