Step-Audio-EditX 使用技巧和安装方法

介绍

Step-Audio-EditX 是由阶跃星辰（StepFun AI）团队开源的一款先进音频大模型，专为“像写提示词一样编辑声音”而设计。即使没有任何技术背景，普通用户也能轻松使用它来生成高度自然、富有表现力的语音——只需提供一段几秒钟的参考音频，并写下你想让它“怎么说话”的文字指令，AI 就能精准复刻声音，并按要求表达情绪、切换口音或加入语气词。

🎯 小白也能上手的强大功能

零样本语音克隆：上传任意语音片段，即可用该声音朗读新内容，无需训练。
多轮迭代编辑：不满意？可以反复修改指令，逐步优化语音效果。
高表现力控制：不仅能改变说什么，还能精细控制“怎么说”——是开心还是生气？是耳语还是撒娇？甚至是否带呼吸声或笑声？

这一切都通过在文本中添加简单标签实现，操作直观，效果惊艳。

✍️ 如何用文本“指挥”AI说话？

Step-Audio-EditX 支持在目标文本前插入特定标签，分别控制方言、情绪、说话风格和副语言特征。这些标签可单独使用，也可自由组合。

以下是所有官方支持的标签列表：

1. 方言（Dialect）

标签	说明
`[Sichuanese]`	四川话
`[Cantonese]`	广东话，粤语

使用方式示例：[Sichuanese]今天巴适得很！

2. 情绪（Emotion）

标签	说明
`[Angry]`	愤怒
`[Happy]`	开心
`[Sad]`	悲伤
`[Excited]`	兴奋
`[Fearful]`	害怕
`[Surprised]`	惊讶
`[Disgusted]`	厌恶

示例：[Happy]我考上啦！

3. 说话风格（Speaking Style）

标签	说明
`[Act_coy]`	撒娇
`[Older]`	老成/年长感
`[Child]`	儿童腔
`[Whisper]`	耳语
`[Serious]`	严肃
`[Generous]`	大方/豪爽
`[Exaggerated]`	夸张

示例：[Whisper][Child]妈妈睡着了吗？

4. 副语言特征（Paralinguistic Cues）

标签	说明
`[Breathing]`	呼吸声
`[Laughter]`	笑声
`[Suprise-oh]`	惊讶的“哦”
`[Confirmation-en]`	确认语气的“嗯”（英文语境）
`[Uhm]`	犹豫的“呃”
`[Suprise-ah]`	惊讶的“啊”
`[Suprise-wa]`	惊讶的“哇”
`[Sigh]`	叹气
`[Question-ei]`	疑问语气的“诶？”
`[Dissatisfaction-hnn]`	不满的“哼”

示例：[Sigh][Sad]唉……又失败了。

通过这种结构化的文本控制方式，Step-Audio-EditX 让高表现力语音合成变得像写一句话那么简单，同时保持极强的灵活性与真实感。

中文综合示例（含四川话 + 粤语 + 副语言）

text

[Sichuanese]哎呀，今天简直巴适得板！[Laughter]吃了火锅还中了奖，[Suprise-wa]你说我运气好不好嘛～

[Cantonese]真係勁啊！我哋今晚去食海鮮好唔好？[Question-ei]你唔准話唔去喎！

系统要求

建议32GB以上内存，将虚拟内存设置得大一些。
预留足够硬盘空间，建议20GB以上。
Windows 10/11，仅支持NVIDIA GPU，显存大于12GB。

使用魔当一键部署 Step-Audio-EditX

打开魔当，点击左侧菜单的“本地部署”，可以看到多个可以在本地部署的AI应用，找到Step-Audio-EditX，进入详情页，点击安装即可，非常简单。

在应用的详情页，点击右侧的运行按钮，会打开运行窗口。在启动成功后，会自动打开您的浏览器。

Step-Audio-EditX 使用技巧和安装方法 ​

介绍 ​

🎯 小白也能上手的强大功能 ​

✍️ 如何用文本“指挥”AI说话？ ​

1. 方言（Dialect） ​

2. 情绪（Emotion） ​

3. 说话风格（Speaking Style） ​

4. 副语言特征（Paralinguistic Cues） ​

中文综合示例（含四川话 + 粤语 + 副语言） ​

系统要求 ​

使用魔当一键部署 Step-Audio-EditX ​