Step-Audio-EditX 使用技巧和安装方法
介绍
Step-Audio-EditX 是由阶跃星辰(StepFun AI)团队开源的一款先进音频大模型,专为“像写提示词一样编辑声音”而设计。即使没有任何技术背景,普通用户也能轻松使用它来生成高度自然、富有表现力的语音——只需提供一段几秒钟的参考音频,并写下你想让它“怎么说话”的文字指令,AI 就能精准复刻声音,并按要求表达情绪、切换口音或加入语气词。
🎯 小白也能上手的强大功能
- 零样本语音克隆:上传任意语音片段,即可用该声音朗读新内容,无需训练。
- 多轮迭代编辑:不满意?可以反复修改指令,逐步优化语音效果。
- 高表现力控制:不仅能改变说什么,还能精细控制“怎么说”——是开心还是生气?是耳语还是撒娇?甚至是否带呼吸声或笑声?
这一切都通过在文本中添加简单标签实现,操作直观,效果惊艳。
✍️ 如何用文本“指挥”AI说话?
Step-Audio-EditX 支持在目标文本前插入特定标签,分别控制方言、情绪、说话风格和副语言特征。这些标签可单独使用,也可自由组合。
以下是所有官方支持的标签列表:
1. 方言(Dialect)
| 标签 | 说明 |
|---|---|
[Sichuanese] | 四川话 |
[Cantonese] | 广东话,粤语 |
使用方式示例:
[Sichuanese]今天巴适得很!
2. 情绪(Emotion)
| 标签 | 说明 |
|---|---|
[Angry] | 愤怒 |
[Happy] | 开心 |
[Sad] | 悲伤 |
[Excited] | 兴奋 |
[Fearful] | 害怕 |
[Surprised] | 惊讶 |
[Disgusted] | 厌恶 |
示例:
[Happy]我考上啦!
3. 说话风格(Speaking Style)
| 标签 | 说明 |
|---|---|
[Act_coy] | 撒娇 |
[Older] | 老成/年长感 |
[Child] | 儿童腔 |
[Whisper] | 耳语 |
[Serious] | 严肃 |
[Generous] | 大方/豪爽 |
[Exaggerated] | 夸张 |
示例:
[Whisper][Child]妈妈睡着了吗?
4. 副语言特征(Paralinguistic Cues)
| 标签 | 说明 |
|---|---|
[Breathing] | 呼吸声 |
[Laughter] | 笑声 |
[Suprise-oh] | 惊讶的“哦” |
[Confirmation-en] | 确认语气的“嗯”(英文语境) |
[Uhm] | 犹豫的“呃” |
[Suprise-ah] | 惊讶的“啊” |
[Suprise-wa] | 惊讶的“哇” |
[Sigh] | 叹气 |
[Question-ei] | 疑问语气的“诶?” |
[Dissatisfaction-hnn] | 不满的“哼” |
示例:
[Sigh][Sad]唉……又失败了。
通过这种结构化的文本控制方式,Step-Audio-EditX 让高表现力语音合成变得像写一句话那么简单,同时保持极强的灵活性与真实感。
中文综合示例(含四川话 + 粤语 + 副语言)
text
[Sichuanese]哎呀,今天简直巴适得板![Laughter]吃了火锅还中了奖,[Suprise-wa]你说我运气好不好嘛~
[Cantonese]真係勁啊!我哋今晚去食海鮮好唔好?[Question-ei]你唔准話唔去喎!系统要求
- 建议32GB以上内存,将虚拟内存设置得大一些。
- 预留足够硬盘空间,建议20GB以上。
- Windows 10/11,仅支持NVIDIA GPU,显存大于12GB。
使用魔当一键部署 Step-Audio-EditX
打开魔当,点击左侧菜单的“本地部署”,可以看到多个可以在本地部署的AI应用,找到Step-Audio-EditX,进入详情页,点击安装即可,非常简单。
在应用的详情页,点击右侧的运行按钮,会打开运行窗口。在启动成功后,会自动打开您的浏览器。