Skip to content

Step-Audio-EditX 使用技巧和安装方法

介绍

Step-Audio-EditX 是由阶跃星辰(StepFun AI)团队开源的一款先进音频大模型,专为“像写提示词一样编辑声音”而设计。即使没有任何技术背景,普通用户也能轻松使用它来生成高度自然、富有表现力的语音——只需提供一段几秒钟的参考音频,并写下你想让它“怎么说话”的文字指令,AI 就能精准复刻声音,并按要求表达情绪、切换口音或加入语气词。

🎯 小白也能上手的强大功能

  • 零样本语音克隆:上传任意语音片段,即可用该声音朗读新内容,无需训练。
  • 多轮迭代编辑:不满意?可以反复修改指令,逐步优化语音效果。
  • 高表现力控制:不仅能改变说什么,还能精细控制“怎么说”——是开心还是生气?是耳语还是撒娇?甚至是否带呼吸声或笑声?

这一切都通过在文本中添加简单标签实现,操作直观,效果惊艳。

✍️ 如何用文本“指挥”AI说话?

Step-Audio-EditX 支持在目标文本前插入特定标签,分别控制方言、情绪、说话风格和副语言特征。这些标签可单独使用,也可自由组合。

以下是所有官方支持的标签列表:

1. 方言(Dialect)

标签说明
[Sichuanese]四川话
[Cantonese]广东话,粤语

使用方式示例:[Sichuanese]今天巴适得很!

2. 情绪(Emotion)

标签说明
[Angry]愤怒
[Happy]开心
[Sad]悲伤
[Excited]兴奋
[Fearful]害怕
[Surprised]惊讶
[Disgusted]厌恶

示例:[Happy]我考上啦!

3. 说话风格(Speaking Style)

标签说明
[Act_coy]撒娇
[Older]老成/年长感
[Child]儿童腔
[Whisper]耳语
[Serious]严肃
[Generous]大方/豪爽
[Exaggerated]夸张

示例:[Whisper][Child]妈妈睡着了吗?

4. 副语言特征(Paralinguistic Cues)

标签说明
[Breathing]呼吸声
[Laughter]笑声
[Suprise-oh]惊讶的“哦”
[Confirmation-en]确认语气的“嗯”(英文语境)
[Uhm]犹豫的“呃”
[Suprise-ah]惊讶的“啊”
[Suprise-wa]惊讶的“哇”
[Sigh]叹气
[Question-ei]疑问语气的“诶?”
[Dissatisfaction-hnn]不满的“哼”

示例:[Sigh][Sad]唉……又失败了。

通过这种结构化的文本控制方式,Step-Audio-EditX 让高表现力语音合成变得像写一句话那么简单,同时保持极强的灵活性与真实感。

中文综合示例(含四川话 + 粤语 + 副语言)

text
[Sichuanese]哎呀,今天简直巴适得板![Laughter]吃了火锅还中了奖,[Suprise-wa]你说我运气好不好嘛~

[Cantonese]真係勁啊!我哋今晚去食海鮮好唔好?[Question-ei]你唔准話唔去喎!

系统要求

  • 建议32GB以上内存,将虚拟内存设置得大一些。
  • 预留足够硬盘空间,建议20GB以上。
  • Windows 10/11,仅支持NVIDIA GPU,显存大于12GB

使用魔当一键部署 Step-Audio-EditX

打开魔当,点击左侧菜单的“本地部署”,可以看到多个可以在本地部署的AI应用,找到Step-Audio-EditX,进入详情页,点击安装即可,非常简单。

在应用的详情页,点击右侧的运行按钮,会打开运行窗口。在启动成功后,会自动打开您的浏览器。