ACE-Step 1.5: 突破开源音乐生成的边界作者Junmin Gong∗, Yulin Song†, Wenxiao Zhao †, Sen Wang †, Shengyuan Xu †, Jing Guo†, Xuerui Yang †单位ACE Studio / Step Fun邮箱junminacestudio.ai, keylxiaoacestudio.ai, seanacestudio.ai, sayoacestudio.ai, shengyuanacestudio.ai, joeacestudio.ai, yangxueruistepfun.com摘要我们提出了ACE-Step v1.5一款高效的开源音乐基础模型实现了消费级硬件上的商用级音乐生成。在通用评估指标上ACE-Step v1.5的生成质量超越了大多数商用音乐模型同时保持了极致的推理速度在A100上生成完整歌曲耗时不足2秒在RTX 3090上耗时不足10秒。该模型可在显存小于4GB的设备上本地运行并支持轻量级个性化用户仅需几首歌曲即可训练LoRA来复刻专属风格。模型核心采用了一种新颖的混合架构其中Language Model (LM) 充当全能规划器它将简单的用户查询转换为完整的歌曲蓝图支持从短循环到10分钟长曲的全时长生成同时通过Chain-of-Thought生成元数据、歌词和字幕为Diffusion Transformer (DiT) 提供引导。独特之处在于这种对齐完全通过依赖模型内部机制的内在强化学习实现从而消除了外部奖励模型或人类偏好带来的固有偏差。除了标准的音乐合成ACE-Step v1.5还实现了精准风格控制与多样化编辑能力的统一——包括翻唱生成、局部重绘、人声转背景音乐等同时在50多种语言上保持对prompt的严格遵循。这为打造能无缝融入音乐艺术家、制作人和内容创作者工作流的强大工具铺平了道路。代码、模型权重和演示地址https://ace-step.github.io/ace-step-v1.5.github.io/1 引言神经音乐生成领域已发生范式转变闭源系统展现出了卓越的保真度和结构一致性。然而闭源能力与开源替代品之间仍存在显著差距。我们的前一版本ACE-Step v1.0[1]验证了在消费级硬件上实现基于diffusion的文本转音乐生成的可行性但它主要作为概念验证存在。关键问题在于v1.0凸显了可行与商用级之间的差距声学保真度受限于梅尔频谱表示语义一致性未达到专业标准而复杂的编辑需求如轨道分离和翻唱生成仍未得到解决。在本工作中我们提出了ACE-Step v1.5一个旨在弥合实验原型与生产级标准之间差距的确定性框架。我们挑战了推理效率与生成质量之间的传统权衡实现了一种改进的混合推理-扩散架构从根本上将易用性与声学渲染解耦。我们没有采用端到端的黑盒模型而是将LM定位为智能作曲代理将DiT定位为专业的声学渲染器。LM作为高层规划器将模糊的用户prompt显式重构为精确的结构蓝图例如格式化歌词、计算时长、扩展查询从而消除DiT面临的语义歧义。相应地DiT得以专注于声学丰富度和乐器分离。通过集成一种新颖的蒸馏算法我们将生成步骤从50步压缩至仅4-8步实现了超过100倍的推理加速同时提升了信噪比性能。我们的主要贡献总结如下通过蒸馏实现商用级效率我们引入了一种专门的蒸馏协议将DiT的推理轨迹压缩至4-8步。该优化使消费级GPU显存4GB能够亚秒级生成高保真音频在不牺牲乐器清晰度的前提下有效实现了专业音乐合成的普惠化。解耦的易用性-生成架构我们提出了一种结构范式转变让LM和DiT分别解决不同的生成挑战。通过多任务训练将结构规划和prompt理解任务转移给LM确保DiT接收标准化、无歧义的条件输入从而最大化其生成上限。用于对齐控制的内在强化学习为了在不引入外部偏差的情况下增强可控性我们采用了一种由模型自身理解任务衍生的内在奖励驱动的强化学习流程。该方法确保了在50多种语言上的鲁棒对齐并严格遵循风格和歌词约束。统一的全任务框架超越简单的文本转音乐合成ACE-Step v1.5建立了一个用于复杂音乐操作的统一框架。该模型原生支持一套多功能工具集——包括翻唱生成、无缝重绘、轨道提取和人声转背景音乐——证明了单一、高效训练的模型能够满足现代音乐制作多样化的长尾需求。2 数据基础设施ACE-Step v1.5前所未有的保真度和可控性严格源于数据工程的范式转变从数量优先转向对齐优先。我们构建了一套全面的数据基础设施旨在最大化每个训练样本的信息密度。该基础设施的核心是一个复杂的自进化标注系统。我们首先设计了精准prompt利用Gemini 2.5 Pro[4]因其世界级的推理能力和最小的固有偏差被选中标注了包含500万个音频样本的黄金集。利用这些高质量种子数据我们微调了Qwen2.5-Omni创建了我们的专有专家模型ACE-Captioner和ACE-Transcriber。为了进一步消除幻觉并提升遵循性我们在400万个合成负样本对上训练了特定的奖励模型并应用强化学习来优化标注器。最后这个经过RL增强的流水线标注了我们全部2700万个样本的语料库随后进行了严格的过滤步骤。2.1 RL驱动的标注流水线为了弥合声学细节与文本描述之间的差距我们构建了一个多阶段流水线实现了对2000多种音乐风格和50多种语言的细粒度描述。阶段1基础有监督微调SFT使用500万个Gemini标注的样本对Qwen2.5-Omni[5]进行有监督微调得到基础的ACE-Captioner和ACE-Transcriber。阶段2奖励建模通过双轨启发式语义增强策略构建400万个对比对。我们通过细微破坏语义元素如交换乐器或情绪标签生成难负样本通过语义重写生成鲁棒正样本。这迫使奖励模型区分超越表面文本模式的细粒度语义差异。阶段3RL优化应用GRPO[6]针对这些奖励模型优化标注器。阶段4全量标注部署这些模型标注全部2700万个数据集并复用奖励模型过滤掉低对齐度的配对。2.2 语义-声学过滤与增强为了缓解前一版本中观察到的生成不稳定性我们实施了由ACE-Reward模型驱动的严格过滤和增强协议。我们采用基于指标的过滤策略主动丢弃音频-文本相关性低的样本从而消除导致模式崩溃的噪声。同时认识到我们密集的训练标注与通常稀疏的用户prompt之间存在分布偏移我们使用Qwen3-30B-A3B[7]进行查询重写。通过用多样化的输入变体从单一风格关键词到摘要描述增强数据集确保模型在不同prompt复杂度和长度下都保持鲁棒性。对图一进行详细的解释# ACE-Step 1.5 图1RL驱动的标注流水线 完整详解图1展示了ACE-Step1.5最核心的**数据基础设施**是整个模型能达到商用级质量的基石。它的核心设计思想是**从数量优先转向对齐优先**通过一个**四阶段、双轨并行、自进化闭环**的流水线生成2700万条高质量的音频-文本配对数据。## 一、图1整体架构概览整个流程分为**两条完全对称的并行分支** - **上分支**训练**ACE-Captioner**生成音乐风格/乐器/情绪/结构的描述 - **下分支**训练**ACE-Transcriber**生成精准的歌词文本 两条分支都遵循**黄金种子→基础SFT→奖励建模→RL优化→全量标注过滤**的四阶段流程最终共同完成2700万首音乐的高质量标注。 ---## 二、逐阶段详细拆解### 阶段1黄金种子数据集构建输入500万首原始音频**目标**生成一批绝对高质量的标注数据作为整个流水线的种子1. **输入**500万首经过初步筛选的优质音频2. **处理**使用**Gemini2.5Pro**论文明确选择它的原因世界级推理能力最小固有偏差为每首音频生成 - 细粒度音乐描述风格、乐器、情绪、速度、结构 - 精准的歌词文本3. **输出**500万条音频-高质量caption-高质量歌词的黄金配对数据4. **关键作用**这是整个流水线的源头活水它的质量直接决定了后续所有模型的上限。### 阶段2基础有监督微调SFT**目标**用黄金种子数据训练出基础的标注专家模型1. **输入**阶段1生成的500万条黄金配对数据2. **处理** - 上分支用黄金caption数据微调**Qwen2.5-Omni** → 得到**基础ACE-Captioner** - 下分支用黄金歌词数据微调**Qwen2.5-Omni** → 得到**基础ACE-Transcriber**3. **输出**两个基础的多模态专家模型4. **为什么选Qwen2.5-Omni**它是当时最强的开源多模态模型能很好地理解音频特征并转化为文本。### 阶段3奖励建模解决基础模型的幻觉问题**目标**训练专门的打分模型用来判断标注结果的好坏为后续强化学习做准备1. **输入**基础模型生成的大量候选标注结果2. **核心技术****双轨启发式语义增强策略**构造400万对**对比样本** - **难负样本Hard Negatives**故意破坏语义元素生成的错误标注 - 例把钢琴独奏改成吉他独奏把欢快的改成悲伤的- 目的让奖励模型学会区分**细粒度的语义差异**而不只是表面文字 - **鲁棒正样本Robust Positives**对正确标注进行语义重写 - 例把流行摇滚改成带有摇滚元素的流行音乐- 目的让奖励模型理解**不同表达方式的相同语义**3. **输出**两个专用奖励模型 - **ACE-Caption-Reward**给音乐描述打分 - **ACE-Lyrics-Reward**给歌词转录打分4. **关键作用**这是整个RL流水线的裁判它的准确性直接决定了RL优化的效果。### 阶段4RL优化GRPO算法**目标**用奖励模型作为监督信号进一步提升基础标注模型的准确性和对齐度1. **输入**基础ACE-Captioner/Transcriber 对应的奖励模型2. **处理**使用**GRPOGroup Relative Policy Optimization算法**优化两个基础模型 - GRPO比传统PPO算法更稳定、计算效率更高非常适合大模型的RL训练 - 优化目标让模型生成的标注结果在奖励模型上的得分尽可能高3. **输出** - **ACE-Captioner-RL**经过强化学习优化的最终描述生成器 - **ACE-Transcriber-RL**经过强化学习优化的最终歌词转录器4. **效果**经过这一步模型的幻觉率大幅降低标注结果和音频的对齐度显著提升。### 阶段5全量标注与最终过滤**目标**用优化后的专家模型标注全部2700万首音频并过滤掉低质量样本1. **输入**2700万首原始音频 ACE-Captioner-RL ACE-Transcriber-RL 奖励模型2. **处理步骤**1. 用ACE-Captioner-RL为所有音频生成描述2. 用ACE-Transcriber-RL为所有带人声的音频生成歌词3. 用**ACE-Caption-Reward**过滤掉描述和音频不匹配的样本4. 用**ACE-Lyrics-Reward**过滤掉歌词和人声不匹配的样本5. **关键补充**使用**Qwen3-30B-A3B**进行**查询重写** - 把模型生成的密集、专业的标注转换成多样化的用户prompt形式从单个关键词到长描述 - 解决训练数据是详细标注但用户输入是模糊prompt的分布偏移问题3. **输出**经过严格过滤的2700万条高质量音频-文本配对数据用于训练最终的ACE-Step1.5音乐生成模型。2.3 多语言与音色预处理为了实现全球通用性和精准控制我们引入了针对语言和声学特征的专门预处理策略。对于非罗马字母脚本如中文、日文、泰文我们实施了随机罗马化策略在训练期间将50%的歌词转换为音素表示。该方法使模型能够跨语言共享音系表示在不扩大词汇量的情况下显著提升了稀有token的发音准确性。对于音色建模我们通过应用人声掩码分离人声或乐器声部构建了专用的参考数据集。这些片段被拼接成连续流并处理为带有循环填充的固定30秒上下文窗口使模型能够学习鲁棒的零样本音色克隆能力。2.4 渐进式课程学习我们采用三阶段课程学习策略利用超过2700万个处理后的样本逐步解锁模型能力。训练流程始于基础预训练阶段在约2000万个文本-音乐对的大规模语料库上训练重点捕捉通用声学分布和广泛的语言表示。随后是全任务微调阶段保留前50%的高质量样本并补充600万个分轨分离的曲目该阶段针对轨道提取、重绘等高级编辑任务。流水线以高质量SFT阶段结束使用通过分层高奖励过滤筛选出的200万个样本子集。这一最终阶段最大化了指令遵循性和风格保真度确保模型严格遵循复杂的用户prompt同时不会过拟合主流音乐形式。3 模型架构3.1 高保真1D VAE超越梅尔频谱ACE-Step v1.0依赖于2D梅尔频谱这种表示常存在相位损失问题且对贝斯拨弦、打击乐等高频瞬态的分辨率不足。为了规避这一声学瓶颈我们实现了纯波形域的1D Variational Autoencoder (VAE)[8]。采用受SongBloom[9]启发的配置我们的VAE将48kHz立体声音频压缩为25Hz下的64维紧凑隐空间实现了高达1920倍的压缩率同时保留了近乎无损的感知质量。训练通过Muon优化器[10]进行优化与标准AdamW相比该优化器在大规模1D卷积层上展现出更优的收敛特性。模型在120张A100 GPU上进行了60万步的对抗调优。关键是在最后10万步中我们移除了KL散度惩罚并将对抗损失权重从0.1提升至0.5。该策略显著锐化了声学纹理使1D VAE在重建指标上优于2D DCAE基线尤其是在人声清晰度和乐器分离方面。3.2 DiT骨干高效条件生成我们声学合成流水线的核心是参数量约为2B的Diffusion Transformer (DiT)。该骨干被设计为通用条件生成器在计算效率与多任务通用性之间取得平衡。为了协调长序列建模与结构一致性我们集成了混合注意力机制奇数层使用滑动窗口注意力捕捉局部声学细节和瞬态偶数层使用全局分组查询注意力(GQA)维持长期的节奏和旋律一致性。模型在统一的条件栈上运行将Qwen3-0.6B的caption embedding与专用的音色编码器和歌词编码器拼接并通过交叉注意力注入。为了连接连续隐空间与我们的离散LM规划器我们实现了有限标量量化(FSQ)[11] tokenizer。该模块利用注意力池化将25Hz的隐向量压缩为5Hz的离散编码码本大小≈64k作为结构源隐向量。最后模型将源隐向量、加噪目标隐向量和掩码组合成复合输入张量通过patchify层处理将序列长度减半至12.5Hz以实现最优吞吐量。3.3 全任务形式化我们将音乐生成统一为一个灵活的掩码生成框架通过操纵源隐向量和掩码配置单个模型即可支持六种不同的模态。除了标准的文本转音乐该架构还支持翻唱生成通过量化隐向量保留旋律骨架同时重新合成音色重绘实现无缝的片段再生轨道提取从完整曲目中分离出单个声部分层为现有曲目添加互补乐器补全围绕单个动机编排完整的编曲这种方法不仅通过共享隐空间简化了训练过程还提升了效率——模型无需任务特定的微调即可适应多样化的输入。通过引入量化隐向量该框架确保了旋律、节奏等音乐元素在转换过程中的高保真保留非常适合创意混音应用。3.4 语言模型推理与规划DiT负责声学渲染而逻辑规划则委托给基于Qwen的语言模型。利用ChatML模板LM被训练为作曲代理在输出内容之前以YAML格式生成结构化的Chain-of-Thought (CoT) 元数据包括BPM、调式、时长和结构。该架构支持四种不同的交互范式规划器模式模型将模糊的用户prompt转换为具体的结构蓝图和音频编码听众模式通过从音频编码反向工程caption和歌词展示语义理解能力副驾驶模式充当创意助手将简单查询扩展为完整的歌曲结构优化器模式LM对风格化或原始的用户输入进行标准化和优化以最大化下游DiT的性能CoT推理的集成使LM能够将复杂的音乐想法分解为逻辑步骤提升了生成输出的连贯性和艺术质量。此外通过以标准化YAML格式输出元数据它促进了与音乐生产流水线中其他工具或系统的无缝互操作。4 训练策略我们采用渐进式训练范式从基础生成先验演进到复杂的多任务微调最终通过对抗蒸馏使学生模型超越其教师。初始生成预训练阶段使用2000万样本的基础数据集源静音隐向量建立音乐结构和声学分布的鲁棒先验。随后的全任务混合阶段引入包含1700万样本的全任务协议使用不同的源和掩码条件将风格属性与旋律内容解耦以实现精准的编辑任务。最终的高保真有监督微调(SFT)阶段使用精心筛选的200万高对齐度样本子集将目标从多样性转向最大化控制信号与输出之间的相关性为后续优化提供鲁棒的初始化。4.1 对抗动态偏移蒸馏为了在不降低质量的前提下实现亚秒级推理我们采用了基于解耦DMD2[12,13]的蒸馏框架并通过GAN目标和基于ConvNeXt的判别器[14]在隐空间中通过流匹配目标进行增强。为了克服固定时间步偏移限制去噪轨迹多样性的缺陷我们提出了一种动态偏移策略偏移参数从{1,2,3}中随机采样。这使代理模型能够接触到多样化的去噪状态防止过拟合并确保稳定的对抗反馈。蒸馏后的模型在无Classifier-Free Guidance的情况下将推理步骤从50步减少到8步偏移3实现了200倍的速度提升在NVIDIA A100上生成240秒的曲目仅需约1秒。学生模型通过判别器缓解了离散化误差并锐化了纹理性能优于教师模型同时支持测试时缩放用于自主生成和使用内在奖励对候选批次进行重排序。4.2 自监督内在对齐为了在无外部偏差的情况下增强可控性我们建立了一个统一的内在强化学习框架对DiT骨干应用DiffusionNTF[15]对语言模型应用分组相对策略优化(GRPO)从内部几何和概率一致性中推导奖励。对于DiT对齐我们假设低保真度生成与交叉注意力图的高熵相关并开发了注意力对齐分数(AAS)衡量token到帧与帧到token注意力图之间的一致性。AAS通过动态时间规整(DTW)聚合三个属性覆盖率具有显著能量峰值的歌词token比例单调性惩罚注意力质心的非前向对齐路径置信度对齐轨迹上的平均能量密度优化AAS减少了幻觉在歌词-音频同步方面实现了与人类判断95%的相关性。对于LM对齐我们将模型同时视为作曲家文本转编码和听众编码转文本使用点互信息(PMI)构建奖励模型来衡量语义遵循性。与原始似然不同PMI惩罚通用描述奖励与生成的音频编码特定相关的caption。最终奖励是动态加权和强调风格氛围(50%)、歌词内容(30%)和元数据约束(20%)引导LM在保持结构有效性的同时优先考虑艺术细节。5 评估我们在三个层级上进行了全面评估客观指标、主观人类偏好以及针对真实世界部署场景的新颖可用性评估。5.1 客观指标我们在涵盖20种音乐风格和双语中文/英文prompt的多样化测试集上进行评估使用Gemini 3 Pro生成结构化prompt和对应的歌词。指标来源AudioBox分数来自Meta的美学评估框架[16]SongEval指标通过ASLP-lab评估套件[17]计算风格和歌词对齐使用我们专有的ACE-Caption-Reward和ACE-Lyric-Reward模型量化。结果如表1所示ACE-Step 1.5取得了最高的AudioBox CU(8.09)、第二高的PQ(8.35)和并列最高的一致性(4.72)同时展现出卓越的时间一致性(Mem 4.72, Nat 4.59)。虽然Suno-v5等商用模型在风格/歌词对齐方面仍有优势(46.8/34.2)但ACE-Step 1.5在开源基线中表现出强大的竞争力(39.1/26.3)验证了我们的蒸馏方法保留了高保真声学渲染能力。表1与商用上半部分和开源下半部分音乐生成模型的对比。评估配置为1.7B LM 动态蒸馏DiT无RL。加粗最佳下划线次佳。↑表示数值越高越好。模型AudioBox ↑SongEval ↑风格对齐 ↑歌词对齐 ↑CECUPCPQCoh.Mus.Mem.Cla.Nat.Udio-v1.57.457.656.158.034.153.964.093.933.8634.924.8Suno-v4.57.637.856.228.254.644.514.634.534.4940.532.7Suno-v57.697.876.518.294.724.624.714.634.5646.834.2Mureka-V7.67.447.716.358.134.434.294.354.294.2136.222.4MinMax-2.07.717.956.428.384.614.514.594.504.4143.129.5Yue [18]6.587.294.957.393.012.802.852.792.8226.8-4.6ACE-Step 1.07.227.526.507.763.993.733.853.783.6828.50.9LeVo [19]7.617.785.928.313.553.353.323.313.2029.4-1.2DiffRhythm 2 [20]7.257.616.337.993.993.793.973.823.6632.13.8HeartMuLa [21]7.667.896.158.254.684.554.694.554.4531.728.6ACE-Step 1.57.428.096.478.354.724.674.724.664.5939.126.35.2 基于Music Arena的主观评估为了评估自动化指标之外的感知质量我们采用了Music Arena协议。人类评估者在给定相同prompt/歌词的情况下对模型输出进行盲测A/B对比。聚合Bradley-Terry分数显示ACE-Step 1.5的主观质量排名介于Suno-v4.5和Suno-v5之间证实了亚秒级生成并未牺牲美学保真度。5.3 可用性一种新的评估范式我们认为主流基准未能充分捕捉文本转音乐系统在生产工作流中的实际效用。因此我们提出将可用性作为整体效能指标并通过涵盖六个关键维度的严格17点检查表进行形式化表2。该框架将评估重点从孤立的质量分数转移到系统在专业创意生态系统中的能力解决了标准基准经常忽视的部署障碍和工作流集成问题。表2用于评估真实世界创意工作流中文本转音乐系统的17点可用性检查表维度ID标准要求/成功条件1. 普惠性与可及性1部署门槛必须能在消费级本地硬件上运行不依赖企业级API/集群2硬件无关性可在主流GPU上运行如显存8GB无需专用H1003安装复杂度提供用户就绪的打包解决方案如pip/conda可安装而非碎片化的研究仓库2. 效率与惊喜因子4结果生成时间生成延迟不能打断用户的创意心流状态亚秒至数秒5测试时缩放推理速度支持大规模并行批处理用于高效的隐空间探索6意外收获系数能够快速生成大量多样化候选最大化意外惊喜的概率3. 鲁棒性与扩展性7Prompt鲁棒性对稀疏/模糊输入的弹性反抽卡要求弱prompt下不发生模式崩溃8时间扩展性无缝处理从10秒音效循环到10分钟渐进式作曲的全时长范围9语言广度覆盖全球语言的长尾50种避免以英语为中心的偏差4. 专业集成10非破坏性编辑支持精准的重绘能力允许局部编辑而无需重新生成整首曲目11分轨分离输出独立轨道人声/鼓/贝斯/其他用于下游混音和母带制作12参考控制支持零样本音色克隆和从任意音频参考中获取结构指导5. 创意共生13灵感解锁充当动机生成器在创作瓶颈时启动创意14身份一致性能够在多次生成/连续片段中保持一致的声音身份15探索可玩性界面支持在结构化规划和非结构化即兴演奏之间流畅切换6. 知识与精准度16专业术语严格遵循技术指令如侧链压缩、“弗里几亚调式”、“TB-303酸性线条”将专业术语转化为准确的声学现象而非泛泛的氛围17世界知识接地对特定时代、地域风格和艺术家参考具有广泛的文化素养如1920年代上海爵士、“赛博朋克2077音景”不产生时代错误的幻觉结论在本工作中我们提出了ACE-Step v1.5一个通过新颖的混合推理-扩散架构实现商用级音乐生成普惠化的确定性框架。通过将结构规划与声学渲染解耦我们在消费级硬件上实现了亚秒级推理同时没有牺牲保真度并为合成、翻唱生成和精准编辑提供了统一的工具集。该方法有效弥合了开源能力与专有系统之间的差距为创意工作流提供了一个多功能的基础。然而当前能力仍受限于消费级可访问性所需的参数约束。未来的开发将聚焦于扩大模型规模和深化数据基础设施以解决这些限制。具体而言我们旨在提升声学丰富度扩展对更多语言和音乐风格的支持并整合更广泛的世界知识以实现专业级的caption控制。此外我们计划优化精准的歌词对齐并实现智能体式的音频编辑工作流。我们相信持续的规模扩展结合我们严格的数据工程流水线将解决这些约束并进一步推动生成式音乐的边界。致谢本项目由ACE Studio和StepFun联合主导。我们衷心感谢StepFun慷慨提供的计算资源和存储基础设施。没有这些关键支持ACE-Step的开发将无法实现。同时我们也非常感谢他们的团队组织并开展了模型的主观评估工作。我们对Jing Guo和Wenxiao Zhao在模型训练和应用方面的决策制定与深入讨论表示诚挚的感谢。他们对各种权衡的细致考量对于将ACE-Step塑造成如今这个多功能的基础模型起到了至关重要的作用。我们由衷感谢Sen Wang和Shengyuan Xu在数据工程方面的宝贵支持。高效的数据管理是我们工作的基础没有他们的专业知识ACE-Step无法成功训练。同时感谢Yulin Song在数据流水线构建方面的合作以及他在强化学习奖励框架方面的具体贡献。我们对Junmin Gong的广泛贡献表示最深切的感谢他的工作涵盖了算法开发、框架设计、实验执行、模型训练和评估。此外感谢他撰写本报告、准备开源代码发布以及创建项目网页。最后我们特别感谢ACE-Step社区提供的宝贵反馈和资源共享。ACE-Step是一个社区驱动的模型没有用户的持续参与和支持我们无法走到今天。参考文献[1] Junmin Gong, Sean Zhao, Sen Wang, Shengyuan Xu, and Joe Guo. Ace-step: A step towards music generation foundation model, 2025.[2] William Peebles and Saining Xie. Scalable diffusion models with transformers, 2023.[3] Nanye Ma, Mark Goldstein, Michael S. Albergo, Nicholas M. Boffi, Eric Vanden-Eijnden, and Saining Xie. Sit: Exploring flow and diffusion-based generative models with scalable interpolant transformers, 2024.[4] Google DeepMind. Gemini 2.5: Pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities, 2025.[5] Jin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, and Junyang Lin. Qwen2.5-omni technical report, 2025.[6] Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, Y. K. Li, Y. Wu, and Daya Guo. Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024.[7] An Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, Chujie Zheng, Dayiheng Liu, Fan Zhou, Fei Huang, Feng Hu, Hao Ge, Haoran Wei, Huan Lin, Jialong Tang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jing Zhou, Jingren Zhou, Junyang Lin, Kai Dang, Keqin Bao, Kexin Yang, Le Yu, Lianghao Deng, Mei Li, Mingfeng Xue, Mingze Li, Pei Zhang, Peng Wang, Qin Zhu, Rui Men, Ruize Gao, Shixuan Liu, Shuang Luo, Tianhao Li, Tianyi Tang, Wenbiao Yin, Xingzhang Ren, Xinyu Wang, Xinyu Zhang, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yinger Zhang, Yu Wan, Yuqiong Liu, Zekun Wang, Zeyu Cui, Zhenru Zhang, Zhipeng Zhou, and Zihan Qiu. Qwen3 technical report, 2025.[8] Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, and Jordi Pons. Stable audio open, 2024.[9] Chenyu Yang, Shuai Wang, Hangting Chen, Wei Tan, Jianwei Yu, and Haizhou Li. Songbloom: Coherent song generation via interleaved autoregressive sketching and diffusion refinement, 2025.[10] Jingyuan Liu, Jianlin Su, Xingcheng Yao, Zhejun Jiang, Guokun Lai, Yulun Du, Yidao Qin, Weixin Xu, Enzhe Lu, Junjie Yan, Yanru Chen, Huabin Zheng, Yibo Liu, Shaowei Liu, Bohong Yin, Weiran He, Han Zhu, Yuzhi Wang, Jianzhou Wang, Mengnan Dong, Zheng Zhang, Yongsheng Kang, Hao Zhang, Xinran Xu, Yutao Zhang, Yuxin Wu, Xinyu Zhou, and Zhilin Yang. Muon is scalable for llm training, 2025.[11] Fabian Mentzer, David Minnen, Eirikur Agustsson, and Michael Tschannen. Finite scalar quantization: Vq-vae made simple, 2023.[12] Tianwei Yin, Michaël Gharbi, Taesung Park, Richard Zhang, Eli Shechtman, Fredo Durand, and William T. Freeman. Improved distribution matching distillation for fast image synthesis, 2024.[13] Dongyang Liu, Peng Gao, David Liu, Ruoyi Du, Zhen Li, Qilong Wu, Xin Jin, Sihan Cao, Shifeng Zhang, Hongsheng Li, and Steven Hoi. Decoupled dmd: Cfg augmentation as the spear, distribution matching as the shield, 2025.[14] Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, and Jordi Pons. Fast text-to-audio generation with adversarial post-training, 2025.[15] Kaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, and Ming-Yu Liu. Diffusionnft: Online diffusion reinforcement with forward process, 2025.[16] Andros Tjandra, Yi-Chiao Wu, Baishan Guo, John Hoffman, Brian Ellis, Apoorv Vyas, Bowen Shi, Sanyuan Chen, Matt Le, Nick Zacharov, Carleigh Wood, Ann Lee, and Wei-Ning Hsu. Meta audiobox aesthetics: Unified automatic quality assessment for speech, music, and sound, 2025.[17] Jixun Yao, Guobin Ma, Huixin Xue, Huakang Chen, Chunbo Hao, Yuepeng Jiang, Haohe Liu, Ruibin Yuan, Jin Xu, Wei Xue, Hao Liu, and Lei Xie. Songeval: A benchmark dataset for song aesthetics evaluation, 2025.[18] Ruibin Yuan, Hanfeng Lin, Shuyue Guo, and Others. Yue: Scaling open foundation models for long-form music generation, 2025.[19] Shun Lei, Yaoxun Xu, Zhiwei Lin, Huaicheng Zhang, Wei Tan, Hangting Chen, Jianwei Yu, Yixuan Zhang, Chenyu Yang, Haina Zhu, Shuai Wang, Zhiyong Wu, and Dong Yu. Levo: High-quality song generation with multi-preference alignment, 2025.[20] Yuepeng Jiang, Huakang Chen, Ziqian Ning, Jixun Yao, Zerui Han, Di Wu, Meng Meng, Jian Luan, Zhonghua Fu, and Lei Xie. Diffrhythm 2: Efficient and high fidelity song generation via block flow matching, 2025.[21] Dongchao Yang, Yuxin Xie, Yuguo Yin, Zheyu Wang, Xiaoyu Yi, Gongxi Zhu, Xiaolong Weng, Zihan Xiong, Yingzhe Ma, Dading Cong, Jingliang Liu, Zihang Huang, Jinghan Ru, Rongjie Huang, Haoran Wan, Peixu Wang, Kuoxi Yu, Helin Wang, Liming Liang, Xianwei Zhuang, Yuanyuan Wang, Dingdong, Wang, Haohan Guo, Junjie Cao, Zeqian Ju, Songxiang Liu, Yuewen Cao, Heming Weng, and Yuexian Zou. Heartmula: A family of open sourced music foundation models, 2026.