直到现在依旧是最好的 AI 歌声合成器：Synthesizer V Studio 2 Pro 更新评测

在 NAMM 2025 上，Dreamtonics 宣布了这款旗舰产品的首次重大更新：Synthesizer V Studio 2 Pro。

五年后的续作与升级

2020 年 6 月，由国人开发者华侃如创办的 Dreamtonics 发布了他们旗下的旗舰产品 Synthesizer V Studio。五年时间里，这款软件从机械拼接走向 AI 合成，陆续发布了跨语言合成、声线、AI 重录等多项功能，真正地将歌声创作战场从录音室搬到了笔记本电脑里，将“听”变成“看”，用 MIDI 配合作画一样的流程还原超高人类声音品质和音色。

而在五年后，在 NAMM 2025 上，Dreamtonics 宣布了这款旗舰产品的首次重大更新：Synthesizer V Studio 2 Pro。让我们看看 Synthesizer V Studio 2 Pro 究竟带来了什么不一样的功能吧！

我见过的最好的人声转 MIDI 功能！

我从未想过如此方便的歌声转 MIDI 操作！

要是想把一段音频转换成可以编辑的音轨或 MIDI 文件，只需要将音轨拖拽进 Synthesizer V Studio 2 Pro 中，然后右键选择歌声片段，点击“从音频中提取音符”，点击确定后，我得到了这个识别率前所未有的高，并且可以编辑任何发音、音色以及节奏的MIDI轨道。

而且，在与 DAW 联动的 ARA 模式下，歌声转 MIDI 功能可以直接应用于与音频片段关联的音符组；另一方面，如果我想为电子音乐添加质感和细节，可以非常快速地调用并调整里面的 AI 人声模型，这些操作都可以在不离开 DAW 环境的情况下全部完成。不夸张的说，Synthesizer V Studio 2 Pro 搭载的歌声转 MIDI 功能比 Ableton Live 更好，不仅因为它能正确识别绝大部分歌词并且直接填入正确的发音，更因为它就是为人声合成而生的，转换后就可以立即用于歌声合成，并根据需要进行微调，或是更换歌手演唱，这让我十分惊讶，歌曲中的人声的“试验”成本被大幅降低了。

而这一切只需要 20 秒！快！这就是我对 Synthesizer V Studio 2 Pro 的第一印象！

模型和算法的双重优化，运行更快更流畅

和官方宣传的一致，我在短暂体验过程中能够清晰感受到 Synthesizer V Studio 2 Pro 在渲染性能方面表现极其出色：得益于模型本身的算法优化和新的多线程核心调用的优化与支持，现在的处理速度已经大幅提高！官方宣传其合成速度提升了 300。

而我在基于 M2 Pro 的 Mac 上进行了大部分测试，任何编辑后的重新渲染几乎都是瞬间完成的。以至于你可以用肉眼看到新生成的波形会在你的操作之后迅速更新。这点特别重要，一代的 Synthesizer V Studio Pro 在制作复杂的多轨工程或者是长时序作品时，在做出修改或试听时常会经历短暂的渲染等待时间，这些等待在二代里几乎全部消失了，所有的改动和试听都能够立即得到视觉与听觉的反馈，导出或生成复杂 Vocal 时的等待时间大幅减少，实时编辑也更加顺畅，极大地提升了工作的流畅度。

这毫无疑问能够营造更流畅的创作“心流”，而不必被短暂的渲染和回放卡顿而打断思路。 Synthesizer V Studio Pro 的离线渲染优势也得到了完全的保留，完全依赖 CPU，无需专用 GPU 或云服务，笔记本电脑也可以是随时创作的舞台。

无缝运行 Synthesizer V Studio 2 Pro 的 ARA 功能

长期以来 Dreamtonics 都在提升软件和 DAW 的协作体验，在最近发布的 2.1.0 版本更新中，Synthesizer V Studio 2 Pro 为长期以来呼声极高的 Pro Tools 引入了完整的 ARA 支持。我们可以看到当你在录制完人声之后，只需要在音轨头页面右键选中对应的 Synthesizer V Studio ARA 按钮，就可以快速将录制好的文件直接导入到 Synthesizer V Studio 2 Pro 的主页之中，而剩下的操作和独立版几乎一致：

右键选中音频文件之后将识别其 MIDI 信息，然后根据需求来创造和声或者不同音色的叠唱。

整个过程异常的顺利和丝滑。再也不需要反复地导出然后拖入了，而是可以实时地在 DAW 中看到你的修改结果。

像是演奏乐器一样来调教虚拟歌手的动态和唱法并且写入 Automation

看到右边的这些唱法旋钮了吗？Synthesizer V Studio 2 Pro 支持在播放的同时修改这些唱法。唱法功能可以改变声音的表现力、质感、发音和氛围。而且更重要的是整个过程中的调整都是支持 Automation 自动化写入的！

需要注意的是唱法功能不仅影响音色，还影响发音和音高曲线，会有细微差别。

当点击每一种唱法右上角的加号时，你会发现每个唱法的音高、音色和发音都可以调整。你可以完全保留音高和发音不动，而只是改变音色～需要注意的是，不同版本的声库在当前的页面上，声音的细节表现会有些许差别，尝试二代声库会给你更多惊喜！同时让我们看向下方的调制推杆：

张力：控制人声的张力。降低它会导致声音变弱，而提高它会产生更紧促的声音。

气声：控制人声的气息感大小。

发声：在默认（最大）设置时，会产生正常发声效果。降低此值会逐渐产生类似耳语 ASMR 的高频细节增强效果。

性别：调整人声的共振峰（共鸣）。

声区转换：调整人声的“声区”。音高保持不变时，增加它会让人声听起来像是在更高的声区（更接近头声），而降低它则会产生像在更低声区（更接近胸腔共鸣）的声音。

赛博世界【不满意就再唱一条】的 AI 重录功能

看到右边 AI 重录的四个按钮了吗？在 Synthesizer V Studio 一代上，你只能看到重新生成音高和音色的按钮，而且当你需要修改的时候你必须挨个点击来重新生成。而在 Synthesizer V Studio 2 Pro 中添加了新的音素时值调整，同时你也可以使用全部重录功能来一键修改所有的元素来重新生成结果。

而每一次点击全部按钮我们都会得到一个截然不同的咬字和不同情绪的结果，可用性也非常高！同时由于上文中提到的多核调用带来的速度优化，这一切依旧无需等待，一切都是即点即用的。同时上方的 XY 面板也非常有意思，其中：

生动（左上）：会生成比默认更具表现力的歌唱模式。比如颤音会更深，整体表现更夸张。
精调（右上）：会生成更贴近大众喜好的歌唱模式。歌声稳定且表现优秀，但不适合生成多样化的演唱风格。
即兴（右下）：会生成变化剧烈的歌唱模式。由于减少了音高校正等内部处理，可以生成更像真人的演唱模式，但因此也更容易出现跑调的情况。
机械（左下)：会生成平稳的歌唱模式。音高曲线保持一致，仅在音符交界处出现细微的波动。但是需要注意的是此模式的音高曲线不会受到 AI 重录的影响。

所以如你所见的，这是一种非常感性但是又很实用的调整人声表演的方法，更重要的是这一切都是可以实时预览的！

如同真人般控制每一个吐字时机的超级功能：音素时值调整！

我们在日常评价某一些唱功极好的歌手时，总会说到其咬字的韵律和时机总是非常巧妙的和伴奏发生了奇妙的关系。

在传统的 AI 合成人声工具中，我们只能在固定时间框架内机械地调整音符发音。如果有某些发音的时长超出了音符的时间范围，我们往往只能再额外绘制一个新的音符来控制。而这其实和真实的演唱是不一致的。

而音素时值功能就解决了这个问题，这个功能可以让我们既可以精准的控制每一个节拍的精确吐字，还可以让其连接的更有人味！

让我们看向绿色箭头：音素时值按钮将会在左下角随时等待点击呼出。

而红色箭头则表明实际发生的情况：“why”的“w”音会提前发出，这甚至给你一种提前为“w”音收拢嘴唇的听觉提示，而“you”这个词的"uw"音可缩短发音，使得后续“said”的“s”齿音更有气息感，发音更为轻松。

而在官方的说明书中，也提到了上述的技巧：之前的版本中，部分用户会通过拆分音符并仅输入单个音素的方式来实现音素时长的精确控制。

而现在，新模型能生成比以往更符合音乐语境的音素时长。所以以后我们将不用麻烦的拆分音符来控制音素的发音啦！

如果你善用这个功能，那么你可以创造出完美的吐字时机，而且可以随时使用上文中介绍的 AI 重录功能调整任何韵律。

说唱模式和更精细的调整

在音符面板中，有一个切换歌唱和说唱模式的按钮。在切换之后你会发现选中的音符变成了椭圆形，意味着此时这些音符被切换成了说唱模式。

同时你将可以调整整个说唱过程中的语调。这在屏幕中会以箭头的方式呈现出来！想要情绪化化处理某一个字或者整体情绪的爆发？只需要稍作编辑你马上就能获得！

你还可以从四种声调和一种轻声调中进行选择，优雅地调整中文的声调。

智能音高控制让修音变成过去式

现在 Synthesizer V Studio 2 Pro 的音高编辑不再单纯是基于模型生成的声音结果改变音高，而是在生成阶段就更自然地渲染出你想要的曲线，任何转音，任何语调甚至结尾的释放方式！

还记得在一代中我们已经可以对音高曲线进行详细编辑了，但在二代中，直接在曲线上添加和编辑音高控制点，这一流程得到了更加显著的改进。

一旦在曲线上手动放置了线段和点，引擎就会确保合成的音高曲线尽可能地通过这些点和线段，同时仍能生成自然的结果。这次的更新对音符之间的音高过渡和连续的颤音提供了强大的控制能力，与一代相比，工作流程和生成结果都有了极大的提升。

而在实测中你也会觉得 Synthesizer V Studio 2 Pro 的操作非常的有意思，因为在生成阶段控制音高会大幅度降低声音的不自然感，可以避免出现所谓的【修出电音】，同时也满足要求更高的用户所要的结果。

嘴张大点唱歌吧！

Synthesizer V Studio 2 Pro 还有一个新功能就是控制歌手的开口程度。在可以选择的参数中，我们可以看到现在新增了一个口型参数，当参数在正值，歌手会有明显将嘴张开唱歌的听感，而当参数在负值时，并不是一个简单的 Low Pass 滤波,而是你可以听到歌手明显有将嘴闭上甚至有一些嘟嘟嘴的感觉。我们相信这个功能对实现拟人化的人声会起到至关重要的作用。

结论

非常好！Synthesizer V Studio 2 Pro 这次 5 年之后的更新非常有诚意。只需要少量的几次练习，就能够生成超高质量水准的主 Vocal。这本身就是一件了不起的事情！

更重要的是我们在生成的时候可以实时得到结果，这就像是在你的面前站着一个歌手听从你的需求一样。

虽然我曾经听过更高质量的生成人声模型。但是我相信能做到如此精细的修改操作和人性化处理的 Synthesizer V Studio 2 Pro 在 2025 年没有任何替代品！因为人声中所谓的人情味可以分解为一些动态变化的元素，当一个软件可以全面地调整每一个段落和字词的唱法气息和情绪，同时加入了大量智能优化的工具让你能够快速得到优质的结果，那么这个软件就已经变成了真正意义上的生产力。

Synthesizer V Studio 2 Pro 是一项令人惊叹的技术，整体的表现依旧是这个世界上超一流的存在！而且价格上也可以说是非常优惠。所以，我们愿意给出很高的评价。

第 233 期电子杂志