见山之后 Beyond the Mountain

Uncategorized / Long ago

我开始用 AI 给自己“提前配音”了

以前我剪视频，总觉得左右手在互相打架——脚本明明写好了，声音却没跟上，画面就像断了线的风筝，怎么拽都拽不回来。要是先把配音录了吧，素材又堆成了山，画面还没拼完，脚本可能已经改了好几版，结果同一句话得反反复复录，录到自己都烦了。录完皱着眉头听回放，总觉得这里语气不对，那里停顿别扭，节奏老是踩不到点上。

特别是做叙事类视频的时候，声音早就不只是声音了，甚至有的时候是根据声音找素材。

所以有没有什么方式，可以提前预设一下配音呢？现在AI这么强大了，能否先让 AI 帮我生成了一个“临时旁白”，这样粗剪视频的时候，就能让整个视频的节奏具体一些。

没错，就是TTS，最近刚好尝试了Qwen3-TTS的声音克隆，效果还是很不错的。

于是现在的新 workflow 慢慢变成了：

先写脚本，然后用 Qwen3-TTS 直接生成配音，再把音频丢进剪辑软件里，根据声音去卡节奏和画面，最后再自己正式录制一遍。

现在的TTS早就不只是念稿子了。它带着情绪，懂得停顿，甚至能在你剪辑时，把那些原本只存在于脑中的情绪、节奏和镜头切换，一帧帧“长”出来。

有时AI配音里一个意外的停顿，反而会猛地撞开你剪辑的新视角。

以前总担心AI会让创作变得机械。可真正用起来才发现，它更像一个“预演工具”——不会取代你，而是先替你跑通整条情绪的脉络。

等到你真正录人声的时候，反而更容易进入状态，因为脑海里已有一张清晰的情绪地图。

最让我震惊的是，它真的复刻了我的声音。我本以为声音克隆需要海量数据，没想到2026年的今天，几秒钟的音频就能捕捉到90%的相似度。

实际测试时，那些语气、停顿，甚至我自己都没太注意的说话习惯，它都学得很像。

当然，仔细听还是能分辨出来。但用在视频粗剪阶段，已经绰绰有余了。

有时播着播着，我会突然恍惚——这到底是AI，还是我自己在说话？

这种感觉，确实有点魔幻。

不过相比于“像不像”，真正让我安心的，反而是另一件事：它可以完全本地运行。

因为现在很多在线声音克隆工具，本质上都需要上传声音数据。但声音这种东西，其实比照片更私人。你的语气、停顿、说话习惯，本身就已经是“另一个你”了。

所以 Qwen3-TTS 让我觉得最惊艳的点，就是它不需要把这些东西交给云端，并且只需要一个1.7B的模型就能复刻，这就意味着基本上消费级电脑都可以很流畅的运行。

至少现在的我，已经开始慢慢离不开这种 workflow 了，这一次我去新西兰的旅拍vlog粗剪时，就是用的这套能力。它不是在替代创作。更像是在帮创作者，把脑子里的东西，更顺畅地表达出来。

为了搭配这个小模型的使用，我还vibecoding了一个macos客户端，有兴趣的小伙伴也可以关注一下，给个star哦～👉 https://github.com/YueYongDev/voicecraft