文字转语音横评：Flyc vs 剪映 vs Speaker Text

文字转语音（TTS）工具是自媒体创作者的刚需。但市面上的免费方案要么限制时长，要么导出流程繁琐。我们横评了 Flyc、剪映和 Speaker Text 三款工具，看看哪个才是真正省心的选择。如果你不仅需要配音，还想直接生成视频，文末还有 Fliki 一站式方案的对比。

快速结论

Speaker Text 浏览器插件凭借免费、支持长文本（10 分钟+）、一键本地保存的优势胜出。但如果你的最终目标不仅是音频，而是带配音的完整视频，那直接用 Fliki 从文字生成视频会更高效。

工具	长文本支持	导出方式	成本
Flyc	限制 1 分钟	需分段下载再合成	超时长收费
剪映	支持	必须生成视频后导出	部分音色需 VIP
Speaker Text	支持 (10分钟+)	直接保存到本地	免费

Flyc 最大的问题是单次处理上限仅为 1 分钟。超过后会将文本强制切分为多个片段，你需要逐段下载再手动合成 — 这个后期拼接过程非常繁琐。

对于只需要一两句话配音的场景，Flyc 还凑合。但任何超过 1 分钟的内容，它基本不可用。

剪映的文字转语音功能音色确实丰富，听感也不错。但存在两个痛点：

如果你本来就在剪映里做视频，这个问题不大。但如果只是想快速生成一段配音音频，剪映的流程过于复杂了。

Speaker Text 是一个 Chrome 浏览器插件，安装过程非常简单 — 在 Chrome 应用商店搜索即可添加。

安装后建议将插件固定到工具栏，方便随时调用。它基于微软的 TTS 语音库，但做了优化处理，解决了微软原版在长文本处理时经常出现的解析错误。

核心优势：

对于需要处理长篇文稿的自媒体创作者来说，Speaker Text 确实是目前最省心的免费文字转语音方案。

虽然 Speaker Text 在「纯文字转语音」领域表现出色，但所有这类工具都有一个共同的局限：它们只输出音频文件。

如果你的最终目标是制作一个带配音的视频，你还需要：

整个流程至少 30-60 分钟。

Fliki 把上述所有步骤合并为一个流程：

如果你每周只做 1-2 个视频，传统方案还能接受。但如果你需要批量产出内容，Fliki 的效率优势是碾压级的。

Speaker Text 适合：

Fliki 适合：

本文基于 2026 年 3 月的实测数据撰写。各工具功能和定价可能随时更新，请以官网为准。