Whisp：把“说话”变成“输入”，一个更克制的桌面语音输入工具

·(已编辑)· / , ·

阅读

这篇文章上次修改于，可能部分内容已经不适用，如有疑问可询问作者。

阅读此文章之前，你可能需要首先阅读以下的文章才能更好的理解上下文。

三款独立开发工具：从语音输入到片场备份

关键洞察

AI · GEN

如果你经常写文档、回消息、记灵感，应该都有过同一种痛点：脑子比手快。想法已经成型了，手指却还在键盘上追赶。
Whisp 这个项目，就是冲着这个问题去的。

它不是会议纪要平台，也不是一个大而全的 AI 助手，而是一个非常聚焦的桌面工具：按一下快捷键开始说话，再按一下结束，文字自动转写并粘贴到当前光标位置。

换句话说，Whisp 想做的不是“让你多一个录音软件”，而是“让语音直接成为输入法”。

从项目说明来看，Whisp 的定位非常明确：说话即输入，停下即粘贴。它默认接入 OpenAI，也支持 OpenAI 兼容转写 API，支持自定义模型，核心流程是“一键录音、一键转写、自动粘贴”。这意味着它不是把语音先丢进一个独立工作台，再让你复制粘贴，而是直接接入你已经在使用的任何应用：编辑器、聊天框、文档、表单、笔记软件都可以。
这一点决定了它的产品气质：轻、快、少打扰。

Whisp 的功能并不花哨，但都很实用：

全局热键启停录音：不需要切窗口，不需要点按钮。
自动粘贴到当前光标：减少复制、切换、确认这些细碎动作。
模型预置 + 自定义模型：默认是 OpenAI，也兼容其他 OpenAI-style 接口。
波形浮窗：录音时有极简可视反馈，不会让人怀疑“到底录上了没有”。
本地历史记录：转写结果和音频都能留存，后续可重试。
托盘常驻：更像系统能力，而不是一个必须摆在桌面上的大应用。

如果从产品视角看，Whisp 最聪明的一点，是它没有试图把“语音输入”做成一个复杂工作流，而是把它压缩成一个极短路径：

触发 → 说话 → 停止 → 转写 → 粘贴

这条链路一旦打通，用户几乎不需要重新学习习惯。
你不是去“使用一个语音软件”，而是在原本的写作、办公、聊天动作里，多了一个更自然的入口。

同类产品都在做什么？

如果把 Whisp 放进更大的市场里看，你会发现“语音转文字”其实已经分化成了三条路线。

第一类，是 系统级免费方案。
比如 Apple 的 macOS Dictation 和 Microsoft 的 Windows Voice Typing。
这类产品的优势是“零安装、零门槛、免费”，但问题也很明显：可定制度有限，模型不可选，历史管理弱，和第三方 AI 能力的连接也比较少。

第二类，是 国外的 AI 语音输入效率工具。
这类产品已经不是单纯听写，而是把“转写 + 润色 + 命令编辑 + 上下文理解”打包成一个完整体验。

比较典型的有：

Wispr Flow：有免费版，Pro 年付约 $12/user/mo、月付约 $15/user/mo。强调跨平台、命令编辑、团队协作。
Superwhisper：免费版可用，Pro 提供月付 $8.49、年付 $84.99、终身 $249.99。支持本地和云模型、自带多种 AI 模式。
Aqua Voice：Starter 免费 1,000 words，Pro 年付约 $8/mo，Team 年付约 $12/mo。更强调上下文理解和“边说边改”的体验。
MacWhisper：更偏本地离线转写，Mac 用户很多，免费版可用，Pro 功能更完整，具体售价以官网实时页为准。

第三类，是 国内输入法/语音输入路线。
比如微信输入法、讯飞输入法、搜狗输入法、百度输入法。
它们通常是基础免费，但部分带会员或订阅增值能力。优势是中文、方言、移动端生态非常强；不足是桌面端“全局热键 + 任意应用自动粘贴 + 自定义 ASR provider”这条链路，往往没有做得这么开放。

Whisp 和这些产品最大的差别是什么？

我觉得 Whisp 的差别不在“它也能语音转文字”，而在于它做了一个很清晰的取舍：

它不像 Wispr Flow、Aqua Voice 那样，追求“AI 原生写作助手”的大一统体验。
它不像 MacWhisper 那样，优先把重点放在本地离线模型和长音视频转写。
它也不像国内输入法那样，把语音输入嵌进一个庞大的输入法生态。

Whisp 更像是一个 桌面级、极简、可替换后端的语音输入壳层。

它的价值主要在这几件事：

足够轻：只专注“说完就贴进去”。
足够开放：不是绑死一家模型或一家云服务。
足够工程化：有历史记录、音频留存、重试能力，不是一次性玩具。
足够跨平台：基于 Tauri，目标是 macOS / Windows / Linux。
足够克制：没有把产品做成“什么都想做”。

这也意味着它的边界同样很清楚：
如果用户要的是“本地离线隐私优先”，那 MacWhisper 这类方案更强；
如果用户要的是“上下文理解、自动改写、命令式编辑”，那 Aqua Voice、Superwhisper、Wispr Flow 会更成熟；
如果用户只是想免费用、而且系统自带就够，那 Apple / Windows 自带听写已经满足一部分需求。

但如果用户想要的是：

在任意应用里说话输入；
自己掌控 API 和模型；
不被订阅绑死；
界面足够安静；
工作流尽量短；

那 Whisp 的定位其实很有吸引力。

这个项目的思路，值得借鉴在哪？

如果只看一句话，我会这样总结 Whisp 的产品思路：

不要重做“文档工具”，而是重做“输入动作”。

这是很多效率工具容易忽略的一点。
很多团队会把“语音转文字”做成一个独立页面、一个独立场景、一个独立系统；而 Whisp 选择把自己藏起来，变成一个几乎无感的能力层。

从产品设计上，它抓住了四个关键点：

低触发成本：一个快捷键，不改变用户习惯。
低反馈焦虑：波形浮窗、提示音、状态切换，让用户知道系统在工作。
低迁移成本：文字直接进入当前光标位置，不用二次搬运。
低锁定风险：支持 OpenAI-compatible API，自定义模型和 Base URL。

这类产品真正比拼的，不是谁功能多，而是谁让用户少想一步、少切一次、少点一下。
在这点上，Whisp 的方向是对的。

如果后面还要继续迭代，我觉得可以考虑的方向也很明确：

本地离线模型支持；
实时流式转写；
术语词典 / 自定义纠错；
app-specific prompt；
多语言和说话人区分的进一步打磨；
面向开发者、客服、写作者的场景 preset。

一句话结尾

Whisp 不是一个“功能很多”的产品，恰恰相反，它的价值在于功能足够少，但主链路足够顺。
在 AI 工具越来越复杂的今天，这种克制本身就是竞争力。

我们和他们的差别

对 Wispr Flow / Aqua Voice / Superwhisper：我们更轻、更开放、BYO API，更像“语音输入基础设施”；它们更强在 AI 改写、上下文理解、团队能力。
对 MacWhisper：我们更偏跨平台、云端可替换；它更强在 Mac 本地离线和长文件转写。
对 Apple / Windows 自带听写：我们多了模型/服务商可控、历史记录、音频留存、重试和更产品化的输入闭环。
对国内输入法：我们不是输入法生态，而是桌面任意应用里的全局语音输入工具；它们更强在中文词库、方言、移动端入口。
一句话定位：Whisp 不是“另一个 AI 写作助手”，而是“一个可替换转写后端的桌面语音输入壳”。

资料源

Whisp 仓库：GitHub
Wispr Flow：Pricing
Superwhisper：官网 / Pro 说明
Aqua Voice：官网 / FAQ
MacWhisper：官网 / Dictation
Apple：Dictation on Mac
Microsoft：Voice Typing on Windows
微信输入法：App Store
讯飞输入法：App Store
搜狗输入法：App Store
百度输入法：App Store