Whispering:免费开源的语音转文字应用|附本地部署指南
Whispering 是一款完全开源的语音转文字应用,主打本地优先和数据透明的理念。只需按下快捷键,说话,就能获得准确的文字转录,完全免费且开源。
💭 站长测评
作为一个对语音转文字功能极度执着的用户,我已经先后购买了科大讯飞录音笔、智能办公本以及汉王墨水屏平板等多款硬件设备,但他们都仅仅限于设备内录音转录,不能导入录音转文字。今天早上起床时(其实是找实时资讯的时候…)偶然发现了这款 Whispering 应用,立即被其开源理念和本地优先的特性所吸引,于是进行了详细的测试体验。
相比于传统的硬件设备,Whispering 最大的优势在于:
- 成本透明:无需购买昂贵硬件,API 费用直接可控
 - 数据安全:完全开源,音频处理过程一目了然
 - 功能灵活:支持本地/云端双模式,可按需选择
 - 持续更新:开源社区驱动,功能不断完善
 
对于已经在语音转文字领域投入不少的用户来说,Whispering 提供了一个更加经济、透明且功能强大的软件解决方案。现目前此应用只有英文版本,但模型选择并不限制,因此可以使用它来转录中文音频。
📖 项目背景
作者在使用语音转录工具多年后发现,市面上的产品虽然功能“几乎“够用,但都是闭源的黑盒子,即使那些声称“本地化“或“设备端处理“的工具,用户仍然无法确定音频数据到底去了哪里。
因此,Whispering 应运而生。它具有以下特点:
- 完全开源透明 - 代码公开,可审计
 - 本地优先 - 数据存储在本地设备上
 - 无中间商 - 音频直接从设备发送到选择的服务提供商
 - 无供应商锁定 - 可自由选择转录服务
 - 成本极低 - 直接向API提供商付费,无需额外订阅
 
🎯 核心功能
基础转录功能
- 快捷键激活 - 按下自定义快捷键即可开始录音
 - 实时转录 - 说话后快速获得文字结果
 - 多平台支持 - 支持 macOS、Windows、Linux 和 Web 浏览器
 - 多语言支持 - 支持多种输出语言
 
高级特性
🎙️ 语音活动检测 (VAD)
支持真正的免手持操作模式,无需一直按住按钮,通过语音检测自动开始和停止录音。
🤖 AI 智能转换
内置可定制的 AI 转换功能,可以:
- 自动修正语法错误
 - 翻译不同语言
 - 重新格式化文本
 - 使用自定义提示词进行个性化处理
 - 支持任何 LLM 提供商(OpenAI GPT-4、Anthropic Claude、Google Gemini 等)
 
⚙️ 多服务支持
转录服务选择:
- 云端服务:OpenAI Whisper、Groq、ElevenLabs 等
 - 本地服务:Speaches、owhisper 等(完全离线,无需网络)
 
AI 转换服务:
- OpenAI GPT 系列
 - Anthropic Claude
 - Google Gemini
 - Groq Llama 模型
 - 或任何兼容的 LLM 服务
 
💰 成本对比
与传统订阅制工具相比,Whispering 的成本优势明显:
| 服务 | 每小时费用 | 轻度使用(20分钟/天) | 中度使用(1小时/天) | 重度使用(3小时/天) | 传统工具 | 
|---|---|---|---|---|---|
Groq distil-whisper-large-v3-en | $0.02 | $0.20/月 | $0.60/月 | $1.80/月 | $15-30/月 | 
Groq whisper-large-v3-turbo | $0.04 | $0.40/月 | $1.20/月 | $3.60/月 | $15-30/月 | 
OpenAI gpt-4o-mini-transcribe | $0.18 | $1.80/月 | $5.40/月 | $16.20/月 | $15-30/月 | 
| 本地处理 | $0.00 | $0.00/月 | $0.00/月 | $0.00/月 | $15-30/月 | 
🔒 隐私和数据安全
Whispering 采用极其严格的隐私保护措施:
本地数据存储
- 语音录音和转录文本存储在 IndexedDB 中
 - 所有用户数据保存在本地设备上
 - 设置和配置信息完全本地化
 
数据传输透明
- 
转录服务:只有在需要转录时,音频才会发送到你选择的服务商
- 可选择外部服务(使用你自己的 API 密钥)
 - 可选择本地服务(如 Speaches,完全离线)
 
 - 
AI 转换服务(可选):
- 转录后的文本可发送到选择的 LLM 进行后处理
 - 使用你自己的 API 密钥
 - 转换配置和提示词存储在本地
 
 - 
无中间服务器:音频和文本直接从你的设备发送到 API 提供商
 
匿名分析
- 使用开源的 Aptabase 进行匿名事件记录
 - 不收集任何个人数据
 - 可在设置中完全关闭
 - 所有记录的事件都可在源代码中查看
 
🚀 快速开始
安装步骤
- 
下载应用
- 访问 GitHub Releases 下载对应平台版本
 - 或在浏览器中试用:whispering.epicenter.so
 
 - 
获取 API 密钥
- 推荐使用 Groq(速度快、准确度高、免费额度慷慨、价格低至 $0.02/小时)
 - 访问 console.groq.com/keys 注册并创建 API 密钥
 - 无需信用卡即可开始使用免费额度
 
 - 
配置和测试
- 打开 Whispering
 - 进入设置 → 转录设置
 - 选择 Groq 并粘贴 API 密钥
 - 点击录音按钮或按下 
Cmd+Shift+;说 “Testing Whispering” - 转录文本会自动复制到剪贴板
 
 
🏠 本地部署完全指南
如果你希望实现完全离线的语音转录,不依赖任何外部 API 服务,可以选择本地部署 Speaches 转录服务。这样既能保证最高级别的隐私安全,又能避免任何网络费用。
前置依赖:安装 FFmpeg
Whispering 需要 FFmpeg 来处理音频和视频文件格式转换,也支持使用本地的 Whisper C++转写文字,这里我们选择使用 Speaches 转写。

Windows 安装方式:
选项 1:自动安装(推荐)
- 点击应用内的“Install FFmpeg“按钮,Whispering 会自动下载并配置 FFmpeg
 
选项 2:手动安装
- 从官方网站下载 FFmpeg:Download FFmpeg for Windows
 - 选择 “release builds” → “ffmpeg-release-essentials.zip”
 - 解压缩到 
C:\ffmpeg目录 - 将 
C:\ffmpeg\bin添加到系统 PATH 环境变量 - 重启 Whispering 应用使更改生效
 
验证安装
# 验证 FFmpeg 是否正确安装
ffmpeg -version
使用 Docker 部署 Speaches 服务
第一步:下载配置文件
根据你的硬件配置选择合适的部署方式:
# 下载 Docker Compose 配置文件
curl --silent --remote-name https://raw.githubusercontent.com/speaches-ai/speaches/master/compose.yaml
# 如果有 NVIDIA GPU,下载 CUDA 支持配置
curl --silent --remote-name https://raw.githubusercontent.com/speaches-ai/speaches/master/compose.cuda.yaml
# 设置使用 CUDA 配置(有 GPU 的情况下)
export COMPOSE_FILE=compose.cuda.yaml
第二步:启动服务
# 启动 Speaches 服务(后台运行)
docker compose up --detach
注意:首次启动时,Docker 需要下载 Whisper 模型文件,可能需要等待几分钟时间。
第三步:验证服务状态
# 设置本地服务地址
export SPEACHES_BASE_URL="http://localhost:8000"
# 查看可用模型
curl "$SPEACHES_BASE_URL/v1/registry?task=automatic-speech-recognition"
# 测试服务是否正常运行,下载模型(这里下载的是Systran/faster-whisper-large-v3)
curl "$SPEACHES_BASE_URL/v1/models/Systran/faster-whisper-large-v3"
SPEACHES的更多模型和使用方法详见:Model Discovery - Speaches Documentation。中文的语音转文字模型的选择很多,这里选择的第一个。

等待几分钟后,成功返回的模型信息示例:
{
  "id": "Systran/faster-whisper-large-v3",
  "created": 1700732060,
  "object": "model",
  "owned_by": "Systran",
  "language": ["en", "zh", "de", "es", "ru", "ko", "fr", "ja", "pt", "tr", ...],
  "task": "automatic-speech-recognition"
}
配置 Whispering 使用本地服务
第一步:选择转录服务

第二步:配置服务参数

配置参数:
- API Base URL: 
http://api_base_url:8000 - 模型名称: 
Systran/faster-whisper-large-v3 
第三步:测试转录功能

速度很快,还没反应过来就已经处理好了(GPU)。

可选:文本后处理优化
基础的本地转录可能缺少标点符号和段落分割。你可以配置 AI 转换服务来优化转录结果:

可配置的后处理功能:
- 添加标点符号
 - 段落分割
 - 语法纠错
 - 格式优化
 - 多语言翻译
 
本地部署的优势
✅ 完全离线:无需网络连接,保证数据隐私
✅ 零费用:一次部署,长期使用无额外成本
✅ 高性能:本地处理速度快,无网络延迟
✅ 可定制:可以选择不同的 Whisper 模型版本
✅ 数据安全:音频文件不离开本地设备
🛠️ 技术特性
现代技术栈
- 前端:Svelte 5 + SvelteKit
 - 桌面框架:Tauri
 - 语言:TypeScript + Rust
 - 数据库:IndexedDB (通过 Dexie.js)
 - UI 组件:shadcn-svelte + TailwindCSS
 - 状态管理:TanStack Query
 
性能优化
- 轻量级:应用大小仅约 22MB
 - 快速启动:即开即用,无需等待
 - 资源节约:最小化系统资源占用
 - 高可靠性:使用 Result 类型进行错误处理
 
架构设计
采用清晰的三层架构,实现 97% 的代码复用:
- 服务层:平台无关的业务逻辑
 - 查询层:响应式数据管理和缓存
 - UI 层:干净的 Svelte 5 组件
 
🔧 高级配置
自定义快捷键
可以在设置中配置个性化的录音快捷键,支持全局快捷键操作。
转换管道
设置复杂的文本处理流程:
- 语法纠错
 - 格式化
 - 翻译
 - 自定义 AI 提示词处理
 - 多步骤转换链
 
📊 使用场景
日常办公
- 会议记录
 - 邮件撰写
 - 文档编辑
 - 快速笔记
 
开发工作
- 代码注释
 - 技术文档
 - 问题描述
 - 思路整理
 
创作内容
- 文章写作
 - 博客内容
 - 社交媒体
 - 创意思考
 
🆚 与其他工具对比
传统转录工具
- 问题:订阅费用高($15-30/月)、数据不透明、供应商锁定
 - Whispering:按用量付费($1-5/月)、完全透明、自由选择服务商
 
本地转录工具
- 问题:功能有限、准确度不足、无 AI 增强
 - Whispering:可选本地/云端、AI 智能转换、功能完整
 
在线转录服务
- 问题:隐私担忧、网络依赖、功能单一
 - Whispering:隐私优先、离线可用、功能丰富
 
🌟 社区和支持
开源理念
Whispering 采用 MIT 许可证,完全开源。作者相信基础工具不应该要求用户信任黑盒子。公司可能转型、被收购或关闭,但开源是永恒的。
社区支持
- GitHub Issues:功能请求和 Bug 报告
 - Discord 社区:加入讨论
 - 文档齐全:详细的安装和使用指南
 
赞助支持
项目得到了众多开发者和组织的支持,包括多位 GitHub 赞助者的持续贡献。
📈 发展路线
Whispering 正在持续发展,目标是构建比任何闭源替代品都更好的开源、本地优先的语音转录解决方案。通过社区的共同努力,我们相信可以创造出真正属于用户的、透明可信的生产力工具。
注意:Whispering 专为快速转录设计,不适合长时间录音。对于长时间录制需求,建议使用专门的录音应用,如 Hyprnote。
