Whispering：免费开源的语音转文字应用｜附本地部署指南

Whispering 是一款完全开源的语音转文字应用，主打本地优先和数据透明的理念。只需按下快捷键，说话，就能获得准确的文字转录，完全免费且开源。

💭 站长测评

作为一个对语音转文字功能极度执着的用户，我已经先后购买了科大讯飞录音笔、智能办公本以及汉王墨水屏平板等多款硬件设备，但他们都仅仅限于设备内录音转录，不能导入录音转文字。今天早上起床时（其实是找实时资讯的时候…）偶然发现了这款 Whispering 应用，立即被其开源理念和本地优先的特性所吸引，于是进行了详细的测试体验。

相比于传统的硬件设备，Whispering 最大的优势在于：

成本透明：无需购买昂贵硬件，API 费用直接可控
数据安全：完全开源，音频处理过程一目了然
功能灵活：支持本地/云端双模式，可按需选择
持续更新：开源社区驱动，功能不断完善

对于已经在语音转文字领域投入不少的用户来说，Whispering 提供了一个更加经济、透明且功能强大的软件解决方案。现目前此应用只有英文版本，但模型选择并不限制，因此可以使用它来转录中文音频。

📖 项目背景

作者在使用语音转录工具多年后发现，市面上的产品虽然功能“几乎“够用，但都是闭源的黑盒子，即使那些声称“本地化“或“设备端处理“的工具，用户仍然无法确定音频数据到底去了哪里。

因此，Whispering 应运而生。它具有以下特点：

完全开源透明 - 代码公开，可审计
本地优先 - 数据存储在本地设备上
无中间商 - 音频直接从设备发送到选择的服务提供商
无供应商锁定 - 可自由选择转录服务
成本极低 - 直接向API提供商付费，无需额外订阅

🎯 核心功能

基础转录功能

快捷键激活 - 按下自定义快捷键即可开始录音
实时转录 - 说话后快速获得文字结果
多平台支持 - 支持 macOS、Windows、Linux 和 Web 浏览器
多语言支持 - 支持多种输出语言

高级特性

🎙️ 语音活动检测 (VAD)

支持真正的免手持操作模式，无需一直按住按钮，通过语音检测自动开始和停止录音。

🤖 AI 智能转换

内置可定制的 AI 转换功能，可以：

自动修正语法错误
翻译不同语言
重新格式化文本
使用自定义提示词进行个性化处理
支持任何 LLM 提供商（OpenAI GPT-4、Anthropic Claude、Google Gemini 等）

⚙️ 多服务支持

转录服务选择：

云端服务：OpenAI Whisper、Groq、ElevenLabs 等
本地服务：Speaches、owhisper 等（完全离线，无需网络）

AI 转换服务：

OpenAI GPT 系列
Anthropic Claude
Google Gemini
Groq Llama 模型
或任何兼容的 LLM 服务

💰 成本对比

与传统订阅制工具相比，Whispering 的成本优势明显：

服务	每小时费用	轻度使用(20分钟/天)	中度使用(1小时/天)	重度使用(3小时/天)	传统工具
Groq `distil-whisper-large-v3-en`	$0.02	$0.20/月	$0.60/月	$1.80/月	$15-30/月
Groq `whisper-large-v3-turbo`	$0.04	$0.40/月	$1.20/月	$3.60/月	$15-30/月
OpenAI `gpt-4o-mini-transcribe`	$0.18	$1.80/月	$5.40/月	$16.20/月	$15-30/月
本地处理	$0.00	$0.00/月	$0.00/月	$0.00/月	$15-30/月

🔒 隐私和数据安全

Whispering 采用极其严格的隐私保护措施：

本地数据存储

语音录音和转录文本存储在 IndexedDB 中
所有用户数据保存在本地设备上
设置和配置信息完全本地化

数据传输透明

转录服务：只有在需要转录时，音频才会发送到你选择的服务商
- 可选择外部服务（使用你自己的 API 密钥）
- 可选择本地服务（如 Speaches，完全离线）
AI 转换服务（可选）：
- 转录后的文本可发送到选择的 LLM 进行后处理
- 使用你自己的 API 密钥
- 转换配置和提示词存储在本地
无中间服务器：音频和文本直接从你的设备发送到 API 提供商

匿名分析

使用开源的 Aptabase 进行匿名事件记录
不收集任何个人数据
可在设置中完全关闭
所有记录的事件都可在源代码中查看

🚀 快速开始

安装步骤

下载应用
- 访问 GitHub Releases 下载对应平台版本
- 或在浏览器中试用：whispering.epicenter.so
获取 API 密钥
- 推荐使用 Groq（速度快、准确度高、免费额度慷慨、价格低至 $0.02/小时）
- 访问 console.groq.com/keys 注册并创建 API 密钥
- 无需信用卡即可开始使用免费额度
配置和测试
- 打开 Whispering
- 进入设置 → 转录设置
- 选择 Groq 并粘贴 API 密钥
- 点击录音按钮或按下 Cmd+Shift+; 说 “Testing Whispering”
- 转录文本会自动复制到剪贴板

🏠 本地部署完全指南

如果你希望实现完全离线的语音转录，不依赖任何外部 API 服务，可以选择本地部署 Speaches 转录服务。这样既能保证最高级别的隐私安全，又能避免任何网络费用。

前置依赖：安装 FFmpeg

Whispering 需要 FFmpeg 来处理音频和视频文件格式转换，也支持使用本地的 Whisper C++转写文字，这里我们选择使用 Speaches 转写。

本地 Whisper 模型选择

Windows 安装方式：

选项 1：自动安装（推荐）

点击应用内的“Install FFmpeg“按钮，Whispering 会自动下载并配置 FFmpeg

选项 2：手动安装

从官方网站下载 FFmpeg：Download FFmpeg for Windows
选择 “release builds” → “ffmpeg-release-essentials.zip”
解压缩到 C:\ffmpeg 目录
将 C:\ffmpeg\bin 添加到系统 PATH 环境变量
重启 Whispering 应用使更改生效

验证安装

# 验证 FFmpeg 是否正确安装
ffmpeg -version

使用 Docker 部署 Speaches 服务

第一步：下载配置文件

根据你的硬件配置选择合适的部署方式：

# 下载 Docker Compose 配置文件
curl --silent --remote-name https://raw.githubusercontent.com/speaches-ai/speaches/master/compose.yaml

# 如果有 NVIDIA GPU，下载 CUDA 支持配置
curl --silent --remote-name https://raw.githubusercontent.com/speaches-ai/speaches/master/compose.cuda.yaml

# 设置使用 CUDA 配置（有 GPU 的情况下）
export COMPOSE_FILE=compose.cuda.yaml

第二步：启动服务

# 启动 Speaches 服务（后台运行）
docker compose up --detach

注意：首次启动时，Docker 需要下载 Whisper 模型文件，可能需要等待几分钟时间。

第三步：验证服务状态

# 设置本地服务地址
export SPEACHES_BASE_URL="http://localhost:8000"

# 查看可用模型
curl "$SPEACHES_BASE_URL/v1/registry?task=automatic-speech-recognition"

# 测试服务是否正常运行，下载模型（这里下载的是Systran/faster-whisper-large-v3）
curl "$SPEACHES_BASE_URL/v1/models/Systran/faster-whisper-large-v3"

SPEACHES的更多模型和使用方法详见：Model Discovery - Speaches Documentation。中文的语音转文字模型的选择很多，这里选择的第一个。

模型选择

等待几分钟后，成功返回的模型信息示例：

{
  "id": "Systran/faster-whisper-large-v3",
  "created": 1700732060,
  "object": "model",
  "owned_by": "Systran",
  "language": ["en", "zh", "de", "es", "ru", "ko", "fr", "ja", "pt", "tr", ...],
  "task": "automatic-speech-recognition"
}

配置 Whispering 使用本地服务

第一步：选择转录服务

转录服务选择界面

第二步：配置服务参数

Speaches 配置界面

配置参数：

API Base URL: http://api_base_url:8000
模型名称: Systran/faster-whisper-large-v3

第三步：测试转录功能

文件上传测试界面

速度很快，还没反应过来就已经处理好了（GPU）。

转录结果展示

可选：文本后处理优化

基础的本地转录可能缺少标点符号和段落分割。你可以配置 AI 转换服务来优化转录结果：

AI 转换配置界面

可配置的后处理功能：

添加标点符号
段落分割
语法纠错
格式优化
多语言翻译

本地部署的优势

✅ 完全离线：无需网络连接，保证数据隐私

✅ 零费用：一次部署，长期使用无额外成本

✅ 高性能：本地处理速度快，无网络延迟

✅ 可定制：可以选择不同的 Whisper 模型版本

✅ 数据安全：音频文件不离开本地设备

🛠️ 技术特性

现代技术栈

前端：Svelte 5 + SvelteKit
桌面框架：Tauri
语言：TypeScript + Rust
数据库：IndexedDB (通过 Dexie.js)
UI 组件：shadcn-svelte + TailwindCSS
状态管理：TanStack Query

性能优化

轻量级：应用大小仅约 22MB
快速启动：即开即用，无需等待
资源节约：最小化系统资源占用
高可靠性：使用 Result 类型进行错误处理

架构设计

采用清晰的三层架构，实现 97% 的代码复用：

服务层：平台无关的业务逻辑
查询层：响应式数据管理和缓存
UI 层：干净的 Svelte 5 组件

🔧 高级配置

自定义快捷键

可以在设置中配置个性化的录音快捷键，支持全局快捷键操作。

转换管道

设置复杂的文本处理流程：

语法纠错
格式化
翻译
自定义 AI 提示词处理
多步骤转换链

📊 使用场景

日常办公

会议记录
邮件撰写
文档编辑
快速笔记

开发工作

代码注释
技术文档
问题描述
思路整理

创作内容

文章写作
博客内容
社交媒体
创意思考

🆚 与其他工具对比

传统转录工具

问题：订阅费用高（$15-30/月）、数据不透明、供应商锁定
Whispering：按用量付费（$1-5/月）、完全透明、自由选择服务商

本地转录工具

问题：功能有限、准确度不足、无 AI 增强
Whispering：可选本地/云端、AI 智能转换、功能完整

在线转录服务

问题：隐私担忧、网络依赖、功能单一
Whispering：隐私优先、离线可用、功能丰富

🌟 社区和支持

开源理念

Whispering 采用 MIT 许可证，完全开源。作者相信基础工具不应该要求用户信任黑盒子。公司可能转型、被收购或关闭，但开源是永恒的。

社区支持

GitHub Issues：功能请求和 Bug 报告
Discord 社区：加入讨论
文档齐全：详细的安装和使用指南

赞助支持

项目得到了众多开发者和组织的支持，包括多位 GitHub 赞助者的持续贡献。

📈 发展路线

Whispering 正在持续发展，目标是构建比任何闭源替代品都更好的开源、本地优先的语音转录解决方案。通过社区的共同努力，我们相信可以创造出真正属于用户的、透明可信的生产力工具。

注意：Whispering 专为快速转录设计，不适合长时间录音。对于长时间录制需求，建议使用专门的录音应用，如 Hyprnote。