Question 1

Whisper真的免费吗？费用是多少？

Accepted Answer

Whisper在MIT开源许可证下可完全免费下载并在本地运行。自托管时没有使用费用、速率限制或商业限制。对于希望使用托管服务而无需承担基础设施负担的用户，OpenAI以每分钟音频$0.006（每小时约$0.36）的价格提供Whisper API服务。模型权重、代码和文档均可在GitHub上免费获取。

Question 2

如何在本地运行Whisper？

Accepted Answer

本地运行Whisper需要Python和pip。通过'pip install openai-whisper'安装，然后用'whisper audio.mp3 --model large-v3'命令从命令行执行转录。首次运行时会自动下载所选模型权重。large-v3模型建议使用至少10GB显存的GPU以获得较快的推理速度，但'medium'和'small'等较小模型在CPU和低性能GPU上也能正常运行。Python API同样支持集成到自定义应用程序中。

Question 3

应该选择哪个Whisper模型大小？

Accepted Answer

模型选择取决于精度需求和硬件条件。'tiny'和'base'模型速度最快，适合任何硬件上清晰英语音频的处理。'small'和'medium'模型在精度与速度之间取得良好平衡，在现代CPU上运行效果良好。'large-v3'模型在所有语言和条件下提供最高精度，但需要高性能GPU才能达到合理的推理速度。对于大多数需要高精度的生产用途，推荐使用large-v3，这也是OpenAI API所采用的模型。

Question 4

Whisper与其他转录服务相比准确率如何？

Accepted Answer

Whisper large-v3在多样化音频基准测试中与许多商业转录服务持平甚至超越，尤其在非英语语言、带口音的语音和嘈杂音频方面表现突出。在许多标准英语基准测试中词错误率低于5%。对于通用多语言转录，Whisper被广泛认为是最佳的免费可用选择。

Question 5

Whisper能将其他语言的音频翻译成英文吗？

Accepted Answer

可以，Whisper内置了将音频直接翻译为英文的功能。可以输入99种支持语言中任意一种的音频，无需单独的翻译步骤即可获得英文文本输出。在CLI中指定'--task translate'或在API中设置task参数即可实现。需要注意的是，Whisper的翻译仅支持英文作为目标语言——如需翻译为其他目标语言，需先进行转录，再使用独立的翻译模型。

Whisper

主要功能

常见问题

替代工具

ElevenLabs

Murf AI

Suno

Typecast

Udio

Maum AI

标签