首页
Whisper

Whisper

Whisper是OpenAI开源的语音识别模型,在99种语言上提供顶尖的转录准确率,可免费在本地运行或通过OpenAI API使用。

Audio free
访问网站

Whisper是OpenAI于2022年9月发布的开源自动语音识别(ASR)系统。基于从互联网收集的68万小时多语言多任务监督学习数据训练而成,Whisper在易用、高精度语音转录领域实现了重大突破。该模型以MIT许可证发布,可在商业和非商业场景中完全免费使用、修改和集成,不受任何限制。

Whisper的架构是将驱动大型语言模型的相同基础设计——序列到序列Transformer模型——应用于音频领域。模型接受原始音频输入,在单一统一模型内直接输出文本,处理转录、翻译、语言识别和语音活动检测等任务。最大版本whisper-large-v3在复杂真实音频条件下的准确率超越了许多商业授权ASR系统。

Whisper最受称道的优势之一是其鲁棒性。与许多在背景噪声、口音、非母语者或专业术语下性能大幅下降的语音识别系统不同,Whisper在各种声学条件下均能保持强劲性能,对强口音语音、技术术语、多人顺序发言和有中等背景噪声的音频的处理能力远超上一代模型。

Whisper支持99种语言的转录和翻译,在英语、西班牙语、法语、日语、中文、韩语等语言上表现尤为出色。模型可在GitHub上免费获取并在本地运行,也可通过OpenAI API以每分钟$0.006的低廉价格作为托管服务使用。其开源特性使其成为数十款第三方转录产品、会议笔记工具、播客平台和开发者工具的底层技术支撑。

主要功能

  • 基于68万小时多语言音频训练的99种语言顶尖语音识别准确率
  • 在背景噪声、强口音和专业术语等挑战性条件下的鲁棒性能
  • MIT许可证下完全免费开源——无使用费用或限制,可在本地运行
  • 多种模型尺寸(tiny/base/small/medium/large-v3),适应任何硬件的速度与精度平衡需求
  • 单一管道步骤将任意支持语言的音频直接翻译为英文文本
  • 无需手动配置即可自动识别发言语言的语言检测功能
  • 通过OpenAI托管API以每分钟$0.006的低价支持大批量生产使用
  • 作为核心转录引擎为数十款第三方应用和服务提供支撑
  • 识别音频文件中语音片段并过滤静音的语音活动检测
  • 支持MP3、MP4、WAV、FLAC等多种音频格式和来源

常见问题

Whisper真的免费吗?费用是多少?

Whisper在MIT开源许可证下可完全免费下载并在本地运行。自托管时没有使用费用、速率限制或商业限制。对于希望使用托管服务而无需承担基础设施负担的用户,OpenAI以每分钟音频$0.006(每小时约$0.36)的价格提供Whisper API服务。模型权重、代码和文档均可在GitHub上免费获取。

如何在本地运行Whisper?

本地运行Whisper需要Python和pip。通过'pip install openai-whisper'安装,然后用'whisper audio.mp3 --model large-v3'命令从命令行执行转录。首次运行时会自动下载所选模型权重。large-v3模型建议使用至少10GB显存的GPU以获得较快的推理速度,但'medium'和'small'等较小模型在CPU和低性能GPU上也能正常运行。Python API同样支持集成到自定义应用程序中。

应该选择哪个Whisper模型大小?

模型选择取决于精度需求和硬件条件。'tiny'和'base'模型速度最快,适合任何硬件上清晰英语音频的处理。'small'和'medium'模型在精度与速度之间取得良好平衡,在现代CPU上运行效果良好。'large-v3'模型在所有语言和条件下提供最高精度,但需要高性能GPU才能达到合理的推理速度。对于大多数需要高精度的生产用途,推荐使用large-v3,这也是OpenAI API所采用的模型。

Whisper与其他转录服务相比准确率如何?

Whisper large-v3在多样化音频基准测试中与许多商业转录服务持平甚至超越,尤其在非英语语言、带口音的语音和嘈杂音频方面表现突出。在许多标准英语基准测试中词错误率低于5%。对于通用多语言转录,Whisper被广泛认为是最佳的免费可用选择。

Whisper能将其他语言的音频翻译成英文吗?

可以,Whisper内置了将音频直接翻译为英文的功能。可以输入99种支持语言中任意一种的音频,无需单独的翻译步骤即可获得英文文本输出。在CLI中指定'--task translate'或在API中设置task参数即可实现。需要注意的是,Whisper的翻译仅支持英文作为目标语言——如需翻译为其他目标语言,需先进行转录,再使用独立的翻译模型。

替代工具

Audio的其他工具

标签

speech-to-text transcription OpenAI open-source multilingual ASR