Whisper是OpenAI于2022年9月发布的开源自动语音识别(ASR)系统。基于从互联网收集的68万小时多语言多任务监督学习数据训练而成,Whisper在易用、高精度语音转录领域实现了重大突破。该模型以MIT许可证发布,可在商业和非商业场景中完全免费使用、修改和集成,不受任何限制。
Whisper的架构是将驱动大型语言模型的相同基础设计——序列到序列Transformer模型——应用于音频领域。模型接受原始音频输入,在单一统一模型内直接输出文本,处理转录、翻译、语言识别和语音活动检测等任务。最大版本whisper-large-v3在复杂真实音频条件下的准确率超越了许多商业授权ASR系统。
Whisper最受称道的优势之一是其鲁棒性。与许多在背景噪声、口音、非母语者或专业术语下性能大幅下降的语音识别系统不同,Whisper在各种声学条件下均能保持强劲性能,对强口音语音、技术术语、多人顺序发言和有中等背景噪声的音频的处理能力远超上一代模型。
Whisper支持99种语言的转录和翻译,在英语、西班牙语、法语、日语、中文、韩语等语言上表现尤为出色。模型可在GitHub上免费获取并在本地运行,也可通过OpenAI API以每分钟$0.006的低廉价格作为托管服务使用。其开源特性使其成为数十款第三方转录产品、会议笔记工具、播客平台和开发者工具的底层技术支撑。
主要功能
- 基于68万小时多语言音频训练的99种语言顶尖语音识别准确率
- 在背景噪声、强口音和专业术语等挑战性条件下的鲁棒性能
- MIT许可证下完全免费开源——无使用费用或限制,可在本地运行
- 多种模型尺寸(tiny/base/small/medium/large-v3),适应任何硬件的速度与精度平衡需求
- 单一管道步骤将任意支持语言的音频直接翻译为英文文本
- 无需手动配置即可自动识别发言语言的语言检测功能
- 通过OpenAI托管API以每分钟$0.006的低价支持大批量生产使用
- 作为核心转录引擎为数十款第三方应用和服务提供支撑
- 识别音频文件中语音片段并过滤静音的语音活动检测
- 支持MP3、MP4、WAV、FLAC等多种音频格式和来源
常见问题
Whisper真的免费吗?费用是多少?
Whisper在MIT开源许可证下可完全免费下载并在本地运行。自托管时没有使用费用、速率限制或商业限制。对于希望使用托管服务而无需承担基础设施负担的用户,OpenAI以每分钟音频$0.006(每小时约$0.36)的价格提供Whisper API服务。模型权重、代码和文档均可在GitHub上免费获取。
如何在本地运行Whisper?
本地运行Whisper需要Python和pip。通过'pip install openai-whisper'安装,然后用'whisper audio.mp3 --model large-v3'命令从命令行执行转录。首次运行时会自动下载所选模型权重。large-v3模型建议使用至少10GB显存的GPU以获得较快的推理速度,但'medium'和'small'等较小模型在CPU和低性能GPU上也能正常运行。Python API同样支持集成到自定义应用程序中。
应该选择哪个Whisper模型大小?
模型选择取决于精度需求和硬件条件。'tiny'和'base'模型速度最快,适合任何硬件上清晰英语音频的处理。'small'和'medium'模型在精度与速度之间取得良好平衡,在现代CPU上运行效果良好。'large-v3'模型在所有语言和条件下提供最高精度,但需要高性能GPU才能达到合理的推理速度。对于大多数需要高精度的生产用途,推荐使用large-v3,这也是OpenAI API所采用的模型。
Whisper与其他转录服务相比准确率如何?
Whisper large-v3在多样化音频基准测试中与许多商业转录服务持平甚至超越,尤其在非英语语言、带口音的语音和嘈杂音频方面表现突出。在许多标准英语基准测试中词错误率低于5%。对于通用多语言转录,Whisper被广泛认为是最佳的免费可用选择。
Whisper能将其他语言的音频翻译成英文吗?
可以,Whisper内置了将音频直接翻译为英文的功能。可以输入99种支持语言中任意一种的音频,无需单独的翻译步骤即可获得英文文本输出。在CLI中指定'--task translate'或在API中设置task参数即可实现。需要注意的是,Whisper的翻译仅支持英文作为目标语言——如需翻译为其他目标语言,需先进行转录,再使用独立的翻译模型。
替代工具
Audio的其他工具
ElevenLabs
AudioElevenLabs 是领先的 AI 语音合成平台,提供超逼真的文字转语音、声音克隆和 32 种以上语言的实时语音转换功能。
Murf AI
AudioAI 语音生成器,提供 20 余种语言的 120 余款录音棚级音色,用于制作专业视频、e-learning 和演示配音
Suno
AudioSuno 是一款 AI 音乐生成平台,使用先进的 v4 模型,通过简单的文字描述即可创作出包含人声、乐器和歌词的完整歌曲。
Typecast
AudioTypecast 是 Neosapience 开发的韩国 AI 语音平台,提供 400 余种 AI 音色,支持情感与风格控制、语音克隆,专为内容创作者打造。
Udio
AudioUdio 是一款 AI 音乐生成平台,可根据文字提示创作包含人声的完整歌曲,以出色的音质和广泛的风格支持而著称。
Maum AI
AudioMaum AI(前身为MINDs Lab)是韩国领先的AI企业,提供企业级语音合成、语音识别、视觉AI和NLP解决方案,以高质量韩语语音合成技术著称。