Whisper
WhisperはOpenAIのオープンソース音声認識モデルで、99言語にわたる最先端の文字起こし精度を誇り、ローカル実行またはOpenAI APIを通じて無料で利用可能です。
WhisperはOpenAIが2022年9月に公開したオープンソースの自動音声認識(ASR)システムです。インターネットから収集した68万時間の多言語マルチタスク教師あり学習データで訓練されたWhisperは、アクセスしやすく高精度な音声文字起こしの分野で大きな飛躍をもたらしました。MITライセンスで公開されており、商用・非商用を問わず制限なく自由に使用・修正・統合が可能です。
Whisperのアーキテクチャは、大規模言語モデルを動かすのと同じ基本設計であるシーケンス・ツー・シーケンス・トランスフォーマーモデルを音声に応用したものです。生の音声を入力として受け取り、文字起こし・翻訳・言語識別・音声活動検出などのタスクを単一の統合モデルで処理します。最大モデルのwhisper-large-v3は、困難な実世界の音声条件において多くの商用ASRシステムを上回る精度を発揮します。
Whisperの最も優れた強みのひとつはその堅牢性です。背景雑音・なまり・非母語話者・ドメイン特化の専門用語で大幅に性能が低下する多くの音声認識システムとは異なり、Whisperは多様な音響環境で高い性能を維持します。GitHubで無料で入手でき、ローカルで実行するか、OpenAI APIを通じて1分あたり$0.006の低コストでマネージドサービスとして利用できます。
主な機能
- 68万時間の多言語音声で訓練された99言語にわたる最先端の音声認識精度
- 背景雑音・強いなまり・専門用語を含む困難な環境での堅牢なパフォーマンス
- MITライセンスの無料オープンソース — 使用料や制限なしにローカルで実行可能
- あらゆるハードウェアで速度と精度のバランスを取れる複数のモデルサイズ(tiny/base/small/medium/large-v3)
- 単一パイプラインステップで対応99言語のいずれかの音声を英語テキストに直接翻訳
- 手動設定なしに発話言語を自動識別する言語検出機能
- 大量の本番利用向けに1分あたり$0.006の低コストOpenAIマネージドAPI
- 数十のサードパーティアプリ・サービスの中核文字起こしエンジンとして採用
- 音声ファイル内の発話セグメントを識別し無音をフィルタリングする音声活動検出
- MP3・MP4・WAV・FLACなど多様な音声フォーマット・ソースに対応
よくある質問
Whisperは本当に無料ですか?費用はどうなりますか?
WhisperはMITオープンソースライセンスのもとでローカルでダウンロード・実行することが完全に無料です。セルフホスティング時には使用料・レート制限・商用制限は一切ありません。インフラの負担なくマネージドサービスを希望するユーザー向けに、OpenAIは音声1分あたり$0.006(音声1時間あたり約$0.36)でWhisper APIを提供しています。モデルの重み・コード・ドキュメントはすべてGitHubで無料で入手できます。
Whisperをローカルで実行するにはどうすればいいですか?
WhisperのローカルはPythonとpipが必要です。'pip install openai-whisper'でインストールし、'whisper audio.mp3 --model large-v3'コマンドでコマンドラインから文字起こしを実行します。初回実行時に選択したモデルの重みが自動的にダウンロードされます。large-v3モデルには高速推論のためVRAM 10GB以上のGPUが推奨されますが、'medium'や'small'のような小さいモデルはCPUや低性能GPUでも適切に動作します。
どのWhisperモデルサイズを選べばいいですか?
モデル選択は精度要件とハードウェアによって異なります。'tiny'と'base'モデルは最も高速で、クリーンな音声の英語にはどんなハードウェアでも適しています。'small'と'medium'モデルは精度と速度の良いバランスを提供し、最新のCPUでも良好に動作します。'large-v3'モデルはすべての言語と条件で最高の精度を発揮しますが、合理的な推論速度には高性能GPUが必要です。高精度が求められる本番利用にはlarge-v3が推奨されており、これはOpenAI APIが使用するモデルでもあります。
Whisperは他の文字起こしサービスと比べてどのくらい正確ですか?
Whisper large-v3は多様な音声ベンチマークで多くの商用文字起こしサービスと同等かそれを上回る精度を示し、特に非英語言語・なまりのある発話・ノイズのある音声で優秀です。多くの標準的な英語ベンチマークで5%未満の単語誤り率を達成しています。汎用的な多言語文字起こしにおいて、Whisperは無料で利用できる最良の選択肢として広く認識されています。
Whisperで他の言語の音声を英語に翻訳できますか?
はい、Whisperは音声を英語に直接翻訳する機能を内蔵しています。対応する99言語のいずれかの音声を、別途翻訳ステップなしに英語テキスト出力として受け取ることができます。CLIで'--task translate'を指定するか、APIでtaskパラメータを設定することで利用できます。Whisperの翻訳は英語のみを対象言語としており、他の言語への翻訳には先に文字起こしを行い別の翻訳モデルを使用する必要があります。
代替ツール
Audioの他のツール
ElevenLabs
Audio32以上の言語で超リアルなテキスト→音声、音声クローニング、リアルタイム音声変換を提供する主要AIボイス合成プラットフォーム。
Murf AI
Audioビデオ、eラーニングコンテンツ、プレゼンテーション向けのプロ品質ボイスオーバー制作のための20以上の言語、120以上のスタジオ品質ボイスを持つAIボイスジェネレーター。
Suno
AudioSunoは最新のv4モデルを使用して、シンプルなテキストプロンプトからボーカル、楽器、歌詞を含む完全な楽曲を生成するAI音楽生成プラットフォームです。
Typecast
AudioTypecastはNeosapience社が開発した韓国発のAI音声プラットフォームで、400以上のAI音声と感情・スタイル制御、音声クローニング機能を提供します。
Udio
AudioUdioはテキストプロンプトからボーカル入りの完全な楽曲を生成するAI音楽プラットフォームで、卓越した音質と幅広いジャンルサポートで注目されています。
Maum AI
AudioMaum AI(旧MINDs Lab)は、業界最高水準の韓国語音声合成・音声認識・ビジョンAI・NLPソリューションを提供する韓国のエンタープライズAI企業です。