Question 1

Whisperは本当に無料ですか？費用はどうなりますか？

Accepted Answer

WhisperはMITオープンソースライセンスのもとでローカルでダウンロード・実行することが完全に無料です。セルフホスティング時には使用料・レート制限・商用制限は一切ありません。インフラの負担なくマネージドサービスを希望するユーザー向けに、OpenAIは音声1分あたり$0.006（音声1時間あたり約$0.36）でWhisper APIを提供しています。モデルの重み・コード・ドキュメントはすべてGitHubで無料で入手できます。

Question 2

Whisperをローカルで実行するにはどうすればいいですか？

Accepted Answer

WhisperのローカルはPythonとpipが必要です。'pip install openai-whisper'でインストールし、'whisper audio.mp3 --model large-v3'コマンドでコマンドラインから文字起こしを実行します。初回実行時に選択したモデルの重みが自動的にダウンロードされます。large-v3モデルには高速推論のためVRAM 10GB以上のGPUが推奨されますが、'medium'や'small'のような小さいモデルはCPUや低性能GPUでも適切に動作します。

Question 3

どのWhisperモデルサイズを選べばいいですか？

Accepted Answer

モデル選択は精度要件とハードウェアによって異なります。'tiny'と'base'モデルは最も高速で、クリーンな音声の英語にはどんなハードウェアでも適しています。'small'と'medium'モデルは精度と速度の良いバランスを提供し、最新のCPUでも良好に動作します。'large-v3'モデルはすべての言語と条件で最高の精度を発揮しますが、合理的な推論速度には高性能GPUが必要です。高精度が求められる本番利用にはlarge-v3が推奨されており、これはOpenAI APIが使用するモデルでもあります。

Question 4

Whisperは他の文字起こしサービスと比べてどのくらい正確ですか？

Accepted Answer

Whisper large-v3は多様な音声ベンチマークで多くの商用文字起こしサービスと同等かそれを上回る精度を示し、特に非英語言語・なまりのある発話・ノイズのある音声で優秀です。多くの標準的な英語ベンチマークで5%未満の単語誤り率を達成しています。汎用的な多言語文字起こしにおいて、Whisperは無料で利用できる最良の選択肢として広く認識されています。

Question 5

Whisperで他の言語の音声を英語に翻訳できますか？

Accepted Answer

はい、Whisperは音声を英語に直接翻訳する機能を内蔵しています。対応する99言語のいずれかの音声を、別途翻訳ステップなしに英語テキスト出力として受け取ることができます。CLIで'--task translate'を指定するか、APIでtaskパラメータを設定することで利用できます。Whisperの翻訳は英語のみを対象言語としており、他の言語への翻訳には先に文字起こしを行い別の翻訳モデルを使用する必要があります。

Whisper

主な機能

よくある質問

代替ツール

ElevenLabs

Murf AI

Suno

Typecast

Udio

Maum AI

タグ