Question 1

Whisper는 정말 무료인가요? 비용은 어떻게 되나요?

Accepted Answer

Whisper는 MIT 오픈소스 라이선스 하에 로컬에서 다운로드하고 실행하는 것이 완전히 무료입니다. 자체 호스팅 시 사용 요금, 속도 제한, 상업적 제한이 없습니다. 인프라 부담 없이 관리형 서비스를 원하는 사용자를 위해 OpenAI는 오디오 분당 $0.006(오디오 1시간당 약 $0.36)의 요금으로 Whisper API를 제공합니다. 모델 가중치, 코드, 문서는 모두 GitHub에서 무료로 이용할 수 있습니다.

Question 2

Whisper를 로컬에서 어떻게 실행하나요?

Accepted Answer

Whisper 로컬 실행에는 Python과 pip가 필요합니다. 'pip install openai-whisper'로 설치한 후 'whisper audio.mp3 --model large-v3' 명령으로 커맨드 라인에서 전사를 실행하세요. 첫 실행 시 선택한 모델 가중치가 자동으로 다운로드됩니다. large-v3 모델의 경우 빠른 추론을 위해 VRAM 10GB 이상의 GPU가 권장되지만, 'medium'이나 'small' 같은 소형 모델은 CPU나 저사양 GPU에서도 적절히 실행됩니다.

Question 3

어떤 Whisper 모델 크기를 선택해야 하나요?

Accepted Answer

모델 선택은 정확도 요구 사항과 하드웨어에 따라 다릅니다. 'tiny'와 'base' 모델은 가장 빠르고 깨끗한 오디오의 영어에 적합하며 어떤 하드웨어에서도 작동합니다. 'small'과 'medium' 모델은 정확도와 속도의 좋은 균형을 제공하며 현대적인 CPU에서도 잘 작동합니다. 'large-v3' 모델은 모든 언어와 환경에서 최고의 정확도를 제공하지만 합리적인 추론 속도를 위해 고성능 GPU가 필요합니다. 높은 정확도가 필요한 대부분의 프로덕션 사용 사례에는 large-v3가 권장되며, 이것이 OpenAI API에서 사용하는 모델입니다.

Question 4

Whisper는 다른 전사 서비스와 비교해 얼마나 정확한가요?

Accepted Answer

Whisper large-v3는 다양한 오디오 벤치마크에서 많은 상업용 전사 서비스와 동등하거나 이를 능가하는 정확도를 보여주며, 특히 비영어권 언어, 억양이 있는 발화, 노이즈가 있는 오디오에서 뛰어납니다. 많은 표준 영어 벤치마크에서 5% 미만의 단어 오류율을 달성합니다. 일반 목적의 다국어 전사에서 Whisper는 무료로 이용 가능한 최선의 옵션으로 널리 인정받고 있습니다.

Question 5

Whisper로 다른 언어 오디오를 영어로 번역할 수 있나요?

Accepted Answer

네, Whisper는 오디오를 영어로 직접 번역하는 기능을 내장하고 있습니다. 지원되는 99개 언어 중 어떤 언어의 오디오든 별도의 번역 단계 없이 영어 텍스트 출력을 받을 수 있습니다. CLI에서 '--task translate'를 지정하거나 API에서 task 파라미터를 설정하면 됩니다. Whisper의 번역은 영어를 대상 언어로만 지원하며, 다른 언어로 번역하려면 먼저 전사한 후 별도의 번역 모델을 사용해야 합니다.

Whisper

주요 기능

자주 묻는 질문

대안 도구

ElevenLabs

Murf AI

Suno

타입캐스트

Udio

마음AI

태그