Question 1

AssemblyAI의 전사 정확도는 다른 서비스와 비교했을 때 어느 정도인가요?

Accepted Answer

AssemblyAI의 Universal-2 모델은 LibriSpeech, Earnings-21, CallHome 등 주요 업계 벤치마크에서 지속적으로 최상위권 성능을 기록합니다. 잡음이 많은 환경, 강한 억양, 빠른 발화 등 까다로운 오디오에서도 많은 대안을 능가합니다. 의료, 법률, 금융 등 전문 분야 오디오의 경우 도메인 특화 용어 정확도를 높이기 위한 커스텀 어휘 부스팅도 지원합니다.

Question 2

AssemblyAI는 실시간 전사를 지원하나요?

Accepted Answer

네, AssemblyAI는 WebSocket API를 통한 실시간 스트리밍 전사를 제공합니다. 오디오 프레임을 스트리밍하면 매우 낮은 지연 시간(최종 단어 기준 보통 500ms 미만)으로 부분 및 최종 전사 결과를 받을 수 있습니다. 라이브 자막, 음성 제어 앱, 회의 전사 도구, 실시간 고객 서비스 분석 등에 적합합니다.

Question 3

LeMUR은 무엇이고 어떻게 사용하나요?

Accepted Answer

LeMUR(Language Model Universal Runtime)은 전사된 오디오 위에 대형 언어 모델을 적용할 수 있는 AssemblyAI의 기능입니다. 오디오를 전사한 후 전사 ID와 프롬프트(예: '이 회의를 요약해줘' 또는 '모든 액션 아이템을 나열해줘')를 LeMUR에 전달하면 됩니다. LeMUR은 오디오 내용에 기반한 LLM의 복잡한 처리를 담당하여 정확하고 맥락에 맞는 응답을 반환합니다.

Question 4

AssemblyAI의 PII 편집은 어떻게 작동하나요?

Accepted Answer

AssemblyAI의 PII 편집은 전사본에서 개인 식별 정보를 자동으로 감지하고 제거합니다. 이름, 주소, 전화번호, 주민등록번호, 신용카드 번호 등을 식별하고 텍스트 출력에서 [PERSON_NAME], [PHONE_NUMBER] 등의 레이블로 대체합니다. 선택적으로 오디오 출력에서도 PII 구간에 비프음을 적용할 수 있어 HIPAA, GDPR, 금융 규정 준수 사례에 적합합니다.

Question 5

가격 정책은 어떻게 되며 무료 플랜이 있나요?

Accepted Answer

AssemblyAI는 100시간의 전사가 포함된 무료 플랜을 제공하여 대부분의 개발자가 충분히 빌드하고 테스트할 수 있습니다. 무료 플랜 이후에는 오디오 시간당 약 $0.37부터 시작하는 종량제 요금제가 적용됩니다. LeMUR, 실시간 스트리밍, 오디오 인텔리전스 기능은 별도로 청구됩니다. 월정액 최소 금액이나 장기 약정이 없어 규모에 상관없이 프로젝트에 활용하기 좋습니다.

AssemblyAI

주요 기능

자주 묻는 질문

대안 도구

ElevenLabs

Murf AI

Suno

타입캐스트

Udio

마음AI

태그