ホーム
AssemblyAI

AssemblyAI

AssemblyAIは開発者向けのAI音声テキスト変換APIで、業界最高水準の文字起こし精度、リアルタイム処理、強力な音声インテリジェンス機能をあらゆるアプリケーションに提供します。

Audio freemium
ウェブサイトへ

AssemblyAIは開発者向けに特化した、業界をリードするAI音声認識プラットフォームです。中核にあるUniversal-2モデルは、様々なアクセント、音質、専門用語にわたって最先端の文字起こし精度を提供するASRエンジンです。クリアなスタジオ録音からノイズの多い電話通話まで、一貫した高精度を実現します。

APIは非同期とリアルタイムストリーミングの両方の文字起こしをサポートします。非同期ワークフローでは音声ファイルやURLを送信し、タイムスタンプ、話者ラベル、信頼スコア付きの完成した文字起こしを受け取ります。WebSocket APIによるリアルタイムストリーミングは、ビデオ会議ツール、音声アシスタント、ライブキャプションプラットフォームなどに低遅延で対応します。

基本的な文字起こしに加え、感情分析、トピック検出、コンテンツモデレーション、PII編集などの豊富な音声インテリジェンス機能を単一のAPIで提供します。LeMUR機能により、文字起こされた音声データにLLMを直接適用し、要約、Q&A、アクションアイテム抽出なども実現できます。

主な機能

  • 様々なアクセント、ノイズレベル、専門用語にわたって最先端の文字起こし精度を提供するUniversal-2 ASRモデル
  • ライブキャプション、音声アシスタント、インタラクティブアプリ向けのWebSocket APIによるリアルタイムストリーミング文字起こし
  • 単語レベルのタイムスタンプ出力付きの長時間音声・動画ファイルの非同期バッチ文字起こし
  • 複数話者の録音で個々の話者を自動識別・ラベル付けする話者分離(ダイアライゼーション)
  • 文字起こし音声全体にわたって文単位で感情トーンを分類する感情分析
  • テキストおよび音声出力から個人識別情報を自動検出・削除するPII編集
  • コンプライアンスおよび安全ワークフロー向けに問題のある発話をフラグするコンテンツモデレーション
  • 音声から直接LLMによるQ&A、要約、アクションアイテム抽出を可能にするLeMUR統合
  • すべての音声・動画録音で議論された主要な話題とテーマを特定するトピック検出
  • Python、JavaScript/TypeScript、Java、Go、C# SDKと包括的なドキュメント・クイックスタートガイド

よくある質問

AssemblyAIの文字起こし精度は他のサービスと比べてどうですか?

AssemblyAIのUniversal-2モデルは、LibriSpeech、Earnings-21、CallHomeなどの主要な業界ベンチマークで常にトップクラスのパフォーマンスを記録しています。ノイズの多い環境、強いアクセント、速い発話など困難な音声においても多くの競合を上回ります。医療・法律・金融などの専門分野の音声については、ドメイン固有の用語精度をさらに向上させるカスタム語彙ブーストもサポートしています。

AssemblyAIはリアルタイム文字起こしに対応していますか?

はい、AssemblyAIはWebSocket APIによるリアルタイムストリーミング文字起こしを提供しています。音声フレームをストリーミングすると、非常に低遅延(最終的な単語で通常500ms未満)で部分的および最終的な文字起こし結果を受け取れます。ライブキャプション、音声制御アプリ、会議文字起こしツール、リアルタイム顧客サービス分析などに適しています。

LeMURとは何ですか?どのように使いますか?

LeMUR(Language Model Universal Runtime)は、文字起こしされた音声の上に大規模言語モデルを適用できるAssemblyAIの機能です。音声を文字起こしした後、文字起こしIDとプロンプト(例:「この会議を要約して」や「アクションアイテムを一覧にして」)をLeMURに渡すだけです。LeMURが音声コンテンツに根ざしたLLMの複雑な処理を担い、正確で文脈を踏まえた応答を返します。

AssemblyAIのPII編集はどのように機能しますか?

AssemblyAIのPII編集は、文字起こしから個人識別情報を自動的に検出して削除します。氏名、住所、電話番号、社会保障番号、クレジットカード番号などを識別し、テキスト出力では[PERSON_NAME]や[PHONE_NUMBER]などのラベルに置き換えます。オプションでPIIセグメントにビープ音を適用した音声出力も作成でき、HIPAA、GDPR、金融コンプライアンスのユースケースに適しています。

料金はどうなっていますか?無料プランはありますか?

AssemblyAIは100時間の文字起こしを含む無料プランを提供しており、ほとんどの開発者が十分に構築・テストできます。無料プラン以降は音声1時間あたり約$0.37から始まる従量課金制となります。LeMUR、リアルタイムストリーミング、音声インテリジェンス機能は別途課金されます。月額最低料金や長期契約はなく、あらゆる規模のプロジェクトに利用しやすい設計です。

代替ツール

Audioの他のツール

タグ

speech-to-text transcription API audio intelligence developer