次の方法で共有


Speech to text REST API

Speech to text REST API は、バッチ文字起こしおよびカスタム音声に使用されます。

重要

Speech to Text REST API バージョン 2024-11-15 は、一般提供されている最新バージョンです。

  • Speech to Text REST API バージョン 2024-05-15-preview の廃止日は後日発表されます。
  • Speech to Text REST API v3.0v3.1v3.23.2-preview.13.2-preview.2 は、2026 年 4 月 1 日に廃止されます。

アップグレードの詳細については、Speech to Text REST API の v3.0 から v3.1v3.1 から v3.2v3.2 から 2024-11-15 への移行ガイドを参照してください。

Speech to text REST API は、次の用途に使用します。

  • ファスト トランスクリプション: オーディオ ファイルを文字起こしし、その結果を同期して返します。これは、リアルタイム オーディオよりもはるかに高速です。 ファスト トランスクリプション API (/speechtotext/transcriptions:transcribe) は、オーディオ録音の文字起こしを予測可能な待機時間でできるだけ早く必要とするシナリオ (オーディオまたはビデオの文字起こしやビデオ翻訳など) で使用されます。
  • カスタム音声: 独自データのアップロード、カスタム モデルのテストとトレーニング、モデル間での正確性の比較、カスタム エンドポイントへのモデルのデプロイを行います。 作成したモデルに同僚がアクセスできるようにする場合や、複数のリージョンにモデルをデプロイする場合に、モデルを他のサブスクリプションにコピーする。
  • バッチ文字起こし: 複数の URL または Azure コンテナーからオーディオ ファイルをバッチとして文字起こしします。

Speech to text REST API には、次のような機能が含まれています。

  • エンドポイントに対してログが要求されている場合は、対象のエンドポイントごとにログを取得します。
  • 作成するモデルのマニフェストを要求して、オンプレミスのコンテナーを設定する。
  • Shared Access Signature (SAS) URI を使用して、Azure ストレージ アカウントからデータを取得する。
  • ストレージ持ち込み。 ログ、文字起こしファイル、その他のデータなどに独自のストレージ アカウントを使用できます。
  • 一部の操作では、Webhook 通知がサポートされています。 通知が送信される Webhook を登録できます。

バッチ文字起こし

次の操作グループは、バッチ文字起こしに適用できます。

操作グループ 説明
Models 基本モデルまたはカスタム モデルを使用して、オーディオ ファイルを文字起こしします。

カスタム音声バッチ文字起こしにモデルを使用できます。 たとえば、特定のデータセットでトレーニングされたモデルを使用して、オーディオ ファイルを文字起こしできます。 カスタム音声モデルをトレーニングおよび管理する方法の例については、モデルのトレーニングおよびカスタム音声モデルのライフサイクルに関するページを参照してください。
文字起こし 文字起こしを使用して、ストレージ内の大量のオーディオを文字起こしします。

バッチ文字起こしを使用する場合は、要求ごとに複数のファイルを送信するか、文字起こしするオーディオ ファイルを含む Azure Blob Storage コンテナーをポイントします。 複数のオーディオ ファイルから文字起こしを作成する方法の例については、文字起こしの作成に関する記事を参照してください。
Web フック Webhook を使用して、作成、処理、完了、削除の各イベントに関する通知を受信します。

カスタム音声バッチ文字起こしに Webhook を使用できます。 Webhook は データセットエンドポイント評価モデル文字起こしに適用されます。

カスタム音声

次の操作グループは、カスタム音声に適用できます。

操作グループ 説明
データセット データセットを使用して、カスタム音声モデルのトレーニングとテストを行います。

たとえば、特定のデータセットでトレーニングされたカスタム音声のパフォーマンスと、別のデータセットでトレーニングされた基本モデルまたはカスタム音声モデルのパフォーマンスを比較できます。 データセットをアップロードする方法の例については、「トレーニングおよびテストのデータセットをアップロードする」を参照してください。
エンドポイント カスタム音声モデルをエンドポイントにデプロイします。

カスタム音声モデルを使用するには、カスタム エンドポイントをデプロイする必要があります。 デプロイ エンドポイントを管理する方法の例については、「モデルをデプロイする」を参照してください。
評価 評価を使用して、さまざまなモデルのパフォーマンスを比較します。

たとえば、特定のデータセットでトレーニングされたカスタム音声モデルのパフォーマンスと、別のデータセットでトレーニングされた基本モデルまたはカスタム モデルのパフォーマンスを比較できます。 カスタム音声モデルをテストおよび評価する方法の例については、認識品質のテストおよびテストの精度に関するページを参照してください。
Models 基本モデルまたはカスタム モデルを使用して、オーディオ ファイルを文字起こしします。

カスタム音声バッチ文字起こしにモデルを使用できます。 たとえば、特定のデータセットでトレーニングされたモデルを使用して、オーディオ ファイルを文字起こしできます。 カスタム音声モデルをトレーニングおよび管理する方法の例については、モデルのトレーニングおよびカスタム音声モデルのライフサイクルに関するページを参照してください。
プロジェクト プロジェクトを使用して、カスタム音声モデル、トレーニングおよびテストのデータセット、デプロイ エンドポイントを管理します。

カスタム音声プロジェクトには、モデル、トレーニングおよびテストのデータセット、デプロイ エンドポイントが含まれています。 各プロジェクトはロケール別になっています。 たとえば、米国の英語用のプロジェクトを作成することが考えられます。 プロジェクトの作成方法の例については、「プロジェクトを作成する」を参照してください。
Web フック Webhook を使用して、作成、処理、完了、削除の各イベントに関する通知を受信します。

カスタム音声バッチ文字起こしに Webhook を使用できます。 Webhook は データセットエンドポイント評価モデル文字起こしに適用されます。

サービス正常性

サービス正常性では、サービスとサブコンポーネントの全体的な正常性に関する分析情報を提供します。 詳細については、「サービス正常性」を参照してください。

次のステップ