Speech to text REST API

[アーティクル]
11/12/2024

音声テキスト変換 REST API は、バッチ文字起こしおよびカスタム音声に使用されます。

重要

Speech to Text REST API バージョン 2024-11-15 は、一般提供されている最新バージョンです。

Speech to Text REST API バージョン 2024-05-15-preview の廃止日は後日発表されます。
Speech to Text REST API v3.0、v3.1、v3.2、3.2-preview.1、3.2-preview.2 は、2026 年 4 月 1 日に廃止されます。

アップグレードの詳細については、Speech to Text REST API の v3.0 から v3.1、v3.1 から v3.2、v3.2 から 2024-11-15 への移行ガイドを参照してください。

Speech to Text REST API 2024-11-15 リファレンスドキュメントを参照してください

Speech to text REST API は、次の用途に使用します。

高速文字起こし: リアルタイムオーディオよりもはるかに高速で同期的に結果を返してオーディオファイルを文字起こしします。高速文字起こし API (/speechtotext/transcriptions:transcribe) は、オーディオまたはビデオの文字起こしやビデオ翻訳などの予測可能な待機時間で、オーディオ録音のトランスクリプトを可能な限り迅速に必要とするシナリオで使用します。
カスタム音声: 独自のデータのアップロード、カスタムモデルのテストとトレーニング、モデル間の精度の比較、カスタムエンドポイントへのモデルのデプロイ。作成したモデルに同僚がアクセスできるようにする場合や、複数のリージョンにモデルをデプロイする場合に、モデルを他のサブスクリプションにコピーする。
バッチ文字起こし: 複数の URL または Azure コンテナーからオーディオファイルをバッチとして文字起こしします。

Speech to text REST API には、次のような機能が含まれています。

そのエンドポイントに対してログが要求された場合は、各エンドポイントのログを取得します。
作成するモデルのマニフェストを要求して、オンプレミスのコンテナーを設定する。
Shared Access Signature (SAS) URI を使用して、Azure ストレージアカウントからデータを取得する。
ストレージ持ち込み。ログ、文字起こしファイル、その他のデータなどに独自のストレージアカウントを使用できます。
一部の操作では、Webhook 通知がサポートされています。通知が送信される Webhook を登録できます。

バッチ文字起こし

次の操作グループは、バッチ文字起こしに適用できます。

操作グループ	説明
Models	基本モデルまたはカスタムモデルを使用して、オーディオファイルを文字起こしします。カスタム音声とバッチ文字起こしでモデルを使用できます。たとえば、特定のデータセットでトレーニングされたモデルを使用して、オーディオファイルを文字起こしできます。カスタム音声モデルのトレーニングと管理の例については、「モデルのトレーニングおよびカスタム音声モデルのライフサイクルを参照してください。
編曲	文字起こしを使用して、ストレージ内の大量のオーディオを文字起こしします。バッチ文字起こしを使用する場合要求ごとに複数のファイルを送信するか、オーディオファイルを含む Azure Blob Storage コンテナーをポイントして文字起こしします。複数のオーディオファイルから文字起こしを作成する方法の例については、文字起こしの作成に関する記事を参照してください。
Web フック	Web フックを使用して、作成、処理、完了、および削除イベントに関する通知を受信します。 Web フックは、カスタム音声とバッチ文字起こしで使用できます。 Web フックは、 datasets、 endpoints、 evaluations、 models、および transcriptions に適用されます。

Custom Speech

次の操作グループは、 custom speech に適用できます。

操作グループ	説明
データセット	データセットを使用して、カスタム音声モデルのトレーニングとテストを行います。たとえば、特定のデータセットでトレーニングされたカスタム音声のパフォーマンスを、別のデータセットでトレーニングされた基本モデルまたはカスタム音声モデルのパフォーマンスと比較できます。データセットをアップロードする方法の例については、「トレーニングおよびテストのデータセットをアップロードする」を参照してください。
エンドポイント	カスタム音声モデルをエンドポイントにデプロイします。 custom speech モデルを使用するには、カスタムエンドポイントをデプロイする必要があります。デプロイエンドポイントを管理する方法の例については、「モデルをデプロイする」を参照してください。
評価	評価を使用して、さまざまなモデルのパフォーマンスを比較します。たとえば、特定のデータセットでトレーニングされた custom speech モデルのパフォーマンスを、別のデータセットでトレーニングされた基本モデルまたはカスタムモデルのパフォーマンスと比較できます。カスタム音声モデルテストおよび評価する方法の例については認識品質のテストとテストの精度に関するページを参照してください。
Models	基本モデルまたはカスタムモデルを使用して、オーディオファイルを文字起こしします。カスタム音声とバッチ文字起こしでモデルを使用できます。たとえば、特定のデータセットでトレーニングされたモデルを使用して、オーディオファイルを文字起こしできます。カスタム音声モデルのトレーニングと管理の例については、「モデルのトレーニングおよびカスタム音声モデルのライフサイクルを参照してください。
プロジェクト	プロジェクトを使用して、カスタム音声モデル、トレーニングおよびテストデータセット、デプロイエンドポイントを管理します。カスタム音声プロジェクトには、モデル、トレーニングとテストのデータセット、デプロイエンドポイントが含まれます。各プロジェクトはロケール別になっています。たとえば、米国の英語用のプロジェクトを作成することが考えられます。プロジェクトの作成方法の例については、「プロジェクトを作成する」を参照してください。
Web フック	Web フックを使用して、作成、処理、完了、および削除イベントに関する通知を受信します。 Web フックは、カスタム音声とバッチ文字起こしで使用できます。 Web フックは、 datasets、 endpoints、 evaluations、 models、および transcriptions に適用されます。

サービス正常性

サービス正常性は、サービスとサブコンポーネントの全体的な正常性に関する分析情報を提供します。詳細については、「 Service Health 」を参照してください。

次の方法で共有

Speech to text REST API

バッチ文字起こし

Custom Speech

サービス正常性

次のステップ

フィードバック

その他のリソース