Azure AI サービスを使用したインジェスト クライアント
インジェスト クライアントは、コードを使用しない方法でコール センターの文字起こしソリューションを Azure に迅速にデプロイするのに役立つ、Microsoft によって GitHub でリリースされたツールです。
ヒント
ツールおよび結果として得られるソリューションを運用環境で使用して、大量のオーディオを処理することができます。
インジェスト クライアントでは、Azure AI Language、Azure AI 音声、Azure Storage、Azure Functions が使用されます。
インジェスト クライアントでの作業を開始する
インジェスト クライアントを実行するには、Azure アカウントとマルチサービスの Azure AI サービス リソースが必要です。
- Azure サブスクリプション - 無料アカウントを作成します
- Azure portal で Azure AI サービス リソースを作成します。
- リソース キーとリージョンを取得します。 リソースがデプロイされたら、[リソースに移動] を選択して、キーを表示および管理します。 Azure AI サービス リソースについて詳しくは、こちらのクイックスタートを参照してください。
インジェスト クライアントの機能
インジェスト クライアントは、サーバーレス方式で専用の Azure Storage アカウントをカスタム Azure Functions に接続し、サービスに文字起こし要求を渡すことによって機能します。 文字起こしされたオーディオ ファイルは、専用の Azure Storage コンテナーに配置されます。
重要
価格は、選択した Azure Function SKU と操作モード (バッチまたはリアルタイム) によって異なります。 このツールでは、大量のボリュームを処理するための Premium Azure Function SKU が既定で作成されます。 詳細については、価格に関するページを参照してください。
内部的には、このツールでは、音声および言語サービスを使用し、スケールアップ、再試行、フェールオーバーを処理するためのベスト プラクティスに従っています。 次の図は、リソースと接続について説明しています。
インジェスト クライアントでは、次の音声サービス機能が使用されます。
- バッチ音声テキスト変換: 話者のダイアライゼーションを含む大量の音声ファイルを非同期で文字起こしします。通常は通話後の分析シナリオで使用されます。 ダイアライゼーションとは、話者を認識し、モノラル チャンネルのオーディオ データに分離するプロセスです。
インジェスト クライアントで使用される言語サービス機能の一部を次に示します。
- 個人を特定できる情報 (PII) の抽出と編集: 会話の文字起こしで機密情報を識別、分類、編集します。
- 感情分析とオピニオン マイニング: 文字起こしを分析し、発話と会話レベルで肯定的、中立的、または否定的な感情を関連付けます。
Azure AI サービスに加えて、次の Azure 製品を使用してソリューションを完了します。
- Azure ストレージ: テレフォニー データと、バッチ文字起こし API から返されるトランスクリプトを格納するために使用されます。 このストレージ アカウントでは通知を利用する必要があります。特に、新しいファイルが追加されたときに通知する必要があります。 通知は文字起こしプロセスのトリガーに利用されます。
- Azure Functions: 録音ごとに Shared Access Signature (SAS) の URI を作成し、HTTP POST 要求をトリガーして文字起こしを開始するために使用されます。 また、Azure Functions は、バッチ文字起こし API で文字起こしを回収し、削除するための要求の作成に使用します。
ツールのカスタマイズ
このツールは、顧客に結果をすばやく表示するように構築されています。 好みの SKU と設定に合わせて、ツールをカスタマイズできます。 SKU は Azure portal から編集でき、コード自体は GitHub で入手できます。
注意
コストをより簡単に把握して追跡するために、同じ専用リソース グループにリソースを作成することをお勧めします。