Azure Communication Services と Azure AI サービスを接続する
Azure Communication Services の Call Automation API を使用すると、開発者は、ドメインに固有のカスタム ビジネス ロジックに基づいてアクションを実行するリアルタイム イベント トリガーを使用して、Azure Communication Services テレフォニー、VoIP、または WebRTC 呼び出しを転送および制御できます。 Call Automation API 内では、開発者は、シンプルな AI を利用した API を使用できます。この API を使用して、パーソナライズされたあいさつメッセージを再生したり、会話型の音声入力を認識し、コンテキストの質問に関する情報を収集して、よりセルフサービス型のモデルを顧客と推進したり、感情分析を使用して顧客サービス全体を改善したりできます。 これらのコンテンツ固有の API は、AI モデルのカスタマイズをサポートし、Azure AI サービスを通じて調整されます。開発者は、AI 機能のために、サービス上のメディア ストリームを終了し、Azure に再度ストリーミングする必要はありません。
企業はワンクリックでセキュリティで保護されたソリューションにアクセスし、ポータルを介してモデルをリンクできます。 また、開発者や企業は資格情報を管理する必要はありません。 Azure AI サービスを接続するには、マネージド ID を使用してユーザー所有のリソースにアクセスします。 管理者はマネージド ID を使用すると、Microsoft Entra 認証をサポートするあらゆるリソースに対して認証を行うことができます。
Azure AI サービスは、プログラミング言語に関係なく、任意のアプリケーションに簡単に統合できます。 Azure portal で Azure リソースを作成する場合は、このオプションを有効にして、Azure AI サービスの URL を指定します。 このシンプルなエクスペリエンスにより、開発者はニーズを満たし、スケーリングし、カスタム ソリューションの設計と保守に時間とリソースを投資しないようにすることができます。
Note
この統合は、Azure AI サービスの限られたリージョンでサポートされています。サポートされているリージョンの詳細については、このドキュメントの下部にある制限事項のセクションを参照してください。 この統合ではマルチサービス Cognitive Service リソースのみがサポートされるため、新しい Azure AI サービスのリソースを作成する場合は、マルチサービス Cognitive Service リソースを作成するか、既存のリソースを接続するときに、それがマルチサービス Cognitive Service リソースであることを確認することをお勧めします。
一般的なユース ケース
音声を再生して認識できるアプリケーションを構築する
Azure AI サービスを Azure Communication Services に接続する機能を使用すると、 テキスト読み上げと音声合成マークアップ言語 (SSML) 構成を使用してカスタム再生機能を有効にし、ユーザーに対してよりカスタマイズされた自然に聞こえる音声を再生できます。 Azure AI サービス接続を通じて、音声テキスト変換サービスを使用して音声応答の認識を組み込むこともできます。音声応答は、アプリケーションのビジネス ロジックを通じて実用的なタスクに変換できます。 これらの関数は、Azure AI サービス内にドメインとリージョンに合わせてカスタマイズされたカスタム モデルを作成する機能と、読み上げおよび認識対象の言語、エクスペリエンスに基づいて構築されたカスタム音声とカスタム モデルを選択する機能に通じてさらに強化できます。
ラン タイム フロー
Azure portal での操作
Azure portal を使用して、Azure Communication Services リソースを Azure AI リソースに接続する必要があります。 この手順を実行するには、次の 2 つの方法があります。
- Azure Communication Services の [Cognitive Services] タブの手順に従って移動する (推奨)。
- マネージド ID を Azure Communication Services リソースに手動で追加する。 この手順の方が高度であり、Azure Communication Services を Azure AI サービスに接続するにはもう少し作業が必要です。
前提条件
- アクティブなサブスクリプションを持ち、Azure portal にアクセスできる Azure アカウントの詳細については、「無料でアカウントを作成する」を参照してください。
- Azure Communication Services リソース。 Azure Communication Services リソースの作成に関する記事を参照してください。
- Azure AI サービス リソース。
Azure portal を使用した接続
Azure Communication Services リソースを開き、[Cognitive Services] タブをクリックします。
システム割り当てマネージド ID が有効になっていない場合、有効にする必要があります。
[Cognitive Services] タブで、[マネージド ID を有効にする] ボタンをクリックします。
システム割り当て ID を有効にします。 この操作により、ID の作成が開始されます。要求が処理されていることを通知するポップアップ通知が表示されます。
マネージド ID が有効になっている場合、[Cognitive Service] タブには、2 つのサービスを接続するボタン [Cognitive Service を接続する] が表示されます。
[Cognitive Service を接続する] をクリックし、[サブスクリプション]、[リソース グループ]、[リソース] を選択して、開いたコンテキスト ペインで [接続] をクリックします。
接続に成功すると、接続が成功したことを確認する緑色のバナーが表示されます。
高度なオプション: マネージド ID を Azure Communication Services リソースに手動で追加する
または、リソースを手動で接続するプロセスを実行する場合は、次の手順に従います。
システム割り当て ID を有効化する
- Azure portal で、Azure Communication Services リソースに移動します。
- [ID] タブを選択します。
- システム割り当て ID を有効にします。 この操作により、ID の作成が開始されます。 要求が処理されていることを通知するポップアップ通知が表示されます。
オプション 1: Azure portal で Azure Cognitive Services からロールを追加する
- Azure Cognitive Services リソースに移動します。
- [アクセス制御 (IAM)] タブを選択します。
- [+ 追加] ボタンをクリックします。
- メニューから [ロールの割り当ての追加] を選択します。
- 割り当てる [Cognitive Services ユーザー] ロールを選択し、[次へ] をクリックします。
- [アクセスの割り当て先] フィールドで、[ユーザー、グループ、またはサービス プリンシパル] を選択します。
- [+ メンバーの選択] を押すと、サイド タブが開きます。
- テキスト ボックスで Azure Communication Services リソース名を検索し、リソースが表示されたらクリックして、[選択] をクリックします。
- [確認と割り当て] をクリックすると、マネージド ID にロールが割り当てられます。
オプション 2: Azure Communication Services の [ID] タブを使用してロールを追加する
- Azure portal で、Azure Communication Services リソースに移動します。
- [ID] タブを選択します。
- [Azure でのロールの割り当て] をクリックします。
- [ロールの割り当ての追加 (プレビュー)] ボタンをクリックすると、[ロールの割り当ての追加 (プレビュー)] タブが開きます。
- [スコープ] で [リソース グループ] を選択します。
- [サブスクリプション] を選択します。
- Cognitive Service を含む [リソース グループ] を選択します。
- ロール [Cognitive Services ユーザー] を選択します。
- [保存] をクリックします。
これで、Azure Communication Service が Azure Cognitive Service リソースにリンクされました。
サポートされている Azure AI サービス リージョン
この Azure Communication Services と Azure AI サービスの統合は、次のリージョンでのみサポートされています。
- centralus
- northcentralus
- southcentralus
- westcentralus
- eastus
- eastus2
- westus
- westus2
- westus3
- canadacentral
- northeurope
- westeurope
- uksouth
- southafricanorth
- centralindia
- eastasia
- southeastasia
- australiaeast
- brazilsouth
- uaenorth
既知の制限事項
- テキスト読み上げのテキスト プロンプトでサポートされる文字数は最大 400 文字です。プロンプトがこれより長い場合は、テキスト読み上げベースの再生アクションに SSML を使用することをお勧めします。
- Speech サービスのクォータ制限を超過したシナリオの場合、こちらに記載されている手順に従って、この制限の引き上げを要求できます。
次のステップ
- テキスト読み上げを使用して呼び出し元に音声を再生する方法について説明します。
- 音声テキスト変換を使用してユーザーによる入力を収集する方法について説明します。