Azure Communication Services と Azure AI サービスを接続する

[アーティクル]
2024-03-06

Azure Communication Services の Call Automation API を使用すると、開発者は、ドメインに固有のカスタムビジネスロジックに基づいてアクションを実行するリアルタイムイベントトリガーを使用して、Azure Communication Services テレフォニー、VoIP、または WebRTC 呼び出しを転送および制御できます。 Call Automation API 内では、開発者は、シンプルな AI を利用した API を使用できます。この API を使用して、パーソナライズされたあいさつメッセージを再生したり、会話型の音声入力を認識し、コンテキストの質問に関する情報を収集して、よりセルフサービス型のモデルを顧客と推進したり、感情分析を使用して顧客サービス全体を改善したりできます。これらのコンテンツ固有の API は、AI モデルのカスタマイズをサポートし、Azure AI サービスを通じて調整されます。開発者は、AI 機能のために、サービス上のメディアストリームを終了し、Azure に再度ストリーミングする必要はありません。

企業はワンクリックでセキュリティで保護されたソリューションにアクセスし、ポータルを介してモデルをリンクできます。また、開発者や企業は資格情報を管理する必要はありません。 Azure AI サービスを接続するには、マネージド ID を使用してユーザー所有のリソースにアクセスします。管理者はマネージド ID を使用すると、Microsoft Entra 認証をサポートするあらゆるリソースに対して認証を行うことができます。

Azure AI サービスは、プログラミング言語に関係なく、任意のアプリケーションに簡単に統合できます。 Azure portal で Azure リソースを作成する場合は、このオプションを有効にして、Azure AI サービスの URL を指定します。このシンプルなエクスペリエンスにより、開発者はニーズを満たし、スケーリングし、カスタムソリューションの設計と保守に時間とリソースを投資しないようにすることができます。

Note

この統合は、Azure AI サービスの限られたリージョンでサポートされています。サポートされているリージョンの詳細については、このドキュメントの下部にある制限事項のセクションを参照してください。この統合ではマルチサービス Cognitive Service リソースのみがサポートされるため、新しい Azure AI サービスのリソースを作成する場合は、マルチサービス Cognitive Service リソースを作成するか、既存のリソースを接続するときに、それがマルチサービス Cognitive Service リソースであることを確認することをお勧めします。

一般的なユースケース

音声を再生して認識できるアプリケーションを構築する

Azure AI サービスを Azure Communication Services に接続する機能を使用すると、テキスト読み上げと音声合成マークアップ言語 (SSML) 構成を使用してカスタム再生機能を有効にし、ユーザーに対してよりカスタマイズされた自然に聞こえる音声を再生できます。 Azure AI サービス接続を通じて、音声テキスト変換サービスを使用して音声応答の認識を組み込むこともできます。音声応答は、アプリケーションのビジネスロジックを通じて実用的なタスクに変換できます。これらの関数は、Azure AI サービス内にドメインとリージョンに合わせてカスタマイズされたカスタムモデルを作成する機能と、読み上げおよび認識対象の言語、エクスペリエンスに基づいて構築されたカスタム音声とカスタムモデルを選択する機能に通じてさらに強化できます。

ランタイムフロー

Azure portal での操作

Azure portal を使用して、Azure Communication Services リソースを Azure AI リソースに接続する必要があります。この手順を実行するには、次の 2 つの方法があります。

Azure Communication Services の [Cognitive Services] タブの手順に従って移動する (推奨)。
マネージド ID を Azure Communication Services リソースに手動で追加する。この手順の方が高度であり、Azure Communication Services を Azure AI サービスに接続するにはもう少し作業が必要です。

前提条件

アクティブなサブスクリプションを持ち、Azure portal にアクセスできる Azure アカウントの詳細については、「無料でアカウントを作成する」を参照してください。
Azure Communication Services リソース。 Azure Communication Services リソースの作成に関する記事を参照してください。
Azure Communication Service Microsoft.Authorization/roleAssignments/write アクセス許可。一般的には Azure RBAC を介して行われます。「Azure portal を使用して Azure ロールを割り当てる」を参照してください。
Azure AI サービスリソース。

Azure portal を使用した接続

Azure Communication Services リソースを開き、[Cognitive Services] タブをクリックします。
システム割り当てマネージド ID が有効になっていない場合、有効にする必要があります。
[Cognitive Services] タブで、[マネージド ID を有効にする] ボタンをクリックします。
システム割り当て ID を有効にします。この操作により、ID の作成が開始されます。要求が処理されていることを通知するポップアップ通知が表示されます。
ID が有効になると、次のような内容が表示されます。
マネージド ID が有効になっている場合、[Cognitive Service] タブには、2 つのサービスを接続するボタン [Cognitive Service を接続する] が表示されます。
[Cognitive Service を接続する] をクリックし、[サブスクリプション]、[リソースグループ]、[リソース] を選択して、開いたコンテキストペインで [接続] をクリックします。
接続に成功すると、接続が成功したことを確認する緑色のバナーが表示されます。
これで、[Cognitive Service] タブに、接続されたサービスが表示されます。

高度なオプション: マネージド ID を Azure Communication Services リソースに手動で追加する

または、リソースを手動で接続するプロセスを実行する場合は、次の手順に従います。

システム割り当て ID を有効化する

Azure portal で、Azure Communication Services リソースに移動します。
[ID] タブを選択します。
システム割り当て ID を有効にします。この操作により、ID の作成が開始されます。要求が処理されていることを通知するポップアップ通知が表示されます。

オプション 1: Azure portal で Azure Cognitive Services からロールを追加する

Azure Cognitive Services リソースに移動します。
[アクセス制御 (IAM)] タブを選択します。
[+ 追加] ボタンをクリックします。
メニューから [ロールの割り当ての追加] を選択します。
割り当てる [Cognitive Services ユーザー] ロールを選択し、[次へ] をクリックします。
[アクセスの割り当て先] フィールドで、[ユーザー、グループ、またはサービスプリンシパル] を選択します。
[+ メンバーの選択] を押すと、サイドタブが開きます。
テキストボックスで Azure Communication Services リソース名を検索し、リソースが表示されたらクリックして、[選択] をクリックします。
[確認と割り当て] をクリックすると、マネージド ID にロールが割り当てられます。

オプション 2: Azure Communication Services の [ID] タブを使用してロールを追加する

Azure portal で、Azure Communication Services リソースに移動します。
[ID] タブを選択します。
[Azure でのロールの割り当て] をクリックします。
[ロールの割り当ての追加 (プレビュー)] ボタンをクリックすると、[ロールの割り当ての追加 (プレビュー)] タブが開きます。
[スコープ] で [リソースグループ] を選択します。
[サブスクリプション] を選択します。
Cognitive Service を含む [リソースグループ] を選択します。
ロール [Cognitive Services ユーザー] を選択します。
[保存] をクリックします。

これで、Azure Communication Service が Azure Cognitive Service リソースにリンクされました。

サポートされている Azure AI サービスリージョン

この Azure Communication Services と Azure AI サービスの統合は、次のリージョンでのみサポートされています。

centralus
northcentralus
southcentralus
westcentralus
eastus
eastus2
westus
westus2
westus3
canadacentral
northeurope
westeurope
uksouth
southafricanorth
centralindia
eastasia
southeastasia
australiaeast
brazilsouth
uaenorth

既知の制限事項

テキスト読み上げのテキストプロンプトでサポートされる文字数は最大 400 文字です。プロンプトがこれより長い場合は、テキスト読み上げベースの再生アクションに SSML を使用することをお勧めします。
Speech サービスのクォータ制限を超過したシナリオの場合、こちらに記載されている手順に従って、この制限の引き上げを要求できます。

次のステップ

テキスト読み上げを使用して呼び出し元に音声を再生する方法について説明します。
音声テキスト変換を使用してユーザーによる入力を収集する方法について説明します。