クライアントで通話の文字起こしの状態を表示する

[アーティクル]
01/30/2025

文字起こしする前に、通話のすべての参加者から同意を収集する必要があります。 Microsoft Teams を使用すると、ユーザーは会議や通話で文字起こしを開始できます。文字起こしが開始されたときには、イベントを受け取ります。通話または会議に参加する前に文字起こしが開始された場合は、文字起こしの状態を確認できます。会議または通話で文字起こしを必要としていて、既に収集している場合は、文字起こしに明示的に同意することができます。

前提条件

アクティブなサブスクリプションが含まれる Azure アカウント。無料でアカウントを作成できます。
デプロイ済みの Communication Services リソース。 Communication Services リソースを作成します。
通話クライアントを有効にするためのユーザーアクセストークン。詳細については、アクセストークンの作成と管理に関する記事を参照してください。
省略可能: クイックスタートを完了して、アプリケーションに音声通話を追加します

サポート

次の表では、Azure Communication Services での通話文字起こしのサポートを定義します。

ID と通話の種類

次の表は、特定の通話の種類と ID の文字起こしのサポートを示しています。

ID	Teams 会議	ルーム	1 対 1 の通話	グループ通話	1:1 Teams 相互運用機能通話	グループチームの相互運用機能通話
Communication Services ユーザー	✔️				✔️	✔️
Microsoft 365 ユーザー	✔️				✔️	✔️

操作

次の表は、個々の ID の種類に対する SDK の呼び出しにおける個々の API のサポートを示しています。

操作	Communication Services ユーザー	Microsoft 365 ユーザー
文字起こしが開始されたイベントを取得する	✔️	✔️
文字起こしの状態を取得する	✔️	✔️
文字起こしを開始または停止する
明示的な同意が必要かどうかを確認する	✔️[1]	✔️[1]
文字起こしに明示的な同意を与える	✔️[1]	✔️[1]

[1] この機能は、Teams 会議とグループ Teams の相互運用性通話でのみ使用できます。

SDK

次の表は、個々の Azure Communication Services SDK での文字起こしのサポートを示しています。

プラットフォーム	Web	Web UI	iOS	iOS UI	Android	Android UI	Windows
サポートの有無	✔️	✔️[1]	✔️[1]	✔️[1]	✔️[1]	✔️[1]	✔️[1]

[1] これらの SDK では明示的な同意がサポートされていません。

SDK のインストール

npm install コマンドを使用して、JavaScript 用の Azure Communication Services の Common SDK と Calling SDK をインストールします。

npm install @azure/communication-common --save
npm install @azure/communication-calling --save

必要なオブジェクトを初期化する

CallClient インスタンスは、ほとんどの通話操作に必要です。新しい CallClient インスタンスを作成する際に、Logger インスタンスなどのカスタムオプションを使用してこれを構成できます。

CallClient インスタンスでは、createCallAgent を呼び出すことで CallAgent インスタンスを作成できます。このメソッドでは、非同期的に CallAgent インスタンスオブジェクトが返されます。

createCallAgent メソッドでは、CommunicationTokenCredential が引数として使用されます。これは、ユーザーアクセストークンを受け取ります。

CallClient インスタンスで getDeviceManager メソッドを使用して、deviceManager にアクセスできます。

const { CallClient } = require('@azure/communication-calling');
const { AzureCommunicationTokenCredential} = require('@azure/communication-common');
const { AzureLogger, setLogLevel } = require("@azure/logger");

// Set the logger's log level
setLogLevel('verbose');

// Redirect log output to console, file, buffer, REST API, or whatever location you want
AzureLogger.log = (...args) => {
    console.log(...args); // Redirect log output to console
};

const userToken = '<USER_TOKEN>';
callClient = new CallClient(options);
const tokenCredential = new AzureCommunicationTokenCredential(userToken);
const callAgent = await callClient.createCallAgent(tokenCredential, {displayName: 'optional Azure Communication Services user name'});
const deviceManager = await callClient.getDeviceManager()

Microsoft インフラストラクチャへの SDK 接続を最適に管理する方法

Call Agent インスタンスは、(呼び出しを結合または開始するために) 呼び出しを管理するのに役立ちます。呼び出しの SDK を機能させるには、Microsoft インフラストラクチャに接続して着信呼び出しの通知を取得し、他の呼び出しの詳細を調整する必要があります。 Call Agent には、次の 2 つの状態があります。

接続済み - Connected の Call Agent connectionStatue 値は、クライアント SDK が接続されており、Microsoft インフラストラクチャから通知を受信できることを意味します。

切断済み - Disconnected の Call Agent connectionStatue 値は、SDK の正常な接続を妨げる問題があることを示します。 Call Agent を再作成する必要があります。

invalidToken: トークンが有効期限切れであるか、無効な場合、Call Agent インスタンスがこのエラーで切断されます。
connectionIssue: クライアントの Microsoft インフラストラクチャへの接続で問題が発生した場合、何度も再試行した後に、Call Agent が connectionIssue エラーを提示します。

connectionState プロパティの現在の値を調べて、ローカル Call Agent が Microsoft インフラストラクチャに接続されているかどうかを確認できます。アクティブな呼び出し中に、connectionStateChanged イベントをリッスンして、Call Agent の状態が接続済みから切断済みに変化したかどうかを判断できます。

const connectionState = callAgentInstance.connectionState;
console.log(connectionState); // it may return either of 'Connected' | 'Disconnected'

const connectionStateCallback = (args) => {
    console.log(args); // it will return an object with oldState and newState, each of having a value of either of 'Connected' | 'Disconnected'
    // it will also return reason, either of 'invalidToken' | 'connectionIssue'
}
callAgentInstance.on('connectionStateChanged', connectionStateCallback);

警告

Microsoft Teams の変更により、バージョン 1.21 以下の JavaScript 呼び出し SDK は Teams の文字起こしを停止し、Teams ユーザーが文字起こしを開始することをブロックします。通話や会議で Teams の文字起こしを利用する場合は、呼び出し SDK をバージョン 1.22 以降にアップグレードする必要があります。

文字起こしを呼び出す

Transcription は、クラス Call の拡張機能です。まず、文字起こし機能 API オブジェクトを取得する必要があります。

const callTranscriptionFeature = call.feature(Features.Transcription);

プロパティ isTranscriptionActive で文字起こしの状態を確認できます。値が true に設定されている場合、文字起こしはアクティブです。

const isTranscriptionActive = callTranscriptionFeature.isTranscriptionActive;

文字起こしの状態が変化したときにトリガーされるイベントを受信登録できます。

const isTranscriptionActiveChangedHandler = () => {
  console.log(callTranscriptionFeature.isTranscriptionActive);
};
callTranscriptionFeature.on('isTranscriptionActiveChanged', isTranscriptionActiveChangedHandler);

イベントの登録を解除するには、次のコードを使用します。

callTranscriptionFeature.off('isTranscriptionActiveChanged', isTranscriptionActiveChangedHandler);

Teams の会議または通話が、レコーディングまたは文字起こしに明示的な同意を要求するように構成されている場合は、ユーザーの文字起こしまたはレコーディングを許可するために、ユーザーから明示的な同意を集める必要があります。会議に参加するときに事前に同意するか、レコーディングまたは文字起こしの開始時に事後対応的に同意することができます。明示的な同意が与えられるまで、参加者のオーディオ、ビデオ、画面共有は、文字起こし中は無効になります。

プロパティ isTeamsConsentRequired により、会議の文字起こしに明示的な同意が必要かどうかを確認できます。値が true に設定されている場合は、call に明示的な同意が必要です。

const isTranscriptionConsentRequired = callTranscriptionFeature.isTeamsConsentRequired;

文字起こしに対するユーザーの同意を既に取得している場合は、grantTeamsConsent() メソッドを呼び出して、サービスへの明示的な同意を示すことができます。この同意は 1 つの call セッションでのみ有効であり、ユーザーは会議に再参加する場合、もう一度同意する必要があります。

callTranscriptionFeature.grantTeamsConsent();

文字起こしがアクティブであるときに、明示的な同意が必要であるものの、まだ与えられていない場合、オーディオ、ビデオ、または画面の共有を有効にしようとすると失敗します。クラス ParticipantCapabilities のプロパティ reason で、機能turnVideoOn、unmuteMic、および shareScreen について確認することで、この状況を認識できます。それらの機能は、フィーチャー call.feature(Features.Capabilities) にあります。それらの機能では、ユーザーが明示的な同意を提供する必要がある場合に、理由 ExplicitConsentRequired が返されます。

SDK のインストール

プロジェクトレベルの build.gradle ファイルを見つけて、buildscript と allprojects の下のリポジトリの一覧に mavenCentral() を追加します。

buildscript {
    repositories {
    ...
        mavenCentral()
    ...
    }
}

allprojects {
    repositories {
    ...
        mavenCentral()
    ...
    }
}

次に、モジュールレベルの build.gradle ファイルで、次の行を dependencies セクションに追加します。

dependencies {
    ...
    implementation 'com.azure.android:azure-communication-calling:1.0.0'
    ...
}

必要なオブジェクトを初期化する

CallAgent インスタンスを作成するには、CallClient インスタンス上で createCallAgent メソッドを呼び出す必要があります。この呼び出しは、CallAgent インスタンスオブジェクトを非同期に返します。

createCallAgent メソッドは、アクセストークンをカプセル化する CommunicationUserCredential を引数として受け取ります。

DeviceManager にアクセスするには、まず callAgent インスタンスを作成する必要があります。それから、CallClient.getDeviceManager メソッドを使用して DeviceManager を取得することができます。

String userToken = '<user token>';
CallClient callClient = new CallClient();
CommunicationTokenCredential tokenCredential = new CommunicationTokenCredential(userToken);
android.content.Context appContext = this.getApplicationContext(); // From within an activity, for instance
CallAgent callAgent = callClient.createCallAgent(appContext, tokenCredential).get();
DeviceManager deviceManager = callClient.getDeviceManager(appContext).get();

呼び出し元の表示名を設定するには、この代替メソッドを使用します。

String userToken = '<user token>';
CallClient callClient = new CallClient();
CommunicationTokenCredential tokenCredential = new CommunicationTokenCredential(userToken);
android.content.Context appContext = this.getApplicationContext(); // From within an activity, for instance
CallAgentOptions callAgentOptions = new CallAgentOptions();
callAgentOptions.setDisplayName("Alice Bob");
DeviceManager deviceManager = callClient.getDeviceManager(appContext).get();
CallAgent callAgent = callClient.createCallAgent(appContext, tokenCredential, callAgentOptions).get();

警告

Azure Communication Services Calling Android SDK のバージョン 1.1.0 およびベータリリースバージョン 1.1.0-beta.1 までは、isTranscriptionActive および addOnIsTranscriptionActiveChangedListener は Call オブジェクトの一部になっています。新しいベータリリースでは、これらの API は、以下に説明するように Call の拡張機能として移動されています。

通話の文字起こしは、コア Call オブジェクトの拡張機能です。まず、文字起こし機能オブジェクトを取得する必要があります。

TranscriptionCallFeature callTranscriptionFeature = call.feature(Features.TRANSCRIPTION);

次に、通話が文字起こしされているかどうかを確認するために、callTranscriptionFeature の isTranscriptionActive プロパティを調べます。 boolean を返します。

boolean isTranscriptionActive = callTranscriptionFeature.isTranscriptionActive();

文字起こしの変更をサブスクライブすることもできます。

private void handleCallOnIsTranscriptionChanged(PropertyChangedEvent args) {
    boolean isTranscriptionActive = callTranscriptionFeature.isTranscriptionActive();
}

callTranscriptionFeature.addOnIsTranscriptionActiveChangedListener(handleCallOnIsTranscriptionChanged);

システムを設定する

次の手順のようにして、システムを設定します。

Xcode プロジェクトを作成する

Xcode で、新しい iOS プロジェクトを作成し、[単一ビューアプリ] テンプレートを選択します。この記事では SwiftUI フレームワークを使うので、[言語] を [Swift] に、[インターフェイス] を [SwiftUI] に設定する必要があります。

この記事では、テストは作成しません。 [Include Tests] チェックボックスはオフにしてもかまいません。

Xcode 内にプロジェクトを作成するためのウィンドウを示すスクリーンショット。

CocoaPods を使用してパッケージと依存関係をインストールする

この例のように、アプリケーション用の Podfile を作成します。

platform :ios, '13.0'
use_frameworks!
target 'AzureCommunicationCallingSample' do
    pod 'AzureCommunicationCalling', '~> 1.0.0'
end

pod install を実行します。
Xcode を使用して .xcworkspace を開きます。

マイクへのアクセスを要求する

デバイスのマイクにアクセスするには、NSMicrophoneUsageDescription を使用してアプリの情報プロパティ一覧を更新する必要があります。関連付けられる値には、システムがユーザーにアクセスを要求するために使うダイアログに含まれる文字列を設定します。

プロジェクトツリーの [Info.plist] エントリを右クリックし、[Open As]>[Source Code] を選択します。最上位の <dict> セクションに以下の行を追加してから、ファイルを保存します。

<key>NSMicrophoneUsageDescription</key>
<string>Need microphone access for VOIP calling.</string>

アプリのフレームワークを設定する

プロジェクトの ContentView.swift ファイルを開きます。ファイルの先頭に import 宣言を追加して、AzureCommunicationCalling ライブラリをインポートします。さらに、AVFoundation をインポートします。これは、コードでのオーディオアクセス許可の要求に必要です。

import AzureCommunicationCalling
import AVFoundation

CallAgent を初期化する

CallClient から CallAgent インスタンスを作成するには、初期化された後に CallAgent オブジェクトを非同期に返す callClient.createCallAgent メソッドを使用する必要があります。

通話クライアントを作成するには、CommunicationTokenCredential オブジェクトを渡します。

import AzureCommunication

let tokenString = "token_string"
var userCredential: CommunicationTokenCredential?
do {
    let options = CommunicationTokenRefreshOptions(initialToken: token, refreshProactively: true, tokenRefresher: self.fetchTokenSync)
    userCredential = try CommunicationTokenCredential(withOptions: options)
} catch {
    updates("Couldn't created Credential object", false)
    initializationDispatchGroup!.leave()
    return
}

// tokenProvider needs to be implemented by Contoso, which fetches a new token
public func fetchTokenSync(then onCompletion: TokenRefreshOnCompletion) {
    let newToken = self.tokenProvider!.fetchNewToken()
    onCompletion(newToken, nil)
}

作成した CommunicationTokenCredential オブジェクトを CallClient に渡し、表示名を設定します。

self.callClient = CallClient()
let callAgentOptions = CallAgentOptions()
options.displayName = " iOS Azure Communication Services User"

self.callClient!.createCallAgent(userCredential: userCredential!,
    options: callAgentOptions) { (callAgent, error) in
        if error == nil {
            print("Create agent succeeded")
            self.callAgent = callAgent
        } else {
            print("Create agent failed")
        }
})

警告

Azure Communication Services Calling iOS SDK のバージョン 1.1.0 およびベータリリースバージョン 1.1.0-beta.1 までは、isTranscriptionActive は Call オブジェクトの一部になっていて、didChangeTranscriptionState は CallDelegate デリゲートの一部になっています。新しいベータリリースでは、これらの API は、以下に説明するように Call の拡張機能として移動されています。

通話の文字起こしは、コア Call オブジェクトの拡張機能です。まず、文字起こし機能オブジェクトを取得する必要があります。

let callTranscriptionFeature = call.feature(Features.transcription)

次に、通話が文字起こしされているかどうかを確認するために、callTranscriptionFeature の isTranscriptionActive プロパティを調べます。 Bool を返します。

let isTranscriptionActive = callTranscriptionFeature.isTranscriptionActive;

イベント didChangeTranscriptionState を使用してクラスに TranscriptionCallFeatureDelegate 文字起こしを実装することにより、文字起こしの変更をサブスクライブすることもできます。

callTranscriptionFeature.delegate = self

// didChangeTranscriptionState is a member of TranscriptionCallFeatureDelegate
public func transcriptionCallFeature(_ transcriptionCallFeature: TranscriptionCallFeature, didChangeTranscriptionState args: PropertyChangedEventArgs) {
    let isTranscriptionActive = callTranscriptionFeature.isTranscriptionActive
}

システムを設定する

次の手順のようにして、システムを設定します。

Visual Studio プロジェクトの作成

ユニバーサル Windows プラットフォームアプリの場合は、Visual Studio 2022 で、新しい空のアプリ (ユニバーサル Windows) プロジェクトを作成します。プロジェクト名を入力した後、10.0.17763.0 より後の Windows SDK を自由に選択できます。

WinUI 3 アプリの場合、Blank App, Packaged (WinUI 3 in Desktop) テンプレートで新しいプロジェクトを作成し、シングルページの WinUI 3 アプリを設定します。 Windows App SDK バージョン 1.3 以降が必要です。

NuGet パッケージマネージャーを使用してパッケージと依存関係をインストールする

Calling SDK の API とライブラリは、NuGet パッケージにより一般公開されています。

Calling SDK NuGet パッケージを検索、ダウンロード、インストールするには:

[ツール]>[NuGet パッケージマネージャー]>[ソリューションの NuGet パッケージの管理] を選んで、NuGet パッケージマネージャーを開きます。
[参照] を選んでから、検索ボックスに「Azure.Communication.Calling.WindowsClient」と入力します。
[プレリリースを含める] チェックボックスがオンになっていることを確認します。
Azure.Communication.Calling.WindowsClient パッケージを選び、Azure.Communication.Calling.WindowsClient1.4.0-beta.1 以降のバージョンを選びます。
右側のペインで、Azure Communication Services プロジェクトに対応するチェックボックスをオンにします。
[インストール] を選択します。

通話の文字起こしは、コア Call オブジェクトの拡張機能です。まず、文字起こし機能オブジェクトを取得する必要があります。

TranscriptionCallFeature transcriptionFeature = call.Features.Transcription;

次に、通話が文字起こしされているかどうかを確認するために、transcriptionFeature の IsTranscriptionActive プロパティを調べます。 boolean を返します。

boolean isTranscriptionActive = transcriptionFeature.isTranscriptionActive;

文字起こしの変更をサブスクライブすることもできます。

private async void Call__OnIsTranscriptionActiveChanged(object sender, PropertyChangedEventArgs args)
    boolean isTranscriptionActive = transcriptionFeature.IsTranscriptionActive();
}

transcriptionFeature.IsTranscriptionActiveChanged += Call__OnIsTranscriptionActiveChanged;

SDK との互換性

次の表に、個々の API をサポートする SDK の最小バージョンを示します。

操作	Web	Web UI	iOS	iOS UI	Android	Android UI	Windows
文字起こしが開始されたイベントを取得する	1.0.0、1.25.3-beta.1	1.0.0、1.0.0-beta.8	2.1.0、2.1.0-beta.1	1.0.0、1.0.0-beta.8	1.1.0、1.2.0-beta.1	1.0.0、1.0.0-beta.8	1.0.0、1.0.0-beta.31
文字起こしの状態を取得する	1.0.0、1.25.3-beta.1	1.0.0、1.0.0-beta.8	2.1.0、2.1.0-beta.1	1.0.0、1.0.0-beta.8	1.1.0、1.2.0-beta.1	1.0.0、1.0.0-beta.8	1.0.0、1.0.0-beta.31
明示的な同意が必要かどうかを確認する	1.31.2、1.32.1-beta.1	❌	❌	❌	❌	❌	❌
記録に明示的な同意を与える	1.31.2、1.32.1-beta.1	❌	❌	❌	❌	❌	❌

次の方法で共有

クライアントで通話の文字起こしの状態を表示する

前提条件

サポート

ID と通話の種類

操作

SDK

SDK のインストール

必要なオブジェクトを初期化する

Microsoft インフラストラクチャへの SDK 接続を最適に管理する方法

文字起こしを呼び出す

SDK のインストール

必要なオブジェクトを初期化する

システムを設定する

Xcode プロジェクトを作成する

CocoaPods を使用してパッケージと依存関係をインストールする

マイクへのアクセスを要求する

アプリのフレームワークを設定する

CallAgent を初期化する

システムを設定する

Visual Studio プロジェクトの作成

NuGet パッケージマネージャーを使用してパッケージと依存関係をインストールする

SDK との互換性

次のステップ

フィードバック

その他のリソース

次の方法で共有

クライアントで通話の文字起こしの状態を表示する

前提条件

サポート

ID と通話の種類

操作

SDK

SDK のインストール

必要なオブジェクトを初期化する

Microsoft インフラストラクチャへの SDK 接続を最適に管理する方法

文字起こしを呼び出す

明示的な同意

SDK のインストール

必要なオブジェクトを初期化する

システムを設定する

Xcode プロジェクトを作成する

CocoaPods を使用してパッケージと依存関係をインストールする

マイクへのアクセスを要求する

アプリのフレームワークを設定する

CallAgent を初期化する

システムを設定する

Visual Studio プロジェクトの作成

NuGet パッケージ マネージャーを使用してパッケージと依存関係をインストールする

SDK との互換性

次のステップ

フィードバック

その他のリソース

NuGet パッケージマネージャーを使用してパッケージと依存関係をインストールする