音声アシスタントとは

[アーティクル]
03/10/2025

音声アシスタントを音声サービスと共に使用すると、開発者は、それらのアプリケーションとエクスペリエンスのために、自然で人間のような会話型インターフェイスを作成できます。音声アシスタントサービスは、デバイスとアシスタントの実装の間で高速かつ信頼性の高い対話機能を提供します。

アシスタントソリューションを選択する

音声アシスタントを作成する最初の手順は、アシスタントで何を行いたいかを決めることです。音声サービスには、アシスタントの対話を精巧に作り上げるための多様な補完的ソリューションが用意されています。 "シアトルに行きたい" や "どんなピザを注文できるか" といったフレーズを含むオープンエンドな会話をアプリケーションでサポートしてほしい場合もあるでしょう。

Speech SDK を使用して音声アシスタントを構築するための参照アーキテクチャ

音声アシスタントのオーケストレーションサービスフローの概念図

コア機能

アシスタントの対話を作成する手段としてカスタムキーワードやその他のソリューションのどちらを選択しとしても、その豊富なカスタマイズ機能を使用して、ブランド、製品、パーソナリティに合わせてアシスタントをカスタマイズできます。

カテゴリ	特徴
カスタムキーワード	ユーザーは、"Hey Contoso" のようなカスタムキーワードを使用してアシスタントとの会話を開始できます。アプリではこれを、Speech SDK のカスタムキーワードエンジンで行います。それについては、カスタムキーワードの使用を開始することに関するページを参照することで構成できます。音声アシスタントでは、サービス側のキーワード検証を使用して、(デバイス単体の場合と比べて) キーワードアクティブ化の正確性を高めることができます。
音声テキスト変換	音声アシスタントでは、音声サービスの音声テキスト変換を使用して、リアルタイムオーディオを認識されたテキストに変換します。このテキストは文字起こしされているため、アシスタントの実装とクライアントアプリケーションのどちらからでも利用できます。
テキスト読み上げ	アシスタントからのテキスト応答は、音声サービスのテキスト読み上げによって合成されます。この合成は、クライアントアプリケーションでオーディオストリームとして利用できるようになります。 Microsoft では、独自のカスタム高品質ニューラルテキスト読み上げ (TTS 音声) を構築してブランドに音声を加える機能を提供しています。

サンプルコードとチュートリアル

音声アシスタントを作成するためのサンプルコードは、GitHub の Azure-Samples/Cognitive-Services-Voice-Assistant で入手できます。

カスタマイズ

音声サービスを使用して作成した音声アシスタントでは、さまざまなカスタマイズオプションを使用できます。

Note

カスタマイズオプションは言語やロケールによって異なります。詳細については、サポートされている言語に関するページを参照してください。

次の方法で共有

音声アシスタントとは

アシスタントソリューションを選択する

Speech SDK を使用して音声アシスタントを構築するための参照アーキテクチャ

コア機能

サンプルコードとチュートリアル

カスタマイズ

フィードバック

その他のリソース

次の方法で共有

音声アシスタントとは

アシスタント ソリューションを選択する

Speech SDK を使用して音声アシスタントを構築するための参照アーキテクチャ

コア機能

サンプル コードとチュートリアル

カスタマイズ

関連するコンテンツ

フィードバック

その他のリソース

アシスタントソリューションを選択する

サンプルコードとチュートリアル