テキストからキーフレーズを抽出する

[アーティクル]
05/06/2019

重要

Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。その日までに、Azure Machine Learning に切り替えすることをお勧めします。

2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。

ML Studio (クラシック) から Azure Machine Learning への機械学習プロジェクトの移動に関する情報を参照してください。
Azure Machine Learning についての詳細を参照してください。

ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。

指定されたテキストからキーフレーズを抽出します

カテゴリ: Text Analytics

注意

適用対象: Machine Learning Studio (クラシック)のみ

類似のドラッグアンドドロップモジュールは Azure Machine Learning デザイナーで使用できます。

モジュールの概要

この記事では Machine Learning Studio (クラシック) の [テキストからのキーフレーズの抽出] モジュールを使用して、テキスト列を事前に処理する方法について説明します。自然言語のテキストの列を指定すると、モジュールは1つ以上の意味のある語句を抽出します。語句には、単一の単語、複合名詞、または修飾子と名詞を使用できます。

このモジュールは、キーフレーズを抽出するための自然言語処理 Api のラッパーです。語句は、さまざまな理由により、文のコンテキストで意味のあるものとして分析されます。

語句は、文のトピックをキャプチャします。
語句には、センチメントを示す修飾子と名詞の組み合わせが含まれています。

たとえば、分析された文が "私たちはすばらしいホテルだったので、décor とフレンドリスタッフが一意である" とします。

Text モジュールからのキーフレーズの抽出は、次のキーフレーズを返す場合があります。

すばらしいホテル
フレンドリスタッフ
一意の décor

テキストからキーフレーズを抽出する方法

キーフレーズを抽出するには、テキスト列を含むデータセットを接続する必要があります。

Machine Learning Studio (クラシック) で、テキストモジュールの Extract キーフレーズを実験に追加します。次に、少なくとも1つのフルテキスト列を含むデータセットを接続します。
列セレクターを使用して、キーフレーズの抽出元となる文字列型の列を選択します。
[ 言語] で、語句を分析するときに使用する言語を選択します。言語を指定した場合、対象言語の語句だけが出力されます。
テキスト列に複数の言語の語句が含まれている場合は、[ 列で識別される言語] オプションを選択します。新しい列セレクターが表示されます。このボックスでは、言語識別子を含むデータセット内の列を選択できます。言語識別子には、言語名または Iso6391 カルチャ識別子を指定できます。たとえば、"English" または "en" は許容されます。

ヒント

テキストからキーフレーズを抽出する前に、[言語の検出] モジュールを使用して各行の言語を識別し、識別子を生成します。言語識別子列に、 テキストからのキーフレーズの抽出でサポートされていない言語が含まれている場合、エラーが発生します。

結果

モジュールの出力は、コンマ区切りのキーフレーズの列を含むデータセットです。

たとえば、次の例では、複数の言語のレビューを含む入力データセットを検索します。

キーフレーズ
斬新、核海底、優れた書籍、adventure story、大量のイベント、優れた文字
misterio、personajes、ファン、aventura、isla の入門

すべての出力フレーズは、1つの列に含まれています。その他の列は渡されず、識別子は追加されません。ただし、出力フレーズをソーステキストに合わせて配置する場合は、列の追加モジュールを使用して、出力フレーズを入力で再結合ことができます。
キーフレーズ抽出の出力は、個々の語句の言語にフラグを付けることはできません。
[ キーフレーズの抽出 ] モジュールでサポートされていない言語が含まれている場合は、エラーが発生します (0039)。エラーを回避するには、互換性のない言語識別子を持つ入力テキストをフィルターで除外してください。

他の言語の行がほとんどない場合は、言語識別子を省略し、1つの言語の選択を使用してすべてのテキストを分析することで、エラーを回避することもできます。ただし、これを行うと、他の言語のすべての文が1つのキーフレーズとして出力される可能性があるため、結果が非常に悪くなります。

例

次の例では、このモジュールを使用してキーフレーズを抽出し、語句から word cloud を構築する方法を示します。キーフレーズを抽出して Word cloud を表示する

Machine Learning を使用したテキスト処理の例については、 Azure AI Galleryを参照してください。

テクニカルノート

現在、このモジュールは次の言語をサポートしています。

オランダ語
英語
フランス語
ドイツ語
イタリア語
スペイン語

その他の言語については、Azure Cognitive Services でText Analytics APIを使用することを検討してください。詳細については、「 Text Analytics でのキーフレーズの抽出方法」を参照してください。

想定される入力

名前	型	説明
データセット	データテーブル	処理されるテキストを含むテーブルです。

モジュールのパラメーター

名前	種類	Range	省略可能	Default	説明
カルチャ-言語列	ColumnSelection		言語: 列に言語が含まれています		カルチャ言語情報を格納している列の名前または1から始まるインデックス
テキスト列	ColumnSelection		必須		テキスト列の名前または1から始まるインデックス。
言語	T_Language	英語、スペイン語、フランス語、オランダ語、ドイツ語、イタリア語、列に言語を含む	必須	英語	処理するテキストの言語を選択します。

出力

名前	型	説明
結果のデータセット	データテーブル	抽出されたキーフレーズ

例外

例外	説明
エラー 0003	1 つまたは複数の入力が null または空の場合、例外が発生します。
エラー 0010	入力データセットで一致している必要のある列名があっても、そうなっていない場合、例外が発生します。
エラー 0016	モジュールに渡される入力データセットには互換性のある列の型が含まれる必要があっても、そうなっていない場合、例外が発生します。
エラー 0008	パラメーターが範囲内にない場合、例外が発生します。

Studio (クラシック) モジュール固有のエラーの一覧については、「 Machine Learning エラーコード」を参照してください。

API 例外の一覧については、「 Machine Learning REST API のエラーコード」を参照してください。

こちらもご覧ください

Text Analytics
モジュールの一覧 (アルファベット順)