次の方法で共有


テキストからキー フレーズを抽出する

重要

Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。

2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。

ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。

指定されたテキストからキーフレーズを抽出します

カテゴリ: Text Analytics

注意

適用対象: Machine Learning Studio (クラシック)のみ

類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。

モジュールの概要

この記事では Machine Learning Studio (クラシック) の [テキストからのキーフレーズの抽出] モジュールを使用して、テキスト列を事前に処理する方法について説明します。 自然言語のテキストの列を指定すると、モジュールは1つ以上の意味のある語句を抽出します。 語句には、単一の単語、複合名詞、または修飾子と名詞を使用できます。

このモジュールは、キーフレーズを抽出するための自然言語処理 Api のラッパーです。 語句は、さまざまな理由により、文のコンテキストで意味のあるものとして分析されます。

  • 語句は、文のトピックをキャプチャします。
  • 語句には、センチメントを示す修飾子と名詞の組み合わせが含まれています。

たとえば、分析された文が "私たちはすばらしいホテルだったので、décor とフレンドリスタッフが一意である" とします。

Text モジュールからのキーフレーズの抽出は、次のキーフレーズを返す場合があります。

  • すばらしいホテル
  • フレンドリスタッフ
  • 一意の décor

テキストからキーフレーズを抽出する方法

キーフレーズを抽出するには、テキスト列を含むデータセットを接続する必要があります。

  1. Machine Learning Studio (クラシック) で、テキストモジュールの Extract キーフレーズを実験に追加します。 次に、少なくとも1つのフルテキスト列を含むデータセットを接続します。

  2. 列セレクターを使用して、キーフレーズの抽出元となる文字列型の列を選択します。

  3. [ 言語] で、語句を分析するときに使用する言語を選択します。 言語を指定した場合、対象言語の語句だけが出力されます。

  4. テキスト列に複数の言語の語句が含まれている場合は、[ 列で識別される言語] オプションを選択します。 新しい列セレクターが表示されます。このボックスでは、言語識別子を含むデータセット内の列を選択できます。 言語識別子には、言語名または Iso6391 カルチャ識別子を指定できます。 たとえば、"English" または "en" は許容されます。

    ヒント

    テキストからキーフレーズを抽出する前に、[言語の検出] モジュールを使用して各行の言語を識別し、識別子を生成します。 言語識別子列に、 テキストからのキーフレーズの抽出でサポートされていない言語が含まれている場合、エラーが発生します。

結果

モジュールの出力は、コンマ区切りのキーフレーズの列を含むデータセットです。

たとえば、次の例では、複数の言語のレビューを含む入力データセットを検索します。

キーフレーズ
斬新、核海底、優れた書籍、adventure story、大量のイベント、優れた文字
misterio、personajes、ファン、aventura、isla の入門
  • すべての出力フレーズは、1つの列に含まれています。その他の列は渡されず、識別子は追加されません。 ただし、出力フレーズをソーステキストに合わせて配置する場合は、 列の追加 モジュールを使用して、出力フレーズを入力で再結合ことができます。

  • キーフレーズ抽出の出力は、個々の語句の言語にフラグを付けることはできません。

  • [ キーフレーズの抽出 ] モジュールでサポートされていない言語が含まれている場合は、エラーが発生します (0039)。 エラーを回避するには、互換性のない言語識別子を持つ入力テキストをフィルターで除外してください。

    他の言語の行がほとんどない場合は、言語識別子を省略し、1つの言語の選択を使用してすべてのテキストを分析することで、エラーを回避することもできます。 ただし、これを行うと、他の言語のすべての文が1つのキーフレーズとして出力される可能性があるため、結果が非常に悪くなります。

次の例では、このモジュールを使用してキーフレーズを抽出し、語句から word cloud を構築する方法を示します。キーフレーズを抽出して Word cloud を表示する

Machine Learning を使用したテキスト処理の例については、 Azure AI Galleryを参照してください。

テクニカル ノート

現在、このモジュールは次の言語をサポートしています。

  • オランダ語
  • 英語
  • フランス語
  • ドイツ語
  • イタリア語
  • スペイン語

その他の言語については、Azure Cognitive Services でText Analytics APIを使用することを検討してください。 詳細については、「 Text Analytics でのキーフレーズの抽出方法」を参照してください。

想定される入力

名前 説明
データセット データ テーブル 処理されるテキストを含むテーブルです。

モジュールのパラメーター

名前 種類 Range 省略可能 Default 説明
カルチャ-言語列 ColumnSelection 言語: 列に言語が含まれています カルチャ言語情報を格納している列の名前または1から始まるインデックス
テキスト列 ColumnSelection 必須 テキスト列の名前または1から始まるインデックス。
言語 T_Language 英語、スペイン語、フランス語、オランダ語、ドイツ語、イタリア語、列に言語を含む 必須 英語 処理するテキストの言語を選択します。

出力

名前 説明
結果のデータセット データ テーブル 抽出されたキーフレーズ

例外

例外 説明
エラー 0003 1 つまたは複数の入力が null または空の場合、例外が発生します。
エラー 0010 入力データセットで一致している必要のある列名があっても、そうなっていない場合、例外が発生します。
エラー 0016 モジュールに渡される入力データセットには互換性のある列の型が含まれる必要があっても、そうなっていない場合、例外が発生します。
エラー 0008 パラメーターが範囲内にない場合、例外が発生します。

Studio (クラシック) モジュール固有のエラーの一覧については、「 Machine Learning エラーコード」を参照してください。

API 例外の一覧については、「 Machine Learning REST API のエラーコード」を参照してください。

こちらもご覧ください

Text Analytics
モジュールの一覧 (アルファベット順)