言語を検出する
重要
Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。
2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。
- ML Studio (クラシック) から Azure Machine Learning への機械学習プロジェクトの移動に関する情報を参照してください。
- Azure Machine Learning についての詳細を参照してください。
ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。
入力ファイル内の各行の言語を検出します
カテゴリ: Text Analytics
注意
適用対象: Machine Learning Studio (クラシック) のみ
類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。
モジュールの概要
この記事では、Machine Learning Studio (クラシック) の言語の検出モジュールを使用して、テキスト入力を分析し、入力内の各レコードに関連付けられている言語を識別する方法について説明します。
言語検出アルゴリズムでは、さまざまな言語を識別できます。 分析する文字列列と、検出する言語の総数を指定します。 アルゴリズムはテキストの各行を分析し、各言語に確率スコアを割り当てる。 最初の結果列の言語は、最高スコアを得た言語です。
言語の検出を構成する方法
分析するテキストを含むデータセットを、Machine Learning Studio (クラシック) の実験に追加します。 分析するテキストを含む列は、文字列データ型である必要があります。
データセットにラベル列を含めさせる必要があります。言語検出アルゴリズムは、サポートされている言語の言語機能に対して純粋に機能します。
新しいデータをインポートする場合は、データが UTF-8 形式で保存されている必要があります。 その他の Unicode 形式はサポートされていません。
[ 言語の検出] モジュール を実験に追加し、言語検出用のテキストでデータセットを接続します。
[ テキスト列] で、分析する列を選択します。
[ 検出する言語の数の上限] で、検出する言語の最大数を指定します。
言語の数に上限を設定すると、パフォーマンスが向上する可能性があります。
実験を実行します。
結果
言語 の検出モジュールは 、各行の言語識別子とスコアを出力します。
たとえば、次の表には、テスト データに関するサンプル分析が含まれます。
最初の 2 つの 列 col1 と 言語ラベルは 、入力データセットから渡される列です。 この例では、入力データセットはモジュールのテスト用に設計されたため、予期される言語は既に既知であり、ラベル列に指定されています。
残りの列は、言語の検出 モジュールによって生成 されます。 等しい可能性がある言語の一致がある場合は、複数の言語が一覧表示され、それぞれにスコアが付く場合があります。 この場合、モジュールでは、行ごとに 1 つの言語と、その言語の確率スコアが予測されます。
モジュールが十分に高いスコアを持つ言語を検出できない場合、スコアが 0 の (Unknown) の結果が出力されます。 ただし、モジュールでサポートされている言語は、API が更新されるに応じ、時間の中で変更される可能性があります。
Col1 | 言語ラベル | Col1 言語 | Col1 Iso6391 言語 | Col1 Iso6391 言語スコア |
---|---|---|---|---|
優しいスタッフと優れたサービスを備え、すばらしいホテルでした | 英語 | 英語 | en | 100 |
Es war ein wunderbares Hotel mit freundlichem Personal und guter service | ドイツ語 | ドイツ語 | de | 100 |
C'est un magnifique avec un personnelique et un service de qualiique | フランス語 | フランス語 | fr | 100 |
Det var et dejligt hotel med et venligt personale og og service | デンマーク語 | デンマーク語 | nl | 100 |
Va ser un magnbonfic hotel amb un personal amable i bon servei | カタロニア語 | カタロニア語 | ca | 92.30769348 |
とても素敵なホテルで、スタッフは親切で、サービスもよかった | 日本語 | (不明) | 0 | |
qu mebpa'mey naQ friendly QaQ chavmoH je | クリンゴン語 | フランス語 | fr | 77.5 |
例
実験で言語の検出モジュールを使用する方法の例については、次のAzure AI Gallery。
- 言語による映画タイトルのフィルター処理: 映画名で使用される言語を検出し、言語識別子を使用してデータセットを英語と英語以外の映画に分割します。
テクニカル ノート
検出される可能性のある言語の一般的な概念については、「Bing 翻訳ツール」を参照してください。
高度なテキスト分析で現在サポートMachine Learningより多くの言語を検出できます。 言語の検出の結果を使用して、言語固有の処理を必要とする他のモジュールに送信する結果をフィルター処理することをお勧めします。
基になる言語サービスは、Text Analytics サービスによって もAzure Cognitive Services。
想定される入力
名前 | 型 | 説明 |
---|---|---|
データセット | データ テーブル | 入力 。 |
モジュールのパラメーター
名前 | 種類 | Range | 省略可能 | Default | 説明 |
---|---|---|---|---|---|
検出する言語の数の上限 | Integer | [1;184] | 必須 | 1 | 検出する言語の数の上限。 |
[テキスト列] | ColumnSelection | 必須 | テキスト列の名前または 1 からベースのインデックス。 |
出力
名前 | 型 | 説明 |
---|---|---|
結果のデータセット | データ テーブル | 結果が |
例外
例外 | 説明 |
---|---|
エラー 0003 | 1 つまたは複数の入力が null または空の場合、例外が発生します。 |
エラー 0010 | 入力データセットで一致している必要のある列名があっても、そうなっていない場合、例外が発生します。 |
エラー 0016 | モジュールに渡される入力データセットには互換性のある列の型が含まれる必要があっても、そうなっていない場合、例外が発生します。 |
エラー 0008 | パラメーターが範囲内にない場合、例外が発生します。 |
Studio (クラシック) モジュールに固有のエラーの一覧については、「エラー コードMachine Learning参照してください。
API の例外の一覧については、「エラー コードMachine Learning REST API参照してください。