言語検出コグニティブ スキル
言語検出スキルは、入力テキストの言語を検出し、要求で送信されたすべてのドキュメントごとに 1 つの言語コードを報告します。 言語コードは、分析の強度を示すスコアとペアリングされます。 このスキルでは、Azure AI Language で提供される機械学習モデルが使用されます。
この機能は、テキストの言語をその他のスキル (感情分析スキルやテキスト分割スキルなど) への入力として提供する必要がある場合に特に便利です。
言語検出でサポートされている言語を参照してください。 サポートされていない言語で表現されているコンテンツがある場合、応答は (Unknown)
です。
Note
このスキルは Azure AI サービスにバインドされており、1 日にインデクサーあたり 20 ドキュメントを超えるトランザクションには課金対象リソースが必要です。 組み込みスキルの実行は、既存の Azure AI サービスの従量課金制の価格で課金されます。
@odata.type
Microsoft.Skills.Text.LanguageDetectionSkill
データ制限
レコードのサイズは、String.Length
で測定して 50,000 文字以下にする必要があります。 データを言語検出スキルに送信する前に分割する必要がある場合は、テキスト分割スキルを使用できます。
スキルのパラメーター
パラメーターの大文字と小文字は区別されます。
入力 | 説明 |
---|---|
defaultCountryHint |
(省略可能) 言語検出モデルが言語を明確に区別できない場合に、ISO 3166-1 alpha-2 の 2 文字の国番号を提供してヒントとして使用することができます。 具体的には、defaultCountryHint パラメーターは、countryHint の入力を明示的に指定しないドキュメントで使用されます。 |
modelVersion |
(省略可能) 言語検出を呼び出すときに使用するモデルのバージョンを指定します。 指定しない場合、既定で利用可能な最新のものになります。 必要な場合以外は、この値を指定しないことをお勧めします。 |
スキルの入力
パラメーターの大文字と小文字は区別されます。
入力 | 説明 |
---|---|
text |
分析されるテキスト。 |
countryHint |
言語検出モデルが言語を明確に区別できない場合に、ヒントとして使用する ISO 3166-1 alpha-2 の 2 文字の国番号。 |
スキルの出力
出力の名前 | 説明 |
---|---|
languageCode |
識別された言語の ISO 6391 言語コード。 例: "en"。 |
languageName |
言語の名前。 例: "English"。 |
score |
0 から 1 の値。 言語が正しく識別されている確率。 文章内に言語が混在している場合、スコアが 1 よりも低くなる場合があります。 |
定義例
{
"@odata.type": "#Microsoft.Skills.Text.LanguageDetectionSkill",
"inputs": [
{
"name": "text",
"source": "/document/text"
},
{
"name": "countryHint",
"source": "/document/countryHint"
}
],
"outputs": [
{
"name": "languageCode",
"targetName": "myLanguageCode"
},
{
"name": "languageName",
"targetName": "myLanguageName"
},
{
"name": "score",
"targetName": "myLanguageScore"
}
]
}
サンプル入力
{
"values": [
{
"recordId": "1",
"data":
{
"text": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. "
}
},
{
"recordId": "2",
"data":
{
"text": "Estamos muy felices de estar con ustedes."
}
},
{
"recordId": "3",
"data":
{
"text": "impossible",
"countryHint": "fr"
}
}
]
サンプル出力
{
"values": [
{
"recordId": "1",
"data":
{
"languageCode": "en",
"languageName": "English",
"score": 1,
}
},
{
"recordId": "2",
"data":
{
"languageCode": "es",
"languageName": "Spanish",
"score": 1,
}
},
{
"recordId": "3",
"data":
{
"languageCode": "fr",
"languageName": "French",
"score": 1,
}
}
]
}