Habilidade cognitiva de detecção de idioma

Artigo
09/01/2024

A habilidade Detecção de Idioma detecta o idioma de texto de entrada e os relatórios de um código de idioma único para cada documento enviado na solicitação. O código de idioma é emparelhado com uma pontuação que indica a intensidade da análise. Essa habilidade usa os modelos de machine learning fornecidos na Linguagem da IA do Azure Search.

Esse recurso é especialmente útil quando você precisa fornecer o idioma do texto como entrada para outras habilidades (por exemplo, a habilidade de Análise de Sentimento ou Habilidade de Divisão de Texto).

Consulte Idiomas suportados pela Detecção de Idioma. Se você tiver conteúdo expresso em um idioma sem suporte, a resposta será (Unknown).

Observação

Essa habilidade está associada aos serviços de IA do Azure e requer um recurso faturável para transações que excedem 20 documentos por indexador por dia. A execução de habilidades internas é cobrada pelo preço pago conforme o uso dos serviços de IA do Azure existentes.

@odata.type

Microsoft.Skills.Text.LanguageDetectionSkill

Limites de dados

O tamanho máximo de um registro deve ser de 50.000 caracteres conforme medido por String.Length. Se você precisar interromper seus dados antes de enviá-los à habilidade de detecção de idioma, poderá usar a Habilidade de Divisão de Texto.

Parâmetros de habilidades

Os parâmetros diferenciam maiúsculas de minúsculas.

Entradas	Descrição
`defaultCountryHint`	(Opcional) Um código de país de duas letras ISO 3166-1 alfa-2 pode ser fornecido para usar como uma dica para o modelo de detecção de idioma se ele não puder desambiguar o idioma. Especificamente, o `defaultCountryHint` parâmetro é usado com documentos que não especificam a entrada `countryHint` explicitamente.
`modelVersion`	(Opcional) Especifica a versão do modelo a ser usada ao chamar a detecção de linguagem. Ele usa como padrão o mais recente disponível quando não especificado. Recomendamos que você não especifique esse valor, a menos que seja necessário.

Entradas de habilidades

Os parâmetros diferenciam maiúsculas de minúsculas.

Entradas	Descrição
`text`	O texto a ser analisado.
`countryHint`	Um código de país de duas letras ISO 3166-1 alfa-2 para usar como uma dica para o modelo de detecção de idioma se ele não puder desambiguar o idioma.

Saídas de habilidades

Nome de Saída	Descrição
`languageCode`	O código de idioma ISO 6391 para o idioma identificado. Por exemplo, “in”
`languageName`	O nome do idioma. Por exemplo “inglês”.
`score`	Um valor entre 0 e 1. A probabilidade de que o idioma é identificado corretamente. A pontuação pode ser menor que 1, se a frase misturou idiomas.

Definição de exemplo

 {
    "@odata.type": "#Microsoft.Skills.Text.LanguageDetectionSkill",
    "inputs": [
      {
        "name": "text",
        "source": "/document/text"
      },
      {
        "name": "countryHint",
        "source": "/document/countryHint"
      }
    ],
    "outputs": [
      {
        "name": "languageCode",
        "targetName": "myLanguageCode"
      },
      {
        "name": "languageName",
        "targetName": "myLanguageName"
      },
      {
        "name": "score",
        "targetName": "myLanguageScore"
      }

    ]
  }

Entrada de exemplo

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. "
           }
      },
      {
        "recordId": "2",
        "data":
           {
             "text": "Estamos muy felices de estar con ustedes."
           }
      },
      {
        "recordId": "3",
        "data":
           {
             "text": "impossible",
             "countryHint": "fr"
           }
      }
    ]

Saída de exemplo

{
    "values": [
      {
        "recordId": "1",
        "data":
            {
              "languageCode": "en",
              "languageName": "English",
              "score": 1,
            }
      },
      {
        "recordId": "2",
        "data":
            {
              "languageCode": "es",
              "languageName": "Spanish",
              "score": 1,
            }
      },
      {
        "recordId": "3",
        "data":
            {
              "languageCode": "fr",
              "languageName": "French",
              "score": 1,
            }
      }
    ]
}

Compartilhar via