Introdução à análise de texto
A Linguagem de IA do Azure é uma parte das ofertas de serviços de IA do Azure que podem executar processamento avançado de linguagem natural em texto não estruturado. Os recursos de análise de texto do Azure AI Language incluem:
- O reconhecimento de entidade nomeada identifica pessoas, lugares, eventos e muito mais. Esse recurso também pode ser personalizado para extrair categorias personalizadas.
- A vinculação de entidades identifica entidades conhecidas juntamente com um link para a Wikipédia.
- A deteção de informações de identificação pessoal (PII) identifica informações pessoais confidenciais, incluindo informações pessoais de saúde (PHI).
- A deteção de idioma identifica o idioma do texto e retorna um código de idioma como "en" para inglês.
- A análise de sentimento e a mineração de opinião identificam se o texto é positivo ou negativo.
- O resumo resume o texto identificando as informações mais importantes.
- A extração de frases-chave lista os principais conceitos de texto não estruturado.
Reconhecimento e vinculação de entidades
Você pode fornecer texto não estruturado à Linguagem de IA do Azure e ela retornará uma lista de entidades no texto que ela reconhece. Uma entidade é um item de um determinado tipo ou categoria; e, em alguns casos, subtipo, como os mostrados na tabela a seguir.
Tipo | Subtipo | Exemplo |
---|---|---|
Pessoa | "Bill Gates", "João" | |
Localização | "Paris", "Nova Iorque" | |
Organização | "Microsoft" | |
Quantidade | Número | "6" ou "seis" |
Quantidade | Percentagem | "25%" ou "cinquenta por cento" |
Quantidade | Ordinal | "1.º" ou "primeiro" |
Quantidade | Antiguidade | "90 dias" ou "30 anos" |
Quantidade | Moeda | "10,99" |
Quantidade | Dimensão | "10 quilómetros", "40 cm" |
Quantidade | Temperatura | "45 graus" |
DateTime | "18:30 4 de fevereiro de 2012" | |
DateTime | Data | "2 de maio de 2017" ou "02/05/2017" |
DateTime | Tempo | "8 am" ou "8:00" |
DateTime | Intervalo de Datas | "2 de maio a 5 de maio" |
DateTime | Intervalo de Tempo | "18:00 às 19:00" |
DateTime | Duração | "1 minuto e 45 segundos" |
DateTime | Definir | "todas as terças-feiras" |
URL | "https://www.bing.com " |
|
Correio Eletrónico | "support@microsoft.com " |
|
Número de telefone baseado nos EUA | "(312) 555-0176" | |
Endereço IP | "10.0.1.125" |
O Azure AI Language também dá suporte à vinculação de entidades para ajudar a desambiguar entidades vinculando a uma referência específica. Para entidades reconhecidas, o serviço devolve um URL para um artigo relevante da Wikipédia.
Por exemplo, suponha que você use o Azure AI Language para detetar entidades na seguinte extração de revisão de restaurante:
"Comi no restaurante em Seattle na semana passada."
Entity | Tipo | Subtipo | URL da Wikipédia |
---|---|---|---|
Porto | Localização | https://en.wikipedia.org/wiki/Seattle | |
semana passada | DateTime | Intervalo de Datas |
Deteção de idioma
Use o recurso de deteção de idioma do Azure AI Language para identificar o idioma no qual o texto é escrito. Pode submeter múltiplos documentos de uma vez para análise. Para cada documento apresentado, o serviço detetará:
- O nome do idioma (por exemplo, "inglês").
- O código linguístico ISO 639-1 (por exemplo, "en").
- Uma classificação a indicar um nível de confiança na deteção do idioma.
Por exemplo, imagine um cenário em que é proprietário e trabalha num restaurante em que os clientes podem preencher inquéritos e fornecer feedback sobre a comida, o serviço, os colaboradores, entre outros aspetos. Imagine que recebeu as seguintes críticas de clientes:
Revisão 1: "Um lugar fantástico para o almoço. A sopa estava deliciosa."
Resenha 2: "Comida maravillosa y gran servicio."
Resenha 3: "O croque monsieur avec frites foi ótimo. Bom apetite!"
Você pode usar os recursos de análise de texto na Linguagem de IA do Azure para detetar o idioma de cada uma dessas avaliações; e pode responder com os seguintes resultados:
Documento | Nome do Idioma | Código ISO 6391 | Pontuação |
---|---|---|---|
Crítica 1 | Português | in | 1.0 |
Crítica 2 | Espanhol | es | 1.0 |
Crítica 3 | Português | in | 0,9 |
Repare que o idioma detetado para a crítica 3 é o inglês, apesar de o texto conter uma mistura de inglês e francês. O serviço de deteção de idioma irá concentrar-se no idioma predominante no texto. O serviço utiliza um algoritmo para determinar o idioma predominante, como o comprimento das expressões ou a quantidade total de texto para esse idioma em comparação com os outros idiomas no texto. O idioma predominante será o valor devolvido, além do código do idioma. A pontuação de confiança pode ser inferior a 1 como resultado do texto em linguagem mista.
Pode haver texto de natureza ambígua ou com conteúdo de linguagem mista. Estas situações podem representar um desafio. Um exemplo de conteúdo ambíguo seria um caso em que o documento contém texto limitado ou apenas pontuação. Por exemplo, usar a Linguagem de IA do Azure para analisar o texto ":-)" resulta em um valor desconhecido para o nome do idioma e o identificador de idioma e uma pontuação de NaN (que é usada para indicar não um número).
Análise de sentimentos e extração de opiniões
Os recursos de análise de texto na Linguagem de IA do Azure podem avaliar texto e retornar pontuações e rótulos de sentimento para cada frase. Esta funcionalidade é útil para detetar sentimentos positivos e negativos em redes sociais, críticas de clientes, fóruns de debate e muito mais.
O Azure AI Language usa um modelo de classificação de aprendizado de máquina pré-criado para avaliar o texto. O serviço retorna pontuações de sentimento em três categorias: positivo, neutro e negativo. Em cada uma das categorias, é fornecida uma pontuação entre 0 e 1. As pontuações indicam a probabilidade de o texto fornecido ser um sentimento específico. Um documento também é fornecido.
Por exemplo, as duas críticas a um restaurante seguintes poderiam ser analisadas quando ao sentimento:
Revisão 1: "Jantamos neste restaurante ontem à noite e a primeira coisa que notei foi o quão cortês a equipe era. Fomos recebidos de forma amigável e levados para a nossa mesa imediatamente. A mesa estava limpa, as cadeiras eram confortáveis e a comida era incrível."
e
Avaliação 2: "Nossa experiência gastronômica neste restaurante foi uma das piores que já tive. O serviço foi lento, ea comida era horrível. Nunca mais vou comer neste estabelecimento."
A pontuação de sentimento para a primeira avaliação pode ser: Sentimento do documento: positivo Pontuação positiva: .90 Pontuação neutra: .10 Pontuação negativa: .00
A segunda avaliação pode retornar uma resposta: Sentimento do documento: negativo Pontuação positiva: .00 Pontuação neutra: .00 Pontuação negativa: .99
Extração de expressões-chave
A extração de frases-chave identifica os principais pontos do texto. Imagine o cenário do restaurante mencionado anteriormente. Se você tiver um grande número de pesquisas, pode levar muito tempo para ler as avaliações. Em vez disso, você pode usar os recursos de extração de frases-chave do serviço de idioma para resumir os pontos principais.
Poderá receber uma crítica como:
"Jantamos aqui para uma comemoração de aniversário e tivemos uma experiência fantástica. Fomos recebidos por uma anfitriã amigável e levado para a nossa mesa imediatamente. O ambiente era descontraído, a comida era incrível, e o serviço foi ótimo. Se você gosta de boa comida e serviço atencioso, você deve tentar este lugar."
A extração de expressões-chave pode fornecer algum contexto a esta crítica ao extrair as seguintes expressões:
- jantar de aniversário
- experiência fantástica
- colaboradora simpática
- boa comida
- serviço de mesa atencioso
- jantar
- tabela
- ambiente
- local
Além de usar a análise de sentimento para determinar se essa é uma avaliação positiva, você também pode usar o serviço de frases-chave para identificar elementos importantes da avaliação.
Criar um recurso para a Linguagem de IA do Azure
Para usar a Linguagem de IA do Azure em um aplicativo, você deve provisionar um recurso apropriado em sua assinatura do Azure. Você pode escolher um dos seguintes tipos de recurso:
- Um recurso de idioma - escolha esse tipo de recurso se você planeja usar apenas os serviços de linguagem do Azure AI ou se deseja gerenciar o acesso e a cobrança do recurso separadamente de outros serviços.
- Um recurso de serviços de IA do Azure - escolha este tipo de recurso se você planeja usar a Linguagem de IA do Azure em combinação com outros serviços de IA do Azure e deseja gerenciar o acesso e a cobrança desses serviços juntos.