Pré-processar Texto
Este artigo descreve um componente no designer do Azure Machine Learning.
Use o componente Pré-processar texto para limpar e simplificar o texto. Ele suporta estas operações comuns de processamento de texto:
- Supressão das palavras de ordem
- Usando expressões regulares para procurar e substituir cadeias de caracteres de destino específicas
- Lemmatização, que converte várias palavras relacionadas em uma única forma canônica
- Normalização de casos
- Remoção de certas classes de caracteres, como números, caracteres especiais e sequências de caracteres repetidos, como "aaaa"
- Identificação e remoção de e-mails e URLs
Atualmente, o componente Texto de pré-processamento suporta apenas inglês.
Configurar o pré-processamento de texto
Adicione o componente Texto de pré-processamento ao seu pipeline no Azure Machine Learning. Você pode encontrar esse componente em Análise de texto.
Conecte um conjunto de dados que tenha pelo menos uma coluna contendo texto.
Selecione o idioma na lista suspensa Idioma.
Coluna de texto a limpar: selecione a coluna que pretende pré-processar.
Remover palavras de parada: selecione esta opção se quiser aplicar uma lista de palavras paradas predefinida à coluna de texto.
As listas de palavras paradas dependem do idioma e são personalizáveis.
Lemmatização: Selecione esta opção se quiser que as palavras sejam representadas em sua forma canônica. Esta opção é útil para reduzir o número de ocorrências exclusivas de tokens de texto semelhantes.
O processo de lemmatização é altamente dependente da linguagem.
Detetar frases: selecione esta opção se desejar que o componente insira uma marca de limite de frase ao executar a análise.
Este componente usa uma série de três caracteres
|||
pipe para representar o terminador de frase.Execute operações opcionais de localização e substituição usando expressões regulares. A expressão regular será processada em primeiro lugar, à frente de todas as outras opções internas.
- Expressão regular personalizada: defina o texto que você está procurando.
- Cadeia de caracteres de substituição personalizada: defina um único valor de substituição.
Normalizar maiúsculas e minúsculas: Selecione esta opção se quiser converter caracteres ASCII maiúsculos para suas formas minúsculas.
Se os caracteres não forem normalizados, a mesma palavra em letras maiúsculas e minúsculas será considerada duas palavras diferentes.
Você também pode remover os seguintes tipos de caracteres ou sequências de caracteres do texto de saída processado:
Remover números: selecione esta opção para remover todos os caracteres numéricos do idioma especificado. Os números de identificação dependem do domínio e do idioma. Se os caracteres numéricos forem parte integrante de uma palavra conhecida, o número pode não ser removido. Saiba mais em Notas técnicas.
Remover caracteres especiais: use esta opção para remover quaisquer caracteres especiais não alfanuméricos.
Remover caracteres duplicados: selecione esta opção para remover caracteres extras em sequências que se repetem por mais de duas vezes. Por exemplo, uma sequência como "aaaaa" seria reduzida a "aa".
Remover endereços de e-mail: Selecione esta opção para remover qualquer sequência do formato
<string>@<string>
.Remover URLs: Selecione esta opção para remover qualquer sequência que inclua os seguintes prefixos de URL:
http
,https
,ftp
,www
Expandir contrações verbais: Esta opção aplica-se apenas a idiomas que usam contrações verbais, atualmente, apenas em inglês.
Por exemplo, selecionando essa opção, você pode substituir a frase "não ficaria lá" por "não ficaria lá".
Normalizar barras invertidas para barras: selecione esta opção para mapear todas as instâncias de
\\
para/
.Dividir tokens em caracteres especiais: selecione esta opção se quiser quebrar palavras em caracteres como
&
,-
e assim por diante. Esta opção também pode reduzir os caracteres especiais quando se repete mais de duas vezes.Por exemplo, a cadeia de caracteres
MS---WORD
seria separada em três tokens,MS
,-
, eWORD
.Envie o pipeline.
Notas técnicas
O componente de pré-processamento de texto no Studio (clássico) e designer usam diferentes modelos de linguagem. O designer usa um modelo treinado pela CNN de várias tarefas da spaCy. Diferentes modelos dão diferentes tokenizadores e pichadores de parte da fala, o que leva a resultados diferentes.
Seguem-se alguns exemplos:
Configuração | Resultado da saída |
---|---|
Com todas as opções selecionadas Explicação: Para os casos como '3test' no 'WC-3 3test 4test', o designer remove a palavra inteira '3test', uma vez que, neste contexto, o tagger de parte de fala especifica este token '3test' como numeral, e de acordo com a parte de fala, o componente o remove. |
|
Com apenas Removing number Explicação selecionada : Para os casos como '3test', '4-EC', o tokenizador designer não divide esses casos e os trata como os tokens inteiros. Portanto, não removerá os números nestas palavras. |
Você também pode usar a expressão regular para produzir resultados personalizados:
Configuração | Resultado da saída |
---|---|
Com todas as opções selecionadas Expressão regular personalizada: (\s+)*(-|\d+)(\s+)* Cadeia de caracteres de substituição personalizada: \1 \2 \3 |
|
Com apenas Removing number a expressão regular personalizada selecionada : (\s+)*(-|\d+)(\s+)* Cadeia de caracteres de substituição personalizada: \1 \2 \3 |
Próximos passos
Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.