Dados divididos usando a expressão regular
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
- Saiba mais sobre Azure Machine Learning.
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Este artigo descreve como utilizar a opção Regular Expression Split no módulo de Dados Divididos do Machine Learning Studio (clássico). Esta opção é útil quando é necessário aplicar um critério de filtro a uma coluna de texto. Por exemplo, pode dividir o seu conjunto de dados se um determinado produto é mencionado.
Nota
Aplica-se a: Machine Learning Studio (clássico) apenas
Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.
Pode utilizar uma expressão regular dividida numa única coluna de texto. Define uma expressão regular que inclui o nome da coluna de texto e, em seguida, define as condições aplicáveis à coluna, tais como "começa com", "contém", ou "não contém".
Para obter informações gerais sobre a partilha de dados para experiências de aprendizagem automática, consulte Dados Divididos e Partição e Split.
Tarefas relacionadas
Outras opções no módulo Dados Divididos :
Dados divididos usando expressões relativas: Aplique uma expressão em dados numéricos.
Conjuntos de dados recomendadores divididos: Divida conjuntos de dados que são utilizados em modelos de recomendação. O conjunto de dados deve ter três colunas: itens, utilizadores e classificações
Use uma expressão regular para dividir um conjunto de dados
Adicione o módulo de Dados Divididos à sua experiência e conecte-o como entrada ao conjunto de dados que pretende dividir.
Para dividir o modo, selecione 'Divisão de expressão regular'.
Na caixa de expressão regular , escreva uma expressão regular válida. Alguns exemplos são fornecidos aqui.
A expressão regular é aplicada apenas na coluna especificada, que deve ser um tipo de dados de cadeia.
Para ajudar a compor expressões regulares, consulte a Linguagem de Expressão Regular - Referência Rápida.
Executar a experiência, ou clicar no módulo à direita e selecionar Executar selecionado.
Com base na expressão regular que fornece, o conjunto de dados é dividido em dois conjuntos de linhas: linhas com valores que correspondem à expressão e todas as restantes linhas.
Exemplos
Os exemplos a seguir demonstram como dividir um conjunto de dados utilizando a opção Expressão Regular .
Única palavra inteira
Este exemplo coloca no primeiro conjunto de dados todas as linhas que contêm o texto Gryphon
na coluna Text
, e coloca outras linhas na segunda saída de Dados Divididos:
\"Text" Gryphon
Substring
Este exemplo procura a cadeia especificada em qualquer posição dentro da segunda coluna do conjunto de dados, denotada aqui pelo valor do índice de 1. A partida é sensível a casos.
(\1) ^[a-f]
O primeiro conjunto de dados de resultados contém todas as linhas onde a coluna de índice começa com um destes caracteres: a
, b
, c
, d
, , e
. . f
Todas as outras linhas são direcionadas para a segunda saída.
Combinação de cordas em endereços IP
Este exemplo divide alguns dados de registo de servidor em duas categorias para análise: ligações por trás da firewall e ligações com endereços IP fora da firewall. A expressão regular é aplicada no IP_Address
campo (tipo de dados de cadeia ).
(\IP_Address) ^[10]
A primeira saída contém todos os endereços que começam com 10
.