Partilhar via


Dados divididos usando a expressão regular

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Este artigo descreve como utilizar a opção Regular Expression Split no módulo de Dados Divididos do Machine Learning Studio (clássico). Esta opção é útil quando é necessário aplicar um critério de filtro a uma coluna de texto. Por exemplo, pode dividir o seu conjunto de dados se um determinado produto é mencionado.

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Pode utilizar uma expressão regular dividida numa única coluna de texto. Define uma expressão regular que inclui o nome da coluna de texto e, em seguida, define as condições aplicáveis à coluna, tais como "começa com", "contém", ou "não contém".

Para obter informações gerais sobre a partilha de dados para experiências de aprendizagem automática, consulte Dados Divididos e Partição e Split.

Outras opções no módulo Dados Divididos :

Use uma expressão regular para dividir um conjunto de dados

  1. Adicione o módulo de Dados Divididos à sua experiência e conecte-o como entrada ao conjunto de dados que pretende dividir.

  2. Para dividir o modo, selecione 'Divisão de expressão regular'.

  3. Na caixa de expressão regular , escreva uma expressão regular válida. Alguns exemplos são fornecidos aqui.

    A expressão regular é aplicada apenas na coluna especificada, que deve ser um tipo de dados de cadeia.

    Para ajudar a compor expressões regulares, consulte a Linguagem de Expressão Regular - Referência Rápida.

  4. Executar a experiência, ou clicar no módulo à direita e selecionar Executar selecionado.

    Com base na expressão regular que fornece, o conjunto de dados é dividido em dois conjuntos de linhas: linhas com valores que correspondem à expressão e todas as restantes linhas.

Exemplos

Os exemplos a seguir demonstram como dividir um conjunto de dados utilizando a opção Expressão Regular .

Única palavra inteira

Este exemplo coloca no primeiro conjunto de dados todas as linhas que contêm o texto Gryphon na coluna Text, e coloca outras linhas na segunda saída de Dados Divididos:

    \"Text" Gryphon  

Substring

Este exemplo procura a cadeia especificada em qualquer posição dentro da segunda coluna do conjunto de dados, denotada aqui pelo valor do índice de 1. A partida é sensível a casos.

(\1) ^[a-f]

O primeiro conjunto de dados de resultados contém todas as linhas onde a coluna de índice começa com um destes caracteres: a, b, c, d, , e. . f Todas as outras linhas são direcionadas para a segunda saída.

Combinação de cordas em endereços IP

Este exemplo divide alguns dados de registo de servidor em duas categorias para análise: ligações por trás da firewall e ligações com endereços IP fora da firewall. A expressão regular é aplicada no IP_Address campo (tipo de dados de cadeia ).

(\IP_Address) ^[10]

A primeira saída contém todos os endereços que começam com 10.

Ver também

Amostra e Divisão
Partição e Amostra