Dividir um conjunto de dados com uma expressão relativa
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Veja informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
- Saiba mais sobre o Azure Machine Learning.
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Este artigo descreve como utilizar a opção Divisão de Expressão Relativa no módulo Dividir Dados do Machine Learning Studio (clássico). Esta opção é útil quando precisa de dividir um conjunto de dados em conjuntos de dados de preparação e teste com uma expressão numérica. Por exemplo:
- Idade superior a 40 vs. 40 ou menor
- Classificação de teste de 60 ou superior vs. menor que 60
- Valor de classificação de 1 vs. todos os outros valores
Nota
Aplica-se apenas a: Machine Learning Studio ( clássico)
Estão disponíveis módulos de arrastar e largar semelhantes no estruturador do Azure Machine Learning.
Para dividir os seus dados, escolha uma única coluna numérica nos seus dados e defina uma expressão a utilizar na avaliação de cada linha. A expressão relativa tem de incluir o nome da coluna, o valor e um operador, como maior e menor que, igual e não igual a.
Esta opção divide o conjunto de dados em dois grupos.
Para obter informações gerais sobre a criação de partições de dados para experimentações de machine learning, veja Dividir Dados e Partições e Dividir.
Tarefas relacionadas
Outras opções no módulo Dividir Dados :
Dividir dados com expressões regulares: aplicar uma expressão regular a uma única coluna de texto e dividir o conjunto de dados com base nos resultados
Dividir conjuntos de dados recomendadores: divida os conjuntos de dados que são utilizados em modelos de recomendação. O conjunto de dados deve ter três colunas: itens, utilizadores e classificações
Utilizar uma expressão relativa para dividir um conjunto de dados
Adicione o módulo Dividir Dados à sua experimentação no Stuio e ligue-o como entrada ao conjunto de dados que pretende dividir.
Para Modo de divisão, selecione divisão de expressão relativa.
Na caixa de texto Expressão relacional , escreva uma expressão que execute uma operação de comparação numérica numa única coluna:
A coluna contém números de qualquer tipo de dados numérico, incluindo tipos de dados de data/hora.
A expressão pode referenciar um máximo de um nome de coluna.
Utilize o caráter de e comercial (&) para a operação AND e utilize o caráter de pipe (|) para a operação OR.
São suportados os seguintes operadores:
<
, ,>
,<=
,>=
, ,==
!=
Não pode agrupar operações com
(
e)
.
Para obter ideias, consulte a secção Exemplos .
Execute a experimentação ou clique com o botão direito do rato no módulo e selecione Executar selecionado.
A expressão divide o conjunto de dados em dois conjuntos de linhas: linhas com valores que cumprem a condição e todas as linhas restantes.
Se precisar de realizar operações de divisão adicionais, pode adicionar uma segunda instância de *Dividir Dados ou utilizar o módulo Aplicar Transformação SQL e definir uma instrução CASE.
Exemplos de expressões relacionadas
Os exemplos seguintes demonstram como dividir um conjunto de dados com a opção Expressão Relativa no módulo Dividir Dados :
Utilizar o ano do calendário
Um cenário comum é dividir um conjunto de dados por anos. A expressão seguinte seleciona todas as linhas em que os valores na coluna Year
são maiores do que 2010
.
\"Year" > 2010
A expressão de data tem de ter em conta todas as partes de data incluídas na coluna de dados e o formato das datas na coluna de dados tem de ser consistente.
Por exemplo, numa coluna de data com o formato mmddyyyy
, a expressão deve ser semelhante a esta:
\"Date" > 1/1/2010
Utilizar índices de colunas
A expressão seguinte demonstra como pode utilizar o índice de colunas para selecionar todas as linhas na primeira coluna do conjunto de dados que contêm valores inferiores ou iguais a 30, mas não iguais a 20.
(\0)<=30 & !=20
Operação composta em valores de tempo com múltiplas divisões
Suponha que pretende dividir uma tabela de dados de registo para agrupar consultas que são executadas durante demasiado tempo. Pode utilizar a seguinte expressão relativa na coluna , Elapsed
para obter as consultas que foram executadas ao longo de 1 minuto.
\"Elapsed" >00:01:00
Para obter as consultas com tempos de resposta inferiores a um minuto, mas mais de 30 segundos, adicione outra instância de Dividir Dados na saída à direita e utilize uma expressão como esta:
\"Elapsed" <:00:01:00 & >00:00:30
Dividir conjunto de dados em valores de data
A seguinte expressão relativa divide o conjunto de dados com os valores de data na coluna dt1
.
\"dt1" > 10-08-2015
As linhas com uma data superior a 10-08-2015 são adicionadas ao primeiro conjunto de dados de saída (à esquerda).
As linhas com uma data de 10-08-2015 ou anterior são adicionadas ao segundo conjunto de dados de saída (à direita).
Notas técnicas
Esta secção contém detalhes de implementação, sugestões e respostas a perguntas mais frequentes.
Restrições
As seguintes restrições aplicam-se a expressões relativas num conjunto de dados:
- As expressões relativas só podem ser aplicadas a tipos de dados numéricos e tipos de dados de data/hora.
- As expressões relativas podem referenciar um máximo de um nome de coluna.
- Utilize o caráter de e comercial (&) para a operação AND e o caráter de pipe (|) para a operação OR.
- Os operadores seguintes são permitidos para expressões relativas:
<
,>
,<=
,>=
, ,==
,!=
- As operações de agrupamento com parênteses não são suportadas.