Dividir um conjunto de dados usando uma expressão relativa
Importante
O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.
A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).
- Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
- Saiba mais sobre o Azure Machine Learning.
A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.
Este artigo descreve como usar a opção Divisão de Expressão Relativa no módulo Dividir Dados do Machine Learning Studio (clássico). Essa opção é útil quando você precisa dividir um conjunto de dados em conjuntos de dados de treinamento e teste usando uma expressão numérica. Por exemplo:
- Idade maior que 40 versus 40 anos ou mais
- Pontuação de teste igual a 60 ou superior contra menos de 60
- Valor de classificação de 1 versus todos os outros valores
Observação
Aplica-se a: Somente Machine Learning Studio (clássico)
Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.
Para dividir seus dados, você escolhe uma única coluna numérica em seus dados e define uma expressão a ser usada na avaliação de cada linha. A expressão relativa deve incluir o nome da coluna, o valor e um operador, como maior e menor que, igual e não igual a.
Essa opção divide o conjunto de dados em dois grupos.
Para obter informações gerais sobre o particionamento de dados para experimentos de machine learning, consulte Dividir Dados e Partição e Dividir.
Tarefas relacionadas
Outras opções no módulo Dividir Dados :
Dividir dados usando expressões regulares: aplique uma expressão regular a uma única coluna de texto e divida o conjunto de dados com base nos resultados
Dividir conjuntos de dados do recomendador: divida conjuntos de dados usados em modelos de recomendação. O conjunto de dados deve ter três colunas: itens, usuários e classificações
Usar uma expressão relativa para dividir um conjunto de dados
Adicione o módulo Dividir Dados ao seu experimento no Stuio e conecte-o como entrada para o conjunto de dados que você deseja dividir.
Para Modo de divisão, selecione divisão de expressão relativa.
Na caixa de texto Expressão relacional , digite uma expressão que executa uma operação de comparação numérica, em uma única coluna:
A coluna contém números de qualquer tipo de dados numérico, incluindo tipos de dados de data/hora.
As expressões relativas podem fazer referência a no máximo um nome de coluna.
Use o caractere de e comercial (&) para a operação AND e use o caractere de pipe (|) para a operação OR.
Há suporte para os seguintes operadores:
<
, ,>
,<=
,>=
,==
,!=
Você não pode agrupar operações usando
(
e)
.
Para obter ideias, consulte a seção Exemplos .
Execute o experimento ou clique com o botão direito do mouse no módulo e selecione Executar selecionado.
A expressão divide o conjunto de dados em dois conjuntos de linhas: linhas com valores que atendem à condição e todas as linhas restantes.
Se você precisar executar operações de divisão adicionais, poderá adicionar uma segunda instância de *Dividir Dados ou usar o módulo Aplicar Transformação SQL e definir uma instrução CASE.
Exemplos de expressões relatve
Os exemplos a seguir demonstram como dividir um conjunto de dados usando a opção Expressão Relativa no módulo Dividir Dados :
Usando o ano civil
Um cenário comum é dividir um conjunto de dados por anos. Por exemplo, a seguinte expressão seleciona todas as linhas onde os valores na coluna Year
são maiores do que 2010
.
\"Year" > 2010
A expressão de data deve levar em conta todas as partes de data incluídas na coluna de dados e o formato de datas na coluna de dados deve ser consistente.
Por exemplo, em uma coluna de data usando o formato mmddyyyy
, a expressão deve ser algo assim:
\"Date" > 1/1/2010
Usando índices de coluna
A expressão a seguir demonstra como você pode usar o índice da coluna para selecionar todas as linhas na primeira coluna do conjunto de dados que contém valores menores ou iguais a 30, mas não iguais a 20.
(\0)<=30 & !=20
Operação composta em valores de tempo usando várias divisões
Suponha que você deseja dividir uma tabela de dados de log para consultas de grupo que são demoram muito para serem executadas. Você pode usar a expressão relativa a seguir na coluna , Elapsed
para obter as consultas que foram executadas por mais de 1 minuto.
\"Elapsed" >00:01:00
Para obter as consultas com tempos de resposta em menos de um minuto, mas mais de 30 segundos, adicione outra instância de Dividir Dados na saída à direita e use uma expressão como esta:
\"Elapsed" <:00:01:00 & >00:00:30
Dividir conjunto de dados em valores de data
A expressão relativa a seguir divide o conjunto de dados usando os valores de data na coluna dt1
.
\"dt1" > 10-08-2015
Linhas com uma data maior que 10-08-2015 são adicionadas ao primeiro conjunto de dados de saída (à esquerda).
Linhas com uma data de 10-08-2015 ou anterior são adicionadas ao segundo conjunto de dados de saída (à direita).
Observações técnicas
Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.
Restrições
As seguintes restrições se aplicam a expressões relativas em um conjunto de dados:
- Expressões relativas só podem ser aplicadas a tipos de dados numéricos e tipos de dados de data/hora.
- As expressões relativas podem fazer referência a um máximo de um nome de coluna.
- Use o caractere de e comercial (&) para a operação AND e o caractere de pipe (|) para a operação OR.
- Os seguintes operadores são permitidos para expressões relativas:
<
,>
,<=
,>=
, ,==
,!=
- Não há suporte para operações de agrupamento com parênteses.