Transformação Dados – Exemplo e Divisão
Importante
O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.
A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).
- Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
- Saiba mais sobre o Azure Machine Learning.
A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.
Este artigo descreve os módulos no Machine Learning Studio (clássico) que você pode usar para particionar ou amostrar dados.
Observação
Aplica-se a: Machine Learning Studio (clássico) somente
Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.
Dividir e amostragem de conjuntos de dados são tarefas importantes no aprendizado de máquina. Por exemplo, é uma prática comum dividir dados em conjuntos de treinamento e teste para ajudá-lo a avaliar um modelo em um conjunto de dados de avaliação. A amostragem também é cada vez mais importante na era de Big Data, para garantir que haja uma distribuição justa de classes em seus dados de treinamento. A amostragem também ajuda a garantir que você não esteja processando mais dados do que o necessário.
Você pode usar Machine Learning Studio (clássico) para personalizar a maneira como você divide ou exemplo de conjuntos de dados:
- Filtrar dados de treinamento com base em um atributo nos dados.
- Execute amostragem stratified para dividir a variável de classe igualmente entre n número de grupos.
- Divida os dados de origem em um conjunto de dados de treinamento e teste usando uma taxa personalizada.
- Aplique expressões regulares aos dados para filtrar valores inválidos.
Escolhendo a operação correta: Divisão ou amostragem
Machine Learning Studio (clássico) fornece dois módulos que encapsulam tarefas. Os módulos parecem semelhantes, mas têm usos diferentes e fornecem funcionalidades complementares. É provável que você use os dois módulos em um experimento para obter a quantidade correta e a combinação correta de dados.
Em seguida, comparamos o módulo Dividir Dados e o módulo Partição e Exemplo, vendo para quais tarefas cada módulo é comumente usado.
Usos do módulo Dividir Dados
- Divida os dados em dois grupos. Use o módulo Dividir Dados . O módulo produz exatamente duas divisão dos dados. Você pode especificar a condição na qual os dados são divididos e a proporção dos dados a colocar em cada subconjunto. Dividir Dados sempre salva o subconjunto de dados que não atendem às condições.
- Alocar valores de rótulo igualmente a conjuntos de dados. Há suporte para a opção de se estatizar em uma coluna especificada em ambos os módulos. No entanto, se você quiser criar dois conjuntos de dados e estiver interessado principalmente na coluna de rótulo, o módulo Dividir Dados será uma solução rápida.
Exemplo de uso do módulo Dividir Dados
Suponha que você importou um conjuntos de dados muito grande de um arquivo CSV. O conjuntos de dados contém dados demográficos do cliente. Você deseja criar modelos diferentes para clientes em países diferentes, portanto, decide dividir os dados usando o valor da Country-Region
coluna. Aqui estão as etapas que você seguirá para concluir esta tarefa:
- Adicione o módulo Dividir Dados e especifique uma expressão no
Country-Region
campo . O restante dos dados está disponível na saída secundária. - Adicione outra instância do módulo Dividir Dados .
- Repita as etapas 1 e 2. Especifique um país diferente na expressão para cada iteração.
O módulo Dividir Dados dá suporte a expressões regulares, para dados de texto e expressões relativas, para dados numéricos.
O módulo Dividir Dados também fornece funcionalidade sofisticada que você pode usar para dividir conjuntos de dados especializados. Use a funcionalidade para criar modelos de recomendação e gerar previsões.
Usos do módulo Partição e Exemplo
- Amostragem. Sempre use o módulo Partição e Exemplo. O módulo fornece vários métodos de amostragem personalizáveis, incluindo várias opções para amostragem stratified.
- Atribuir casos a vários grupos. Use as opções Atribuir ao Fold ou Escolher Dobra no módulo Partição e Exemplo.
- Retornar apenas um subconjunto dos dados. Use o módulo Partição e Exemplo. O módulo fornece o subconjunto especificado na saída primária. Os dados restantes estão disponíveis em uma saída secundária.
- Obter apenas as 2.000 primeiras linhas de um conjuntos de dados. Use o módulo Partição e Exemplo. Selecione a opção De cabeça. Isso é particularmente útil quando você está testando um novo experimento e deseja executar testes curtos de um fluxo de trabalho.
Exemplo de uso do módulo Partição e Exemplo
O módulo Partição e Exemplo pode gerar várias partições dos dados, não apenas duas. Ao mesmo tempo, ele pode executar várias operações de amostragem.
Por exemplo, suponha que você precise obter apenas 10% dos dados, garantindo que a distribuição do atributo de destino seja a mesma que nos dados de origem. Aqui estão as etapas que você seguirá para concluir esta tarefa:
- Adicione o módulo Partição e Exemplo.
- Escolha o modo amostragem e especifique 10%.
- Selecione a opção de amostragem e, em seguida, escolha a coluna que contém o atributo de destino.
Se você não precisar manter todos os dados, use o módulo Partição e Exemplo. Os dados restantes ainda estão presentes no workspace, mas não precisam ser processados ainda mais como parte do experimento.
Tarefas relacionadas
- Aumente o número de casos raros em um exemplo ou rebalancee os casos para um valor de destino: use o módulo SMOTE .
- Execute a redução de dimensionalidade encontrando a combinação de recursos que melhor representa o espaço de dados: use o módulo Análise de Componente Principal .
- Criar recursos compactos com base em uma análise de recursos e contagens: use o módulo Learning com Contagens.
- Crie uma exibição ou projeção usando apenas as colunas especificadas; remover ou ocultar colunas em um conjuntos de dados: use os módulos Selecionar Colunas no Dataset e Aplicar SQL Transformação.
- Aplicar filtros de dados, agrupações ou transformações mais complexos: use os módulos Executar Script R e Aplicar SQL Transformação.
Lista de módulos
Essa categoria inclui os seguintes módulos:
- Partição e Exemplo: cria várias partições de um conjuntos de dados com base na amostragem.
- Dividir Dados: particiona as linhas de um conjunto de dados em dois conjuntos distintos.