Transformação de Dados - Amostra e Divisão
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
- Saiba mais sobre Azure Machine Learning.
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Este artigo descreve os módulos em Machine Learning Studio (clássico) que pode utilizar para dividir ou recolher dados.
Nota
Aplica-se a: Machine Learning Studio (clássico) apenas
Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.
A divisão e a recolha de amostras de conjuntos de dados são tarefas importantes na aprendizagem automática. Por exemplo, é uma prática comum dividir dados em conjuntos de treino e teste para ajudá-lo a avaliar um modelo num conjunto de dados de contenção. A amostragem também é cada vez mais importante na era dos big data, para garantir que haja uma distribuição justa das aulas nos seus dados de formação. A amostragem também ajuda a garantir que não está a processar mais dados do que o necessário.
Pode utilizar Machine Learning módulos Studio (clássicos) para personalizar a forma como divide ou amostra conjuntos de dados:
- Filtrar dados de treino com base num atributo nos dados.
- Execute a amostragem estratificada para dividir a variável de classe igualmente entre n número de grupos.
- Divida os dados de origem num conjunto de dados de treino e teste utilizando uma relação personalizada.
- Aplicar expressões regulares aos dados para filtrar valores inválidos.
Escolher a operação certa: Dividir ou amostrar
Machine Learning Studio (clássico) fornece dois módulos que encapsulam tarefas. Os módulos soam semelhantes, mas têm diferentes utilizações, e fornecem funcionalidades complementares. É provável que use ambos os módulos numa experiência, para obter a quantidade certa e a mistura certa de dados.
Em seguida, comparamos o módulo de Dados Divididos e o módulo partição e amostra , vendo para que tarefas cada módulo é normalmente utilizado.
Utilizações do módulo de dados divididos
- Divida os dados em dois grupos. Utilize o módulo de dados divididos . O módulo produz exatamente duas divisões dos dados. Pode especificar a condição em que os dados são divididos e a proporção dos dados a colocar em cada subconjunto. O Dado Dividido guarda sempre o subconjunto de dados que não satisfaz as condições.
- Alocar os valores dos rótulos igualmente aos conjuntos de dados. A opção de estratificar numa coluna especificada é suportada por ambos os módulos. No entanto, se pretender criar dois conjuntos de dados e estiver maioritariamente interessado na coluna de etiquetas, o módulo Dados Divididos é uma solução rápida.
Exemplo de utilização do módulo de Dados Divididos
Suponha que importou um conjunto de dados muito grande de um ficheiro CSV. O conjunto de dados contém demografia do cliente. Pretende criar diferentes modelos para clientes em diferentes países, por isso decide dividir os dados utilizando o valor da Country-Region
coluna. Aqui estão os passos que toma para completar esta tarefa:
- Adicione o módulo Dados Divididos e, em seguida, especifique uma expressão no
Country-Region
campo. Os restantes dados estão disponíveis na produção secundária. - Adicione outra instância do módulo de Dados Divididos .
- Repita os passos 1 e 2. Especifique um país diferente na expressão para cada iteração.
O módulo Dados Divididos suporta expressões regulares, para dados de texto e expressões relativas, para dados numéricos.
O módulo Dados Divididos também fornece uma funcionalidade sofisticada que pode usar para dividir conjuntos de dados especializados. Utilize a funcionalidade para criar modelos de recomendação e para gerar previsões.
Utilizações do módulo de partição e amostra
- A provar. Utilize sempre o módulo de partição e amostra . O módulo fornece múltiplos métodos de amostragem personalizáveis, incluindo várias opções para amostragem estratificada.
- Atribuir casos a vários grupos. Utilize as opções De atribuir para dobrar ou escolher dobrar no módulo partição e amostra .
- Devolva apenas um subconjunto dos dados. Utilize o módulo de partição e amostra . O módulo dá-lhe o subconjunto especificado na saída primária. Os restantes dados estão disponíveis numa produção secundária.
- Obtenha apenas as 2.000 linhas de um conjunto de dados. Utilize o módulo de partição e amostra . Selecione a opção Cabeça . Isto é particularmente útil quando você está testando uma nova experiência e quer executar testes curtos de um fluxo de trabalho.
Exemplo de utilização do módulo de partição e amostra
O módulo de partição e amostra pode gerar múltiplas divisórias dos dados, e não apenas duas. Ao mesmo tempo, pode realizar várias operações de amostragem.
Por exemplo, suponha que precisa de obter apenas 10% dos seus dados, garantindo ao mesmo tempo que a distribuição do atributo alvo é a mesma que nos dados de origem. Aqui estão os passos que toma para completar esta tarefa:
- Adicione o módulo de partição e amostra .
- Escolha o modo de Amostragem e, em seguida, especifique 10%.
- Selecione a opção de amostragem estratificada e, em seguida, escolha a coluna que contém o atributo alvo.
Se não precisar de guardar todos os dados, utilize o módulo de partição e amostra . Os restantes dados ainda estão presentes no espaço de trabalho, mas não precisam de ser processados ainda mais como parte da experiência.
Tarefas relacionadas
- Aumente o número de casos raros numa amostra ou reequilibrar os casos para um valor-alvo: Utilize o módulo SMOTE .
- Execute a redução da dimensionalidade encontrando a combinação de funcionalidades que melhor representam o espaço de dados: Utilize o módulo de Análise de Componentes Principais .
- Criar funcionalidades compactas baseadas numa análise de funcionalidades e contagens: Utilize o Aprendizagem com o módulo Counts.
- Criar uma vista ou projeção utilizando apenas as colunas especificadas; Remover ou ocultar colunas num conjunto de dados: Utilize as colunas selecionais no conjunto de dados e aplique SQL módulos de transformação.
- Aplicar filtros de dados mais complexos, agrupamentos ou transformações: Utilize os módulos executar o Script R e aplicar SQL de transformação.
Lista de módulos
Esta categoria inclui os seguintes módulos:
- Partição e Amostra: Cria múltiplas divisórias de um conjunto de dados com base na amostragem.
- Dados divididos: Partições as linhas de um conjunto de dados em dois conjuntos distintos.