Partilhar via


Transformação de Dados - Amostra e Divisão

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Este artigo descreve os módulos em Machine Learning Studio (clássico) que pode utilizar para dividir ou recolher dados.

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

A divisão e a recolha de amostras de conjuntos de dados são tarefas importantes na aprendizagem automática. Por exemplo, é uma prática comum dividir dados em conjuntos de treino e teste para ajudá-lo a avaliar um modelo num conjunto de dados de contenção. A amostragem também é cada vez mais importante na era dos big data, para garantir que haja uma distribuição justa das aulas nos seus dados de formação. A amostragem também ajuda a garantir que não está a processar mais dados do que o necessário.

Pode utilizar Machine Learning módulos Studio (clássicos) para personalizar a forma como divide ou amostra conjuntos de dados:

  • Filtrar dados de treino com base num atributo nos dados.
  • Execute a amostragem estratificada para dividir a variável de classe igualmente entre n número de grupos.
  • Divida os dados de origem num conjunto de dados de treino e teste utilizando uma relação personalizada.
  • Aplicar expressões regulares aos dados para filtrar valores inválidos.

Escolher a operação certa: Dividir ou amostrar

Machine Learning Studio (clássico) fornece dois módulos que encapsulam tarefas. Os módulos soam semelhantes, mas têm diferentes utilizações, e fornecem funcionalidades complementares. É provável que use ambos os módulos numa experiência, para obter a quantidade certa e a mistura certa de dados.

Em seguida, comparamos o módulo de Dados Divididos e o módulo partição e amostra , vendo para que tarefas cada módulo é normalmente utilizado.

Utilizações do módulo de dados divididos

  • Divida os dados em dois grupos. Utilize o módulo de dados divididos . O módulo produz exatamente duas divisões dos dados. Pode especificar a condição em que os dados são divididos e a proporção dos dados a colocar em cada subconjunto. O Dado Dividido guarda sempre o subconjunto de dados que não satisfaz as condições.
  • Alocar os valores dos rótulos igualmente aos conjuntos de dados. A opção de estratificar numa coluna especificada é suportada por ambos os módulos. No entanto, se pretender criar dois conjuntos de dados e estiver maioritariamente interessado na coluna de etiquetas, o módulo Dados Divididos é uma solução rápida.

Exemplo de utilização do módulo de Dados Divididos

Suponha que importou um conjunto de dados muito grande de um ficheiro CSV. O conjunto de dados contém demografia do cliente. Pretende criar diferentes modelos para clientes em diferentes países, por isso decide dividir os dados utilizando o valor da Country-Region coluna. Aqui estão os passos que toma para completar esta tarefa:

  1. Adicione o módulo Dados Divididos e, em seguida, especifique uma expressão no Country-Region campo. Os restantes dados estão disponíveis na produção secundária.
  2. Adicione outra instância do módulo de Dados Divididos .
  3. Repita os passos 1 e 2. Especifique um país diferente na expressão para cada iteração.

O módulo Dados Divididos suporta expressões regulares, para dados de texto e expressões relativas, para dados numéricos.

O módulo Dados Divididos também fornece uma funcionalidade sofisticada que pode usar para dividir conjuntos de dados especializados. Utilize a funcionalidade para criar modelos de recomendação e para gerar previsões.

Utilizações do módulo de partição e amostra

  • A provar. Utilize sempre o módulo de partição e amostra . O módulo fornece múltiplos métodos de amostragem personalizáveis, incluindo várias opções para amostragem estratificada.
  • Atribuir casos a vários grupos. Utilize as opções De atribuir para dobrar ou escolher dobrar no módulo partição e amostra .
  • Devolva apenas um subconjunto dos dados. Utilize o módulo de partição e amostra . O módulo dá-lhe o subconjunto especificado na saída primária. Os restantes dados estão disponíveis numa produção secundária.
  • Obtenha apenas as 2.000 linhas de um conjunto de dados. Utilize o módulo de partição e amostra . Selecione a opção Cabeça . Isto é particularmente útil quando você está testando uma nova experiência e quer executar testes curtos de um fluxo de trabalho.

Exemplo de utilização do módulo de partição e amostra

O módulo de partição e amostra pode gerar múltiplas divisórias dos dados, e não apenas duas. Ao mesmo tempo, pode realizar várias operações de amostragem.

Por exemplo, suponha que precisa de obter apenas 10% dos seus dados, garantindo ao mesmo tempo que a distribuição do atributo alvo é a mesma que nos dados de origem. Aqui estão os passos que toma para completar esta tarefa:

  1. Adicione o módulo de partição e amostra .
  2. Escolha o modo de Amostragem e, em seguida, especifique 10%.
  3. Selecione a opção de amostragem estratificada e, em seguida, escolha a coluna que contém o atributo alvo.

Se não precisar de guardar todos os dados, utilize o módulo de partição e amostra . Os restantes dados ainda estão presentes no espaço de trabalho, mas não precisam de ser processados ainda mais como parte da experiência.

Lista de módulos

Esta categoria inclui os seguintes módulos:

  • Partição e Amostra: Cria múltiplas divisórias de um conjunto de dados com base na amostragem.
  • Dados divididos: Partições as linhas de um conjunto de dados em dois conjuntos distintos.

Ver também