Partilhar via


Selecionar Transformação de Colunas

Este artigo descreve como usar o componente Selecionar Transformação de Colunas no designer do Azure Machine Learning. O objetivo do componente Selecionar transformação de colunas é garantir que um conjunto previsível e consistente de colunas seja usado em operações de aprendizado de máquina downstream.

Este componente é útil para tarefas como pontuação, que exigem colunas específicas. As alterações nas colunas disponíveis podem quebrar o pipeline ou alterar os resultados.

Use Selecionar Transformação de Colunas para criar e salvar um conjunto de colunas. Em seguida, use o componente Aplicar transformação para aplicar essas seleções a novos dados.

Como usar Selecionar Transformação de Colunas

Este cenário pressupõe que você deseja usar a seleção de recursos para gerar um conjunto dinâmico de colunas que serão usadas para treinar um modelo. Para garantir que as seleções de coluna sejam as mesmas para o processo de pontuação, use o componente Selecionar Transformação de Colunas para capturar as seleções de coluna e aplicá-las em outro lugar no pipeline.

  1. Adicione um conjunto de dados de entrada ao seu pipeline no designer.

  2. Adicione uma instância de Seleção de Recursos Baseada em Filtro.

  3. Conecte os componentes e configure o componente de seleção de recursos para encontrar automaticamente vários recursos melhores no conjunto de dados de entrada.

  4. Adicione uma instância de Train Model e use a saída de Filter Based Feature Selection como entrada para treinamento.

    Importante

    Como a importância do recurso é baseada nos valores na coluna, não é possível saber com antecedência quais colunas podem estar disponíveis para entrada no Modelo de Trem.

  5. Anexe uma instância do componente Select Columns Transform.

    Esta etapa gera uma seleção de coluna como uma transformação que pode ser salva ou aplicada a outros conjuntos de dados. Esta etapa garante que as colunas identificadas na seleção de recursos sejam salvas para que outros componentes sejam reutilizados.

  6. Adicione o componente Modelo de pontuação .

    Não conecte o conjunto de dados de entrada. Em vez disso, adicione o componente Aplicar transformação e conecte a saída da transformação de seleção de recursos.

    A estrutura do gasoduto deve ser a seguinte:

    Pipeline de amostra

    Importante

    Você não pode esperar aplicar a Seleção de Recursos Baseada em Filtro ao conjunto de dados de pontuação e obter os mesmos resultados. Como a seleção de recursos é baseada em valores, ele pode escolher um conjunto diferente de colunas, o que faria com que a operação de pontuação falhasse.

  7. Envie o pipeline.

Esse processo de salvar e, em seguida, aplicar uma seleção de coluna garante que o mesmo esquema de dados esteja disponível para treinamento e pontuação.

Próximos passos

Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.