Importância da funcionalidade de permutação
Este artigo descreve como usar o componente Importância do Recurso de Permutação no designer do Azure Machine Learning para calcular um conjunto de pontuações de importância de recurso para seu conjunto de dados. Você usa essas pontuações para ajudá-lo a determinar os melhores recursos a serem usados em um modelo.
Neste componente, os valores dos recursos são embaralhados aleatoriamente, uma coluna de cada vez. O desempenho do modelo é medido antes e depois. Você pode escolher uma das métricas padrão para medir o desempenho.
As pontuações que o componente retorna representam a mudança no desempenho de um modelo treinado, após a permutação. Recursos importantes geralmente são mais sensíveis ao processo de embaralhamento, então resultarão em pontuações de importância mais altas.
Este artigo fornece uma visão geral do recurso de permutação, sua base teórica e suas aplicações no aprendizado de máquina: Importância do recurso de permutação.
Como usar a importância do recurso de permutação
A geração de um conjunto de pontuações de recursos requer que você tenha um modelo já treinado, bem como um conjunto de dados de teste.
Adicione o componente Importância do recurso de permutação ao seu pipeline. Você pode encontrar esse componente na categoria Seleção de recursos .
Conecte um modelo treinado à entrada esquerda. O modelo deve ser um modelo de regressão ou um modelo de classificação.
Na entrada certa, conecte um conjunto de dados. De preferência, escolha um que seja diferente do conjunto de dados que você usou para treinar o modelo. Esse conjunto de dados é usado para pontuar com base no modelo treinado. Ele também é usado para avaliar o modelo depois que os valores do recurso são alterados.
Para Semente aleatória, insira um valor a ser usado como semente para randomização. Se você especificar 0 (o padrão), um número será gerado com base no relógio do sistema.
Um valor seed é opcional, mas você deve fornecer um valor se quiser reprodutibilidade em execuções do mesmo pipeline.
Em Métrica para medir o desempenho, selecione uma única métrica para usar quando estiver computando a qualidade do modelo após a permutação.
O designer do Azure Machine Learning dá suporte às seguintes métricas, dependendo se você está avaliando um modelo de classificação ou regressão:
Classificação
Precisão, Precisão, Recall
Regressão
Precisão, Recordação, Erro Absoluto Médio, Erro Quadrático Médio Raiz, Erro Absoluto Relativo, Erro Quadrático Relativo, Coeficiente de Determinação
Para obter uma descrição mais detalhada dessas métricas de avaliação e como elas são calculadas, consulte Modelo de avaliação.
Envie o pipeline.
O componente gera uma lista de colunas de feição e as pontuações associadas a elas. A lista é classificada em ordem decrescente das pontuações.
Notas técnicas
A Importância do Recurso de Permutação funciona alterando aleatoriamente os valores de cada coluna de recurso, uma coluna de cada vez. Em seguida, avalia o modelo.
As classificações que o componente fornece geralmente são diferentes daquelas que você obtém da Seleção de Recursos Baseada em Filtro. A Seleção de Recursos Baseada em Filtro calcula as pontuações antes de um modelo ser criado.
A razão para a diferença é que a Importância do Recurso de Permutação não mede a associação entre um recurso e um valor de destino. Em vez disso, ele captura quanta influência cada recurso tem nas previsões do modelo.
Próximos passos
Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.