Compartilhar via


Converter em valores de indicador

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Converte valores categóricos em colunas para valores de indicador

Categoria: Transformação/manipulação de dados

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo Converter em Valores de Indicador no Machine Learning Studio (clássico). A finalidade deste módulo é converter colunas que contêm valores categóricos em uma série de colunas de indicador binário que podem ser usadas mais facilmente como recursos em um modelo de machine learning.

Como configurar Converter para Valores de Indicador

  1. Adicione o módulo Converter em Valores de Indicador ao Machine Learning teste e conecte-o ao conjuntos de dados que contém as colunas que você deseja converter. Você pode encontrar este módulo em Transformações de Dados, na categoria Manipulação .

  2. Use o Seletor de Coluna para escolher uma ou mais colunas categóricas.

    Para garantir que as colunas selecionadas sejam categóricas, use Editar Metadados antes de Converter em Valores indicadores em seu experimento, para marcar a coluna de destino como categórica.

  3. Selecione a opção Substituir colunas categóricas se você quiser produzir apenas as novas colunas Boolianas.

    Por padrão, essa opção está desligada, o que permite que você veja a coluna categórica que é a origem, junto com as colunas de indicador relacionadas.

    Dica

    Se você escolher a opção de substituir, a coluna de origem não será realmente excluída nem modificada. Em vez disso, as novas colunas são geradas e apresentadas no conjunto de dados de saída e a coluna de origem permanece disponível no workspace. Se você precisar ver os dados originais, poderá usar o módulo Adicionar Colunas a qualquer momento para adicionar a coluna de origem novamente.

  4. Execute o experimento.

Resultados

Por exemplo, suponha que você tenha uma coluna com pontuações que indicam se um servidor tem uma probabilidade alta, média ou baixa de falha.

ID de servidor Pontuação de falha
10301 Baixo
10302 Médio
10303 Alto

Quando você aplica Converter em Valores de Indicador, a única coluna de rótulos é convertida em várias colunas que contêm valores boolianas:

ID de servidor Pontuação de falha – Baixo Pontuação de falha – Médio Pontuação de falha – Alto
10301 1 0 0
10302 0 1 0
10303 0 0 1

Veja como funciona a conversão:

  • Na coluna Pontuação de falha que descreve o risco, há apenas três valores possíveis (Alto, Médio e Baixo) e nenhum valor ausente. Portanto, exatamente três colunas novas são criadas.

  • As novas colunas de indicador são nomeadas com base nos cabeçalhos da coluna e nos valores da coluna de origem, usando este padrão: <coluna de origem>- <valor de dados>.

  • Deve haver um 1 em exatamente uma coluna de indicador e 0 em todas as outras colunas de indicador. Isso porque cada servidor pode ter apenas uma classificação de risco.

Agora você pode usar as três colunas de indicador como recursos e analisar sua correlação com outras propriedades associadas a um nível de risco diferente.

Exemplos

Para ver exemplos de como esse módulo é usado, consulte o Galeria de IA do Azure:

  • Detecção de câncer de câncer de câncer: os pacientes são agrupados em grupos com base nos números de ID do paciente e, em seguida, valores indicadores são usados para sinalizar a qual grupo o paciente pertence. Posteriormente, os indicadores de grupo são usados ao classificar os modelos.

  • Marketing direto: as probabilidades são comparadas a uma constante usando Aplicar Operação Matemática e os valores Sim/Não que indicam se a pontuação estava acima ou abaixo da constante são transformadas em novas colunas de indicador.

  • Detecção de intrusão de rede: os dados de log são carregados do armazenamento do Azure. A variável de classe (que descreve, por exemplo, se um invasor for um estouro de buffer ou de rootkit) é convertida em uma coluna categórica e expandida para vários valores de indicador.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Dicas de uso

  • Somente as colunas que são marcadas como categóricas podem ser convertidas em colunas de indicador. Se você vir esse erro, é provável que uma das colunas selecionadas não seja categórica:

    Erro 0056: A coluna com o nome <nome da coluna> não é uma categoria permitida.

    Por padrão, a maioria das colunas de cadeia de caracteres é tratada como recursos de cadeia de caracteres, portanto, você deve marcá-las explicitamente como categóricas usando Editar Metadados.

  • Um erro será exibido se você não selecionar pelo menos uma coluna categórica.

  • Não há limite para o número de colunas que você pode converter em colunas de indicador. No entanto, como cada coluna de valores pode produzir várias colunas de indicador, talvez você queira converter e revisar apenas algumas colunas por vez.

  • Se a coluna tiver valores ausentes, uma coluna de indicador separada será criada para a categoria ausente, com este nome: <coluna de origem>- Ausente

  • Se a coluna que você converter em valores de indicador tiver números, elas deverão ser marcadas como categóricas como qualquer outra coluna de recurso. Depois disso, os números serão tratados como valores discretos. Por exemplo, se você tiver uma coluna numérica com valores MPG variando de 25 a 30, uma nova coluna de indicador será criada para cada valor discreto:

    Faça Rodovia mpg – 25 Rodovia mpg – 26 Rodovia mpg – 27 Rodovia mpg – 28 Rodovia mpg – 29 Rodovia mpg – 30
    Alfa Alpha 0 0 0 0 0 1

    Para evitar obter um grande número de colunas de indicador, recomendamos que você primeiro verifique o número de valores na coluna e, em seguida, ou quantificar os dados adequadamente.

Entradas esperadas

Nome Tipo Descrição
Dataset Tabela de Dados Conjunto de dados com colunas categóricas

Parâmetros do módulo

Nome Intervalo Type Padrão Descrição
Colunas categóricas a serem convertidas Qualquer ColumnSelection Selecione colunas categóricas para converter em matrizes de indicador.
Substituir colunas categóricas Qualquer Booliano false Se True, substituir colunas categóricas selecionadas; caso contrário, acrescentar as matrizes de indicador resultantes ao conjunto de dados.

Saída

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Conjunto de dados com colunas categóricas convertidas em matrizes de indicador.

Confira também

Manipulação
Transformação de dados
Lista de Módulo A-Z