Converter em Valores Indicadores
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
- Saiba mais sobre Azure Machine Learning.
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Converte valores categóricos em colunas para valores indicadores
Categoria: Transformação de Dados / Manipulação
Nota
Aplica-se a: Machine Learning Studio (clássico) apenas
Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.
Visão geral do módulo
Este artigo descreve como utilizar o módulo Converte para Valores Indicadores em Machine Learning Studio (clássico). O objetivo deste módulo é converter colunas que contenham valores categóricos numa série de colunas indicadoras binárias que podem ser mais facilmente utilizadas como funcionalidades num modelo de aprendizagem automática.
Como configurar Converter para Valores Indicadores
Adicione o módulo De Conversão a Valores Indicadores à sua experiência Machine Learning e conecte-o ao conjunto de dados que contém as colunas que pretende converter. Pode encontrar este módulo na categoria De Transformações de Dados, na categoria Manipulação .
Utilize o Seletor de Colunas para escolher uma ou mais colunas categóricas.
Para garantir que as colunas selecionadas são categóricas, utilize Metadados de Edição antes de Converter para Valores indicadores na sua experiência, para marcar a coluna-alvo como categórica.
Selecione a opção colunas categóricas Overwrite se quiser descodur apenas as novas colunas Boolean.
Por predefinição, esta opção está desligada, o que permite ver a coluna categórica que é a fonte, juntamente com as colunas indicadoras relacionadas.
Dica
Se escolher a opção de substituir em excesso, a coluna de origem não é realmente eliminada ou modificada. Em vez disso, as novas colunas são geradas e apresentadas no conjunto de dados de saída, e a coluna de origem permanece disponível no espaço de trabalho. Se precisar de ver os dados originais, pode utilizar o módulo Add Columns a qualquer momento para adicionar a coluna de origem de volta.
Execute a experimentação.
Resultados
Por exemplo, suponha que tenha uma coluna com pontuações que indiquem se um servidor tem uma probabilidade alta, média ou baixa de falha.
ID do servidor | Pontuação de falha |
---|---|
10301 | Baixo |
10302 | Médio |
10303 | Alto |
Quando se aplica Converter para Valores Indicadores, a única coluna de etiquetas é convertida em várias colunas contendo valores Boolean:
ID do servidor | Pontuação de falha - Baixo | Pontuação de falha - Média | Pontuação de falha - Alta |
---|---|---|---|
10301 | 1 | 0 | 0 |
10302 | 0 | 1 | 0 |
10303 | 0 | 0 | 1 |
Eis como funciona a conversão:
Na coluna de pontuação Desídua que descreve o risco, existem apenas três valores possíveis (Alto, Médio e Baixo) e não há valores em falta. Portanto, exatamente três novas colunas são criadas.
As novas colunas indicadoras são nomeadas com base nas posições e valores da coluna de origem, utilizando este padrão: <valor> de coluna> de <origem.
Deve haver um 1 em exatamente uma coluna indicadora, e 0 em todas as outras colunas indicadoras. Isto porque cada servidor pode ter apenas uma classificação de risco.
Agora pode usar as três colunas indicadoras como características e analisar a sua correlação com outras propriedades que estão associadas a diferentes níveis de risco.
Exemplos
Para ver exemplos de como este módulo é usado, consulte a Galeria Azure AI:
Deteção do cancro da mama: Os pacientes são ligados em grupos com base nos números de identificação do paciente, e então Os Valores indicadores são usados para sinalizar a que grupo o paciente pertence. Posteriormente, os indicadores de grupo são utilizados nos modelos de pontuação.
Marketing direto: As probabilidades são comparadas a uma constante utilizando a Operação Matemática Aplicada, e os valores Sim/Não que indicam se a pontuação foi acima ou abaixo da constante são transformados em novas colunas indicadoras.
Deteção de intrusão em rede: Os dados de registo são carregados a partir do armazenamento do Azure. A variável de classe (que descreve, por exemplo, se um ataque é um rootkit ou transbordo de tampão) é convertida para uma coluna categórica e, em seguida, expandida para múltiplos valores indicadores.
Notas técnicas
Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.
Dicas de utilização
Apenas colunas marcadas como categóricas podem ser convertidas em colunas indicadoras. Se vir este erro, é provável que uma das colunas selecionadas não seja categórica:
Erro 0056: Coluna com nome> da coluna de nome <não está numa categoria permitida.
Por predefinição, a maioria das colunas de cordas são manuseadas como funcionalidades de cadeia, por isso deve marcá-las explicitamente como categóricas usando Metadados de Edição.
É apresentado um erro se não selecionar pelo menos uma coluna categórica.
Não há limite para o número de colunas que pode converter em colunas indicadoras. No entanto, como cada coluna de valores pode produzir várias colunas indicadoras, é possível que queira converter e rever apenas algumas colunas de cada vez.
Se a coluna contiver valores em falta, é criada uma coluna indicadora separada para a categoria em falta, com este nome: <coluna> de origem- Falta
Se a coluna que converter para valores indicadores contiver números, devem ser marcadas como categóricas como qualquer outra coluna de recurso. Depois de o ter feito, os números são tratados como valores discretos. Por exemplo, se tiver uma coluna numérica com valores mpg que variam entre 25 e 30, será criada uma nova coluna indicadora para cada valor discreto:
Criação Autoestrada mpg -25 Autoestrada mpg -26 Autoestrada mpg -27 Autoestrada mpg -28 Autoestrada mpg -29 Autoestrada mpg -30 Alfa Romeo 0 0 0 0 0 1 Para evitar obter um grande número de colunas indicadoras, recomendamos que verifique primeiro o número de valores na coluna e coloque ou quantifica os dados adequadamente.
Entradas esperadas
Nome | Tipo | Description |
---|---|---|
Conjunto de dados | Tabela de Dados | Conjunto de dados com colunas categóricas |
Parâmetros do módulo
Nome | Intervalo | Tipo | Predefinição | Description |
---|---|---|---|---|
Colunas categóricas para converter | Qualquer | Seleção de Colunas | Selecione colunas categóricas para converter em matrizes indicadoras. | |
Colunas categóricas substitutas | Qualquer | Booleano | false | Se for verdade, substitua as colunas categóricas selecionadas; caso contrário, anexar as matrizes indicadoras resultantes ao conjunto de dados. |
Saída
Nome | Tipo | Description |
---|---|---|
Conjunto de dados de resultados | Tabela de Dados | Conjunto de dados com colunas categóricas convertidas em matrizes indicadoras. |