Valores Categóricos do Grupo
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
- Saiba mais sobre Azure Machine Learning.
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Gru como grupos de dados de várias categorias para uma nova categoria
Categoria: Transformação de Dados / Manipulação
Nota
Aplica-se a: Machine Learning Studio (clássico) apenas
Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.
Visão geral do módulo
Este artigo descreve como usar o módulo Valores Categóricos do Grupo em Machine Learning Studio (clássico), para criar uma tabela de procura no local.
O uso típico para agrupar valores categóricos é fundir múltiplos valores de cadeia num único novo nível. Por exemplo, pode atribuir códigos postais individuais numa região a um único código regional, ou agrupar vários produtos numa única categoria.
Para utilizar este módulo, digite os valores de procura que pretende utilizar e mapeeia os valores existentes para os valores de substituição. Pode criar agrupamentos apenas para colunas categóricas, não para colunas de tipo numérico ou colunas designadas como etiquetas ou características.
Quaisquer valores de coluna que não estejam explicitamente mapeados para um novo nível são atribuídos a um nível padrão. Por exemplo, se não mapeasse todos os códigos postais individuais, eles seriam agrupados num nível para valores não mapeados, que poderia nomear Desconhecido.
Nota
Um máximo de 20 novos níveis pode ser criado, incluindo o nível padrão. Se precisar de mais valores ou precisar de definir mapeamentos de forma dinâmica, recomendamos que utilize script R personalizado no módulo Execut R Script . Ou, utilize SQL declarações no módulo de Transformação SQL.
Como utilizar valores categóricos do grupo
Recomendamos que prepare previamente a lista dos valores existentes e as novas categorias. Para cada categoria, deve preparar um novo nome de categoria, e uma lista de valores separadas por vírgulas a incluir na categoria.
Adicione o módulo Valores Categóricos do Grupo à sua experiência. Pode encontrar o módulo em Transformação de Dados, Manipulação.
Ligação um conjunto de dados que tem os valores que pretende transformar.
No painel de propriedades dos valores categóricos do grupo, utilize o Seletor de Colunas para escolher a coluna que tem os níveis que pretende reduzir.
Recomendamos que clique em BEGIN WITH e NO COLUMNS para iniciar e, em seguida, adicione colunas pelo nome. Caso contrário, muitas colunas poderão ser adicionadas como candidatos, levando a um erro.
A coluna deve ser uma coluna categórica. Se não for, adicione Metadados a montante e altere o tipo de coluna.
Certifique-se de que remove da entrada quaisquer colunas às quais não deve ser aplicada a substituição do fio.
Para o modo saída, indique se pretende apenas desempenhá-lo nos novos níveis ou anexar as alterações para ver a coluna original, com as substituições lado a lado.
O padrão, ResultOnly, mostra apenas os novos valores. A opção Inplace substitui os valores da coluna existentes pelos novos níveis.
Para o nome de nível predefinido, digite um valor de cadeia para usar como substituto de todos os valores que não estejam explicitamente mapeados. Pode utilizar algo como "Desconhecido" ou "Padrão".
Nota
Este valor de nível predefinido é aplicado a todos os valores que não podem ser mapeados. Se acidentalmente incluísse colunas que não pretendia mapear, o valor seria aplicado a todos os valores nas colunas. Portanto, verifique se a seleção da coluna está correta antes do processamento.
Para o novo número de níveis, escreva um número que indique o número total de novas categorias (níveis), incluindo o nível padrão para valores não mapeados.
Para nome do novo nível 1, forneça o novo nome de grupo para a primeira categoria.
Na caixa de texto que imediatamente se segue, lista separada por coma de níveis antigos para mapear para novo nível 1, digite ou cole uma lista exaustiva de todos os valores para mapear para o novo nível. Não são permitidos caracteres wildcard e expressões regulares.
Continue a escrever novos nomes de nível e valores de tipo ou pasta que devem ser mapeados para o novo nível.
Recomendamos que guarde a sua lista de valores num ficheiro separado enquanto está a trabalhar. Se alterar o número de níveis, quaisquer cordas que tenha digitado anteriormente são removidas e deve recomeçar.
No entanto, se estiver a editar um módulo previamente guardado, pode reverter para as definições originais.
Execute a experimentação.
Resultados
Para ver os resultados, clique com o botão certo no módulo Valores Categóricos do Grupo , selecione Conjunto de dados de Resultados e clique em Visualizar.
Exemplos
Por exemplo, a aprendizagem automática em ação, consulte a Galeria Azure AI.
Você também pode experimentar este módulo para si mesmo, usando um pequeno conjunto de dados com algumas variáveis de cordas que podem ser facilmente agrupadas, como o conjunto de dados de preços do Automóvel que é fornecido em Machine Learning Studio (clássico).
Vamos supor que você quer agrupar carros no conjunto de dados de preços do Automóvel pelo tamanho do motor, usando o número de cilindros. Em vez de muitos tamanhos de motor diferentes, você vai criar os novos níveis, "grandes", "pequenos" e "outros" da seguinte forma:
- Grandes motores: seis cilindros ou maiores
- Motores pequenos: dois ou quatro cilindros
- Outro: qualquer outra coisa
- Adicione as Colunas Selecione no módulo Dataset e selecione apenas a
num-of-cylinders
coluna. - Adicione o módulo de metadados editar e altere a
num-of-cylinders
coluna para Categoricamente. - Adicione o módulo Valores Categóricos do Grupo e ligue o conjunto de dados modificado.
- Para o nome de nível predefinido, escreva
other
. Não precisa fornecer valores para este nível. - Para nome do novo nível 1, tipo
big
. Na lista de níveis antigos para mapear para o nível 1, cole emsix, eight, twelve
. - Para nome do novo nível 2, escreva
small
. Para os valores mapeados, cole emtwo, four
. - Execute a experimentação.
- Quando visualiza os resultados, percebe que o conjunto de dados original tinha alguns tamanhos de motor ímpares que não contabilizou, tais como
five
ethree
. Todos estes itens estão mapeados aoother
nível.
Notas técnicas
Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.
Pode encontrar a mensagem de erro: "Coluna com nome< de> coluna" não está numa categoria permitida."
Esta mensagem indica que a coluna selecionada não é uma coluna categórica. Pode marcar a coluna como
Categorical
utilizando Metadados de Edição ou selecionar uma coluna diferente que contenha valores de categoria apropriados.
Entradas esperadas
Nome | Tipo | Description |
---|---|---|
Conjunto de dados | Tabela de Dados | Dados para agrupar |
Parâmetros do módulo
Nome | Intervalo | Tipo | Predefinição | Description |
---|---|---|---|---|
Colunas selecionadas | qualquer | Seleção de Colunas | CategoricalTo | Selecione as colunas que serão agrupadas. |
Modo de saída | qualquer | OutputTo | ResultadoSOnly | Especifique como as etiquetas de categoria devem ser de saída. |
Nome de nível predefinido | qualquer | String | Indique o nível predefinido a utilizar se não corresponderem os mapeamentos. | |
Novo número de níveis | Lista | Número de grupos | Especifique o número de níveis após agrupar os valores, incluindo o nível de incumprimento. |
Saída
Nome | Tipo | Description |
---|---|---|
Conjunto de dados de resultados | Tabela de Dados | Dados agrupados |