Atribuir dados a clusters
Importante
O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.
A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).
- Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
- Saiba mais sobre o Azure Machine Learning.
A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.
Atribui dados aos clusters que usam um modelo de clustering treinado existente
Categoria: Pontuação
Observação
Aplica-se a: Machine Learning Studio (clássico) somente
Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.
Visão geral do módulo
Este artigo descreve como usar o módulo Atribuir Dados a Clusters no Machine Learning Studio (clássico) para gerar previsões usando um modelo de clustering treinado usando o algoritmo de cluster K-Means.
O módulo retorna um conjuntos de dados que contém as atribuições prováveis para cada novo ponto de dados. Ele também cria um grafo PCA (Análise de Componente Principal) para ajudá-lo a visualizar a dimensionalidade dos clusters.
Aviso
Este módulo substitui o módulo Atribuir a Clusters (preterido), que está disponível apenas para suporte a experimentos mais antigos.
Como usar a atribuição de dados a clusters
No Machine Learning Studio (clássico), localize um modelo de clustering treinado anteriormente. Você pode criar e treinar um modelo de clustering usando um destes métodos:
Configure o algoritmo K-means usando o módulo Clustering K-Means e treine o modelo usando um conjunto de dados e o módulo Treinar Modelo de Clustering .
Configure uma variedade de opções para o algoritmo K-means usando Clustering K-Means e, em seguida, treine o modelo usando o módulo Clustering de Varredura.
Você também pode adicionar um modelo de clustering treinado existente do grupo modelos salvos em seu espaço de trabalho.
Anexe o modelo treinado à porta de entrada à esquerda de atribuir dados a clusters.
Anexe um novo conjunto de dados como entrada. Nesse conjunto de DataSet, os rótulos são opcionais. Em geral, o clustering é um método de aprendizado não supervisionado, portanto, não é esperado que você conheça as categorias com antecedência.
No entanto, as colunas de entrada devem ser iguais às colunas usadas no treinamento do modelo de clustering ou ocorre um erro.
Dica
Para reduzir o número de colunas de saída de previsões de cluster, use Selecionar Colunas no Conjunto de Dados e selecione um subconjunto das colunas.
Deixe a opção Verificar Anexar ou Desmarcar Somente Resultado selecionada se você quiser que os resultados contenham o conjunto de dados de entrada completo, junto com uma coluna que indica os resultados (atribuições de cluster).
Se você desmarcar essa opção, obterá apenas os resultados. Isso pode ser útil ao criar previsões como parte de um serviço Web.
Execute o experimento.
Resultados
O módulo Atribuir Dados a Clusters retorna dois tipos de resultados na saída do conjunto de dados Resultados :
Para ver a separação de clusters no modelo, clique na saída do módulo e selecione Visualizar
Esse comando exibe um grafo PCA (Análise de Componente Principal) que mapeia a coleção de valores em cada cluster para dois eixos de componente.
- O primeiro eixo do componente é o conjunto combinado de recursos que captura a maior variação no modelo. Ele é plotado no eixo x (Componente Principal 1).
- O próximo eixo de componente representa algum conjunto combinado de recursos que é ortogonal para o primeiro componente e que adiciona a próxima maioria das informações ao gráfico. Ele é plotado no eixo y (Componente Principal 2).
No grafo, você pode ver a separação entre os clusters e como os clusters são distribuídos ao longo dos eixos que representam os componentes principais.
Para exibir a tabela de resultados de cada caso nos dados de entrada, anexe o módulo Converter em Conjuntos de Dados e visualize os resultados no Studio (clássico).
Esse conjunto de dados contém as atribuições de cluster para cada caso e uma métrica de distância que fornece alguma indicação de como esse caso específico é próximo ao centro do cluster.
Nome da coluna de saída Descrição Atribuições Um índice baseado em 0 que indica a qual cluster o ponto de dados foi atribuído. DistancesToClusterCenter n. n Para cada ponto de dados, esse valor indica a distância do ponto de dados até o centro do cluster atribuído e a distância para outros clusters.
A métrica usada para calcular a distância é determinada quando você configura o modelo de clustering K-means.
Entradas esperadas
Nome | Tipo | Descrição |
---|---|---|
Modelo treinado | Interface ICluster | Modelo de clustering treinado |
Dataset | Tabela de Dados | Fonte de dados de entrada |
Parâmetros do módulo
Nome | Tipo | Intervalo | Opcional | Padrão | Descrição |
---|---|---|---|---|---|
Somente anexar ou resultado | Obrigatório | TRUE | Indique se o conjuntos de dados de saída deve conter o conjuntos de dados de entrada, bem como os resultados, ou apenas os resultados | ||
Especifique o modo de varredura de parâmetro | Métodos de limpeza | Lista:grade inteira| Limpeza aleatória | Necessária | Varredura aleatória | Varre toda a grade no espaço de parâmetro ou varre usando um número limitado de execuções de exemplo |
Saídas
Nome | Tipo | Descrição |
---|---|---|
Conjunto de dados de resultados | Tabela de Dados | Conjunto de dados de entrada anexado por coluna de dados de atribuições ou somente coluna de atribuições |
Exceções
Exceção | Descrição |
---|---|
Erro 0003 | Ocorrerá uma exceção se uma ou mais das entradas for nula ou estiver vazia. |