Análise principal de componentes
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
- Saiba mais sobre Azure Machine Learning.
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Calcula um conjunto de funcionalidades com dimensionalidade reduzida para uma aprendizagem mais eficiente
Categoria: Transformação de Dados / Amostra e Divisão
Nota
Aplica-se a: Machine Learning Studio (clássico) apenas
Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.
Visão geral do módulo
Este artigo descreve como usar o módulo principal de análise de componentes em Machine Learning Studio (clássico) para reduzir a dimensionalidade dos seus dados de treino. O módulo analisa os seus dados e cria um conjunto de recursos reduzido que captura todas as informações contidas no conjunto de dados, mas num número menor de funcionalidades.
O módulo também cria uma transformação que pode aplicar a novos dados, para alcançar uma redução semelhante na dimensionalidade e compressão de funcionalidades, sem necessidade de formação adicional.
Mais sobre a Análise principal de Componentes
A Análise Principal de Componentes (APC) é uma técnica popular em machine learning. Baseia-se no facto de muitos tipos de dados do espaço vetorial serem compressíveis, e que a compressão pode ser alcançada de forma mais eficiente através da amostragem.
Os benefícios adicionais do APC são a visualização melhorada dos dados e a otimização do uso de recursos pelo algoritmo de aprendizagem.
O módulo principal de análise de componentes em Machine Learning Studio (clássico) pega num conjunto de colunas de funcionalidades no conjunto de dados fornecido, e cria uma projeção do espaço de funcionalidades que tem uma menor dimensionalidade. O algoritmo utiliza técnicas de aleatoriedade para identificar um subespaço de recurso que captura a maior parte da informação na matriz completa da funcionalidade. Assim, as matrizes de dados transformadas captam a variação nos dados originais, reduzindo o efeito do ruído e minimizando o risco de sobremontagem.
Para obter informações gerais sobre a análise principal de componentes (APC) consulte este artigo da Wikipédia. Para obter informações sobre as abordagens do APC utilizadas neste módulo, consulte estes artigos:
Estrutura de descoberta com aleatoriedade: Algoritmos probabilísticos para a construção de decomposições de matriz aproximadas. Halko, Martinsson e Tropp, 2010.
Combinando aleatoriedade estruturada e não estruturada em PCA em grande escala Combinando aleatoriedade estruturada e não estruturada em PCA em larga escala. Karampatziakis e Mineiro, 2013.
Como configurar a Análise principal de Componentes
Adicione o módulo principal de análise de componentes à sua experiência. Pode encontrá-lo em transformação de dados, na categoria Escala e Redução .
Ligação o conjunto de dados que pretende transformar e escolha as colunas de funcionalidades para analisar.
Se ainda não estiver claro quais as colunas que são características e quais são as etiquetas, recomendamos que utilize o módulo editar metadados para marcar as colunas com antecedência.
Número de dimensões a reduzir para: Digite o número desejado de colunas na saída final. Cada coluna representa uma dimensão que captura parte da informação nas colunas de entrada.
Por exemplo, se o conjunto de dados de origem tiver oito colunas e escrever
3
, são devolvidas três novas colunas que capturam a informação das oito colunas selecionadas. As colunas são chamadasCol1
,Col2
eCol3
. Estas colunas não mapeiam diretamente para as colunas de origem; em vez disso, as colunas contêm uma aproximação do espaço de características descrito pelas colunas originais 1-8.Dica
O algoritmo funciona perfeitamente quando o número de dimensões reduzidas é muito menor do que as dimensões originais.
Normalize o conjunto de dados denso para zero: Selecione esta opção se o conjunto de dados for denso, o que significa que contém poucos valores em falta. Se selecionado, o módulo normaliza os valores nas colunas para uma média de zero antes de qualquer outro processamento.
Para conjuntos de dados escassos, esta opção não deve ser selecionada. Se for detetado um conjunto de dados escasso, o parâmetro é ultrapassado.
Execute a experimentação.
Resultados
O módulo produz um conjunto reduzido de colunas que pode utilizar na criação de um modelo. Pode guardar a saída como um novo conjunto de dados ou usá-la na sua experiência.
Opcionalmente, pode guardar o processo de análise como uma transformação guardada, para aplicar a outro conjunto de dados usando a Apply Transformation.
O conjunto de dados a que aplica a transformação deve ter o mesmo esquema que o conjunto de dados original.
Exemplos
Por exemplo, como a Análise principal de Componentes é utilizada na aprendizagem automática, consulte a Galeria Azure AI:
Agrupamento: Localizar Empresas Similares: Utiliza a Análise principal de Componentes para reduzir o número de valores da mineração de texto para um número manejável de funcionalidades.
Embora nesta amostra o PCA seja aplicado usando um script R personalizado, ele ilustra como o PCA é normalmente usado.
Notas técnicas
Há duas fases para calcular os componentes de baixo dimensional.
- A primeira é construir um subespaço de baixa dimensão que captura a ação da matriz.
- A segunda é restringir a matriz ao subespaço e, em seguida, calcular uma factorização padrão da matriz reduzida.
Entradas esperadas
Nome | Tipo | Description |
---|---|---|
Conjunto de dados | Tabela de Dados | Conjunto de dados cujas dimensões devem ser reduzidas |
Parâmetros do módulo
Nome | Tipo | Intervalo | Opcional | Descrição | Predefinição |
---|---|---|---|---|---|
Colunas selecionadas | Seleção de Colunas | Necessário | Colunas selecionadas para aplicar PCA a | ||
Número de dimensões a reduzir para | Número inteiro | >=1 | Necessário | O número de dimensões desejadas no conjunto de dados reduzido | |
Normalizar conjunto de dados denso para zero significa | Booleano | Necessário | true | Indicar se as colunas de entrada serão normalizadas para conjuntos de dados densos (para o parâmetro de dados escassos é ignorado) |
Saídas
Nome | Tipo | Description |
---|---|---|
Conjunto de dados de resultados | Tabela de Dados | Conjunto de dados com dimensões reduzidas |
Transformação do PCA | Interface ITransform | Transformação que quando aplicada ao conjunto de dados dará um novo conjunto de dados com dimensões reduzidas |
Exceções
Exceção | Description |
---|---|
Erro 0001 | A exceção ocorre se uma ou mais colunas especificadas de conjunto de dados não puderem ser encontradas. |
Erro 0003 | A exceção ocorre se uma ou mais entradas forem nulas ou vazias. |
Erro 0004 | A exceção ocorre se o parâmetro for inferior ou igual ao valor específico. |
Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte Machine Learning Códigos de Erro.
Para obter uma lista de exceções da API, consulte Machine Learning CÓDIGOs de Erro da API REST.