Hauptkomponentenanalyse
Wichtig
Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.
Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.
- Siehe Migrieren zu Azure Machine Learning
- Weitere Informationen zu Azure Machine Learning.
Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.
Berechnet einen Satz von Merkmalen mit weniger Dimensionen für effizienteres Lernen.
Kategorie: Datentransformation/Beispiel und Aufteilung
Hinweis
Gilt nur für: Machine Learning Studio (klassisch)
Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.
Modulübersicht
In diesem Artikel wird beschrieben, wie Sie das Modul Principal Component Analysis (Prinzipalkomponentenanalyse) in Machine Learning Studio (klassisch) verwenden, um die Dimensionalität Ihrer Trainingsdaten zu reduzieren. Das Modul analysiert Ihre Daten und erstellt einen reduzierten Featuresatz, der alle im Dataset enthaltenen Informationen erfasst, jedoch in einer kleineren Anzahl von Features.
Das Modul erstellt außerdem eine Transformation, die auf neue Daten angewendet werden kann, um eine ähnliche Reduzierung der Dimensionalität und Komprimierung von Funktionen zu erreichen, ohne dass zusätzliches Training erforderlich ist.
Weitere Informationen zur Hauptkomponentenanalyse
Die Prinzipalkomponentenanalyse (Principal Component Analysis, PCA) ist ein beliebtes Verfahren beim maschinellen Lernen. Sie basiert auf der Tatsache, dass viele Arten von Vektorraumdaten komprimiert werden können und dass die Komprimierung am effizientesten durch Stichprobenentnahme erreicht werden kann.
Zusätzliche Vorteile der PCA sind die verbesserte Datenvisualisierung und die Optimierung der Ressourcennutzung durch den Lernalgorithmus.
Das Principal Component Analysis-Modul in Machine Learning Studio (klassisch) verwendet eine Reihe von Featurespalten im bereitgestellten Dataset und erstellt eine Projektion des Featurebereichs mit geringerer Dimensionalität. Der Algorithmus verwendet Randomisierungstechniken, um einen Featureunterbereich zu identifizieren, der die meisten Informationen in der vollständigen Featurematrix erfasst. Daher erfassen die transformierten Datenmatrizen die Varianz in den ursprünglichen Daten und reduzieren gleichzeitig die Auswirkungen von Rauschen und minimieren das Risiko einer Überanpassung.
Allgemeine Informationen zur Hauptkomponentenanalyse (Principal Component Analysis, PCA) finden Sie in diesem Wikipedia-Artikel. Informationen zu den pca-Ansätzen, die in diesem Modul verwendet werden, finden Sie in den folgenden Artikeln:
Finding Structure with Randomness (Struktur mit Zufall): Probbabilistische Algorithmen zum Erstellen ungefährer Matrixdekompositionen. Halogenko, Martinsson und Tropp, 2010.
Kombinieren strukturierter und unstrukturierter Zufallszahlen in umfangreicher PCA Kombinieren strukturierter und unstrukturierter Zufallszahlen in umfangreicher PCA. Sollmpatziakis und Mindomin, 2013.
Konfigurieren der Prinzipalkomponentenanalyse
Fügen Sie ihrem Experiment das Modul Principal Component Analysis (Prinzipalkomponentenanalyse ) hinzu. Sie finden sie unter Datentransformation in der Kategorie Skalierung und Reduzierung .
Verbinden das Dataset, das Sie transformieren möchten, und wählen Sie die zu analysierenden Featurespalten aus.
Wenn noch nicht klar ist, welche Spalten Features und welche Bezeichnungen sind, empfiehlt es sich, das Modul Edit Metadata (Metadaten bearbeiten ) zu verwenden, um die Spalten im Voraus zu markieren.
Anzahl der Dimensionen, auf die reduziert werden soll: Geben Sie die gewünschte Anzahl von Spalten in die endgültige Ausgabe ein. Jede Spalte stellt eine Dimension dar, die einen Teil der Informationen in den Eingabespalten erfasst.
Wenn das Quelldataset beispielsweise acht Spalten enthält und Sie eingeben
3
, werden drei neue Spalten zurückgegeben, die die Informationen der acht ausgewählten Spalten erfassen. Die Spalten heißenCol1
,Col2
undCol3
. Diese Spalten werden nicht direkt den Quellspalten zugeordnet. Stattdessen enthalten die Spalten eine Näherung des Featurebereichs, der von den ursprünglichen Spalten 1 bis 8 beschrieben wird.Tipp
Der Algorithmus funktioniert optimal, wenn die Anzahl der reduzierten Dimensionen viel kleiner als die ursprünglichen Dimensionen ist.
Normalisieren eines dichten Datasets auf 0 (null) Mittelwert: Wählen Sie diese Option aus, wenn das Dataset sehr dichte Werte enthält. Wenn diese Option ausgewählt ist, normalisiert das Modul die Werte in den Spalten vor jeder anderen Verarbeitung auf den Mittelwert 0 (null).
Bei Datasets mit geringer Dichte sollte diese Option nicht ausgewählt werden. Wenn ein Sparsedataset erkannt wird, wird der Parameter überschrieben.
Führen Sie das Experiment aus.
Ergebnisse
Das Modul gibt einen reduzierten Satz von Spalten aus, die Sie beim Erstellen eines Modells verwenden können. Sie können die Ausgabe als neues Dataset speichern oder in Ihrem Experiment verwenden.
Optional können Sie den Analyseprozess als gespeicherte Transformation speichern, um sie mithilfe von Apply Transformation auf ein anderes Dataset anzuwenden.
Das Dataset, auf das Sie die Transformation anwenden, muss das gleiche Schema wie das ursprüngliche Dataset aufweisen.
Beispiele
Beispiele für die Verwendung der Prinzipalkomponentenanalyse beim maschinellen Lernen finden Sie im Azure KI-Katalog:
Clustering: Suchen ähnlicher Unternehmen: Verwendet die Prinzipalkomponentenanalyse, um die Anzahl der Werte aus dem Text mining auf eine verwaltbare Anzahl von Features zu reduzieren.
In diesem Beispiel wird die PCA zwar mit einem benutzerdefinierten R-Skript angewendet, aber es wird veranschaulicht, wie PCA in der Regel verwendet wird.
Technische Hinweise
Es gibt zwei Phasen für die Berechnung der unterdimensionalen Komponenten.
- Die erste besteht darin, einen unterdimensionalen Unterbereich zu erstellen, der die Aktion der Matrix erfasst.
- Die zweite besteht darin, die Matrix auf den Unterbereich zu beschränken und dann eine Standardfaktorisierung der reduzierten Matrix zu berechnen.
Erwartete Eingaben
Name | Type | Beschreibung |
---|---|---|
Dataset | Datentabelle | Dataset, dessen Dimensionen reduziert werden sollen. |
Modulparameter
Name | Typ | Range | Optional | BESCHREIBUNG | Standard |
---|---|---|---|---|---|
Ausgewählte Spalten | ColumnSelection | Erforderlich | Ausgewählte Spalten, auf die PCA angewendet werden soll. | ||
Anzahl der Dimensionen, auf die reduziert werden soll. | Integer | >=1 | Erforderlich | Die Anzahl der gewünschten Dimensionen im reduzierten Dataset. | |
Normalize dense dataset to zero mean | Boolean | Erforderlich | true | Gibt an, ob die Eingabespalten für dichte Datasets mittelwertnormalisiert werden (bei geringen Datenmengen wird der Parameter ignoriert). |
Ausgaben
Name | Type | Beschreibung |
---|---|---|
Ergebnisdataset | Datentabelle | Dataset mit reduzierten Dimensionen |
PCA-Transformation | ITransform-Schnittstelle | Transformation, die ein Dataset in ein neues Dataset mit reduzierten Dimensionen umwandelt. |
Ausnahmen
Ausnahme | Beschreibung |
---|---|
Fehler 0001 | Eine Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten des Datasets nicht gefunden werden konnten. |
Fehler 0003 | Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist. |
Fehler 0004 | Eine Ausnahme tritt auf, wenn der Parameter kleiner als oder gleich dem bestimmten Wert ist. |
Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.
Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.