Filter Based Feature Selection
Wichtig
Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.
Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.
- Siehe Migrieren zu Azure Machine Learning
- Weitere Informationen zu Azure Machine Learning.
Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.
Identifiziert die Funktionen in einem Dataset mit der größten Vorhersageleistung
Kategorie: Funktionsauswahlmodule
Hinweis
Gilt für: Machine Learning Studio (klassisch)
Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.
Modulübersicht
In diesem Artikel wird beschrieben, wie Sie das Modul Filter Based Feature Selection in Machine Learning Studio (klassisch) verwenden, um die Spalten in Ihrem Eingabe-Dataset mit der größten Vorhersageleistung zu identifizieren.
Im Grundsatz bezieht sich Feature Selection (Featureauswahl) darauf, dass bei vorgegebener Ausgabe statistische Tests auf Eingaben angewendet werden, um die Spalten zu bestimmen, die eine bessere ausgabebezogene Vorhersage bringen. Das Modul Filter Based Feature Selection (Filterbasierte Featureauswahl) bietet mehrere Funktionsauswahlalgorithmen zur Auswahl, darunter Korrelationsmethoden wie die Korrelation von Pearsons oder Kendall, gegenseitige Informationsergebnisse und Chi-Quadrat-Werte. Machine Learning unterstützt auch feature value counts als Indikator für den Informationswert.
Wenn Sie das Modul Filter Based Feature Selection verwenden, stellen Sie ein Dataset bereit, bestimmen Sie die Spalte, die die Bezeichnungs- oder abhängige Variable enthält, und dann geben Sie eine einzelne Methode an, die zum Messen der Featurerelevanz verwendet werden soll.
Das Modul gibt ein Dataset aus, das die Spalten mit den bestgeeigneten Features (Merkmale) enthält, eingestuft nach Vorhersagekraft. Außerdem gibt das Modul die Namen der Merkmale und deren Scores aus der ausgewählten Metrik aus.
Was ist die filterbasierte Featureauswahl, und warum sollte sie verwendet werden?
Dieses Modul für Featureauswahl wird als „filterbasiert“ bezeichnet, weil Sie eine ausgewählte Metrik verwenden, um irrelevante Attribute zu bestimmen und redundante Spalten aus Ihrem Modell herauszufiltern. Sie wählen eine einzelne statistisches Maßzahl aus, die Ihren Daten entspricht, und das Modul berechnet einen Score (Bewertung) für jede Merkmalsspalte (Featurespalte). Die Spalten werden entsprechend der Einstufung ihrer Merkmalscores zurückgegeben.
Durch Auswahl der richtigen Merkmale können Sie möglicherweise die Genauigkeit und Effizienz der Klassifizierung verbessern.
In der Regel verwenden Sie nur die Spalten mit den besten Scores, um Ihr Vorhersagemodell zu erstellen. Spalten mit schwachen Merkmalauswahlscores können im Dataset verbleiben und beim Erstellen eines Modells ignoriert werden.
Auswählen einer Metrik zur Merkmalauswahl (Featureauswahl)
Das Modul Filter-Based Feature Selection stellt eine Vielzahl von Metriken zur Bewertung des Informationswerts jeder Spalte bereit. In diesem Abschnitt finden Sie eine allgemeine Beschreibung jeder Metrik und der Vorgehensweise, wie sie angewendet wird. Weitere Anforderungen für die Verwendung jeder Metrik sind im Abschnitt Technische Hinweise und in den Anweisungen zum Konfigurieren jedes Moduls angegeben.
Pearson-Korrelation
Die Pearson-Korrelation, auch der Korrelationskoeffizient, wird in statistischen Modellen auch als
r
-Wert bezeichnet. Für zwei beliebige Variablen gibt er einen Wert zurück, der die Stärke der Korrelation angibt.Der Korrelationskoeffizient wird berechnet, indem die Kovarianz zweier Variablen durch das Produkt ihrer Standardabweichungen dividiert wird. Größenänderungen der beiden Variablen wirken sich nicht auf den Koeffizienten aus.
Mutual Information
Die Bewertung der gegenseitigen Informationen misst den Beitrag einer Variablen zur Verringerung der Unklarheit hinsichtlich des Werts einer anderen Variablen: nämlich der Bezeichnung. Es wurden viele Varianten der Transinformationsbewertung entwickelt, um unterschiedlichen Verteilungen gerecht zu werden.
Die Transinformationsbewertung ist insbesondere für die Merkmalsauswahl nützlich, weil sie die gegenseitigen Informationen zwischen der gemeinsamen Verteilung und den Zielvariablen in Datasets mit vielen Dimensionen maximiert.
Kendall Correlation
Kendalls Rangkorrelation entspricht einem von mehreren statistischen Verfahren, in denen die Beziehung zwischen Rangordnungen unterschiedlicher Rangvariablen oder unterschiedlichen Rangfolgen derselben Variablen bemessen wird. Anders ausgedrückt, das Verfahren bemisst die Ähnlichkeit von Ordnungen, wenn sie nach den Mengen geordnet sind. Sowohl dieser Koeffizient als auch der Spearmans Rangkorrelationskoeffizient sind dazu vorgesehen, mit nicht parametrischen und nicht normal verteilten Daten verwendet zu werden.
Spearman Correlation
Der Spearmans Koeffizient ist ein nicht parametrisches Maß der statistischen Abhängigkeit zwischen zwei Variablen und wird manchmal mit dem griechischen Buchstaben Rho gekennzeichnet. Der Spearmans Koeffizient formuliert den Grad, zu dem zwei Variablen monoton verknüpft sind. Er wird auch als Spearman Rangkorrelation,bezeichnet, da er mit Rangvariablen verwendet werden kann.
Chi Squared
Der bidirektionale Chi-Quadrat-Test ist eine statistische Methode, die misst, wie nahe erwartete Werte den tatsächlichen Ergebnissen kommen. Für die Methode wird vorausgesetzt, dass Variablen zufällig sind und aus einer geeigneten Stichprobe unabhängiger Variablen entnommen werden. Das Ergebnis des Chi-Quadrat-Tests gibt an, wie weit Ergebnisse vom erwarteten (zufälligen) Ergebnis entfernt sind.
Fisher Score
Der "Fisher Score" (auch als Fisher-Methode oder Fisher's combined probability test bezeichnet) wird gelegentlich Information Score genannt, weil er die Menge an Informationen angibt, die eine Variable über einen unbekannten Parameter bereitstellt, von dem sie abhängt.
Die Bewertung wird berechnet, indem die Abweichung zwischen dem Erwartungswert der Informationen und dem beobachteten Wert ermittelt wird. Wird die Abweichung minimiert, werden die Informationen maximiert. Da der Erwartungswert der Bewertung gleich 0 (null) ist, ist die Fisher-Information auch die Abweichung (Varianz) der Bewertung.
Count Based
Eine anzahlbasierte (Count Based) Merkmalsauswahl ist eine einfache, trotzdem relativ leistungsfähige Möglichkeit, Prädiktoren zu finden. Die grundlegende Idee, die der zählbasierten Featurisierung zugrunde liegt, ist einfach: Indem Sie die Anzahl einzelner Werte innerhalb einer Spalte berechnen, können Sie eine Vorstellung von der Verteilung und Gewichtung von Werten erhalten und daraus verstehen, welche Spalten die wichtigsten Informationen enthalten.
Die zählbasierte Featureauswahl ist eine nicht überwachte Methode der Featureauswahl, d. h., Sie benötigen keine Bezeichnungsspalte. Diese Methode reduziert auch die Dimensionalität der Daten, ohne Informationen zu verlieren.
Weitere Informationen dazu, wie zählbasierte Features erstellt werden und warum sie für maschinelles Lernen nützlich sind, finden Sie unter Learning mit Zählern.
Tipp
Wenn Sie eine andere Option für eine benutzerdefinierte Merkmalauswahlmethode benötigen, verwenden Sie das Modul Execute R Script (R-Skript ausführen).
Konfigurieren von „Filter Based Feature Selection“
Dieses Modul bietet zwei Methoden zum Bestimmen von Featureergebnisse:
Generieren von Featureergebnisse mithilfe einer herkömmlichen statistischen Metrik
Sie wählen eine statistische Standardmetrik aus, und das Modul berechnet die Korrelation zwischen einem Spaltenpaar, der Bezeichnungsspalte und einer Featurespalte.
Verwenden der zählbasierten Featureauswahl
Bei der count-basierten Methode berechnet das Modul eine Bewertung, die ausschließlich auf den Werten in der Spalte basiert.
Generieren von Featureergebnisse mithilfe einer herkömmlichen statistischen Metrik
Fügen Sie Ihrem Experiment das Modul Filter-Based Feature Selection hinzu. Sie finden sie in Studio (klassisch ) in der Kategorie Funktionsauswahl.
Stellen Sie eine Verbindung mit einem Eingabedataset her, das mindestens zwei Spalten enthält, die mögliche Merkmale (Features) sind.
Um sicherzustellen, dass eine Spalte analysiert und ein Merkmalscore generiert wird, verwenden Sie das Modul Edit Metadata (Metadaten bearbeiten), um das Attribut IsFeature festzulegen.
Wichtig
Vergewissern Sie sich, dass die Spalten, die Sie als Eingabe bereitstellen, mögliche Merkmale sind. Beispielsweise hat eine Spalte, die einen einzigen Wert enthält, keinen Informationswert.
Wenn Sie wissen, dass es Spalten gibt, die ungültige Merkmale bewirken, können Sie diese Spalten aus der Spaltenauswahl entfernen. Sie können auch das Modul Edit Metadata verwenden, um sie als Categorical (Kategorisch) zu kennzeichnen.
Wählen Sie für Feature scoring method (Featurebewertungsmethode) eine der folgenden bewährten statistischen Methoden aus, die für das Berechnen von Bewertungen (Scores) verwendet werden soll.
Methode Requirements (Anforderungen) Pearson-Korrelation Die Bezeichnung kann ein Text- oder numerischer Wert sein. Merkmale müssen numerisch sein. Mutual Information Bezeichnungen und Merkmale können Text- oder numerische Werte sein. Verwenden Sie diese Methode, um die Featurerelevanz für zwei Kategoriespalten zu berechnen. Kendall Correlation Die Bezeichnung kann Text oder numerisch sein, aber Features müssen numerisch sein. Spearman Correlation Die Bezeichnung kann Text oder numerisch sein, aber Features müssen numerisch sein. Chi-Quadrat Bezeichnungen und Merkmale können Text- oder numerische Werte sein. Verwenden Sie diese Methode, um die Featurerelevanz für zwei Kategoriespalten zu berechnen. Fisher Score Die Bezeichnung kann Text oder numerisch sein, aber Features müssen numerisch sein. Anzahl Siehe: So verwenden Sie Count-Based Featureauswahl Tipp
Wenn Sie die ausgewählte Metrik ändern, werden alle anderen Optionen zurückgesetzt. Achten Sie daher darauf, dass Sie diese Option zuerst festlegen!
Aktivieren Sie die Option Operate on feature columns only (Nur Featurespalten verarbeiten), um einen Score nur für die Spalten zu generieren, die zuvor als Features gekennzeichnet wurden.
Wenn Sie diese Option deaktivieren, erstellt das Modul einen Score für jede Spalte, die die Kriterien in anderer Weise erfüllt, bis zur Anzahl von Spalten, die in Number of desired features (Anzahl gewünschter Features) angegeben ist.
Klicken Sie für Target column (Zielspalte) auf Launch column selector (Spaltenauswahl starten), um die Bezeichnungsspalte entweder über den Namen oder über ihren Index (Indizes beginnen mit 1) auszuwählen.
Eine Bezeichnungsspalte ist für alle Methoden erforderlich, die eine statistische Korrelation einschließen. Das Modul gibt einen Entwurfszeitfehler zurück, wenn Sie keine Bezeichnungsspalte oder mehrere Bezeichnungsspalten auswählen.
Geben Sie für Number of desired features (Anzahl gewünschter Features) die Anzahl von Featurespalten ein, die als Ergebnis zurückgegeben werden sollen.
Die kleinste zulässige Anzahl von Features ist „1“, es empfiehlt sich aber, diesen Wert zu erhöhen.
Ist die angegebene Anzahl von gewünschten Features größer als die Anzahl der Spalten im Dataset, werden alle Features zurückgegeben, auch solche, die den Score 0 (null) haben.
Geben Sie weniger Ergebnisspalten an, als Featurespalten vorhanden sind, werden die Features nach absteigendem Score eingestuft, und es werden nur die Features mit den höchsten Scores zurückgegeben.
Führen Sie das Experiment aus, oder wählen Sie das Modul Filter Based Feature Selection aus , und klicken Sie dann auf Ausgewählte ausführen.
Ergebnisse der Featureauswahl
Nach Abschluss der Verarbeitung:
Sollen die vollständige Liste der Featurespalten, die analysiert wurden, und deren Scores angezeigt werden, klicken Sie mit der rechten Maustaste auf das Modul, wählen Sie Features aus, und klicken Sie auf Visualize (Visualisieren).
Soll das Dataset angezeigt werden, das entsprechend Ihrer Featureauswahlkriterien generiert wurde, klicken Sie mit der rechten Maustaste auf das Modul, wählen Sie Dataset aus, und klicken Sie auf Visualize.
Enthält das Dataset weniger Spalten, als Sie erwartet haben, überprüfen Sie die Moduleinstellungen sowie die Datentypen der Spalten, die als Eingabe bereitgestellt werden. Wenn Sie beispielsweise Number of desired features auf 1 festgelegt haben, enthält das Ausgabedataset nur zwei Spalten: die Bezeichnungsspalte und die Featurespalte mit der höchsten Einstufung.
Verwenden der zählbasierten Featureauswahl
Fügen Sie Ihrem Experiment das Modul Filter-Based Feature Selection hinzu. Sie finden es in der Liste der Module in Studio (klassisch) in der Gruppe Funktionsauswahl .
Verbinden ein Eingabe-Dataset, das mindestens zwei Spalten enthält, die mögliche Features sind.
Wählen Sie count Based aus der Liste der statistischen Methoden in der Dropdownliste Featurebewertungsmethode aus.
Geben Sie unter Mindestanzahl von Elementen, die nicht 0 (null) sind, die Mindestanzahl von Featurespalten an, die in die Ausgabe enthalten sein sollen.
Standardmäßig gibt das Modul alle Spalten aus, die die Anforderungen erfüllen. Das Modul kann keine Spalte mit einer Bewertung von 0 (null) aus geben.
Führen Sie das Experiment aus, oder wählen Sie nur das Modul aus, und klicken Sie auf Ausgewählte ausführen.
Ergebnisse der zählbasierten Featureauswahl
- Um die Liste der Featurespalten mit ihren Bewertungen zu sehen, klicken Sie mit der rechten Maustaste auf das Modul, wählen Sie Features aus, und klicken Sie auf Visualisieren .
- Um das Dataset mit den analysierten Spalten zu sehen, klicken Sie mit der rechten Maustaste auf das Modul, wählen Sie Dataset aus, und klicken Sie auf Visualisieren.
Im Gegensatz zu anderen Methoden ordnet die Count Based Feature Selection-Methode den Variablen nicht die höchsten Bewertungen zu, sondern gibt alle Variablen mit einer Bewertung ungleich 0 (null) in ihrer ursprünglichen Reihenfolge zurück.
Zeichenfolgenfeatures erhalten immer eine Bewertung von 0 (null) und werden daher nicht ausgegeben.
Beispiele
Beispiele für die Verwendung der Featureauswahl finden Sie im Azure KI-Katalog:
Textklassifizierung; Im dritten Schritt dieses Beispiels wird die filterbasierte Featureauswahl verwendet, um die 15 besten Features zu identifizieren. Featurehashing wird verwendet, um die Textdokumente in numerische Vektoren zu konvertieren. Die Korrelation von Pearson wird dann für die Vektorfeatures verwendet.
Machine Learning-Featureauswahl und Featureentwicklung: Dieser Artikel bietet eine Einführung in die Featureauswahl und Featureentwicklung in Machine Learning.
Beispiele für Featureergebnisse finden Sie unter Tabelle der verglichenen Bewertungen.
Technische Hinweise
Sie finden dieses Modul unter Datentransformation in der Kategorie Filter.
Details zur Implementierung
Wenn Sie Pearson Correlation, Kendall Correlation oder Spearman Correlation für ein numerisches Feature und eine kategorische Bezeichnung verwenden, wird die Feature-Bewertung wie folgt berechnet:
Für jede Ebene in der Kategoriespalte wird der bedingte Erwartungswert der numerischen Spalte berechnet.
Die Spalte der bedingten Erwartungswerte wird mit der numerischen Spalte korreliert.
Requirements (Anforderungen)
Ein Featureauswahlscore kann nicht für eine Spalte generiert werden, die als Bezeichnung- oder Score-Spalte festgelegt ist.
Wenn Sie versuchen, eine Bewertungsmethode (Scoremethode) mit einer Spalte zu verwenden, deren Datentyp von der-Methode nicht unterstützt wird, geht das Modul so vor, dass es entweder einen Fehler auslöst oder der Spalte den Score 0 zuweist.
Enthält eine Spalte logische Werte (Wahr/Falsch), werden diese als Wahr = 1 und Falsch = 0 verarbeitet.
Eine Spalte kann kein Merkmal sein, wenn sie als Bezeichnung oder Bewertung festgelegt ist.
Vorgehensweise, wenn Werte fehlen
Sie können eine Spalte, die keine Werte enthält, nicht als Zielspalte (Bezeichnungsspalte) angeben.
Werte, die in einer Spalte fehlen, werden beim Berechnen des Scores (Bewertung) der Spalte ignoriert.
Enthält eine Spalte, die als Merkmalsspalte angegeben ist, keine Werte, wird der Score 0 zugewiesen.
Tabelle mit verglichenen Bewertungen
Um Ihnen einen Überblick darüber zu geben, wie die Bewertungen verglichen werden, wenn unterschiedliche Metriken verwendet werden, enthält die folgende Tabelle einige Funktionsauswahlergebnisse aus mehreren Features im Automobilpreis-Dataset, wenn die abhängige Variable highway-mpg angegeben ist.
Featurespalte | Pearson-Bewertung | Count Score | Kendall-Bewertung | Gegenseitige Informationen |
---|---|---|---|---|
highway-mpg | 1 | 205 | 1 | 1 |
city-mpg | 0.971337 | 205 | 0.892472 | 0.640386 |
curb-weight | 0.797465 | 171 | 0.673447 | 0.326247 |
horsepower | 0.770908 | 203 | 0.728289 | 0.448222 |
Preis | 0.704692 | 201 | 0.651805 | 0.321788 |
length | 0.704662205 | 205 | 0.53193 | 0.281317 |
engine-size | 0.67747 | 205 | 0.581816 | 0.342399 |
width | 0.677218 | 205 | 0.525585 | 0.285006 |
bore | 0.594572 | 201 | 0.467345 | 0.263846 |
wheel-base | 0.544082 | 205 | 0.407696 | 0.250641 |
compression-ratio | 0.265201 | 205 | 0.337031 | 0.288459 |
Kraftstoffsystem | na | na | na | 0.308135 |
Make | na | na | na | 0.213872 |
Drive-Wheels | na | na | na | 0.213171 |
height | na | na | na | 0.1924 |
normalized-losses | na | na | na | 0.181734 |
symboling | na | na | na | 0.159521 |
Num-of-Cylinders | na | na | na | 0.154731 |
Engine-Typ | na | na | na | 0.135641 |
aspiration | na | na | na | 0.068217 |
body-style | na | na | na | 0.06369 |
fuel-type | na | na | na | 0.049971 |
num-of-doors | na | na | na | 0.017459 |
Engine-Standort | na | na | na | 0.010166 |
Bewertungen gegenseitiger Informationen können für alle Spaltentypen erstellt werden, einschließlich Zeichenfolgen.
Die anderen in dieser Tabelle enthaltenen Bewertungen, z. B. die Korrelation von Pearson oder die anzahlbasierte Featureauswahl, erfordern numerische Werte. Zeichenfolgenfeatures erhalten eine Bewertung von 0 und sind daher nicht in der Ausgabe enthalten. Ausnahmen finden Sie im Abschnitt Technische Hinweise .
Die count-basierte Methode behandelt eine Bezeichnungsspalte nicht anders als Featurespalten.
Erwartete Eingaben
Name | Type | Beschreibung |
---|---|---|
Dataset | Datentabelle | Eingabedataset |
Modulparameter
Name | Range | type | Standard | Beschreibung |
---|---|---|---|---|
Feature scoring method | Liste | Bewertungsmethode | Wählen Sie die Methode aus, die zur Bewertung verwendet werden soll. | |
Operate on feature columns only | Any | Boolean | true | Gibt an, ob im Bewertungsprozess nur Merkmalspalten verwendet werden sollen. |
Target column | Any | ColumnSelection | Keine | Geben Sie die Zielspalte an. |
Number of desired features | >=1 | Integer | 1 | Geben Sie die Anzahl der Merkmale an, die in Ergebnisses ausgegeben werden sollen. |
Minimum number of non-zero elements | >=1 | Integer | 1 | Geben Sie die Anzahl der auszugebenden Merkmale an (für die Methode "CountBased"). |
Ausgaben
Name | Type | Beschreibung |
---|---|---|
Gefiltertes Dataset | Datentabelle | Gefiltertes Dataset |
Funktionen | Datentabelle | Die Namen der Ausgabespalten und der Merkmalsauswahlbewertungen. |
Ausnahmen
Ausnahme | Beschreibung |
---|---|
Fehler 0001 | Eine Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten des Datasets nicht gefunden werden konnten. |
Fehler 0003 | Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist. |
Fehler 0004 | Eine Ausnahme tritt auf, wenn der Parameter kleiner als oder gleich dem bestimmten Wert ist. |
Fehler 0017 | Die Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten einen Typ aufweisen, der im aktuellen Modul nicht unterstützt wird. |
Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.
Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.
Siehe auch
Featureauswahl
Fisher Linear Discriminant Analysis
Modulliste von A bis Z