Freigeben über


Filter Based Feature Selection

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Identifiziert die Funktionen in einem Dataset mit der größten Vorhersageleistung

Kategorie: Funktionsauswahlmodule

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Filter Based Feature Selection in Machine Learning Studio (klassisch) verwenden, um die Spalten in Ihrem Eingabe-Dataset mit der größten Vorhersageleistung zu identifizieren.

Im Grundsatz bezieht sich Feature Selection (Featureauswahl) darauf, dass bei vorgegebener Ausgabe statistische Tests auf Eingaben angewendet werden, um die Spalten zu bestimmen, die eine bessere ausgabebezogene Vorhersage bringen. Das Modul Filter Based Feature Selection (Filterbasierte Featureauswahl) bietet mehrere Funktionsauswahlalgorithmen zur Auswahl, darunter Korrelationsmethoden wie die Korrelation von Pearsons oder Kendall, gegenseitige Informationsergebnisse und Chi-Quadrat-Werte. Machine Learning unterstützt auch feature value counts als Indikator für den Informationswert.

Wenn Sie das Modul Filter Based Feature Selection verwenden, stellen Sie ein Dataset bereit, bestimmen Sie die Spalte, die die Bezeichnungs- oder abhängige Variable enthält, und dann geben Sie eine einzelne Methode an, die zum Messen der Featurerelevanz verwendet werden soll.

Das Modul gibt ein Dataset aus, das die Spalten mit den bestgeeigneten Features (Merkmale) enthält, eingestuft nach Vorhersagekraft. Außerdem gibt das Modul die Namen der Merkmale und deren Scores aus der ausgewählten Metrik aus.

Was ist die filterbasierte Featureauswahl, und warum sollte sie verwendet werden?

Dieses Modul für Featureauswahl wird als „filterbasiert“ bezeichnet, weil Sie eine ausgewählte Metrik verwenden, um irrelevante Attribute zu bestimmen und redundante Spalten aus Ihrem Modell herauszufiltern. Sie wählen eine einzelne statistisches Maßzahl aus, die Ihren Daten entspricht, und das Modul berechnet einen Score (Bewertung) für jede Merkmalsspalte (Featurespalte). Die Spalten werden entsprechend der Einstufung ihrer Merkmalscores zurückgegeben.

Durch Auswahl der richtigen Merkmale können Sie möglicherweise die Genauigkeit und Effizienz der Klassifizierung verbessern.

In der Regel verwenden Sie nur die Spalten mit den besten Scores, um Ihr Vorhersagemodell zu erstellen. Spalten mit schwachen Merkmalauswahlscores können im Dataset verbleiben und beim Erstellen eines Modells ignoriert werden.

Auswählen einer Metrik zur Merkmalauswahl (Featureauswahl)

Das Modul Filter-Based Feature Selection stellt eine Vielzahl von Metriken zur Bewertung des Informationswerts jeder Spalte bereit. In diesem Abschnitt finden Sie eine allgemeine Beschreibung jeder Metrik und der Vorgehensweise, wie sie angewendet wird. Weitere Anforderungen für die Verwendung jeder Metrik sind im Abschnitt Technische Hinweise und in den Anweisungen zum Konfigurieren jedes Moduls angegeben.

  • Pearson-Korrelation

    Die Pearson-Korrelation, auch der Korrelationskoeffizient, wird in statistischen Modellen auch als r-Wert bezeichnet. Für zwei beliebige Variablen gibt er einen Wert zurück, der die Stärke der Korrelation angibt.

    Der Korrelationskoeffizient wird berechnet, indem die Kovarianz zweier Variablen durch das Produkt ihrer Standardabweichungen dividiert wird. Größenänderungen der beiden Variablen wirken sich nicht auf den Koeffizienten aus.

  • Mutual Information

    Die Bewertung der gegenseitigen Informationen misst den Beitrag einer Variablen zur Verringerung der Unklarheit hinsichtlich des Werts einer anderen Variablen: nämlich der Bezeichnung. Es wurden viele Varianten der Transinformationsbewertung entwickelt, um unterschiedlichen Verteilungen gerecht zu werden.

    Die Transinformationsbewertung ist insbesondere für die Merkmalsauswahl nützlich, weil sie die gegenseitigen Informationen zwischen der gemeinsamen Verteilung und den Zielvariablen in Datasets mit vielen Dimensionen maximiert.

  • Kendall Correlation

    Kendalls Rangkorrelation entspricht einem von mehreren statistischen Verfahren, in denen die Beziehung zwischen Rangordnungen unterschiedlicher Rangvariablen oder unterschiedlichen Rangfolgen derselben Variablen bemessen wird. Anders ausgedrückt, das Verfahren bemisst die Ähnlichkeit von Ordnungen, wenn sie nach den Mengen geordnet sind. Sowohl dieser Koeffizient als auch der Spearmans Rangkorrelationskoeffizient sind dazu vorgesehen, mit nicht parametrischen und nicht normal verteilten Daten verwendet zu werden.

  • Spearman Correlation

    Der Spearmans Koeffizient ist ein nicht parametrisches Maß der statistischen Abhängigkeit zwischen zwei Variablen und wird manchmal mit dem griechischen Buchstaben Rho gekennzeichnet. Der Spearmans Koeffizient formuliert den Grad, zu dem zwei Variablen monoton verknüpft sind. Er wird auch als Spearman Rangkorrelation,bezeichnet, da er mit Rangvariablen verwendet werden kann.

  • Chi Squared

    Der bidirektionale Chi-Quadrat-Test ist eine statistische Methode, die misst, wie nahe erwartete Werte den tatsächlichen Ergebnissen kommen. Für die Methode wird vorausgesetzt, dass Variablen zufällig sind und aus einer geeigneten Stichprobe unabhängiger Variablen entnommen werden. Das Ergebnis des Chi-Quadrat-Tests gibt an, wie weit Ergebnisse vom erwarteten (zufälligen) Ergebnis entfernt sind.

  • Fisher Score

    Der "Fisher Score" (auch als Fisher-Methode oder Fisher's combined probability test bezeichnet) wird gelegentlich Information Score genannt, weil er die Menge an Informationen angibt, die eine Variable über einen unbekannten Parameter bereitstellt, von dem sie abhängt.

    Die Bewertung wird berechnet, indem die Abweichung zwischen dem Erwartungswert der Informationen und dem beobachteten Wert ermittelt wird. Wird die Abweichung minimiert, werden die Informationen maximiert. Da der Erwartungswert der Bewertung gleich 0 (null) ist, ist die Fisher-Information auch die Abweichung (Varianz) der Bewertung.

  • Count Based

    Eine anzahlbasierte (Count Based) Merkmalsauswahl ist eine einfache, trotzdem relativ leistungsfähige Möglichkeit, Prädiktoren zu finden. Die grundlegende Idee, die der zählbasierten Featurisierung zugrunde liegt, ist einfach: Indem Sie die Anzahl einzelner Werte innerhalb einer Spalte berechnen, können Sie eine Vorstellung von der Verteilung und Gewichtung von Werten erhalten und daraus verstehen, welche Spalten die wichtigsten Informationen enthalten.

    Die zählbasierte Featureauswahl ist eine nicht überwachte Methode der Featureauswahl, d. h., Sie benötigen keine Bezeichnungsspalte. Diese Methode reduziert auch die Dimensionalität der Daten, ohne Informationen zu verlieren.

    Weitere Informationen dazu, wie zählbasierte Features erstellt werden und warum sie für maschinelles Lernen nützlich sind, finden Sie unter Learning mit Zählern.

Tipp

Wenn Sie eine andere Option für eine benutzerdefinierte Merkmalauswahlmethode benötigen, verwenden Sie das Modul Execute R Script (R-Skript ausführen).

Konfigurieren von „Filter Based Feature Selection“

Dieses Modul bietet zwei Methoden zum Bestimmen von Featureergebnisse:

Generieren von Featureergebnisse mithilfe einer herkömmlichen statistischen Metrik

  1. Fügen Sie Ihrem Experiment das Modul Filter-Based Feature Selection hinzu. Sie finden sie in Studio (klassisch ) in der Kategorie Funktionsauswahl.

  2. Stellen Sie eine Verbindung mit einem Eingabedataset her, das mindestens zwei Spalten enthält, die mögliche Merkmale (Features) sind.

    Um sicherzustellen, dass eine Spalte analysiert und ein Merkmalscore generiert wird, verwenden Sie das Modul Edit Metadata (Metadaten bearbeiten), um das Attribut IsFeature festzulegen.

    Wichtig

    Vergewissern Sie sich, dass die Spalten, die Sie als Eingabe bereitstellen, mögliche Merkmale sind. Beispielsweise hat eine Spalte, die einen einzigen Wert enthält, keinen Informationswert.

    Wenn Sie wissen, dass es Spalten gibt, die ungültige Merkmale bewirken, können Sie diese Spalten aus der Spaltenauswahl entfernen. Sie können auch das Modul Edit Metadata verwenden, um sie als Categorical (Kategorisch) zu kennzeichnen.

  3. Wählen Sie für Feature scoring method (Featurebewertungsmethode) eine der folgenden bewährten statistischen Methoden aus, die für das Berechnen von Bewertungen (Scores) verwendet werden soll.

    Methode Requirements (Anforderungen)
    Pearson-Korrelation Die Bezeichnung kann ein Text- oder numerischer Wert sein. Merkmale müssen numerisch sein.
    Mutual Information Bezeichnungen und Merkmale können Text- oder numerische Werte sein. Verwenden Sie diese Methode, um die Featurerelevanz für zwei Kategoriespalten zu berechnen.
    Kendall Correlation Die Bezeichnung kann Text oder numerisch sein, aber Features müssen numerisch sein.
    Spearman Correlation Die Bezeichnung kann Text oder numerisch sein, aber Features müssen numerisch sein.
    Chi-Quadrat Bezeichnungen und Merkmale können Text- oder numerische Werte sein. Verwenden Sie diese Methode, um die Featurerelevanz für zwei Kategoriespalten zu berechnen.
    Fisher Score Die Bezeichnung kann Text oder numerisch sein, aber Features müssen numerisch sein.
    Anzahl Siehe: So verwenden Sie Count-Based Featureauswahl

    Tipp

    Wenn Sie die ausgewählte Metrik ändern, werden alle anderen Optionen zurückgesetzt. Achten Sie daher darauf, dass Sie diese Option zuerst festlegen!

  4. Aktivieren Sie die Option Operate on feature columns only (Nur Featurespalten verarbeiten), um einen Score nur für die Spalten zu generieren, die zuvor als Features gekennzeichnet wurden.

    Wenn Sie diese Option deaktivieren, erstellt das Modul einen Score für jede Spalte, die die Kriterien in anderer Weise erfüllt, bis zur Anzahl von Spalten, die in Number of desired features (Anzahl gewünschter Features) angegeben ist.

  5. Klicken Sie für Target column (Zielspalte) auf Launch column selector (Spaltenauswahl starten), um die Bezeichnungsspalte entweder über den Namen oder über ihren Index (Indizes beginnen mit 1) auszuwählen.

    Eine Bezeichnungsspalte ist für alle Methoden erforderlich, die eine statistische Korrelation einschließen. Das Modul gibt einen Entwurfszeitfehler zurück, wenn Sie keine Bezeichnungsspalte oder mehrere Bezeichnungsspalten auswählen.

  6. Geben Sie für Number of desired features (Anzahl gewünschter Features) die Anzahl von Featurespalten ein, die als Ergebnis zurückgegeben werden sollen.

    • Die kleinste zulässige Anzahl von Features ist „1“, es empfiehlt sich aber, diesen Wert zu erhöhen.

    • Ist die angegebene Anzahl von gewünschten Features größer als die Anzahl der Spalten im Dataset, werden alle Features zurückgegeben, auch solche, die den Score 0 (null) haben.

    • Geben Sie weniger Ergebnisspalten an, als Featurespalten vorhanden sind, werden die Features nach absteigendem Score eingestuft, und es werden nur die Features mit den höchsten Scores zurückgegeben.

  7. Führen Sie das Experiment aus, oder wählen Sie das Modul Filter Based Feature Selection aus , und klicken Sie dann auf Ausgewählte ausführen.

Ergebnisse der Featureauswahl

Nach Abschluss der Verarbeitung:

  • Sollen die vollständige Liste der Featurespalten, die analysiert wurden, und deren Scores angezeigt werden, klicken Sie mit der rechten Maustaste auf das Modul, wählen Sie Features aus, und klicken Sie auf Visualize (Visualisieren).

  • Soll das Dataset angezeigt werden, das entsprechend Ihrer Featureauswahlkriterien generiert wurde, klicken Sie mit der rechten Maustaste auf das Modul, wählen Sie Dataset aus, und klicken Sie auf Visualize.

Enthält das Dataset weniger Spalten, als Sie erwartet haben, überprüfen Sie die Moduleinstellungen sowie die Datentypen der Spalten, die als Eingabe bereitgestellt werden. Wenn Sie beispielsweise Number of desired features auf 1 festgelegt haben, enthält das Ausgabedataset nur zwei Spalten: die Bezeichnungsspalte und die Featurespalte mit der höchsten Einstufung.

Verwenden der zählbasierten Featureauswahl

  1. Fügen Sie Ihrem Experiment das Modul Filter-Based Feature Selection hinzu. Sie finden es in der Liste der Module in Studio (klassisch) in der Gruppe Funktionsauswahl .

  2. Verbinden ein Eingabe-Dataset, das mindestens zwei Spalten enthält, die mögliche Features sind.

  3. Wählen Sie count Based aus der Liste der statistischen Methoden in der Dropdownliste Featurebewertungsmethode aus.

  4. Geben Sie unter Mindestanzahl von Elementen, die nicht 0 (null) sind, die Mindestanzahl von Featurespalten an, die in die Ausgabe enthalten sein sollen.

    Standardmäßig gibt das Modul alle Spalten aus, die die Anforderungen erfüllen. Das Modul kann keine Spalte mit einer Bewertung von 0 (null) aus geben.

  5. Führen Sie das Experiment aus, oder wählen Sie nur das Modul aus, und klicken Sie auf Ausgewählte ausführen.

Ergebnisse der zählbasierten Featureauswahl

  • Um die Liste der Featurespalten mit ihren Bewertungen zu sehen, klicken Sie mit der rechten Maustaste auf das Modul, wählen Sie Features aus, und klicken Sie auf Visualisieren .
  • Um das Dataset mit den analysierten Spalten zu sehen, klicken Sie mit der rechten Maustaste auf das Modul, wählen Sie Dataset aus, und klicken Sie auf Visualisieren.

Im Gegensatz zu anderen Methoden ordnet die Count Based Feature Selection-Methode den Variablen nicht die höchsten Bewertungen zu, sondern gibt alle Variablen mit einer Bewertung ungleich 0 (null) in ihrer ursprünglichen Reihenfolge zurück.

Zeichenfolgenfeatures erhalten immer eine Bewertung von 0 (null) und werden daher nicht ausgegeben.

Beispiele

Beispiele für die Verwendung der Featureauswahl finden Sie im Azure KI-Katalog:

  • Textklassifizierung; Im dritten Schritt dieses Beispiels wird die filterbasierte Featureauswahl verwendet, um die 15 besten Features zu identifizieren. Featurehashing wird verwendet, um die Textdokumente in numerische Vektoren zu konvertieren. Die Korrelation von Pearson wird dann für die Vektorfeatures verwendet.

  • Machine Learning-Featureauswahl und Featureentwicklung: Dieser Artikel bietet eine Einführung in die Featureauswahl und Featureentwicklung in Machine Learning.

Beispiele für Featureergebnisse finden Sie unter Tabelle der verglichenen Bewertungen.

Technische Hinweise

Sie finden dieses Modul unter Datentransformation in der Kategorie Filter.

Details zur Implementierung

Wenn Sie Pearson Correlation, Kendall Correlation oder Spearman Correlation für ein numerisches Feature und eine kategorische Bezeichnung verwenden, wird die Feature-Bewertung wie folgt berechnet:

  1. Für jede Ebene in der Kategoriespalte wird der bedingte Erwartungswert der numerischen Spalte berechnet.

  2. Die Spalte der bedingten Erwartungswerte wird mit der numerischen Spalte korreliert.

Requirements (Anforderungen)

  • Ein Featureauswahlscore kann nicht für eine Spalte generiert werden, die als Bezeichnung- oder Score-Spalte festgelegt ist.

  • Wenn Sie versuchen, eine Bewertungsmethode (Scoremethode) mit einer Spalte zu verwenden, deren Datentyp von der-Methode nicht unterstützt wird, geht das Modul so vor, dass es entweder einen Fehler auslöst oder der Spalte den Score 0 zuweist.

  • Enthält eine Spalte logische Werte (Wahr/Falsch), werden diese als Wahr = 1 und Falsch = 0 verarbeitet.

  • Eine Spalte kann kein Merkmal sein, wenn sie als Bezeichnung oder Bewertung festgelegt ist.

Vorgehensweise, wenn Werte fehlen

  • Sie können eine Spalte, die keine Werte enthält, nicht als Zielspalte (Bezeichnungsspalte) angeben.

  • Werte, die in einer Spalte fehlen, werden beim Berechnen des Scores (Bewertung) der Spalte ignoriert.

  • Enthält eine Spalte, die als Merkmalsspalte angegeben ist, keine Werte, wird der Score 0 zugewiesen.

Tabelle mit verglichenen Bewertungen

Um Ihnen einen Überblick darüber zu geben, wie die Bewertungen verglichen werden, wenn unterschiedliche Metriken verwendet werden, enthält die folgende Tabelle einige Funktionsauswahlergebnisse aus mehreren Features im Automobilpreis-Dataset, wenn die abhängige Variable highway-mpg angegeben ist.

Featurespalte Pearson-Bewertung Count Score Kendall-Bewertung Gegenseitige Informationen
highway-mpg 1 205 1 1
city-mpg 0.971337 205 0.892472 0.640386
curb-weight 0.797465 171 0.673447 0.326247
horsepower 0.770908 203 0.728289 0.448222
Preis 0.704692 201 0.651805 0.321788
length 0.704662205 205 0.53193 0.281317
engine-size 0.67747 205 0.581816 0.342399
width 0.677218 205 0.525585 0.285006
bore 0.594572 201 0.467345 0.263846
wheel-base 0.544082 205 0.407696 0.250641
compression-ratio 0.265201 205 0.337031 0.288459
Kraftstoffsystem na na na 0.308135
Make na na na 0.213872
Drive-Wheels na na na 0.213171
height na na na 0.1924
normalized-losses na na na 0.181734
symboling na na na 0.159521
Num-of-Cylinders na na na 0.154731
Engine-Typ na na na 0.135641
aspiration na na na 0.068217
body-style na na na 0.06369
fuel-type na na na 0.049971
num-of-doors na na na 0.017459
Engine-Standort na na na 0.010166
  • Bewertungen gegenseitiger Informationen können für alle Spaltentypen erstellt werden, einschließlich Zeichenfolgen.

  • Die anderen in dieser Tabelle enthaltenen Bewertungen, z. B. die Korrelation von Pearson oder die anzahlbasierte Featureauswahl, erfordern numerische Werte. Zeichenfolgenfeatures erhalten eine Bewertung von 0 und sind daher nicht in der Ausgabe enthalten. Ausnahmen finden Sie im Abschnitt Technische Hinweise .

  • Die count-basierte Methode behandelt eine Bezeichnungsspalte nicht anders als Featurespalten.

Erwartete Eingaben

Name Type Beschreibung
Dataset Datentabelle Eingabedataset

Modulparameter

Name Range type Standard Beschreibung
Feature scoring method Liste Bewertungsmethode Wählen Sie die Methode aus, die zur Bewertung verwendet werden soll.
Operate on feature columns only Any Boolean true Gibt an, ob im Bewertungsprozess nur Merkmalspalten verwendet werden sollen.
Target column Any ColumnSelection Keine Geben Sie die Zielspalte an.
Number of desired features >=1 Integer 1 Geben Sie die Anzahl der Merkmale an, die in Ergebnisses ausgegeben werden sollen.
Minimum number of non-zero elements >=1 Integer 1 Geben Sie die Anzahl der auszugebenden Merkmale an (für die Methode "CountBased").

Ausgaben

Name Type Beschreibung
Gefiltertes Dataset Datentabelle Gefiltertes Dataset
Funktionen Datentabelle Die Namen der Ausgabespalten und der Merkmalsauswahlbewertungen.

Ausnahmen

Ausnahme Beschreibung
Fehler 0001 Eine Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten des Datasets nicht gefunden werden konnten.
Fehler 0003 Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0004 Eine Ausnahme tritt auf, wenn der Parameter kleiner als oder gleich dem bestimmten Wert ist.
Fehler 0017 Die Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten einen Typ aufweisen, der im aktuellen Modul nicht unterstützt wird.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.

Siehe auch

Featureauswahl
Fisher Linear Discriminant Analysis
Modulliste von A bis Z