Replace Discrete Values
Wichtig
Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.
Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.
- Siehe Migrieren zu Azure Machine Learning
- Weitere Informationen zu Azure Machine Learning.
Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.
Ersetzt diskrete Werte aus einer Spalte durch numerische Werte, die auf einer anderen Spalte basieren.
Kategorie: Statistische Funktionen
Hinweis
Gilt für: Machine Learning Studio (klassisch)
Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.
Modulübersicht
In diesem Artikel wird beschrieben, wie Sie das Modul Replace Discrete Values (Diskrete Werte ersetzen) in Machine Learning Studio (klassisch) verwenden, um eine Wahrscheinlichkeitszahl zu generieren, die zur Darstellung eines diskreten Werts verwendet werden kann. Diese Bewertung kann nützlich sein, um den Informationswert der diskreten Werte zu verstehen.
So funktioniert's:
Sie wählen eine Spalte aus, die den diskreten (oder kategorischen) Wert enthält, und wählen dann eine andere Spalte aus, die als Referenz verwendet werden soll.
Je nachdem, ob die zweite Spalte kategorisch oder nicht kategorisch ist, berechnet das Modul einen der folgenden Werte:
- Die bedingte Wahrscheinlichkeit für die zweite Spalte mit den Werten in der ersten Spalte.
- Der Mittelwert und die Standardabweichung für jede Gruppe von Werten in der ersten Spalte.
Das Modul gibt sowohl ein Dataset mit den Bewertungen als auch eine Funktion aus, die Sie speichern und auf andere Datasets anwenden können.
Konfigurieren von "Diskrete Werte ersetzen"
Tipp
Es wird empfohlen, immer nur mit einem Spaltenpaar zu arbeiten. Das Modul gibt keinen Fehler aus, wenn Sie mehrere zu analysierende Spalten auswählen. Wenn Sie jedoch mehrere Spalten auswählen, werden sie in der Praxis durch eine interne Heuristik und nicht durch die Reihenfolge der Auswahl übereinstimmen.
Daher wird empfohlen, jedes Mal ein einzelnes Spaltenpaar auszuwählen, eine für Diskrete Spalten und eine für Ersatzspalten.
Wenn Sie Bewertungen für mehrere Spalten generieren müssen, verwenden Sie separate Instanzen von Diskrete Werte ersetzen.
Fügen Sie Ihrem Experiment das Modul Replace Discrete Values (Diskrete Werte ersetzen) hinzu. Sie finden dieses Modul in der Gruppe Statistische Funktionen in der Liste der Experimentelemente in Machine Learning Studio (klassisch).
Verbinden Ein Dataset, das mindestens eine Spalte mit kategorischen Daten enthält.
Diskrete Spalten: Klicken Sie auf Spaltenauswahl starten , um eine Spalte auszuwählen, die diskrete (oder kategorische) Werte enthält.
Alle diskreten Spalten, die Sie auswählen, müssen kategorisch sein. Wenn sie einen Fehler erhalten, verwenden Sie das Modul Edit Metadata (Metadaten bearbeiten), um den Spaltentyp zu ändern.
Ersetzungsspalten: Klicken Sie auf Spaltenauswahl starten , um die Spalte auszuwählen, die die Werte enthält, die beim Berechnen eines Ersatzwerts verwendet werden sollen.
Wenn Sie mehrere Spalten für Diskrete Spalten auswählen, müssen Sie eine gleiche Anzahl von Ersetzungsspalten auswählen.
Führen Sie das Experiment aus.
Hinweis
Sie können nicht auswählen, welche statistische Funktion angewendet werden soll. Das Modul berechnet ein geeignetes Measure basierend auf dem Datentyp der Spalte, die für die Ersatzspalte ausgewählt wurde.
Ergebnisse
Das Modul berechnet einen der folgenden Werte für jedes Spaltenpaar:
Wenn die zweite Spalte Kategoriewerte enthält, berechnet das Modul die bedingte Wahrscheinlichkeit der zweiten Spalte anhand der Werte in der ersten Spalte.
Angenommen, Sie haben aus dem
occupation
Census-Dataset als diskrete Spalte und alsgender
Ersatzspalte ausgewählt. Die Ausgabe des Moduls wäre:P(gender | occupation)
Wenn die zweite Spalte nicht kategorische Werte enthält, die in Zahlen konvertiert werden können (z. B. numerische oder boolesche Werte, die nicht als kategorisch gekennzeichnet sind), gibt das Modul den Mittelwert und die Standardabweichung für jede Gruppe von Werten in der ersten Spalte aus.
Angenommen, Sie verwenden als Diskrete
occupation
Spalte , und die andere Spalte ist die numerische Spaltehours-per-week
. Das Modul gibt diese neuen Werte aus:Mean(hours-per-week | occupation)
Std-Dev(hours-per-week | occupation)
Zusätzlich zu den Wahrscheinlichkeitszahlen gibt das Modul auch ein transformiertes Dataset aus. In diesem Dataset wird die als Ersatzspalten ausgewählte Spalte durch eine Spalte ersetzt, die die berechneten Bewertungen enthält.
Tipp
Die Spalten im Quell-Dataset werden durch den Vorgang nicht geändert oder gelöscht. Die Bewertungsspalten sind neue Spalten, die vom Modul und der Ausgabe anstelle der Quelldaten generiert werden.
Verwenden Sie das Modul Spalten hinzufügen, um die Quellwerte zusammen mit den Wahrscheinlichkeitswerten anzeigen zu können.
Beispiele
Die Verwendung von Replace Discrete Values kann in einigen einfachen Beispielen veranschaulicht werden.
Beispiel 1: Ersetzen eines kategorischen Werts durch einen Wahrscheinlichkeitswert
Die folgende Tabelle enthält eine kategoriale Spalte X und eine Spalte Y mit Wahr/Falsch-Werten (True/False), die als kategoriale Werte behandelt werden. Wenn Sie Diskrete Werte ersetzen verwenden, wird ein bedingter Wahrscheinlichkeitswert für die Wahrscheinlichkeit von Y bei X berechnet, wie in der dritten Spalte dargestellt.
X | Y | P(Y|X) |
---|---|---|
Blau | 0 | P(Y=0|X=Blue) = 0.5 |
Blau | 1 | P(Y=1|X=Blue) = 0.5 |
Grün | 0 | P(Y=0|X=Green) = 2/3 |
Grün | 0 | P(Y=0|X=Green) = 2/3 |
Grün | 1 | P(Y=1|X=Green) = 1/3 |
Red | 0 | P(Y=0|X=Red) = .75 |
Red | 0 | P(Y=0|X=Red) = .75 |
Red | 1 | P(Y=1|X=Red) = .25 |
Red | 0 | P(Y=0|X=Red) = .75 |
Beispiel 2: Berechnen der mittleren und Standardabweichung basierend auf einer nicht kategorischen Spalte
Wenn die zweite Spalte numerisch ist, berechnet Replace Discrete Values den Mittelwert und die Standardabweichung anstelle eines bedingten Wahrscheinlichkeitswerts.
Das folgende Beispiel basiert auf dem Beispiel-Dataset Auto Prices , das wie folgt vereinfacht wird:
Eine kleine Teilmenge der Spalten wurde ausgewählt.
Nur die obersten 30 Zeilen wurden mithilfe der Option Head des Moduls Partition and Sample extrahiert.
Das Modul Replace Discrete Values (Diskrete Werte ersetzen) wurde verwendet, um den Mittelwert und dieStandardabweichung für das Fahrzeuggewicht zu berechnen. angegeben, wenn die Kategoriespalte angegeben ist.
num-of-doors
In der folgenden Tabelle werden die Ergebnisse veranschaulicht:
Text | Num-of-doors | Curb-weight | Mean(curb-weight|num-of-doors) | Std-Dev(curb-weight|num-of-doors) |
---|---|---|---|---|
std | two | 2548 | 2429.785714 | 507.45699 |
std | four | 2337 | 2625.6 | 493.409877 |
std | two | 2507 | 2429.785714 | 507.45699 |
turbo | four | 3086 | 2625,6 5 | 493.409877 |
std | four | 1989 | 2625.6 | 493.409877 |
turbo | 2191 | |||
std | four | 2535 | 2625.6 | 493.409877 |
Sie können den Mittelwert für jede Gruppe von Werten überprüfen, indem Sie die AVERAGEIF
-Funktion in Excel verwenden.
Beispiel 3: Behandeln fehlender Werte
In diesem Beispiel wird veranschaulicht, wie fehlende Werte (NULL-Werte) an die Ergebnisse übertragen werden, wenn bedingte Wahrscheinlichkeitsbewertungen berechnet werden.
Wenn die Spalte mit den diskreten Werten und die Berechnungssuchspalte fehlende Werte enthalten, werden die fehlenden Werte in die neue Spalte übertragen.
Wenn die Spalte mit den diskreten Werten nur fehlende Werte enthält, kann das Modul die Spalte nicht verarbeiten, und eine Fehlermeldung wird ausgegeben.
X | Y | P(Y|X) |
---|---|---|
1 | Richtig | P(Y=true|X=1) = 1/2 |
1 | False | P(Y=false|X=1) = 1/2 |
2 | True | P(Y=true|X=2) = 1/3 |
2 | False | P(Y=false|X=2) = 1/3 |
2 | NULL | P(Y=null|X=2) = null |
Technische Hinweise
Sie müssen sicherstellen, dass alle diskreten Spalten, die Sie ersetzen möchten, kategorisiert sind. Andernfalls wird das Modul einen Fehler zurückgeben. Verwenden Sie hierzu das Modul Edit Metadata ( Metadaten bearbeiten ).
Wenn die zweite Spalte boolesche Werte enthält, werden die Wahr/Falsch-Werte TRUE und FALSE als numerische Werte äquivalent zu 0 und 1 verarbeitet.
Anhand der Formel für die Standardabweichungsspalte wird die Standardabweichung der Grundgesamtheit berechnet. Daher wird N im Nenner anstelle von (N - 1) verwendet.
Wenn die zweite Spalte nicht kategorische Daten (numerische oder boolesche Werte) enthält, berechnet das Modul den Mittelwert und die Standardabweichung von Y für den angegebenen Wert von X.
Das heißt, für jede Zeile im Dataset, die von indiziert wird
i
:Mean(Y│X)i = Mean(Y│X = Xi)
StdDev(Y│X)i = StdDev(Y│X = Xi)
Wenn die zweite Spalte kategorische Daten oder Werte enthält, die weder numerisch noch boolesch sind, berechnet das Modul die bedingte Wahrscheinlichkeit von Y für den angegebenen Wert von X.
Alle booleschen Werte in der zweiten Spalte werden als numerische Daten mit "FALSE" und "TRUE" gleichbedeutend mit 0 und 1 verarbeitet.
Befindet sich in der Spalte mit den diskreten Werten eine Klasse, sodass in der zweiten Spalte eine Zeile mit einem fehlenden Wert vorhanden ist, beläuft sich die Summe der bedingten Wahrscheinlichkeiten innerhalb der Klasse auf weniger als 1.
Erwartete Eingaben
Name | Type | Beschreibung |
---|---|---|
Dataset | Datentabelle | Eingabedataset |
Modulparameter
Name | Range | type | Standard | Beschreibung |
---|---|---|---|---|
Diskrete Spalten | Any | ColumnSelection | Wählt die Spalten aus, die diskrete Werte enthalten. | |
Replacement columns | Any | ColumnSelection | Wählt die Spalten aus, die die Daten enthalten, die anstelle der diskreten Werte verwendet werden sollen. |
Ausgaben
Name | Type | Beschreibung |
---|---|---|
Ergänztes Dataset | Datentabelle | Dataset mit ersetzten Daten |
Transform-Funktion | ITransform-Schnittstelle | Definition der Transformationsfunktion, die auf andere Datasets angewendet werden kann. |
Ausnahmen
Ausnahme | Beschreibung |
---|---|
Fehler 0001 | Die Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten des Datasets nicht gefunden werden. |
Fehler 0003 | Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist. |
Fehler 0020 | Die Ausnahme tritt auf, wenn die Anzahl der Spalten in einigen Datasets, die an das Modul übergeben wurden, zu klein ist. |
Fehler 0021 | Die Ausnahme tritt auf, wenn die Anzahl der Zeilen in einigen Datasets, die an das Modul übergeben wurden, zu klein ist. |
Fehler 0017 | Eine Ausnahme tritt auf, wenn mindestens eine der angegebenen Spalten einen Typ aufweist, der vom aktuellen Modul nicht unterstützt wird. |
Fehler 0026 | Eine Ausnahme tritt auf, wenn Spalten mit identischen Namen nicht zulässig sind. |
Fehler 0022 | Eine Ausnahme tritt auf, wenn die Anzahl der ausgewählten Spalten im Eingabedataset nicht der erwarteten Anzahl entspricht. |
Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.
Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.