Replace Discrete Values

Artikel
05/06/2019

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Siehe Migrieren zu Azure Machine Learning
Weitere Informationen zu Azure Machine Learning.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Ersetzt diskrete Werte aus einer Spalte durch numerische Werte, die auf einer anderen Spalte basieren.

Kategorie: Statistische Funktionen

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Replace Discrete Values (Diskrete Werte ersetzen) in Machine Learning Studio (klassisch) verwenden, um eine Wahrscheinlichkeitszahl zu generieren, die zur Darstellung eines diskreten Werts verwendet werden kann. Diese Bewertung kann nützlich sein, um den Informationswert der diskreten Werte zu verstehen.

So funktioniert's:

Sie wählen eine Spalte aus, die den diskreten (oder kategorischen) Wert enthält, und wählen dann eine andere Spalte aus, die als Referenz verwendet werden soll.

Je nachdem, ob die zweite Spalte kategorisch oder nicht kategorisch ist, berechnet das Modul einen der folgenden Werte:

Die bedingte Wahrscheinlichkeit für die zweite Spalte mit den Werten in der ersten Spalte.
Der Mittelwert und die Standardabweichung für jede Gruppe von Werten in der ersten Spalte.

Das Modul gibt sowohl ein Dataset mit den Bewertungen als auch eine Funktion aus, die Sie speichern und auf andere Datasets anwenden können.

Konfigurieren von "Diskrete Werte ersetzen"

Tipp

Es wird empfohlen, immer nur mit einem Spaltenpaar zu arbeiten. Das Modul gibt keinen Fehler aus, wenn Sie mehrere zu analysierende Spalten auswählen. Wenn Sie jedoch mehrere Spalten auswählen, werden sie in der Praxis durch eine interne Heuristik und nicht durch die Reihenfolge der Auswahl übereinstimmen.

Daher wird empfohlen, jedes Mal ein einzelnes Spaltenpaar auszuwählen, eine für Diskrete Spalten und eine für Ersatzspalten.

Wenn Sie Bewertungen für mehrere Spalten generieren müssen, verwenden Sie separate Instanzen von Diskrete Werte ersetzen.

Fügen Sie Ihrem Experiment das Modul Replace Discrete Values (Diskrete Werte ersetzen) hinzu. Sie finden dieses Modul in der Gruppe Statistische Funktionen in der Liste der Experimentelemente in Machine Learning Studio (klassisch).
Verbinden Ein Dataset, das mindestens eine Spalte mit kategorischen Daten enthält.
Diskrete Spalten: Klicken Sie auf Spaltenauswahl starten , um eine Spalte auszuwählen, die diskrete (oder kategorische) Werte enthält.

Alle diskreten Spalten, die Sie auswählen, müssen kategorisch sein. Wenn sie einen Fehler erhalten, verwenden Sie das Modul Edit Metadata (Metadaten bearbeiten), um den Spaltentyp zu ändern.
Ersetzungsspalten: Klicken Sie auf Spaltenauswahl starten , um die Spalte auszuwählen, die die Werte enthält, die beim Berechnen eines Ersatzwerts verwendet werden sollen.

Wenn Sie mehrere Spalten für Diskrete Spalten auswählen, müssen Sie eine gleiche Anzahl von Ersetzungsspalten auswählen.
Führen Sie das Experiment aus.

Hinweis

Sie können nicht auswählen, welche statistische Funktion angewendet werden soll. Das Modul berechnet ein geeignetes Measure basierend auf dem Datentyp der Spalte, die für die Ersatzspalte ausgewählt wurde.

Ergebnisse

Das Modul berechnet einen der folgenden Werte für jedes Spaltenpaar:

Wenn die zweite Spalte Kategoriewerte enthält, berechnet das Modul die bedingte Wahrscheinlichkeit der zweiten Spalte anhand der Werte in der ersten Spalte.

Angenommen, Sie haben aus dem occupationCensus-Dataset als diskrete Spalte und als gender Ersatzspalte ausgewählt. Die Ausgabe des Moduls wäre:

P(gender | occupation)
Wenn die zweite Spalte nicht kategorische Werte enthält, die in Zahlen konvertiert werden können (z. B. numerische oder boolesche Werte, die nicht als kategorisch gekennzeichnet sind), gibt das Modul den Mittelwert und die Standardabweichung für jede Gruppe von Werten in der ersten Spalte aus.

Angenommen, Sie verwenden als Diskrete occupationSpalte , und die andere Spalte ist die numerische Spalte hours-per-week. Das Modul gibt diese neuen Werte aus:

Mean(hours-per-week | occupation)

Std-Dev(hours-per-week | occupation)

Zusätzlich zu den Wahrscheinlichkeitszahlen gibt das Modul auch ein transformiertes Dataset aus. In diesem Dataset wird die als Ersatzspalten ausgewählte Spalte durch eine Spalte ersetzt, die die berechneten Bewertungen enthält.

Tipp

Die Spalten im Quell-Dataset werden durch den Vorgang nicht geändert oder gelöscht. Die Bewertungsspalten sind neue Spalten, die vom Modul und der Ausgabe anstelle der Quelldaten generiert werden.

Verwenden Sie das Modul Spalten hinzufügen, um die Quellwerte zusammen mit den Wahrscheinlichkeitswerten anzeigen zu können.

Beispiele

Die Verwendung von Replace Discrete Values kann in einigen einfachen Beispielen veranschaulicht werden.

Beispiel 1: Ersetzen eines kategorischen Werts durch einen Wahrscheinlichkeitswert

Die folgende Tabelle enthält eine kategoriale Spalte X und eine Spalte Y mit Wahr/Falsch-Werten (True/False), die als kategoriale Werte behandelt werden. Wenn Sie Diskrete Werte ersetzen verwenden, wird ein bedingter Wahrscheinlichkeitswert für die Wahrscheinlichkeit von Y bei X berechnet, wie in der dritten Spalte dargestellt.

X	Y	P(Y\|X)
Blau	0	`P(Y=0\|X=Blue) = 0.5`
Blau	1	`P(Y=1\|X=Blue) = 0.5`
Grün	0	`P(Y=0\|X=Green) = 2/3`
Grün	0	`P(Y=0\|X=Green) = 2/3`
Grün	1	`P(Y=1\|X=Green) = 1/3`
Red	0	`P(Y=0\|X=Red) = .75`
Red	0	`P(Y=0\|X=Red) = .75`
Red	1	`P(Y=1\|X=Red) = .25`
Red	0	`P(Y=0\|X=Red) = .75`

Beispiel 2: Berechnen der mittleren und Standardabweichung basierend auf einer nicht kategorischen Spalte

Wenn die zweite Spalte numerisch ist, berechnet Replace Discrete Values den Mittelwert und die Standardabweichung anstelle eines bedingten Wahrscheinlichkeitswerts.

Das folgende Beispiel basiert auf dem Beispiel-Dataset Auto Prices , das wie folgt vereinfacht wird:

Eine kleine Teilmenge der Spalten wurde ausgewählt.
Nur die obersten 30 Zeilen wurden mithilfe der Option Head des Moduls Partition and Sample extrahiert.
Das Modul Replace Discrete Values (Diskrete Werte ersetzen) wurde verwendet, um den Mittelwert und dieStandardabweichung für das Fahrzeuggewicht zu berechnen. angegeben, wenn die Kategoriespalte angegeben ist. num-of-doors

In der folgenden Tabelle werden die Ergebnisse veranschaulicht:

Text	Num-of-doors	Curb-weight	Mean(curb-weight\|num-of-doors)	Std-Dev(curb-weight\|num-of-doors)
std	two	2548	2429.785714	507.45699
std	four	2337	2625.6	493.409877
std	two	2507	2429.785714	507.45699
turbo	four	3086	2625,6 5	493.409877
std	four	1989	2625.6	493.409877
turbo		2191
std	four	2535	2625.6	493.409877

Sie können den Mittelwert für jede Gruppe von Werten überprüfen, indem Sie die AVERAGEIF -Funktion in Excel verwenden.

Beispiel 3: Behandeln fehlender Werte

In diesem Beispiel wird veranschaulicht, wie fehlende Werte (NULL-Werte) an die Ergebnisse übertragen werden, wenn bedingte Wahrscheinlichkeitsbewertungen berechnet werden.

Wenn die Spalte mit den diskreten Werten und die Berechnungssuchspalte fehlende Werte enthalten, werden die fehlenden Werte in die neue Spalte übertragen.
Wenn die Spalte mit den diskreten Werten nur fehlende Werte enthält, kann das Modul die Spalte nicht verarbeiten, und eine Fehlermeldung wird ausgegeben.

X	Y	P(Y\|X)
1	Richtig	`P(Y=true\|X=1) = 1/2`
1	False	`P(Y=false\|X=1) = 1/2`
2	True	`P(Y=true\|X=2) = 1/3`
2	False	`P(Y=false\|X=2) = 1/3`
2	NULL	`P(Y=null\|X=2) = null`

Technische Hinweise

Sie müssen sicherstellen, dass alle diskreten Spalten, die Sie ersetzen möchten, kategorisiert sind. Andernfalls wird das Modul einen Fehler zurückgeben. Verwenden Sie hierzu das Modul Edit Metadata ( Metadaten bearbeiten ).
Wenn die zweite Spalte boolesche Werte enthält, werden die Wahr/Falsch-Werte TRUE und FALSE als numerische Werte äquivalent zu 0 und 1 verarbeitet.
Anhand der Formel für die Standardabweichungsspalte wird die Standardabweichung der Grundgesamtheit berechnet. Daher wird N im Nenner anstelle von (N - 1) verwendet.
Wenn die zweite Spalte nicht kategorische Daten (numerische oder boolesche Werte) enthält, berechnet das Modul den Mittelwert und die Standardabweichung von Y für den angegebenen Wert von X.

Das heißt, für jede Zeile im Dataset, die von indiziert wird i:

Mean(Y│X)i = Mean(Y│X = Xi)

StdDev(Y│X)i = StdDev(Y│X = Xi)
Wenn die zweite Spalte kategorische Daten oder Werte enthält, die weder numerisch noch boolesch sind, berechnet das Modul die bedingte Wahrscheinlichkeit von Y für den angegebenen Wert von X.
Alle booleschen Werte in der zweiten Spalte werden als numerische Daten mit "FALSE" und "TRUE" gleichbedeutend mit 0 und 1 verarbeitet.
Befindet sich in der Spalte mit den diskreten Werten eine Klasse, sodass in der zweiten Spalte eine Zeile mit einem fehlenden Wert vorhanden ist, beläuft sich die Summe der bedingten Wahrscheinlichkeiten innerhalb der Klasse auf weniger als 1.

Erwartete Eingaben

Name	Type	Beschreibung
Dataset	Datentabelle	Eingabedataset

Modulparameter

Name	Range	type	Standard	Beschreibung
Diskrete Spalten	Any	ColumnSelection		Wählt die Spalten aus, die diskrete Werte enthalten.
Replacement columns	Any	ColumnSelection		Wählt die Spalten aus, die die Daten enthalten, die anstelle der diskreten Werte verwendet werden sollen.

Ausgaben

Name	Type	Beschreibung
Ergänztes Dataset	Datentabelle	Dataset mit ersetzten Daten
Transform-Funktion	ITransform-Schnittstelle	Definition der Transformationsfunktion, die auf andere Datasets angewendet werden kann.

Ausnahmen

Ausnahme	Beschreibung
Fehler 0001	Die Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten des Datasets nicht gefunden werden.
Fehler 0003	Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0020	Die Ausnahme tritt auf, wenn die Anzahl der Spalten in einigen Datasets, die an das Modul übergeben wurden, zu klein ist.
Fehler 0021	Die Ausnahme tritt auf, wenn die Anzahl der Zeilen in einigen Datasets, die an das Modul übergeben wurden, zu klein ist.
Fehler 0017	Eine Ausnahme tritt auf, wenn mindestens eine der angegebenen Spalten einen Typ aufweist, der vom aktuellen Modul nicht unterstützt wird.
Fehler 0026	Eine Ausnahme tritt auf, wenn Spalten mit identischen Namen nicht zulässig sind.
Fehler 0022	Eine Ausnahme tritt auf, wenn die Anzahl der ausgewählten Spalten im Eingabedataset nicht der erwarteten Anzahl entspricht.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.

Siehe auch

Statistische Funktionen

X	Y	P(Y\|X)
Blau	0	`P(Y=0\|X=Blue) = 0.5`
Blau	1	`P(Y=1\|X=Blue) = 0.5`
Grün	0	`P(Y=0\|X=Green) = 2/3`
Grün	0	`P(Y=0\|X=Green) = 2/3`
Grün	1	`P(Y=1\|X=Green) = 1/3`
Red	0	`P(Y=0\|X=Red) = .75`
Red	0	`P(Y=0\|X=Red) = .75`
Red	1	`P(Y=1\|X=Red) = .25`
Red	0	`P(Y=0\|X=Red) = .75`

X	Y	P(Y\|X)
1	Richtig	`P(Y=true\|X=1) = 1/2`
1	False	`P(Y=false\|X=1) = 1/2`
2	True	`P(Y=true\|X=2) = 1/3`
2	False	`P(Y=false\|X=2) = 1/3`
2	NULL	`P(Y=null\|X=2) = null`

Freigeben über