Fehlende Daten bereinigen
Wichtig
Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.
Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.
- Siehe Migrieren zu Azure Machine Learning
- Weitere Informationen zu Azure Machine Learning.
Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.
Gibt an, wie Werte verarbeitet werden sollen, die in einem Dataset fehlen.
Kategorie: Datentransformation/-bearbeitung
Hinweis
Gilt nur für: Machine Learning Studio (klassisch)
Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.
Modulübersicht
In diesem Artikel wird beschrieben, wie Sie das Modul Clean Missing Data (Fehlende Daten bereinigen) in Machine Learning Studio (klassisch) verwenden, um fehlende Werte zu entfernen, zu ersetzen oder abzuleitung.
Datenanalysten überprüfen Daten oft auf fehlende Werte und führen dann verschiedene Vorgänge zum Korrigieren der Daten oder Einfügen neuer Werte aus. Durch solche Bereinigungsvorgänge sollen Probleme aufgrund von fehlenden Daten verhindert werden, die beim Trainieren eines Modells auftreten können.
Dieses Modul unterstützt mehrere Typen von Vorgängen zum „Bereinigen“ fehlender Werte, darunter:
- Ersetzen von fehlenden Werten durch einen Platzhalter, einen Mittelwert oder einen anderen Wert
- Vollständiges Entfernen von Zeilen und Spalten, in denen Werte fehlen
- Ableiten von Werten basierend auf statistischen Methoden
Tipp
Haben Sie noch keine Erfahrung mit maschinellem Lernen? Dieser Artikel bietet eine gute Erläuterung, warum Sie jede der verschiedenen Methoden zum Ersetzen fehlender Werte verwenden würden: Methoden zum Behandeln fehlender Werte.
Durch Verwendung dieses Moduls wird Ihr Quelldataset nicht geändert. Stattdessen erstellt es ein neues Dataset in Ihrem Arbeitsbereich, das Sie im nachfolgenden Workflow verwenden können. Sie können das neue, bereinigte Dataset auch zur Wiederverwendung speichern.
Dieses Modul gibt außerdem eine Definition der Transformation aus, die zum Bereinigen der fehlenden Werte verwendet wird. Sie können diese Transformation bei anderen Datasets mit demselben Schema wiederverwenden, indem Sie das Modul Apply Transformation (Transformation anwenden) einsetzen.
Verwenden des Moduls „Clean Missing Data“
Mit diesem Modul können Sie einen Bereinigungsvorgang definieren. Sie können den Bereinigungsvorgang auch speichern, damit Sie ihn zu einem späteren Zeitpunkt auf neue Daten anwenden können. Lesen Sie unter den nachstehenden Links eine Beschreibung dazu, wie Sie einen Bereinigungsprozess erstellen und speichern können:
Wichtig
Die Bereinigungsmethode, die Sie zur Behandlung fehlender Werte verwenden, kann sich auf Ihre Ergebnisse erheblich auswirken. Wir empfehlen, dass Sie mit verschiedenen Methoden experimentieren. Berücksichtigen Sie sowohl die Begründung zur Verwendung einer bestimmten Methode als auch die Qualität der Ergebnisse.
Ersetzen fehlender Werte
Jedes Mal, wenn Sie das Modul Clean Missing Data (Fehlende Daten bereinigen ) auf einen Satz von Daten anwenden, wird der gleiche Bereinigungsvorgang auf alle ausgewählten Spalten angewendet. Wenn Sie verschiedene Spalten mithilfe verschiedener Methoden bereinigen müssen, verwenden Sie deshalb separate Instanzen des Moduls.
Fügen Sie Ihrem Experiment das Modul Clean Missing Data hinzu, und verbinden Sie das Dataset, in dem Werte fehlen.
Wählen Sie bei Columns to be cleaned (Zu bereinigende Spalten) die Spalten mit den fehlenden Werten aus, die Sie ändern möchten. Sie können mehrere Spalten auswählen, müssen aber dieselbe Ersetzungsmethode in allen ausgewählten Spalten verwenden. Daher müssen Sie Zeichenfolgenspalten und numerische Spalten in der Regel getrennt bereinigen.
Um beispielsweise auf fehlende Werte in allen numerischen Spalten zu überprüfen, führen Sie die folgenden Schritte aus:
Öffnen Sie die Spaltenauswahl, und wählen Sie WITH RULES (MIT REGELN) aus.
Wählen Sie bei BEGIN WITH (BEGINNEN MIT) NO COLUMNS (KEINE SPALTEN) aus.
Sie können auch mit „ALL COLUMNS“ (ALLE SPALTEN) beginnen und dann Spalten ausschließen. Wenn Sie zuerst auf ALL COLUMNS klicken, werden zunächst keine Regeln angezeigt. Sie können aber auch auf NO COLUMNS und dann erneut ALL COLUMNS klicken, um mit allen Spalten zu beginnen. Anschließend können Sie Spalten anhand des Namens, Datentyps oder Spaltenindex ausfiltern (ausschließen).
Wählen Sie für Include (Einschließen) den Column Type (Spaltentyp) aus der Dropdownliste und anschließend Numeric (Numerisch) oder einen spezifischeren numerischen Typ aus.
Jede von Ihnen ausgewählte Bereinigungs- oder Ersetzungsmethode muss auf alle Spalten in der Auswahl anwendbar sein. Wenn die Daten in einer Spalte mit dem angegebenen Vorgang inkompatibel sind, gibt das Modul einen Fehler zurück und beendet das Experiment.
Geben Sie für Minimum missing value ratio (Mindestverhältnis für fehlende Werte) die Mindestanzahl von fehlenden Werten an, die für den auszuführenden Vorgang erforderlich sind.
Sie verwenden diese Option in Kombination mit Maximum missing value ratio (Höchstverhältnis für fehlende Werte) zum Definieren der Bedingungen, unter denen ein Bereinigungsvorgang am Dataset ausgeführt wird. Wenn es zu viele oder zu wenige Zeilen gibt, in denen Werte fehlen, kann der Vorgang nicht ausgeführt werden.
Die eingegebene Anzahl stellt das Verhältnis von fehlenden Werten zu allen Werten in der Spalte dar. Für die Eigenschaft Minimum missing value ratio ist standardmäßig „0“ festgelegt. Dies bedeutet: Fehlende Werte werden selbst dann bereinigt, wenn nur ein einziger Wert fehlt. Ein Beispiel für die Verwendung dieser Option finden Sie unter Festlegen eines Schwellenwerts für Bereinigungsvorgänge.
Warnung
Diese Bedingung muss von jeder einzelnen Spalte erfüllt werden, damit der angegebene Vorgang angewendet werden kann. Angenommen beispielsweise, Sie haben drei Spalten ausgewählt und dann als Mindestverhältnis für fehlende Werte „0,2“ (20%) festgelegt, doch nur in einer einzigen Spalte fehlen tatsächlich 20% der Werte. In diesem Fall würde der Bereinigungsvorgang nur auf die Spalte angewendet, in der mehr als 20% der Werte fehlen. Die anderen Spalten würden unverändert beibehalten.
Wenn Sie unsicher sind, ob fehlende Werte geändert wurden, wählen Sie die Option Generate missing value indicator column aus. Dann wird eine Spalte an das Dataset angefügt, um anzugeben, ob jede Spalte die festgelegten Kriterien für den minimalen und maximalen Bereich erfüllt hat oder nicht.
Geben Sie für Maximum missing value ratio die maximale Anzahl von Werten an, die fehlen können, damit der Vorgang ausgeführt wird.
So möchten Sie eine Ersetzung fehlender Werte beispielsweise nur dann durchführen, wenn in 30% oder weniger der Zeilen Werte fehlen, möchten die Werte aber unverändert beibehalten, wenn in mehr als 30% der Zeilen Werte fehlen.
Sie definieren die Anzahl als Verhältnis der fehlenden Werte zu allen Werten in der Spalte. Standardmäßig ist für Maximum missing value ratio „1“ festgelegt. Dies bedeutet: Fehlende Werte werden selbst dann bereinigt, wenn 100% der Werte in der Spalte fehlen.
Hinweis
Wenn Sie einen Schwellenwert mit den Optionen Minimum missing value ratio oder Maximum missing value ratio festlegen, kann der Bereinigungsvorgang nicht ausgeführt werden, wenn auch eine der ausgewählten Spalten die Kriterien nicht erfüllt.
Wählen Sie für Cleaning Mode (Bereinigungsmodus) eine der folgenden Optionen zum Ersetzen oder Entfernen fehlender Werte aus:
Ersetzen mitHILFE von MICE: Für jeden fehlenden Wert weist diese Option einen neuen Wert zu, der mithilfe einer Methode berechnet wird, die in der statistischen Dokumentation als "Multivariate Imputation using Chained Gleichungen" oder "Multiple Imputation by Chained Equations" (Mehrfache Imputation durch verkettete Gleichungen) beschrieben wird. Bei einer Methode mit mehreren Imputationen wird jede Variable mit fehlenden Daten bedingt mithilfe der anderen Variablen in den Daten modelliert, bevor die fehlenden Werte ausgefüllt werden. Im Gegensatz dazu wird in einer einzelnen Imputationsmethode (z. B. ersetzen eines fehlenden Werts durch einen Spaltenmittelwert) ein einzelner Durchlauf über die Daten durchgeführt, um den Füllwert zu bestimmen.
Alle Imputationsmethoden führen zu Einem gewissen Fehler oder Voreingenommenheit, aber die mehrfache Imputation simuliert den Prozess, der die Daten generiert, und die Wahrscheinlichkeitsverteilung der Daten.
Eine allgemeine Einführung in Methoden zur Behandlung fehlender Werte finden Sie unter Missing Data: the state of the art (Fehlende Daten: der Stand der Technik). Soller und Soll, 2002.
Warnung
Diese Option kann nicht auf vollständig leere Spalten angewendet werden. Solche Spalten müssen unverändert entfernt oder an die Ausgabe übergeben werden.
Custom substitution value (Benutzerdefinierter Ersatzwert): Verwenden Sie diese Option zur Angabe eines Platzhalterwerts (z. B. „0“ oder „N/V“), der für alle fehlenden Werte gilt. Der Wert, den Sie als Ersatz angeben, muss mit dem Datentyp der Spalte kompatibel sein.
Replace with mean (Durch Mittelwert ersetzen): Berechnet den Mittelwert der Spalte und verwendet ihn als Ersatzwert für jeden fehlenden Wert in der Spalte.
Gilt nur für Spalten mit den Datentypen „Integer“, „Double“ oder „Boolean“. Weitere Informationen finden Sie im Abschnitt Technische Hinweise .
Replace with median (Durch Median ersetzen): Berechnet den Median der Spalte und verwendet ihn als Ersatz für jeden fehlenden Wert in der Spalte.
Gilt nur für Spalten mit den Datentypen „Integer“ oder „Double“. Weitere Informationen finden Sie im Abschnitt Technische Hinweise .
Replace with mode (Durch Modus ersetzen) Berechnet den Modus für die Spalte und verwendet ihn als Ersatzwert für jeden fehlenden Wert in der Spalte.
Gilt für Spalten mit den Datentypen „Integer“, „Double“, „Boolean“ oder „Categorical“. Weitere Informationen finden Sie im Abschnitt Technische Hinweise .
Remove entire row (Gesamte Zeile entfernen): Entfernt jede Zeile im Dataset vollständig, in der mindestens ein Wert fehlt. Dies ist hilfreich, wenn der fehlende Wert als zufällig fehlend betrachtet werden kann.
Remove entire column (Gesamte Spalte entfernen): Entfernt jede Spalte im Dataset vollständig, in der mindestens ein Wert fehlt.
Ersetzen mit probabilistischer PCA: Ersetzt die fehlenden Werte durch ein lineares Modell, das die Korrelationen zwischen den Spalten analysiert und eine niedrigdimensionale Näherung der Daten schätzt, aus der die vollständigen Daten rekonstruiert werden. Die zugrunde liegende Verringerung der Dimensionalität ist eine probabilistische Form der Principal Component Analysis (PCA). Sie implementiert eine Variante des Modells, das im „Journal of the Royal Statistical Society“, Reihe B 21(3), 611–622, von Tipping und Bishop vorgeschlagen wird.
Im Vergleich zu anderen Optionen wie Multiple Imputation using Chained Equations (MICE) bietet diese Option den Vorteil, dass keine Prädiktoren für jede Spalte angewendet werden müssen. Stattdessen erfolgt eine Annäherung an die Kovarianz des vollständigen Datasets. Daher kann sie eine bessere Leistung für Datasets bieten, die in vielen Spalten Werte fehlen.
Die Einschränkungen dieser Methode sind, dass sie Kategoriespalten auf numerische Indikatoren erweitert und eine dichte Kovarianzmatrix der resultierenden Daten berechnet. Zudem ist sie nicht für Darstellungen mit geringer Dichte optimiert. Aus diesen Gründen werden Datasets mit einer großen Anzahl von Spalten und/oder großen Kategoriedomänen (zehntausende) aufgrund der nicht tragbaren Speicherplatzbelegung nicht unterstützt.
Tipp
Denken Sie daran, dass die ausgewählte Methode auf alle Spalten in der Auswahl angewendet wird. Wenn Sie also einige fehlende Werte in einigen Spalten durch Nullen ersetzen, aber einen Platzhalter in andere Spalten einfügen möchten, sollten Sie Spalten im Dataset auswählen verwenden, um die Daten zu trennen und verschiedene Instanzen des Moduls Clean Missing Data zu verwenden.
Die Option Replacement value (Ersatzwert) steht zur Verfügung, wenn Sie die Option Custom substitution value (Benutzerdefinierter Ersatzwert) ausgewählt haben. Geben Sie den neuen Wert ein, der als Ersatzwert für alle fehlenden Werte in der Spalte verwendet werden soll.
Beachten Sie, dass Sie diese Option nur in Spalten mit den Datentypen „Integer“, „Double“, „Boolean“ oder „Date“ verwenden können. Bei Datumsspalten kann der Ersatzwert auch als die Anzahl von 100-Nanosekunden-Takten seit dem 01.01.0001 12:00 Uhr eingegeben werden.
Generate missing value indicator column (Indikatorspalte für fehlende Werte generieren): Wählen Sie diese Option aus, wenn Sie einen Hinweis darauf ausgeben möchten, ob die Werte in der Spalte die Kriterien für eine Bereinigung von fehlenden Werten erfüllt haben. Diese Option ist besonders hilfreich, wenn Sie beim Einrichten eines neuen Bereinigungsvorgangs sicherstellen möchten, dass er wie vorgesehen funktioniert.
Führen Sie das Experiment aus, oder wählen Sie das Modul Clean Missing Data (Fehlende Daten bereinigen ) aus, und klicken Sie auf Ausführen ausgewählt.
Ergebnisse
Das Modul gibt zwei Ausgaben zurück:
Cleaned dataset (Bereinigtes Dataset): Ein Dataset, das aus den ausgewählten Spalten besteht, in denen fehlende Werte wie angegeben behandelt werden, und einer Indikatorspalte, wenn Sie diese Option ausgewählt haben.
Spalten, die nicht zur Bereinigung ausgewählt wurden, werden auch „per Pass-Through übergeben“.
Cleaning transformation (Bereinigungstransformation): Eine für die Bereinigung verwendete Datentransformation, die in Ihrem Arbeitsbereich gespeichert und zu einem späteren Zeitpunkt auf neue Daten angewendet werden kann.
Anwenden eines gespeicherten Bereinigungsvorgang auf neue Daten
Wenn Sie Bereinigungsvorgänge oft wiederholen müssen, empfehlen wir, dass Sie Ihr „Rezept“ für die Datenbereinigung als eine Transformation speichern, um es bei demselben Dataset wiederverwenden zu können. Das Speichern einer Bereinigungstransformation ist besonders hilfreich, wenn Sie Daten mit demselben Schema häufig erneut importieren und dann bereinigen müssen.
Fügen Sie das Modul Apply Transformation (Transformation anwenden) Ihrem Experiment hinzu.
Fügen Sie dann das zu bereinigende Dataset hinzu, und verbinden Sie es mit dem rechten Eingangsport.
Erweitern Sie die Gruppe Transformationen im linken Bereich von Studio (klassisch). Suchen Sie die gespeicherte Transformation, und ziehen Sie sie in das Experiment.
Verbinden Sie die gespeicherte Transformation mit dem linken Eingangsport von Apply Transformation.
Wenn Sie eine gespeicherte Transformation anwenden, können Sie die Spalten, auf die die Transformation angewendet wird, nicht auswählen. Dies liegt daran, dass die Transformation bereits definiert wurde und automatisch auf die datentypen angewendet wird, die im ursprünglichen Vorgang angegeben wurden.
Allerdings: Nehmen Sie einmal an, Sie hätten eine Transformation für eine Teilmenge numerischer Spalten erstellt. Diese Transformation können Sie auf ein Dataset von gemischten Spaltentypen anwenden, ohne dass ein Fehler ausgelöst wird, weil die fehlenden Werte nur in den übereinstimmenden numerischen Spalten geändert werden.
Führen Sie das Experiment aus.
Beispiele
Sehen Sie sich Beispiele für die Verwendung dieses Moduls im Azure KI-Katalog an:
Vorhersage der Leistung von Studenten: In diesem Beispiel werden Nullen für fehlende Werte eingefügt.
Beispiel für Kreuzvalidierung für binäre Klassifizierer: Nullen werden verwendet, um fehlende Werte aufzufüllen, und eine Indikatorspalte wird erstellt, um die Änderungen nachzuverfolgen. Außerdem werden Spalten beibehalten, in denen alle Werten fehlen.
Datasetverarbeitung und -analyse: In diesem Beispiel verwenden verschiedene Verzweigungen des Experiments verschiedene Methoden für die Ersetzung fehlender Werte, und die Datasets werden dann mithilfe von Summarize Data (Daten zusammenfassen ) und Compute Linear Correlation (Lineare Korrelation berechnen) ausgewertet.
Beispiel für die Vorhersage von Flugverspätungen: Leere Zeilen werden vollständig entfernt.
Technische Hinweise
Dieser Abschnitt enthält Implementierungsdetails sowie bekannte Probleme und häufig gestellte Fragen.
Wenn die Mittelwert- oder Medianoption verwendet wird, tritt ein Fehler auf, wenn Zeichenfolgenspalten ausgewählt werden. Wenn Sie Spalten mit unterschiedlichen Datentypen verarbeiten müssen, erstellen Sie zwei Instanzen von Clean Missing Data.
Wenn fehlende Werte durch einen Mittelwert in Spalten mit den Datentypen Boolean, Integer, DateTime oder TimeSpan ersetzt werden, wird die Spalte zuerst in Gleitkommazahlen konvertiert, der Mittelwert wird berechnet, und dann wird das Ergebnis auf den nächsten Wert des ursprünglichen Datentyps gerundet.
Wenn Sie einen Ersatzwert eingeben, muss der Wert mit dem Datentyp in der ausgewählten Spalte kompatibel sein.
Die Werte von
NaN
,Inf
und–Inf
sind für Spalten zulässig, in denen der Datentyp Double ist.Bei Verwendung der MICE-Methode wird der Ersatzwert mithilfe des trainierten MICE-Modells vorhergesagt.
Wenn Sie Clean Missing Data (Fehlende Daten bereinigen ) verwenden, können andere Spaltentypen auf das Feature zurückgesetzt werden. Wenn Ihre Daten andere Spaltentypen enthalten, z. B. Bezeichnungen, verwenden Sie Metadaten bearbeiten , um die Spaltentypen zu korrigieren.
Einschränkungen bei der Verwendung von Bereinigungstransformationen
Die folgenden Einschränkungen gelten, wenn Sie eine gespeicherte Transformation (basierend auf Clean Missing Data) für neue Daten verwenden:
Eine gespeicherte Transformation kann keine Indikatorwerte generieren, auch wenn diese Option im ursprünglichen Bereinigungsvorgang verwendet wurde. Betrachten Sie die Indikatorwerte als besonders nützlich, wenn Sie eine neue Transformation testen.
Die Transformation berechnet keine neuen Werte basierend auf dem neuen Dataset. Wenn Sie also Clean Missing Data (Fehlende Daten bereinigen ) für Dataset A verwendet und einen Mittelwert von 0,5 generiert haben, wird dieser Wert unabhängig von den tatsächlichen Werten in Dataset B als Mittelwert für das Ersetzen fehlender Werte in Dataset B angewendet.
Der Datentyp der Spalten im neuen Dataset muss mit dem Datentyp der Spalten übereinstimmen, für die die Transformation ursprünglich erstellt wurde. Ein Fehler wird ausgelöst, wenn Vorgänge für die Spalte ausgeführt werden, die den Datentyp implizit ändern.
Angenommen, Sie erstellen einen Mittelwert für eine ganzzahlige Datenspalte [Col1] und speichern die Transformation. Nun möchten Sie die Bereinigungstransformation auf eine Kopie von [Col1] anwenden, die mithilfe einer Formel wie ([Col1] /1.5) angepasst wurde. Um sicherzustellen, dass das Ergebnis eine ganze Zahl ist, runden Sie das Ergebnis auf, erhalten aber trotzdem einen Fehler, wenn Sie die Transformation anwenden. Wenn Sie den Wert jedoch mithilfe einer Formel wie ([Col 1] * 10) anpassen, wird kein Fehler ausgelöst!
Um solche Probleme zu vermeiden, verwenden Sie Metadaten bearbeiten , um den Datentyp explizit auf integer zurückzusetzen. Im Allgemeinen ändern Vorgänge im Modul Apply Math Operation (Mathematische Operation anwenden ) numerische Spalten implizit in
double
.
Festlegen und Interpretieren von Schwellenwerten
Wenn Sie einen Schwellenwert für Bereinigungsvorgänge mit den Optionen Minimum missing value ratio oder Maximum missing value ratio angeben, können die Ergebnisse unerwartet oder verwirrend sein. Um zu veranschaulichen, wie die Optionen für maximale und minimale fehlende Werte funktionieren, haben wir einige Beispiele aus dem Beispieldataset Automobile Prices bereitgestellt, das viele Spalten mit fehlenden Werten enthält.
Die folgende Tabelle zeigt die Anzahl der fehlenden Werte für mehrere Spalten in diesem Dataset sowie das Verhältnis der fehlenden Werte, die für das Dataset berechnet wurden. Das Verhältnis der fehlenden Werte (in der äußersten rechten Spalte) ist der Wert, der zum Auswerten des Datasets anhand der angegebenen Schwellenwerte verwendet wird.
Angenommen, Sie legen das Verhältnis des minimalen fehlenden Werts auf 0,019 und das Verhältnis des maximalen fehlenden Werts auf 0,020 fest. In der folgenden Tabelle mit Werten erfüllen einige Spalten die Schwellenwertkriterien, andere hingegen nicht:
- Die Spalten
bore
undstroke
erfüllen die Schwellenwertkriterien. - Die Spalten
normalized-losses
undcompression-ratio
erfüllen nicht die Schwellenwertkriterien.
Spaltenname | Anzahl der fehlenden Werte | Verhältnis von fehlenden Werten |
---|---|---|
Normalized-losses | 41 | 0.2 |
Bore | 4 | 0.019512195 |
Stroke | 4 | 0.019512195 |
Kompressionsrate | 0 | 0 |
Da einige Spalten in der Auswahl die angegebenen Kriterien nicht erfüllten, wurde für eine Spalte kein Bereinigungsvorgang ausgeführt. Damit Sie herausfinden können, was passiert ist, gibt das Modul den Wert FALSE in den beiden Indikatorspalten bore_IsMissing
und stroke_IsMissing
zurück.
Wenn Sie den Schwellenwert jedoch wieder in die Standardwerte 0 für Minimum missing value ratio (Minimales Verhältnis fehlender Werte ) und 1 für Maximum missing value ratio (Maximales Verhältnis fehlender Werte) ändern, wird eine Indikatorspalte für alle ausgewählten Spalten zurückgegeben, und der angegebene Vorgang wird ausgeführt.
Tipp
Wenn Sie unsicher sind, ob die Bereinigung fehlender Werte wie erwartet funktioniert, wählen Sie die Option Indikatorspalte für fehlenden Wert generieren aus.
Bekannte Probleme
Wenn Sie die MICE-Methode verwenden, um Daten zu bereinigen und dann ein Dataset zu verarbeiten, das fehlende Werte enthält, erhalten Sie möglicherweise den folgenden Fehler: "AFx Library library exception: Model is not trained. ( Fehler 1000 )"
Dieser Fehler tritt nur auf, wenn die METHODE MICE ausgewählt ist und das Trainings-Dataset keine fehlenden Werte enthält, das Test-Dataset jedoch.
Erwartete Eingaben
Name | Type | Beschreibung |
---|---|---|
Dataset | Datentabelle | Zu bereinigendes Dataset |
Modulparameter
Name | Range | type | Standard | Beschreibung |
---|---|---|---|---|
Columns to be cleaned | Any | ColumnSelection | All | Wählen Sie die Spalten für die Bereinigung von fehlenden Werten aus. |
Mindestanzahl fehlender Werte | [0.0;1.0] | Float | 0,0 | Bereinigt nur die Spalte mit fehlendem Wertverhältnis oberhalb des angegebenen Werts aus einem Satz aller ausgewählten Spalten. |
Maximale Anzahl fehlender Werte | [0.0;1.0] | Float | 1.0 | Bereinigt aus dem Satz aller ausgewählten Spalten nur Spalten, bei denen das Verhältnis der fehlenden Werte unter dem angegebenen Wert liegt |
Bereinigungsmodus | Liste | Richtlinie zur Handhabung | Benutzerdefinierter Ersatzwert | Wählen Sie einen Algorithmus aus, der beim Bereinigen von fehlenden Werten verwendet werden soll. |
Replacement value | Any | String | "0" | Geben Sie einen Wert ein, der als Ersatz für fehlende Werte verwendet werden soll. Dieser Wert ist optional. |
Cols with all missing values | Any | ColumnsWithAllValuesMissing | Entfernen | Geben Sie an, ob die Spalten aller fehlenden Werte in der Ausgabe beibehalten werden sollen. |
Generate missing value indicator column | Any | Boolean | false | Generiert eine Spalte, die angibt, welche Zeilen bereinigt wurden. |
Number of iterations | [1;10] | Integer | 5 | Geben Sie die Anzahl der Iterationen an, wenn MICE verwendet wird. |
Number of iterations for PCA prediction | [1;50] | Integer | 10 | Geben Sie die Anzahl der Iterationen an, wenn die PCA-Vorhersage verwendet wird. |
Ausgaben
Name | Type | Beschreibung |
---|---|---|
Bereinigtes Dataset | Datentabelle | Bereinigtes Dataset |
Bereinigungstransformation | ITransform-Schnittstelle | Transformation, die an das Modul Apply Transformation zum Bereinigen neuer Daten übergeben werden kann. |
Ausnahmen
Ausnahme | Beschreibung |
---|---|
Fehler 0002 | Eine Ausnahme tritt auf, wenn mindestens ein Parameter nicht analysiert oder nicht aus einem angegebenen Typ in den für die Zielmethode erforderlichen Typ konvertiert werden konnte. |
Fehler 0003 | Eine Ausnahme tritt auf, wenn mindestens ein Eingabedataset null oder leer ist. |
Fehler 0008 | Eine Ausnahme tritt auf, wenn ein Parameter nicht im Bereich liegt. |
Fehler 0013 | Eine Ausnahme tritt auf, wenn das an das Modul übergebene Lernmodul einen ungültigen Typ hat. |
Fehler 0018 | Eine Ausnahme tritt auf, wenn das Eingabedataset ungültig ist. |
Fehler 0039 | Eine Ausnahme tritt auf, wenn der Vorgang fehlgeschlagen ist. |
Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.
Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.