Manuelle Eingabe von Daten
Wichtig
Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.
Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.
- Siehe Migrieren zu Azure Machine Learning
- Weitere Informationen zu Azure Machine Learning.
Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.
Ermöglicht das manuelle Eingeben und Bearbeiten kleiner Datasets durch Eingabe von Werten.
Kategorie: Datentransformation/-bearbeitung
Hinweis
Gilt nur für: Machine Learning Studio (klassisch)
Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.
Modulübersicht
In diesem Artikel wird beschrieben, wie Sie das Modul Enter Data Manually (Daten manuell eingeben) in Machine Learning Studio (klassisch) verwenden, um ein kleines Dataset durch Eingabe von Werten zu erstellen. Das Dataset kann mehrere Spalten enthalten.
Dieses Modul kann in folgenden Szenarien hilfreich sein:
Generieren einer kleinen Menge von Werten für Tests
Erstellen einer Kurzliste mit Bezeichnungen
Eingeben von Werten für die Verwendung in "Mathematische Operation anwenden"
Angeben von Ersetzungswerten für die Verwendung in "Diskrete Werte ersetzen"
Eingeben einer Liste mit Spaltennamen zum Einfügen in ein Dataset
Manuelles Eingeben von Daten
Fügen Sie das Modul Enter Data Manually Ihrem Experiment hinzu. Sie finden dieses Modul in der Kategorie Dateneingabe und -ausgabe in Machine Learning Studio (klassisch).
Wählen Sie für DataFormat eine der folgenden Optionen aus. Diese Optionen bestimmen, wie die von Ihnen bereitgestellten Daten analysiert werden sollen. Die Anforderungen für jedes Format sind sehr unterschiedlich, weshalb Sie die entsprechenden Themen unbedingt lesen sollten.
ARFF. Steht für „Attribute-Relation File Format“ und wird von Weka verwendet. Weitere Informationen finden Sie unter Konvertieren in ARFF.
CSV: Format mit durch Trennzeichen getrennte Werte. Weitere Informationen finden Sie unter Convert to CSV (Konvertieren in das CSV-Format).
SVMLight. Ein Format, das von Vowpal Wabbit und anderen Frameworks für maschinelles Lernen verwendet wird. Weitere Informationen finden Sie unter Konvertieren in SVMLight.
TSV. Format mit per Tabulator getrennten Werten. Weitere Informationen finden Sie unter Konvertieren in TSV.
Wenn Sie ein Format wählen und keine Daten bereitstellen, die den Formatvorgaben entsprechen, tritt ein Laufzeitfehler auf.
Klicken Sie in das Textfeld Daten, um mit der Dateneingabe zu beginnen. Die folgenden Formate erfordern besondere Aufmerksamkeit:
CSV: Um mehrere Spalten zu erstellen, fügen Sie durch Trennzeichen getrennten Text ein, oder geben Sie mehrere Spalten mithilfe von Kommas zwischen Feldern ein.
Wenn Sie die Option HasHeader auswählen, können Sie die erste Zeile der Werte als Spaltenüberschrift verwenden.
Wenn Sie diese Option deaktivieren, werden die Spaltennamen Col1, Col2 usw. verwendet. Sie können Spaltennamen später mit der Option Edit Metadata (Metadaten bearbeiten) hinzufügen oder ändern.
TSV: Um mehrere Spalten zu erstellen, fügen Sie durch Tabstopps getrennten Text ein, oder geben Sie mehrere Spalten mithilfe von Registerkarten zwischen Feldern ein.
Wenn Sie die Option HasHeader auswählen, können Sie die erste Zeile der Werte als Spaltenüberschrift verwenden.
Wenn Sie diese Option deaktivieren, werden die Spaltennamen Col1, Col2 usw. verwendet. Sie können Spaltennamen später mit der Option Edit Metadata (Metadaten bearbeiten) hinzufügen oder ändern.
ARFF: Fügen Sie eine vorhandene ARFF-Formatdatei ein. Wenn Sie Werte direkt eingeben, müssen Sie den optionalen Header und die erforderlichen Attributfelder am Anfang der Daten hinzufügen.
Beispielsweise können die folgenden Kopf- und Attributzeilen einer einfachen Liste hinzugefügt werden. Die Überschrift der Spalte lautet dann
SampleText
.% Title: SampleText.ARFF % Source: Enter Data module @ATTRIBUTE SampleText STRING @DATA \<type first data row here>
SVMLight: Geben Sie Werte im SVMLight-Format ein, oder fügen Sie sie ein.
Das folgende Beispiel stellt beispielsweise die ersten Zeilen des Datasets „Blood Donation“ im SVMight-Format dar:
# features are [Recency], [Frequency], [Monetary], [Time] 1 1:2 2:50 3:12500 4:98 1 1:0 2:13 3:3250 4:28
Wenn Sie das Modul Enter Data Manually ausführen, werden diese Zeilen wie folgt in ein Dataset mit Spalten und Indexwerten konvertiert:
Col1 Col2 Col3 Col4 Bezeichnungen 0,00016 0,004 0,999961 0,00784 1 0 0,004 0,999955 0,008615 1
Drücken Sie nach jeder Zeile die EINGABETASTE, um eine neue Zeile zu beginnen.
Drücken Sie unbedingt nach der letzten Zeile die EINGABETASTE.
Wenn Sie mehrmals die EINGABETASTE drücken, um mehrere leere nachstehende Zeilen hinzuzufügen, wird die letzte leere Zeile beschnitten entfernt, aber andere leere Zeilen werden als fehlende Werte behandelt.
Wenn Sie Zeilen mit fehlenden Werten erstellen, können Sie diese später jederzeit wieder herausfiltern.
Klicken Sie mit der rechten Maustaste auf das Modul, und wählen Sie Run selected (Ausgewählte ausführen), um die Daten zu analysieren und als Dataset in Ihren Arbeitsbereich zu laden.
Um eine Vorschau des Datasets anzuzeigen, klicken Sie auf den Ausgabeport, und wählen Sie Visualize (Visualisieren).
Beispiele
Beispiele für die Verwendung dieses Moduls beim maschinellen Lernen finden Sie im Azure KI-Katalog:
- Beispiel "Daten herunterladen": Ruft Daten aus dem UCI Machine Learning-Repository ab und verwendet dann die manuelle Eingabe von Daten, um Spaltennamen zu erstellen. Der R-Beispielcode wird ebenfalls bereitgestellt, mit dem Sie die eingegebenen Zeilen mit dem Dataset zusammenführen können.
Technische Hinweise
Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.
Unabhängig vom gespeicherten Format werden daten, die Sie eingeben, implizit in das Datasetformat (Datentabelle) konvertiert, um sie in Experimenten zu verwenden. Daten werden jedoch nicht als gespeichertes Dataset beibehalten, es sei denn, Sie wählen explizit die Option Als Dataset speichern aus.
Wenn Sie die Daten nicht manuell als Dataset eingeben speichern, werden sie beim Beenden der Sitzung aus dem Arbeitsbereichscache entfernt. Sie können das Experiment jedoch erneut ausführen, um die Daten verfügbar zu machen.
Wenn Sie die Daten aus Enter Data Manually (Daten manuell eingeben ) mit einem anderen Dataset kombinieren, darf das kombinierte Dataset nicht über zwei Spalten mit demselben Namen verfügen. Wenn doppelte Spaltennamen vorhanden sind, wird ein numerisches Suffix aus dem rechten Dataset an die Spalte angefügt, um die Spaltennamen eindeutig zu machen.
Angenommen, Sie verfügen über zwei Instanzen von Daten manuell eingeben , die die Spalte TestData enthalten, und verwenden das Modul Spalten hinzufügen , um sie zusammenzuführen. Die Spalte aus der linken Instanz von Enter Data Manually (Daten manuell eingeben ) bleibt als TestData erhalten, und die Spalte aus der rechten Instanz von Enter Data Manually (Daten manuell eingeben ) wird in TestData (2) umbenannt.