TabularDatasetFactory Klasse
Enthält Methoden zum Erstellen eines Tabellendatasets für Azure Machine Learning.
Ein TabularDataset wird mithilfe der from_*
-Methoden in dieser Klasse erstellt (z. B. Methode from_delimited_files).
Weitere Informationen zum Arbeiten mit Tabellendatasets finden Sie im Notebook https://aka.ms/tabulardataset-samplenotebook.
- Vererbung
-
builtins.objectTabularDatasetFactory
Konstruktor
TabularDatasetFactory()
Methoden
from_delimited_files |
Erstellen Sie ein TabularDataset, um Tabellendaten in durch Trennzeichen getrennten Dateien (z. B. CSV und TSV) darzustellen. |
from_json_lines_files |
Erstellen Sie ein TabularDataset, um Tabellendaten in JSON Lines-Dateien (http://jsonlines.org/) darzustellen. |
from_parquet_files |
Erstellen Sie ein TabularDataset, um Tabellendaten in Parquet-Dateien darzustellen. |
from_sql_query |
Erstellen Sie ein TabularDataset, um Tabellendaten in SQL-Datenbanken darzustellen. |
register_dask_dataframe |
Hinweis Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen. Erstellen Sie ein Dataset aus dem dask-Dataframe. |
register_pandas_dataframe |
Erstellen eines Datasets aus pandas-Dataframes. |
register_spark_dataframe |
Hinweis Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen. Erstellen Sie ein Dataset aus dem Spark-Dataframe. |
from_delimited_files
Erstellen Sie ein TabularDataset, um Tabellendaten in durch Trennzeichen getrennten Dateien (z. B. CSV und TSV) darzustellen.
static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')
Parameter
Name | Beschreibung |
---|---|
path
Erforderlich
|
|
validate
Erforderlich
|
Boolescher Wert, um zu überprüfen, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist „True“. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Computeeinheit zugegriffen werden kann. Um die Überprüfung zu deaktivieren, muss „infer_column_types“ ebenfalls auf „False“ festgelegt werden. |
include_path
Erforderlich
|
Boolescher Wert, um Pfadinformationen als Spalte im Dataset beizubehalten. Der Standardwert lautet „False“. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Außerdem können Sie damit nützliche Informationen im Dateipfad speichern. |
infer_column_types
Erforderlich
|
Boolescher Wert, um Spaltendatentypen abzuleiten. Der Standardwert ist „True“. Der Typrückschluss erfordert, dass über die aktuelle Computeeinheit auf die Datenquelle zugegriffen werden kann. Derzeit werden beim Typrückschluss nur die ersten 200 Zeilen abgerufen. Wenn die Daten mehrere Werttypen enthalten, ist es besser, den gewünschten Typ als Überschreibung über das Argument „set_column_types“ bereitzustellen. Codebeispiele zu „set_column_types“ finden Sie im Abschnitt „Hinweise“. |
set_column_types
Erforderlich
|
Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist. |
separator
Erforderlich
|
Das Trennzeichen für das Aufteilen von Spalten. |
header
Erforderlich
|
Steuert, wie Spaltenüberschriften beim Lesen aus Dateien heraufgestuft werden. Der Standardwert ist „True“ für alle Dateien mit demselben Header. Wenn „header=False“ entspricht, werden Dateien als Dateien ohne Header gelesen. Weitere Optionen können mithilfe des Enumerationswerts PromoteHeadersBehavior angegeben werden. |
partition_format
Erforderlich
|
Geben Sie das Partitionsformat des Pfads an. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.csv“ an. Die Partition erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“. |
support_multi_line
Erforderlich
|
Standardmäßig (support_multi_line=False) werden alle Zeilenumbrüche, einschließlich derjenigen in Feldwerten in Anführungszeichen, als Datensatzumbruch interpretiert. Das Lesen von Daten auf diese Weise ist schneller und für die parallele Ausführung auf mehreren CPU-Kernen optimiert. Es kann jedoch dazu führen, dass im Hintergrund mehr Datensätze mit falsch ausgerichteten Feldwerten erzeugt werden. Dieser sollte auf „True“ festgelegt werden, wenn bekannt ist, dass die durch Trennzeichen getrennten Dateien Zeilenumbrüche in Anführungszeichen enthalten. Anhand dieser CSV-Datei als Beispiel werden die Daten basierend auf „support_multi_line“ unterschiedlich gelesen. A,B,C A1,B1,C1 A2,"B 2",C2
|
empty_as_string
Erforderlich
|
Geben Sie an, ob leere Feldwerte als leere Zeichenfolgen geladen werden sollen. Der Standardwert (False) liest leere Feldwerte als NULL-Werte. Wenn Sie dies als „True“ übergeben, werden leere Feldwerte als leere Zeichenfolgen gelesen. Wenn die Werte in numerische Werte oder datetime-Werte konvertiert werden, hat dies keine Auswirkungen, da leere Werte in NULL-Werte konvertiert werden. |
encoding
Erforderlich
|
Geben Sie die Dateicodierung an. Die unterstützten Codierungen sind „utf8“, „iso88591“, „latin1“, „ascii“, „utf16“, „utf32“, „utf8bom“ und „windows1252“. |
Gibt zurück
Typ | Beschreibung |
---|---|
Gibt ein TabularDataset-Objekt zurück. |
Hinweise
from_delimited_files erstellt ein Objekt der TabularDataset-Klasse, das die Vorgänge zum Laden von Daten aus durch Trennzeichen getrennten Dateien in eine tabellarische Darstellung definiert.
Damit Azure Machine Learning auf die Daten zugreifen kann, müssen sich die durch Pfad angegebenen durch Trennzeichen getrennten Dateien in Datastore oder hinter öffentlichen Web-URLs oder URL von Blob, ADLS Gen1 und ADLS Gen2 befinden. Das AAD-Token des Benutzers wird im Notebook oder im lokalen Python-Programm verwendet, wenn es direkt eine der folgenden Funktionen aufruft: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files die Identität des Computeziels wird in Aufträgen verwendet, die von Experiment.submit für die Datenzugriffsauthentifizierung übermittelt werden. Weitere Informationen: https://aka.ms/data-access
Spaltendatentypen werden standardmäßig aus Daten in den durch Trennzeichen getrennten Dateien abgeleitet. Durch Angeben von set_column_types wird der Datentyp für die angegebenen Spalten im zurückgegebenen TabularDataset überschrieben.
from azureml.core import Dataset, Datastore
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))
# create tabular dataset from all csv files in the directory
tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.csv',
'https://url/weather/2018/12.csv'
]
tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)
from_json_lines_files
Erstellen Sie ein TabularDataset, um Tabellendaten in JSON Lines-Dateien (http://jsonlines.org/) darzustellen.
static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')
Parameter
Name | Beschreibung |
---|---|
path
Erforderlich
|
|
validate
Erforderlich
|
Boolescher Wert, um zu überprüfen, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist „True“. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Computeeinheit zugegriffen werden kann. |
include_path
Erforderlich
|
Boolescher Wert, um Pfadinformationen als Spalte im Dataset beizubehalten. Der Standardwert lautet „False“. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Außerdem können Sie damit nützliche Informationen im Dateipfad speichern. |
set_column_types
Erforderlich
|
Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist. |
partition_format
Erforderlich
|
Geben Sie das Partitionsformat des Pfads an. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.jsonl“ an. Die Partition erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“. |
invalid_lines
Erforderlich
|
Behandeln von Zeilen, die ein ungültiges JSON-Format aufweisen. Unterstützte Werte sind „error“ und „drop“. |
encoding
Erforderlich
|
Geben Sie die Dateicodierung an. Die unterstützten Codierungen sind „utf8“, „iso88591“, „latin1“, „ascii“, „utf16“, „utf32“, „utf8bom“ und „windows1252“. |
Gibt zurück
Typ | Beschreibung |
---|---|
Gibt ein TabularDataset-Objekt zurück. |
Hinweise
from_json_lines_files erstellt ein Objekt der TabularDataset-Klasse, die die Vorgänge zum Laden von Daten aus JSON Lines-Dateien in tabellarische Darstellungen definiert.
Damit Azure Machine Learning auf die Daten zugreifen kann, müssen sich die json Lines-Dateien, die im Pfad angegeben sind, in Datastore oder hinter öffentlichen Web-URLs oder URL von Blob, ADLS Gen1 und ADLS Gen2 befinden. Das AAD-Token des Benutzers wird im Notebook oder im lokalen Python-Programm verwendet, wenn es direkt eine der folgenden Funktionen aufruft: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files die Identität des Computeziels wird in Aufträgen verwendet, die von Experiment.submit für die Datenzugriffsauthentifizierung übermittelt werden. Weitere Informationen: https://aka.ms/data-access
Spaltendatentypen werden aus Datentypen gelesen, die in den JSON Lines-Dateien gespeichert sind. Durch Angeben von set_column_types wird der Datentyp für die angegebenen Spalten im zurückgegebenen TabularDataset überschrieben.
from azureml.core import Dataset, Datastore
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))
# create tabular dataset from all jsonl files in the directory
tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.jsonl',
'https://url/weather/2018/12.jsonl'
]
tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)
from_parquet_files
Erstellen Sie ein TabularDataset, um Tabellendaten in Parquet-Dateien darzustellen.
static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)
Parameter
Name | Beschreibung |
---|---|
path
Erforderlich
|
|
validate
Erforderlich
|
Boolescher Wert, um zu überprüfen, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist „True“. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Computeeinheit zugegriffen werden kann. |
include_path
Erforderlich
|
Boolescher Wert, um Pfadinformationen als Spalte im Dataset beizubehalten. Der Standardwert lautet „False“. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Außerdem können Sie damit nützliche Informationen im Dateipfad speichern. |
set_column_types
Erforderlich
|
Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist. |
partition_format
Erforderlich
|
Geben Sie das Partitionsformat des Pfads an. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.parquet“ an. Die Partition erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“. |
Gibt zurück
Typ | Beschreibung |
---|---|
Gibt ein TabularDataset-Objekt zurück. |
Hinweise
from_parquet_files erstellt ein Objekt der TabularDataset-Klasse, das die Vorgänge zum Laden von Daten aus Parquet-Dateien in eine tabellarische Darstellung definiert.
Damit Azure Machine Learning auf die Daten zugreifen kann, müssen sich die im Pfad angegebenen Parquet-Dateien in Datastore oder hinter öffentlichen Web-URLs oder URL von Blob, ADLS Gen1 und ADLS Gen2 befinden. Das AAD-Token des Benutzers wird im Notebook oder im lokalen Python-Programm verwendet, wenn es direkt eine der folgenden Funktionen aufruft: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files die Identität des Computeziels wird in Aufträgen verwendet, die von Experiment.submit für die Datenzugriffsauthentifizierung übermittelt werden. Weitere Informationen: https://aka.ms/data-access
Spaltendatentypen werden aus Datentypen gelesen, die in den Parquet-Dateien gespeichert sind. Durch Angeben von set_column_types wird der Datentyp für die angegebenen Spalten im zurückgegebenen TabularDataset überschrieben.
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))
# create tabular dataset from all parquet files in the directory
tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.parquet',
'https://url/weather/2018/12.parquet'
]
tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)
from_sql_query
Erstellen Sie ein TabularDataset, um Tabellendaten in SQL-Datenbanken darzustellen.
static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)
Parameter
Name | Beschreibung |
---|---|
query
Erforderlich
|
Ein SQL-ähnlicher Datenspeicher und eine Abfrage. |
validate
Erforderlich
|
Boolescher Wert, um zu überprüfen, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist „True“. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Computeeinheit zugegriffen werden kann. |
set_column_types
Erforderlich
|
Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist. |
query_timeout
Erforderlich
|
Legt die Zeit (in Sekunden) fest, die gewartet werden soll, bis der Versuch einer Befehlsausführung beendet und ein Fehler generiert wird. Der Standardwert ist 30 Sekunden. |
Gibt zurück
Typ | Beschreibung |
---|---|
Gibt ein TabularDataset-Objekt zurück. |
Hinweise
from_sql_query erstellt ein Objekt der TabularDataset-Klasse, das die Vorgänge zum Laden von Daten aus SQL-Datenbanken in eine tabellarische Darstellung definiert. Derzeit wird nur „MSSQLDataSource“ unterstützt.
Damit auf die Daten von Azure Machine Learning zugegriffen werden kann, muss sich die SQL-Datenbank, die von query
angegeben wird, in Datastore befinden, und der Datenspeichertyp muss einen SQL-Typ aufweisen.
Spaltendatentypen werden aus Datentypen in SQL-Abfrageergebnissen gelesen. Durch Angeben von set_column_types
wird der Datentyp für die angegebenen Spalten im zurückgegebenen TabularDataset überschrieben.
from azureml.core import Dataset, Datastore
from azureml.data.datapath import DataPath
# create tabular dataset from a SQL database in datastore
datastore = Datastore.get(workspace, 'mssql')
query = DataPath(datastore, 'SELECT * FROM my_table')
tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
df = tabular.to_pandas_dataframe()
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)
register_dask_dataframe
Hinweis
Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.
Erstellen Sie ein Dataset aus dem dask-Dataframe.
static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)
Parameter
Name | Beschreibung |
---|---|
dataframe
Erforderlich
|
<xref:dask.dataframe.core.DataFrame>
Erforderlich. Der dask-Dataframe, der hochgeladen werden soll. |
target
Erforderlich
|
Erforderlich. Der Datenspeicherpfad, in den die Parquet-Daten des Dataframes hochgeladen werden. Ein GUID-Ordner wird unter dem Zielpfad generiert, um Konflikte zu vermeiden. |
name
Erforderlich
|
Erforderlich. Der Name des registrierten Datasets. |
description
Erforderlich
|
Optional. Eine Textbeschreibung des Datasets. Der Standardwert ist „None“. |
tags
Erforderlich
|
Optional. Wörterbuch mit Schlüsselwerttags für das Dataset. Der Standardwert ist „None“. |
show_progress
Erforderlich
|
Optional. Gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Der Standardwert ist „True“. |
Gibt zurück
Typ | Beschreibung |
---|---|
Das registrierte Dataset. |
register_pandas_dataframe
Erstellen eines Datasets aus pandas-Dataframes.
static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)
Parameter
Name | Beschreibung |
---|---|
dataframe
Erforderlich
|
Erforderlich. Im hochzuladenden Speicherdataframe. |
target
Erforderlich
|
Erforderlich. Der Datenspeicherpfad, in den die Parquet-Daten des Dataframes hochgeladen werden. Ein GUID-Ordner wird unter dem Zielpfad generiert, um Konflikte zu vermeiden. |
name
Erforderlich
|
Erforderlich. Der Name des registrierten Datasets. |
description
Erforderlich
|
Optional. Eine Textbeschreibung des Datasets. Der Standardwert ist „None“. |
tags
Erforderlich
|
Optional. Wörterbuch mit Schlüsselwerttags für das Dataset. Der Standardwert ist „None“. |
show_progress
Erforderlich
|
Optional. Gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Der Standardwert ist „True“. |
row_group_size
Erforderlich
|
Optional. Maximale Größe der Zeilengruppe, die beim Schreiben einer Parquet-Datei verwendet werden soll. Der Standardwert ist „None“. |
make_target_path_unique
Erforderlich
|
Optional gibt an, ob ein eindeutiger Unterordner im Ziel erstellt werden soll. Der Standardwert ist „True“. |
Gibt zurück
Typ | Beschreibung |
---|---|
Das registrierte Dataset. |
register_spark_dataframe
Hinweis
Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.
Erstellen Sie ein Dataset aus dem Spark-Dataframe.
static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)
Parameter
Name | Beschreibung |
---|---|
dataframe
Erforderlich
|
Erforderlich. Im hochzuladenden Speicherdataframe. |
target
Erforderlich
|
Erforderlich. Der Datenspeicherpfad, in den die Parquet-Daten des Dataframes hochgeladen werden. Ein GUID-Ordner wird unter dem Zielpfad generiert, um Konflikte zu vermeiden. |
name
Erforderlich
|
Erforderlich. Der Name des registrierten Datasets. |
description
Erforderlich
|
Optional. Eine Textbeschreibung des Datasets. Der Standardwert ist „None“. |
tags
Erforderlich
|
Optional. Wörterbuch mit Schlüsselwerttags für das Dataset. Der Standardwert ist „None“. |
show_progress
Erforderlich
|
Optional. Gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Der Standardwert ist „True“. |
Gibt zurück
Typ | Beschreibung |
---|---|
Das registrierte Dataset. |