data Balíček
Obsahuje moduly podporující reprezentaci dat pro úložiště dat a datovou sadu ve službě Azure Machine Learning.
Tento balíček obsahuje základní funkce podporující Datastore a Dataset třídy v core balíčku. Objekty úložiště dat obsahují informace o připojení ke službám úložiště Azure, na které lze snadno odkazovat pomocí názvu, aniž by bylo nutné pracovat přímo s informacemi o připojení nebo je pevně kódovat ve skriptech. Úložiště dat podporuje řadu různých služeb reprezentovaných třídami v tomto balíčku, včetně AzureBlobDatastore, AzureFileDatastorea AzureDataLakeDatastore. Úplný seznam podporovaných služeb úložiště najdete ve Datastore třídě .
I když úložiště dat funguje jako kontejner pro datové soubory, datovou sadu si můžete představit jako odkaz nebo ukazatel na konkrétní data, která jsou ve vašem úložišti dat. Podporují se následující typy datových sad:
Objekt TabularDataset reprezentuje data v tabulkovém formátu vytvořeném parsováním zadaného souboru nebo seznamu souborů.
FileDataset odkazuje na jeden nebo více souborů ve vašich úložištích dat nebo veřejných adresách URL.
Další informace najdete v článku Přidání & registrace datových sad. Pokud chcete začít pracovat s datovými sadami, přečtěte si téma https://aka.ms/tabulardataset-samplenotebook a https://aka.ms/filedataset-samplenotebook.
Moduly
abstract_dataset |
Obsahuje abstraktní základní třídu pro datové sady ve službě Azure Machine Learning. |
abstract_datastore |
Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení ke službám úložiště Azure. |
azure_data_lake_datastore |
Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení do Azure Data Lake Storage. |
azure_my_sql_datastore |
Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení do Azure Database for MySQL. |
azure_postgre_sql_datastore |
Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení k Azure Database for PostgreSQL. |
azure_sql_database_datastore |
Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení do Azure SQL databáze. |
azure_storage_datastore |
Obsahuje funkce pro úložiště dat, která ukládají informace o připojení do služby Azure Blob Storage a Azure File Storage. |
constants |
Konstanty použité v balíčku azureml.data. Pouze pro interní použití. |
context_managers |
Obsahuje funkce pro správu kontextu dat úložišť dat a datových sad. Pouze pro interní použití. |
data_reference |
Obsahuje funkci, která definuje, jak vytvořit odkazy na data v úložištích dat. |
datacache |
Obsahuje funkce pro správu úložiště DatacacheStore a Datacache ve službě Azure Machine Learning. |
datacache_client |
Pouze pro interní použití. |
datacache_consumption_config |
Obsahuje funkce pro konfiguraci využití služby DataCache. |
datacache_singularity_settings |
Obsahuje objekty potřebné pro reprezentaci nastavení Singularity mezipaměti Datacache. |
datapath |
Obsahuje funkci pro vytváření odkazů na data v úložištích dat. Tento modul obsahuje DataPath třídu, která představuje umístění dat, a DataPathComputeBinding třídu, která představuje způsob zpřístupnění dat na cílových výpočetních objektech. |
dataset_action_run |
Obsahuje funkci, která spravuje provádění akcí datových sad. Tento modul poskytuje pohodlné metody pro vytváření akcí datových sad a získání jejich výsledků po dokončení. |
dataset_consumption_config |
Obsahuje funkce pro konfiguraci využití datové sady. |
dataset_definition |
Obsahuje funkce pro správu definice datové sady a jejích operací. Poznámka Tento modul je zastaralý. Další informace naleznete v tématu https://aka.ms/dataset-deprecation. |
dataset_error_handling |
Obsahuje výjimky pro zpracování chyb datových sad ve službě Azure Machine Learning. |
dataset_factory |
Obsahuje funkce pro vytváření datových sad pro Azure Machine Learning. |
dataset_profile |
Třída pro shromažďování souhrnných statistik o datech generovaných tokem dat. Funkce v tomto modulu zahrnují shromažďování informací o tom, které spuštění profil vytvořilo a jestli je profil zastaralý nebo ne. |
dataset_profile_run |
Obsahuje konfiguraci pro monitorování spuštění profilu datové sady ve službě Azure Machine Learning. Funkce v tomto modulu zahrnují zpracování a monitorování spuštění profilu datové sady přidružené k objektu experimentu a ID jednotlivých spuštění. |
dataset_profile_run_config |
Obsahuje konfiguraci pro generování souhrnu statistik datových sad ve službě Azure Machine Learning. Funkce v tomto modulu zahrnují metody pro odeslání místního nebo vzdáleného spuštění profilu a vizualizaci výsledku odeslaného spuštění profilu. |
dataset_snapshot |
Obsahuje funkce pro správu operací vytvoření datové sady. Poznámka Tento modul je zastaralý. Další informace naleznete v tématu https://aka.ms/dataset-deprecation. |
dataset_type_definitions |
Obsahuje hodnoty výčtu použité s Dataset. |
datastore_client |
Pouze pro interní použití. |
dbfs_datastore |
Obsahuje funkce pro úložiště dat, která ukládají informace o připojení do souboru Databricks File Sytem (DBFS). |
file_dataset |
Obsahuje funkci pro odkazování na jeden nebo více souborů v úložištích dat nebo veřejných adresách URL. Další informace najdete v článku Přidání & registrace datových sad. Pokud chcete začít pracovat se souborovou datovou sadou, přečtěte si téma https://aka.ms/filedataset-samplenotebook. |
hdfs_datastore |
Obsahuje základní funkce pro úložiště dat, která ukládají informace o připojení do clusteru HDFS. |
output_dataset_config |
Obsahuje konfigurace, které určují, jak se mají výstupy úlohy nahrávat a upřednostňují na datovou sadu. Další informace najdete v článku , jak zadat výstupy. |
sql_data_reference |
Obsahuje funkci pro vytváření odkazů na data v úložištích dat, které ukládají informace o připojení k databázím SQL. |
stored_procedure_parameter |
Obsahuje funkce pro vytvoření parametru, který se má předat uložené proceduře SQL. |
tabular_dataset |
Obsahuje funkce pro reprezentaci dat v tabulkovém formátu parsováním zadaného souboru nebo seznamu souborů. Další informace najdete v článku Přidání & registrace datových sad. Pokud chcete začít pracovat s tabulkovou datovou sadou, přečtěte si téma https://aka.ms/tabulardataset-samplenotebook. |
Třídy
DataType |
Konfiguruje datové typy sloupců pro datovou sadu vytvořenou ve službě Azure Machine Learning. Metody DataType se používají v TabularDatasetFactory metodách třídy |
DatacacheStore |
Poznámka Toto je experimentální třída, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Představuje abstrakci úložiště nad účtem úložiště služby Azure Machine Learning. Úložiště datacacheStore jsou připojená k pracovním prostorům a používají se k ukládání informací souvisejících s podkladovým řešením datacache. V současné době se podporuje pouze řešení dělených objektů blob. Úložiště datacachestore definuje různá úložiště dat objektů blob, která se dají použít pro ukládání do mezipaměti. Tato třída slouží k provádění operací správy, včetně registrace, výpisu, získání a aktualizace úložiště mezipaměti dat.
DatacacheStores pro každou službu jsou vytvořeny pomocí Získejte úložiště mezipaměti dat podle názvu. Toto volání vytvoří požadavek na službu datacache. |
FileDataset |
Představuje kolekci odkazů na soubory v úložištích dat nebo veřejných adresÁCH URL pro použití ve službě Azure Machine Learning. FileDataset definuje řadu líně vyhodnocených, neměnných operací, které načtou data ze zdroje dat do datových proudů souborů. Data se nenačtou ze zdroje, dokud se nezobrazí výzva k doručení dat FileDataset. FileDataset je vytvořena pomocí from_files metody FileDatasetFactory třídy. Další informace najdete v článku Přidání & registrace datových sad. Pokud chcete začít pracovat se souborovou datovou sadou, přečtěte si téma https://aka.ms/filedataset-samplenotebook. Inicializujte objekt FileDataset. Tento konstruktor by neměl být vyvolán přímo. Datová sada se má vytvořit pomocí FileDatasetFactory třídy . |
HDFSOutputDatasetConfig |
Představuje způsob výstupu do cesty HDFS a být povýšen jako FileDataset. Inicializace HDFSOutputDatasetConfig. |
LinkFileOutputDatasetConfig |
Poznámka Toto je experimentální třída, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Představuje, jak propojit výstup spuštění a být povýšen jako FileDataset. LinkFileOutputDatasetConfig umožňuje propojit souborovou datovou sadu jako výstupní datovou sadu.
Inicializace LinkFileOutputDatasetConfig. |
LinkTabularOutputDatasetConfig |
Poznámka Toto je experimentální třída, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Představuje způsob propojení výstupu spuštění a povýšení jako TabularDataset. LinkTabularOutputDatasetConfig umožňuje propojit soubor tabulkový jako výstupní datovou sadu.
Inicializace LinkTabularOutputDatasetConfig. |
OutputFileDatasetConfig |
Představuje, jak kopírovat výstup spuštění a být povýšen jako FileDataset. OutputFileDatasetConfig umožňuje určit, jak se má konkrétní místní cesta v cílovém výpočetním objektu nahrávat do zadaného cíle. Pokud konstruktoru nejsou předány žádné argumenty, automaticky vygenerujeme název, cíl a místní cestu. Příklad nepředávky argumentů:
Příklad vytvoření výstupu a následného zvýšení úrovně výstupu na tabulkovou datovou sadu a jeho registraci s názvem foo:
Inicializace OutputFileDatasetConfig. OutputFileDatasetConfig umožňuje určit, jak se má konkrétní místní cesta v cílovém výpočetním objektu nahrávat do zadaného cíle. Pokud konstruktoru nejsou předány žádné argumenty, automaticky vygenerujeme název, cíl a místní cestu. Příklad nepředávky argumentů:
Příklad vytvoření výstupu a následného zvýšení úrovně výstupu na tabulkovou datovou sadu a jeho registraci s názvem foo:
|
TabularDataset |
Představuje tabulkovou datovou sadu, která se má použít ve službě Azure Machine Learning. TabularDataset definuje řadu nezměnitelných operací, které načtou data ze zdroje dat do tabulkové reprezentace. Data se nenačtou ze zdroje, dokud se k doručení dat nezobrazí výzva TabularDataset. TabularDataset se vytváří pomocí metod, jako from_delimited_files je třída TabularDatasetFactory . Další informace najdete v článku Přidání & registrace datových sad. Pokud chcete začít pracovat s tabulkovou datovou sadou, přečtěte si téma https://aka.ms/tabulardataset-samplenotebook. Inicializujte objekt TabularDataset. Tento konstruktor by neměl být vyvolán přímo. Datová sada se má vytvořit pomocí TabularDatasetFactory třídy . |