Dela via


data Paket

Innehåller moduler som stöder datarepresentation för Datastore och Dataset i Azure Machine Learning.

Det här paketet innehåller grundläggande funktioner som stöder Datastore och Dataset klasser i paketet core . Datalagerobjekt innehåller anslutningsinformation till Azure Storage-tjänster som enkelt kan refereras till med namn utan att du behöver arbeta direkt med eller hårdkoda anslutningsinformation i skript. Datalager stöder ett antal olika tjänster som representeras av klasser i det här paketet, inklusive AzureBlobDatastore, AzureFileDatastoreoch AzureDataLakeDatastore. En fullständig lista över lagringstjänster som stöds finns i Datastore klassen .

Även om ett datalager fungerar som en container för dina datafiler kan du betrakta en datauppsättning som en referens eller pekare till specifika data som finns i ditt datalager. Följande typer av datauppsättningar stöds:

  • TabularDataset representerar data i tabellformat som skapats genom att parsa den angivna filen eller listan med filer.

  • FileDataset refererar till en eller flera filer i dina datalager eller offentliga URL:er.

Mer information finns i artikeln Lägg till & registrera datauppsättningar. Information om hur du kommer igång med en datauppsättning finns i https://aka.ms/tabulardataset-samplenotebook och https://aka.ms/filedataset-samplenotebook.

Moduler

abstract_dataset

Innehåller den abstrakta basklassen för datauppsättningar i Azure Machine Learning.

abstract_datastore

Innehåller basfunktionerna för datalager som sparar anslutningsinformation till Azure Storage-tjänster.

azure_data_lake_datastore

Innehåller basfunktionerna för datalager som sparar anslutningsinformation till Azure Data Lake Storage.

azure_my_sql_datastore

Innehåller basfunktionerna för datalager som sparar anslutningsinformation till Azure Database for MySQL.

azure_postgre_sql_datastore

Innehåller basfunktionerna för datalager som sparar anslutningsinformation till Azure Database for PostgreSQL.

azure_sql_database_datastore

Innehåller basfunktionerna för datalager som sparar anslutningsinformation till Azure SQL databas.

azure_storage_datastore

Innehåller funktioner för datalager som sparar anslutningsinformation till Azure Blob och Azure File Storage.

constants

Konstanter som används i azureml.data-paketet. Endast internt bruk.

context_managers

Innehåller funktioner för att hantera datakontexter för datalager och datauppsättningar. Endast internt bruk.

data_reference

Innehåller funktioner som definierar hur du skapar referenser till data i datalager.

datacache

Innehåller funktioner för att hantera DatacacheStore och Datacache i Azure Machine Learning.

datacache_client

Endast internt bruk.

datacache_consumption_config

Innehåller funktioner för konfiguration av DataCache-förbrukning.

datacache_singularity_settings

Innehåller objekt som behövs för representation av datacache-singularitetsinställningar.

datapath

Innehåller funktioner för att skapa referenser till data i datalager.

Den här modulen DataPath innehåller klassen, som representerar platsen för data och DataPathComputeBinding klassen, som representerar hur data görs tillgängliga för beräkningsmålen.

dataset_action_run

Innehåller funktioner som hanterar körningen av datauppsättningsåtgärder.

Den här modulen innehåller praktiska metoder för att skapa datauppsättningsåtgärder och få deras resultat efter slutförandet.

dataset_consumption_config

Innehåller funktioner för konfiguration av datamängdsförbrukning.

dataset_definition

Innehåller funktioner för att hantera datauppsättningsdefinitioner och dess åtgärder.

Anteckning

Den här modulen är inaktuell. Mer information finns i https://aka.ms/dataset-deprecation.

dataset_error_handling

Innehåller undantag för hantering av datauppsättningsfel i Azure Machine Learning.

dataset_factory

Innehåller funktioner för att skapa datauppsättningar för Azure Machine Learning.

dataset_profile

Klass för insamling av sammanfattningsstatistik för data som genereras av ett dataflöde.

Funktionerna i den här modulen omfattar insamling av information om vilken körning som skapat profilen, oavsett om profilen är inaktuell eller inte.

dataset_profile_run

Innehåller konfiguration för övervakning av datauppsättningsprofil som körs i Azure Machine Learning.

Funktionerna i den här modulen omfattar hantering och övervakning av datauppsättningsprofilkörning som är associerad med ett experimentobjekt och ett enskilt körnings-ID.

dataset_profile_run_config

Innehåller konfiguration för att generera statistiksammanfattning av datauppsättningar i Azure Machine Learning.

Funktionerna i den här modulen innehåller metoder för att skicka lokal eller fjärransluten profilkörning och visualisera resultatet av den skickade profilkörningen.

dataset_snapshot

Innehåller funktioner för att hantera åtgärder för ögonblicksbilder av datauppsättningar.

Anteckning

Den här modulen är inaktuell. Mer information finns i https://aka.ms/dataset-deprecation.

dataset_type_definitions

Innehåller uppräkningsvärden som används med Dataset.

datastore_client

Endast internt bruk.

dbfs_datastore

Innehåller funktioner för datalager som sparar anslutningsinformation till Databricks File Sytem (DBFS).

file_dataset

Innehåller funktioner för att referera till enskilda eller flera filer i datalager eller offentliga URL:er.

Mer information finns i artikeln Lägg till & registrera datauppsättningar. Information om hur du kommer igång med en fildatauppsättning finns i https://aka.ms/filedataset-samplenotebook.

hdfs_datastore

Innehåller basfunktionerna för datalager som sparar anslutningsinformation till ett HDFS-kluster.

output_dataset_config

Innehåller konfigurationer som anger hur utdata för ett jobb ska laddas upp och höjas upp till en datauppsättning.

Mer information finns i artikeln om hur du anger utdata.

sql_data_reference

Innehåller funktioner för att skapa referenser till data i datalager som sparar anslutningsinformation till SQL-databaser.

stored_procedure_parameter

Innehåller funktioner för att skapa en parameter som ska skickas till en SQL-lagrad procedur.

tabular_dataset

Innehåller funktioner för att representera data i tabellformat genom att parsa den angivna filen eller listan över filer.

Mer information finns i artikeln Lägg till & registrera datauppsättningar. Information om hur du kommer igång med en tabelldatauppsättning finns i https://aka.ms/tabulardataset-samplenotebook.

Klasser

DataType

Konfigurerar kolumndatatyper för en datauppsättning som skapats i Azure Machine Learning.

DataType-metoder används i klassmetoderna TabularDatasetFactoryfrom_* , som används för att skapa nya TabularDataset-objekt.

DatacacheStore

Anteckning

Det här är en experimentell klass och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.

Representerar en lagringsabstraktion över ett Azure Machine Learning-lagringskonto.

DatacacheStores är anslutna till arbetsytor och används för att lagra information som rör den underliggande datacache-lösningen. För närvarande stöds endast partitionerad bloblösning. Datacachestores definierar olika Blob-datalager som kan användas för cachelagring.

Använd den här klassen för att utföra hanteringsåtgärder, inklusive registrering, lista, hämta och uppdatera datacachelager. DatacacheStores för varje tjänst skapas med metoderna i den register* här klassen.

Hämta ett datacachelager efter namn. Det här anropet skickar en begäran till datacache-tjänsten.

FileDataset

Representerar en samling filreferenser i datalager eller offentliga URL:er som ska användas i Azure Machine Learning.

En FileDataset definierar en serie lätt utvärderade, oföränderliga åtgärder för att läsa in data från datakällan till filströmmar. Data läses inte in från källan förrän FileDataset uppmanas att leverera data.

En FileDataset skapas med from_files hjälp av metoden för klassen FileDatasetFactory.

Mer information finns i artikeln Lägg till & registrera datauppsättningar. Information om hur du kommer igång med en fildatauppsättning finns i https://aka.ms/filedataset-samplenotebook.

Initiera FileDataset-objektet.

Konstruktorn ska inte anropas direkt. Datauppsättningen är avsedd att skapas med hjälp av FileDatasetFactory klassen.

HDFSOutputDatasetConfig

Representerar hur du matar ut till en HDFS-sökväg och befordras som en FileDataset.

Initiera en HDFSOutputDatasetConfig.

LinkFileOutputDatasetConfig

Anteckning

Det här är en experimentell klass och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.

Representerar hur du länkar utdata från en körning och befordras som en FileDataset.

Med LinkFileOutputDatasetConfig kan du länka en fildatauppsättning som utdatauppsättning


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Initiera en LinkFileOutputDatasetConfig.

LinkTabularOutputDatasetConfig

Anteckning

Det här är en experimentell klass och kan ändras när som helst. Mer information finns i https://aka.ms/azuremlexperimental.

Representerar hur du länkar utdata från en körning och befordras som en TabularDataset.

Med LinkTabularOutputDatasetConfig kan du länka en fil tabell som utdatauppsättning


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Initiera en LinkTabularOutputDatasetConfig.

OutputFileDatasetConfig

Representerar hur du kopierar utdata från en körning och befordras som en FileDataset.

Med OutputFileDatasetConfig kan du ange hur du vill att en viss lokal sökväg på beräkningsmålet ska laddas upp till det angivna målet. Om inga argument skickas till konstruktorn genererar vi automatiskt ett namn, ett mål och en lokal sökväg.

Ett exempel på att inte skicka några argument:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Ett exempel på hur du skapar utdata och sedan flyttar upp utdata till en tabelldatauppsättning och registrerar den med namnet foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Initiera en OutputFileDatasetConfig.

Med OutputFileDatasetConfig kan du ange hur du vill att en viss lokal sökväg på beräkningsmålet ska laddas upp till det angivna målet. Om inga argument skickas till konstruktorn genererar vi automatiskt ett namn, ett mål och en lokal sökväg.

Ett exempel på att inte skicka några argument:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Ett exempel på hur du skapar utdata och sedan flyttar upp utdata till en tabelldatauppsättning och registrerar den med namnet foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Representerar en tabelldatauppsättning som ska användas i Azure Machine Learning.

En TabularDataset definierar en serie lazily-utvärderade, oföränderliga åtgärder för att läsa in data från datakällan till tabellrepresentation. Data läses inte in från källan förrän TabularDataset uppmanas att leverera data.

TabularDataset skapas med metoder som from_delimited_files från TabularDatasetFactory klassen .

Mer information finns i artikeln Lägg till & registrera datauppsättningar. Information om hur du kommer igång med en tabelldatauppsättning finns i https://aka.ms/tabulardataset-samplenotebook.

Initiera ett TabularDataset-objekt.

Konstruktorn ska inte anropas direkt. Datauppsättningen är avsedd att skapas med hjälp av TabularDatasetFactory klassen .