data Pacchetto

Riferimento

Contiene moduli che supportano la rappresentazione dei dati per l'archivio dati e il set di dati in Azure Machine Learning.

Questo pacchetto contiene le funzionalità di base che supportano Datastore le classi e Dataset nel core pacchetto. Gli oggetti archivio dati contengono informazioni di connessione ai servizi di archiviazione di Azure a cui è possibile fare facilmente riferimento in base al nome senza la necessità di lavorare direttamente con le informazioni di connessione hardcoded negli script. L'archivio dati supporta diversi servizi rappresentati da classi in questo pacchetto, tra cui AzureBlobDatastore, AzureFileDatastoree AzureDataLakeDatastore. Per un elenco completo dei servizi di archiviazione supportati, vedere la Datastore classe .

Mentre un archivio dati funge da contenitore per i file di dati, è possibile considerare un set di dati come riferimento o puntatore a dati specifici presenti nell'archivio dati. Sono supportati i tipi di set di dati seguenti:

TabularDataset rappresenta i dati in formato di tabella creati analizzando il file o l'elenco di file fornito.
FileDataset fa riferimento a uno o più file negli archivi dati o negli URL pubblici.

Per altre informazioni, vedere l'articolo Aggiungere & registrare i set di dati. Per iniziare a usare un set di dati, vedere https://aka.ms/tabulardataset-samplenotebook e https://aka.ms/filedataset-samplenotebook.

Moduli

abstract_dataset	Contiene la classe di base astratta per i set di dati in Azure Machine Learning.
abstract_datastore	Contiene la funzionalità di base per gli archivi dati che salvano le informazioni di connessione ai servizi di archiviazione di Azure.
azure_data_lake_datastore	Contiene la funzionalità di base per gli archivi dati che salvano le informazioni di connessione in Azure Data Lake Storage.
azure_my_sql_datastore	Contiene la funzionalità di base per gli archivi dati che salvano le informazioni di connessione in Database di Azure per MySQL.
azure_postgre_sql_datastore	Contiene la funzionalità di base per gli archivi dati che salvano le informazioni di connessione in Database di Azure per PostgreSQL.
azure_sql_database_datastore	Contiene la funzionalità di base per gli archivi dati che salvano le informazioni di connessione nel database Azure SQL.
azure_storage_datastore	Contiene funzionalità per gli archivi dati che salvano le informazioni di connessione nel BLOB di Azure e nell'archiviazione file di Azure.
constants	Costanti usate nel pacchetto azureml.data. Solo per uso interno.
context_managers	Contiene funzionalità per gestire il contesto dei dati degli archivi dati e dei set di dati. Solo per uso interno.
data_reference	Contiene funzionalità che definisce come creare riferimenti ai dati negli archivi dati.
datacache	Contiene funzionalità per la gestione di DatacacheStore e Datacache in Azure Machine Learning.
datacache_client	Solo per uso interno.
datacache_consumption_config	Contiene funzionalità per la configurazione dell'utilizzo di DataCache.
datacache_singularity_settings	Contiene oggetti necessari per la rappresentazione delle impostazioni di Singolarità di Datacache.
datapath	Contiene funzionalità per creare riferimenti ai dati negli archivi dati. Questo modulo contiene la classe, che rappresenta la DataPath posizione dei dati e la DataPathComputeBinding classe, che rappresenta il modo in cui i dati vengono resi disponibili nelle destinazioni di calcolo.
dataset_action_run	Contiene funzionalità che gestiscono l'esecuzione delle azioni del set di dati. Questo modulo offre metodi pratici per la creazione di azioni del set di dati e ottenere i risultati dopo il completamento.
dataset_consumption_config	Contiene funzionalità per la configurazione dell'utilizzo del set di dati.
dataset_definition	Contiene funzionalità per gestire la definizione del set di dati e le relative operazioni. Nota Questo modulo è deprecato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
dataset_error_handling	Contiene eccezioni per la gestione degli errori del set di dati in Azure Machine Learning.
dataset_factory	Contiene funzionalità per creare set di dati per Azure Machine Learning.
dataset_profile	Classe per la raccolta di statistiche di riepilogo sui dati generati da un flusso di dati. La funzionalità in questo modulo include la raccolta di informazioni relative all'esecuzione del profilo, indipendentemente dal fatto che il profilo sia non aggiornato o meno.
dataset_profile_run	Contiene la configurazione per l'esecuzione del profilo del set di dati di monitoraggio in Azure Machine Learning. La funzionalità in questo modulo include la gestione e l'esecuzione del profilo del set di dati di monitoraggio associati a un oggetto esperimento e a un singolo ID esecuzione.
dataset_profile_run_config	Contiene la configurazione per generare il riepilogo delle statistiche dei set di dati in Azure Machine Learning. La funzionalità in questo modulo include metodi per l'invio dell'esecuzione del profilo locale o remoto e la visualizzazione del risultato dell'esecuzione del profilo inviato.
dataset_snapshot	Contiene funzionalità per gestire le operazioni snapshot del set di dati. Nota Questo modulo è deprecato. Per altre informazioni, vedere https://aka.ms/dataset-deprecation.
dataset_type_definitions	Contiene valori di enumerazione usati con Dataset.
datastore_client	Solo per uso interno.
dbfs_datastore	Contiene funzionalità per gli archivi dati che salvano le informazioni di connessione nel file Sytem (DBFS) di Databricks.
file_dataset	Contiene funzionalità per fare riferimento a singoli o più file negli archivi dati o negli URL pubblici. Per altre informazioni, vedere l'articolo Aggiungere set di dati di registrazione &. Per iniziare a usare un set di dati di file, vedere https://aka.ms/filedataset-samplenotebook.
hdfs_datastore	Contiene la funzionalità di base per gli archivi dati che salvano le informazioni di connessione in un cluster HDFS.
output_dataset_config	Contiene configurazioni che specificano la modalità di caricamento e innalzamento di livello degli output per un processo in un set di dati. Per altre informazioni, vedere l'articolo su come specificare gli output.
sql_data_reference	Contiene la funzionalità per la creazione di riferimenti ai dati negli archivi dati che salvano le informazioni di connessione nei database SQL.
stored_procedure_parameter	Contiene funzionalità per la creazione di un parametro da passare a una stored procedure SQL.
tabular_dataset	Contiene la funzionalità per rappresentare i dati in un formato tabulare analizzando il file o l'elenco di file forniti. Per altre informazioni, vedere l'articolo Aggiungere & registrare i set di dati. Per iniziare a usare un set di dati tabulare, vedere https://aka.ms/tabulardataset-samplenotebook.

Classi

DataType	Configura i tipi di dati di colonna per un set di dati creato in Azure Machine Learning. I metodi DataType vengono usati nei metodi della TabularDatasetFactory classe `from_*` , usati per creare nuovi oggetti TabularDataset.
DatacacheStore	Nota Si tratta di una classe sperimentale e può cambiare in qualsiasi momento. Per altre informazioni, vedere https://aka.ms/azuremlexperimental. Rappresenta un'astrazione dell'archiviazione su un account di archiviazione di Azure Machine Learning. I datacacheStore sono collegati alle aree di lavoro e vengono usati per archiviare informazioni correlate alla soluzione datacache sottostante. Attualmente è supportata solo la soluzione BLOB partizionata. Datacachestores definisce vari archivi dati BLOB che possono essere usati per la memorizzazione nella cache. Usare questa classe per eseguire operazioni di gestione, tra cui registrare, elencare, ottenere e aggiornare i datacachestore. I datacacheStore per ogni servizio vengono creati con i `register*` metodi di questa classe. Ottenere un archivio datacache per nome. Questa chiamata effettua una richiesta al servizio datacache.
FileDataset	Rappresenta una raccolta di riferimenti ai file negli archivi dati o negli URL pubblici da usare in Azure Machine Learning. Un FileDataset definisce una serie di operazioni valutate in modo non modificabile per caricare i dati dall'origine dati nei flussi di file. I dati non vengono caricati dall'origine finché Non viene richiesto a FileDataset di recapitare i dati. Viene creato un FileDataset usando il from_files metodo della classe FileDatasetFactory. Per altre informazioni, vedere l'articolo Aggiungere set di dati di registrazione &. Per iniziare a usare un set di dati di file, vedere https://aka.ms/filedataset-samplenotebook. Inizializzare l'oggetto FileDataset. Questo costruttore non dovrebbe essere richiamato direttamente. Il set di dati deve essere creato usando FileDatasetFactory la classe .
HDFSOutputDatasetConfig	Rappresentare come restituire un percorso HDFS e essere promosso come FileDataset. Inizializzare un hdFSOutputDatasetConfig.
LinkFileOutputDatasetConfig	Nota Si tratta di una classe sperimentale e può cambiare in qualsiasi momento. Per altre informazioni, vedere https://aka.ms/azuremlexperimental. Rappresentare come collegare l'output di un'esecuzione e essere promosso come FileDataset. LinkFileOutputDatasetConfig consente di collegare un set di dati di file come set di dati di output workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkFileOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) Inizializzare un linkFileOutputDatasetConfig.
LinkTabularOutputDatasetConfig	Nota Si tratta di una classe sperimentale e può cambiare in qualsiasi momento. Per altre informazioni, vedere https://aka.ms/azuremlexperimental. Rappresentare come collegare l'output di un'esecuzione e essere promosso come TabularDataset. LinkTabularOutputDatasetConfig consente di collegare un file tabulare come set di dati di output workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkTabularOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) Inizializzare un oggetto LinkTabularOutputDatasetConfig.
OutputFileDatasetConfig	Rappresentare come copiare l'output di un'esecuzione ed essere alzato di livello come FileDataset. OutputFileDatasetConfig consente di specificare la modalità di caricamento di un determinato percorso locale nella destinazione di calcolo nella destinazione specificata. Se al costruttore non vengono passati argomenti, verrà generato automaticamente un nome, una destinazione e un percorso locale. Esempio di mancata trasmissione di argomenti: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Esempio di creazione di un output, quindi innalzamento di livello dell'output in un set di dati tabulare e registrarlo con il nome foo: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Inizializzare un oggetto OutputFileDatasetConfig. OutputFileDatasetConfig consente di specificare la modalità di caricamento di un determinato percorso locale nella destinazione di calcolo nella destinazione specificata. Se al costruttore non vengono passati argomenti, verrà generato automaticamente un nome, una destinazione e un percorso locale. Esempio di mancata trasmissione di argomenti: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Esempio di creazione di un output, quindi innalzamento di livello dell'output in un set di dati tabulare e registrarlo con il nome foo: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)`
TabularDataset	Rappresenta un set di dati tabulare da usare in Azure Machine Learning. Un oggetto TabularDataset definisce una serie di operazioni di valutazione differimento non modificabili per caricare i dati dall'origine dati in rappresentazione tabulare. I dati non vengono caricati dall'origine fino a quando non viene richiesto a TabularDataset di recapitare i dati. TabularDataset viene creato usando metodi come from_delimited_files dalla TabularDatasetFactory classe . Per altre informazioni, vedere l'articolo Aggiungere & registrare i set di dati. Per iniziare a usare un set di dati tabulare, vedere https://aka.ms/tabulardataset-samplenotebook. Inizializzare un oggetto TabularDataset. Questo costruttore non deve essere richiamato direttamente. Il set di dati deve essere creato usando TabularDatasetFactory la classe .

Condividi tramite

data Pacchetto

Moduli

Classi

Commenti e suggerimenti

Risorse aggiuntive