Sdílet prostřednictvím


AbstractDataset Třída

Základní třída datových sad ve službě Azure Machine Learning

Při vytváření instancí datové sady si projděte TabularDatasetFactory třídu a FileDatasetFactory třídu.

Třída AbstractDataset konstruktor.

Tento konstruktor by neměl být vyvolán přímo. Datová sada je určená k vytvoření pomocí TabularDatasetFactory třídy a FileDatasetFactory třídy.

Dědičnost
builtins.object
AbstractDataset

Konstruktor

AbstractDataset()

Metody

add_tags

Přidejte páry hodnot klíčů do slovníku značek této datové sady.

as_named_input

Zadejte název této datové sady, který se použije k načtení materializované datové sady za běhu.

get_all

Získejte všechny registrované datové sady v pracovním prostoru.

get_by_id

Získejte datovou sadu, která se uloží do pracovního prostoru.

get_by_name

Získejte zaregistrovanou datovou sadu z pracovního prostoru podle názvu registrace.

get_partition_key_values

Vrátí jedinečné hodnoty klíče partition_keys.

ověřte, jestli je partition_keys platná podmnožina úplné sady klíčů oddílů, vrátit jedinečné hodnoty klíče partition_keys, ve výchozím nastavení se vrátí jedinečné kombinace klíčů tak, že se vezme úplná sada klíčů oddílů této datové sady, pokud je partition_keys žádná.


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
register

Zaregistrujte datovou sadu do zadaného pracovního prostoru.

remove_tags

Odeberte zadané klíče ze slovníku značek této datové sady.

unregister_all_versions

Zrušte registraci všech verzí pod názvem registrace této datové sady z pracovního prostoru.

update

Proveďte místní aktualizaci datové sady.

add_tags

Přidejte páry hodnot klíčů do slovníku značek této datové sady.

add_tags(tags=None)

Parametry

Name Description
tags
Vyžadováno

Slovník značek, které se mají přidat.

Návraty

Typ Description

Aktualizovaný objekt datové sady.

as_named_input

Zadejte název této datové sady, který se použije k načtení materializované datové sady za běhu.

as_named_input(name)

Parametry

Name Description
name
Vyžadováno
str

Název datové sady pro spuštění.

Návraty

Typ Description

Objekt konfigurace popisující způsob materializace datové sady při spuštění.

Poznámky

Tento název bude použitelný pouze v rámci běhu služby Azure Machine Learning. Název musí obsahovat pouze alfanumerické znaky a podtržítka, aby ho bylo možné zpřístupnit jako proměnnou prostředí. Tento název můžete použít k načtení datové sady v kontextu spuštění pomocí dvou přístupů:

  • Proměnná prostředí:

    Název bude název proměnné prostředí a materializovaná datová sada se zpřístupní jako hodnota proměnné prostředí. Pokud se datová sada stáhne nebo připojí, bude hodnotou stažená/připojená cesta. Příklad:


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

Poznámka

Pokud je datová sada nastavená na přímý režim, bude hodnotou ID datové sady. Pak můžete

Načtení objektu datové sady provedením Dataset.get_by_id(os.environ['foo'])

  • Run.input_datasets:

    Toto je slovník, kde klíčem bude název datové sady, který jste zadali v této metodě, a hodnotou bude materializovaná datová sada. Pro staženou a připojenou datovou sadu bude hodnotou stažená/připojená cesta. V případě přímého režimu bude hodnotou stejný objekt datové sady, který jste zadali ve skriptu pro odeslání úlohy.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

Získejte všechny registrované datové sady v pracovním prostoru.

static get_all(workspace)

Parametry

Name Description
workspace
Vyžadováno

Existující pracovní prostor AzureML, ve kterém byly datové sady zaregistrované.

Návraty

Typ Description

Slovník objektů TabularDataset a FileDataset s klíči podle názvu jejich registrace.

get_by_id

Získejte datovou sadu, která se uloží do pracovního prostoru.

static get_by_id(workspace, id, **kwargs)

Parametry

Name Description
workspace
Vyžadováno

Existující pracovní prostor AzureML, ve kterém je uložená datová sada.

id
Vyžadováno
str

ID datové sady.

Návraty

Typ Description

Objekt datové sady. Pokud je datová sada zaregistrovaná, vrátí se také její registrační název a verze.

get_by_name

Získejte zaregistrovanou datovou sadu z pracovního prostoru podle názvu registrace.

static get_by_name(workspace, name, version='latest', **kwargs)

Parametry

Name Description
workspace
Vyžadováno

Existující pracovní prostor AzureML, ve kterém byla datová sada zaregistrovaná.

name
Vyžadováno
str

Název registrace.

version
Vyžadováno
int

Verze registrace. Výchozí hodnota je nejnovější.

Návraty

Typ Description

Zaregistrovaný objekt datové sady.

get_partition_key_values

Vrátí jedinečné hodnoty klíče partition_keys.

ověřte, jestli je partition_keys platná podmnožina úplné sady klíčů oddílů, vrátit jedinečné hodnoty klíče partition_keys, ve výchozím nastavení se vrátí jedinečné kombinace klíčů tak, že se vezme úplná sada klíčů oddílů této datové sady, pokud je partition_keys žádná.


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)

Parametry

Name Description
partition_keys
Vyžadováno

klíče oddílů

register

Zaregistrujte datovou sadu do zadaného pracovního prostoru.

register(workspace, name, description=None, tags=None, create_new_version=False)

Parametry

Name Description
workspace
Vyžadováno

Pracovní prostor pro registraci datové sady.

name
Vyžadováno
str

Název, se kterým se datová sada zaregistruje.

description
Vyžadováno
str

Textový popis datové sady. Výchozí hodnota je Žádná.

tags
Vyžadováno

Slovník značek klíčových hodnot pro datovou sadu. Výchozí hodnota je Žádná.

create_new_version
Vyžadováno

Logická hodnota pro registraci datové sady jako nové verze pod zadaným názvem.

Návraty

Typ Description

Zaregistrovaný objekt datové sady.

remove_tags

Odeberte zadané klíče ze slovníku značek této datové sady.

remove_tags(tags=None)

Parametry

Name Description
tags
Vyžadováno

Seznam klíčů, které se mají odebrat.

Návraty

Typ Description

Aktualizovaný objekt datové sady.

unregister_all_versions

Zrušte registraci všech verzí pod názvem registrace této datové sady z pracovního prostoru.

unregister_all_versions()

Poznámky

Operace nezmění žádná zdrojová data.

update

Proveďte místní aktualizaci datové sady.

update(description=None, tags=None)

Parametry

Name Description
description
Vyžadováno
str

Nový popis, který se má použít pro datovou sadu. Tento popis nahrazuje existující popis. Výchozí hodnota je existující popis. Pokud chcete vymazat popis, zadejte prázdný řetězec.

tags
Vyžadováno

Slovník značek, pomocí které se má datová sada aktualizovat. Tyto značky nahrazují existující značky pro datovou sadu. Výchozí hodnota je existující značky. Pokud chcete značky vymazat, zadejte prázdný slovník.

Návraty

Typ Description

Aktualizovaný objekt datové sady.

Atributy

data_changed_time

Vrátí čas změny zdrojových dat.

Návraty

Typ Description

Čas, kdy došlo u zdrojových dat k poslední změně.

Poznámky

Čas změny dat je k dispozici pro souborový zdroj dat. Pokud zdroj dat není podporován pro kontrolu, kdy došlo ke změně, nebude vrácena žádná.

description

Vraťte popis registrace.

Návraty

Typ Description
str

Popis datové sady.

id

Vrátí identifikátor datové sady.

Návraty

Typ Description
str

ID datové sady. Pokud se datová sada neuloží do žádného pracovního prostoru, id bude None (Žádný).

name

Vraťte název registrace.

Návraty

Typ Description
str

Název datové sady.

partition_keys

Vraťte klíče oddílů.

Návraty

Typ Description

klíče oddílů

tags

Vraťte registrační značky.

Návraty

Typ Description
str

Značky datové sady.

version

Vraťte verzi registrace.

Návraty

Typ Description
int

Verze datové sady.