AbstractDataset Třída
Základní třída datových sad ve službě Azure Machine Learning
Při vytváření instancí datové sady si projděte TabularDatasetFactory třídu a FileDatasetFactory třídu.
Třída AbstractDataset konstruktor.
Tento konstruktor by neměl být vyvolán přímo. Datová sada je určená k vytvoření pomocí TabularDatasetFactory třídy a FileDatasetFactory třídy.
- Dědičnost
-
builtins.objectAbstractDataset
Konstruktor
AbstractDataset()
Metody
add_tags |
Přidejte páry hodnot klíčů do slovníku značek této datové sady. |
as_named_input |
Zadejte název této datové sady, který se použije k načtení materializované datové sady za běhu. |
get_all |
Získejte všechny registrované datové sady v pracovním prostoru. |
get_by_id |
Získejte datovou sadu, která se uloží do pracovního prostoru. |
get_by_name |
Získejte zaregistrovanou datovou sadu z pracovního prostoru podle názvu registrace. |
get_partition_key_values |
Vrátí jedinečné hodnoty klíče partition_keys. ověřte, jestli je partition_keys platná podmnožina úplné sady klíčů oddílů, vrátit jedinečné hodnoty klíče partition_keys, ve výchozím nastavení se vrátí jedinečné kombinace klíčů tak, že se vezme úplná sada klíčů oddílů této datové sady, pokud je partition_keys žádná.
|
register |
Zaregistrujte datovou sadu do zadaného pracovního prostoru. |
remove_tags |
Odeberte zadané klíče ze slovníku značek této datové sady. |
unregister_all_versions |
Zrušte registraci všech verzí pod názvem registrace této datové sady z pracovního prostoru. |
update |
Proveďte místní aktualizaci datové sady. |
add_tags
Přidejte páry hodnot klíčů do slovníku značek této datové sady.
add_tags(tags=None)
Parametry
Name | Description |
---|---|
tags
Vyžadováno
|
Slovník značek, které se mají přidat. |
Návraty
Typ | Description |
---|---|
Aktualizovaný objekt datové sady. |
as_named_input
Zadejte název této datové sady, který se použije k načtení materializované datové sady za běhu.
as_named_input(name)
Parametry
Name | Description |
---|---|
name
Vyžadováno
|
Název datové sady pro spuštění. |
Návraty
Typ | Description |
---|---|
Objekt konfigurace popisující způsob materializace datové sady při spuštění. |
Poznámky
Tento název bude použitelný pouze v rámci běhu služby Azure Machine Learning. Název musí obsahovat pouze alfanumerické znaky a podtržítka, aby ho bylo možné zpřístupnit jako proměnnou prostředí. Tento název můžete použít k načtení datové sady v kontextu spuštění pomocí dvou přístupů:
Proměnná prostředí:
Název bude název proměnné prostředí a materializovaná datová sada se zpřístupní jako hodnota proměnné prostředí. Pokud se datová sada stáhne nebo připojí, bude hodnotou stažená/připojená cesta. Příklad:
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
Poznámka
Pokud je datová sada nastavená na přímý režim, bude hodnotou ID datové sady. Pak můžete
Načtení objektu datové sady provedením Dataset.get_by_id(os.environ['foo'])
Run.input_datasets:
Toto je slovník, kde klíčem bude název datové sady, který jste zadali v této metodě, a hodnotou bude materializovaná datová sada. Pro staženou a připojenou datovou sadu bude hodnotou stažená/připojená cesta. V případě přímého režimu bude hodnotou stejný objekt datové sady, který jste zadali ve skriptu pro odeslání úlohy.
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
Získejte všechny registrované datové sady v pracovním prostoru.
static get_all(workspace)
Parametry
Name | Description |
---|---|
workspace
Vyžadováno
|
Existující pracovní prostor AzureML, ve kterém byly datové sady zaregistrované. |
Návraty
Typ | Description |
---|---|
Slovník objektů TabularDataset a FileDataset s klíči podle názvu jejich registrace. |
get_by_id
Získejte datovou sadu, která se uloží do pracovního prostoru.
static get_by_id(workspace, id, **kwargs)
Parametry
Name | Description |
---|---|
workspace
Vyžadováno
|
Existující pracovní prostor AzureML, ve kterém je uložená datová sada. |
id
Vyžadováno
|
ID datové sady. |
Návraty
Typ | Description |
---|---|
Objekt datové sady. Pokud je datová sada zaregistrovaná, vrátí se také její registrační název a verze. |
get_by_name
Získejte zaregistrovanou datovou sadu z pracovního prostoru podle názvu registrace.
static get_by_name(workspace, name, version='latest', **kwargs)
Parametry
Name | Description |
---|---|
workspace
Vyžadováno
|
Existující pracovní prostor AzureML, ve kterém byla datová sada zaregistrovaná. |
name
Vyžadováno
|
Název registrace. |
version
Vyžadováno
|
Verze registrace. Výchozí hodnota je nejnovější. |
Návraty
Typ | Description |
---|---|
Zaregistrovaný objekt datové sady. |
get_partition_key_values
Vrátí jedinečné hodnoty klíče partition_keys.
ověřte, jestli je partition_keys platná podmnožina úplné sady klíčů oddílů, vrátit jedinečné hodnoty klíče partition_keys, ve výchozím nastavení se vrátí jedinečné kombinace klíčů tak, že se vezme úplná sada klíčů oddílů této datové sady, pokud je partition_keys žádná.
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
Parametry
Name | Description |
---|---|
partition_keys
Vyžadováno
|
klíče oddílů |
register
Zaregistrujte datovou sadu do zadaného pracovního prostoru.
register(workspace, name, description=None, tags=None, create_new_version=False)
Parametry
Name | Description |
---|---|
workspace
Vyžadováno
|
Pracovní prostor pro registraci datové sady. |
name
Vyžadováno
|
Název, se kterým se datová sada zaregistruje. |
description
Vyžadováno
|
Textový popis datové sady. Výchozí hodnota je Žádná. |
tags
Vyžadováno
|
Slovník značek klíčových hodnot pro datovou sadu. Výchozí hodnota je Žádná. |
create_new_version
Vyžadováno
|
Logická hodnota pro registraci datové sady jako nové verze pod zadaným názvem. |
Návraty
Typ | Description |
---|---|
Zaregistrovaný objekt datové sady. |
remove_tags
Odeberte zadané klíče ze slovníku značek této datové sady.
remove_tags(tags=None)
Parametry
Name | Description |
---|---|
tags
Vyžadováno
|
Seznam klíčů, které se mají odebrat. |
Návraty
Typ | Description |
---|---|
Aktualizovaný objekt datové sady. |
unregister_all_versions
Zrušte registraci všech verzí pod názvem registrace této datové sady z pracovního prostoru.
unregister_all_versions()
Poznámky
Operace nezmění žádná zdrojová data.
update
Proveďte místní aktualizaci datové sady.
update(description=None, tags=None)
Parametry
Name | Description |
---|---|
description
Vyžadováno
|
Nový popis, který se má použít pro datovou sadu. Tento popis nahrazuje existující popis. Výchozí hodnota je existující popis. Pokud chcete vymazat popis, zadejte prázdný řetězec. |
tags
Vyžadováno
|
Slovník značek, pomocí které se má datová sada aktualizovat. Tyto značky nahrazují existující značky pro datovou sadu. Výchozí hodnota je existující značky. Pokud chcete značky vymazat, zadejte prázdný slovník. |
Návraty
Typ | Description |
---|---|
Aktualizovaný objekt datové sady. |
Atributy
data_changed_time
Vrátí čas změny zdrojových dat.
Návraty
Typ | Description |
---|---|
Čas, kdy došlo u zdrojových dat k poslední změně. |
Poznámky
Čas změny dat je k dispozici pro souborový zdroj dat. Pokud zdroj dat není podporován pro kontrolu, kdy došlo ke změně, nebude vrácena žádná.
description
id
Vrátí identifikátor datové sady.
Návraty
Typ | Description |
---|---|
ID datové sady. Pokud se datová sada neuloží do žádného pracovního prostoru, id bude None (Žádný). |