Sdílet prostřednictvím


Dotaz export do podregistru

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

tento článek popisuje, jak použít možnost exportovat data do podregistru v modulu export dat v Machine Learning studiu (classic). Tato možnost je užitečná, když pracujete s velmi velkými datovými sadami a chcete uložit data experimentování ve službě Machine Learning do clusteru Hadoop nebo distribuovaného úložiště HDInsight. můžete také chtít exportovat mezilehlé výsledky nebo jiná data do Hadoop, abyste je mohli zpracovat pomocí MapReduce úlohy.

Jak exportovat data do podregistru

  1. Přidejte modul Export data do experimentu. tento modul můžete najít v kategorii vstup a výstup dat v Machine Learning studiu (classic).

    Připojení modul na datovou sadu, kterou chcete exportovat.

  2. V případě zdroje datvyberte možnost dotaz na podregistr.

  3. Do pole název tabulky podregistru zadejte název tabulky podregistru, do které chcete datovou sadu uložit.

  4. Do textového pole identifikátor URI serveru HCatalog zadejte plně kvalifikovaný název vašeho clusteru.

    Pokud jste například vytvořili cluster s názvem mycluster001 , použijte tento formát:

    https://mycluster001.azurehdinsight.net

  5. Do textového pole název uživatelského účtu Hadoop vložte do uživatelského účtu Hadoop, který jste použili při zřizování clusteru.

  6. Do textového pole heslo uživatelského účtu Hadoop zadejte přihlašovací údaje, které jste použili při zřizování clusteru.

  7. Pro umístění výstupních datvyberte možnost, která určuje, kde se mají data ukládat: HDFS nebo Azure.

    Pokud jsou data v systému Hadoop Distributed File System (HDFS), musí být přístupná přes stejný účet a heslo, které jste právě zadali.

    Pokud jsou data v Azure, zadejte umístění a přihlašovací údaje účtu úložiště.

  8. Pokud jste vybrali možnost HDFS pro identifikátor URI HDFS serveru, zadejte název clusteru HDInsight bez https:// předpony.

  9. Pokud jste vybrali možnost Azure , zadejte název účtu úložiště a přihlašovací údaje, které může modul použít pro připojení k úložišti.

    • Název účtu služby Azure Storage: zadejte název účtu Azure. Pokud je https://myshared.blob.core.windows.net například úplná adresa URL účtu úložiště, zadáte myshared .

    • Klíč úložiště Azure: Zkopírujte a vložte klíč, který je k dispozici pro přístup k účtu úložiště.

    • Název kontejneru Azure: zadejte výchozí kontejner pro cluster. Tipy, jak zjistit výchozí kontejner, najdete v části technické poznámky .

  10. Použít výsledky uložené v mezipaměti: tuto možnost vyberte, pokud chcete zabránit přepsání tabulky podregistru při každém spuštění experimentu. Pokud žádné jiné změny parametrů modulu neexistují, experiment zapisuje tabulku podregistru pouze při prvním spuštění modulu, nebo když dojde ke změně dat.

    Pokud chcete zapsat tabulku podregistru při každém spuštění experimentu, zrušte výběr možnosti použít výsledky v mezipaměti .

  11. Spusťte experiment.

Příklady

Příklady použití modulu Export dat najdete v Azure AI Gallery.

Technické poznámky

Tato část obsahuje podrobné informace o implementaci, tipy a odpovědi na nejčastější dotazy.

Časté dotazy

Zamezení problémům při psaní velkých datových sad z paměti

v některých případech je výchozí konfigurace clusteru Hadoop moc omezená na podporu spuštění MapReduce úlohy. Například v těchto poznámkách k verzi pro HDInsight je výchozí nastavení definováno jako cluster se čtyřmi uzly.

pokud požadavky MapReduce úlohy překračují dostupnou kapacitu, mohou dotazy na podregistr vracet nepotřebnou chybovou zprávu, která způsobí selhání operace exportu dat . Pokud k tomu dojde, můžete změnit výchozí přidělení paměti pro dotazy na podregistr.

Jak se vyhnout opakovanému načítání stejných dat zbytečně

Pokud nechcete znovu vytvořit tabulku podregistru pokaždé, když spustíte experiment, vyberte možnost použít výsledky v mezipaměti na hodnotu true. Pokud je tato možnost nastavena na hodnotu TRUE, modul zkontroluje, zda byl experiment spuštěn dříve a v případě, že byl nalezen předchozí běh, není provedena operace zápisu.

Tipy k použití

Pro cluster může být obtížné zjistit výchozí kontejner. Tady je několik tipů:

  • Pokud jste vytvořili cluster pomocí výchozího nastavení, vytvořil se kontejner se stejným názvem ve stejném okamžiku, kdy byl cluster vytvořen. Tento kontejner je výchozím kontejnerem pro cluster.

  • Pokud jste cluster vytvořili pomocí možnosti vlastní vytvoření , měli byste mít dvě možnosti pro výběr výchozího kontejneru.

    Existující kontejner: Pokud jste vybrali existující kontejner, je tento kontejner výchozím kontejnerem úložiště pro cluster.

    Vytvořit výchozí kontejner: Pokud jste vybrali tuto možnost, vytvořil se kontejner se stejným názvem, jako má cluster, a tento název kontejneru byste měli zadat jako výchozí kontejner pro cluster.

Parametry modulu

Name Rozsah Typ Výchozí Description
Zdroj dat Seznam Zdroj dat nebo jímka Azure Blob Storage zdroj dat může být HTTP, FTP, anonymní HTTPS nebo FTPS, soubor ve službě azure BLOB storage, tabulka azure, Azure SQL Database, tabulka podregistru nebo datový bod OData.
Název tabulky podregistru Libovolný Řetězec žádné Název tabulky v podregistru
Identifikátor URI serveru HCatalog Libovolný Řetězec žádné Koncový bod Templeton
Název uživatelského účtu Hadoop Libovolný Řetězec žádné Uživatelské jméno pro Hadoop HDFS/HDInsight
Heslo uživatelského účtu Hadoop Libovolný SecureString žádné Heslo pro Hadoop HDFS/HDInsight
Umístění výstupních dat Libovolný Umístění datalocation HDFS Zadejte HDFS nebo Azure pro outputDir
Identifikátor URI serveru HDFS Libovolný Řetězec žádné HDFS – koncový bod REST
Azure storage account name Libovolný Řetězec žádné Azure storage account name
Klíč úložiště Azure Libovolný SecureString žádné Klíč úložiště Azure
Název kontejneru Azure Libovolný Řetězec žádné Název kontejneru Azure
Použití výsledků uložených v mezipaměti TRUE NEBO FALSE Logická hodnota FALSE Modul se spustí pouze v případě, že neexistuje platná mezipaměť. Jinak použijte data uložená v mezipaměti z předchozího spuštění.

Výjimky

Výjimka Description
Chyba 0027 K výjimce dojde, pokud musí být dva objekty stejné velikosti, ale nejsou.
Chyba 0003 K výjimce dojde v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdné.
Chyba 0029 K výjimce dojde, pokud je předán neplatný identifikátor URI.
Chyba 0030 v případě, že není možné stáhnout soubor, dojde k výjimce.
Chyba 0,002 K výjimce dojde v případě, že jeden nebo více parametrů nelze analyzovat nebo převést ze zadaného typu na typ vyžadovaný cílovou metodou.
Chyba 0009 Pokud je název účtu služby Azure Storage nebo název kontejneru nesprávně zadán, dojde k výjimce.
Chyba 0048 Pokud není možné otevřít soubor, dojde k výjimce.
Chyba 0046 K výjimce dojde, pokud není možné vytvořit adresář v zadané cestě.
Chyba 0049 Pokud není možné analyzovat soubor, dojde k výjimce.

seznam chyb, které jsou specifické pro moduly studia (classic), najdete v článku kódy chyb Machine Learning.

seznam výjimek rozhraní API najdete v tématu Machine Learning REST API chybové kódy.

Viz také

Import dat
Exportovat data
Exportovat do Azure SQL Database
Exportovat do Azure Blob Storage
Exportovat do tabulky Azure