Dotaz export do podregistru
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
- přečtěte si další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
Poznámka
platí pro: jenom Machine Learning Studio (classic)
podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.
tento článek popisuje, jak použít možnost exportovat data do podregistru v modulu export dat v Machine Learning studiu (classic). Tato možnost je užitečná, když pracujete s velmi velkými datovými sadami a chcete uložit data experimentování ve službě Machine Learning do clusteru Hadoop nebo distribuovaného úložiště HDInsight. můžete také chtít exportovat mezilehlé výsledky nebo jiná data do Hadoop, abyste je mohli zpracovat pomocí MapReduce úlohy.
Jak exportovat data do podregistru
Přidejte modul Export data do experimentu. tento modul můžete najít v kategorii vstup a výstup dat v Machine Learning studiu (classic).
Připojení modul na datovou sadu, kterou chcete exportovat.
V případě zdroje datvyberte možnost dotaz na podregistr.
Do pole název tabulky podregistru zadejte název tabulky podregistru, do které chcete datovou sadu uložit.
Do textového pole identifikátor URI serveru HCatalog zadejte plně kvalifikovaný název vašeho clusteru.
Pokud jste například vytvořili cluster s názvem
mycluster001
, použijte tento formát:https://mycluster001.azurehdinsight.net
Do textového pole název uživatelského účtu Hadoop vložte do uživatelského účtu Hadoop, který jste použili při zřizování clusteru.
Do textového pole heslo uživatelského účtu Hadoop zadejte přihlašovací údaje, které jste použili při zřizování clusteru.
Pro umístění výstupních datvyberte možnost, která určuje, kde se mají data ukládat: HDFS nebo Azure.
Pokud jsou data v systému Hadoop Distributed File System (HDFS), musí být přístupná přes stejný účet a heslo, které jste právě zadali.
Pokud jsou data v Azure, zadejte umístění a přihlašovací údaje účtu úložiště.
Pokud jste vybrali možnost HDFS pro identifikátor URI HDFS serveru, zadejte název clusteru HDInsight bez
https://
předpony.Pokud jste vybrali možnost Azure , zadejte název účtu úložiště a přihlašovací údaje, které může modul použít pro připojení k úložišti.
Název účtu služby Azure Storage: zadejte název účtu Azure. Pokud je
https://myshared.blob.core.windows.net
například úplná adresa URL účtu úložiště, zadátemyshared
.Klíč úložiště Azure: Zkopírujte a vložte klíč, který je k dispozici pro přístup k účtu úložiště.
Název kontejneru Azure: zadejte výchozí kontejner pro cluster. Tipy, jak zjistit výchozí kontejner, najdete v části technické poznámky .
Použít výsledky uložené v mezipaměti: tuto možnost vyberte, pokud chcete zabránit přepsání tabulky podregistru při každém spuštění experimentu. Pokud žádné jiné změny parametrů modulu neexistují, experiment zapisuje tabulku podregistru pouze při prvním spuštění modulu, nebo když dojde ke změně dat.
Pokud chcete zapsat tabulku podregistru při každém spuštění experimentu, zrušte výběr možnosti použít výsledky v mezipaměti .
Spusťte experiment.
Příklady
Příklady použití modulu Export dat najdete v Azure AI Gallery.
- Proces pokročilé analýzy a technologie v akci: použití clusterů HDInsight Hadoop: Tento článek poskytuje podrobný návod, jak vytvořit cluster, nahrát data a volat data z studia (Classic) pomocí podregistru.
Technické poznámky
Tato část obsahuje podrobné informace o implementaci, tipy a odpovědi na nejčastější dotazy.
Časté dotazy
Zamezení problémům při psaní velkých datových sad z paměti
v některých případech je výchozí konfigurace clusteru Hadoop moc omezená na podporu spuštění MapReduce úlohy. Například v těchto poznámkách k verzi pro HDInsight je výchozí nastavení definováno jako cluster se čtyřmi uzly.
pokud požadavky MapReduce úlohy překračují dostupnou kapacitu, mohou dotazy na podregistr vracet nepotřebnou chybovou zprávu, která způsobí selhání operace exportu dat . Pokud k tomu dojde, můžete změnit výchozí přidělení paměti pro dotazy na podregistr.
Jak se vyhnout opakovanému načítání stejných dat zbytečně
Pokud nechcete znovu vytvořit tabulku podregistru pokaždé, když spustíte experiment, vyberte možnost použít výsledky v mezipaměti na hodnotu true. Pokud je tato možnost nastavena na hodnotu TRUE, modul zkontroluje, zda byl experiment spuštěn dříve a v případě, že byl nalezen předchozí běh, není provedena operace zápisu.
Tipy k použití
Pro cluster může být obtížné zjistit výchozí kontejner. Tady je několik tipů:
Pokud jste vytvořili cluster pomocí výchozího nastavení, vytvořil se kontejner se stejným názvem ve stejném okamžiku, kdy byl cluster vytvořen. Tento kontejner je výchozím kontejnerem pro cluster.
Pokud jste cluster vytvořili pomocí možnosti vlastní vytvoření , měli byste mít dvě možnosti pro výběr výchozího kontejneru.
Existující kontejner: Pokud jste vybrali existující kontejner, je tento kontejner výchozím kontejnerem úložiště pro cluster.
Vytvořit výchozí kontejner: Pokud jste vybrali tuto možnost, vytvořil se kontejner se stejným názvem, jako má cluster, a tento název kontejneru byste měli zadat jako výchozí kontejner pro cluster.
Parametry modulu
Name | Rozsah | Typ | Výchozí | Description |
---|---|---|---|---|
Zdroj dat | Seznam | Zdroj dat nebo jímka | Azure Blob Storage | zdroj dat může být HTTP, FTP, anonymní HTTPS nebo FTPS, soubor ve službě azure BLOB storage, tabulka azure, Azure SQL Database, tabulka podregistru nebo datový bod OData. |
Název tabulky podregistru | Libovolný | Řetězec | žádné | Název tabulky v podregistru |
Identifikátor URI serveru HCatalog | Libovolný | Řetězec | žádné | Koncový bod Templeton |
Název uživatelského účtu Hadoop | Libovolný | Řetězec | žádné | Uživatelské jméno pro Hadoop HDFS/HDInsight |
Heslo uživatelského účtu Hadoop | Libovolný | SecureString | žádné | Heslo pro Hadoop HDFS/HDInsight |
Umístění výstupních dat | Libovolný | Umístění datalocation | HDFS | Zadejte HDFS nebo Azure pro outputDir |
Identifikátor URI serveru HDFS | Libovolný | Řetězec | žádné | HDFS – koncový bod REST |
Azure storage account name | Libovolný | Řetězec | žádné | Azure storage account name |
Klíč úložiště Azure | Libovolný | SecureString | žádné | Klíč úložiště Azure |
Název kontejneru Azure | Libovolný | Řetězec | žádné | Název kontejneru Azure |
Použití výsledků uložených v mezipaměti | TRUE NEBO FALSE | Logická hodnota | FALSE | Modul se spustí pouze v případě, že neexistuje platná mezipaměť. Jinak použijte data uložená v mezipaměti z předchozího spuštění. |
Výjimky
Výjimka | Description |
---|---|
Chyba 0027 | K výjimce dojde, pokud musí být dva objekty stejné velikosti, ale nejsou. |
Chyba 0003 | K výjimce dojde v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdné. |
Chyba 0029 | K výjimce dojde, pokud je předán neplatný identifikátor URI. |
Chyba 0030 | v případě, že není možné stáhnout soubor, dojde k výjimce. |
Chyba 0,002 | K výjimce dojde v případě, že jeden nebo více parametrů nelze analyzovat nebo převést ze zadaného typu na typ vyžadovaný cílovou metodou. |
Chyba 0009 | Pokud je název účtu služby Azure Storage nebo název kontejneru nesprávně zadán, dojde k výjimce. |
Chyba 0048 | Pokud není možné otevřít soubor, dojde k výjimce. |
Chyba 0046 | K výjimce dojde, pokud není možné vytvořit adresář v zadané cestě. |
Chyba 0049 | Pokud není možné analyzovat soubor, dojde k výjimce. |
seznam chyb, které jsou specifické pro moduly studia (classic), najdete v článku kódy chyb Machine Learning.
seznam výjimek rozhraní API najdete v tématu Machine Learning REST API chybové kódy.
Viz také
Import dat
Exportovat data
Exportovat do Azure SQL Database
Exportovat do Azure Blob Storage
Exportovat do tabulky Azure