V tomto článku se dozvíte, jak importovat data do platformy Azure Machine Learning z externích zdrojů. Úspěšný import dat automaticky vytvoří a zaregistruje datový prostředek služby Azure Machine Learning s názvem zadaným během tohoto importu. Datový prostředek služby Azure Machine Learning se podobá záložce webového prohlížeče (oblíbené položky). Nemusíte si pamatovat dlouhé cesty k úložišti (URI), které odkazují na nejčastěji používaná data. Místo toho můžete vytvořit datový asset a pak k němu přistupovat s popisným názvem.
Import dat vytvoří mezipaměť zdrojových dat spolu s metadaty pro rychlejší a spolehlivý přístup k datům v trénovacích úlohách služby Azure Machine Learning. Mezipaměť dat zabraňuje omezením sítě a připojení. Data uložená v mezipaměti jsou verze, aby byla podporována reprodukovatelnost. To poskytuje možnosti správy verzí pro data importovaná ze zdrojů SQL Serveru. Kromě toho data uložená v mezipaměti poskytují rodokmen dat pro úlohy auditování. Import dat používá na pozadí kanály ADF (kanály Azure Data Factory), což znamená, že uživatelé se můžou vyhnout složitým interakcím s ADF. Azure Machine Learning na pozadí také zpracovává správu velikosti fondu výpočetních prostředků ADF, zřizování výpočetních prostředků a odstraňování, aby se optimalizoval přenos dat určením správné paralelizace.
Přenášená data se rozdělují a bezpečně ukládají jako soubory parquet v úložišti Azure. To umožňuje rychlejší zpracování během trénování. Náklady na výpočetní prostředky ADF zahrnují jenom čas používaný pro přenosy dat. Náklady na úložiště zahrnují jenom čas potřebný k ukládání dat do mezipaměti, protože data uložená v mezipaměti představují kopii dat importovaných z externího zdroje. Azure Storage hostuje tento externí zdroj.
Funkce ukládání do mezipaměti zahrnuje počáteční náklady na výpočetní prostředky a úložiště. Platí za sebe a může ušetřit peníze, protože snižuje náklady na opakované trénování výpočetních prostředků v porovnání s přímými připojeními k externím zdrojovým datům během trénování. Ukládá data do mezipaměti jako soubory parquet, díky čemuž je trénování úloh rychlejší a spolehlivější oproti vypršení časového limitu připojení u větších datových sad. To vede k menšímu počtu opakovaných spuštění a menšímu počtu selhání trénování.
Data můžete importovat z AmazonU S3, Azure SQL a Snowflake.
Důležité
Tato funkce je v současné době ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti.
Pro úspěšný import dat ověřte, že jste nainstalovali nejnovější balíček azure-ai-ml (verze 1.15.0 nebo novější) pro sadu SDK a rozšíření ml (verze 2.15.1 nebo novější).
Pokud máte starší balíček sady SDK nebo rozšíření rozhraní příkazového řádku, odeberte starý balíček nebo rozšíření rozhraní příkazového řádku a nainstalujte nový balíček s kódem zobrazeným v části karta. Postupujte podle pokynů pro sadu SDK a rozhraní příkazového řádku, jak je znázorněno tady:
az extension remove -n ml
az extension add -n ml --yes
az extension show -n ml #(the version value needs to be 2.15.1 or later)
pip install azure-ai-ml
pip show azure-ai-ml #(the version value needs to be 1.15.0 or later)
Není k dispozici.
Import z externí databáze jako datového prostředku mltable
Poznámka:
Externí databáze můžou mít formáty Snowflake, Azure SQL atd.
Následující ukázky kódu můžou importovat data z externích databází. Akce connection importu určuje metadata zdroje dat externí databáze. V této ukázce kód importuje data z prostředku Snowflake. Spojení odkazuje na zdroj Snowflake. S trochou změn může připojení odkazovat na zdroj databáze Azure SQL a zdroj databáze Azure SQL. Importovaný prostředek type z externího zdroje databáze je mltable.
V části Prostředky v levém navigačním panelu vyberte Data. Dále vyberte kartu Import dat. Pak vyberte Vytvořit, jak je znázorněno na tomto snímku obrazovky:
Na obrazovce Zdroj dat vyberte Snowflake a pak vyberte Další, jak je znázorněno na tomto snímku obrazovky:
Na obrazovce Datový typ vyplňte hodnoty. Výchozí hodnota typu je Tabulka (mltable). Pak vyberte Další, jak je znázorněno na tomto snímku obrazovky:
Na obrazovce Vytvořit import dat vyplňte hodnoty a vyberte Další, jak je znázorněno na tomto snímku obrazovky:
Vyplňte hodnoty na obrazovce Zvolit úložiště dat pro výstup a vyberte Další, jak je znázorněno na tomto snímku obrazovky. Úložiště spravovaných dat pracovního prostoru je ve výchozím nastavení vybrané. Při výběru spravovaného úložiště dat se cesta automaticky přiřadí systému. Pokud vyberete úložiště dat spravovaných pracovním prostorem, zobrazí se rozevírací seznam Nastavení automatického odstranění. Ve výchozím nastavení nabízí časové období odstranění dat o 30 dnech a způsob správy importovaných datových prostředků vysvětluje, jak tuto hodnotu změnit.
Poznámka:
Pokud chcete zvolit vlastní úložiště dat, vyberte Jiné úložiště dat. V takovém případě musíte vybrat cestu pro umístění mezipaměti dat.
Můžete přidat plán. Vyberte Přidat plán , jak je znázorněno na tomto snímku obrazovky:
Otevře se nový panel, kde můžete definovat plán opakování nebo plán Cron . Tento snímek obrazovky ukazuje panel plánu opakování :
Název: jedinečný identifikátor plánu v rámci pracovního prostoru.
Popis: popis plánu.
Aktivační událost: způsob opakování plánu, který zahrnuje následující vlastnosti.
Časové pásmo: Výpočet času triggeru je založený na tomto časovém pásmu; (UTC) Ve výchozím nastavení je koordinovaný univerzální čas.
Opakování nebo výraz Cron: vyberte opakování a určete opakující se vzor. V části Opakování můžete určit frekvenci opakování – podle minut, hodin, dnů, týdnů nebo měsíců.
Začátek: Plán se nejprve aktivuje k tomuto datu. Ve výchozím nastavení datum vytvoření tohoto plánu.
Konec: Plán bude po tomto datu neaktivní. Ve výchozím nastavení je to NONE, což znamená, že plán bude vždy aktivní, dokud ho ručně nezakážete.
Značky: vybrané značky plánu.
Poznámka:
Začátek určuje počáteční datum a čas s časovým pásmem plánu. Pokud je začátek vynechán, počáteční čas se rovná času vytvoření plánu. V případě času spuštění v minulosti se první úloha spustí při příštím počítaném čase běhu.
Další snímek obrazovky ukazuje poslední obrazovku tohoto procesu. Zkontrolujte volby a vyberte Vytvořit. Na této obrazovce a na dalších obrazovkách v tomto procesu vyberte Zpět, abyste přešli na dřívější obrazovky, abyste mohli změnit možnosti hodnot.
Tento snímek obrazovky ukazuje panel plánu Cron :
Název: jedinečný identifikátor plánu v rámci pracovního prostoru.
Popis: popis plánu.
Aktivační událost: způsob opakování plánu, který zahrnuje následující vlastnosti.
Časové pásmo: Výpočet času triggeru je založený na tomto časovém pásmu; (UTC) Ve výchozím nastavení je koordinovaný univerzální čas.
Opakování nebo výraz Cron: výběrem výrazu cron zadejte podrobnosti cron.
(Povinné)expression používá standardní výraz crontab k vyjádření opakujícího se plánu. Jeden výraz se skládá z pěti polí oddělených mezerami:
MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK
Jeden zástupný znak (*), který pokrývá všechny hodnoty pole. A *, ve dnech, znamená všechny dny v měsíci (které se liší podle měsíce a roku).
Výše expression: "15 16 * * 1" uvedený vzorek znamená každou pondělí 16:15.
V další tabulce jsou uvedeny platné hodnoty pro každé pole:
Pole
Rozsah
Komentář
MINUTES
0-59
-
HOURS
0-23
-
DAYS
-
Nepodporováno Hodnota je ignorována a považována za *.
MONTHS
-
Nepodporováno Hodnota je ignorována a považována za *.
DAYS-OF-WEEK
0-6
Nula (0) znamená neděli. Byly přijaty také názvy dnů.
DAYS a MONTH nejsou podporovány. Pokud předáte jednu z těchto hodnot, bude ignorována a považována za *.
Začátek: Plán se nejprve aktivuje k tomuto datu. Ve výchozím nastavení datum vytvoření tohoto plánu.
Konec: Plán bude po tomto datu neaktivní. Ve výchozím nastavení je to NONE, což znamená, že plán bude vždy aktivní, dokud ho ručně nezakážete.
Značky: vybrané značky plánu.
Poznámka:
Začátek určuje počáteční datum a čas s časovým pásmem plánu. Pokud je začátek vynechán, počáteční čas se rovná času vytvoření plánu. V případě času spuštění v minulosti se první úloha spustí při příštím počítaném čase běhu.
Další snímek obrazovky ukazuje poslední obrazovku tohoto procesu. Zkontrolujte volby a vyberte Vytvořit. Na této obrazovce a na dalších obrazovkách v tomto procesu vyberte Zpět, abyste přešli na dřívější obrazovky, abyste mohli změnit možnosti hodnot.
Import dat z externího systému souborů jako datového prostředku složky
Poznámka:
Datový prostředek Amazon S3 může sloužit jako externí prostředek systému souborů.
Akce connection importu dat určuje aspekty externího zdroje dat. Připojení definuje kontejner Amazon S3 jako cíl. Připojení očekává platnou path hodnotu. Hodnota aktiva importovaná z externího zdroje systému souborů má hodnotu typeuri_folder.
Následující ukázka kódu importuje data z prostředku Amazon S3.
V části Prostředky v levém navigačním panelu vyberte Data. Dále vyberte kartu Import dat. Pak vyberte Vytvořit, jak je znázorněno na tomto snímku obrazovky:
Na obrazovce Zdroj dat vyberte S3 a pak vyberte Další, jak je znázorněno na tomto snímku obrazovky:
Na obrazovce Datový typ vyplňte hodnoty. Výchozí hodnota Typ je Složka (uri_folder). Pak vyberte Další, jak je znázorněno na tomto snímku obrazovky:
Na obrazovce Vytvořit import dat vyplňte hodnoty a vyberte Další, jak je znázorněno na tomto snímku obrazovky:
Vyplňte hodnoty na obrazovce Zvolit úložiště dat pro výstup a vyberte Další, jak je znázorněno na tomto snímku obrazovky. Úložiště dat spravovaných pracovním prostorem je ve výchozím nastavení vybrané. Při výběru spravovaného úložiště dat je cesta automaticky přiřazena systémem. Pokud vyberete úložiště dat spravovaných pracovním prostorem, zobrazí se rozevírací seznam Nastavení automatického odstranění. Ve výchozím nastavení nabízí časové období odstranění dat o 30 dnech a způsob správy importovaných datových prostředků vysvětluje, jak tuto hodnotu změnit.
Můžete přidat plán. Vyberte Přidat plán , jak je znázorněno na tomto snímku obrazovky:
Otevře se nový panel, kde můžete definovat plán opakování nebo plán Cron . Tento snímek obrazovky ukazuje panel plánu opakování :
Název: jedinečný identifikátor plánu v rámci pracovního prostoru.
Popis: popis plánu.
Aktivační událost: způsob opakování plánu, který zahrnuje následující vlastnosti.
Časové pásmo: Výpočet času triggeru je založený na tomto časovém pásmu; (UTC) Ve výchozím nastavení je koordinovaný univerzální čas.
Opakování nebo výraz Cron: vyberte opakování a určete opakující se vzor. V části Opakování můžete určit frekvenci opakování – podle minut, hodin, dnů, týdnů nebo měsíců.
Začátek: Plán se nejprve aktivuje k tomuto datu. Ve výchozím nastavení datum vytvoření tohoto plánu.
Konec: Plán bude po tomto datu neaktivní. Ve výchozím nastavení je to NONE, což znamená, že plán bude vždy aktivní, dokud ho ručně nezakážete.
Značky: vybrané značky plánu.
Poznámka:
Začátek určuje počáteční datum a čas s časovým pásmem plánu. Pokud je začátek vynechán, počáteční čas se rovná času vytvoření plánu. V případě času spuštění v minulosti se první úloha spustí při příštím počítaném čase běhu.
Jak je znázorněno na dalším snímku obrazovky, zkontrolujte své volby na poslední obrazovce tohoto procesu a vyberte Vytvořit. Na této obrazovce a na dalších obrazovkách v tomto procesu vyberte Zpět, abyste přešli na dřívější obrazovky, pokud chcete změnit možnosti hodnot.
Další snímek obrazovky ukazuje poslední obrazovku tohoto procesu. Zkontrolujte volby a vyberte Vytvořit. Na této obrazovce a na dalších obrazovkách v tomto procesu vyberte Zpět, abyste přešli na dřívější obrazovky, abyste mohli změnit možnosti hodnot.
Tento snímek obrazovky ukazuje panel plánu Cron :
Název: jedinečný identifikátor plánu v rámci pracovního prostoru.
Popis: popis plánu.
Aktivační událost: způsob opakování plánu, který zahrnuje následující vlastnosti.
Časové pásmo: Výpočet času triggeru je založený na tomto časovém pásmu; (UTC) Ve výchozím nastavení je koordinovaný univerzální čas.
Opakování nebo výraz Cron: výběrem výrazu cron zadejte podrobnosti cron.
(Povinné)expression používá standardní výraz crontab k vyjádření opakujícího se plánu. Jeden výraz se skládá z pěti polí oddělených mezerami:
MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK
Jeden zástupný znak (*), který pokrývá všechny hodnoty pole. A *, ve dnech, znamená všechny dny v měsíci (které se liší podle měsíce a roku).
Výše expression: "15 16 * * 1" uvedený vzorek znamená každou pondělí 16:15.
V další tabulce jsou uvedeny platné hodnoty pro každé pole:
Pole
Rozsah
Komentář
MINUTES
0-59
-
HOURS
0-23
-
DAYS
-
Nepodporováno Hodnota je ignorována a považována za *.
MONTHS
-
Nepodporováno Hodnota je ignorována a považována za *.
DAYS-OF-WEEK
0-6
Nula (0) znamená neděli. Byly přijaty také názvy dnů.
DAYS a MONTH nejsou podporovány. Pokud předáte jednu z těchto hodnot, bude ignorována a považována za *.
Začátek: Plán se nejprve aktivuje k tomuto datu. Ve výchozím nastavení datum vytvoření tohoto plánu.
Konec: Plán bude po tomto datu neaktivní. Ve výchozím nastavení je to NONE, což znamená, že plán bude vždy aktivní, dokud ho ručně nezakážete.
Značky: vybrané značky plánu.
Poznámka:
Začátek určuje počáteční datum a čas s časovým pásmem plánu. Pokud je začátek vynechán, počáteční čas se rovná času vytvoření plánu. V případě času spuštění v minulosti se první úloha spustí při příštím počítaném čase běhu.
Další snímek obrazovky ukazuje poslední obrazovku tohoto procesu. Zkontrolujte volby a vyberte Vytvořit. Na této obrazovce a na dalších obrazovkách v tomto procesu vyberte Zpět, abyste přešli na dřívější obrazovky, abyste mohli změnit možnosti hodnot.
Kontrola stavu importu externích zdrojů dat
Akce importu dat je asynchronní akce. Může to trvat dlouho. Po odeslání akce importu dat prostřednictvím rozhraní příkazového řádku nebo sady SDK může služba Azure Machine Learning potřebovat několik minut připojení k externímu zdroji dat. Služba pak spustí import dat a zpracuje ukládání dat do mezipaměti a registraci. Doba potřebná pro import dat závisí také na velikosti zdrojové sady dat.
Další příklad vrátí stav odeslané aktivity importu dat. Příkaz nebo metoda používá jako vstup název datového assetu k určení stavu materializace dat.