Načtení dat do Azure Data Lake Storage Gen1 pomocí Azure Data Factory
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Azure Data Lake Storage Gen1 (dříve označované jako Azure Data Lake Store) je podnikové úložiště s hyper-škálováním pro analytické úlohy pro velké objemy dat. Data Lake Storage Gen1 umožňuje zaznamenávat data libovolné velikosti, typu a rychlosti příjmu dat. Data se zaznamenávají na jednom místě pro provozní a průzkumnou analýzu.
Azure Data Factory je plně spravovaná cloudová služba pro integraci dat. Pomocí této služby můžete naplnit jezero daty z existujícího systému a ušetřit čas při sestavování analytických řešení.
Azure Data Factory nabízí následující výhody pro načítání dat do Data Lake Storage Gen1:
- Snadné nastavení: Intuitivní 5stupňový průvodce bez nutnosti skriptování.
- Podpora bohatého úložiště dat: Integrovaná podpora pro bohatou sadu místních a cloudových úložišť dat. Podrobný seznam najdete v tabulce podporovaných úložišť dat.
- Zabezpečení a dodržování předpisů: Data se přenášejí přes HTTPS nebo ExpressRoute. Globální stav služby zajišťuje, že vaše data nikdy neopustí geografickou hranici.
- Vysoký výkon: Rychlost načítání dat do Data Lake Storage Gen1 až 1 GB/s. Podrobnosti najdete v tématu aktivita Copy výkonu.
V tomto článku se dozvíte, jak pomocí nástroje Pro kopírování dat služby Data Factory načíst data z AmazonU S3 do Data Lake Storage Gen1. Podobným postupem můžete kopírovat data z jiných typů úložišť dat.
Poznámka:
Další informace najdete v tématu Kopírování dat do nebo z Data Lake Storage Gen1 pomocí služby Azure Data Factory.
Požadavky
- Předplatné Azure: Pokud nemáte předplatné Azure, vytvořte si před zahájením bezplatný účet .
- Účet Data Lake Storage Gen1: Pokud účet Data Lake Storage Gen1 nemáte, přečtěte si pokyny v tématu Vytvoření účtu Data Lake Storage Gen1.
- Amazon S3: Tento článek ukazuje, jak kopírovat data z Amazon S3. Další úložiště dat můžete použít pomocí podobných kroků.
Vytvoření datové továrny
Pokud jste ještě nevytvořili datovou továrnu, postupujte podle kroků v rychlém startu: Vytvoření datové továrny pomocí webu Azure Portal a nástroje Azure Data Factory Studio k jeho vytvoření. Po vytvoření přejděte na webu Azure Portal k datové továrně.
Na dlaždici Otevřít azure Data Factory Studio vyberte Otevřít, aby se aplikace Integrace Dat spustila na samostatné kartě.
Načtení dat do Data Lake Storage Gen1
Na domovské stránce vyberte dlaždici Ingest a spusťte nástroj Pro kopírování dat:
Na stránce Vlastnosti zadejte copyFromAmazonS3ToADLS pro pole Název úkolu a vyberte Další:
Na stránce Zdrojové úložiště dat vyberte + Vytvořit nové připojení:
Vyberte Amazon S3 a vyberte Pokračovat.
Na stránce Zadat připojení Amazon S3 proveďte následující kroky:
Zadejte hodnotu ID přístupového klíče.
Zadejte hodnotu tajného přístupového klíče .
Vyberte Dokončit.
Zobrazí se nové připojení. Vyberte Další.
Na stránce pro volbu vstupního souboru nebo složky přejděte ke složce a souboru, který chcete zkopírovat. Vyberte složku nebo soubor, vyberte Zvolit a pak vyberte Další:
Zvolte chování kopírování tak , že vyberete možnosti Kopírovat soubory rekurzivně a Binární kopie (kopírovat soubory tak, jak je). Vyberte Další.
Na stránce Cílové úložiště dat vyberte + Vytvořit nové připojení a pak vyberte Azure Data Lake Storage Gen1 a pak vyberte Pokračovat:
Na stránce Nová propojená služba (Azure Data Lake Storage Gen1) proveďte následující kroky:
- Jako název účtu Data Lake Store vyberte účet Data Lake Storage Gen1.
- Zadejte tenanta a vyberte Dokončit.
- Vyberte Další.
Důležité
V tomto názorném postupu použijete spravovanou identitu pro prostředky Azure k ověření účtu Data Lake Storage Gen1. Podle těchto pokynů nezapomeňte msi udělit správná oprávnění ve službě Data Lake Storage Gen1.
Na stránce Zvolit výstupní soubor nebo složku zadejte jako název výstupní složky copyfroms3 a vyberte Další:
Na stránce Nastavení vyberte Další:
Na stránce Souhrn zkontrolujte nastavení a vyberte Další:
Na stránce Nasazení vyberte Monitorování a sledujte kanál (úlohu):
Všimněte si, že je vlevo automaticky vybraná karta Monitorování. Sloupec Akce obsahuje odkazy na zobrazení podrobností o spuštění aktivity a opětovné spuštění kanálu:
Pokud chcete zobrazit spuštění aktivit přidružená ke spuštění kanálu, vyberte ve sloupci Akce odkaz Zobrazit spuštění aktivit. Kanál obsahuje pouze jednu aktivitu (aktivita kopírování), takže se zobrazí pouze jedna položka. Pokud chcete přepnout zpět do zobrazení spuštění kanálu, vyberte odkaz Kanály v horní části. Seznam můžete aktualizovat kliknutím na Aktualizovat.
Pokud chcete monitorovat podrobnosti spuštění pro každou aktivitu kopírování, vyberte odkaz Podrobnosti v části Akce v zobrazení monitorování aktivit. Můžete monitorovat podrobnosti, jako je objem dat zkopírovaný ze zdroje do jímky, propustnost dat, kroky provádění s odpovídající dobou trvání a použité konfigurace:
Ověřte, že se data zkopírují do vašeho účtu Data Lake Storage Gen1:
Související obsah
V následujícím článku se dozvíte o podpoře Data Lake Storage Gen1: