Sdílet prostřednictvím


Kurz Lakehouse: Ingestování dat do jezera

V tomto kurzu ingestujete vícerozměrné tabulky a tabulky faktů od Wide World Importers (WWI) do jezera.

Požadavky

Ingestace dat

V této části použijete aktivitu kopírování dat kanálu služby Data Factory k ingestování ukázkových dat z účtu úložiště Azure do části Soubory ve službě Lakehouse, kterou jste vytvořili dříve.

  1. V levém navigačním podokně vyberte Pracovní prostory a pak v nabídce Pracovní prostory vyberte nový pracovní prostor. Zobrazí se zobrazení položek vašeho pracovního prostoru.

  2. V nabídce Nová položka na pásu karet pracovního prostoru vyberte datový tok.

    Snímek obrazovky znázorňující, jak vytvořit nový datový kanál

  3. V dialogovém okně Nový kanál zadejte název jako IngestDataFromSourceToLakehouse a vyberte Vytvořit. Vytvoří se a otevře nový kanál datové továrny.

  4. Dále nastavte připojení HTTP pro import ukázkových dat World Wide Importers do Lakehouse. V seznamu Nových zdrojů vyberte Zobrazit více, vyhledejte http a vyberte ho.

    Snímek obrazovky znázorňující, kde vybrat zdroj HTTP

  5. V okně Připojit ke zdroji dat zadejte podrobnosti z následující tabulky a vyberte Další.

    Vlastnost Hodnota
    Adresa URL https://assetsprod.microsoft.com/en-us/wwi-sample-dataset.zip
    Connection Vytvoření nového připojení
    Název připojení wwisampledata
    Brána dat Nic
    Druh ověřování Anonymní

    Snímek obrazovky znázorňující parametry pro konfiguraci připojení HTTP

  6. V dalším kroku povolte binární kopii a jako typ komprese zvolte ZipDeflate (.zip),protože zdrojem je soubor .zip. U ostatních polí ponechte výchozí hodnoty a klikněte na Další.

    Snímek obrazovky znázorňující, jak zvolit typ komprese

  7. V okně Připojit k cíli dat zadejte kořenovou složku jako Soubory a klepněte na tlačítko Další. Tím se zapíšou data do části Soubory v jezeře.

    Snímek obrazovky znázorňující nastavení cílového připojení jezera.

  8. Zvolte formát Soubor jako Binární pro cíl. Klikněte na Další a pak na Uložit+Spustit. Kanály můžete naplánovat tak, aby pravidelně aktualizovaly data. V tomto kurzu kanál spustíme jenom jednou. Dokončení procesu kopírování dat trvá přibližně 10 až 15 minut.

    Snímek obrazovky znázorňující formát cílového souboru

  9. Spuštění kanálu a aktivitu můžete monitorovat na kartě Výstup . Podrobné informace o přenosu dat můžete zobrazit také tak, že vyberete ikonu brýle vedle názvu kanálu, která se zobrazí, když na něj najedete myší.

    Snímek obrazovky znázorňující stav aktivity kanálu kopírování

  10. Po úspěšném spuštění kanálu přejděte do svého jezera (wwilakehouse) a otevřete průzkumníka, abyste viděli importovaná data.

    Snímek obrazovky znázorňující, jak přejít na jezero

  11. Ověřte, že složka WideWorldImportersDW je v zobrazení Průzkumníka a obsahuje data pro všechny tabulky.

    Snímek obrazovky zobrazující zdrojová data se zkopírují do Průzkumníka Lakehouse.

  12. Data se vytvoří v části Soubory průzkumníka lakehouse. Nová složka s identifikátorem GUID obsahuje všechna potřebná data. Přejmenování identifikátoru GUID na wwi-raw-data

Pokud chcete načíst přírůstková data do jezera, přečtěte si článek Přírůstkové načtení dat z datového skladu do jezera.

Další krok