Registrace dat z Azure Data Lake Storage Gen1 v Azure Data Catalog
V tomto článku se dozvíte, jak integrovat Azure Data Lake Storage Gen1 s Azure Data Catalog, aby byla vaše data v rámci organizace zjistitelná díky jejich integraci s Data Catalog. Další informace o katalogu dat najdete v tématu Azure Data Catalog. Vysvětlení scénářů, ve kterých můžete použít Data Catalog, najdete v tématu Běžné scénáře Azure Data Catalog.
Požadavky
Je nutné, abyste před zahájením tohoto kurzu měli tyto položky:
Předplatné Azure. Viz Získání bezplatné zkušební verze Azure.
Povolte předplatné Azure pro Data Lake Storage Gen1. Viz pokyny.
Účet Data Lake Storage Gen1. Postupujte podle pokynů v tématu Začínáme s Azure Data Lake Storage Gen1 pomocí Azure Portal. Pro účely tohoto kurzu vytvořte účet Data Lake Storage Gen1 s názvem datacatalogstore.
Po vytvoření účtu do něj nahrajte ukázkovou datovou sadu. Pro účely tohoto kurzu nahrajeme všechny soubory .csv do složky AmbulanceData v úložišti Git Azure Data Lake. K nahrání dat do kontejneru objektů blob můžete použít různé klienty, například Průzkumník služby Azure Storage.
Azure Data Catalog. Vaše organizace už musí mít vytvořenou Data Catalog Azure. Pro každou organizaci je povolený jenom jeden katalog.
Registrace Data Lake Storage Gen1 jako zdroje pro Data Catalog
Přejděte na
https://azure.microsoft.com/services/data-catalog
a klikněte na Začínáme.Přihlaste se do portálu Azure Data Catalog a klikněte na tlačítko Publikovat data.
Na další stránce klikněte na Spustit aplikaci. Tím se do počítače stáhne soubor manifestu aplikace. Poklikáním na soubor manifestu spusťte aplikaci.
Na úvodní stránce klikněte na Přihlásit se a zadejte svoje přihlašovací údaje.
Na stránce Vybrat zdroj dat vyberte Azure Data Lake Store a pak klikněte na Další.
Na další stránce zadejte název Data Lake Storage Gen1 účtu, který chcete zaregistrovat Data Catalog. Ostatní možnosti ponechte výchozí a klikněte na Připojit.
Další stránku lze rozdělit do následujících segmentů.
a. Pole Hierarchie serveru představuje strukturu složek Data Lake Storage Gen1 účtu. $Root představuje kořen účtu Data Lake Storage Gen1 a AmbulanceData představuje složku vytvořenou v kořenovém adresáři účtu Data Lake Storage Gen1.
b. Pole Dostupné objekty obsahuje seznam souborů a složek ve složce AmbulanceData .
c. Pole Objekty k registraci obsahuje seznam souborů a složek, které chcete zaregistrovat v Azure Data Catalog.
Pro účely tohoto kurzu byste měli zaregistrovat všechny soubory v adresáři . V takovém případě klikněte na tlačítko (
) a přesuňte všechny soubory do pole Objekty k registraci .
Vzhledem k tomu, že data budou zaregistrována v katalogu dat pro celou organizaci, doporučuje se přidat metadata, která můžete později použít k rychlému vyhledání dat. Můžete například přidat e-mailovou adresu vlastníka dat (například toho, kdo data nahrává) nebo přidat značku pro identifikaci dat. Následující snímek obrazovky ukazuje značku, kterou přidáte k datům.
Klikněte na Zaregistrovat.
Následující snímek obrazovky označuje, že data jsou úspěšně zaregistrována v Data Catalog.
Kliknutím na Zobrazit portál se vraťte na portál Data Catalog a ověřte, že teď máte z portálu přístup k registrovaným datům. K prohledávání dat můžete použít značku, kterou jste použili při registraci dat.
Teď můžete k datům přidávat poznámky a dokumentaci. Další informace najdete na následujících odkazech.