Registrace zdrojů dat ve službě Azure Data Catalog
Důležité
Služba Azure Data Catalog byla vyřazena 15. května 2024.
Pro funkce katalogu dat použijte službu Microsoft Purview , která nabízí jednotné zásady správného řízení dat pro celá data.
Úvod
Azure Data Catalog je plně spravovaná cloudová služba, která slouží jako systém registrace a zjišťování pro podnikové zdroje dat. Jinými slovy služba Data Catalog pomáhá lidem zjišťovat, pochopit a používat zdroje dat a pomáhá organizacím získat větší hodnotu ze stávajících dat. Prvním krokem při zjišťování zdroje dat prostřednictvím katalogu Data Catalog je registrace zdroje dat.
Registrace zdrojů dat
Registrace je proces extrakce metadat ze zdroje dat a kopírování těchto dat do služby Data Catalog. Data zůstanou uložena tam, kde v současnosti jsou, a zůstávají pod kontrolou správců a zásad aktuálního systému.
Pokud chcete zaregistrovat zdroj dat, postupujte takto:
- Na portálu Azure Data Catalog spusťte nástroj pro registraci zdroje dat katalogu Data Catalog.
- Přihlaste se pomocí svého pracovního nebo školního účtu se stejnými přihlašovacími údaji Microsoft Entra, které používáte k přihlášení k portálu.
- Vyberte zdroj dat, který chcete zaregistrovat.
Po registraci zdroje dat katalog sleduje jeho umístění a indexuje jeho metadata. Uživatelé můžou hledat, procházet a zjišťovat zdroj dat a pak se k němu připojit pomocí aplikace nebo nástroje podle svého výběru.
Podporované zdroje dat
Seznam aktuálně podporovaných zdrojů dat najdete v tématu DSR katalogu Data Catalog.
Strukturální metadata
Při registraci zdroje dat nástroj pro registraci extrahuje informace o struktuře vybraných objektů. Tyto informace se označují jako strukturální metadata.
Pro všechny objekty tato strukturální metadata zahrnují umístění objektu, aby uživatelé, kteří zjistí data, mohli tyto informace použít k připojení k objektu v klientských nástrojích podle svého výběru. Další strukturální metadata zahrnují název a typ objektu a název atributu/sloupce a datový typ.
Popisná metadata
Kromě základních strukturálních metadat extrahovaných ze zdroje dat extrahuje nástroj pro registraci zdroje dat popisná metadata. Pro Služba Analysis Services serveru SQL a službu SQL Server Reporting Services jsou tato metadata převzata z vlastností popisu vystavených těmito službami. Pro SQL Server se extrahují hodnoty zadané pomocí rozšířené vlastnosti ms_description. V případě oracle Database nástroj pro registraci zdroje dat extrahuje sloupec COMMENTS ze zobrazení ALL_TAB_COMMENTS.
Kromě popisných metadat extrahovaných ze zdroje dat můžou uživatelé zadávat popisná metadata pomocí nástroje pro registraci zdroje dat. Uživatelé můžou přidávat značky a můžou identifikovat odborníky na zaregistrované objekty. Všechna tato popisná metadata se zkopírují do služby Data Catalog spolu se strukturálními metadaty.
Zahrnout náhledy
Ve výchozím nastavení se ze zdrojů dat extrahují jenom metadata a zkopírují se do služby Data Catalog, ale pochopení zdroje dat je často jednodušší, když si můžete prohlédnout ukázku dat, která obsahuje.
Pomocí nástroje pro registraci zdroje dat katalogu Data Catalog můžete zahrnout náhled snímků dat v každé tabulce a zobrazení, které je zaregistrované. Pokud se rozhodnete zahrnout náhledy během registrace, nástroj pro registraci obsahuje až 20 záznamů z každé tabulky a zobrazení. Tento snímek se pak zkopíruje do katalogu spolu se strukturálními a popisnými metadaty.
Poznámka:
Široké tabulky s velkým počtem sloupců můžou mít v náhledu méně než 20 záznamů.
Zahrnout datové profily
Stejně jako zahrnutí náhledů můžou uživatelům, kteří hledají zdroje dat v katalogu Data Catalog, poskytnout cenný kontext, a to i profil dat, což usnadňuje pochopení zjištěných zdrojů dat.
Pomocí nástroje pro registraci zdroje dat katalogu Data Catalog můžete zahrnout profil dat pro každou tabulku a zobrazení, které je registrováno. Pokud se rozhodnete zahrnout profil dat během registrace, nástroj pro registraci obsahuje agregované statistiky o datech v každé tabulce a zobrazení, včetně:
- Počet řádků a velikost dat v objektu.
- Datum poslední aktualizace dat a schématu objektu.
- Počet záznamů null a jedinečných hodnot pro sloupce.
- Minimální hodnoty, maximum, průměr a směrodatná odchylka sloupců.
Tyto statistiky se pak zkopírují do katalogu spolu se strukturálními a popisnými metadaty.
Poznámka:
Sloupce s textem a kalendářními daty nezahrnují do svého datového profilu statistiku průměrné nebo směrodatné odchylky.
Aktualizace registrací
Registrace zdroje dat umožňuje zjistitelnost v katalogu Data Catalog při použití metadat a volitelného náhledu extrahovaného během registrace. Pokud je potřeba aktualizovat zdroj dat v katalogu (například pokud se změnilo schéma objektu, měly by být zahrnuty tabulky původně vyloučené nebo chcete aktualizovat data zahrnutá v náhledech), můžete znovu spustit nástroj pro registraci zdroje dat.
Opětovná registrace již registrovaného zdroje dat provede operaci sloučení upsertu: existující objekty se aktualizují a vytvoří se nové objekty. Všechna metadata poskytovaná uživateli prostřednictvím portálu Data Catalog se zachovají.
Shrnutí
Vzhledem k tomu, že kopíruje strukturální a popisná metadata ze zdroje dat do služby katalogu, registrace zdroje dat v katalogu Data Catalog usnadňuje zjišťování a pochopení dat. Jakmile zaregistrujete zdroj dat, můžete ho pomocí portálu Data Catalog anotovat, spravovat a zjišťovat.