Postup profilování zdrojů dat ve službě Azure Data Catalog
Důležité
Služba Azure Data Catalog byla vyřazena 15. května 2024.
Pro funkce katalogu dat použijte službu Microsoft Purview , která nabízí jednotné zásady správného řízení dat pro celá data.
Úvod
Microsoft Azure Data Catalog je plně spravovaná cloudová služba, která slouží jako systém registrace a systému zjišťování pro podnikové zdroje dat. Jinými slovy, Azure Data Catalog je všechno o tom, jak lidem pomoct zjišťovat, pochopit a používat zdroje dat a pomáhá organizacím získat větší hodnotu ze stávajících dat. Když je zdroj dat zaregistrovaný ve službě Azure Data Catalog, zkopírují se jeho metadata a indexují službou, ale příběh tam nekončí.
Funkce profilace dat ve službě Azure Data Catalog zkoumá data z podporovaných zdrojů dat v katalogu a shromažďuje statistiky a informace o těchto datech. Je snadné zahrnout profil datových prostředků. Při registraci datového assetu zvolte Zahrnout profil dat v nástroji pro registraci zdroje dat.
Co je profilace dat?
Profilace dat zkoumá data v zaregistrovaných zdrojích dat a shromažďuje statistiky a informace o datech. Během zjišťování zdrojů dat vám tyto statistiky můžou pomoct určit vhodnost dat k vyřešení jejich obchodního problému.
Profilaci dat podporují následující zdroje dat:
- TABULKY a zobrazení SQL Serveru (včetně Azure SQL DB a Azure Synapse Analytics)
- Tabulky a zobrazení Oracle
- Tabulky a zobrazení Teradata
- Tabulky Hive
Zahrnutí datových profilů při registraci datových prostředků pomáhá uživatelům zodpovědět otázky týkající se zdrojů dat, včetně:
- Dá se použít k řešení mého obchodního problému?
- Odpovídají data konkrétním standardům nebo vzorům?
- Jaké jsou některé anomálie zdroje dat?
- Jaké jsou možné problémy při integraci těchto dat do aplikace?
Poznámka:
Dokumentaci můžete také přidat k prostředku, který popisuje, jak se data dají integrovat do aplikace. Přečtěte si, jak dokumentovat zdroje dat.
Zahrnutí datového profilu při registraci zdroje dat
Profil zdroje dat můžete snadno zahrnout. Při registraci zdroje dat zvolte v panelu Objekty, které se mají zaregistrovat v nástroji pro registraci zdroje dat, možnost Zahrnout profil dat.
Další informace o tom, jak registrovat zdroje dat, najdete v tématu Postup registrace zdrojů dat a začínáme se službou Azure Data Catalog.
Filtrování datových prostředků, které obsahují datové profily
Pokud chcete zjistit datové prostředky, které obsahují datový profil, můžete zahrnout has:tableDataProfiles
nebo has:columnsDataProfiles
jako jeden z hledaných termínů.
Poznámka:
Výběr možnosti Zahrnout profil dat v nástroji pro registraci zdroje dat obsahuje informace o profilu na úrovni tabulky i sloupce. Rozhraní API služby Data Catalog však umožňuje registraci datových prostředků pouze s jednou sadou zahrnutých informací profilu.
Zobrazení informací o profilu dat
Jakmile najdete vhodný zdroj dat s profilem, můžete zobrazit podrobnosti profilu dat. Pokud chcete zobrazit datový profil, vyberte datový asset a v okně portálu Data Catalog zvolte Datový profil .
Datový profil ve službě Azure Data Catalog zobrazuje informace o profilu tabulky a sloupce, mezi které patří:
Profil dat objektu
- Počet řádků
- Velikost tabulky
- Kdy byl objekt naposledy aktualizován
Profil dat sloupce
- Datový typ sloupce
- Počet jedinečných hodnot
- Počet řádků s hodnotami NULL
- Minimum, maximum, průměr a směrodatná odchylka pro hodnoty sloupců
Shrnutí
Profilace dat poskytuje statistiky a informace o registrovaných datových prostředcích, které vám pomůžou určit vhodnost dat k řešení obchodních problémů. Spolu s poznámkami a dokumentováním zdrojů dat můžou profily dat uživatelům lépe porozumět vašim datům.