Så här profilerar du datakällor i Azure Data Catalog
Viktigt!
Azure Data Catalog drogs tillbaka den 15 maj 2024.
För datakatalogfunktioner använder du Microsoft Purview-tjänsten , som erbjuder enhetlig datastyrning för hela din dataegendom.
Introduktion
Microsoft Azure Data Catalog är en fullständigt hanterad molntjänst som fungerar som ett system för registrering och identifieringssystem för företagsdatakällor. Med andra ord handlar Azure Data Catalog om att hjälpa människor att identifiera, förstå och använda datakällor och hjälpa organisationer att få mer värde från sina befintliga data. När en datakälla registreras med Azure Data Catalog kopieras och indexeras dess metadata av tjänsten, men artikeln slutar inte där.
Dataprofileringsfunktionen i Azure Data Catalog undersöker data från datakällor som stöds i katalogen och samlar in statistik och information om dessa data. Det är enkelt att ta med en profil för dina datatillgångar. När du registrerar en datatillgång väljer du Inkludera dataprofil i datakällans registreringsverktyg.
Vad är dataprofilering?
Dataprofilering undersöker data i den datakälla som registreras och samlar in statistik och information om dessa data. Under datakällans identifiering kan den här statistiken hjälpa dig att avgöra om data är lämpliga för att lösa sina affärsproblem.
Följande datakällor stöder dataprofilering:
- TABELLER och vyer för SQL Server (inklusive Azure SQL DB och Azure Synapse Analytics)
- Oracle-tabeller och vyer
- Teradata-tabeller och vyer
- Hive-tabeller
Genom att inkludera dataprofiler när du registrerar datatillgångar kan användarna svara på frågor om datakällor, inklusive:
- Kan den användas för att lösa mitt affärsproblem?
- Överensstämmer data med vissa standarder eller mönster?
- Vilka är några av avvikelserna i datakällan?
- Vilka är möjliga utmaningar med att integrera dessa data i mitt program?
Kommentar
Du kan också lägga till dokumentation till en tillgång för att beskriva hur data kan integreras i ett program. Se Så här dokumenterar du datakällor.
Så här inkluderar du en dataprofil när du registrerar en datakälla
Det är enkelt att ta med en profil för din datakälla. När du registrerar en datakälla går du till panelen Objekt som ska registreras i datakällans registreringsverktyg och väljer Inkludera dataprofil.
Mer information om hur du registrerar datakällor finns i Så här registrerar du datakällor och Kom igång med Azure Data Catalog.
Filtrering av datatillgångar som innehåller dataprofiler
Om du vill identifiera datatillgångar som innehåller en dataprofil kan du inkludera has:tableDataProfiles
eller has:columnsDataProfiles
som ett av dina sökord.
Kommentar
Om du väljer Inkludera dataprofil i verktyget för registrering av datakällor ingår profilinformation på både tabell- och kolumnnivå. Data Catalog-API:et tillåter dock att datatillgångar registreras med endast en uppsättning profilinformation.
Visa information om dataprofil
När du har hittat en lämplig datakälla med en profil kan du visa information om dataprofilen. Om du vill visa dataprofilen väljer du en datatillgång och väljer Dataprofil i fönstret Datakatalogportal.
En dataprofil i Azure Data Catalog visar information om tabell- och kolumnprofiler, inklusive:
Objektdataprofil
- Antal rader
- Tabellstorlek
- När objektet senast uppdaterades
Kolumndataprofil
- Kolumndatatyper
- Antal distinkta värden
- Antal rader med NULL-värden
- Minsta, högsta, genomsnittliga och standardavvikelse för kolumnvärden
Sammanfattning
Dataprofilering ger statistik och information om registrerade datatillgångar som hjälper dig att avgöra om data är lämpliga för att lösa affärsproblem. Förutom att kommentera och dokumentera datakällor kan dataprofiler ge användarna en djupare förståelse för dina data.