Sdílet prostřednictvím


Kvalita dat

Kvalita dat je funkce správy analýz v cloudovém měřítku. Nachází se v cílové zóně správy dat a je základní součástí zásad správného řízení.

Důležité informace o kvalitě dat

Za kvalitu dat zodpovídá každý jednotlivec, který vytváří a spotřebovává datové produkty. Tvůrci by měli dodržovat globální pravidla a pravidla domény, zatímco uživatelé by měli hlásit nekonzistence dat do vlastní domény dat prostřednictvím smyčky zpětné vazby.

Vzhledem k tomu, že kvalita dat ovlivňuje všechna data poskytnutá na panelu, měla by začít v horní části organizace. Panel by měl mít přehled o kvalitě poskytnutých dat.

Proaktivní ale stále vyžaduje, abyste měli odborníky na kvalitu dat, kteří můžou vyčistit kbelíky dat, které vyžadují nápravu. Vyhněte se přesouvání této práce na centrální tým a zaměřte se spíše na datovou doménu, která má specifické znalosti pro čištění dat.

Metriky kvality dat

Metriky kvality dat jsou klíčem k vyhodnocení a zvýšení kvality vašich datových produktů. Na globální úrovni a na úrovni domény musíte rozhodnout o metrikách kvality. Minimálně doporučujeme následující metriky:

Metriky Definice metrik
Úplnost = % celkem bez hodnot null + neprázdných hodnot Měří dostupnost dat, pole v datové sadě, která nejsou prázdná, a výchozí hodnoty, které se změnily. Pokud například záznam obsahuje datum narození 01/01/1900, je vysoce pravděpodobné, že pole nebylo nikdy vyplněno.
Jedinečnost = % neduplicitních hodnot Měří jedinečné hodnoty v daném sloupci v porovnání s počtem řádků v tabulce. Například vzhledem k čtyřem jedinečným hodnotám barev (červené, modré, žluté a zelené) v tabulce s pěti řádky je toto pole 80 % (nebo 4/5) jedinečné.
Konzistence = % dat se vzory Měří kompatibilitu v daném sloupci s očekávaným datovým typem nebo formátem. Například pole e-mailu obsahující formátované e-mailové adresy nebo pole s číselnými hodnotami.
Platnost = % shody referencí Měří úspěšná data odpovídající referenční sadě domény. Například vzhledem k tomu, že pole země/oblasti (vyhovuje hodnotám taxonomie) v systému transakčních záznamů, hodnota "USA of A" není platná.
Přesnost = % nealterovaných hodnot Měří úspěšnou reprodukci zamýšlených hodnot ve více systémech. Pokud například položka faktury zadá skladovou položku a rozšířenou cenu, která se liší od původní objednávky, není položka řádku faktury nepřesná.
Propojení = % dobře integrovaných dat Měří úspěšné přidružení ke svým doprovodným referenčním podrobnostem v jiném systému. Pokud například položka faktury zadává nesprávnou skladovou položku nebo popis produktu, není položka řádku faktury propojená.

Profilace dat

Profilace dat zkoumá datové produkty zaregistrované v katalogu dat a shromažďuje statistiky a informace o datech. Chcete-li poskytnout souhrnné zobrazení a zobrazení trendů o kvalitě dat v průběhu času, uložte tato data do úložiště metadat proti datovému produktu.

Profily dat pomáhají uživatelům zodpovědět otázky týkající se datových produktů, včetně:

  • Dá se použít k řešení mého obchodního problému?
  • Odpovídají data konkrétním standardům nebo vzorům?
  • Jaké jsou některé anomálie zdroje dat?
  • Jaké jsou možné problémy při integraci těchto dat do aplikace?

Uživatelé můžou zobrazit profil datového produktu pomocí řídicího panelu pro vytváření sestav v rámci svého datového marketplace.

Můžete nahlásit například tyto položky:

  • Úplnost: Označuje procento dat, která nejsou prázdná nebo null.
  • Jedinečnost: Označuje procento dat, která nejsou duplikována.
  • Konzistence: Označuje data, kde je zachována integrita dat.

Doporučení pro kvalitu dat

Pokud chcete implementovat kvalitu dat, musíte použít lidské i výpočetní výkony následujícím způsobem:

  • Používejte řešení, která zahrnují algoritmy, pravidla, profilaci dat a metriky.

  • Použijte odborníky na domény, kteří můžou krokovat, když je potřeba trénovat algoritmus kvůli vysokému počtu chyb procházejících výpočetní vrstvou.

  • Ověřte to včas. Tradiční řešení po extrakci, transformaci a načítání dat používají kontroly kvality dat. Do této doby se datový produkt už spotřebovává a dochází k chybám v podřízených datových produktech. Místo toho, protože data se ingestují ze zdroje, implementujte kontroly kvality dat poblíž zdrojů a před tím, než podřízení spotřebitelé používají datové produkty. Pokud dojde k dávkovému příjmu dat z datového jezera, proveďte tyto kontroly při přesouvání dat z nezpracovaných na obohacené.

    Diagram implementace kvality dat během příjmu dat

  • Před přesunem dat do rozšířené vrstvy se jeho schéma a sloupce kontrolují na metadatech zaregistrovaných v katalogu dat.

  • Pokud data obsahují chyby, zatížení se zastaví a tým datové aplikace obdrží oznámení o selhání.

  • Pokud schéma a sloupec projdou kontrolou, data se načtou do obohacených vrstev s odpovídajícími datovými typy.

  • Než přejdete na rozšířenou vrstvu, proces kvality dat zkontroluje dodržování předpisů vůči algoritmům a pravidlům.

Tip

Definujte pravidla kvality dat na globální úrovni i na úrovni domény. Díky tomu může firma definovat své standardy pro každý vytvořený datový produkt a umožní datovým doménám vytvářet další pravidla související s jejich doménou.

Řešení pro kvalitu dat

Doporučujeme vyhodnotit Kvalita dat Microsoft Purview jako řešení pro posuzování a správu kvality dat, což je zásadní pro spolehlivé přehledy založené na umělé inteligenci a rozhodování. Patří mezi ně:

  • Pravidla bez kódu nebo nízkého kódu: Vyhodnoťte kvalitu dat pomocí předefinovaných pravidel vygenerovaných AI.
  • Profilace dat využívající AI: Doporučuje sloupce pro profilaci a umožňuje lidské zásahy pro upřesnění.
  • Hodnocení kvality dat: Poskytuje skóre pro datové prostředky, datové produkty a domény zásad správného řízení.
  • Upozornění na kvalitu dat: Upozorní vlastníky dat na problémy s kvalitou.

Další informace naleznete v tématu Co je kvalita dat.

Pokud se vaše organizace rozhodne implementovat Azure Databricks pro manipulaci s daty, měli byste posoudit kontroly kvality dat, testování, monitorování a vynucování, které toto řešení nabízí. Použití očekávání může zaznamenávat problémy s kvalitou dat při příjmu dat dříve, než ovlivní související podřízené datové produkty. Další informace najdete v tématu Vytvoření standardů kvality dat a správy kvality dat pomocí Databricks.

Můžete si také vybrat z partnerů, opensourcových a vlastních možností řešení pro kvalitu dat.

Souhrn kvality dat

Oprava kvality dat může mít vážné důsledky pro firmu. Může vést k tomu, že obchodní jednotky interpretují datové produkty různými způsoby. Tato špatná interpretace může být pro firmu nákladná, pokud jsou rozhodnutí založená na datových produktech s nižší kvalitou dat. Oprava datových produktů s chybějícími atributy může být nákladná úloha a může vyžadovat úplné opětovné načtení dat z několika období.

V rané fázi ověřte kvalitu dat a zapněte procesy, které proaktivně řeší nízkou kvalitu dat. Datový produkt se například nedá uvolnit do produkce, dokud nedosáhne určitého množství úplnosti.

Nástroje můžete používat jako bezplatnou volbu, ale zajistit, aby zahrnovala očekávání (pravidla), metriky dat, profilaci a schopnost zabezpečit očekávání, abyste mohli implementovat globální a doménová očekávání.

Další kroky