Osvědčené postupy pro data a zásady správného řízení AI
Tento článek popisuje osvědčené postupy pro data a zásady správného řízení AI uspořádané podle principů architektury uvedených v následujících částech.
1. Sjednocení dat a správy AI
Vytvoření procesu zásad správného řízení dat a AI
Správa dat a AI je správa dostupnosti, použitelnosti, integrity a zabezpečení dat a prostředků umělé inteligence organizace. Díky posílení zásad správného řízení dat a umělé inteligence můžou organizace zajistit kvalitu prostředků, které jsou důležité pro přesnou analýzu a rozhodování, pomáhají identifikovat nové příležitosti, zlepšit spokojenost zákazníků a nakonec zvýšit výnosy. Pomáhá organizacím dodržovat předpisy na ochranu osobních údajů a AI a zlepšit bezpečnostní opatření, což snižuje riziko porušení zabezpečení a sankcí. Efektivní zásady správného řízení dat a umělé inteligence také eliminují redundanci a zjednodušují správu dat, což vede k úsporám nákladů a vyšší provozní efektivitě.
Organizace může chtít zvolit, který model zásad správného řízení nejlépe vyhovuje:
- V centralizovaného modelu zásad správného řízeníjsou správci zásad správného řízení vlastníky metastoru a mohou převzít vlastnictví libovolného objektu a udělit a odvolat oprávnění.
- V distribuovaném modelu zásad správného řízení, katalog nebo sada katalogů je datová doména. Vlastník tohoto katalogu může vytvářet a vlastnit všechny prostředky a spravovat zásady správného řízení v rámci této domény. Vlastníci jakékoli dané domény můžou pracovat nezávisle na vlastnících jiných domén.
Řešení správy dat a AI Unity Catalog je integrováno do Databricks Data Intelligence Platform. Podporuje jak modely zásad správného řízení, tak i bezproblémovou správu strukturovaných a nestrukturovaných dat, modelů ML, poznámkových bloků, řídicích panelů a souborů na libovolném cloudu nebo platformě. Osvědčené postupy katalogu Unity pomáhají implementovat správu dat a AI.
Správa metadat pro všechna data a prostředky AI na jednom místě
Výhody správy metadat pro všechny prostředky na jednom místě jsou podobné výhodám zachování jediného zdroje pravdy pro všechna vaše data. Patří mezi ně omezená redundance dat, zvýšená integrita dat a odstranění nedorozumění z důvodu různých definic nebo taxonomií. Je také jednodušší implementovat globální zásady, standardy a pravidla s jedním zdrojem.
Osvědčeným postupem je provozovat lakehouse v jednom účtu s Unity Catalogem. Katalog Unity může spravovat data a svazky (libovolné soubory) a také prostředky AI, jako jsou funkce a modely AI. Kontejner objektů nejvyšší úrovně v katalogu Unity je metastor. Ukládá datové prostředky (například tabulky a zobrazení) a oprávnění, která řídí přístup k nim. Pokud se chcete vyhnout problémům s latencí, použijte jeden metastor pro každou oblast cloudu a nepřistupujte k metastorům napříč oblastmi.
Metastor poskytuje tříúrovňový obor názvů pro strukturování dat, svazků a prostředků AI:
Databricks doporučuje používat katalogy k zajištění oddělení napříč informační architekturou vaší organizace. Často to znamená, že katalogy můžou odpovídat oboru prostředí vývoje softwaru, týmu nebo obchodní jednotce.
Sledování dat a rodokmenu AI za účelem zajištění viditelnosti dat
Rodokmen dat je výkonný nástroj, který pomáhá vedoucím pracovníkům dat získat lepší přehled a porozumění datům v jejich organizacích. Rodokmen dat popisuje transformaci a upřesnění dat ze zdroje do přehledu. Zahrnuje zachycení všech relevantních metadat a událostí přidružených k datům v průběhu životního cyklu, včetně zdroje sady dat, toho, jaké další sady dat byly použity k jeho vytvoření, kdo je vytvořil a kdy, jaké transformace byly provedeny, jaké další sady dat ji používají, a mnoho dalších událostí a atributů.
Kromě toho můžete při trénování modelu na tabulce v katalogu Unity sledovat rodokmen modelu k upstreamovým datovým sadám, na kterých byl natrénován a vyhodnocen.
Rodokmen lze použít pro mnoho případů použití souvisejících s daty:
- Dodržování předpisů a připravenost na audit: Datová linie pomáhá organizacím sledovat původ tabulek a polí. To je důležité pro splnění požadavků mnoha předpisů pro dodržování předpisů, jako jsou obecné nařízení o ochraně osobních údajů (GDPR), Zákon o ochraně spotřebitele v Kalifornii (CCPA), zákon o přenositelnosti a odpovědnosti za zdravotní pojištění (HIPAA), Basilejská komise pro bankovní dohled (BCBS) 239 a Sarbanes-Oxley Act (SOX).
- analýza dopadu nebo správa změn: Data procházejí několika transformacemi ze zdroje do konečné tabulky připravené pro firmy. Pochopení potenciálního dopadu změn dat na podřízené uživatele je důležité z hlediska řízení rizik. Tento dopad lze snadno určit pomocí rodokmenu dat zachyceného katalogem Unity.
- zajištění kvality dat: Porozumění tomu, odkud sada dat pochází a z jakých transformací byla použita, poskytuje mnohem lepší kontext pro datové vědce a analytiky, což jim umožňuje získat lepší a přesnější přehledy.
- Ladění a diagnostika: V případě neočekávaného výsledku pomáhá rodokmen dat datovým týmům provádět analýzu původní příčiny trasováním chyby zpět do zdroje. Tím se výrazně zkracuje doba řešení potíží.
Unity Catalog zachytává modul runtime rodokmen dat napříč dotazy spuštěnými v Azure Databricks a také rodokmen modelu. Rodokmen je podporovaný pro všechny jazyky a je zachycený na úrovni sloupce. Data rodokmenu zahrnují poznámkové bloky, úlohy a řídicí panely související s dotazem. Rodokmen lze vizualizovat téměř v reálném čase v průzkumníku katalogu a přistupovat k němu pomocí rozhraní REST API rodokmenu dat Databricks.
Přidání konzistentních popisů do metadat
Popisy poskytují základní kontext pro data. Pomáhají uživatelům pochopit účel a obsah tabulek a sloupců dat. Tato přehlednost jim umožňuje snadněji zjišťovat, identifikovat a filtrovat potřebná data, což je důležité pro efektivní analýzu dat a rozhodování. Popisy můžou zahrnovat citlivost dat a informace o dodržování předpisů. To pomáhá organizacím splňovat právní a zákonné požadavky na ochranu osobních údajů a zabezpečení dat. Popisy by také měly obsahovat informace o zdroji, přesnosti a relevance dat. To pomáhá zajistit integritu dat a podporovat lepší spolupráci napříč týmy.
Dvě hlavní funkce katalogu Unity podporují popis tabulek a sloupců. Katalog Unity umožňuje
přidávat komentáře do tabulek a sloupců ve formě komentářů.
Můžete také přidat komentář vygenerovaný umělou inteligencí pro libovolnou tabulku nebo sloupec tabulky spravované Unity Catalog, aby se proces urychlil. Modely AI ale nejsou vždy přesné a před uložením musí být komentáře zkontrolovány. Databricks důrazně doporučuje lidský přezkum komentářů generovaných pomocí umělé inteligence, aby zkontroloval nepřesnosti.
přidejte značky k jakémukoli zabezpečitelnému objektu v Unity Catalog. Značky jsou atributy s klíči a volitelnými hodnotami, které můžete použít pro různé zabezpečitelné objekty v katalogu Unity. Označování je užitečné pro uspořádání a kategorizaci různých zabezpečitelných objektů v rámci metastoru. Použití značek také usnadňuje vyhledávání a zjišťování datových prostředků.
Povolit snadné zjišťování dat pro uživatele dat
Snadné zjišťování dat umožňuje datovým vědcům, datovým analytikům a datovým inženýrům rychle zjišťovat a odkazovat na relevantní data a zrychlit jejich hodnotu.
Průzkumník katalogu Databricks poskytuje uživatelské rozhraní pro zkoumání a správu dat, schémat (databází), tabulek a oprávnění, vlastníků dat, externích umístění a přihlašovacích údajů. Kromě toho můžete pomocí karty Přehledy v Průzkumníku katalogu zobrazit nejčastější dotazy a uživatele libovolné tabulky zaregistrované v katalogu Unity.
Řízení prostředků AI společně s daty
Pro úspěch je zásadní vztah mezi zásadami správného řízení dat a umělou inteligencí (AI). Jak organizace spravují, zabezpečují a používají data přímo ovlivňují výsledky a aspekty implementací AI: Nemůžete mít AI bez kvalitních dat a nemůžete mít kvalitní data bez zásad správného řízení dat.
Společné řízení dat a umělé inteligence zlepšuje výkon AI tím, že zajišťuje bezproblémový přístup k vysoce kvalitním a aktuálním datům, což vede ke zlepšení přesnosti a lepšímu rozhodování. Rozdělení sila zvyšuje efektivitu tím, že umožňuje lepší spolupráci a zjednodušení pracovních postupů, což vede ke zvýšení produktivity a snížení nákladů.
Lepší zabezpečení dat je další výhodou, protože jednotný přístup k zásadám správného řízení zavádí konzistentní postupy zpracování dat, snižuje ohrožení zabezpečení a zlepšuje schopnost organizace chránit citlivé informace. Dodržování předpisů pro ochranu osobních údajů dat je snazší udržovat, když jsou data a zásady správného řízení umělé inteligence integrované, protože zpracování dat a procesy AI jsou v souladu se zákonnými požadavky.
Jednotný přístup k zásadám správného řízení podporuje důvěru mezi zúčastněnými stranami a zajišťuje transparentnost rozhodovacích procesů umělé inteligence tím, že zavádí jasné zásady a postupy pro data i AI.
V platformě Databricks Data Intelligence Platform je katalog Unity ústřední komponentou pro řízení dat i prostředků AI:
Funkce v katalogu Unity
V pracovních prostorech s podporou katalogu Unity můžou datoví vědci vytvářet tabulky funkcí v katalogu Unity. Tyto tabulky funkcí jsou tabulky Delta nebo tabulky Delta Live Tables spravované katalogem Unity.
-
Modely v katalogu Unity rozšiřují výhody katalogu Unity na modely ML, včetně centralizovaného řízení přístupu, auditování, rodokmenu a zjišťování modelů napříč pracovními prostory. Mezi klíčové funkce modelů v katalogu Unity patří zásady správného řízení pro modely, rodokmen chronologického modelu, správa verzí modelů a nasazení modelů prostřednictvím aliasů.
2. Sjednocení dat a zabezpečení umělé inteligence
Centralizované řízení přístupu pro všechna data a prostředky AI
Centralizace řízení přístupu pro všechny datové prostředky je důležitá, protože zjednodušuje zabezpečení a zásady správného řízení vašich dat a prostředků AI tím, že poskytuje centrální místo pro správu a audit přístupu k těmto prostředkům. Tento přístup pomáhá efektivněji spravovat data a přístup k objektům AI a zajistit, aby se vynucují provozní požadavky týkající se oddělení povinností, což je zásadní pro dodržování právních předpisů a předcházení rizikům.
Databricks Data Intelligence Platform poskytuje metody řízení přístupu k datům, které popisují, ke kterým skupinám nebo jednotlivcům mají přístup. Jedná se o prohlášení o zásadách, která mohou být velmi podrobná a specifická, až po definici každého záznamu, ke kterému má každý jednotlivec přístup. Nebo můžou být velmi výrazné a široké, například všichni finanční uživatelé vidí všechna finanční data.
Katalog Unity centralizuje řízení přístupu pro všechny podporované zabezpečitelné objekty jako tabulky, soubory, modely a mnoho dalších. Každý zabezpečitelný objekt v katalogu Unity má vlastníka. Vlastník objektu má všechna oprávnění k objektu a také možnost udělit oprávnění k zabezpečitelnému objektu jiným subjektům. Katalog Unity umožňuje spravovat oprávněnía konfigurovat řízení přístupu pomocí příkazů SQL DDL.
Katalog Unity používá filtry řádků a masky sloupců pro jemně odstupňované řízení přístupu. Filtry řádků umožňují použít filtr na tabulku, aby následné dotazy vracely pouze řádky, pro které se predikát filtru vyhodnotí jako true. Masky sloupců umožňují použít funkci maskování u sloupce tabulky. Funkce maskování se vyhodnocuje za běhu dotazu a každý odkaz na cílový sloupec se nahrazuje výsledky funkce maskování.
Další informace najdete v tématu Zabezpečení, dodržování předpisů a ochrana osobních údajů – Správa identit a přístupu s využitím nejnižších oprávnění.
Konfigurace protokolování auditu
Protokolování auditu je důležité, protože poskytuje podrobný účet systémových aktivit (akce uživatelů, změny nastavení atd.), které by mohly ovlivnit integritu systému. Standardní systémové protokoly jsou navržené tak, aby vývojářům pomohly řešit problémy, ale protokoly auditu poskytují historický záznam o aktivitě pro dodržování předpisů a další účely vynucení obchodních zásad. Udržování robustních protokolů auditu může pomoct identifikovat a zajistit připravenost na hrozby, porušení zabezpečení, podvody a další systémové problémy.
Databricks poskytuje přístup k protokolům auditu aktivit provedených uživateli Databricks, což organizaci umožňuje monitorovat podrobné vzory použití Databricks. Existují dva typy protokolů, protokoly auditu na úrovni pracovního prostoru s událostmi na úrovni pracovního prostoru a protokoly auditu na úrovni účtu s událostmi na úrovni účtu.
Můžete také povolit podrobné protokoly auditu, které se zaznamenávají při každém spuštění dotazu nebo příkazu ve vašem pracovním prostoru.
Auditování událostí datové platformy
Protokolování auditu je důležité, protože poskytuje podrobný účet systémových aktivit. Platforma Data Intelligence má protokoly auditu pro přístup k metadatům (proto přístup k datům) a pro sdílení dat:
- Unity Catalog zaznamenává protokol auditu akcí provedených v metastoru. Správci tak mají přístup k podrobným podrobnostem o tom, kdo získal přístup k dané datové sadě a jaké akce provedli.
- Azure Databricks poskytuje protokoly auditu pro monitorování událostí rozdílového sdílení, včetně následujících:
- Když někdo vytvoří, upraví, aktualizuje nebo odstraní sdílenou složku nebo příjemce.
- Když příjemce přistupuje k aktivačnímu odkazu a stáhne přihlašovací údaje.
- Když příjemce přistupuje ke sdíleným složkám nebo datům ve sdílených tabulkách.
- Když se přihlašovací údaje příjemce otočí nebo vyprší jeho platnost.
3. Stanovení standardů kvality dat
Platforma Databricks Data Intelligence poskytuje robustní správu kvality dat s integrovanými kontrolami kvality, testováním, monitorováním a vynucováním, aby byla zajištěna přesná a užitečná data pro podřízené úlohy BI, analýzy a strojového učení.
Podrobnosti o implementaci je možné vidět v oblasti Spolehlivost – Správa kvality dat.
Definování jasných standardů kvality dat
Definování jasných a použitelných standardů kvality dat je zásadní, protože pomáhá zajistit, aby data používaná k analýze, vytváření sestav a rozhodování byla spolehlivá a důvěryhodná. Dokumentování těchto standardů pomáhá zajistit, aby byly zachovány. Standardy kvality dat by měly být založeny na konkrétních potřebách firmy a měly by řešit rozměry kvality dat, jako je přesnost, úplnost, konzistence, aktuálnost a spolehlivost:
- Přesnost: Zajistěte, aby data přesně odrážela skutečné hodnoty.
- Úplnost: Všechna potřebná data by se měla zachytit a žádná kritická data by neměla chybět.
- Konzistence: Data ve všech systémech by měla být konzistentní a neměla by být v rozporu s jinými daty.
- Aktuálnost: Data by měla být aktualizována a k dispozici včas.
- Spolehlivost: Data by měla být zdrojem a zpracována způsobem, který zajišťuje jejich spolehlivost.
Použití nástrojů pro kvalitu dat k profilaci, čištění, ověřování a monitorování dat
Využijte nástroje pro kvalitu dat pro profilaci, čištění, ověřování a monitorování dat. Tyto nástroje pomáhají automatizovat procesy zjišťování a oprav problémů s kvalitou dat, což je nezbytné pro škálování iniciativ kvality dat napříč velkými datovými sadami typickými v datových jezerech.
U týmů používajících DLT můžete pomocí očekávání definovat omezení kvality dat u obsahu datové sady. Očekávání umožňují zaručit, že data přicházející do tabulek splňují požadavky na kvalitu dat a poskytují přehled o kvalitě dat pro každou aktualizaci kanálu.
Implementace a vynucení standardizovaných formátů a definic dat
Standardizované formáty dat a definice pomáhají dosáhnout konzistentního znázornění dat ve všech systémech, aby se usnadnila integrace a analýza dat, snížily náklady a zlepšily rozhodování zvýšením komunikace a spolupráce napříč týmy a odděleními. Pomáhá také poskytovat strukturu pro vytváření a udržování kvality dat.
Vyvíjejte a vynucujte standardní datový slovník, který obsahuje definice, formáty a přijatelné hodnoty pro všechny datové prvky používané v rámci organizace.
Používejte konzistentní zásady vytváření názvů, formáty kalendářních dat a měrné jednotky ve všech databázích a aplikacích, abyste zabránili nesrovnalostem a nejasnostem.