Sdílet prostřednictvím


Osvědčené postupy pro data a zásady správného řízení AI

Tento článek popisuje osvědčené postupy pro data a zásady správného řízení AI uspořádané podle principů architektury uvedených v následujících částech.

1. Sjednocení dat a správy AI

Vytvoření procesu zásad správného řízení dat a AI

Správa dat a AI je správa dostupnosti, použitelnosti, integrity a zabezpečení dat a prostředků umělé inteligence organizace. Díky posílení zásad správného řízení dat a umělé inteligence můžou organizace zajistit kvalitu prostředků, které jsou důležité pro přesnou analýzu a rozhodování, pomáhají identifikovat nové příležitosti, zlepšit spokojenost zákazníků a nakonec zvýšit výnosy. Pomáhá organizacím dodržovat předpisy na ochranu osobních údajů a AI a zlepšit bezpečnostní opatření, což snižuje riziko porušení zabezpečení a sankcí. Efektivní zásady správného řízení dat a umělé inteligence také eliminují redundanci a zjednodušují správu dat, což vede k úsporám nákladů a vyšší provozní efektivitě.

Organizace může chtít zvolit, který model zásad správného řízení nejlépe vyhovuje:

  • V centralizovaného modelu zásad správného řízeníjsou správci zásad správného řízení vlastníky metastoru a mohou převzít vlastnictví libovolného objektu a grant a revoke oprávnění.
  • V distribuovaném modelu řízeníje catalog nebo setcatalogs datovou doménou. Vlastník této domény catalog může vytvářet a vlastnit veškerá aktiva a řídit správu v rámci této domény. Vlastníci jakékoli dané domény můžou pracovat nezávisle na vlastnících jiných domén.

Řešení zásad správného řízení dat a AI Unity Catalog je integrované do platformy Databricks Data Intelligence Platform. Podporuje jak modely zásad správného řízení, tak i bezproblémovou správu strukturovaných a nestrukturovaných dat, modelů ML, poznámkových bloků, řídicích panelů a souborů na libovolném cloudu nebo platformě. Osvědčené postupy Unity Catalog pomáhají implementovat data a zásady správného řízení AI.

Správa metadat pro všechna data a prostředky AI na jednom místě

Výhody správy metadat pro všechny prostředky na jednom místě jsou podobné výhodám zachování jediného zdroje pravdy pro všechna vaše data. Patří mezi ně omezená redundance dat, zvýšená integrita dat a odstranění nedorozumění z důvodu různých definic nebo taxonomií. Je také jednodušší implementovat globální zásady, standardy a pravidla s jedním zdrojem.

Osvědčeným postupem je spustit lakehouse v jediném účtu s Unity Catalog. Unity Catalog může spravovat data a volumes (libovolné soubory) a také prostředky AI, jako jsou funkce a modely AI. Kontejner objektů nejvyšší úrovně v Unity Catalog je metastore. Ukládá datové prostředky (například tables a views) a oprávnění, která k nim řídí přístup. Pokud se chcete vyhnout problémům s latencí, použijte jeden metastor pro každou oblast cloudu a nepřistupujte k metastores napříč oblastmi.

Metastore poskytuje tříúrovňový obor názvů pro strukturování dat, volumes a prostředků AI:

Databricks doporučuje používat catalogs k zajištění oddělení napříč informační architekturou vaší organizace. Často to znamená, že catalogs může odpovídat rozsahu prostředí vývoje softwaru, týmu nebo obchodní jednotce.

Sledování dat a rodokmenu AI za účelem zajištění viditelnosti dat

Rodokmen dat je výkonný nástroj, který pomáhá vedoucím pracovníkům dat získat lepší přehled a porozumění datům v jejich organizacích. Rodokmen dat popisuje transformaci a upřesnění dat ze zdroje do přehledu. Zahrnuje zachycení všech relevantních metadat a událostí přidružených k datům v průběhu jejich životního cyklu, včetně zdroje dat set, toho, jaké další datové sady byly použity k jeho vytvoření, kdo je vytvořil a kdy, jaké transformace byly provedeny, jaké další sady dat ji používají, a mnoho dalších událostí a atributů.

Kromě toho při trénování modelu na table v Unity Catalogmůžete sledovat rodokmen modelu k nadřazeným datovým sadám, na kterých byl natrénován a vyhodnocen.

Rodokmen lze použít pro mnoho případů použití souvisejících s daty:

  • Dodržování předpisů a připravenost k auditu: Sledování dat pomáhá organizacím sledovat zdroj tables a polí. To je důležité pro splnění požadavků mnoha předpisů pro dodržování předpisů, jako jsou obecné nařízení o ochraně osobních údajů (GDPR), Zákon o ochraně spotřebitele v Kalifornii (CCPA), zákon o přenositelnosti a odpovědnosti za zdravotní pojištění (HIPAA), Basilejská komise pro bankovní dohled (BCBS) 239 a Sarbanes-Oxley Act (SOX).
  • analýza dopadu nebo správa změn: Data procházejí několika transformacemi ze zdroje do konečného tablepřipraveného pro firmu . Pochopení potenciálního dopadu změn dat na podřízené uživatele je důležité z hlediska řízení rizik. Tento dopad lze snadno určit pomocí provenience dat zachycené pomocí Unity Catalog.
  • zajištění kvality dat: Pochopení where dat, ze kterých set pochází, a o tom, jaké transformace byly použity, poskytují mnohem lepší kontext pro datové vědce a analytiky, což jim umožňuje získat lepší a přesnější přehledy.
  • Ladění a diagnostika: V případě neočekávaného výsledku pomáhá rodokmen dat datovým týmům provádět analýzu původní příčiny trasováním chyby zpět do zdroje. Tím se výrazně zkracuje doba řešení potíží.

Unity Catalog zaznamenává modul runtime rodokmen dat napříč dotazy spuštěnými v Azure Databricks a také rodokmen modelu. Rodokmen je podporován pro všechny jazyky a je zachycen na úrovni column. Data rodokmenu zahrnují poznámkové bloky, úlohy a řídicí panely související s dotazem. Rodokmen je možné vizualizovat téměř v reálném čase v Průzkumníku a přistupovat k němu pomocí rozhraní REST API rodokmenu dat Databricks.

Přidání konzistentních popisů do metadat

Popisy poskytují základní kontext pro data. Pomáhají uživatelům pochopit účel a obsah tables dat a columns. Tato přehlednost jim umožňuje snadněji zjišťovat, identifikovat a filtrovat potřebná data, což je důležité pro efektivní analýzu dat a rozhodování. Popisy můžou zahrnovat citlivost dat a informace o dodržování předpisů. To pomáhá organizacím splňovat právní a zákonné požadavky na ochranu osobních údajů a zabezpečení dat. Popisy by také měly obsahovat informace o zdroji, přesnosti a relevance dat. To pomáhá zajistit integritu dat a podporovat lepší spolupráci napříč týmy.

Dvě hlavní vlastnosti v Unity Catalog podporují popis tables a columns. Unity Catalog umožňuje

  • přidat komentáře do tables a columns ve formě komentářů.

    Můžete také přidat komentáře generované AI pro všechny nebo spravované unity , aby se proces urychlil. Modely AI ale nejsou vždy přesné a před uložením musí být komentáře zkontrolovány. Databricks důrazně doporučuje lidský přezkum komentářů generovaných pomocí umělé inteligence, aby zkontroloval nepřesnosti.

  • přidat značky do libovolného zabezpečitelného objektu v Unity Catalog. Značky jsou atributy s klíči a volitelnou hodnotou values, které můžete použít na různé objekty pro zabezpečení v Unity Catalog. Označování je užitečné pro uspořádání a kategorizaci různých zabezpečitelných objektů v rámci metastoru. Použití značek také usnadňuje vyhledávání a zjišťování datových prostředků.

Povolit snadné zjišťování dat pro uživatele dat

Snadné zjišťování dat umožňuje datovým vědcům, datovým analytikům a datovým inženýrům rychle zjišťovat a odkazovat na relevantní data a zrychlit jejich hodnotu.

Databricks Catalog Explorer poskytuje uživatelské rozhraní pro zkoumání a správu dat, schémat (databází), tables, oprávnění, vlastníků dat, externích umístění a credentials. Kromě toho můžete pomocí karty Přehledy v Průzkumníku Catalogzobrazit nejčastější dotazy a uživatele všech table zaregistrovaných v Unity Catalog.

Řízení prostředků AI společně s daty

Pro úspěch je zásadní vztah mezi zásadami správného řízení dat a umělou inteligencí (AI). Jak organizace spravují, zabezpečují a používají data přímo ovlivňují výsledky a aspekty implementací AI: Nemůžete mít AI bez kvalitních dat a nemůžete mít kvalitní data bez zásad správného řízení dat.

Společné řízení dat a umělé inteligence zlepšuje výkon AI tím, že zajišťuje bezproblémový přístup k vysoce kvalitním a aktuálním datům, což vede ke zlepšení přesnosti a lepšímu rozhodování. Rozdělení sila zvyšuje efektivitu tím, že umožňuje lepší spolupráci a zjednodušení pracovních postupů, což vede ke zvýšení produktivity a snížení nákladů.

Lepší zabezpečení dat je další výhodou, protože jednotný přístup k zásadám správného řízení zavádí konzistentní postupy zpracování dat, snižuje ohrožení zabezpečení a zlepšuje schopnost organizace chránit citlivé informace. Dodržování předpisů pro ochranu osobních údajů dat je snazší udržovat, když jsou data a zásady správného řízení umělé inteligence integrované, protože zpracování dat a procesy AI jsou v souladu se zákonnými požadavky.

Jednotný přístup k zásadám správného řízení podporuje důvěru mezi zúčastněnými stranami a zajišťuje transparentnost rozhodovacích procesů umělé inteligence tím, že zavádí jasné zásady a postupy pro data i AI.

V platformě Databricks Data Intelligence Platform je Catalog Unity ústřední komponentou pro řízení dat i prostředků AI:

  • Funkce v Unity Catalog

    V pracovních prostorech s podporou Unity Catalog mohou datoví vědci vytvářet funkce tables v Unity Catalog. Tyto funkce tables jsou spravovány CatalogUnity jako Delta tables nebo Delta Live Tables.

  • modely v Unity Catalog

    Modely v Unity Catalog rozšiřují výhody unity Catalog na modely ML, včetně centralizovaného řízení přístupu, auditování, rodokmenu a zjišťování modelů napříč pracovními prostory. Mezi klíčové funkce modelů v Unity Catalog patří zásady správného řízení pro modely, chronologickou rodokmen modelu, správa verzí modelů a nasazení modelu prostřednictvím aliasů.

2. Sjednocení dat a zabezpečení umělé inteligence

Centralizované řízení přístupu pro všechna data a prostředky AI

Centralizace řízení přístupu pro všechny datové prostředky je důležitá, protože zjednodušuje zabezpečení a zásady správného řízení vašich dat a prostředků AI tím, že poskytuje centrální místo pro správu a audit přístupu k těmto prostředkům. Tento přístup pomáhá efektivněji spravovat data a přístup k objektům AI a zajistit, aby se vynucují provozní požadavky týkající se oddělení povinností, což je zásadní pro dodržování právních předpisů a předcházení rizikům.

Databricks Data Intelligence Platform poskytuje metody řízení přístupu k datům, které popisují, ke kterým skupinám nebo jednotlivcům mají přístup. Jedná se o prohlášení o zásadách, která mohou být velmi podrobná a specifická, až po definici každého záznamu, ke kterému má každý jednotlivec přístup. Nebo můžou být velmi výrazné a široké, například všichni finanční uživatelé vidí všechna finanční data.

Unity Catalog centralizuje řízení přístupu pro všechny podporované zabezpečitelné objekty jako tables, soubory, modely a mnoho dalších. Každý zabezpečitelný objekt v Unity Catalog má vlastníka. Vlastník objektu má všechna oprávnění k objektu a také možnost grant oprávnění k zabezpečenému objektu dalším subjektům. Unity Catalog umožňuje spravovat oprávněnía konfigurovat řízení přístupu pomocí příkazů SQL DDL.

Unity Catalog používá filtry řádků a masky column pro jemné řízení přístupu. Filtry řádků umožňují použít filtr na table tak, aby následné dotazy vracely pouze řádky, pro které se predikát filtru vyhodnotí jako true. Column masky umožňují použít funkci maskování na tablecolumn. Funkce maskování se vyhodnocuje za běhu dotazu, přičemž každý odkaz na cílový column nahrazuje výsledky funkce maskování.

Další informace najdete v tématu Zabezpečení, dodržování předpisů a ochrana osobních údajů – Správa identit a přístupu s využitím nejnižších oprávnění.

Konfigurace protokolování auditu

Protokolování auditu je důležité, protože poskytuje podrobný účet systémových aktivit (akce uživatelů, změny nastavení atd.), které by mohly ovlivnit integritu systému. Standardní systémové protokoly jsou navržené tak, aby vývojářům pomohly řešit problémy, ale protokoly auditu poskytují historický záznam o aktivitě pro dodržování předpisů a další účely vynucení obchodních zásad. Udržování robustních protokolů auditu může pomoct identifikovat a zajistit připravenost na hrozby, porušení zabezpečení, podvody a další systémové problémy.

Databricks poskytuje přístup k protokolům auditu aktivit provedených uživateli Databricks, což organizaci umožňuje monitorovat podrobné vzory použití Databricks. Existují dva typy protokolů, protokoly auditu na úrovni pracovního prostoru s událostmi na úrovni pracovního prostoru a protokoly auditu na úrovni účtu s událostmi na úrovni účtu.

Můžete také povolit podrobné protokoly auditu, které se zaznamenávají při každém spuštění dotazu nebo příkazu ve vašem pracovním prostoru.

Auditování událostí datové platformy

Protokolování auditu je důležité, protože poskytuje podrobný účet systémových aktivit. Platforma Data Intelligence má protokoly auditu pro přístup k metadatům (proto přístup k datům) a pro sdílení dat:

  • Unity Catalogzaznamenává auditní protokol akcí prováděných proti metastoru. Správci tak mají přístup k podrobným podrobnostem o tom, kdo získal přístup k dané datové sadě a jaké akce provedli.
  • Azure Databricks poskytuje protokoly auditu pro monitorování událostí rozdílového sdílení, včetně následujících:
    • Když někdo vytvoří, upraví, aktualizuje nebo odstraní sdílenou složku nebo příjemce.
    • Když příjemce přistupuje k aktivačnímu odkazu a stáhne přihlašovací údaje.
    • Když příjemce přistupuje k shares nebo ke sdílenému tablesdatům.
    • Když se přihlašovací údaje příjemce otočí nebo vyprší jeho platnost.

3. Stanovení standardů kvality dat

Platforma Databricks Data Intelligence poskytuje robustní správu kvality dat s integrovanými kontrolami kvality, testováním, monitorováním a vynucováním, aby byla zajištěna přesná a užitečná data pro podřízené úlohy BI, analýzy a strojového učení.

Podrobnosti o implementaci je možné vidět v oblasti Spolehlivost – Správa kvality dat.

Definování jasných standardů kvality dat

Definování jasných a použitelných standardů kvality dat je zásadní, protože pomáhá zajistit, aby data používaná k analýze, vytváření sestav a rozhodování byla spolehlivá a důvěryhodná. Dokumentování těchto standardů pomáhá zajistit, aby byly zachovány. Standardy kvality dat by měly být založeny na konkrétních potřebách firmy a měly by řešit rozměry kvality dat, jako je přesnost, úplnost, konzistence, aktuálnost a spolehlivost:

  • Přesnost: Zajistěte, aby data přesně reprezentovala skutečný svět values.
  • Úplnost: Všechna potřebná data by se měla zachytit a žádná kritická data by neměla chybět.
  • Konzistence: Data ve všech systémech by měla být konzistentní a neměla by být v rozporu s jinými daty.
  • Aktuálnost: Data by měla být aktualizována a k dispozici včas.
  • Spolehlivost: Data by měla být zdrojem a zpracována způsobem, který zajišťuje jejich spolehlivost.

Použití nástrojů pro kvalitu dat k profilaci, čištění, ověřování a monitorování dat

Využijte nástroje pro kvalitu dat pro profilaci, čištění, ověřování a monitorování dat. Tyto nástroje pomáhají automatizovat procesy zjišťování a oprav problémů s kvalitou dat, což je nezbytné pro škálování iniciativ kvality dat napříč velkými datovými sadami typickými v datových jezerech.

U týmů používajících DLT můžete pomocí očekávání definovat omezení kvality dat u obsahu datové sady. Očekávání umožňují zaručit, že data přicházející do tables splňují požadavky na kvalitu dat a poskytují přehled o kvalitě dat pro každý kanál update.

Implementace a vynucení standardizovaných formátů a definic dat

Standardizované formáty dat a definice pomáhají dosáhnout konzistentního znázornění dat ve všech systémech, aby se usnadnila integrace a analýza dat, snížily náklady a zlepšily rozhodování zvýšením komunikace a spolupráce napříč týmy a odděleními. Pomáhá také poskytovat strukturu pro vytváření a udržování kvality dat.

Vyvíjejte a vynucujte standardní datový slovník, který obsahuje definice, formáty a přijatelné values pro všechny datové prvky používané v organizaci.

Používejte konzistentní zásady vytváření názvů, formáty kalendářních dat a měrné jednotky ve všech databázích a aplikacích, abyste zabránili nesrovnalostem a nejasnostem.