Osvědčené postupy pro efektivitu provozu
Tento článek popisuje osvědčené postupy efektivity provozu uspořádané podle principů architektury uvedených v následujících částech.
1. Optimalizace procesů sestavení a vydávání verzí
Vytvoření vyhrazeného provozního týmu Lakehouse
Běžným osvědčeným postupem je mít provozní tým platformy, který datovým týmům umožní pracovat na jedné nebo více datových platformách. Tento tým zodpovídá za interní vytváření podrobných plánů a osvědčených postupů. Poskytují nástroje – například pro automatizaci infrastruktury a samoobslužný přístup – a zajišťují splnění požadavků na zabezpečení a dodržování předpisů. To klade zatěžování zabezpečení dat platformy v centrálním týmu, což umožňuje distribuovaným týmům soustředit se na práci s daty a generování nových přehledů.
Použití správy zdrojového kódu organizace (SCM)
Správa zdrojového kódu (SCM) pomáhá vývojářům efektivněji pracovat, což může vést k rychlejšímu vydávání verzí a snížení nákladů na vývoj. Nástroj, který pomáhá sledovat změny, udržovat integritu kódu, zjišťovat chyby a vrátit se zpět k předchozím verzím, je důležitou součástí celkové architektury řešení.
Složky Gitu Databricks umožňují uživatelům ukládat poznámkové bloky nebo jiné soubory v úložišti Git. Poskytují funkce, jako je klonování úložiště, potvrzení a nabízení, vyžádání, správa větví a zobrazení rozdílů souborů. Pomocí složek Git můžete zlepšit viditelnost a sledování kódu.
Standardizace procesů DevOps (CI/CD)
Kontinuální integrace a průběžné doručování (CI/CD) odkazuje na vývoj a nasazování softwaru v krátkých a častých cyklech s využitím automatizovaných kanálů. I když se nejedná o nový proces, který byl v tradičním softwarovém inženýrství už deset let všudypřítomný, stává se stále důležitějším procesem pro datové inženýrství a týmy datových věd. Aby byly datové produkty cenné, musí být doručeny včas. Spotřebitelé navíc musí mít důvěru v platnost výsledků v rámci těchto výrobků. Díky automatizaci procesu sestavování, testování a nasazování kódu můžou vývojové týmy dodávat vydané verze častěji a spolehlivěji než ruční procesy, které stále dominují mnoha týmům přípravy dat a datových věd. Podívejte se, co je CI/CD v Azure Databricks?
Další informace o osvědčených postupech pro vývoj kódu pomocí složek Git Databricks najdete v technikách CI/CD se složkami Gitu a Gitu Databricks (Repos). Společně s rozhraním Databricks REST API můžete vytvářet automatizované procesy nasazení pomocí akcí GitHubu, kanálů Azure DevOps nebo úloh Jenkinse.
Standardizace procesů MLOps
Procesy MLOps poskytují reprodukovatelnost kanálů ML, což umožňuje užší spolupráci napříč datovými týmy, omezení konfliktů s devops a IT a zrychlení rychlosti vydávání. S tím, kolik modelů se používá k řízení klíčových obchodních rozhodnutí, standardizace procesů MLops zajišťuje, že se modely vyvíjejí, testují a nasazují konzistentně a spolehlivě.
Vytváření a nasazování modelů ML je složité. Existuje mnoho možností, jak toho dosáhnout, ale málo v cestě dobře definovaných standardů. V důsledku toho jsme v posledních několika letech viděli vznik operací strojového učení (MLOps). MLOps je sada procesů a automatizace pro správu modelů, dat a kódu za účelem zlepšení stability výkonu a dlouhodobé efektivity v systémech ML. Zahrnuje přípravu dat, průzkumnou analýzu dat (EDA), přípravu funkcí, trénování modelů, ověřování modelů, nasazení a monitorování.
MLOps na platformě Databricks vám může pomoct optimalizovat výkon a dlouhodobou efektivitu systému strojového učení (ML):
- Vždy mějte na paměti své obchodní cíle: Stejně jako základním účelem strojového učení v podniku je umožnit rozhodování a produkty řízené daty, základním účelem MLOps je zajistit, aby tyto aplikace řízené daty zůstaly stabilní, byly aktuální a měly i nadále pozitivní dopad na firmu. Při určování priorit technických prací na MLOps zvažte obchodní dopad: Umožňuje to nové případy obchodního použití? Zlepšuje produktivitu datových týmů? Snižuje provozní náklady nebo rizika?
- Správa modelů ML pomocí specializovaného, ale otevřeného nástroje: K sledování a správě modelů ML můžete použít MLflow – navržený pro životní cyklus modelu ML. Viz MLflow pro generativního AI agenta a životní cyklus ML modelu.
- Implementace MLOps modulárním způsobem: Stejně jako u jakékoli softwarové aplikace je kvalita kódu pro aplikaci ML nejdůležitější. Modularizovaný kód umožňuje testování jednotlivých komponent a snižuje potíže s budoucím refaktoringem kódu. Definujte jasné kroky (například trénování, vyhodnocení nebo nasazení), super kroky (jako je kanál trénování a nasazení) a zodpovědnosti, které objasňují modulární strukturu vaší aplikace ML.
Toto je podrobně popsáno v ebooku Databricks The Big Book of MLOps.
Definování strategie izolace prostředí
Pokud organizace používá datovou platformu, jako je Databricks, je často potřeba mít hranice izolace dat mezi prostředími (jako je vývoj a produkce) nebo mezi organizačními provozními jednotkami.
Standardy izolace se můžou pro vaši organizaci lišit, ale obvykle zahrnují následující očekávání:
- Uživatelé můžou získat přístup pouze k datům na základě zadaných pravidel přístupu.
- Data můžou spravovat jenom určené osoby nebo týmy.
- Data jsou fyzicky oddělená v úložišti.
- K datům je možné přistupovat pouze v určených prostředích.
V Databricks je pracovní prostor primárním prostředím pro zpracování dat a existuje několik scénářů, kdy samostatné pracovní prostory zlepšují celkové nastavení, například:
- Izolujte různé obchodní jednotky s vlastními pracovními prostory, abyste se vyhnuli sdílení správce pracovního prostoru a zajistili, že se mezi organizačními jednotkami nechtěně nesdílí žádné prostředky v Databricks.
- Izolace prostředí životního cyklu vývoje softwaru (například vývoj, příprava a produkce) Například samostatný produkční pracovní prostor umožňuje otestovat nové nastavení pracovního prostoru před jejich použitím v produkčním prostředí. Nebo produkční prostředí může vyžadovat přísnější nastavení pracovního prostoru než vývojové prostředí. Pokud musíte nasadit vývojová, přípravná a produkční prostředí v různých virtuálních sítích, potřebujete pro tři prostředí také různé pracovní prostory.
- Rozdělte pracovní prostory, abyste mohli překonat omezení prostředků: Cloudové účty nebo předplatná mají omezení prostředků. Rozdělení pracovních prostorů na různá předplatná nebo účty je jedním ze způsobů, jak zajistit, aby pro každý pracovní prostor bylo k dispozici dostatek prostředků. Kromě toho mají pracovní prostory Databricks také omezení prostředků. Rozdělení pracovních prostorů zajišťuje, aby úlohy v každém pracovním prostoru měly vždy přístup k celé sadě prostředků.
Existují však některé nevýhody sdílených pracovních prostorů, které by se měly považovat také za:
Spolupráce poznámkových bloků nefunguje napříč pracovními prostory.
U více pracovních prostorů je potřeba plně automatizovat nastavení i údržbu (Terraform, ARM, REST API nebo jiné prostředky). To je zvlášť důležité pro účely migrace.
Pokud je potřeba každý pracovní prostor zabezpečit v síťové vrstvě (například kvůli ochraně před exfiltrací dat), může být požadovaná síťová infrastruktura velmi náročná, zejména pro velký počet pracovních prostorů.
Je důležité najít rovnováhu mezi potřebou izolace a potřebou spolupráce a úsilím potřebným k jeho údržbě.
Definování strategie katalogu pro váš podnik
Společně se strategií izolace prostředí potřebují organizace strategii pro strukturování a oddělení metadat a dat. Data, včetně identifikovatelných osobních údajů, plateb nebo zdravotních údajů, mají vysoké potenciální riziko a s stále rostoucí hrozbou porušení zabezpečení dat je důležité oddělit a chránit citlivá data bez ohledu na to, jakou strategii organizace zvolíte. Oddělte citlivá data od necitlivých dat, a to logicky i fyzicky.
Organizace může vyžadovat, aby určité typy dat byly uloženy v konkrétních účtech nebo kontejnerech ve svém cloudovém tenantovi. Metastore katalogu Unity umožňuje strukturovat metadata podle svého tříúrovňového oboru názvů catalog > schema > tables/views/volumes
s umístěními úložiště nakonfigurovanými na úrovni metastoru, katalogu nebo schématu tak, aby tyto požadavky splňovala.
Požadavky organizace a dodržování předpisů často určují, že určitá data uchováváte jenom v určitých prostředích. Můžete také chtít zachovat produkční data izolovaná od vývojových prostředí nebo zajistit, aby se určité datové sady a domény nikdy nesloučily. V Databricks je pracovní prostor primárním výpočetním prostředím a katalogy jsou primární datovou doménou. Pomocí metastoru katalogu Unity můžou správci a vlastníci katalogu svázat katalogy s konkrétními pracovními prostory. Tyto vazby pracující s prostředím pomáhají zajistit, aby byly v pracovním prostoru k dispozici pouze určité katalogy bez ohledu na konkrétní oprávnění datového objektu udělená uživateli.
Úplnou diskuzi o těchto tématech najdete v tématu osvědčených postupů katalogu Unity
2. Automatizace nasazení a úloh
Použití infrastruktury jako kódu (IaC) pro nasazení a údržbu
Infrastruktura jako kód (IaC) umožňuje vývojářům a provozním týmům automaticky spravovat, monitorovat a zřizovat prostředky místo ruční konfigurace hardwarových zařízení, operačních systémů, aplikací a služeb.
HashiCorp Terraform je oblíbený opensourcový nástroj pro vytvoření zabezpečené a předvídatelné cloudové infrastruktury napříč několika poskytovateli cloudu. Poskytovatel Databricks Terraform spravuje pracovní prostory Azure Databricks a přidruženou cloudovou infrastrukturu pomocí flexibilního výkonného nástroje. Cílem poskytovatele Databricks Terraform je podporovat všechna rozhraní REST API Služby Azure Databricks, která podporují automatizaci nejkomplikovanějších aspektů nasazení a správy datových platforem. Zprostředkovatel Terraformu Databricks je doporučeným nástrojem pro spolehlivé nasazování a správu clusterů a úloh, zřizování pracovních prostorů Azure Databricks a konfiguraci přístupu k datům.
Standardizace konfigurací výpočetních prostředků
Standardizace výpočetních prostředí zajišťuje, aby se ve všech prostředích používal stejný software, knihovny a konfigurace. Tato konzistence usnadňuje reprodukování výsledků, ladění problémů a údržbu systémů napříč prostředími. Díky standardizovaným prostředím můžou týmy ušetřit čas a prostředky tím, že eliminují potřebu konfigurace a nastavení prostředí úplně od začátku. To také snižuje riziko chyb a nekonzistence, ke kterým může dojít během ručního nastavení. Standardizace také umožňuje implementaci konzistentních zásad zabezpečení a postupů napříč všemi prostředími. To může organizacím pomoct lépe řídit rizika a dodržovat zákonné požadavky. A konečně standardizace může organizacím pomoct lépe spravovat náklady snížením plýtvání a optimalizací využití prostředků.
Standardizace zahrnuje nastavení prostředí i průběžnou správu prostředků. Pro konzistentní nastavení doporučuje Databricks používat infrastrukturu jako kód. Pokud chcete zajistit konzistentně nakonfigurované výpočetní prostředky spuštěné v průběhu času, použijte zásady výpočetních prostředků. Správci pracovního prostoru Databricks můžou omezit oprávnění k vytváření výpočetních prostředků uživatele nebo skupiny na základě sady pravidel zásad. Můžou vynutit nastavení konfigurace Sparku a vynutit instalace knihoven v oboru clusteru. Pomocí výpočetních zásad můžete také definovat clustery velikosti trička (S, M, L) pro projekty jako standardní pracovní prostředí.
Použití automatizovaných pracovních postupů pro úlohy
Nastavení automatizovaných pracovních postupů pro úlohy může pomoct snížit nepotřebné ruční úlohy a zvýšit produktivitu procesem DevOps při vytváření a nasazování úloh. Platforma pro analýzu dat nabízí dva způsoby, jak to udělat:
Úlohy Databricks:
Úlohy Databricks orchestrují zpracování dat, strojové učení a analytické kanály na platformě Databricks Data Intelligence. Jedná se o plně spravovanou službu orchestrace integrovanou s platformou Databricks:
- Úlohy Databricks představují způsob, jak spouštět aplikace pro zpracování a analýzu dat v pracovním prostoru Databricks. Vaším úkolem může být jeden úkol nebo velký pracovní postup s více úkoly se složitými závislostmi. Databricks spravuje orchestraci úloh, správu clusteru, monitorování a hlášení chyb pro všechny vaše úlohy.
- Delta Live Tables je deklarativní architektura pro vytváření spolehlivých, udržovatelných a testovatelných datových pipeline. Definujete transformace, které chcete s daty provádět, a Delta Live Tables spravuje orchestraci úloh, správu clusteru, monitorování, kvalitu dat a zpracování chyb.
Externí orchestrátory:
Komplexní rozhraní REST API služby Azure Databricks používá externí orchestrátory k orchestraci prostředků, poznámkových bloků a úloh Databricks. Přečtěte si:
Doporučujeme použít úlohy Databricks pro všechny závislosti úkolů v Databricks a v případě potřeby integraci těchto zapouzdřených pracovních postupů do externího orchestrátoru.
Použití automatizovaného příjmu souborů a příjmu souborů řízených událostmi
Příjem souborů založených na událostech (vs. na základě plánu) má několik výhod, včetně efektivity, zvýšené aktuálnosti dat a příjmu dat v reálném čase. Spuštění úlohy pouze v případě, že dojde k události, zajistí, že nebudete ztrácet prostředky, což šetří peníze.
Automatické zavaděče postupně a efektivně zpracovává nové datové soubory při jejich doručení do cloudového úložiště. Může ingestovat mnoho formátů souborů, jako jsou JSON, CSV, PARQUET, AVRO, ORC, TEXT a BINARYFILE. Při použití vstupní složky v cloudovém úložišti automaticky zavaděč automaticky zpracovává nové soubory při jejich doručení.
U jednorázových příjmů dat zvažte místo toho použití příkazu COPY INTO
.
Použití architektur ETL pro datové kanály
I když je možné provádět úlohy ETL ručně, existuje mnoho výhod použití architektury. Architektura přináší do procesu ETL konzistenci a opakovatelnost. Díky poskytování předem připravených funkcí a nástrojů může architektura automatizovat běžné úlohy, což šetří čas a prostředky. Rámce ETL mohou zpracovávat velké objemy dat a podle potřeby je lze snadno škálovat nahoru nebo dolů. To usnadňuje správu prostředků a odpovídání na měnící se obchodní potřeby. Mnoho architektur zahrnuje integrované možnosti zpracování chyb a protokolování, což usnadňuje identifikaci a řešení problémů. Často zahrnují kontroly kvality dat a ověření, aby data splňovala určité standardy před jejich načtením do datového skladu nebo datového jezera.
Delta Live Tables je deklarativní architektura pro vytváření spolehlivých, udržovatelných a testovatelných kanálů zpracování dat. Definujete transformace, které chcete s daty provádět, a Delta Live Tables zpracovává orchestraci úloh, správu clusteru, monitorování, kvalitu dat a zpracování chyb.
Pomocí Delta Live Tables můžete definovat komplexní datové pipelines od počátku do konce v SQL nebo Pythonu: Určete zdroj dat, transformační logiku a cílový stav dat. Delta Live Tables udržuje závislosti a automaticky určuje infrastrukturu, ve které se má úloha spustit.
Pro správu kvality dat Delta Live Tables sledují trendy kvality dat v průběhu času a zabraňují vstupu špatných dat do tabulek prostřednictvím ověřování a kontrol integrity s předem definovanými zásadami chyb. Podívejte se na Co jsou tabulky Delta Live?.
Postupujte podle přístupu nasazení kódu pro úlohy ML.
Kód a modely se často asynchronně procházejí fázemi vývoje softwaru. Existují dva způsoby, jak toho dosáhnout:
- nasadit kód: Projekt ML je kódovaný ve vývojovém prostředí a tento kód se pak přesune do přípravného prostředí, kde se testuje. Po úspěšném testování se kód projektu nasadí do produkčního prostředí, kde se spustí.
- deploy model: Trénování modelu se provádí ve vývojovém prostředí. Vytvořený artefakt modelu se pak před nasazením modelu do produkčního prostředí přesune do přípravného prostředí pro kontroly ověření modelu.
Viz Vzory nasazení modelu.
Databricks doporučuje přístup nasazení kódu pro většinu případů použití. Mezi hlavní výhody tohoto modelu patří:
- To odpovídá tradičním pracovním postupům softwarového inženýrství pomocí známých nástrojů, jako jsou systémy Git a CI/CD.
- Podporuje automatizované přetrénování v uzamčeném prostředí.
- Vyžaduje pouze produkční prostředí, aby mělo přístup pro čtení k trénovacím datům.
- Poskytuje úplnou kontrolu nad trénovacím prostředím, což pomáhá zjednodušit reprodukovatelnost.
- Umožňuje týmu datových věd používat modulární a iterativní testování, které pomáhá koordinovat a vyvíjet ve větších projektech.
Toto je podrobně popsáno v ebooku Databricks The Big Book of MLOps.
Oddělení kódu a životního cyklu modelu pomocí registru modelů
Vzhledem k tomu, že životní cyklus modelů neodpovídá životnímu cyklu kódu 1:1, umožňuje Katalog Unity celý životní cyklus modelů ML spravovat ve své hostované verzi registru modelů MLflow. modely v katalogu Unity rozšiřují výhody katalogu Unity na modely ML, včetně centralizovaného řízení přístupu, auditování, rodokmenu a zjišťování modelů napříč pracovními prostory. Modely v katalogu Unity jsou kompatibilní s opensourcovým klientem Pythonu MLflow.
Automatizace sledování experimentů ML
Sledování experimentů ML je proces ukládání relevantních metadat pro každý experiment a uspořádání experimentů. Tato metadata zahrnují vstupy a výstupy experimentů, parametry, modely a další artefakty. Cílem sledování experimentů je vytvořit reprodukovatelné výsledky v každé fázi procesu vývoje modelu ML. Automatizace tohoto procesu usnadňuje škálování počtu experimentů a zajišťuje konzistenci v metadatech zachycených napříč všemi experimenty.
Automatické protokolování Databricks je řešení bez kódu, které rozšiřuje automatické protokolování MLflow, aby poskytovalo automatické sledování experimentů pro trénovací relace strojového učení v Azure Databricks. Automatické protokolování Databricks automaticky zaznamenává parametry modelu, metriky, soubory a informace rodokmenu při trénování modelů s trénovacími běhy zaznamenanými jako běhy sledování MLflow.
Opakované použití stejné infrastruktury ke správě kanálů ML
Data používaná pro kanály ML obvykle pocházejí ze stejných zdrojů jako data používaná pro jiné datové kanály. Ml a datové kanály jsou podobné tomu, že obě připraví data pro analýzu obchodních uživatelů nebo trénování modelů. Obojí musí být také škálovatelné, zabezpečené a správně monitorované. V obou případech by použitá infrastruktura měla tyto aktivity podporovat.
Pomocí poskytovatele Terraformu Databricks můžete automatizovat nasazení prostředí ML. ML vyžaduje nasazení infrastruktury, jako jsou úlohy odvozování, obsluha koncových bodů a úlohy featurizace. Všechny kanály ML je možné automatizovat jako úlohya mnoho kanálů strojového učení zaměřeného na data může využívat specializovanější Auto Loader pro ingestování obrázků a dalších dat a Delta Live Tables k výpočtu funkcí nebo ke sledování metrik.
Ujistěte se, že pro nasazení modelů ML na podnikové úrovni používáte službu Model Serving .
Využití deklarativní správy pro komplexní data a projekty ML
Deklarativní architektury v rámci MLOps umožňují týmům definovat požadované výsledky z hlediska vysoké úrovně a nechat systém zpracovávat podrobnosti o provádění, což zjednodušuje nasazení a škálování modelů ML. Tyto architektury podporují kontinuální integraci a nasazování, automatizují testování a správu infrastruktury a zajišťují zásady správného řízení a dodržování předpisů modelu a nakonec urychlují dobu uvedení na trh a zvyšují produktivitu v rámci životního cyklu ML.
Sady prostředků Databricks (DAB) jsou nástroj pro zjednodušení vývoje složitých dat, analýz a projektů ML pro platformu Databricks. Sady prostředků usnadňují správu složitých projektů během aktivního vývoje tím, že poskytují funkce CI/CD v pracovním postupu vývoje softwaru pomocí jediné, stručné a deklarativní syntaxe YAML. Pomocí sad prostředků pro automatizaci správy nasazení, nasazení a konfigurace projektu můžete omezit chyby a zároveň propagovat osvědčené postupy softwaru v rámci vaší organizace jako šablonované projekty.
3. Správa kapacity a kvót
Správa limitů a kvót služby
Správa limitů a kvót služeb je důležitá pro udržování dobře fungující infrastruktury a zabránění neočekávaným nákladům. Každá služba spuštěná v cloudu musí brát v úvahu omezení, jako jsou limity přenosové rychlosti přístupu, počet instancí, počet uživatelů a požadavky na paměť. U svého poskytovatele cloudu zkontrolujte limity cloudu. Před návrhem řešení musí být tyto limity srozumitelné.
Konkrétně pro platformu Databricks existují různé typy omezení:
Omezení platformy Databricks: Jedná se o konkrétní omezení pro prostředky Azure Databricks. Omezení pro celkovou platformu jsou zdokumentovaná v limitech prostředků.
Limity katalogu Unity:Kvóty zdrojů katalogu Unity
Kvóty předplatného nebo účtu: Azure Databricks využívá cloudové prostředky pro svou službu. Například úlohy v Azure Databricks běží v clusterech, pro které platforma Databricks spouští virtuální počítače poskytovatele cloudu. Poskytovatelé cloudu nastavují výchozí kvóty pro počet spuštěných virtuálních počítačů najednou. V závislosti na potřebě může být potřeba tyto kvóty upravit.
Další podrobnosti najdete v tématu Zvýšení kvót virtuálních procesorů řady virtuálních počítačů.
Podobně platí, že úložiště, síť a další cloudové služby mají omezení, která musí být srozumitelná a zahrnutá.
Investice do plánování kapacity
Plánování kapacity zahrnuje správu cloudových prostředků, jako jsou úložiště, výpočetní prostředky a sítě, aby se zachoval výkon při optimalizaci nákladů. Naplánujte varianty očekávaného zatížení, ke kterým může dojít z různých důvodů, včetně náhlých obchodních změn nebo dokonce událostí světa. Otestujte varianty zatížení, včetně neočekávaných, abyste zajistili, že vaše úlohy můžou škálovat. Zajistěte, aby všechny oblasti mohly dostatečně škálovat, aby podporovaly celkové zatížení, pokud selže jedna oblast. Rozmyslete si:
- Omezení technologií a služeb a omezení cloudu. Viz Správa kapacity a kvót.
- Smlouvy SLA určují služby, které se mají použít v návrhu.
- Analýza nákladů, která určuje, kolik zlepšení aplikace se zjistí, pokud se náklady zvýší. Vyhodnoťte, jestli cena stojí za investici.
Pochopení a plánování událostí s vysokou prioritou (objemů) je důležité. Pokud zřízené cloudové prostředky nestačí a úlohy se nedají škálovat, může takové zvýšení objemu způsobit výpadek.
4. Nastavení monitorování, upozorňování a protokolování
Vytvoření procesů monitorování
Vytvoření procesů monitorování pro datovou platformu je důležité z několika důvodů. Procesy monitorování umožňují včasnou detekci problémů, jako jsou problémy s kvalitou dat, kritické body výkonu a chyby systému, které můžou pomoct zabránit výpadkům a ztrátě dat. Můžou pomoct identifikovat nedostatky v datové platformě a optimalizovat náklady snížením plýtvání a zlepšením využití prostředků. Kromě toho monitorovací procesy můžou pomoct zajistit dodržování zákonných požadavků a poskytovat záznamy auditu o přístupu k datům a využití.
Použití nativních a externích nástrojů pro monitorování platformy
Platforma Databricks Data Intelligence Má integrovaná řešení monitorování a integruje externí systémy monitorování:
Monitorování platforem s využitím řešení pro monitorování Azure
Monitorování je důležité pro jakékoli řešení na úrovni produkčního prostředí a Azure Databricks nabízí robustní funkce pro monitorování vlastních metrik aplikací, událostí dotazů streamování a zpráv protokolu aplikací. Azure Databricks může tato monitorovací data odesílat do různých protokolovacích služeb. Následující článek ukazuje, jak odesílat data z Azure Databricks do Azure Monitoru, platformy dat monitorování pro Azure.
Monitorování Databricks Lakehouse
Databricks Lakehouse Monitorování umožňuje sledování statistických vlastností a kvality dat ve všech tabulkách ve vašem účtu. Monitorování kvality dat poskytuje kvantitativní opatření ke sledování a potvrzení konzistence dat v průběhu času a pomáhá identifikovat a upozorňovat uživatele na změny v distribuci dat a výkonu modelu. Výkon modelů strojového učení můžete také sledovat monitorováním tabulek odvozování, které obsahují vstupy a předpovědi modelu.
Informace o nákladech na monitorování Lakehouse najdete v tématu View Lakehouse Monitoring .
Monitorování SQL Warehouse
Monitorování SQL Warehouse je nezbytné pro efektivní pochopení profilu zatížení a efektivní správy SQL Warehouse. Pomocí monitorování SQL Warehouse můžete zobrazit informace, například počet dotazů zpracovaných skladem nebo počet clusterů přidělených skladu.
Upozornění SQL služby Databricks
Upozornění SQL služby Databricks pravidelně spouštějí dotazy, vyhodnocují definované podmínky a odesílají oznámení, pokud je splněna podmínka. Můžete nastavit upozornění pro monitorování vaší firmy a odesílání oznámení, když hlášená data spadají mimo očekávané limity.
Kromě toho můžete vytvořit výstrahu SQL Databricks na základě metriky z tabulky metrik monitoru, například abyste dostávali oznámení, když se statistika přesune mimo určitý rozsah nebo pokud se data v porovnání s referenční tabulkou odchýlila.
Automatické monitorování zavaděče
Auto Loader poskytuje rozhraní SQL API pro kontrolu stavu datového proudu. Pomocí funkcí SQL můžete najít metadata o souborech zjištěných datovým proudem automatického zavaděče. Viz Monitorování automatického zavaděče.
S rozhraním naslouchacího procesu dotazů streamování Apache Sparku je možné streamy automatického zavaděče dále monitorovat.
Monitorování úloh
Monitorování úloh pomáhá identifikovat a řešit problémy v úlohách Databricks, jako jsou selhání, zpoždění nebo kritické body výkonu. Monitorování úloh poskytuje přehled o výkonnosti úloh, díky čemuž můžete optimalizovat využití prostředků, snížit plýtvání a zlepšit celkovou efektivitu.
Monitorování Delta Live Tables
Vytváří se a udržuje protokol událostí pro každý pipeline Delta Live Tables. Protokol událostí obsahuje všechny informace související s kanálem, včetně protokolů auditu, kontrol kvality dat, průběhu kanálu a rodokmenu dat. Protokol událostí můžete použít ke sledování, pochopení a monitorování stavu datových kanálů.
Monitorování streamování
Streamování je jedním z nejdůležitějších technik zpracování dat pro příjem a analýzu. Poskytuje uživatelům a vývojářům nízkou latenci a možnosti zpracování dat v reálném čase pro analýzy a spouštění akcí. Platforma Databricks Data Intelligence umožňuje monitorovat dotazy strukturovaného streamování.
Monitorování ML a AI
Monitorování výkonu modelů v produkčních pracovních postupech je důležitým aspektem životního cyklu modelu AI a ML. Tabulky pro inferenci zjednodušují monitorování a diagnostiku modelů průběžným protokolováním vstupů a odpovědí požadavků (předpovědí) z koncových bodů obsluhy modelu Mosaic AI a jejich uložením do tabulky Delta v katalogu Unity. K monitorování, ladění a optimalizaci modelů pak můžete použít všechny možnosti platformy Databricks, jako jsou dotazy DBSQL, poznámkové bloky a monitorování Lakehouse.
- Pro vlastní modely viz Inference tabulky pro monitorování a ladění modelů.
- Informace o externích modelech a úlohách s přidělenou propustností najdete v tématu Monitorování obsluhovaných modelů pomocí tabulek pro inference s podporou AI Gateway.
Další podrobnosti o monitorování obsluhy modelů najdete v tématu Monitorování kvality modelu a stavu koncového bodu.
Monitorování zabezpečení
Viz Zabezpečení, dodržování předpisů a ochrana osobních údajů – Monitorování zabezpečení.
Monitorování nákladů