Osvědčené postupy pro efektivitu provozu

Článek
02/03/2025

Tento článek popisuje osvědčené postupy efektivity provozu uspořádané podle principů architektury uvedených v následujících částech.

1. Optimalizace procesů sestavení a vydávání verzí

Vytvoření vyhrazeného provozního týmu Lakehouse

Běžným osvědčeným postupem je mít provozní tým platformy, který datovým týmům umožní pracovat na jedné nebo více datových platformách. Tento tým zodpovídá za interní vytváření podrobných plánů a osvědčených postupů. Poskytují nástroje – například pro automatizaci infrastruktury a samoobslužný přístup – a zajišťují splnění požadavků na zabezpečení a dodržování předpisů. To klade zatěžování zabezpečení dat platformy v centrálním týmu, což umožňuje distribuovaným týmům soustředit se na práci s daty a generování nových přehledů.

Použití správy zdrojového kódu organizace (SCM)

Správa zdrojového kódu (SCM) pomáhá vývojářům efektivněji pracovat, což může vést k rychlejšímu vydávání verzí a snížení nákladů na vývoj. Nástroj, který pomáhá sledovat změny, udržovat integritu kódu, zjišťovat chyby a vrátit se zpět k předchozím verzím, je důležitou součástí celkové architektury řešení.

Složky Gitu Databricks umožňují uživatelům ukládat poznámkové bloky nebo jiné soubory v úložišti Git, poskytujíc funkce jako klonování úložiště, provádění změn a odeslání, stažení, správa větví a zobrazení rozdílů souborů. Pomocí složek Git můžete zlepšit viditelnost a sledování kódu.

Standardizace procesů DevOps (CI/CD)

Kontinuální integrace a průběžné doručování (CI/CD) odkazuje na vývoj a nasazování softwaru v krátkých a častých cyklech s využitím automatizovaných kanálů. I když se nejedná o nový proces, který byl v tradičním softwarovém inženýrství už deset let všudypřítomný, stává se stále důležitějším procesem pro datové inženýrství a týmy datových věd. Aby byly datové produkty cenné, musí být doručeny včas. Spotřebitelé navíc musí mít důvěru v platnost výsledků v rámci těchto výrobků. Díky automatizaci procesu sestavování, testování a nasazování kódu můžou vývojové týmy dodávat vydané verze častěji a spolehlivěji než ruční procesy, které stále dominují mnoha týmům přípravy dat a datových věd. Podívejte se, co je CI/CD v Azure Databricks?

Další informace o osvědčených postupech pro vývoj kódu pomocí složek Gitů a složek Git Databricks najdete v přehledu technik CI/CD s Gitem a složkami Git Databricks (Repos). Společně s rozhraním Databricks REST API můžete vytvářet automatizované procesy nasazení pomocí akcí GitHubu, kanálů Azure DevOps nebo úloh Jenkinse.

Standardizace procesů MLOps

Procesy MLOps poskytují reprodukovatelnost kanálů ML, což umožňuje užší spolupráci napříč datovými týmy, omezení konfliktů s devops a IT a zrychlení rychlosti vydávání. S tím, kolik modelů se používá k řízení klíčových obchodních rozhodnutí, standardizace procesů MLops zajišťuje, že se modely vyvíjejí, testují a nasazují konzistentně a spolehlivě.

Vytváření a nasazování modelů ML je složité. Existuje mnoho možností, jak toho dosáhnout, ale jen málo dobře definovaných standardů. V důsledku toho jsme v posledních několika letech viděli vznik operací strojového učení (MLOps). MLOps je sada procesů a automatizace pro správu modelů, dat a kódu za účelem zlepšení stability výkonu a dlouhodobé efektivity v systémech ML. Zahrnuje přípravu dat, průzkumnou analýzu dat (EDA), přípravu funkcí, trénování modelů, ověřování modelů, nasazení a monitorování.

MLOps na platformě Databricks vám může pomoct optimalizovat výkon a dlouhodobou efektivitu systému strojového učení (ML):

Vždy mějte na paměti své obchodní cíle: Stejně jako základním účelem strojového učení v podniku je umožnit rozhodování a produkty řízené daty, základním účelem MLOps je zajistit, aby tyto aplikace řízené daty zůstaly stabilní, byly aktuální a měly i nadále pozitivní dopad na firmu. Při určování priorit technických prací na MLOps zvažte obchodní dopad: Umožňuje to nové případy obchodního použití? Zlepšuje produktivitu datových týmů? Snižuje provozní náklady nebo rizika?
Správa modelů ML pomocí specializovaného, ale otevřeného nástroje: K sledování a správě modelů ML můžete použít MLflow – navržený pro životní cyklus modelu ML. Viz MLflow pro generativního AI agenta a životní cyklus ML modelu.
Implementace MLOps modulárním způsobem: Stejně jako u jakékoli softwarové aplikace je kvalita kódu pro aplikaci ML nejdůležitější. Modularizovaný kód umožňuje testování jednotlivých komponent a snižuje potíže s budoucím refaktoringem kódu. Definujte jasné kroky (například trénování, vyhodnocení nebo nasazení), super kroky (jako je kanál trénování a nasazení) a zodpovědnosti, které objasňují modulární strukturu vaší aplikace ML.

Toto je podrobně popsáno v ebooku Databricks The Big Book of MLOps.

Definování strategie izolace prostředí

Pokud organizace používá datovou platformu, jako je Databricks, je často potřeba mít hranice izolace dat mezi prostředími (jako je vývoj a produkce) nebo mezi organizačními provozními jednotkami.

Standardy izolace se můžou pro vaši organizaci lišit, ale obvykle zahrnují následující očekávání:

Uživatelé můžou získat přístup pouze k datům na základě zadaných pravidel přístupu.
Data můžou spravovat jenom určené osoby nebo týmy.
Data jsou fyzicky oddělená v úložišti.
K datům je možné přistupovat pouze v určených prostředích.

V Databricks je pracovní prostor primárním prostředím pro zpracování dat a existuje několik scénářů, kdy samostatné pracovní prostory zlepšují celkové nastavení, například:

Izolujte různé obchodní jednotky s vlastními pracovními prostory, abyste se vyhnuli sdílení správce pracovního prostoru a zajistili, že se mezi organizačními jednotkami nechtěně nesdílí žádné prostředky v Databricks.
Izolace prostředí životního cyklu vývoje softwaru (například vývoj, příprava a produkce) Například samostatný produkční pracovní prostor umožňuje otestovat nové nastavení pracovního prostoru před jejich použitím v produkčním prostředí. Nebo produkční prostředí může vyžadovat přísnější nastavení pracovního prostoru než vývojové prostředí. Pokud musíte nasadit vývojová, přípravná a produkční prostředí v různých virtuálních sítích, potřebujete pro tři prostředí také různé pracovní prostory.
Rozdělte pracovní prostory, abyste mohli překonat omezení prostředků: Cloudové účty nebo předplatná mají omezení prostředků. Rozdělení pracovních prostorů na různá předplatná nebo účty je jedním ze způsobů, jak zajistit, aby pro každý pracovní prostor bylo k dispozici dostatek prostředků. Kromě toho mají pracovní prostory Databricks také omezení prostředků. Rozdělení pracovních prostorů zajišťuje, aby úlohy v každém pracovním prostoru měly vždy přístup k celé sadě prostředků.

Existují však některé nevýhody sdílených pracovních prostorů, které by se měly považovat také za:

Spolupráce na noteboocích nefunguje napříč prostředími.

U více pracovních prostorů je potřeba plně automatizovat nastavení i údržbu (Terraform, ARM, REST API nebo jiné prostředky). To je zvlášť důležité pro účely migrace.
Pokud je potřeba každý pracovní prostor zabezpečit v síťové vrstvě (například kvůli ochraně před exfiltrací dat), může být požadovaná síťová infrastruktura velmi náročná, zejména pro velký počet pracovních prostorů.

Je důležité najít rovnováhu mezi potřebou izolace a potřebou spolupráce a úsilím potřebným k jeho údržbě.

Definování strategie katalogu pro váš podnik

Společně se strategií izolace prostředí potřebují organizace strategii pro strukturování a oddělení metadat a dat. Data, včetně identifikovatelných osobních údajů, plateb nebo zdravotních údajů, mají vysoké potenciální riziko a s stále rostoucí hrozbou porušení zabezpečení dat je důležité oddělit a chránit citlivá data bez ohledu na to, jakou strategii organizace zvolíte. Oddělte citlivá data od necitlivých dat, a to logicky i fyzicky.

Organizace může vyžadovat, aby určité typy dat byly uloženy v konkrétních účtech nebo kontejnerech ve svém cloudovém tenantovi. Metastore katalogu Unity umožňuje strukturovat metadata podle svého tříúrovňového oboru názvů catalog > schema > tables/views/volumes s umístěními úložiště nakonfigurovanými na úrovni metastoru, katalogu nebo schématu tak, aby tyto požadavky splňovala.

Požadavky organizace a dodržování předpisů často určují, že určitá data uchováváte jenom v určitých prostředích. Můžete také chtít zachovat produkční data izolovaná od vývojových prostředí nebo zajistit, aby se určité datové sady a domény nikdy nesloučily. V Databricks je pracovní prostor primárním výpočetním prostředím a katalogy jsou primární datovou doménou. Pomocí metastoru katalogu Unity můžou správci a vlastníci katalogu svázat katalogy s konkrétními pracovními prostory. Tyto vazby pracující s prostředím pomáhají zajistit, aby byly v pracovním prostoru k dispozici pouze určité katalogy bez ohledu na konkrétní oprávnění datového objektu udělená uživateli.

Úplné pojednání o těchto tématech najdete v osvědčených postupech katalogu Unity

2. Automatizace nasazení a úloh

Použití infrastruktury jako kódu (IaC) pro nasazení a údržbu

Infrastruktura jako kód (IaC) umožňuje vývojářům a provozním týmům automaticky spravovat, monitorovat a zřizovat prostředky místo ruční konfigurace hardwarových zařízení, operačních systémů, aplikací a služeb.

HashiCorp Terraform je oblíbený opensourcový nástroj pro vytvoření zabezpečené a předvídatelné cloudové infrastruktury napříč několika poskytovateli cloudu. Poskytovatel Databricks Terraform spravuje pracovní prostory Azure Databricks a přidruženou cloudovou infrastrukturu pomocí flexibilního výkonného nástroje. Cílem poskytovatele Databricks Terraform je podporovat všechna rozhraní REST API Služby Azure Databricks, která podporují automatizaci nejkomplikovanějších aspektů nasazení a správy datových platforem. Zprostředkovatel Terraformu Databricks je doporučeným nástrojem pro spolehlivé nasazování a správu clusterů a úloh, zřizování pracovních prostorů Azure Databricks a konfiguraci přístupu k datům.

Standardizace konfigurací výpočetních prostředků

Standardizace výpočetních prostředí zajišťuje, aby se ve všech prostředích používal stejný software, knihovny a konfigurace. Tato konzistence usnadňuje reprodukování výsledků, ladění problémů a údržbu systémů napříč prostředími. Díky standardizovaným prostředím můžou týmy ušetřit čas a prostředky tím, že eliminují potřebu konfigurace a nastavení prostředí úplně od začátku. To také snižuje riziko chyb a nekonzistence, ke kterým může dojít během ručního nastavení. Standardizace také umožňuje implementaci konzistentních zásad zabezpečení a postupů napříč všemi prostředími. To může organizacím pomoct lépe řídit rizika a dodržovat zákonné požadavky. A konečně standardizace může organizacím pomoct lépe spravovat náklady snížením plýtvání a optimalizací využití prostředků.

Standardizace zahrnuje nastavení prostředí i průběžnou správu prostředků. Pro konzistentní nastavení doporučuje Databricks používat infrastrukturu jako kód. Pokud chcete zajistit konzistentně nakonfigurované výpočetní prostředky spuštěné v průběhu času, použijte zásady výpočetních prostředků. Správci pracovního prostoru Databricks můžou omezit oprávnění k vytváření výpočetních prostředků uživatele nebo skupiny na základě sady pravidel zásad. Mohou vynutit nastavení konfigurace Sparku a vynutit instalaci knihoven na úrovni clusteru. Pomocí výpočetních zásad můžete také definovat clustery velikosti trička (S, M, L) pro projekty jako standardní pracovní prostředí.

Použití automatizovaných pracovních postupů pro úlohy

Nastavení automatizovaných pracovních postupů pro úlohy může pomoct snížit nepotřebné ruční úlohy a zvýšit produktivitu procesem DevOps při vytváření a nasazování úloh. Platforma pro analýzu dat nabízí dva způsoby, jak to udělat:

Úlohy Databricks:

Úlohy Databricks orchestrují zpracování dat, strojové učení a analytické kanály na platformě Databricks Data Intelligence. Jedná se o plně spravovanou službu orchestrace integrovanou s platformou Databricks:
- Úlohy Databricks představují způsob, jak spouštět aplikace pro zpracování a analýzu dat v pracovním prostoru Databricks. Vaším úkolem může být jeden úkol nebo velký pracovní postup s více úkoly se složitými závislostmi. Databricks spravuje orchestraci úloh, správu clusteru, monitorování a hlášení chyb pro všechny vaše úlohy.
- DLT je deklarativní architektura pro vytváření spolehlivých, udržovatelných a testovatelných kanálů zpracování dat. Definujete transformace, které chcete s daty provádět, a DLT spravuje orchestraci úloh, správu clusteru, monitorování, kvalitu dat a zpracování chyb.

Externí orchestrátory:

Komplexní rozhraní REST API služby Azure Databricks používají externí orchestrátory k orchestraci zdrojů, poznámkových bloků a úloh Databricks. Přečtěte si:
- Apache Airflow.
- Azure Data Factory.

Doporučujeme použít úlohy Databricks pro všechny závislosti úkolů v Databricks a v případě potřeby integraci těchto zapouzdřených pracovních postupů do externího orchestrátoru.

Používejte automatizovaný a událostmi řízený příjem souborů

Příjem souborů založených na událostech (vs. na základě plánu) má několik výhod, včetně efektivity, zvýšené aktuálnosti dat a příjmu dat v reálném čase. Spuštění úkolu pouze tehdy, když dojde k události, zajistí, že nebudete ztrácet prostředky, a tím šetří peníze.

Automatický zavaděč postupně a efektivně zpracovává nové datové soubory, jakmile dorazí do cloudového úložiště. Může ingestovat mnoho formátů souborů, jako jsou JSON, CSV, PARQUET, AVRO, ORC, TEXT a BINARYFILE. S použitím vstupní složky v cloudovém úložišti Auto Loader automaticky zpracovává nové soubory jakmile dorazí.

U jednorázových příjmů dat zvažte místo toho použití příkazu COPY INTO .

Použití architektur ETL pro datové kanály

I když je možné provádět úlohy ETL ručně, existuje mnoho výhod použití architektury. Architektura přináší do procesu ETL konzistenci a opakovatelnost. Díky poskytování předem připravených funkcí a nástrojů může architektura automatizovat běžné úlohy, což šetří čas a prostředky. Rámce ETL mohou zpracovávat velké objemy dat a podle potřeby je lze snadno škálovat nahoru nebo dolů. To usnadňuje správu prostředků a odpovídání na měnící se obchodní potřeby. Mnoho architektur zahrnuje integrované možnosti zpracování chyb a protokolování, což usnadňuje identifikaci a řešení problémů. Často zahrnují kontroly kvality dat a ověření, aby data splňovala určité standardy před jejich načtením do datového skladu nebo datového jezera.

DLT je deklarativní architektura pro vytváření spolehlivých, udržovatelných a testovatelných kanálů zpracování dat. Definujete transformace, které chcete s daty provádět, a DLT zpracovává orchestraci úloh, správu clusteru, monitorování, kvalitu dat a zpracování chyb.

Pomocí DLT můžete definovat komplexní datové kanály v SQL nebo Pythonu: Zadejte zdroj dat, logiku transformace a cílový stav dat. DLT udržuje závislosti a automaticky určuje infrastrukturu, na které se má úloha spustit.

Aby bylo možné spravovat kvalitu dat, DLT v průběhu času monitoruje trendy kvality dat a zabraňuje špatným datům v zadávání tabulek prostřednictvím kontrol ověřování a integrity s předdefinovanými zásadami chyb. Podívejte se na Co to je DLT?.

Postupujte podle přístupu k nasazení kódu pro pracovní zátěže ML.

Kód a modely se často asynchronně procházejí fázemi vývoje softwaru. Existují dva způsoby, jak toho dosáhnout:

nasadit kód: Projekt ML je kódovaný ve vývojovém prostředí a tento kód se pak přesune do přípravného prostředí, kde se testuje. Po úspěšném testování se kód projektu nasadí do produkčního prostředí, kde se spustí.
deploy model: Trénování modelu se provádí ve vývojovém prostředí. Vytvořený artefakt modelu se pak před nasazením modelu do produkčního prostředí přesune do přípravného prostředí pro kontroly ověření modelu.

Viz Vzory nasazení modelu.

Databricks doporučuje přístup k nasazení kódu pro většinu případů použití. Mezi hlavní výhody tohoto modelu patří:

To odpovídá tradičním pracovním postupům softwarového inženýrství pomocí známých nástrojů, jako jsou systémy Git a CI/CD.
Podporuje automatizované přetrénování v uzamčeném prostředí.
Vyžaduje, aby pouze produkční prostředí mělo přístup pro čtení k produkčním trénovacím datům.
Poskytuje úplnou kontrolu nad trénovacím prostředím, což pomáhá zjednodušit reprodukovatelnost.
Umožňuje týmu datových věd používat modulární a iterativní testování, které pomáhá koordinovat a vyvíjet ve větších projektech.

Toto je podrobně popsáno v ebooku Databricks The Big Book of MLOps.

Oddělení kódu a životního cyklu modelu pomocí registru modelů

Vzhledem k tomu, že životní cyklus modelů neodpovídá životnímu cyklu kódu 1:1, umožňuje Katalog Unity celý životní cyklus modelů ML spravovat ve své hostované verzi registru modelů MLflow. modely v katalogu Unity rozšiřují výhody katalogu Unity na modely ML, včetně centralizovaného řízení přístupu, auditování, rodokmenu a zjišťování modelů napříč pracovními prostory. Modely v katalogu Unity jsou kompatibilní s opensourcovým klientem Pythonu MLflow.

Automatizace sledování experimentů ML

Sledování experimentů ML je proces ukládání relevantních metadat pro každý experiment a uspořádání experimentů. Tato metadata zahrnují vstupy a výstupy experimentů, parametry, modely a další artefakty. Cílem sledování experimentů je vytvořit reprodukovatelné výsledky v každé fázi procesu vývoje modelu ML. Automatizace tohoto procesu usnadňuje škálování počtu experimentů a zajišťuje konzistenci v metadatech zachycených napříč všemi experimenty.

Automatické protokolování Databricks je řešení bez kódu, které rozšiřuje automatické protokolování MLflow, aby poskytovalo automatické sledování experimentů pro trénovací relace strojového učení v Azure Databricks. Automatické protokolování Databricks automaticky zaznamenává parametry modelu, metriky, soubory a informace rodokmenu při trénování modelů s trénovacími běhy zaznamenanými jako běhy sledování MLflow.

Opakované použití stejné infrastruktury ke správě kanálů ML

Data používaná pro kanály ML obvykle pocházejí ze stejných zdrojů jako data používaná pro jiné datové kanály. Strojové učení a datové kanály jsou si podobné v tom, že obě připravují data pro analýzu podnikovými uživateli nebo školení modelů. Obojí musí být také škálovatelné, zabezpečené a správně monitorované. V obou případech by použitá infrastruktura měla tyto aktivity podporovat.

Pomocí poskytovatele Terraformu Databricks můžete automatizovat nasazení prostředí ML. ML vyžaduje nasazení infrastruktury, jako jsou úlohy odvozování, obsluha koncových bodů a úlohy featurizace. Všechny kanály strojového učení je možné automatizovat jako úlohya mnoho kanálů zaměřených na data může používat specializovanější nástroj Auto Loader pro načítání obrázků a dalších dat a DLT k výpočtu vlastností nebo ke sledování metrik.

Ujistěte se, že pro nasazení modelů ML na podnikové úrovni používáte službu Model Serving .

Využití deklarativní správy pro komplexní data a projekty ML

Deklarativní architektury v rámci MLOps umožňují týmům definovat požadované výsledky z hlediska vysoké úrovně a nechat systém zpracovávat podrobnosti o provádění, což zjednodušuje nasazení a škálování modelů ML. Tyto architektury podporují kontinuální integraci a nasazování, automatizují testování a správu infrastruktury a zajišťují zásady správného řízení a dodržování předpisů modelu a nakonec urychlují dobu uvedení na trh a zvyšují produktivitu v rámci životního cyklu ML.

sady prostředků Databricks představují nástroj pro zjednodušení vývoje složitých projektů dat, analýz a ML pro platformu Databricks. Sady prostředků usnadňují správu složitých projektů během aktivního vývoje tím, že poskytují funkce CI/CD v pracovním postupu vývoje softwaru pomocí jediné, stručné a deklarativní syntaxe YAML. Použitím balíčků k automatizaci testování, nasazení a správy konfigurace projektu můžete omezit chyby a zároveň propagovat osvědčené postupy v softwaru v rámci vaší organizace jako projekty založené na šablonách.

3. Správa kapacity a kvót

Správa limitů a kvót služby

Správa limitů a kvót služeb je důležitá pro udržování dobře fungující infrastruktury a zabránění neočekávaným nákladům. Každá služba spuštěná v cloudu musí brát v úvahu omezení, jako jsou limity přenosové rychlosti přístupu, počet instancí, počet uživatelů a požadavky na paměť. U svého poskytovatele cloudu zkontrolujte limity cloudu. Před návrhem řešení musí být tyto limity srozumitelné.

Konkrétně pro platformu Databricks existují různé typy omezení:

Omezení platformy Databricks: Jedná se o konkrétní omezení pro prostředky Azure Databricks. Omezení pro celkovou platformu jsou zdokumentovaná v limitech prostředků.

Limity katalogu Unity:Kvóty zdrojů katalogu Unity

Kvóty předplatného nebo účtu: Azure Databricks využívá cloudové prostředky pro svou službu. Například úlohy v Azure Databricks běží v clusterech, pro které platforma Databricks spouští virtuální počítače poskytovatele cloudu. Poskytovatelé cloudu nastavují výchozí kvóty pro počet spuštěných virtuálních počítačů najednou. V závislosti na potřebě může být potřeba tyto kvóty upravit.

Další podrobnosti najdete v tématu Zvýšení kvót pro vCPU řady virtuálních počítačů.

Podobně platí, že úložiště, síť a další cloudové služby mají omezení, která musí být srozumitelná a zahrnutá.

Investice do plánování kapacity

Plánování kapacity zahrnuje správu cloudových prostředků, jako jsou úložiště, výpočetní prostředky a sítě, aby se zachoval výkon při optimalizaci nákladů. Naplánujte varianty očekávaného zatížení, ke kterým může dojít z různých důvodů, včetně náhlých obchodních změn nebo dokonce událostí světa. Otestujte varianty zatížení, včetně neočekávaných, abyste zajistili, že vaše úlohy můžou škálovat. Zajistěte, aby všechny oblasti mohly dostatečně škálovat, aby podporovaly celkové zatížení, pokud selže jedna oblast. Rozmyslete si:

Omezení technologií a služeb a omezení cloudu. Podívejte se na Správu kapacity a kvót.
Smlouvy SLA určují služby, které se mají použít v návrhu.
Analýza nákladů, která určuje, kolik zlepšení aplikace se zjistí, pokud se náklady zvýší. Vyhodnoťte, jestli cena stojí za investici.

Pochopení a plánování událostí s vysokou prioritou (rozsahu) je důležité. Pokud zřízené cloudové prostředky nestačí a úlohy se nedají škálovat, může takové zvýšení objemu způsobit výpadek.

4. Nastavení monitorování, upozorňování a protokolování

Vytvoření procesů monitorování

Vytvoření procesů monitorování pro datovou platformu je důležité z několika důvodů. Procesy monitorování umožňují včasnou detekci problémů, jako jsou problémy s kvalitou dat, kritické body výkonu a chyby systému, které můžou pomoct zabránit výpadkům a ztrátě dat. Můžou pomoct identifikovat nedostatky v datové platformě a optimalizovat náklady snížením plýtvání a zlepšením využití prostředků. Kromě toho monitorovací procesy můžou pomoct zajistit dodržování zákonných požadavků a poskytovat záznamy auditu o přístupu k datům a využití.

Použití nativních a externích nástrojů pro monitorování platformy

Platforma Databricks Data Intelligence Má integrovaná řešení monitorování a integruje externí systémy monitorování:

Monitorování platforem s využitím řešení pro monitorování Azure

Monitorování je důležité pro jakékoli řešení na úrovni produkčního prostředí a Azure Databricks nabízí robustní funkce pro monitorování vlastních metrik aplikací, událostí dotazů streamování a zpráv protokolu aplikací. Azure Databricks může tato monitorovací data odesílat do různých protokolovacích služeb. Následující článek ukazuje, jak odesílat data z Azure Databricks do Azure Monitoru, platformy dat monitorování pro Azure.

Monitorování Databricks Lakehouse

Monitorování Databricks Lakehouse umožňuje monitorování statistických vlastností a kvality dat ve všech tabulkách ve vašem účtu. Monitorování kvality dat poskytuje kvantitativní opatření ke sledování a potvrzení konzistence dat v průběhu času a pomáhá identifikovat a upozorňovat uživatele na změny v distribuci dat a výkonu modelu. Výkon modelů strojového učení můžete také sledovat monitorováním tabulek odvozování, které obsahují vstupy a předpovědi modelu.

Podívejte se na View Lakehouse Monitoring expenses, abyste porozuměli nákladům na monitorování Lakehouse.
Monitorování SQL Warehouse

Monitorování SQL Warehouse je nezbytné pro efektivní pochopení profilu zatížení a efektivní správy SQL Warehouse. Pomocí monitorování SQL Warehouse můžete zobrazit informace, například počet dotazů zpracovaných skladem nebo počet clusterů přidělených skladu.
Upozornění SQL služby Databricks

Upozornění SQL služby Databricks pravidelně spouštějí dotazy, vyhodnocují definované podmínky a odesílají oznámení, pokud je splněna podmínka. Můžete nastavit upozornění pro monitorování vaší firmy a odesílání oznámení, když hlášená data spadají mimo očekávané limity.

Kromě toho můžete vytvořit výstrahu SQL Databricks na základě metriky z tabulky metrik monitoru, například abyste dostávali oznámení, když se statistika přesune mimo určitý rozsah nebo pokud se data v porovnání s referenční tabulkou odchýlila.
Monitorování Auto Loaderu

Auto Loader poskytuje rozhraní SQL API pro kontrolu stavu datového proudu. Pomocí funkcí SQL můžete najít metadata o souborech, které byly identifikovány datovým proudem Auto Loader. Podívejte se na Monitorování automatického zavaděče.

S rozhraním Streaming Query Listener Apache Spark je možné dále monitorovat streamy Auto Loader.
Monitorování úloh

Monitorování úloh pomáhá identifikovat a řešit problémy v úlohách Databricks, jako jsou selhání, zpoždění nebo kritické body výkonu. Monitorování úloh poskytuje přehled o výkonnosti úloh, díky čemuž můžete optimalizovat využití prostředků, snížit plýtvání a zlepšit celkovou efektivitu.
monitorování DLT

Pro každý kanál DLT se vytvoří a udržuje protokol událostí. Protokol událostí obsahuje všechny informace související s kanálem, včetně protokolů auditu, kontrol kvality dat, průběhu kanálu a rodokmenu dat. Protokol událostí můžete použít ke sledování, pochopení a monitorování stavu datových kanálů.
Sledování streamování

Streamování je jedním z nejdůležitějších technik zpracování dat pro příjem a analýzu. Poskytuje uživatelům a vývojářům nízkou latenci a možnosti zpracování dat v reálném čase pro analýzy a spouštění akcí. Platforma Databricks Data Intelligence umožňuje monitorovat dotazy strukturovaného streamování.

Monitorování ML a AI

Monitorování výkonu modelů v produkčních pracovních postupech je důležitým aspektem životního cyklu modelu AI a ML. Tabulky pro inferenci zjednodušují monitorování a diagnostiku modelů průběžným protokolováním vstupů a odpovědí požadavků (předpovědí) z koncových bodů obsluhy modelu Mosaic AI a jejich uložením do tabulky Delta v katalogu Unity. K monitorování, ladění a optimalizaci modelů pak můžete použít všechny možnosti platformy Databricks, jako jsou dotazy DBSQL, poznámkové bloky a monitorování Lakehouse.
- Pro vlastní modely viz Inference tabulky pro monitorování a ladění modelů.
- Informace o externích modelech a úlohách s přidělenou propustností najdete v tématu Monitorování obsluhovaných modelů pomocí tabulek pro inference s podporou AI Gateway.
Další podrobnosti o monitorování obsluhy modelů najdete v tématu Monitorování kvality modelu a stavu koncového bodu.

Monitorování zabezpečení

Viz Zabezpečení, dodržování předpisů a ochrana osobních údajů – Monitorování zabezpečení.
Monitorování nákladů

Viz Optimalizace nákladů – Monitorování a řízení nákladů.

Sdílet prostřednictvím