Metodtips för driftskvalitet

Artikel
01/15/2025

Den här artikeln beskriver metodtips för driftseffektivitet, ordnade efter arkitekturprinciper som anges i följande avsnitt.

1. Optimera bygg- och lanseringsprocesser

Skapa ett dedikerat Lakehouse-driftteam

En vanlig metod är att ha ett plattformsdriftsteam som gör det möjligt för datateam att arbeta på en eller flera dataplattformar. Det här teamet ansvarar för att skapa skisser och metodtips internt. De tillhandahåller verktyg – till exempel för infrastrukturautomatisering och självbetjäningsåtkomst – och säkerställer att säkerhets- och efterlevnadskraven uppfylls. På så sätt kan du skydda plattformsdata i ett centralt team, så att distribuerade team kan fokusera på att arbeta med data och generera nya insikter.

Använda Företags källkodshantering (SCM)

Källkodshantering (SCM) hjälper utvecklare att arbeta mer effektivt, vilket kan leda till snabbare lanseringshastighet och lägre utvecklingskostnader. Att ha ett verktyg som hjälper till att spåra ändringar, upprätthålla kodintegritet, identifiera buggar och återställa till tidigare versioner är en viktig komponent i din övergripande lösningsarkitektur.

Med Databricks Git-mappar kan användare lagra notebook-filer eller andra filer på en Git-lagringsplats, vilket ger funktioner som kloning av en lagringsplats, incheckning och push-överföring, hämtar, förgrenar hantering och visar fildiff. Använd Git-mappar för bättre kodsynlighet och spårning.

Standardisera DevOps-processer (CI/CD)

Kontinuerlig integrering och kontinuerlig leverans (CI/CD) avser utveckling och distribution av programvara i korta, frekventa cykler med hjälp av automatiserade pipelines. Även om detta inte är en ny process, efter att ha varit allestädes närvarande inom traditionell programvaruteknik i årtionden, blir det en allt mer nödvändig process för datateknik- och datavetenskapsteam. För att dataprodukter ska vara värdefulla måste de levereras i tid. Dessutom måste konsumenterna ha förtroende för giltigheten av resultaten inom dessa produkter. Genom att automatisera processen med att skapa, testa och distribuera kod kan utvecklingsteam leverera versioner oftare och mer tillförlitligt än de manuella processer som fortfarande dominerar många datateknik- och datavetenskapsteam. Se Vad är CI/CD på Azure Databricks?.

Mer information om metodtips för kodutveckling med Hjälp av Databricks Git-mappar finns i CI/CD-tekniker med Git- och Databricks Git-mappar (Repos). Tillsammans med Databricks REST API kan du skapa automatiserade distributionsprocesser med hjälp av GitHub-åtgärder, Azure DevOps-pipelines eller Jenkins-jobb.

Standardisera MLOps-processer

MLOps-processer ger reproducerbarhet för ML-pipelines, möjliggör mer nära samarbete mellan datateam, minskar konflikterna med devops och IT och påskyndar lanseringshastigheten. Eftersom många modeller används för att driva viktiga affärsbeslut säkerställer standardisering av MLops-processer att modeller utvecklas, testas och distribueras konsekvent och tillförlitligt.

Det är komplext att skapa och distribuera ML-modeller. Det finns många tillgängliga alternativ för att uppnå detta, men lite i vägen för väldefinierade standarder. Därför har vi under de senaste åren sett framväxten av maskininlärningsåtgärder (MLOps). MLOps är en uppsättning processer och automatisering för att hantera modeller, data och kod för att förbättra prestandastabilitet och långsiktig effektivitet i ML-system. Den omfattar förberedelse av data, undersökande dataanalys (EDA), funktionsutveckling, modellträning, modellvalidering, distribution och övervakning.

MLOps på Databricks-plattformen kan hjälpa dig att optimera prestanda och långsiktig effektivitet i maskininlärningssystemet (ML):

Håll alltid dina affärsmål i åtanke: Precis som huvudsyftet med ML i ett företag är att möjliggöra datadrivna beslut och produkter, är det huvudsakliga syftet med MLOps att säkerställa att dessa datadrivna program förblir stabila, hålls uppdaterade och fortsätter att ha positiva effekter på verksamheten. När du prioriterar tekniskt arbete på MLOps bör du tänka på affärspåverkan: Möjliggör det nya affärsanvändningsfall? Förbättrar det datateamens produktivitet? Minskar det driftskostnader eller risker?
Hantera ML-modeller med ett specialiserat men öppet verktyg: Du kan använda MLflow – utformat för ML-modellens livscykel – för att spåra och hantera ML-modeller. Se MLflow för generativ AI-agent och ML-modellens livscykel.
Implementera MLOps på ett modulärt sätt: Precis som med alla program är kodkvalitet av största vikt för ett ML-program. Modulariserad kod möjliggör testning av enskilda komponenter och minskar problem med framtida kodrefaktorisering. Definiera tydliga steg (t.ex. utbildning, utvärdering eller distribution), supersteg (till exempel pipeline för träning till distribution) och ansvarsområden för att klargöra ml-programmets modulära struktur.

Detta beskrivs i detalj i Databricks ebook The Big Book of MLOps.

Definiera en strategi för miljöisolering

När en organisation använder en dataplattform som Databricks, finns det ofta ett behov av att ha gränser för dataisolering mellan miljöer (till exempel utveckling och produktion) eller mellan organisationens operativa enheter.

Isoleringsstandarderna kan variera för din organisation, men vanligtvis innehåller de följande förväntningar:

Användare kan bara få åtkomst till data baserat på angivna åtkomstregler.
Data kan endast hanteras av utsedda personer eller team.
Data separeras fysiskt i lagringen.
Data kan endast nås i angivna miljöer.

I Databricks är arbetsytan den primära databearbetningsmiljön och det finns flera scenarier där separata arbetsytor förbättrar den övergripande konfigurationen, till exempel:

Isolera olika affärsenheter med sina egna arbetsytor för att undvika att dela arbetsyteadministratören och se till att inga tillgångar i Databricks delas oavsiktligt mellan affärsenheter.
Isolera livscykelmiljöer för programvaruutveckling (till exempel utveckling, mellanlagring och produktion). Med en separat produktionsarbetsyta kan du till exempel testa nya arbetsyteinställningar innan du tillämpar dem på produktion. Eller så kan produktionsmiljön kräva strängare arbetsyteinställningar än utvecklingsmiljön. Om du måste distribuera utvecklings-, mellanlagrings- och produktionsmiljöer i olika virtuella nätverk behöver du också olika arbetsytor för de tre miljöerna.
Dela upp arbetsytor för att övervinna resursbegränsningar: Molnkonton/prenumerationer har resursbegränsningar. Att dela upp arbetsytor i olika prenumerationer/konton är ett sätt att se till att det finns tillräckligt med resurser för varje arbetsyta. Dessutom har Databricks-arbetsytor också resursbegränsningar. Att dela upp arbetsytor säkerställer att arbetsbelastningar i varje arbetsyta alltid har åtkomst till den fullständiga uppsättningen resurser.

Det finns dock vissa nackdelar med delade arbetsytor som också bör beaktas:

Notebook-samarbete fungerar inte mellan arbetsytor.
För flera arbetsytor måste både installation och underhåll vara helt automatiserade (av Terraform, ARM, REST API eller på annat sätt). Detta är särskilt viktigt för migreringsändamål.
Om varje arbetsyta måste skyddas på nätverksskiktet (till exempel för att skydda mot dataexfiltrering) kan den nödvändiga nätverksinfrastrukturen vara mycket dyr, särskilt för ett stort antal arbetsytor.

Det är viktigt att hitta en balans mellan behovet av isolering och behovet av samarbete och det arbete som krävs för att upprätthålla det.

Definiera katalogstrategi för ditt företag

Tillsammans med en strategi för miljöisolering behöver organisationer en strategi för att strukturera och separera metadata och data. Data, inklusive personligt identifierbar information, betalning eller hälsoinformation, medför en hög potentiell risk, och med det ständigt ökande hotet om dataintrång är det viktigt att separera och skydda känsliga data oavsett vilken organisationsstrategi du väljer. Separera känsliga data från icke-känsliga data, både logiskt och fysiskt.

En organisation kan kräva att vissa typer av data lagras i specifika konton eller bucketar i dess molnklientorganisation. Unity Catalog-metaarkivet tillåter att metadata struktureras av dess namnområde på tre nivåer catalog > schema > tables/views/volumes, med lagringsplatser som konfigurerats på metaarkiv-, katalog- eller schemanivå för att uppfylla sådana krav.

Organisations- och efterlevnadskrav kräver ofta att du endast behåller vissa data i vissa miljöer. Du kanske också vill hålla produktionsdata isolerade från utvecklingsmiljöer eller se till att vissa datauppsättningar och domäner aldrig slås samman. I Databricks är arbetsytan den primära databehandlingsmiljön och kataloger är den primära datadomänen. Med metaarkivet Unity Catalog kan administratörer och katalogägare binda kataloger till specifika arbetsytor. Dessa miljömedvetna bindningar hjälper dig att se till att endast vissa kataloger är tillgängliga på en arbetsyta, oavsett vilka specifika behörigheter för dataobjekt som beviljas en användare.

En fullständig diskussion om dessa ämnen finns i bästa praxis för Unity Catalog

2. Automatisera distributioner och arbetsbelastningar

Använda infrastruktur som kod (IaC) för distributioner och underhåll

Med infrastruktur som kod (IaC) kan utvecklare och driftsteam automatiskt hantera, övervaka och etablera resurser i stället för att manuellt konfigurera maskinvaruenheter, operativsystem, program och tjänster.

HashiCorp Terraform är ett populärt verktyg med öppen källkod för att skapa en säker och förutsägbar molninfrastruktur mellan flera molnleverantörer. Databricks Terraform-providern hanterar Azure Databricks-arbetsytor och den associerade molninfrastrukturen med hjälp av ett flexibelt och kraftfullt verktyg. Målet med Databricks Terraform-providern är att stödja alla Azure Databricks REST-API:er, vilket stöder automatisering av de mest komplicerade aspekterna av att distribuera och hantera dina dataplattformar. Databricks Terraform-providern är det rekommenderade verktyget för att distribuera och hantera kluster och jobb på ett tillförlitligt sätt, etablera Azure Databricks-arbetsytor och konfigurera dataåtkomst.

Standardisera beräkningskonfigurationer

Standardisering av databehandlingsmiljöer säkerställer att samma programvara, bibliotek och konfigurationer används i alla miljöer. Den här konsekvensen gör det enklare att återskapa resultat, felsöka problem och underhålla system i olika miljöer. Med standardiserade miljöer kan team spara tid och resurser genom att eliminera behovet av att konfigurera och konfigurera miljöer från grunden. Detta minskar också risken för fel och inkonsekvenser som kan uppstå under manuell installation. Standardisering möjliggör också implementering av konsekventa säkerhetsprinciper och -metoder i alla miljöer. Detta kan hjälpa organisationer att bättre hantera risker och uppfylla regelkrav. Slutligen kan standardisering hjälpa organisationer att bättre hantera kostnader genom att minska avfallet och optimera resursutnyttjandet.

Standardisering omfattar både miljökonfiguration och pågående resurshantering. För konsekvent konfiguration rekommenderar Databricks att du använder infrastruktur som kod. Använd beräkningsprinciper för att säkerställa att beräkningsresurser som startas över tid konfigureras konsekvent. Databricks-arbetsyteadministratörer kan begränsa en användares eller grupps behörighet att skapa beräkning baserat på en uppsättning principregler. De kan tillämpa Spark-konfigurationsinställningar och tillämpa biblioteksinstallationer med klusteromfattning. Du kan också använda beräkningsprinciper för att definiera T-shirt-storlekskluster (S, M, L) för projekt som en standardarbetsmiljö.

Använda automatiserade arbetsflöden för jobb

Genom att konfigurera automatiserade arbetsflöden för jobb kan du minska onödiga manuella uppgifter och förbättra produktiviteten genom DevOps-processen för att skapa och distribuera jobb. Data Intelligence Platform tillhandahåller två sätt att göra detta:

Databricks-jobb:

Databricks-jobb samordnar databearbetning, maskininlärning och analyspipelines på Databricks Data Intelligence Platform. Det är en fullständigt hanterad orkestreringstjänst som är integrerad med Databricks-plattformen:
- Databricks-jobb är ett sätt att köra dina databearbetnings- och analysprogram på en Databricks-arbetsyta. Jobbet kan vara en enskild uppgift eller ett stort arbetsflöde med flera uppgifter med komplexa beroenden. Databricks hanterar uppgiftsorkestrering, klusterhantering, övervakning och felrapportering för alla dina jobb.
- Delta Live Tables är ett deklarativt ramverk för att skapa tillförlitliga, underhållsbara och testbara databearbetningspipelines. Du definierar de omvandlingar som du vill utföra på dina data och Delta Live Tables hanterar uppgiftsorkestrering, klusterhantering, övervakning, datakvalitet och felhantering.
Externa orkestratorer:

Det omfattande REST-API:et för Azure Databricks används av externa orkestratorer för att orkestrera Databricks-tillgångar, notebook-filer och jobb. Se:
- Apache Airflow.
- Azure Data Factory.

Vi rekommenderar att du använder Databricks-jobb för alla aktivitetsberoenden i Databricks och – om det behövs – integrera dessa inkapslade arbetsflöden i den externa orkestratorn

Använda automatiserad och händelsedriven filinmatning

Händelsedriven filinmatning (jämfört med schemadriven) har flera fördelar, inklusive effektivitet, ökad data freshness och datainmatning i realtid. Att bara köra ett jobb när en händelse inträffar säkerställer att du inte slösar bort resurser, vilket sparar pengar.

Automatisk inläsning bearbetar inkrementellt och effektivt nya datafiler när de tas emot i molnlagringen. Det kan mata in många filformat som JSON, CSV, PARQUET, AVRO, ORC, TEXT och BINARYFILE. Med en indatamapp i molnlagringen bearbetar Auto Loader automatiskt nya filer när de tas emot.

Överväg att använda kommandot COPY INTO i stället för enstaka inmatningar.

Använda ETL-ramverk för datapipelines

Även om det är möjligt att utföra ETL-uppgifter manuellt finns det många fördelar med att använda ett ramverk. Ett ramverk ger ETL-processen konsekvens och repeterbarhet. Genom att tillhandahålla fördefinierade funktioner och verktyg kan ett ramverk automatisera vanliga uppgifter, vilket sparar tid och resurser. ETL-ramverk kan hantera stora mängder data och kan enkelt skalas upp eller ned efter behov. Detta gör det enklare att hantera resurser och svara på föränderliga affärsbehov. Många ramverk omfattar inbyggda funktioner för felhantering och loggning, vilket gör det enklare att identifiera och lösa problem. Och de innehåller ofta datakvalitetskontroller och valideringar för att säkerställa att data uppfyller vissa standarder innan de läses in i informationslagret eller datasjön.

Delta Live Tables är ett deklarativt ramverk för att skapa tillförlitliga, underhållsbara och testbara databearbetningspipelines. Du definierar de transformeringar som du vill utföra på dina data, och Delta Live Tables hanterar uppgiftsorkestrering, klusterhantering, övervakning, datakvalitet och felhantering.

Med Delta Live Tables kan du definiera datapipelines från slutpunkt till slutpunkt i SQL eller Python: Ange datakällan, transformeringslogik och måltillståndet för data. Delta Live Tables underhåller beroenden och avgör automatiskt vilken infrastruktur som jobbet ska köras på.

För att hantera datakvalitet övervakar Delta Live Tables datakvalitetstrender över tid och förhindrar att felaktiga data kommer in i tabeller via verifierings- och integritetskontroller med fördefinierade felprinciper. Se Vad är Delta Live Tables?.

Följ metoden deploy-code för ML-arbetsbelastningar

Kod och modeller utvecklas ofta asynkront via utvecklingsstegen för programvara. Det finns två sätt att uppnå detta:

distribuera kod: Ett ML-projekt kodas i utvecklingsmiljön och den här koden flyttas sedan till mellanlagringsmiljön där den testas. Efter lyckad testning distribueras projektkoden till produktionsmiljön, där den körs.
distribuera modell: Modellträning körs i utvecklingsmiljön. Den skapade modellartefakten flyttas sedan till mellanlagringsmiljön för modellverifieringskontroller innan modellen distribueras till produktionsmiljön.

Se Modelldistributionsmönster.

Databricks rekommenderar en metod för distributionskod för de flesta användningsfall. De största fördelarna med den här modellen är:

Detta passar traditionella arbetsflöden för programvaruutveckling med välbekanta verktyg som Git- och CI/CD-system.
Den stöder automatisk omträning i en låst miljö.
Det kräver bara att produktionsmiljön har läsåtkomst till prod-träningsdata.
Det ger fullständig kontroll över träningsmiljön, vilket förenklar reproducerbarheten.
Det gör det möjligt för datavetenskapsteamet att använda modulär kod och iterativ testning, vilket hjälper till med samordning och utveckling i större projekt.

Detta beskrivs i detalj i Databricks ebook The Big Book of MLOps.

Använda ett modellregister för att frikoppla kod och modelllivscykel

Eftersom modelllivscykler inte motsvarar en-till-en-kodlivscykler tillåter Unity Catalog att hela livscykeln för ML-modeller hanteras i den värdbaserade versionen av MLflow Model Registry. Models i Unity Catalog utökar fördelarna med Unity Catalog till ML-modeller, inklusive centraliserad åtkomstkontroll, granskning, härstamning och modelldetektering mellan arbetsytor. Modeller i Unity Catalog är kompatibla med MLflow Python-klienten med öppen källkod.

Automatisera ML-experimentspårning

Att spåra ML-experiment är processen att spara relevanta metadata för varje experiment och organisera experimenten. Dessa metadata omfattar experimentindata/utdata, parametrar, modeller och andra artefakter. Målet med experimentspårning är att skapa reproducerbara resultat i varje steg i ML-modellens utvecklingsprocess. Genom att automatisera den här processen blir det enklare att skala antalet experiment och säkerställa konsekvens i de metadata som samlas in i alla experiment.

Databricks Autologging är en lösning utan kod som utökar automatisk MLflow-loggning för att leverera automatisk experimentspårning för maskininlärningsträningssessioner i Azure Databricks. Databricks Autologging samlar automatiskt in modellparametrar, metrik, filer och ursprungsinformation när du tränar modeller med träningskörningar som registreras som MLflow-spårningskörningar.

Återanvänd samma infrastruktur för att hantera ML-pipelines

De data som används för ML-pipelines kommer vanligtvis från samma källor som de data som används för andra datapipelines. ML- och datapipelines är liknande eftersom de båda förbereder data för analys av företagsanvändare eller modellträning. Båda måste också vara skalbara, säkra och korrekt övervakade. I båda fallen bör den infrastruktur som används stödja dessa aktiviteter.

Använd Databricks Terraform-providern för att automatisera distributioner av ML-miljöer. ML kräver distribution av infrastruktur, till exempel slutsatsdragningsjobb, servering av slutpunkter och funktionaliseringsjobb. Alla ML-pipelines kan automatiseras som Jobb, och många datadrivna ML-pipelines kan använda den mer specialiserade Auto Loader för att importera bilder och andra data och Delta Live Tables för att beräkna egenskaper eller för att övervaka mätvärden.

Se till att använda Model Serving för distribution av ML-modeller i företagsklass.

Använda deklarativ hantering för komplexa data- och ML-projekt

Deklarativa ramverk inom MLOps gör det möjligt för team att definiera önskade resultat på hög nivå och låta systemet hantera information om körning, vilket förenklar distributionen och skalningen av ML-modeller. Dessa ramverk stöder kontinuerlig integrering och distribution, automatiserar testning och infrastrukturhantering och säkerställer modellstyrning och efterlevnad, vilket i slutändan påskyndar tiden till marknaden och ökar produktiviteten under HELA ML-livscykeln.

Databricks Asset Bundles (DAB) är ett verktyg för att effektivisera utvecklingen av komplexa data-, analys- och ML-projekt för Databricks-plattformen. Paket gör det enkelt att hantera komplexa projekt under aktiv utveckling genom att tillhandahålla CI/CD-funktioner i ditt arbetsflöde för programvaruutveckling med en enda, koncis och deklarativ YAML-syntax. Genom att använda paket för att automatisera projektets testning, distribution och konfigurationshantering kan du minska felen samtidigt som du främjar bästa praxis för programvara i organisationen som mallprojekt.

3. Hantera kapacitet och kvoter

Hantera tjänstgränser och kvoter

Det är viktigt att hantera tjänstgränser och kvoter för att upprätthålla en välfungerande infrastruktur och förhindra oväntade kostnader. Alla tjänster som startas i ett moln måste ta hänsyn till begränsningar, till exempel begränsningar för åtkomstfrekvens, antal instanser, antal användare och minneskrav. Kontrollera molngränserna för molnleverantören. Innan du utformar en lösning måste dessa gränser förstås.

Mer specifikt för Databricks-plattformen finns det olika typer av gränser:

Databricks-plattformsgränser: Det här är specifika gränser för Azure Databricks-resurser. Gränserna för den övergripande plattformen dokumenteras i Resursgränser.

Enhetskataloggränser:Enhetskatalogens resurskvoter

Prenumerations-/kontokvoter: Azure Databricks utnyttjar molnresurser för sin tjänst. Till exempel körs arbetsbelastningar på Azure Databricks på kluster, för vilka Databricks-plattformen startar molnleverantörens virtuella datorer (VM). Molnleverantörer anger standardkvoter för hur många virtuella datorer som kan startas samtidigt. Beroende på behovet kan dessa kvoter behöva justeras.

Mer information finns i Öka vCPU-kvoter för vm-familj.

På liknande sätt har lagring, nätverk och andra molntjänster begränsningar som måste förstås och vägas in.

Investera i kapacitetsplanering

Kapacitetsplanering omfattar hantering av molnresurser som lagring, beräkning och nätverk för att upprätthålla prestanda samtidigt som kostnaderna optimeras. Planera för variationer i förväntad belastning, vilket kan inträffa av olika orsaker, inklusive plötsliga affärsförändringar eller till och med världshändelser. Testa belastningsvariationer, inklusive oväntade, för att säkerställa att dina arbetsbelastningar kan skalas. Se till att alla regioner kan skalas tillräckligt för att stödja den totala belastningen om en region misslyckas. Tänk på att:

Teknik- och tjänstbegränsningar och molnbegränsningar. Se Hantera kapacitet och kvoter.
Serviceavtal för att fastställa vilka tjänster som ska användas i designen.
Kostnadsanalys för att avgöra hur mycket förbättring i programmet som realiseras om kostnaden ökar. Utvärdera om priset är värt investeringen.

Det är viktigt att förstå och planera för händelser med hög prioritet (volym). Om de etablerade molnresurserna inte är tillräckliga och arbetsbelastningarna inte kan skalas kan sådana volymökningar orsaka ett avbrott.

4. Konfigurera övervakning, aviseringar och loggning

Upprätta övervakningsprocesser

Det är av flera skäl viktigt att upprätta övervakningsprocesser för en dataplattform. Övervakningsprocesser möjliggör tidig identifiering av problem som datakvalitetsproblem, flaskhalsar i prestanda och systemfel, vilket kan bidra till att förhindra avbrott och dataförlust. De kan hjälpa till att identifiera ineffektivitet i dataplattformen och optimera kostnaderna genom att minska slöseriet och förbättra resursutnyttjandet. Dessutom kan övervakningsprocesser bidra till att säkerställa efterlevnad av regelkrav och tillhandahålla spårningsloggar för dataåtkomst och användning.

Använda interna och externa verktyg för plattformsövervakning

Databricks Data Intelligence Platform har inbyggda övervakningslösningar och integrerar externa övervakningssystem:

Plattformsövervakning med hjälp av Azure-övervakningslösningar

Övervakning är avgörande för alla lösningar på produktionsnivå, och Azure Databricks erbjuder robusta funktioner för övervakning av anpassade programmått, strömmande frågehändelser och programloggmeddelanden. Azure Databricks kan skicka dessa övervakningsdata till olika loggningstjänster. I följande artiklar visas hur du skickar övervakningsdata från Azure Databricks till Azure Monitor, plattformen för övervakningsdata för Azure.
Databricks Lakehouse-övervakning

Med Databricks Lakehouse Monitoring kan du övervaka statistiska egenskaper och datakvalitet i alla tabeller i ditt konto. Övervakning av datakvalitet ger kvantitativa mått för att spåra och bekräfta datakonsekvens över tid och hjälper till att identifiera och varna användare för ändringar i datadistribution och modellprestanda. Du kan också spåra prestanda för maskininlärningsmodeller genom att övervaka slutsatsdragningstabeller som innehåller modellindata och förutsägelser.

Se Visa Lakehouse Monitoring-utgifter för att förstå kostnaden för Lakehouse Monitoring.
Övervakning av SQL-lager

Det är viktigt att övervaka SQL-lagret för att förstå belastningsprofilen över tid och hantera SQL-lagret effektivt. Med SQL Warehouse-övervakning kan du visa information, till exempel antalet frågor som hanteras av lagret eller antalet kluster som allokerats till lagret.
Databricks SQL-aviseringar

Databricks SQL-aviseringar kör regelbundet frågor, utvärderar definierade villkor och skickar meddelanden om ett villkor uppfylls. Du kan konfigurera aviseringar för att övervaka ditt företag och skicka meddelanden när rapporterade data ligger utanför de förväntade gränserna.

Dessutom kan du skapa en Databricks SQL-avisering baserat på ett mått från en tabell med övervakningsmått, till exempel för att få ett meddelande när en statistik flyttas från ett visst intervall eller om data har glidit i jämförelse med baslinjetabellen.

Automatisk inläsningsövervakning

Auto Loader tillhandahåller ett SQL-API för att inspektera tillståndet för en dataström. Med SQL-funktioner kan du hitta metadata om filer som har identifierats av en automatisk inläsningsström. Se Övervaka automatisk inläsare.

Med Apache Spark Streaming Query Listener-gränssnittet kan automatiska inläsningsströmmar övervakas ytterligare.
Jobbövervakning

Jobbövervakning hjälper dig att identifiera och åtgärda problem i dina Databricks-jobb, till exempel fel, fördröjningar eller flaskhalsar i prestanda. Jobbövervakning ger insikter om jobbprestanda, så att du kan optimera resursanvändningen, minska mängden och förbättra den övergripande effektiviteten.
Delta Live Tables-övervakning

En händelselogg skapas och underhålls för varje Delta Live Tables-pipeline. Händelseloggen innehåller all information som rör pipelinen, inklusive granskningsloggar, datakvalitetskontroller, pipelineförlopp och data härkomst. Du kan använda händelseloggen för att spåra, förstå och övervaka tillståndet för dina datapipelines.
Övervakning av direktuppspelning

Strömning är en av de viktigaste databehandlingsteknikerna för inmatning och analys. Det ger användare och utvecklare funktioner för databearbetning med låg svarstid och realtidsdata för analys och utlösande åtgärder. Med Databricks Data Intelligence Platform kan du övervaka frågor om strukturerad direktuppspelning.
ML- och AI-övervakning

Övervakning av prestanda för modeller i produktionsarbetsflöden är en viktig aspekt av livscykeln för AI- och ML-modellen. Slutsatsdragningstabeller förenklar övervakning och diagnostik för modeller genom att kontinuerligt logga indata och svar för begäranden (förutsägelser) från Mosaic AI Model Serving-slutpunkter och spara dem i en Delta-tabell i Unity Catalog. Du kan sedan använda alla funktioner i Databricks-plattformen, till exempel DBSQL-frågor, notebook-filer och Lakehouse Monitoring för att övervaka, felsöka och optimera dina modeller.
- För anpassade modeller, se inferenstabeller för övervakning och felsökning av modeller.
- För externa modeller och reserverad genomströmningsarbetsbelastningar, se Övervaka hanterade modeller med hjälp av AI Gateway-aktiverade inferenstabeller.
Mer information om hur du hanterar övervakningsmodeller finns i Övervaka modellkvalitet och slutpunktshälsa.
Säkerhetsövervakning

Se Säkerhet, efterlevnad och sekretess – Säkerhetsövervakning.
Kostnadsövervakning

Se Kostnadsoptimering – Övervaka och kontrollera kostnader.

Dela via