Een monitor maken met behulp van de Databricks-gebruikersinterface
In dit artikel ziet u hoe u een gegevensmonitor maakt met behulp van de Databricks-gebruikersinterface. U kunt ook de API gebruiken.
Ga als volgt te werk om toegang te krijgen tot de Databricks-gebruikersinterface:
- Klik in de zijbalk aan de linkerkant van de werkruimte op om Catalog Explorer-te openen.
- Navigeer naar de table die u wilt bewaken.
- Klik op het tabblad Kwaliteit .
- Klik op de Get start knop.
- Kies in Monitor makende opties die u wilt om de monitor te set.
Profileren
Klik in het menu profieltypeselect het type monitor dat u wilt maken. De profieltypen worden weergegeven in de table.
Profieltype | Beschrijving |
---|---|
Tijdreeksprofiel | Een table met values gemeten in de loop van de tijd. Deze table bevat een tijdstempel column. |
Deductieprofiel | Een table met voorspelde values-waarden van een machine learning model voor classificatie of regressie. Deze table bevat een tijdstempel, een model-id, modelinvoer (functies), een column met modelvoorspellingen en optionele columns met unieke waarnemings-id's en grondwaarlabels. Het kan ook metagegevens bevatten, zoals demografische informatie, die niet wordt gebruikt als invoer voor het model, maar kan nuttig zijn voor eerlijkheids- en vooroordelenonderzoeken of andere controle. |
Momentopnameprofiel | Alle door Delta beheerde table, externe table, weergave, gerealiseerde weergave of streaming-table. |
Als u selectTimeSeries
of Inference
, dan zijn er aanvullende parameters vereist, die in de volgende secties worden beschreven.
Notitie
- Wanneer u voor het eerst een tijdreeks- of deductieprofiel maakt, analyseert de monitor alleen gegevens van de 30 dagen voorafgaand aan het maken ervan. Nadat de monitor is gemaakt, worden alle nieuwe gegevens verwerkt.
- Monitors die zijn gedefinieerd op gerealiseerde views en streaming-tables bieden geen ondersteuning voor incrementele verwerking.
Tip
Voor TimeSeries
- en Inference
-profielen is het een best practice om CDF (Change Data Feed) in te schakelen voor uw table. Wanneer CDF is ingeschakeld, worden alleen nieuw toegevoegde gegevens verwerkt, in plaats van de volledige table elke refreshopnieuw te verwerken. Dit maakt de uitvoering efficiënter en verlaagt de kosten wanneer u het monitoren uitbreidt naar veel tables.
TimeSeries
profiel
Voor een TimeSeries
profiel moet u de volgende selecties maken:
- Geef de granulariteiten van de metrische gegevens op die bepalen hoe de gegevens over tijdsvensters moeten worden partition.
- Geef de tijdstempel op columnen specificieer de column in de table die het tijdstempel bevat. De tijdstempel column gegevenstype moet
TIMESTAMP
zijn of een type dat kan worden geconverteerd naar tijdstempels met behulp van deto_timestamp
PySpark-functie.
Inference
profiel
Voor een Inference
profiel moet u naast de granulariteiten en de tijdstempel de volgende selecties maken:
- Select het probleemtype, hetzij classificatie of regressie.
- Geef de voorspelling columnop, de column die de voorspelde valuesvan het model bevat.
- Geef desgewenst het Label columnop, de column die de grondwaar bevat voor modelvoorspellingen.
- Geef de model-id op column, het column met de id van het model dat wordt gebruikt voor voorspelling.
Schema
Als u een monitor wilt set om op een geplande basis te laten draaien, selectRefresh volgens planning en select de frequentie en tijd waarop de monitor moet draaien. Als u niet wilt dat de monitor automatisch wordt gestart, selectRefresh handmatig. Als u selectRefresh handmatig, kunt u later de metrieken refresh op het tabblad Kwaliteit .
Meldingen
Als u e-mailmeldingen voor een monitor wilt set, voer dan het e-mailadres in dat meldingen moet ontvangen en select de meldingen die u wilt inschakelen. Maximaal 5 e-mailberichten worden ondersteund per gebeurtenistype voor meldingen.
Algemeen
In de sectie Algemeen moet u één vereiste instelling en enkele extra configuratieopties opgeven:
- U moet specificeren in welke Unity-Catalogschemawhere de door de monitor gecreëerde metrische tables moeten worden opgeslagen. De locatie moet de indeling {catalog} hebben. {schema}.
U kunt ook de volgende instellingen opgeven:
Assets-map. Voer het absolute pad naar de bestaande map in om bewakingsassets op te slaan, zoals het gegenereerde dashboard. Assets worden standaard opgeslagen in de standaardmap: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Als u een andere locatie in dit veld invoert, worden assets gemaakt onder '/{table_name}' in de map die u opgeeft. Deze map kan zich overal in de werkruimte bevinden. Voor monitors die zijn bedoeld om te worden gedeeld binnen een organisatie, kunt u een pad in de map /Gedeeld/gebruiken.
Dit veld kan niet leeg blijven.
Unity Catalog basislijn table naam. Naam van een table of weergave die basislijngegevens bevat voor vergelijking. Zie Primaire invoer table en basislijn tablevoor meer informatie over basislijn tables.
Metrische segmenteringsexpressies. Met segmenteringsexpressies kunt u subsets van de table definiëren om naast de table als geheel te controleren. Als u een segmenteringsexpressie wilt maken, klikt u op Expressie toevoegen en voert u de definitie van de expressie in. Met de expressie
"col_2 > 10"
worden bijvoorbeeld twee segmenten gegenereerd: één voorcol_2 > 10
en één voorcol_2 <= 10
. In een ander voorbeeld wordt met de expressie"col_1"
één segment generate voor elke unieke waarde incol_1
. De gegevens worden afzonderlijk gegroepeerd op elke expressie, wat resulteert in een afzonderlijk segment voor elk predicaat en de bijbehorende aanvullingen.Aangepaste metrische gegevens. Aangepaste metrieken worden weergegeven in metriek tables net als elke ingebouwde metriek. Zie Aangepaste metrische gegevens gebruiken met Databricks Lakehouse Monitoring voor meer informatie. Als u een aangepaste metrische waarde wilt configureren, klikt u op Aangepaste metrische gegevens toevoegen.
- Voer een naam in voor de aangepaste metrische gegevens.
-
Select de aangepaste metriek Type, een van
Aggregate
,Derived
ofDrift
. Zie Typen aangepaste metrische gegevens voor definities. - In de vervolgkeuzelijst list in Invoer columns, selecteer select de columns om de metriek toe te passen.
- In het veld Uitvoertype, het Spark-gegevenstype van de metriek select.
- Voer in het veld Definitie SQL-code in waarmee de aangepaste metrische gegevens worden gedefinieerd.
Monitorinstellingen bewerken in de gebruikersinterface
Nadat u een monitor hebt gemaakt, kunt u wijzigingen aanbrengen in de instellingen van de monitor door te klikken op de knop Monitorconfiguratie bewerken op het tabblad Kwaliteit .
Refresh en monitorresultaten weergeven in de gebruikersinterface
Als u de monitor handmatig wilt uitvoeren, klikt u op Refresh metrics.
Voor informatie over de statistieken die zijn opgeslagen in de monitor metriek tables, zie Monitor metriek tables. Metrische tables zijn Unity-Catalogtables. U kunt query's uitvoeren in notebooks of in de SQL-queryverkenner en deze weergeven in Catalog Explorer.
Toegang beheren om uitvoer te bewaken
De metrische tables en het dashboard die door een monitor zijn gemaakt, zijn eigendom van de gebruiker die de monitor heeft gemaakt. U kunt Unity Catalog-bevoegdheden gebruiken om de toegang tot metric tableste beheren. Als u dashboards in een werkruimte wilt delen, klikt u op de knop Delen in de rechterbovenhoek van het dashboard.
Een monitor verwijderen uit de gebruikersinterface
Als u een monitor uit de gebruikersinterface wilt verwijderen, klikt u op het kebabmenu naast de knop Refresh metrics en selectMonitor verwijderen.