Naslaginformatie over rekenconfiguratie
In dit artikel worden de configuratie-instellingen uitgelegd die beschikbaar zijn in de gebruikersinterface compute maken. De meeste gebruikers maken rekenresources met behulp van hun toegewezen beleid, waardoor de configureerbare instellingen worden beperkt. Als u een bepaalde instelling niet ziet in uw gebruikersinterface, is dit omdat u deze instelling niet kunt configureren met het beleid dat u hebt geselecteerd.
De configuraties en beheerhulpprogramma's die in dit artikel worden beschreven, zijn van toepassing op zowel alle doeleinden als taak berekenen. Zie Rekenproces configureren voor taken voor meer overwegingen over het configureren van taak berekenen.
Een nieuwe rekenresource voor alle doeleinden maken
Een nieuwe rekenresource voor alle doeleinden maken:
- Klik in de zijbalk van de werkruimte op Compute.
- Klik op de knop Rekenproces maken.
- Configureer de rekenresource.
- Klik op Rekenproces maken.
Nieuwe rekenresource wordt automatisch gestart en kan binnenkort worden gebruikt.
Beleid
Beleidsregels zijn set regels die worden gebruikt om de configuratieopties te limit die beschikbaar zijn voor gebruikers wanneer ze computingbronnen maken. Als een gebruiker niet beschikt over het recht voor het maken van een onbeperkt cluster, kunnen ze alleen rekenresources maken met behulp van hun toegewezen beleid.
Als u rekenresources wilt maken op basis van een beleid, select u een beleid uit de vervolgkeuzelijst Beleid.
Standaard hebben alle gebruikers toegang tot het personal compute-beleid , zodat ze rekenresources met één computer kunnen maken. Als u toegang nodig hebt tot Personal Compute of aanvullende beleidsregels, neemt u contact op met uw werkruimtebeheerder.
Rekenkracht met één knooppunt of meerdere knooppunten
Afhankelijk van het beleid kunt u select tussen het maken van een enkele knooppunt rekenresource of een multiknooppunt rekenresource.
Rekenkracht met één knooppunt is bedoeld voor taken die kleine hoeveelheden gegevens of niet-gedistribueerde workloads gebruiken, zoals machine learning-bibliotheken met één knooppunt. Rekenkracht met meerdere knooppunten moet worden gebruikt voor grotere taken met gedistribueerde workloads.
Eigenschappen van één knooppunt
Een rekenresource met één knooppunt heeft de volgende eigenschappen:
- Hiermee wordt Spark lokaal uitgevoerd.
- Het stuurprogramma fungeert als master en worker, zonder werkknooppunten.
- Spawns één executorthread per logische kern in de rekenresource, min 1 kern voor het stuurprogramma.
- Hiermee worden alle
stderr
uitvoer enstdout
log4j
logboekuitvoer opgeslagen in het stuurprogrammalogboek. - Kan niet worden geconverteerd naar een rekenresource met meerdere knooppunten.
Eén of meerdere knooppunten selecteren
Houd rekening met uw use-case bij het kiezen tussen rekenkracht van één of meerdere knooppunten:
Bij grootschalige gegevensverwerking worden de resources op één knooppunt berekend. Voor deze workloads raadt Databricks aan om rekenkracht met meerdere knooppunten te gebruiken.
Rekenkracht met één knooppunt is niet ontworpen om te worden gedeeld. Om resourceconflicten te voorkomen, raadt Databricks aan om een rekenresource met meerdere knooppunten te gebruiken wanneer de berekening moet worden gedeeld.
Een rekenresource met meerdere knooppunten kan niet worden geschaald naar 0 werkrollen. Gebruik in plaats daarvan rekenkracht met één knooppunt.
Rekenkracht met één knooppunt is niet compatibel met procesisolatie.
GPU-planning is niet ingeschakeld voor rekenkracht van één knooppunt.
Op een enkel knooppunt kan Spark Parquet-bestanden met een UDT columnniet lezen. De volgende resultaten van het foutbericht:
The Spark driver has stopped unexpectedly and is restarting. Your notebook will be automatically reattached.
U kunt dit probleem omzeilen door de systeemeigen Parquet-lezer uit te schakelen:
spark.conf.set("spark.databricks.io.parquet.nativeReader.enabled", False)
Toegangsmodi
De toegangsmodus is een beveiligingsfunctie waarmee wordt bepaald wie de rekenresource en de gegevens die ze kunnen gebruiken met behulp van de rekenresource. Elke rekenresource in Azure Databricks heeft een toegangsmodus.
Databricks raadt u aan om de modus voor gedeelde toegang te gebruiken voor alle workloads. Gebruik de modus voor toegang van één gebruiker alleen als uw vereiste functionaliteit niet wordt ondersteund door de modus voor gedeelde toegang.
Toegangsmodus | Zichtbaar voor gebruiker | UC-ondersteuning | Ondersteunde talen | Opmerkingen |
---|---|---|---|---|
Eén gebruiker | Altijd | Ja | Python, SQL, Scala, R | Kan worden toegewezen aan en gebruikt door één gebruiker. Aangeduid als toegewezen toegangsmodus in sommige werkruimten. |
Gedeeld | Altijd (Premium-abonnement vereist) | Ja | Python (op Databricks Runtime 11.3 LTS en hoger), SQL, Scala (op Unity Catalog-enabled compute met Databricks Runtime 13.3 LTS en hoger) | Kan worden gebruikt door meerdere gebruikers met gegevensisolatie tussen gebruikers. |
Geen isolatie gedeeld | Beheerders kunnen deze toegangsmodus verbergen door gebruikersisolatie af te dwingen op de pagina met beheerdersinstellingen. | Nee | Python, SQL, Scala, R | Er is een gerelateerde instelling op accountniveau voor gedeelde berekeningen zonder isolatie. |
Aanpassen | Verborgen (voor alle nieuwe berekeningen) | Nee | Python, SQL, Scala, R | Deze optie wordt alleen weergegeven als u een bestaande rekenresource hebt zonder een opgegeven toegangsmodus. |
U kunt een bestaande rekenresource upgraden om te voldoen aan de vereisten van Unity Catalog door de toegangsmodus in te stellen op enkele gebruiker of Gedeelde. Zie voor gedetailleerde informatie over de functionaliteit die wordt ondersteund door elk van deze toegangsmodi's in door Unity Catalogondersteunde werkruimten, beperkingen van de compute-toegangsmodus voor Unity Catalog.
Notitie
In Databricks Runtime 13.3 LTS en hoger worden init-scripts en -bibliotheken ondersteund door alle toegangsmodi. De vereisten en ondersteuningsniveaus variëren. Zie Where kunnen init-scripts worden geïnstalleerd? en bibliotheken met clusterbereik.
Databricks Runtime-versies
Databricks Runtime is het set van kernonderdelen die worden uitgevoerd op uw rekenproces. Select de runtime instellen met behulp van het vervolgkeuzemenu voor Databricks Runtime-versie. Zie de releaseversies en compatibiliteit van Databricks Runtime voor meer informatie over specifieke Databricks Runtime-versies. Alle versies bevatten Apache Spark. Databricks raadt het volgende aan:
- Gebruik voor rekendoeleinden de meest recente versie om ervoor te zorgen dat u over de nieuwste optimalisaties beschikt en de meest recente compatibiliteit tussen uw code en vooraf geladen pakketten.
- Voor het berekenen van taken waarop operationele workloads worden uitgevoerd, kunt u overwegen de Databricks Runtime-versie (Long Term Support) te gebruiken. Met behulp van de LTS-versie zorgt u ervoor dat u geen compatibiliteitsproblemen ondervindt en uw workload grondig kunt testen voordat u een upgrade uitvoert.
- Voor data science- en machine learning-gebruiksscenario's kunt u de Databricks Runtime ML-versie overwegen.
Fotonversnelling gebruiken
Photon is standaard ingeschakeld voor berekeningen met Databricks Runtime 9.1 LTS en hoger.
Als u Photon-versnelling wilt in- of uitschakelen, select u het selectievakje Photon Acceleration gebruiken. Zie Wat is Photon?voor meer informatie over Photon.
Typen werkrol- en stuurprogrammaknooppunten
Een rekenresource bestaat uit één stuurprogrammaknooppunt en nul of meer werkknooppunten. U kunt afzonderlijke typen cloudproviderexemplaren kiezen voor het stuurprogramma- en werkknooppunt, hoewel het stuurprogrammaknooppunt standaard hetzelfde exemplaartype gebruikt als het werkknooppunt. Verschillende typen exemplaren passen bij verschillende gebruiksvoorbeelden, zoals geheugenintensieve of rekenintensieve workloads.
U kunt ook pool select gebruiken als een werk- of besturingsknooppunt. Gebruik alleen een pool met spot-exemplaren als werkroltype. Select een apart type apparaatstuurprogramma op aanvraag om te voorkomen dat uw stuurprogramma wordt teruggevorderd. Zie Verbinding maken met pools.
Medewerkertype
In rekenkracht met meerdere knooppunten voeren werkknooppunten de Spark-uitvoerders en andere services uit die nodig zijn voor een goed functionerende rekenresource. Wanneer u uw workload distribueert met Spark, vindt alle gedistribueerde verwerking plaats op werkknooppunten. Azure Databricks voert één uitvoerder per werkknooppunt uit. Daarom worden de termenuitvoerders en werkrollen door elkaar gebruikt in de context van de Databricks-architectuur.
Tip
Als u een Spark-taak wilt uitvoeren, hebt u ten minste één werkknooppunt nodig. Als de rekenresource nul werkrollen heeft, kunt u niet-Spark-opdrachten uitvoeren op het stuurprogrammaknooppunt, maar Spark-opdrachten mislukken.
IP-adressen van werkknooppunten
Azure Databricks start werkknooppunten met elk twee privé-IP-adressen. Het primaire privé-IP-adres van het knooppunt fungeert als host voor intern verkeer van Azure Databricks. Het secundaire privé-IP-adres wordt gebruikt door de Spark-container voor communicatie tussen clusters. Met dit model kan Azure Databricks isolatie bieden tussen meerdere rekenresources in dezelfde werkruimte.
Type stuurprogramma
Het stuurprogrammaknooppunt onderhoudt statusgegevens van alle notebooks die zijn gekoppeld aan de rekenresource. Het stuurprogrammaknooppunt onderhoudt ook sparkContext, interpreteert alle opdrachten die u uitvoert vanuit een notebook of een bibliotheek op de rekenresource en voert de Apache Spark-master uit die wordt gecoördineerd met de Spark-uitvoerders.
De standaardwaarde van het type stuurprogrammaknooppunt is hetzelfde als het type werkknooppunt. U kunt een groter type stuurprogrammaknooppunt met meer geheugen kiezen als u van plan bent om veel gegevens van Spark-werkrollen te collect()
gebruiken en deze te analyseren in het notebook.
Tip
Omdat het stuurprogrammaknooppunt alle statusgegevens van de gekoppelde notitieblokken onderhoudt, moet u ongebruikte notitieblokken loskoppelen van het stuurprogrammaknooppunt.
GPU-exemplaartypen
Azure Databricks biedt ondersteuning voor rekenresources die worden versneld met GPU's (Graphics Processing Units). Zie rekenkracht met GPU voor meer informatie.
Azure Confidential Computing-VM's
VM-typen Azure Confidential Computing verhinderen onbevoegde toegang tot gegevens terwijl deze in gebruik zijn, waaronder van de cloudoperator. Dit VM-type is nuttig voor sterk gereglementeerde branches en regio's, evenals bedrijven met gevoelige gegevens in de cloud. Zie Azure Confidential Computing voor meer informatie over confidential computing van Azure.
Als u uw workloads wilt uitvoeren met Azure Confidential Computing VM's, selecteer select uit de DC- of EC-serie VM-typen in de vervolgkeuzelijsten voor werknodes en stuurprogrammaknooppunten. Zie azure Confidential VM-opties.
Spot-exemplaren
Als u kosten wilt besparen, kunt u ervoor kiezen om spot-exemplaren te gebruiken , ook wel Azure Spot-VM's genoemd door het selectievakje Spot-exemplaren in te schakelen.
Het eerste exemplaar is altijd on-demand (het stuurprogrammaknooppunt is altijd on-demand) en volgende exemplaren zijn spot-exemplaren.
Als exemplaren worden verwijderd vanwege niet-beschikbaarheid, probeert Azure Databricks nieuwe spot-exemplaren te verkrijgen om de verwijderde exemplaren te vervangen. Als spot-exemplaren niet kunnen worden verkregen, worden on-demand exemplaren geïmplementeerd om de verwijderde exemplaren te vervangen. Deze failback op aanvraag wordt alleen ondersteund voor spot-exemplaren die volledig zijn verkregen en worden uitgevoerd. Spot-exemplaren die mislukken tijdens de installatie, worden niet automatisch vervangen.
Als er nieuwe knooppunten worden toegevoegd aan bestaande rekenresources, probeert Azure Databricks spot-exemplaren voor die knooppunten te verkrijgen.
Automatisch schalen inschakelen
Wanneer automatisch schalen inschakelen is ingeschakeld, kunt u een minimum en maximum aantal werkrollen opgeven voor de rekenresource. Databricks kiest vervolgens het juiste aantal werkrollen dat nodig is om uw taak uit te voeren.
Als u het minimum en het maximum aantal werkrollen wilt set tussen de rekenresources, gebruikt u de velden Min-werkrollen en Max-werkrollen velden naast het werkroltype vervolgkeuzelijst.
Als u automatisch schalen niet inschakelt, moet u een vast aantal werkrollen invoeren in het veld Werkrollen naast de vervolgkeuzelijst Werkroltype .
Notitie
Wanneer de rekenresource wordt uitgevoerd, wordt op de pagina met rekengegevens het aantal toegewezen werknemers weergegeven. U kunt het aantal toegewezen werknemers vergelijken met de werkrolconfiguratie en zo nodig aanpassingen aanbrengen.
Voordelen van automatisch schalen
Met automatisch schalen worden werknemers in Azure Databricks dynamisch verplaatst om rekening te houden met de kenmerken van uw taak. Bepaalde onderdelen van uw pijplijn kunnen meer rekenkracht vereisen dan andere, en Databricks voegt automatisch extra werkrollen toe tijdens deze fasen van uw taak (en verwijdert ze wanneer ze niet meer nodig zijn).
Automatisch schalen maakt het gemakkelijker om een hoog gebruik te bereiken, omdat u de rekenkracht niet hoeft in te richten om aan een workload te voldoen. Dit geldt met name voor workloads waarvan de vereisten na verloop van tijd veranderen (zoals het verkennen van een gegevensset tijdens de loop van een dag), maar deze kan ook van toepassing zijn op een eenmalige kortere workload waarvan de inrichtingsvereisten onbekend zijn. Automatische schaalaanpassing biedt dus twee voordelen:
- Workloads kunnen sneller worden uitgevoerd in vergelijking met een onder-ingerichte rekenresource met een constante grootte.
- Automatisch schalen kan de totale kosten verlagen in vergelijking met een rekenresource met een statisch formaat.
Afhankelijk van de constante grootte van de rekenresource en de workload biedt automatisch schalen u een of beide voordelen tegelijk. De rekenkracht kan lager zijn dan het minimale aantal werknemers dat is geselecteerd wanneer de cloudprovider exemplaren beëindigt. In dit geval probeert Azure Databricks voortdurend instanties opnieuw in te richten om het minimale aantal werknemers te behouden.
Notitie
Automatisch schalen is niet beschikbaar voor spark-submit
-taken.
Notitie
Automatisch schalen van berekeningen heeft beperkingen bij het omlaag schalen van clustergrootte voor structured streaming-workloads. Databricks raadt het gebruik van Delta Live Tables aan met verbeterde automatische schaalaanpassing voor streamingworkloads. Zie Optimize het clustergebruik van Delta Live Tables-pijplijnen met verbeterde automatische schaalaanpassing.
De werking van automatisch schalen
Werkruimte in het Premium-abonnement gebruikt geoptimaliseerde automatische schaalaanpassing. Werkruimten in het standaardprijsplan maken gebruik van standaard automatisch schalen.
Geoptimaliseerde automatische schaalaanpassing heeft de volgende kenmerken:
- Schaalt omhoog van min tot max in 2 stappen.
- Kan omlaag schalen, zelfs als de rekenresource niet inactief is, door de status van het willekeurige bestand te bekijken.
- Schaalt omlaag op basis van een percentage van de huidige knooppunten.
- Bij het berekenen van de taak schaalt u omlaag als de rekenresource in de afgelopen 40 seconden te weinig wordt gebruikt.
- Bij berekeningen voor alle doeleinden schaalt u omlaag als de rekenresource in de afgelopen 150 seconden te weinig wordt gebruikt.
- De
spark.databricks.aggressiveWindowDownS
Spark-configuratie-eigenschap geeft in seconden op hoe vaak de berekening beslissingen neemt over omlaag schalen. Door de waarde te verhogen, wordt de schaal van de rekenkracht langzamer omlaag geschaald. De maximumwaarde is 600.
Standaard automatisch schalen wordt gebruikt in werkruimten van standaardplannen. Standaard automatisch schalen heeft de volgende kenmerken:
- Begint met het toevoegen van 8 knooppunten. Schaalt vervolgens exponentieel omhoog en neemt zo veel stappen uit als nodig is om het maximum te bereiken.
- Schaalt omlaag wanneer 90% van de knooppunten gedurende 10 minuten niet bezet is en de berekening gedurende ten minste 30 seconden niet actief is.
- Schaalt exponentieel omlaag, te beginnen met 1 knooppunt.
Automatisch schalen met pools
Als u uw rekenresource aan een pool koppelt, kunt u het volgende overwegen:
Zorg ervoor dat de aangevraagde rekenkracht kleiner is dan of gelijk is aan het minimale aantal niet-actieve exemplaren in de pool. Als deze groter is, is de opstarttijd van de rekenkracht gelijk aan de rekenkracht die geen pool gebruikt.
Zorg ervoor dat de maximale rekenkracht kleiner is dan of gelijk is aan de maximale capaciteit van de pool. Als het groter is, mislukt het maken van de rekenkracht.
Voorbeeld van automatisch schalen
Als u een statische rekenresource opnieuw configureert om automatisch te schalen, wijzigt Azure Databricks de grootte van de rekenresource onmiddellijk binnen de minimum- en maximumgrenzen en wordt vervolgens automatisch schalen gestart. In het volgende table ziet u bijvoorbeeld wat er gebeurt met een rekenresource met een bepaalde initiële grootte als u de rekenresource opnieuw configureert voor automatische schaalaanpassing tussen 5 en 10 knooppunten.
Oorspronkelijke grootte | Grootte na herconfiguratie |
---|---|
6 | 6 |
12 | 10 |
3 | 5 |
Lokale opslag automatisch schalen inschakelen
Het kan vaak lastig zijn om te schatten hoeveel schijfruimte een bepaalde taak nodig heeft. Azure Databricks maakt automatisch automatische schaalaanpassing van lokale opslag op alle Azure Databricks-berekeningen mogelijk om u te besparen van having om te schatten hoeveel gigabyte aan beheerde schijven u wilt koppelen aan uw rekenproces.
Met automatische schaalaanpassing van lokale opslag bewaakt Azure Databricks de hoeveelheid vrije schijfruimte die beschikbaar is voor spark-werkrollen van uw rekenproces. Als een werkrol te laag op schijf begint te worden uitgevoerd, koppelt Databricks automatisch een nieuwe beheerde schijf aan de werkrol voordat er onvoldoende schijfruimte beschikbaar is. Schijven worden gekoppeld aan een limit van 5 TB aan totale schijfruimte per virtuele machine (inclusief de initiële lokale opslag van de virtuele machine).
De beheerde schijven die aan een virtuele machine zijn gekoppeld, worden alleen losgekoppeld wanneer de virtuele machine wordt geretourneerd naar Azure. Beheerde schijven worden dus nooit losgekoppeld van een virtuele machine zolang ze deel uitmaken van een actieve berekening. Als u het gebruik van beheerde schijven omlaag wilt schalen, raadt Azure Databricks aan om deze functie te gebruiken in berekeningen die zijn geconfigureerd met automatische schaalaanpassing of automatische beëindiging.
Lokale schijfversleuteling
Belangrijk
Deze functie is beschikbaar als openbare preview.
Sommige exemplaartypen die u gebruikt om berekeningen uit te voeren, hebben mogelijk lokaal gekoppelde schijven. Azure Databricks kan willekeurige gegevens of tijdelijke gegevens opslaan op deze lokaal gekoppelde schijven. Om ervoor te zorgen dat alle data-at-rest is versleuteld voor alle opslagtypen, inclusief willekeurige gegevens die tijdelijk zijn opgeslagen op de lokale schijven van uw rekenresource, kunt u versleuteling van lokale schijven inschakelen.
Belangrijk
Uw workloads kunnen langzamer worden uitgevoerd door de invloed op de prestaties van het lezen en schrijven van versleutelde gegevens naar en vanaf de lokale volumes.
Wanneer versleuteling van lokale schijven is ingeschakeld, genereert Azure Databricks lokaal een versleutelingssleutel die uniek is voor elk rekenknooppunt en wordt gebruikt voor het versleutelen van alle gegevens die zijn opgeslagen op lokale schijven. Het bereik van de sleutel is lokaal voor elk rekenknooppunt en wordt samen met het rekenknooppunt zelf vernietigd. Tijdens de levensduur bevindt de sleutel zich in het geheugen voor versleuteling en ontsleuteling en wordt deze versleuteld op de schijf opgeslagen.
Als u lokale schijfversleuteling wilt inschakelen, moet u de Clusters-API gebruiken. Tijdens het maken of bewerken van de berekening setenable_local_disk_encryption
naar true
.
Automatische beëindiging (Engelstalig)
U kunt set automatische beëindiging voor rekenkracht instellen. Geef tijdens het maken van de berekening een inactiviteitsperiode op in minuten waarna u de rekenresource wilt beëindigen.
Als het verschil tussen de huidige tijd en de laatste opdracht die wordt uitgevoerd op de rekenresource meer is dan de opgegeven inactiviteitsperiode, beëindigt Azure Databricks die berekening automatisch. voor meer informatie over het beëindigen van rekenprocessen raadpleegt u Een rekenproces beëindigen.
Tags
Met tags kunt u eenvoudig de kosten bewaken van cloudresources die door verschillende groepen in uw organisatie worden gebruikt. Geef tags op als sleutel-waardeparen wanneer u een rekenvoorbeeld maakt, en Azure Databricks past deze tags toe op cloudresources, zoals VM's en disk volumes, evenals DBU-gebruiksrapporten.
Voor berekeningen die worden gestart vanuit pools, worden de aangepaste tags alleen toegepast op DBU-gebruiksrapporten en worden ze niet doorgegeven aan cloudresources.
Zie Gebruik bewaken met tags voor gedetailleerde informatie over hoe pool- en rekentagtypen samenwerken
Tags toevoegen aan uw rekenresource:
- Voeg in de sectie Tags een sleutel-waardepaar toe voor elke aangepaste tag.
- Klik op Toevoegen.
Spark-configuratie
Als u Spark-taken wilt verfijnen, kunt u aangepaste Spark-configuratie-eigenschappen opgeven.
Klik op de pagina rekenconfiguratie op de wisselknop Geavanceerde opties .
Klik op het tabblad Spark .
Voer in Spark-configuratie de configuratie-eigenschappen in als één sleutel-waardepaar per regel.
Wanneer u rekenkracht configureert met behulp van de Clusters-API, set Spark-eigenschappen in het veld spark_conf
in de cluster-API maken of Update cluster-API.
Voor het afdwingen van Spark-configuraties op rekenproces kunnen werkruimtebeheerders rekenbeleid gebruiken.
Een Spark-configuratie-eigenschap ophalen uit een geheim
Databricks raadt aan gevoelige informatie, zoals wachtwoorden, op te slaan in een geheim in plaats van tekst zonder opmaak. Gebruik de volgende syntaxis om te verwijzen naar een geheim in de Spark-configuratie:
spark.<property-name> {{secrets/<scope-name>/<secret-name>}}
Als u bijvoorbeeld een Spark-configuratie-eigenschap met de naam password
wilt set naar de waarde van het geheim dat is opgeslagen in secrets/acme_app/password
:
spark.password {{secrets/acme-app/password}}
Zie Geheimen beheren voor meer informatie.
SSH-toegang tot compute
Om veiligheidsredenen wordt de SSH-poort in Azure Databricks standaard gesloten. Als u SSH-toegang tot uw Spark-clusters wilt inschakelen, raadpleegt u SSH naar het stuurprogrammaknooppunt.
Notitie
SSH kan alleen worden ingeschakeld als uw werkruimte is geïmplementeerd in uw eigen virtuele Azure-netwerk.
Omgevingsvariabelen
Configureer aangepaste omgevingsvariabelen die u kunt openen vanuit init-scripts die worden uitgevoerd op de rekenresource. Databricks biedt ook vooraf gedefinieerde omgevingsvariabelen die u kunt gebruiken in init-scripts. U kunt deze vooraf gedefinieerde omgevingsvariabelen niet overschrijven.
Klik op de pagina rekenconfiguratie op de wisselknop Geavanceerde opties .
Klik op het tabblad Spark .
Set de omgevingsvariabelen in het veld Omgevingsvariabelen.
U kunt ook omgevingsvariabelen set met behulp van het veld spark_env_vars
in de Cluster-API maken of Update cluster-API.
Levering van rekenlogboek
Wanneer u rekenkracht maakt, kunt u een locatie opgeven voor het leveren van de logboeken voor het Spark-stuurprogrammaknooppunt, werkknooppunten en gebeurtenissen. Logboeken worden elke vijf minuten bezorgd en elk uur gearchiveerd in uw gekozen bestemming. Wanneer een rekenresource wordt beëindigd, garandeert Azure Databricks dat alle logboeken worden geleverd die zijn gegenereerd totdat de rekenresource is beëindigd.
Het doel van de logboeken is afhankelijk van de rekenresources cluster_id
. Als de opgegeven bestemming is dbfs:/cluster-log-delivery
, worden rekenlogboeken 0630-191345-leap375
geleverd aan dbfs:/cluster-log-delivery/0630-191345-leap375
.
Ga als volgende te werk om de locatie voor de levering van logboeken te configureren:
- Klik op de rekenpagina op de wisselknop Geavanceerde opties .
- Klik op het tabblad Logboekregistratie .
- Select een doeltype.
- Voer het pad voor het rekenlogboek in.
Notitie
Deze functie is ook beschikbaar in de REST API. Zie de Clusters-API.