Taken-API 2.0
Belangrijk
In dit artikel wordt de versie 2.0 van de Taken-API beschreven. Databricks raadt echter aan taken-API 2.1 te gebruiken voor nieuwe en bestaande clients en scripts. Zie Bijwerken van taken-API 2.0 naar 2.1 voor meer informatie over de wijzigingen van de versies 2.0 naar 2.1.
Met de Taken-API kunt u taken maken, bewerken en verwijderen. De maximaal toegestane grootte van een aanvraag voor de Taken-API is 10 MB.
Zie Bijwerken van taken-API 2.0 naar 2.1 voor meer informatie over updates van de Jobs-API die ondersteuning biedt voor het organiseren van meerdere taken met Azure Databricks-taken.
Waarschuwing
U moet nooit geheimen met code vastmaken of opslaan in tekst zonder opmaak. Gebruik de Geheimen-API om geheimen te beheren in de Databricks CLI. Gebruik het hulpprogramma Geheimen (dbutils.secrets) om te verwijzen naar geheimen in notebooks en taken.
Notitie
Als u een fout op 500-niveau ontvangt bij het maken van taken-API-aanvragen, raadt Databricks aan om aanvragen maximaal 10 minuten opnieuw te proberen (met een minimaal interval van 30 seconden tussen nieuwe pogingen).
Belangrijk
U moet u verifiëren voor toegang tot Databricks-REST API's.
Scheppen
Eindpunt | HTTP-methode |
---|---|
2.0/jobs/create |
POST |
Maak een nieuw project.
Opmerking
In dit voorbeeld wordt een taak gemaakt waarmee elke nacht om 10:15 uur een JAR-taak wordt uitgevoerd.
Aanvraag
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/create \
--data @create-job.json \
| jq .
create-job.json
:
{
"name": "Nightly model training",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"timeout_seconds": 3600,
"max_retries": 1,
"schedule": {
"quartz_cron_expression": "0 15 22 * * ?",
"timezone_id": "America/Los_Angeles"
},
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
}
Vervangen:
<databricks-instance>
met bijvoorbeeld de naam van het Azure Databricks-werkruimte-exemplaar.adb-1234567890123456.7.azuredatabricks.net
- De inhoud van
create-job.json
velden die geschikt zijn voor uw oplossing.
In dit voorbeeld wordt een .netrc-bestand en jq gebruikt.
Respons
{
"job_id": 1
}
Aanvraagstructuur
Belangrijk
- Wanneer u een taak uitvoert op een nieuw taakcluster, wordt de taak behandeld als een jobs compute-workload (geautomatiseerd) die onderhevig is aan de prijzen van Jobs Compute.
- Wanneer u een taak uitvoert op een bestaand cluster met alle doeleinden, wordt deze beschouwd als een all-purpose compute-workload (interactieve) waarvoor de prijzen van All-Purpose Compute gelden.
Veldnaam | Type | Description |
---|---|---|
existing_cluster_id OF new_cluster |
STRING OR NewCluster |
Als existing_cluster_id, wordt de id van een bestaand cluster gebruikt voor alle uitvoeringen van deze taak. Wanneer u taken uitvoert op een bestaand cluster, moet u het cluster mogelijk handmatig opnieuw opstarten als het niet meer reageert. We raden u aan taken uit te voeren op nieuwe clusters voor een grotere betrouwbaarheid. Als new_cluster, een beschrijving van een cluster dat voor elke uitvoering wordt gemaakt. Als u een PipelineTask opgeeft, kan dit veld leeg zijn. |
notebook_task OR OF spark_jar_task spark_python_task OR OF spark_submit_task pipeline_task OF run_job_task |
NotebookTask OF SparkJarTask OF SparkPythonTask OR SparkSubmitTask OR PipelineTask OR RunJobTask | Als notebook_task, geeft u aan dat deze taak een notebook moet uitvoeren. Dit veld kan niet worden opgegeven in combinatie met spark_jar_task. Als spark_jar_task, geeft u aan dat deze taak een JAR moet uitvoeren. Als spark_python_task, geeft u aan dat deze taak een Python-bestand moet uitvoeren. Als spark_submit_task, geeft u aan dat deze taak moet worden gestart door het spark submit-script. Als pipeline_task, geeft u aan dat deze taak een Delta Live Tables-pijplijn moet uitvoeren. Als run_job_task, geeft u aan dat deze taak een andere taak moet uitvoeren. |
name |
STRING |
Een optionele naam voor de taak. De standaardwaarde is Untitled . |
libraries |
Een matrix van bibliotheek | Een optionele lijst met bibliotheken die moeten worden geïnstalleerd op het cluster waarmee de taak wordt uitgevoerd. De standaardwaarde is een lege lijst. |
email_notifications |
JobEmailNotifications | Een optionele set e-mailadressen die worden gewaarschuwd wanneer uitvoeringen van deze taak beginnen en voltooien en wanneer deze taak wordt verwijderd. Het standaardgedrag is om geen e-mailberichten te verzenden. |
webhook_notifications |
WebhookNotifications | Een optionele set systeembestemmingen om te waarschuwen wanneer uitvoeringen van deze taak beginnen, voltooien of mislukken. |
notification_settings |
JobNotificationSettings | Optionele meldingsinstellingen die worden gebruikt bij het verzenden van meldingen naar elk van de email_notifications en webhook_notifications voor deze taak. |
timeout_seconds |
INT32 |
Er is een optionele time-out toegepast op elke uitvoering van deze taak. Het standaardgedrag is om geen time-out te hebben. |
max_retries |
INT32 |
Een optioneel maximum aantal keren om een mislukte uitvoering opnieuw uit te voeren. Een uitvoering wordt beschouwd als mislukt als deze is voltooid met de FAILED result_state ofINTERNAL_ERROR life_cycle_state . De waarde -1 betekent dat u het voor onbepaalde tijd opnieuw wilt proberen en de waarde 0 betekent dat u het nooit opnieuw wilt proberen. Het standaardgedrag is om het nooit opnieuw te proberen. |
min_retry_interval_millis |
INT32 |
Een optioneel minimaal interval in milliseconden tussen het begin van de mislukte uitvoering en de volgende nieuwe poging. Het standaardgedrag is dat mislukte uitvoeringen onmiddellijk opnieuw worden geprobeerd. |
retry_on_timeout |
BOOL |
Een optioneel beleid om op te geven of een taak opnieuw moet worden uitgevoerd wanneer er een time-out optreedt. Het standaardgedrag is om het niet opnieuw te proberen bij time-out. |
schedule |
CronSchedule | Een optioneel periodiek schema voor deze taak. Het standaardgedrag is dat de taak wordt uitgevoerd wanneer deze wordt geactiveerd door op Nu uitvoeren in de gebruikersinterface taken te klikken of een API-aanvraag naar te runNow verzenden. |
max_concurrent_runs |
INT32 |
Een optioneel maximaal toegestaan aantal gelijktijdige uitvoeringen van de taak. Stel deze waarde in als u meerdere uitvoeringen van dezelfde taak tegelijk wilt kunnen uitvoeren. Dit is bijvoorbeeld handig als u uw taak activeert volgens een frequent schema en opeenvolgende uitvoeringen wilt laten overlappen met elkaar, of als u meerdere uitvoeringen wilt activeren die verschillen per invoerparameters. Deze instelling is alleen van invloed op nieuwe uitvoeringen. Stel dat de gelijktijdigheid van de taak 4 is en dat er 4 gelijktijdige actieve uitvoeringen zijn. Als u vervolgens de gelijktijdigheid instelt op 3, worden geen actieve uitvoeringen gedood. Vanaf dat tijdstip worden nieuwe uitvoeringen echter overgeslagen, tenzij er minder dan 3 actieve uitvoeringen zijn. Deze waarde mag niet groter zijn dan 1000. Als u deze waarde instelt op 0, worden alle nieuwe uitvoeringen overgeslagen. Het standaardgedrag is om slechts 1 gelijktijdige uitvoering toe te staan. |
Antwoordstructuur
Veldnaam | Type | Description |
---|---|---|
job_id |
INT64 |
De canonieke id voor de zojuist gemaakte taak. |
Lijst
Eindpunt | HTTP-methode |
---|---|
2.0/jobs/list |
GET |
Geef alle taken weer.
Opmerking
Aanvragen
curl --netrc --request GET \
https://<databricks-instance>/api/2.0/jobs/list \
| jq .
Vervang bijvoorbeeld door <databricks-instance>
de naam van het Azure Databricks-werkruimte-exemplaaradb-1234567890123456.7.azuredatabricks.net
.
In dit voorbeeld wordt een .netrc-bestand en jq gebruikt.
Respons
{
"jobs": [
{
"job_id": 1,
"settings": {
"name": "Nightly model training",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"timeout_seconds": 100000000,
"max_retries": 1,
"schedule": {
"quartz_cron_expression": "0 15 22 * * ?",
"timezone_id": "America/Los_Angeles",
"pause_status": "UNPAUSED"
},
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
},
"created_time": 1457570074236
}
]
}
Antwoordstructuur
Veldnaam | Type | Description |
---|---|---|
jobs |
Een matrix van taak | De lijst met taken. |
Verwijderen
Eindpunt | HTTP-methode |
---|---|
2.0/jobs/delete |
POST |
Een taak verwijderen en een e-mailbericht verzenden naar de adressen die zijn opgegeven in JobSettings.email_notifications
. Er treedt geen actie op als de taak al is verwijderd. Nadat de taak is verwijderd, zijn de details en de uitvoeringsgeschiedenis niet zichtbaar in de gebruikersinterface of API voor taken. De taak wordt gegarandeerd verwijderd na voltooiing van deze aanvraag. Uitvoeringen die actief waren voordat de ontvangst van deze aanvraag werd ontvangen, kunnen echter nog steeds actief zijn. Ze worden asynchroon beëindigd.
Opmerking
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/delete \
--data '{ "job_id": <job-id> }'
Vervangen:
<databricks-instance>
met bijvoorbeeld de naam van het Azure Databricks-werkruimte-exemplaar.adb-1234567890123456.7.azuredatabricks.net
<job-id>
met de id van de taak, bijvoorbeeld123
.
In dit voorbeeld wordt een .netrc-bestand gebruikt.
Aanvraagstructuur
Veldnaam | Type | Description |
---|---|---|
job_id |
INT64 |
De canonieke id van de taak die moet worden verwijderd. Dit veld is vereist. |
Toevoegen
Eindpunt | HTTP-methode |
---|---|
2.0/jobs/get |
GET |
Informatie over één taak ophalen.
Opmerking
Aanvragen
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/get?job_id=<job-id>' \
| jq .
Of:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/get \
--data job_id=<job-id> \
| jq .
Vervangen:
<databricks-instance>
met bijvoorbeeld de naam van het Azure Databricks-werkruimte-exemplaar.adb-1234567890123456.7.azuredatabricks.net
<job-id>
met de id van de taak, bijvoorbeeld123
.
In dit voorbeeld wordt een .netrc-bestand en jq gebruikt.
Respons
{
"job_id": 1,
"settings": {
"name": "Nightly model training",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"timeout_seconds": 100000000,
"max_retries": 1,
"schedule": {
"quartz_cron_expression": "0 15 22 * * ?",
"timezone_id": "America/Los_Angeles",
"pause_status": "UNPAUSED"
},
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
},
"created_time": 1457570074236
}
Aanvraagstructuur
Veldnaam | Type | Description |
---|---|---|
job_id |
INT64 |
De canonieke id van de taak om informatie over op te halen. Dit veld is vereist. |
Antwoordstructuur
Veldnaam | Type | Description |
---|---|---|
job_id |
INT64 |
De canonieke id voor deze taak. |
creator_user_name |
STRING |
De gebruikersnaam van de maker. Dit veld wordt niet opgenomen in het antwoord als de gebruiker is verwijderd. |
settings |
JobSettings | Instellingen voor deze taak en alle uitvoeringen. Deze instellingen kunnen worden bijgewerkt met behulp van eindpunten voor opnieuw instellen of bijwerken. |
created_time |
INT64 |
Het tijdstip waarop deze taak is gemaakt in epoch milliseconden (milliseconden sinds 1-1-1-1970 UTC). |
Terugstellen
Eindpunt | HTTP-methode |
---|---|
2.0/jobs/reset |
POST |
Overschrijf alle instellingen voor een specifieke taak. Gebruik het update-eindpunt om taakinstellingen gedeeltelijk bij te werken.
Opmerking
Met deze voorbeeldaanvraag wordt taak 2 identiek aan taak 1 in het voorbeeld van het maken .
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/reset \
--data @reset-job.json \
| jq .
reset-job.json
:
{
"job_id": 2,
"new_settings": {
"name": "Nightly model training",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"timeout_seconds": 100000000,
"max_retries": 1,
"schedule": {
"quartz_cron_expression": "0 15 22 * * ?",
"timezone_id": "America/Los_Angeles",
"pause_status": "UNPAUSED"
},
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
}
}
Vervangen:
<databricks-instance>
met bijvoorbeeld de naam van het Azure Databricks-werkruimte-exemplaar.adb-1234567890123456.7.azuredatabricks.net
- De inhoud van
reset-job.json
velden die geschikt zijn voor uw oplossing.
In dit voorbeeld wordt een .netrc-bestand en jq gebruikt.
Aanvraagstructuur
Veldnaam | Type | Description |
---|---|---|
job_id |
INT64 |
De canonieke id van de taak die opnieuw moet worden ingesteld. Dit veld is vereist. |
new_settings |
JobSettings | De nieuwe instellingen van de taak. Deze instellingen vervangen de oude instellingen volledig. Wijzigingen in het veld JobSettings.timeout_seconds worden toegepast op actieve uitvoeringen. Wijzigingen in andere velden worden alleen toegepast op toekomstige uitvoeringen. |
Update
Eindpunt | HTTP-methode |
---|---|
2.0/jobs/update |
POST |
Specifieke instellingen van een bestaande taak toevoegen, wijzigen of verwijderen. Gebruik het eindpunt Opnieuw instellen om alle taakinstellingen te overschrijven.
Opmerking
Met deze voorbeeldaanvraag worden bibliotheken verwijderd en worden instellingen voor e-mailmeldingen toegevoegd aan taak 1 die in het voorbeeld voor het maken is gedefinieerd.
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/update \
--data @update-job.json \
| jq .
update-job.json
:
{
"job_id": 1,
"new_settings": {
"existing_cluster_id": "1201-my-cluster",
"email_notifications": {
"on_start": [ "someone@example.com" ],
"on_success": [],
"on_failure": []
}
},
"fields_to_remove": ["libraries"]
}
Vervangen:
<databricks-instance>
met bijvoorbeeld de naam van het Azure Databricks-werkruimte-exemplaar.adb-1234567890123456.7.azuredatabricks.net
- De inhoud van
update-job.json
velden die geschikt zijn voor uw oplossing.
In dit voorbeeld wordt een .netrc-bestand en jq gebruikt.
Aanvraagstructuur
Veldnaam | Type | Description |
---|---|---|
job_id |
INT64 |
De canonieke id van de taak die moet worden bijgewerkt. Dit veld is vereist. |
new_settings |
JobSettings | De nieuwe instellingen voor de taak. Velden op het hoogste niveau die zijn opgegeven in new_settings , met uitzondering van matrices, worden volledig vervangen. Matrices worden samengevoegd op basis van de respectieve sleutelvelden, zoals task_key ofjob_cluster_key en matrixvermeldingen met dezelfde sleutel worden volledig vervangen. Met uitzondering van het samenvoegen van matrices wordt het gedeeltelijk bijwerken van geneste velden niet ondersteund.Wijzigingen in het veld JobSettings.timeout_seconds worden toegepast op actieve uitvoeringen. Wijzigingen in andere velden worden alleen toegepast op toekomstige uitvoeringen. |
fields_to_remove |
Een matrix van STRING |
Verwijder velden op het hoogste niveau in de taakinstellingen. Het verwijderen van geneste velden wordt niet ondersteund, met uitzondering van vermeldingen uit de tasks en job_clusters matrices. Het volgende is bijvoorbeeld een geldig argument voor dit veld:["libraries", "schedule", "tasks/task_1", "job_clusters/Default"] Dit veld is optioneel. |
Nu uitvoeren
Belangrijk
- Een werkruimte is beperkt tot 1000 gelijktijdige taakuitvoeringen. Het antwoord
429 Too Many Requests
wordt geretourneerd wanneer u een uitvoering aanvraagt die niet onmiddellijk kan worden gestart. - Het aantal taken dat een werkruimte in een uur kan maken, is beperkt tot 10000 (inclusief 'runs submit'). Deze limiet is ook van invloed op taken die zijn gemaakt door de REST API- en notebook-werkstromen.
- Een werkruimte kan maximaal 12000 opgeslagen taken bevatten.
- Een taak kan maximaal 100 taken bevatten.
Eindpunt | HTTP-methode |
---|---|
2.0/jobs/run-now |
POST |
Voer nu een taak uit en retourneer de run_id
geactiveerde uitvoering.
Tip
Als u Create samen met Run now aanroept, kunt u in plaats daarvan het eindpunt Runs submit gebruiken, zodat u uw workload rechtstreeks kunt verzenden zonder dat u een taak hoeft te maken.
Opmerking
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/run-now \
--data @run-job.json \
| jq .
run-job.json
:
Een voorbeeldaanvraag voor een notebooktaak:
{
"job_id": 1,
"notebook_params": {
"name": "john doe",
"age": "35"
}
}
Een voorbeeldaanvraag voor een JAR-taak:
{
"job_id": 2,
"jar_params": [ "john doe", "35" ]
}
Vervangen:
<databricks-instance>
met bijvoorbeeld de naam van het Azure Databricks-werkruimte-exemplaar.adb-1234567890123456.7.azuredatabricks.net
- De inhoud van
run-job.json
velden die geschikt zijn voor uw oplossing.
In dit voorbeeld wordt een .netrc-bestand en jq gebruikt.
Aanvraagstructuur
Veldnaam | Type | Description |
---|---|---|
job_id |
INT64 |
|
jar_params |
Een matrix van STRING |
Een lijst met parameters voor taken met JAR-taken, bijvoorbeeld "jar_params": ["john doe", "35"] . De parameters worden gebruikt om de hoofdfunctie van de hoofdklasse aan te roepen die is opgegeven in de Spark JAR-taak. Als dit niet is opgegeven run-now , wordt standaard een lege lijst gebruikt. jar_params kan niet worden opgegeven in combinatie met notebook_params. De JSON-weergave van dit veld (d.w. {"jar_params":["john doe","35"]} ) mag niet groter zijn dan 10.000 bytes. |
notebook_params |
Een kaart van ParamPair | Een toewijzing van sleutels naar waarden voor taken met notebooktaak, bijvoorbeeld"notebook_params": {"name": "john doe", "age": "35"} . De kaart wordt doorgegeven aan het notebook en is toegankelijk via de functie dbutils.widgets.get .Als dit niet is opgegeven run-now , gebruikt de geactiveerde uitvoering de basisparameters van de taak.U kunt geen notebook_params opgeven in combinatie met jar_params. De JSON-weergave van dit veld (d.w {"notebook_params":{"name":"john doe","age":"35"}} ) mag niet groter zijn dan 10.000 bytes. |
python_params |
Een matrix van STRING |
Een lijst met parameters voor taken met Python-taken, bijvoorbeeld "python_params": ["john doe", "35"] . De parameters worden als opdrachtregelparameters doorgegeven aan het Python-bestand. Als dit is run-now opgegeven, worden de parameters overschreven die zijn opgegeven in de taakinstelling. De JSON-weergave van dit veld (d.w. {"python_params":["john doe","35"]} ) mag niet groter zijn dan 10.000 bytes. |
spark_submit_params |
Een matrix van STRING |
Een lijst met parameters voor taken met spark submit-taak, bijvoorbeeld"spark_submit_params": ["--class", "org.apache.spark.examples.SparkPi"] . De parameters worden doorgegeven aan spark-submit-script als opdrachtregelparameters. Als dit is run-now opgegeven, worden de parameters overschreven die zijn opgegeven in de taakinstelling. De JSON-weergave van dit veld mag niet groter zijn dan 10.000 bytes. |
idempotency_token |
STRING |
Een optioneel token om de idempotentie van taakuitvoeringsaanvragen te garanderen. Als er al een uitvoering met het opgegeven token bestaat, maakt de aanvraag geen nieuwe uitvoering, maar retourneert de id van de bestaande uitvoering. Als een uitvoering met het opgegeven token wordt verwijderd, wordt er een fout geretourneerd. Als u het idempotentietoken opgeeft, kunt u na een fout opnieuw proberen totdat de aanvraag is geslaagd. Azure Databricks garandeert dat precies één uitvoering wordt gestart met dat idempotentietoken. Dit token moet maximaal 64 tekens bevatten. Zie Idempotentie voor taken voor meer informatie. |
Antwoordstructuur
Veldnaam | Type | Description |
---|---|---|
run_id |
INT64 |
De wereldwijd unieke id van de zojuist geactiveerde uitvoering. |
number_in_job |
INT64 |
Het volgnummer van deze uitvoering tussen alle uitvoeringen van de taak. |
Uitvoeringen verzenden
Belangrijk
- Een werkruimte is beperkt tot 1000 gelijktijdige taakuitvoeringen. Het antwoord
429 Too Many Requests
wordt geretourneerd wanneer u een uitvoering aanvraagt die niet onmiddellijk kan worden gestart. - Het aantal taken dat een werkruimte in een uur kan maken, is beperkt tot 10000 (inclusief 'runs submit'). Deze limiet is ook van invloed op taken die zijn gemaakt door de REST API- en notebook-werkstromen.
- Een werkruimte kan maximaal 12000 opgeslagen taken bevatten.
- Een taak kan maximaal 100 taken bevatten.
Eindpunt | HTTP-methode |
---|---|
2.0/jobs/runs/submit |
POST |
Verzend een eenmalige uitvoering. Met dit eindpunt kunt u een workload rechtstreeks verzenden zonder een taak te maken. Gebruik de jobs/runs/get
API om de uitvoeringsstatus te controleren nadat de taak is verzonden.
Opmerking
Aanvragen
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/submit \
--data @submit-job.json \
| jq .
submit-job.json
:
{
"run_name": "my spark task",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
}
Vervangen:
<databricks-instance>
met bijvoorbeeld de naam van het Azure Databricks-werkruimte-exemplaar.adb-1234567890123456.7.azuredatabricks.net
- De inhoud van
submit-job.json
velden die geschikt zijn voor uw oplossing.
In dit voorbeeld wordt een .netrc-bestand en jq gebruikt.
Respons
{
"run_id": 123
}
Aanvraagstructuur
Belangrijk
- Wanneer u een taak uitvoert op een nieuw taakcluster, wordt de taak behandeld als een jobs compute-workload (geautomatiseerd) die onderhevig is aan de prijzen van Jobs Compute.
- Wanneer u een taak uitvoert op een bestaand cluster met alle doeleinden, wordt deze beschouwd als een all-purpose compute-workload (interactieve) waarvoor de prijzen van All-Purpose Compute gelden.
Veldnaam | Type | Description |
---|---|---|
existing_cluster_id OF new_cluster |
STRING OR NewCluster |
Als existing_cluster_id, wordt de id van een bestaand cluster gebruikt voor alle uitvoeringen van deze taak. Wanneer u taken uitvoert op een bestaand cluster, moet u het cluster mogelijk handmatig opnieuw opstarten als het niet meer reageert. We raden u aan taken uit te voeren op nieuwe clusters voor een grotere betrouwbaarheid. Als new_cluster, een beschrijving van een cluster dat voor elke uitvoering wordt gemaakt. Als u een PipelineTask opgeeft, kan dit veld leeg zijn. |
notebook_task OR OF spark_jar_task spark_python_task OR OF spark_submit_task pipeline_task OF run_job_task |
NotebookTask OF SparkJarTask OF SparkPythonTask OR SparkSubmitTask OR PipelineTask OR RunJobTask | Als notebook_task, geeft u aan dat deze taak een notebook moet uitvoeren. Dit veld kan niet worden opgegeven in combinatie met spark_jar_task. Als spark_jar_task, geeft u aan dat deze taak een JAR moet uitvoeren. Als spark_python_task, geeft u aan dat deze taak een Python-bestand moet uitvoeren. Als spark_submit_task, geeft u aan dat deze taak moet worden gestart door het spark submit-script. Als pipeline_task, geeft u aan dat deze taak een Delta Live Tables-pijplijn moet uitvoeren. Als run_job_task, geeft u aan dat deze taak een andere taak moet uitvoeren. |
run_name |
STRING |
Een optionele naam voor de uitvoering. De standaardwaarde is Untitled . |
webhook_notifications |
WebhookNotifications | Een optionele set systeembestemmingen om te waarschuwen wanneer uitvoeringen van deze taak beginnen, voltooien of mislukken. |
notification_settings |
JobNotificationSettings | Optionele meldingsinstellingen die worden gebruikt bij het verzenden van meldingen naar elk van de webhook_notifications meldingen voor deze uitvoering. |
libraries |
Een matrix van bibliotheek | Een optionele lijst met bibliotheken die moeten worden geïnstalleerd op het cluster waarmee de taak wordt uitgevoerd. De standaardwaarde is een lege lijst. |
timeout_seconds |
INT32 |
Er is een optionele time-out toegepast op elke uitvoering van deze taak. Het standaardgedrag is om geen time-out te hebben. |
idempotency_token |
STRING |
Een optioneel token om de idempotentie van taakuitvoeringsaanvragen te garanderen. Als er al een uitvoering met het opgegeven token bestaat, maakt de aanvraag geen nieuwe uitvoering, maar retourneert de id van de bestaande uitvoering. Als een uitvoering met het opgegeven token wordt verwijderd, wordt er een fout geretourneerd. Als u het idempotentietoken opgeeft, kunt u na een fout opnieuw proberen totdat de aanvraag is geslaagd. Azure Databricks garandeert dat precies één uitvoering wordt gestart met dat idempotentietoken. Dit token moet maximaal 64 tekens bevatten. Zie Idempotentie voor taken voor meer informatie. |
Antwoordstructuur
Veldnaam | Type | Description |
---|---|---|
run_id |
INT64 |
De canonieke id voor de zojuist ingediende uitvoering. |
Lijst met uitvoeringen
Eindpunt | HTTP-methode |
---|---|
2.0/jobs/runs/list |
GET |
Lijst wordt uitgevoerd in aflopende volgorde op begintijd.
Notitie
Uitvoeringen worden na 60 dagen automatisch verwijderd. Als u langer dan 60 dagen ernaar wilt verwijzen, moet u oude uitvoeringsresultaten opslaan voordat ze verlopen. Als u wilt exporteren met behulp van de gebruikersinterface, raadpleegt u de uitvoerresultaten van de exporttaak. Zie Uitvoeren exporteren als u wilt exporteren met behulp van de Taken-API.
Opmerking
Aanvragen
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/list?job_id=<job-id>&active_only=<true-false>&offset=<offset>&limit=<limit>&run_type=<run-type>' \
| jq .
Of:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/list \
--data 'job_id=<job-id>&active_only=<true-false>&offset=<offset>&limit=<limit>&run_type=<run-type>' \
| jq .
Vervangen:
<databricks-instance>
met bijvoorbeeld de naam van het Azure Databricks-werkruimte-exemplaar.adb-1234567890123456.7.azuredatabricks.net
<job-id>
met de id van de taak, bijvoorbeeld123
.- "
<true-false>
mettrue
offalse
". <offset>
met deoffset
waarde.<limit>
met delimit
waarde.<run-type>
met derun_type
waarde.
In dit voorbeeld wordt een .netrc-bestand en jq gebruikt.
Respons
{
"runs": [
{
"job_id": 1,
"run_id": 452,
"number_in_job": 5,
"state": {
"life_cycle_state": "RUNNING",
"state_message": "Performing action"
},
"task": {
"notebook_task": {
"notebook_path": "/Users/donald@duck.com/my-notebook"
}
},
"cluster_spec": {
"existing_cluster_id": "1201-my-cluster"
},
"cluster_instance": {
"cluster_id": "1201-my-cluster",
"spark_context_id": "1102398-spark-context-id"
},
"overriding_parameters": {
"jar_params": ["param1", "param2"]
},
"start_time": 1457570074236,
"end_time": 1457570075149,
"setup_duration": 259754,
"execution_duration": 3589020,
"cleanup_duration": 31038,
"run_duration": 3879812,
"trigger": "PERIODIC"
}
],
"has_more": true
}
Aanvraagstructuur
Veldnaam | Type | Description |
---|---|---|
active_only OF completed_only |
BOOL OF BOOL |
Als active_only is true , worden alleen actieve uitvoeringen opgenomen in de resultaten; anders worden zowel actieve als voltooide uitvoeringen vermeld. Een actieve uitvoering is een uitvoering in de PENDING run, RUNNING of TERMINATING RunLifecycleState. Dit veld kan niet zijn true wanneer completed_only is true .Als completed_only is true , worden alleen voltooide uitvoeringen opgenomen in de resultaten; anders worden zowel actieve als voltooide uitvoeringen vermeld. Dit veld kan niet zijn true wanneer active_only is true . |
job_id |
INT64 |
De taak waarvoor de lijst moet worden uitgevoerd. Als u dit weglaat, wordt de takenservice uitgevoerd vanuit alle taken. |
offset |
INT32 |
De verschuiving van de eerste uitvoering die moet worden geretourneerd ten opzichte van de meest recente uitvoering. |
limit |
INT32 |
Het aantal uitvoeringen dat moet worden geretourneerd. Deze waarde moet groter zijn dan 0 en kleiner dan 1000. De standaardwaarde is 20. Als een aanvraag een limiet van 0 opgeeft, gebruikt de service in plaats daarvan de maximumlimiet. |
run_type |
STRING |
Het type uitvoering dat moet worden geretourneerd. Zie Uitvoeren voor een beschrijving van uitvoeringstypen. |
Antwoordstructuur
Veldnaam | Type | Description |
---|---|---|
runs |
Een matrix van Uitvoeren | Een lijst met uitvoeringen, van meest recent begonnen tot het minste. |
has_more |
BOOL |
Indien waar, zijn extra uitvoeringen die overeenkomen met het opgegeven filter beschikbaar voor vermelding. |
Uitvoeringen worden get
Eindpunt | HTTP-methode |
---|---|
2.0/jobs/runs/get |
GET |
Haal de metagegevens van een uitvoering op.
Notitie
Uitvoeringen worden na 60 dagen automatisch verwijderd. Als u langer dan 60 dagen ernaar wilt verwijzen, moet u oude uitvoeringsresultaten opslaan voordat ze verlopen. Als u wilt exporteren met behulp van de gebruikersinterface, raadpleegt u de uitvoerresultaten van de exporttaak. Zie Uitvoeren exporteren als u wilt exporteren met behulp van de Taken-API.
Opmerking
Aanvragen
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/get?run_id=<run-id>' \
| jq .
Of:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/get \
--data run_id=<run-id> \
| jq .
Vervangen:
<databricks-instance>
met bijvoorbeeld de naam van het Azure Databricks-werkruimte-exemplaar.adb-1234567890123456.7.azuredatabricks.net
<run-id>
met de id van de uitvoering, bijvoorbeeld123
.
In dit voorbeeld wordt een .netrc-bestand en jq gebruikt.
Respons
{
"job_id": 1,
"run_id": 452,
"number_in_job": 5,
"state": {
"life_cycle_state": "RUNNING",
"state_message": "Performing action"
},
"task": {
"notebook_task": {
"notebook_path": "/Users/someone@example.com/my-notebook"
}
},
"cluster_spec": {
"existing_cluster_id": "1201-my-cluster"
},
"cluster_instance": {
"cluster_id": "1201-my-cluster",
"spark_context_id": "1102398-spark-context-id"
},
"overriding_parameters": {
"jar_params": ["param1", "param2"]
},
"start_time": 1457570074236,
"end_time": 1457570075149,
"setup_duration": 259754,
"execution_duration": 3589020,
"cleanup_duration": 31038,
"run_duration": 3879812,
"trigger": "PERIODIC"
}
Aanvraagstructuur
Veldnaam | Type | Description |
---|---|---|
run_id |
INT64 |
De canonieke id van de uitvoering waarvoor de metagegevens moeten worden opgehaald. Dit veld is vereist. |
Antwoordstructuur
Veldnaam | Type | Description |
---|---|---|
job_id |
INT64 |
De canonieke id van de taak die deze uitvoering bevat. |
run_id |
INT64 |
De canonieke id van de uitvoering. Deze id is uniek voor alle uitvoeringen van alle taken. |
number_in_job |
INT64 |
Het volgnummer van deze uitvoering tussen alle uitvoeringen van de taak. Deze waarde begint bij 1. |
original_attempt_run_id |
INT64 |
Als deze uitvoering een nieuwe poging is van een eerdere poging, bevat dit veld de run_id van de oorspronkelijke poging; anders is het hetzelfde als de run_id. |
state |
RunState | Het resultaat en de levenscyclusstatussen van de uitvoering. |
schedule |
CronSchedule | Het cron-schema dat deze uitvoering heeft geactiveerd als deze is geactiveerd door de periodieke planner. |
task |
JobTask | De taak die wordt uitgevoerd door de uitvoering, indien van toepassing. |
cluster_spec |
ClusterSpec | Een momentopname van de clusterspecificatie van de taak toen deze uitvoering werd gemaakt. |
cluster_instance |
ClusterInstance | Het cluster dat voor deze uitvoering wordt gebruikt. Als de uitvoering is opgegeven voor het gebruik van een nieuw cluster, wordt dit veld ingesteld zodra de takenservice een cluster heeft aangevraagd voor de uitvoering. |
overriding_parameters |
RunParameters | De parameters die worden gebruikt voor deze uitvoering. |
start_time |
INT64 |
Het tijdstip waarop deze uitvoering is gestart in epoch milliseconden (milliseconden sinds 1-1-1-1970 UTC). Dit is mogelijk niet het tijdstip waarop de taaktaak wordt uitgevoerd, bijvoorbeeld als de taak is gepland om te worden uitgevoerd op een nieuw cluster, dit is het tijdstip waarop de aanroep voor het maken van het cluster wordt uitgegeven. |
end_time |
INT64 |
Het tijdstip waarop deze uitvoering eindigde in epoch milliseconden (milliseconden sinds 1/1/1970 UTC). Dit veld wordt ingesteld op 0 als de taak nog steeds wordt uitgevoerd. |
setup_duration |
INT64 |
De tijd in milliseconden die nodig was om het cluster in te stellen. Voor uitvoeringen die worden uitgevoerd op nieuwe clusters is dit de aanmaaktijd van het cluster, voor uitvoeringen die op bestaande clusters worden uitgevoerd, moet deze tijd erg kort zijn. De totale duur van de uitvoering is de som van de setup_duration ,execution_duration , en de cleanup_duration . Het setup_duration veld is ingesteld op 0 voor uitvoeringen van multitasktaken. De totale duur van een taakuitvoering met meerdere taken is de waarde van derun_duration veld. |
execution_duration |
INT64 |
De tijd in milliseconden die nodig was om de opdrachten in het JAR- of notebook uit te voeren totdat ze zijn voltooid, mislukt, een time-out opgetreden, zijn geannuleerd of een onverwachte fout zijn opgetreden. De totale duur van de uitvoering is de som van de setup_duration , execution_duration en decleanup_duration . Het execution_duration veld is ingesteld op 0 voor uitvoeringen van multitasktaken. De totale duur van een taakuitvoering met meerdere taken is de waarde van het run_duration veld. |
cleanup_duration |
INT64 |
De tijd in milliseconden die nodig was om het cluster te beëindigen en eventuele bijbehorende artefacten op te schonen. De totale duur van de uitvoering is de som van de setup_duration , execution_duration en de cleanup_duration . Het cleanup_duration veld is ingesteld op 0 voor uitvoeringen van multitasktaken. De totale duur van een taakuitvoering met meerdere taken is de waarde van het run_duration veld. |
run_duration |
INT64 |
De tijd in milliseconden die het uitvoeren van de taak en alle reparaties om te voltooien. Dit veld is alleen ingesteld voor taakuitvoeringen met meerdere taken en niet voor taakuitvoeringen. De duur van een taakuitvoering is de som van desetup_duration , en execution_duration de cleanup_duration . |
trigger |
TriggerType | Het type trigger dat deze uitvoering heeft geactiveerd. |
creator_user_name |
STRING |
De gebruikersnaam van de maker. Dit veld wordt niet opgenomen in het antwoord als de gebruiker is verwijderd |
run_page_url |
STRING |
De URL naar de detailpagina van de uitvoering. |
Exportbewerkingen uitvoeren
Eindpunt | HTTP-methode |
---|---|
2.0/jobs/runs/export |
GET |
Exporteer en haal de taak voor het uitvoeren van de taak op.
Notitie
Alleen notebookuitvoeringen kunnen worden geëxporteerd in HTML-indeling. Het exporteren van uitvoeringen van andere typen mislukt.
Opmerking
Aanvragen
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/export?run_id=<run-id>' \
| jq .
Of:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/export \
--data run_id=<run-id> \
| jq .
Vervangen:
<databricks-instance>
met bijvoorbeeld de naam van het Azure Databricks-werkruimte-exemplaar.adb-1234567890123456.7.azuredatabricks.net
<run-id>
met de id van de uitvoering, bijvoorbeeld123
.
In dit voorbeeld wordt een .netrc-bestand en jq gebruikt.
Respons
{
"views": [ {
"content": "<!DOCTYPE html><html><head>Head</head><body>Body</body></html>",
"name": "my-notebook",
"type": "NOTEBOOK"
} ]
}
Als u het HTML-notebook wilt extraheren uit het JSON-antwoord, downloadt en voert u dit Python-script uit.
Notitie
De hoofdtekst van het notebook in het __DATABRICKS_NOTEBOOK_MODEL
object is gecodeerd.
Aanvraagstructuur
Veldnaam | Type | Description |
---|---|---|
run_id |
INT64 |
De canonieke id voor de uitvoering. Dit veld is vereist. |
views_to_export |
ViewsToExport | Welke weergaven moeten worden geëxporteerd (CODE, DASHBOARDS of ALL). Standaard ingesteld op CODE. |
Antwoordstructuur
Veldnaam | Type | Description |
---|---|---|
views |
Een matrix van ViewItem | De geëxporteerde inhoud in HTML-indeling (één voor elk weergave-item). |
Uitvoeringen annuleren
Eindpunt | HTTP-methode |
---|---|
2.0/jobs/runs/cancel |
POST |
Een taakuitvoering annuleren. Omdat de uitvoering asynchroon wordt geannuleerd, kan de uitvoering nog steeds worden uitgevoerd wanneer deze aanvraag is voltooid. De uitvoering wordt binnenkort beëindigd. Als de uitvoering al in een terminal life_cycle_state
staat, is deze methode een no-op.
Dit eindpunt controleert of de run_id
parameter geldig is en voor ongeldige parameters wordt HTTP-statuscode 400 geretourneerd.
Opmerking
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/cancel \
--data '{ "run_id": <run-id> }'
Vervangen:
<databricks-instance>
met bijvoorbeeld de naam van het Azure Databricks-werkruimte-exemplaar.adb-1234567890123456.7.azuredatabricks.net
<run-id>
met de id van de uitvoering, bijvoorbeeld123
.
In dit voorbeeld wordt een .netrc-bestand gebruikt.
Aanvraagstructuur
Veldnaam | Type | Description |
---|---|---|
run_id |
INT64 |
De canonieke id van de uitvoering die moet worden geannuleerd. Dit veld is vereist. |
Uitvoeringen annuleren alles
Eindpunt | HTTP-methode |
---|---|
2.0/jobs/runs/cancel-all |
POST |
Alle actieve uitvoeringen van een taak annuleren. Omdat de uitvoering asynchroon wordt geannuleerd, wordt niet voorkomen dat nieuwe uitvoeringen worden gestart.
Dit eindpunt controleert of de job_id
parameter geldig is en voor ongeldige parameters wordt HTTP-statuscode 400 geretourneerd.
Opmerking
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/cancel-all \
--data '{ "job_id": <job-id> }'
Vervangen:
<databricks-instance>
met bijvoorbeeld de naam van het Azure Databricks-werkruimte-exemplaar.adb-1234567890123456.7.azuredatabricks.net
<job-id>
met de id van de taak, bijvoorbeeld123
.
In dit voorbeeld wordt een .netrc-bestand gebruikt.
Aanvraagstructuur
Veldnaam | Type | Description |
---|---|---|
job_id |
INT64 |
De canonieke id van de taak om alle uitvoeringen te annuleren. Dit veld is vereist. |
Uitvoeringen krijgen uitvoer
Eindpunt | HTTP-methode |
---|---|
2.0/jobs/runs/get-output |
GET |
Haal de uitvoer en metagegevens van één taakuitvoering op. Wanneer een notebooktaak een waarde retourneert via de aanroep dbutils.notebook.exit(), kunt u dit eindpunt gebruiken om die waarde op te halen. Azure Databricks beperkt deze API om de eerste 5 MB van de uitvoer te retourneren. Als u een groter resultaat wilt retourneren, kunt u taakresultaten opslaan in een cloudopslagservice.
Dit eindpunt controleert of de run_id
parameter geldig is en voor ongeldige parameters wordt HTTP-statuscode 400 geretourneerd.
Uitvoeringen worden na 60 dagen automatisch verwijderd. Als u langer dan 60 dagen ernaar wilt verwijzen, moet u oude uitvoeringsresultaten opslaan voordat ze verlopen. Als u wilt exporteren met behulp van de gebruikersinterface, raadpleegt u de uitvoerresultaten van de exporttaak. Zie Uitvoeren exporteren als u wilt exporteren met behulp van de Taken-API.
Opmerking
Aanvragen
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/get-output?run_id=<run-id>' \
| jq .
Of:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/get-output \
--data run_id=<run-id> \
| jq .
Vervangen:
<databricks-instance>
met bijvoorbeeld de naam van het Azure Databricks-werkruimte-exemplaar.adb-1234567890123456.7.azuredatabricks.net
<run-id>
met de id van de uitvoering, bijvoorbeeld123
.
In dit voorbeeld wordt een .netrc-bestand en jq gebruikt.
Respons
{
"metadata": {
"job_id": 1,
"run_id": 452,
"number_in_job": 5,
"state": {
"life_cycle_state": "TERMINATED",
"result_state": "SUCCESS",
"state_message": ""
},
"task": {
"notebook_task": {
"notebook_path": "/Users/someone@example.com/my-notebook"
}
},
"cluster_spec": {
"existing_cluster_id": "1201-my-cluster"
},
"cluster_instance": {
"cluster_id": "1201-my-cluster",
"spark_context_id": "1102398-spark-context-id"
},
"overriding_parameters": {
"jar_params": ["param1", "param2"]
},
"start_time": 1457570074236,
"setup_duration": 259754,
"execution_duration": 3589020,
"cleanup_duration": 31038,
"run_duration": 3879812,
"trigger": "PERIODIC"
},
"notebook_output": {
"result": "the maybe truncated string passed to dbutils.notebook.exit()"
}
}
Aanvraagstructuur
Veldnaam | Type | Description |
---|---|---|
run_id |
INT64 |
De canonieke id voor de uitvoering. Voor een taak met meerdere taken is dit de run_id taakuitvoering. Zie Uitvoeringen krijgen uitvoer. Dit veld is vereist. |
Antwoordstructuur
Veldnaam | Type | Description |
---|---|---|
notebook_output OF error |
NotebookOutput OR STRING |
Als notebook_output, wordt de uitvoer van een notebooktaak, indien beschikbaar, weergegeven. Een notebooktaak die wordt beëindigd (met succes of met een fout) zonder aanroependbutils.notebook.exit() wordt beschouwd als een lege uitvoer. Dit veld wordt ingesteld, maar de resultaatwaarde is leeg.Als er een fout optreedt, wordt een foutbericht weergegeven waarin wordt aangegeven waarom uitvoer niet beschikbaar is. Het bericht is ongestructureerd en de exacte indeling is onderhevig aan wijzigingen. |
metadata |
Rennen | Alle details van de uitvoering, met uitzondering van de uitvoer. |
Uitvoeringen verwijderen
Eindpunt | HTTP-methode |
---|---|
2.0/jobs/runs/delete |
POST |
Een niet-actieve uitvoering verwijderen. Retourneert een fout als de uitvoering actief is.
Opmerking
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/delete \
--data '{ "run_id": <run-id> }'
Vervangen:
<databricks-instance>
met bijvoorbeeld de naam van het Azure Databricks-werkruimte-exemplaar.adb-1234567890123456.7.azuredatabricks.net
<run-id>
met de id van de uitvoering, bijvoorbeeld123
.
In dit voorbeeld wordt een .netrc-bestand gebruikt.
Aanvraagstructuur
Veldnaam | Type | Description |
---|---|---|
run_id |
INT64 |
De canonieke id van de uitvoering waarvoor de metagegevens moeten worden opgehaald. |
Gegevensstructuren
In deze sectie:
- ABFSSStorageInfo
- Automatisch schalen
- AzureAttributes
- AzureAvailability
- ClusterInstance
- ClusterLogConf
- ClusterSpec
- ClusterTag
- CronSchedule
- DbfsStorageInfo
- FileStorageInfo
- InitScriptInfo
- Functie
- JobEmailNotifications
- JobNotificationSettings
- JobSettings
- JobTask
- JobsHealthRule
- JobsHealthRules
- Bibliotheek
- MavenLibrary
- NewCluster
- NotebookOutput
- NotebookTask
- ParamPair
- PipelineTask
- PythonPyPiLibrary
- RCranLibrary
- Rennen
- RunJobTask
- RunLifeCycleState
- RunParameters
- RunResultState
- RunState
- SparkConfPair
- SparkEnvPair
- SparkJarTask
- SparkPythonTask
- SparkSubmitTask
- TriggerType
- ViewItem
- ViewType
- ViewsToExport
- Webhook
- WebhookNotifications
- WorkspaceStorageInfo
ABFSSStorageInfo
Azure Data Lake Storage -opslaggegevens (ADLS).
Veldnaam | Type | Description |
---|---|---|
destination |
STRING |
Bestandsbestemming. Voorbeeld: abfss://... |
Automatisch schalen
Bereik voor het definiëren van het minimum- en maximumaantal clusterwerkrollen.
Veldnaam | Type | Description |
---|---|---|
min_workers |
INT32 |
Het minimale aantal werkrollen waarnaar het cluster omlaag kan schalen wanneer het te weinig wordt gebruikt. Het is ook het eerste aantal werkrollen dat het cluster na het maken heeft. |
max_workers |
INT32 |
Het maximum aantal werkrollen waarnaar het cluster omhoog kan schalen wanneer het overbelast is. max_workers moet strikt groter zijn dan min_workers. |
AzureAttributes
Kenmerken die zijn ingesteld tijdens het maken van het cluster met betrekking tot Azure.
Veldnaam | Type | Description |
---|---|---|
first_on_demand |
INT32 |
De eerste first_on_demand knooppunten van het cluster worden op aanvraag-exemplaren geplaatst. Deze waarde moet groter zijn dan 0, anders mislukt de validatie van het maken van clusters. Als deze waarde groter is dan of gelijk is aan de huidige clustergrootte, worden alle knooppunten op aanvraag-exemplaren geplaatst. Als deze waarde kleiner is dan de huidige clustergrootte, first_on_demand worden knooppunten op aanvraag-exemplaren geplaatst en wordt de rest op beschikbaarheidsexemplaren geplaatst. Deze waarde heeft geen invloed op de clustergrootte en kan niet worden gedempt gedurende de levensduur van een cluster. |
availability |
AzureAvailability | Het beschikbaarheidstype dat wordt gebruikt voor alle volgende knooppunten voorbij de first_on_demand knooppunten. |
spot_bid_max_price |
DOUBLE |
De maximale biedprijs die wordt gebruikt voor Azure spot-exemplaren. U kunt dit instellen op groter dan of gelijk aan de huidige spotprijs. U kunt dit ook instellen op -1 (de standaardinstelling), waarmee wordt aangegeven dat het exemplaar niet kan worden verwijderd op basis van de prijs. De prijs voor het exemplaar is de huidige prijs voor spot-exemplaren of de prijs voor een standaardexemplaren. U kunt historische prijzen en verwijderingstarieven bekijken in Azure Portal. |
AzureAvailability
Het gedrag van het beschikbaarheidstype azure-exemplaar.
Type | Description |
---|---|
SPOT_AZURE |
Spot-exemplaren gebruiken. |
ON_DEMAND_AZURE |
Gebruik on-demand exemplaren. |
SPOT_WITH_FALLBACK_AZURE |
Gebruik bij voorkeur spot-exemplaren, maar val terug op on-demand exemplaren als spot-exemplaren niet kunnen worden verkregen (bijvoorbeeld als de prijzen van Azure-spot te hoog of buiten het quotum vallen). Is niet van toepassing op de beschikbaarheid van de pool. |
ClusterInstance
Id's voor het cluster en de Spark-context die door een uitvoering worden gebruikt. Deze twee waarden identificeren samen een uitvoeringscontext voor de hele tijd.
Veldnaam | Type | Description |
---|---|---|
cluster_id |
STRING |
De canonieke id voor het cluster dat wordt gebruikt door een uitvoering. Dit veld is altijd beschikbaar voor uitvoeringen op bestaande clusters. Voor uitvoeringen op nieuwe clusters wordt deze beschikbaar zodra het cluster is gemaakt. Deze waarde kan worden gebruikt om logboeken weer te geven door naar /#setting/sparkui/$cluster_id/driver-logs te bladeren. De logboeken blijven beschikbaar nadat de uitvoering is voltooid.Het antwoord bevat dit veld niet als de id nog niet beschikbaar is. |
spark_context_id |
STRING |
De canonieke id voor de Spark-context die wordt gebruikt door een uitvoering. Dit veld wordt ingevuld zodra de uitvoering begint. Deze waarde kan worden gebruikt om de Spark-gebruikersinterface weer te geven door naar /#setting/sparkui/$cluster_id/$spark_context_id te bladeren. De Spark-gebruikersinterface blijft beschikbaar nadat de uitvoering is voltooid.Het antwoord bevat dit veld niet als de id nog niet beschikbaar is. |
ClusterLogConf
Pad naar clusterlogboek.
Veldnaam | Type | Description |
---|---|---|
dbfs |
DbfsStorageInfo | DBFS-locatie van het clusterlogboek. De bestemming moet worden opgegeven. Bijvoorbeeld:{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } } |
ClusterSpec
Belangrijk
- Wanneer u een taak uitvoert op een nieuw taakcluster, wordt de taak behandeld als een jobs compute-workload (geautomatiseerd) die onderhevig is aan de prijzen van Jobs Compute.
- Wanneer u een taak uitvoert op een bestaand cluster met alle doeleinden, wordt deze beschouwd als een all-purpose compute-workload (interactieve) waarvoor de prijzen van All-Purpose Compute gelden.
Veldnaam | Type | Description |
---|---|---|
existing_cluster_id OF new_cluster |
STRING OR NewCluster |
Als existing_cluster_id, wordt de id van een bestaand cluster gebruikt voor alle uitvoeringen van deze taak. Wanneer u taken uitvoert op een bestaand cluster, moet u het cluster mogelijk handmatig opnieuw opstarten als het niet meer reageert. We raden u aan taken uit te voeren op nieuwe clusters voor een grotere betrouwbaarheid. Als new_cluster, een beschrijving van een cluster dat voor elke uitvoering wordt gemaakt. Als u een PipelineTask opgeeft, kan dit veld leeg zijn. |
libraries |
Een matrix van bibliotheek | Een optionele lijst met bibliotheken die moeten worden geïnstalleerd op het cluster waarmee de taak wordt uitgevoerd. De standaardwaarde is een lege lijst. |
ClusterTag
Definitie van clustertag.
Type | Description |
---|---|
STRING |
De sleutel van de tag. De sleutel moet: - Tussen 1 en 512 tekens lang zijn - Geen van de tekens bevatten <>%*&+?\\/ - Niet beginnen met azure , microsoft of windows |
STRING |
De waarde van de tag. De lengte van de waarde moet kleiner zijn dan of gelijk zijn aan 256 UTF-8 tekens. |
CronSchedule
Veldnaam | Type | Description |
---|---|---|
quartz_cron_expression |
STRING |
Een Cron-expressie met behulp van kwartssyntaxis die het schema voor een taak beschrijft. Zie Cron-trigger voor meer informatie. Dit veld is vereist. |
timezone_id |
STRING |
Een Java-tijdzone-id. De planning voor een taak wordt opgelost met betrekking tot deze tijdzone. Zie Java TimeZone voor meer informatie. Dit veld is vereist. |
pause_status |
STRING |
Geef aan of deze planning is onderbroken of niet. 'ONDERBROKEN' of 'UNPAUSED'. |
DbfsStorageInfo
DBFS-opslaggegevens.
Veldnaam | Type | Description |
---|---|---|
destination |
STRING |
DBFS-doel. Voorbeeld: dbfs:/my/path |
FileStorageInfo
Bestandsopslaggegevens.
Notitie
Dit locatietype is alleen beschikbaar voor clusters die zijn ingesteld met Databricks Container Services.
Veldnaam | Type | Description |
---|---|---|
destination |
STRING |
Bestandsbestemming. Voorbeeld: file:/my/file.sh |
InitScriptInfo
Pad naar een init-script.
Zie Een init-script gebruiken voor instructies over het gebruik van init-scripts met Databricks Container Services.
Notitie
Het bestandstype (veldnaam: file
) is alleen beschikbaar voor clusters die zijn ingesteld met Databricks Container Services. Zie FileStorageInfo.
Veldnaam | Type | Description |
---|---|---|
workspace OFdbfs (afgeschaft)OF abfss |
WorkspaceStorageInfo DbfsStorageInfo (afgeschaft) ABFSSStorageInfo |
Locatie van werkruimte van init-script. De bestemming moet worden opgegeven. Bijvoorbeeld:{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } } (Afgeschaft) DBFS-locatie van init-script. De bestemming moet worden opgegeven. Bijvoorbeeld: { "dbfs" : { "destination" : "dbfs:/home/init_script" } } Azure Data Lake Storage -locatie (ADLS) van init-script. De bestemming moet worden opgegeven. Bijvoorbeeld { "abfss": { "destination" : "abfss://..." } } |
Baan
Veldnaam | Type | Description |
---|---|---|
job_id |
INT64 |
De canonieke id voor deze taak. |
creator_user_name |
STRING |
De gebruikersnaam van de maker. Dit veld wordt niet opgenomen in het antwoord als de gebruiker al is verwijderd. |
run_as |
STRING |
De gebruikersnaam die door de taak wordt uitgevoerd. run_as is gebaseerd op de huidige taakinstellingen en is ingesteld op de maker van de taak als taaktoegangsbeheer is uitgeschakeld of de is_owner machtiging als toegangsbeheer voor de taak is ingeschakeld. |
settings |
JobSettings | Instellingen voor deze taak en alle uitvoeringen. Deze instellingen kunnen worden bijgewerkt met behulp van de resetJob methode. |
created_time |
INT64 |
Het tijdstip waarop deze taak is gemaakt in epoch milliseconden (milliseconden sinds 1-1-1-1970 UTC). |
JobEmailNotifications
Belangrijk
De velden on_start, on_success en on_failure accepteren alleen Latijnse tekens (ASCII-tekenset). Als u niet-ASCII-tekens gebruikt, wordt een fout geretourneerd. Voorbeelden van ongeldige, niet-ASCII-tekens zijn Chinese, Japanse kanji's en emoji's.
Veldnaam | Type | Description |
---|---|---|
on_start |
Een matrix van STRING |
Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer een uitvoering begint. Als de lijst niet is opgegeven bij het maken, opnieuw instellen of bijwerken van een taak, is de lijst leeg en worden er geen meldingen verzonden. |
on_success |
Een matrix van STRING |
Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer een uitvoering is voltooid. Een uitvoering wordt beschouwd als voltooid als deze eindigt op een TERMINATED en een SUCCESSFUL result_state .life_cycle_state Als de lijst niet is opgegeven bij het maken, opnieuw instellen of bijwerken van een taak, is de lijst leeg en worden er geen meldingen verzonden. |
on_failure |
Een matrix van STRING |
Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer een uitvoering niet is voltooid. Een uitvoering wordt beschouwd als mislukt als deze eindigt op een INTERNAL_ERROR life_cycle_state of een SKIPPED , FAILED of TIMED_OUT result_state. Als dit niet is opgegeven bij het maken, opnieuw instellen of bijwerken van de lijst, is de lijst leeg en worden er geen meldingen verzonden. |
on_duration_warning_threshold_exceeded |
Een matrix van STRING |
Een lijst met e-mailadressen die moeten worden gewaarschuwd wanneer de duur van een uitvoering de drempelwaarde overschrijdt die is opgegeven voor de RUN_DURATION_SECONDS metrische waarde in het health veld. Als er geen regel voor de RUN_DURATION_SECONDS metrische waarde is opgegeven in het health veld voor de taak, worden er geen meldingen verzonden. |
no_alert_for_skipped_runs |
BOOL |
Als waar is, verzendt u geen e-mail naar geadresseerden die zijn opgegeven als on_failure de uitvoering wordt overgeslagen. |
Veldnaam | Type | Description |
---|---|---|
on_start |
Een matrix van webhook | Een optionele lijst met systeembestemmingen die moeten worden gewaarschuwd wanneer een uitvoering begint. Als de lijst niet is opgegeven bij het maken, opnieuw instellen of bijwerken van een taak, is de lijst leeg en worden er geen meldingen verzonden. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de on_start eigenschap. |
on_success |
Een matrix van webhook | Een optionele lijst met systeembestemmingen die moeten worden gewaarschuwd wanneer een uitvoering is voltooid. Een uitvoering wordt beschouwd als voltooid als deze eindigt op een TERMINATED en een SUCCESSFUL result_state .life_cycle_state Als de lijst niet is opgegeven bij het maken, opnieuw instellen of bijwerken van een taak, is de lijst leeg en worden er geen meldingen verzonden. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de on_success eigenschap. |
on_failure |
Een matrix van webhook | Een optionele lijst met systeembestemmingen die moeten worden gewaarschuwd wanneer een uitvoering mislukt. Een uitvoering wordt beschouwd als mislukt als deze eindigt op een INTERNAL_ERROR life_cycle_state of een SKIPPED , FAILED of TIMED_OUT result_state. Als dit niet is opgegeven bij het maken, opnieuw instellen of bijwerken van de lijst, is de lijst leeg en worden er geen meldingen verzonden. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de on_failure eigenschap. |
on_duration_warning_threshold_exceeded |
Een matrix van webhook | Een optionele lijst met systeembestemmingen die moeten worden gewaarschuwd wanneer de duur van een uitvoering de drempelwaarde overschrijdt die is opgegeven voor de RUN_DURATION_SECONDS metrische waarde in het health veld. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de on_duration_warning_threshold_exceeded eigenschap. |
JobNotificationSettings
Veldnaam | Type | Description |
---|---|---|
no_alert_for_skipped_runs |
BOOL |
Indien waar, stuur dan geen meldingen naar geadresseerden die zijn opgegeven als on_failure de uitvoering wordt overgeslagen. |
no_alert_for_canceled_runs |
BOOL |
Als waar is, verzendt u geen meldingen naar geadresseerden die zijn opgegeven als on_failure de uitvoering is geannuleerd. |
alert_on_last_attempt |
BOOL |
Als waar is, verzendt u geen meldingen naar geadresseerden die zijn on_start opgegeven voor de nieuwe uitvoeringen en verzendt u geen meldingen naar geadresseerden die zijn on_failure opgegeven tot de laatste poging van de uitvoering. |
JobSettings
Belangrijk
- Wanneer u een taak uitvoert op een nieuw taakcluster, wordt de taak behandeld als een jobs compute-workload (geautomatiseerd) die onderhevig is aan de prijzen van Jobs Compute.
- Wanneer u een taak uitvoert op een bestaand cluster met alle doeleinden, wordt deze beschouwd als een all-purpose compute-workload (interactieve) waarvoor de prijzen van All-Purpose Compute gelden.
Instellingen voor een taak. Deze instellingen kunnen worden bijgewerkt met behulp van de resetJob
methode.
Veldnaam | Type | Description |
---|---|---|
existing_cluster_id OF new_cluster |
STRING OR NewCluster |
Als existing_cluster_id, wordt de id van een bestaand cluster gebruikt voor alle uitvoeringen van deze taak. Wanneer u taken uitvoert op een bestaand cluster, moet u het cluster mogelijk handmatig opnieuw opstarten als het niet meer reageert. We raden u aan taken uit te voeren op nieuwe clusters voor een grotere betrouwbaarheid. Als new_cluster, een beschrijving van een cluster dat voor elke uitvoering wordt gemaakt. Als u een PipelineTask opgeeft, kan dit veld leeg zijn. |
notebook_task OR OF spark_jar_task spark_python_task OR OF spark_submit_task pipeline_task OF run_job_task |
NotebookTask OF SparkJarTask OF SparkPythonTask OR SparkSubmitTask OR PipelineTask OR RunJobTask | Als notebook_task, geeft u aan dat deze taak een notebook moet uitvoeren. Dit veld kan niet worden opgegeven in combinatie met spark_jar_task. Als spark_jar_task, geeft u aan dat deze taak een JAR moet uitvoeren. Als spark_python_task, geeft u aan dat deze taak een Python-bestand moet uitvoeren. Als spark_submit_task, geeft u aan dat deze taak moet worden gestart door het spark submit-script. Als pipeline_task, geeft u aan dat deze taak een Delta Live Tables-pijplijn moet uitvoeren. Als run_job_task, geeft u aan dat deze taak een andere taak moet uitvoeren. |
name |
STRING |
Een optionele naam voor de taak. De standaardwaarde is Untitled . |
libraries |
Een matrix van bibliotheek | Een optionele lijst met bibliotheken die moeten worden geïnstalleerd op het cluster waarmee de taak wordt uitgevoerd. De standaardwaarde is een lege lijst. |
email_notifications |
JobEmailNotifications | Een optionele set e-mailadressen die worden gewaarschuwd wanneer de uitvoering van deze taak begint of is voltooid en wanneer deze taak wordt verwijderd. Het standaardgedrag is om geen e-mailberichten te verzenden. |
webhook_notifications |
WebhookNotifications | Een optionele set systeembestemmingen om te waarschuwen wanneer uitvoeringen van deze taak beginnen, voltooien of mislukken. |
notification_settings |
JobNotificationSettings | Optionele meldingsinstellingen die worden gebruikt bij het verzenden van meldingen naar elk van de email_notifications en webhook_notifications voor deze taak. |
timeout_seconds |
INT32 |
Er is een optionele time-out toegepast op elke uitvoering van deze taak. Het standaardgedrag is om geen time-out te hebben. |
max_retries |
INT32 |
Een optioneel maximum aantal keren om een mislukte uitvoering opnieuw uit te voeren. Een uitvoering wordt beschouwd als mislukt als deze is voltooid met de FAILED result_state ofINTERNAL_ERROR life_cycle_state . De waarde -1 betekent dat u het voor onbepaalde tijd opnieuw wilt proberen en de waarde 0 betekent dat u het nooit opnieuw wilt proberen. Het standaardgedrag is om het nooit opnieuw te proberen. |
min_retry_interval_millis |
INT32 |
Een optioneel minimaal interval in milliseconden tussen pogingen. Het standaardgedrag is dat mislukte uitvoeringen onmiddellijk opnieuw worden geprobeerd. |
retry_on_timeout |
BOOL |
Een optioneel beleid om op te geven of een taak opnieuw moet worden uitgevoerd wanneer er een time-out optreedt. Het standaardgedrag is om het niet opnieuw te proberen bij time-out. |
schedule |
CronSchedule | Een optioneel periodiek schema voor deze taak. Het standaardgedrag is dat de taak alleen wordt uitgevoerd wanneer deze wordt geactiveerd door in de gebruikersinterface taken op Nu uitvoeren te klikken of een API-aanvraag naar te verzendenrunNow . |
max_concurrent_runs |
INT32 |
Een optioneel maximaal toegestaan aantal gelijktijdige uitvoeringen van de taak. Stel deze waarde in als u meerdere uitvoeringen van dezelfde taak tegelijk wilt kunnen uitvoeren. Dit is bijvoorbeeld handig als u uw taak activeert volgens een frequent schema en opeenvolgende uitvoeringen wilt laten overlappen met elkaar, of als u meerdere uitvoeringen wilt activeren die verschillen per invoerparameters. Deze instelling is alleen van invloed op nieuwe uitvoeringen. Stel dat de gelijktijdigheid van de taak 4 is en dat er 4 gelijktijdige actieve uitvoeringen zijn. Als u vervolgens de gelijktijdigheid instelt op 3, worden geen actieve uitvoeringen gedood. Vanaf dat tijdstip worden nieuwe uitvoeringen echter overgeslagen, tenzij er minder dan 3 actieve uitvoeringen zijn. Deze waarde mag niet groter zijn dan 1000. Als u deze waarde instelt op 0, worden alle nieuwe uitvoeringen overgeslagen. Het standaardgedrag is om slechts 1 gelijktijdige uitvoering toe te staan. |
health |
JobsHealthRules | Een optionele set statusregels die zijn gedefinieerd voor de taak. |
JobTask
Veldnaam | Type | Description |
---|---|---|
notebook_task OR OF spark_jar_task spark_python_task OR OF spark_submit_task pipeline_task OF run_job_task |
NotebookTask OF SparkJarTask OF SparkPythonTask OR SparkSubmitTask OR PipelineTask OR RunJobTask | Als notebook_task, geeft u aan dat deze taak een notebook moet uitvoeren. Dit veld kan niet worden opgegeven in combinatie met spark_jar_task. Als spark_jar_task, geeft u aan dat deze taak een JAR moet uitvoeren. Als spark_python_task, geeft u aan dat deze taak een Python-bestand moet uitvoeren. Als spark_submit_task, geeft u aan dat deze taak moet worden gestart door het spark submit-script. Als pipeline_task, geeft u aan dat deze taak een Delta Live Tables-pijplijn moet uitvoeren. Als run_job_task, geeft u aan dat deze taak een andere taak moet uitvoeren. |
JobsHealthRule
Veldnaam | Type | Description |
---|---|---|
metric |
STRING |
Hiermee geeft u de metrische statusgegevens op die worden geëvalueerd voor een bepaalde statusregel. Geldige waarden zijn RUN_DURATION_SECONDS . |
operator |
STRING |
Hiermee geeft u de operator op die wordt gebruikt om de metrische waarde van de status te vergelijken met de opgegeven drempelwaarde. Geldige waarden zijn GREATER_THAN . |
value |
INT32 |
Hiermee geeft u de drempelwaarde op waaraan de metrische status moet voldoen om te voldoen aan de statusregel. |
JobsHealthRules
Veldnaam | Type | Description |
---|---|---|
rules |
Een matrix van JobsHealthRule | Een optionele set statusregels die kunnen worden gedefinieerd voor een taak. |
Bibliotheek
Veldnaam | Type | Description |
---|---|---|
jar OR OF OR egg whl pypi OR OF maven cran |
STRING OR OR OR STRING STRING PythonPyPiLibrary OR MavenLibrary OR RCranLibrary |
Als jar, URI van de JAR die moet worden geïnstalleerd. DBFS- en ADLS-URI's (abfss URI's) worden ondersteund. Bijvoorbeeld: { "jar": "dbfs:/mnt/databricks/library.jar" } of{ "jar": "abfss://<container-path>/library.jar" } . Als ADLS wordt gebruikt, controleert u of het cluster leestoegang heeft tot de bibliotheek.Als ei, URI van het ei dat moet worden geïnstalleerd. DBFS- en ADLS-URI's worden ondersteund. Bijvoorbeeld: { "egg": "dbfs:/my/egg" } of{ "egg": "abfss://<container-path>/egg" } .Indien whl, URI van de wheel of zip-to-installed wheels . DBFS- en ADLS-URI's worden ondersteund. Bijvoorbeeld: { "whl": "dbfs:/my/whl" } of{ "whl": "abfss://<container-path>/whl" } . Als ADLS wordt gebruikt, controleert u of het cluster leestoegang heeft tot de bibliotheek. Ook moet de wheel bestandsnaam de juiste conventie gebruiken. Als gezipt wheels moet worden geïnstalleerd, moet het achtervoegsel van de bestandsnaam zijn .wheelhouse.zip .Als pypi, specificatie van een PyPI-bibliotheek die moet worden geïnstalleerd. Het opgeven van het repo veld is optioneel en indien niet opgegeven, wordt de standaard pip-index gebruikt. Voorbeeld:{ "package": "simplejson", "repo": "https://my-repo.com" } Als maven, specificatie van een Maven-bibliotheek die moet worden geïnstalleerd. Voorbeeld: { "coordinates": "org.jsoup:jsoup:1.7.2" } Als cran, specificatie van een CRAN-bibliotheek die moet worden geïnstalleerd. |
MavenLibrary
Veldnaam | Type | Description |
---|---|---|
coordinates |
STRING |
Maven-coördinaten in Gradle-stijl. Voorbeeld: org.jsoup:jsoup:1.7.2 . Dit veld is vereist. |
repo |
STRING |
Maven-opslagplaats waaruit het Maven-pakket moet worden geïnstalleerd. Als u dit weglaat, worden zowel de Centrale Opslagplaats van Maven als spark-pakketten doorzocht. |
exclusions |
Een matrix van STRING |
Lijst met afhankelijkheiden die moeten worden uitgesloten. Voorbeeld: ["slf4j:slf4j", "*:hadoop-client"] .Uitsluitingen van Maven-afhankelijkheid: https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html. |
NewCluster
Veldnaam | Type | Description |
---|---|---|
num_workers OF autoscale |
INT32 OF Automatisch schalen |
Als num_workers, moet het aantal werkknooppunten dat dit cluster moet hebben. Een cluster heeft één Spark-stuurprogramma en num_workers uitvoerders voor in totaal num_workers + 1 Spark-knooppunten. Opmerking: bij het lezen van de eigenschappen van een cluster weerspiegelt dit veld het gewenste aantal werkrollen in plaats van het werkelijke huidige aantal werknemers. Als een cluster bijvoorbeeld wordt aangepast van 5 tot 10 werkrollen, wordt dit veld onmiddellijk bijgewerkt met de doelgrootte van 10 werknemers, terwijl de werknemers die in spark_info worden vermeld, geleidelijk van 5 tot 10 toenemen naarmate de nieuwe knooppunten worden ingericht. Als automatische schaalaanpassing is vereist, zijn parameters nodig om clusters automatisch omhoog en omlaag te schalen op basis van belasting. |
spark_version |
STRING |
De Spark-versie van het cluster. Een lijst met beschikbare Spark-versies kan worden opgehaald met behulp van de aanroep GET 2.0/clusters/spark-versions . Dit veld is vereist. |
spark_conf |
SparkConfPair | Een object met een set optionele, door de gebruiker opgegeven Spark-configuratiesleutel-waardeparen. U kunt ook een reeks extra JVM-opties doorgeven aan het stuurprogramma en de uitvoerders viaspark.driver.extraJavaOptions respectievelijk spark.executor.extraJavaOptions .Voorbeeld van Spark-confs: {"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} of{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"} |
node_type_id |
STRING |
Dit veld codeert, via één waarde, de resources die beschikbaar zijn voor elk van de Spark-knooppunten in dit cluster. De Spark-knooppunten kunnen bijvoorbeeld worden ingericht en geoptimaliseerd voor geheugen- of rekenintensieve workloads. Een lijst met beschikbare knooppunttypen kan worden opgehaald met behulp van de aanroep GET 2.0/clusters/list-node-types . Dit veld, het instance_pool_id veld of een clusterbeleid dat een knooppunttype-id of exemplaargroep-id opgeeft, is vereist. |
driver_node_type_id |
STRING |
Het knooppunttype van het Spark-stuurprogramma. Dit veld is optioneel; als dit niet is ingesteld, wordt het type stuurprogrammaknooppunt ingesteld als dezelfde waarde als node_type_id hierboven is gedefinieerd. |
custom_tags |
ClusterTag | Een object met een set tags voor clusterbronnen. Databricks tagt alle clusterbronnen (zoals VM's) met deze tags naast default_tags. Opmerking: - Tags worden niet ondersteund voor verouderde knooppunttypen, zoals geoptimaliseerd voor rekenkracht en geoptimaliseerd voor geheugen - Databricks staat maximaal 45 aangepaste tags toe |
cluster_log_conf |
ClusterLogConf | De configuratie voor het leveren van Spark-logboeken aan een langetermijnopslagbestemming. Er kan slechts één doel worden opgegeven voor één cluster. Als de conf wordt opgegeven, worden de logboeken elk 5 mins naar de bestemming bezorgd. Het doel van stuurprogrammalogboeken is <destination>/<cluster-id>/driver , terwijl de bestemming van uitvoerderslogboeken is <destination>/<cluster-id>/executor . |
init_scripts |
Een matrix van InitScriptInfo | De configuratie voor het opslaan van init-scripts. Er kan een willekeurig aantal scripts worden opgegeven. De scripts worden sequentieel uitgevoerd in de opgegeven volgorde. Als cluster_log_conf dit is opgegeven, worden init-scriptlogboeken verzonden naar<destination>/<cluster-id>/init_scripts . |
spark_env_vars |
SparkEnvPair | Een object met een set optionele, door de gebruiker opgegeven omgevingsvariabele sleutel-waardeparen. Sleutel-waardepaar van het formulier (X,Y) wordt geëxporteerd zoals is (dat wil bijvoorbeeldexport X='Y' ) tijdens het starten van de bestuurder en de werknemers.Als u een extra set SPARK_DAEMON_JAVA_OPTS wilt opgeven, raden we u aan deze toe te $SPARK_DAEMON_JAVA_OPTS voegen, zoals wordt weergegeven in het volgende voorbeeld. Dit zorgt ervoor dat ook alle door Databricks beheerde omgevingsvariabelen worden opgenomen.Voorbeeld van Spark-omgevingsvariabelen: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} of{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"} |
enable_elastic_disk |
BOOL |
Lokale opslag automatisch schalen: wanneer dit cluster is ingeschakeld, krijgt dit cluster dynamisch extra schijfruimte wanneer de Spark-werkrollen weinig schijfruimte hebben. Raadpleeg Automatische schaalaanpassing van lokale opslag inschakelen voor meer informatie. |
driver_instance_pool_id |
STRING |
De optionele id van de instantiegroep die moet worden gebruikt voor het stuurprogrammaknooppunt. U moet ook opgeven instance_pool_id . Raadpleeg de API exemplaargroepen voor meer informatie. |
instance_pool_id |
STRING |
De optionele id van de instantiegroep die moet worden gebruikt voor clusterknooppunten. Als driver_instance_pool_id aanwezig is,instance_pool_id wordt alleen gebruikt voor werkknooppunten. Anders wordt deze gebruikt voor zowel het stuurprogrammaknooppunt als de werkknooppunten. Raadpleeg de API exemplaargroepen voor meer informatie. |
NotebookOutput
Veldnaam | Type | Description |
---|---|---|
result |
STRING |
De waarde die is doorgegeven aan dbutils.notebook.exit(). Azure Databricks beperkt deze API om de eerste 1 MB van de waarde te retourneren. Voor een groter resultaat kan uw taak de resultaten opslaan in een cloudopslagservice. Dit veld is afwezig als dbutils.notebook.exit() dit nooit is aangeroepen. |
truncated |
BOOLEAN |
Of het resultaat al dan niet is afgekapt. |
NotebookTask
Alle uitvoercellen zijn onderworpen aan de grootte van 8 MB. Als de uitvoer van een cel een grotere grootte heeft, wordt de rest van de uitvoering geannuleerd en wordt de uitvoering gemarkeerd als mislukt. In dat geval ontbreekt mogelijk ook een deel van de inhoudsuitvoer van andere cellen.
Als u hulp nodig hebt bij het vinden van de cel die buiten de limiet valt, voert u het notebook uit op een cluster voor alle doeleinden en gebruikt u deze techniek voor automatisch opslaan van notebooks.
Veldnaam | Type | Description |
---|---|---|
notebook_path |
STRING |
Het absolute pad van het notebook dat moet worden uitgevoerd in de Azure Databricks-werkruimte. Dit pad moet beginnen met een slash. Dit veld is vereist. |
revision_timestamp |
LONG |
De tijdstempel van de revisie van het notebook. |
base_parameters |
Een kaart van ParamPair | Basisparameters die moeten worden gebruikt voor elke uitvoering van deze taak. Als de uitvoering wordt gestart door een aanroep naar run-now met opgegeven parameters, worden de twee parameterstoewijzingen samengevoegd. Als dezelfde sleutel is opgegeven in base_parameters en in run-now , wordt de waarde waaruit run-now wordt gebruikt.Gebruik Wat is een verwijzing naar dynamische waarden? om parameters in te stellen die informatie bevatten over taakuitvoeringen. Als het notebook een parameter gebruikt die niet is opgegeven in de parameters van de taak base_parameters of de run-now onderdrukkingsparameters, wordt de standaardwaarde van het notebook gebruikt.Haal deze parameters op in een notebook met behulp van dbutils.widgets.get. |
ParamPair
Op naam gebaseerde parameters voor taken die notebooktaken uitvoeren.
Belangrijk
De velden in deze gegevensstructuur accepteren alleen Latijnse tekens (ASCII-tekenset). Als u niet-ASCII-tekens gebruikt, wordt een fout geretourneerd. Voorbeelden van ongeldige, niet-ASCII-tekens zijn Chinese, Japanse kanji's en emoji's.
Type | Description |
---|---|
STRING |
Parameternaam. Geef door aan dbutils.widgets.get om de waarde op te halen. |
STRING |
Parameterwaarde. |
PipelineTask
Veldnaam | Type | Description |
---|---|---|
pipeline_id |
STRING |
De volledige naam van de pijplijntaak Delta Live Tables die moet worden uitgevoerd. |
PythonPyPiLibrary
Veldnaam | Type | Description |
---|---|---|
package |
STRING |
De naam van het PyPI-pakket dat moet worden geïnstalleerd. Er wordt ook een optionele exacte versiespecificatie ondersteund. Voorbeelden: simplejson en simplejson==3.8.0 . Dit veld is vereist. |
repo |
STRING |
De opslagplaats waar het pakket kan worden gevonden. Als dit niet is opgegeven, wordt de standaard pip-index gebruikt. |
RCranLibrary
Veldnaam | Type | Description |
---|---|---|
package |
STRING |
De naam van het CRAN-pakket dat moet worden geïnstalleerd. Dit veld is vereist. |
repo |
STRING |
De opslagplaats waar het pakket kan worden gevonden. Als dit niet is opgegeven, wordt de standaard CRAN-opslagplaats gebruikt. |
Rennen
Alle informatie over een uitvoering, met uitzondering van de uitvoer. De uitvoer kan afzonderlijk worden opgehaald met de getRunOutput
methode.
Veldnaam | Type | Description |
---|---|---|
job_id |
INT64 |
De canonieke id van de taak die deze uitvoering bevat. |
run_id |
INT64 |
De canonieke id van de uitvoering. Deze id is uniek voor alle uitvoeringen van alle taken. |
creator_user_name |
STRING |
De gebruikersnaam van de maker. Dit veld wordt niet opgenomen in het antwoord als de gebruiker al is verwijderd. |
number_in_job |
INT64 |
Het volgnummer van deze uitvoering tussen alle uitvoeringen van de taak. Deze waarde begint bij 1. |
original_attempt_run_id |
INT64 |
Als deze uitvoering een nieuwe poging is van een eerdere poging, bevat dit veld de run_id van de oorspronkelijke poging; anders is het hetzelfde als de run_id. |
state |
RunState | Het resultaat en de levenscyclusstatussen van de uitvoering. |
schedule |
CronSchedule | Het cron-schema dat deze uitvoering heeft geactiveerd als deze is geactiveerd door de periodieke planner. |
task |
JobTask | De taak die wordt uitgevoerd door de uitvoering, indien van toepassing. |
cluster_spec |
ClusterSpec | Een momentopname van de clusterspecificatie van de taak toen deze uitvoering werd gemaakt. |
cluster_instance |
ClusterInstance | Het cluster dat voor deze uitvoering wordt gebruikt. Als de uitvoering is opgegeven voor het gebruik van een nieuw cluster, wordt dit veld ingesteld zodra de takenservice een cluster heeft aangevraagd voor de uitvoering. |
overriding_parameters |
RunParameters | De parameters die worden gebruikt voor deze uitvoering. |
start_time |
INT64 |
Het tijdstip waarop deze uitvoering is gestart in epoch milliseconden (milliseconden sinds 1-1-1-1970 UTC). Dit is mogelijk niet het tijdstip waarop de taaktaak wordt uitgevoerd, bijvoorbeeld als de taak is gepland om te worden uitgevoerd op een nieuw cluster, dit is het tijdstip waarop de aanroep voor het maken van het cluster wordt uitgegeven. |
setup_duration |
INT64 |
De tijd die nodig was om het cluster in milliseconden in te stellen. Voor uitvoeringen die worden uitgevoerd op nieuwe clusters is dit de aanmaaktijd van het cluster, voor uitvoeringen die op bestaande clusters worden uitgevoerd, moet deze tijd erg kort zijn. |
execution_duration |
INT64 |
De tijd in milliseconden die nodig was om de opdrachten in het JAR- of notebook uit te voeren totdat ze zijn voltooid, mislukt, een time-out opgetreden, zijn geannuleerd of een onverwachte fout zijn opgetreden. |
cleanup_duration |
INT64 |
De tijd in milliseconden die nodig was om het cluster te beëindigen en eventuele bijbehorende artefacten op te schonen. De totale duur van de uitvoering is de som van de setup_duration, de execution_duration en de cleanup_duration. |
end_time |
INT64 |
Het tijdstip waarop deze uitvoering eindigde in epoch milliseconden (milliseconden sinds 1/1/1970 UTC). Dit veld wordt ingesteld op 0 als de taak nog steeds wordt uitgevoerd. |
trigger |
TriggerType | Het type trigger dat deze uitvoering heeft geactiveerd. |
run_name |
STRING |
Een optionele naam voor de uitvoering. De standaardwaarde is Untitled . De maximale toegestane lengte is 4096 bytes in UTF-8-codering. |
run_page_url |
STRING |
De URL naar de detailpagina van de uitvoering. |
run_type |
STRING |
Het type uitvoering. - JOB_RUN - Normale taakuitvoering. Er is nu een uitvoering gemaakt met Uitvoeren.- WORKFLOW_RUN - Werkstroomuitvoering. Een uitvoering die is gemaakt met dbutils.notebook.run.- SUBMIT_RUN - Verzend de uitvoering. Er is nu een uitvoering gemaakt met Uitvoeren. |
attempt_number |
INT32 |
Het volgnummer van deze uitvoeringspoging voor een geactiveerde taakuitvoering. De eerste poging van een uitvoering heeft een attempt_number van 0. Als de eerste uitvoeringspoging mislukt en de taak een beleid voor opnieuw proberen (max_retries > 0) heeft, worden volgende uitvoeringen gemaakt met een original_attempt_run_id id van de oorspronkelijke poging en een incrementele attempt_number poging. Uitvoeringen worden alleen opnieuw geprobeerd totdat ze slagen en het maximum attempt_number is hetzelfde als de max_retries waarde voor de taak. |
RunJobTask
Veldnaam | Type | Description |
---|---|---|
job_id |
INT32 |
Unieke id van de taak die moet worden uitgevoerd. Dit veld is vereist. |
RunLifeCycleState
De levenscyclusstatus van een uitvoering. Toegestane statusovergangen zijn:
QUEUED
->PENDING
PENDING
- - - ->RUNNING
>TERMINATING
>TERMINATED
PENDING
->SKIPPED
PENDING
->INTERNAL_ERROR
RUNNING
->INTERNAL_ERROR
TERMINATING
->INTERNAL_ERROR
Toestand | Beschrijving |
---|---|
QUEUED |
De uitvoering is geactiveerd, maar wordt in de wachtrij geplaatst omdat deze een van de volgende limieten heeft bereikt: - Het maximum aantal gelijktijdige actieve uitvoeringen in de werkruimte. - De maximale gelijktijdige Run Job taak wordt uitgevoerd in de werkruimte.- De maximum aantal gelijktijdige uitvoeringen van de taak. Voor de taak of de uitvoering moet wachtrijen zijn ingeschakeld voordat deze status kan worden bereikt. |
PENDING |
De uitvoering is geactiveerd. Als de geconfigureerde maximum aantal gelijktijdige uitvoeringen van de taak al is bereikt, wordt de uitvoering onmiddellijk overgegaan naar de status zonder resources voor te SKIPPED bereiden. Anders wordt de voorbereiding van het cluster en de uitvoering verwerkt. |
RUNNING |
De taak van deze uitvoering wordt uitgevoerd. |
TERMINATING |
De taak van deze uitvoering is voltooid en de cluster- en uitvoeringscontext worden opgeschoond. |
TERMINATED |
De taak van deze uitvoering is voltooid en de cluster- en uitvoeringscontext zijn opgeschoond. Deze status is terminal. |
SKIPPED |
Deze uitvoering is afgebroken omdat een vorige uitvoering van dezelfde taak al actief was. Deze status is terminal. |
INTERNAL_ERROR |
Een uitzonderlijke status die aangeeft dat er een fout is opgetreden in de takenservice, zoals netwerkfouten gedurende een lange periode. Als een uitvoering op een nieuw cluster eindigt in de INTERNAL_ERROR status, beëindigt de takenservice het cluster zo snel mogelijk. Deze status is terminal. |
RunParameters
Parameters voor deze uitvoering. Er moet slechts één van jar_params of python_params
notebook_params worden opgegeven in de run-now
aanvraag, afhankelijk van het type taaktaak.
Taken met Spark JAR-taak of Python-taak nemen een lijst met op positie gebaseerde parameters en taken met notebooktaken nemen een belangrijke waardetoewijzing.
Veldnaam | Type | Description |
---|---|---|
jar_params |
Een matrix van STRING |
Een lijst met parameters voor taken met Spark JAR-taken, bijvoorbeeld "jar_params": ["john doe", "35"] . De parameters worden gebruikt om de hoofdfunctie van de hoofdklasse aan te roepen die is opgegeven in de Spark JAR-taak. Als dit niet is opgegeven run-now , wordt standaard een lege lijst gebruikt. jar_params kan niet worden opgegeven in combinatie met notebook_params. De JSON-weergave van dit veld (d.w. {"jar_params":["john doe","35"]} ) mag niet groter zijn dan 10.000 bytes.Gebruik Wat is een verwijzing naar dynamische waarden? om parameters in te stellen die informatie bevatten over taakuitvoeringen. |
notebook_params |
Een kaart van ParamPair | Een toewijzing van sleutels naar waarden voor taken met notebooktaak, bijvoorbeeld"notebook_params": {"name": "john doe", "age": "35"} . De kaart wordt doorgegeven aan het notebook en is toegankelijk via de functie dbutils.widgets.get .Als dit niet is opgegeven run-now , gebruikt de geactiveerde uitvoering de basisparameters van de taak.notebook_params kan niet worden opgegeven in combinatie met jar_params. Gebruik Wat is een verwijzing naar dynamische waarden? om parameters in te stellen die informatie bevatten over taakuitvoeringen. De JSON-weergave van dit veld (d.w {"notebook_params":{"name":"john doe","age":"35"}} ) mag niet groter zijn dan 10.000 bytes. |
python_params |
Een matrix van STRING |
Een lijst met parameters voor taken met Python-taken, bijvoorbeeld "python_params": ["john doe", "35"] . De parameters worden als opdrachtregelparameters doorgegeven aan het Python-bestand. Als dit is run-now opgegeven, worden de parameters overschreven die zijn opgegeven in de taakinstelling. De JSON-weergave van dit veld (d.w. {"python_params":["john doe","35"]} ) mag niet groter zijn dan 10.000 bytes.Gebruik Wat is een verwijzing naar dynamische waarden? om parameters in te stellen die informatie bevatten over taakuitvoeringen. > [! BELANGRIJK] >> Deze parameters accepteren alleen Latijnse tekens (ASCII-tekenset). > Als u niet-ASCII-tekens gebruikt, wordt een fout geretourneerd. Voorbeelden van ongeldige, niet-ASCII-tekens > zijn Chinese, Japanse kanji's en emoji's. |
spark_submit_params |
Een matrix van STRING |
Een lijst met parameters voor taken met spark submit-taak, bijvoorbeeld"spark_submit_params": ["--class", "org.apache.spark.examples.SparkPi"] . De parameters worden doorgegeven aan spark-submit-script als opdrachtregelparameters. Als dit is run-now opgegeven, worden de parameters overschreven die zijn opgegeven in de taakinstelling. De JSON-weergave van dit veld (d.w. {"python_params":["john doe","35"]} ) mag niet groter zijn dan 10.000 bytes.Gebruik Wat is een verwijzing naar dynamische waarden? om parameters in te stellen die informatie bevatten over taakuitvoeringen. > [! BELANGRIJK] >> Deze parameters accepteren alleen Latijnse tekens (ASCII-tekenset). > Als u niet-ASCII-tekens gebruikt, wordt een fout geretourneerd. Voorbeelden van ongeldige, niet-ASCII-tekens > zijn Chinese, Japanse kanji's en emoji's. |
RunResultState
De resultaatstatus van de uitvoering.
- Als
life_cycle_state
=TERMINATED
: als de uitvoering een taak heeft, is het resultaat gegarandeerd beschikbaar en wordt het resultaat van de taak aangegeven. - Als
life_cycle_state
=PENDING
de resultaatstatus niet beschikbaar is,RUNNING
ofSKIPPED
als de resultaatstatus niet beschikbaar is. - Als
life_cycle_state
=TERMINATING
of lifecyclestate =INTERNAL_ERROR
: de resultaatstatus is beschikbaar als de uitvoering een taak had en deze kon starten.
Zodra deze beschikbaar is, wordt de resultaatstatus nooit gewijzigd.
Toestand | Beschrijving |
---|---|
SUCCESS |
De taak is voltooid. |
FAILED |
De taak is voltooid met een fout. |
TIMEDOUT |
De uitvoering is gestopt na het bereiken van de time-out. |
CANCELED |
De uitvoering is geannuleerd op verzoek van de gebruiker. |
RunState
Veldnaam | Type | Description |
---|---|---|
life_cycle_state |
RunLifeCycleState | Een beschrijving van de huidige locatie van een uitvoering in de levenscyclus van de uitvoering. Dit veld is altijd beschikbaar in het antwoord. |
result_state |
RunResultState | De resultaatstatus van een uitvoering. Als deze niet beschikbaar is, bevat het antwoord dit veld niet. Zie RunResultState voor meer informatie over de beschikbaarheid van result_state. |
user_cancelled_or_timedout |
BOOLEAN |
Of een uitvoering handmatig is geannuleerd door een gebruiker of door de planner omdat er een time-out optreedt voor de uitvoering. |
state_message |
STRING |
Een beschrijvend bericht voor de huidige status. Dit veld is ongestructureerd en de exacte indeling is onderhevig aan wijzigingen. |
SparkConfPair
Sleutel-waardeparen voor Spark-configuratie.
Type | Description |
---|---|
STRING |
De naam van een configuratie-eigenschap. |
STRING |
De waarde van de configuratie-eigenschap. |
SparkEnvPair
Sleutel-waardeparen van Spark-omgevingsvariabelen.
Belangrijk
Wanneer u omgevingsvariabelen opgeeft in een taakcluster, accepteren de velden in deze gegevensstructuur alleen Latijnse tekens (ASCII-tekenset). Als u niet-ASCII-tekens gebruikt, wordt een fout geretourneerd. Voorbeelden van ongeldige, niet-ASCII-tekens zijn Chinese, Japanse kanji's en emoji's.
Type | Description |
---|---|
STRING |
De naam van een omgevingsvariabele. |
STRING |
De waarde van de omgevingsvariabele. |
SparkJarTask
Veldnaam | Type | Description |
---|---|---|
jar_uri |
STRING |
Afgeschaft sinds 04/2016. Geef in plaats daarvan een jar via het libraries veld op. Zie Maken voor een voorbeeld. |
main_class_name |
STRING |
De volledige naam van de klasse die de hoofdmethode bevat die moet worden uitgevoerd. Deze klasse moet zijn opgenomen in een JAR die als bibliotheek wordt geleverd. De code moet worden gebruikt SparkContext.getOrCreate om een Spark-context te verkrijgen. Anders mislukken uitvoeringen van de taak. |
parameters |
Een matrix van STRING |
Parameters doorgegeven aan de hoofdmethode. Gebruik Wat is een verwijzing naar dynamische waarden? om parameters in te stellen die informatie bevatten over taakuitvoeringen. |
SparkPythonTask
Veldnaam | Type | Description |
---|---|---|
python_file |
STRING |
De URI van het Python-bestand dat moet worden uitgevoerd. DBFS-paden worden ondersteund. Dit veld is vereist. |
parameters |
Een matrix van STRING |
Opdrachtregelparameters doorgegeven aan het Python-bestand. Gebruik Wat is een verwijzing naar dynamische waarden? om parameters in te stellen die informatie bevatten over taakuitvoeringen. |
SparkSubmitTask
Belangrijk
- U kunt Spark-taken alleen op nieuwe clusters aanroepen.
- In de new_cluster specificatie
libraries
enspark_conf
worden deze niet ondersteund. Gebruik in plaats daarvan--jars
Java- en Python-bibliotheken en--py-files
--conf
om de Spark-configuratie in te stellen. master
,deploy-mode
enexecutor-cores
worden automatisch geconfigureerd door Azure Databricks. U kunt ze niet opgeven in parameters.- De Spark-verzendtaak maakt standaard gebruik van alle beschikbare geheugen (met uitzondering van gereserveerd geheugen voor Azure Databricks-services). U kunt instellen
--driver-memory
en--executor-memory
op een kleinere waarde om wat ruimte te laten voor gebruik buiten heap. - De
--jars
argumenten--py-files
--files
ondersteunen DBFS-paden.
Als de JAR bijvoorbeeld wordt geüpload naar DBFS, kunt u deze uitvoeren SparkPi
door de volgende parameters in te stellen.
{
"parameters": [
"--class",
"org.apache.spark.examples.SparkPi",
"dbfs:/path/to/examples.jar",
"10"
]
}
Veldnaam | Type | Description |
---|---|---|
parameters |
Een matrix van STRING |
Opdrachtregelparameters die zijn doorgegeven aan spark submit. Gebruik Wat is een verwijzing naar dynamische waarden? om parameters in te stellen die informatie bevatten over taakuitvoeringen. |
TriggerType
Dit zijn het type triggers dat een uitvoering kan activeren.
Type | Description |
---|---|
PERIODIC |
Schema's die periodiek uitvoeringen activeren, zoals een cron-planner. |
ONE_TIME |
Eenmalige triggers die één keer worden geactiveerd. Dit gebeurt doordat u één uitvoering op aanvraag hebt geactiveerd via de gebruikersinterface of de API. |
RETRY |
Geeft een uitvoering aan die wordt geactiveerd als een nieuwe poging van een eerder mislukte uitvoering. Dit gebeurt wanneer u aanvraagt om de taak opnieuw uit te voeren in geval van fouten. |
ViewItem
De geëxporteerde inhoud heeft een HTML-indeling. Als de weergave die u wilt exporteren bijvoorbeeld dashboards is, wordt er één HTML-tekenreeks geretourneerd voor elk dashboard.
Veldnaam | Type | Description |
---|---|---|
content |
STRING |
Inhoud van de weergave. |
name |
STRING |
Naam van het weergave-item. In het geval van de codeweergave is de naam van het notitieblok. In het geval van de dashboardweergave is de naam van het dashboard. |
type |
ViewType | Type weergave-item. |
ViewType
Type | Description |
---|---|
NOTEBOOK |
Notitieblokweergave-item. |
DASHBOARD |
Dashboardweergave-item. |
ViewsToExport
Weergeven om te exporteren: code, alle dashboards of alle.
Type | Description |
---|---|
CODE |
Codeweergave van het notebook. |
DASHBOARDS |
Alle dashboardweergaven van het notitieblok. |
ALL |
Alle weergaven van het notitieblok. |
Webhook
Veldnaam | Type | Description |
---|---|---|
id |
STRING |
Id die verwijst naar een doel voor systeemmeldingen. Dit veld is vereist. |
WebhookNotifications
Veldnaam | Type | Description |
---|---|---|
on_start |
Een matrix van webhook | Een optionele lijst met systeembestemmingen die moeten worden gewaarschuwd wanneer een uitvoering begint. Als de lijst niet is opgegeven bij het maken, opnieuw instellen of bijwerken van een taak, is de lijst leeg en worden er geen meldingen verzonden. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de on_start eigenschap. |
on_success |
Een matrix van webhook | Een optionele lijst met systeembestemmingen die moeten worden gewaarschuwd wanneer een uitvoering is voltooid. Een uitvoering wordt beschouwd als voltooid als deze eindigt op een TERMINATED en een SUCCESSFUL result_state .life_cycle_state Als de lijst niet is opgegeven bij het maken, opnieuw instellen of bijwerken van een taak, is de lijst leeg en worden er geen meldingen verzonden. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de on_success eigenschap. |
on_failure |
Een matrix van webhook | Een optionele lijst met systeembestemmingen die moeten worden gewaarschuwd wanneer een uitvoering mislukt. Een uitvoering wordt beschouwd als mislukt als deze eindigt op een INTERNAL_ERROR life_cycle_state of een SKIPPED , FAILED of TIMED_OUT result_state . Als dit niet is opgegeven bij het maken, opnieuw instellen of bijwerken van de lijst, is de lijst leeg en worden er geen meldingen verzonden. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de on_failure eigenschap. |
on_duration_warning_threshold_exceeded |
Een matrix van webhook | Een optionele lijst met systeembestemmingen die moeten worden gewaarschuwd wanneer de duur van een uitvoering de drempelwaarde overschrijdt die is opgegeven voor de RUN_DURATION_SECONDS metrische waarde in het health veld. Er kunnen maximaal 3 bestemmingen worden opgegeven voor de on_duration_warning_threshold_exceeded eigenschap. |
WorkspaceStorageInfo
Opslaggegevens voor werkruimten.
Veldnaam | Type | Description |
---|---|---|
destination |
STRING |
Bestandsbestemming. Voorbeeld: /Users/someone@domain.com/init_script.sh |