Rozhraní API pro úlohy 2.0
Důležité
Tento článek popisuje verzi 2.0 rozhraní API úloh. Databricks však doporučuje používat rozhraní API pro úlohy 2.2 pro nové a existující klienty a skripty. Podrobnosti o změnách ve verzi 2.2 rozhraní API úloh najdete v tématu Aktualizace z rozhraní API úloh 2.1 na 2.2.
Rozhraní API pro úlohy umožňuje vytvářet, upravovat a odstraňovat úlohy. Maximální povolená velikost požadavku na rozhraní API pro úlohy je 10 MB.
Informace o aktualizovaných funkcích v novějších verzích rozhraní API úloh najdete v tématu Aktualizace z rozhraní API úloh 2.0 na verzi 2.1 a Aktualizace z rozhraní API úloh 2.1 na verzi 2.2.
Upozorňující
Tajné kódy byste nikdy neměli pevně zakódovat ani je ukládat ve formátu prostého textu. Pomocí rozhraní API pro tajné kódy můžete spravovat tajné kódy v rozhraní příkazového řádku Databricks. Pomocí nástroje Tajné kódy (dbutils.secrets) můžete odkazovat na tajné kódy v poznámkových blocích a úlohách.
Poznámka:
Pokud se při provádění požadavků rozhraní API úloh zobrazí chyba na úrovni 500, doporučuje Databricks opakovat žádosti po dobu až 10 minut (s minimálním 30sekundovým intervalem mezi opakováními).
Důležité
Pokud chcete získat přístup k rozhraním REST API služby Databricks, musíte použít ověřování.
Vytvářet
Koncový bod | Metoda HTTP |
---|---|
2.0/jobs/create |
POST |
Vytvořte novou úlohu.
Příklad
Tento příklad vytvoří úlohu, která spustí úlohu JAR v 10:15 každou noc.
Žádost
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/create \
--data @create-job.json \
| jq .
create-job.json
:
{
"name": "Nightly model training",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"timeout_seconds": 3600,
"max_retries": 1,
"schedule": {
"quartz_cron_expression": "0 15 22 * * ?",
"timezone_id": "America/Los_Angeles"
},
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
}
Nahrazení:
-
<databricks-instance>
s názvem instance pracovního prostoru Azure Databricks, napříkladadb-1234567890123456.7.azuredatabricks.net
. - Obsah
create-job.json
polí, která jsou vhodná pro vaše řešení.
Tento příklad používá soubor .netrc a jq.
Response
{
"job_id": 1
}
Struktura požadavku
Důležité
- Při spuštění úlohy v novém clusteru úloh se úloha považuje za výpočetní úlohy (automatizované) úlohy, na které se vztahují ceny výpočetních úloh úloh.
- Když spustíte úlohu v existujícím clusteru pro všechny účely, považuje se za výpočetní úlohy pro všechny účely (interaktivní) na základě cen výpočetních prostředků pro všechny účely.
Název pole | Typ | Popis |
---|---|---|
existing_cluster_id NEBO new_cluster |
STRING OR NewCluster |
Pokud existing_cluster_id, ID existujícího clusteru, který se použije pro všechna spuštění této úlohy. Při spouštění úloh v existujícím clusteru možná budete muset cluster restartovat ručně, pokud přestane reagovat. Pro větší spolehlivost doporučujeme spouštět úlohy v nových clusterech. Pokud new_cluster, popis clusteru, který se vytvoří pro každé spuštění. Pokud zadáte PipelineTask, může být toto pole prázdné. |
notebook_task NEBO spark_jar_task spark_python_task NEBO spark_submit_task pipeline_task NEBO run_job_task |
NotebookTask NEBO SparkJarTask NEBO SparkPythonTask NEBO SparkSubmitTask NEBO PipelineTask NEBO RunJobTask | Pokud notebook_task, znamená to, že by tato úloha měla spustit poznámkový blok. Toto pole nesmí být zadáno ve spojení s spark_jar_task. Pokud spark_jar_task, znamená to, že by tato úloha měla spustit soubor JAR. Pokud spark_python_task, znamená to, že by tato úloha měla spustit soubor Pythonu. Pokud spark_submit_task, znamená to, že tuto úlohu by měl spustit skript pro odeslání Sparku. Pokud je pipeline_task zadán, znamená to, že by tato úloha měla spustit pipeline Delta Live Tables. Pokud run_job_task, znamená to, že by tato úloha měla spustit jinou úlohu. |
name |
STRING |
Volitelný název úlohy. Výchozí hodnota je Untitled . |
libraries |
Pole knihovny | Volitelné list knihoven, které se mají nainstalovat do clusteru, který spustí úlohu. Výchozí hodnota je prázdná list. |
email_notifications |
JobEmailNotifications | Volitelné set e-mailových adres, které jsou upozorňovány při zahájení a dokončení spuštění této úlohy a při jejím odstranění. Výchozí chování je neodesílat žádné e-maily. |
webhook_notifications |
WebhookNotifications | Volitelné set cílů systému, které vás upozorní, když se tato úloha spustí, dokončí nebo selže. |
notification_settings |
JobNotificationSettings | Volitelná nastavení oznámení, která se používají při odesílání oznámení každému email_notifications z nich a webhook_notifications pro tuto úlohu. |
timeout_seconds |
INT32 |
Volitelný časový limit použitý pro každé spuštění této úlohy. Výchozí chování nemá žádný časový limit. |
max_retries |
INT32 |
Volitelný maximální počet opakování neúspěšného spuštění. Spuštění je považováno za neúspěšné, pokud se dokončí s FAILED result_state neboINTERNAL_ERROR life_cycle_state . Hodnota -1 znamená opakování na neomezenou dobu a hodnota 0 znamená nikdy opakovat. Výchozí chování je nikdy opakovat. |
min_retry_interval_millis |
INT32 |
Volitelný minimální interval v milisekundách mezi spuštěním neúspěšného spuštění a následným opakovaným spuštěním. Výchozí chování je, že neúspěšná spuštění se okamžitě opakuje. |
retry_on_timeout |
BOOL |
Volitelná zásada určující, jestli se má úloha opakovat, když vyprší časový limit. Výchozí chování není opakovat při vypršení časového limitu. |
schedule |
CronSchedule | Volitelný pravidelný plán pro tuto úlohu. Výchozí chování je, že se úloha spustí při aktivaci kliknutím na Spustit nyní v uživatelském rozhraní úloh nebo odesláním požadavku rozhraní API na runNow . |
max_concurrent_runs |
INT32 |
Volitelný maximální povolený počet souběžných spuštění úlohy. Set tuto hodnotu, pokud chcete být schopni současně provést více spuštění stejné úlohy. To je užitečné například, když spustíte svou pracovní úlohu na častém rozvrhu a chcete povolit, aby se jednotlivé běhy překrývaly, nebo pokud chcete spustit více úloh, které se liší svými vstupy parameters. Toto nastavení má vliv jenom na nová spuštění. Předpokládejme například, že souběžnost úlohy je 4 a existují 4 souběžná aktivní spuštění. Nastavení souběžnosti na 3 pak nezabije žádné aktivní spuštění. Od tého dne se však nová spuštění přeskočí, pokud nejsou k dispozici méně než 3 aktivní spuštění. Tato hodnota nesmí překročit 1 000. Nastavení této hodnoty na 0 způsobí, že se všechna nová spuštění přeskočí. Výchozí chování je povolit pouze 1 souběžné spuštění. |
Struktura odpovědi
Název pole | Typ | Popis |
---|---|---|
job_id |
INT64 |
Kanonický identifier pro nově vytvořenou úlohu. |
List
Koncový bod | Metoda HTTP |
---|---|
2.0/jobs/list |
GET |
List všechny úlohy.
Příklad
Žádost
curl --netrc --request GET \
https://<databricks-instance>/api/2.0/jobs/list \
| jq .
Nahraďte <databricks-instance>
například názvem.
Tento příklad používá soubor .netrc a jq.
Response
{
"jobs": [
{
"job_id": 1,
"settings": {
"name": "Nightly model training",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"timeout_seconds": 100000000,
"max_retries": 1,
"schedule": {
"quartz_cron_expression": "0 15 22 * * ?",
"timezone_id": "America/Los_Angeles",
"pause_status": "UNPAUSED"
},
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
},
"created_time": 1457570074236
}
]
}
Struktura odpovědi
Název pole | Typ | Popis |
---|---|---|
jobs |
Pole úlohy | list úloh. |
Vymazat
Koncový bod | Metoda HTTP |
---|---|
2.0/jobs/delete |
POST |
Odstraňte úlohu a odešlete e-mail na adresy zadané v JobSettings.email_notifications
. Pokud už úloha nebyla odebrána, nedojde k žádné akci. Po odebrání úlohy se v uživatelském rozhraní úloh ani v rozhraní API nezobrazí její podrobnosti ani historie spuštění. Po dokončení této žádosti je zaručeno, že se úloha odebere. Spuštění, která byla aktivní před přijetím tohoto požadavku, však může být stále aktivní. Budou ukončeny asynchronně.
Příklad
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/delete \
--data '{ "job_id": <job-id> }'
Nahrazení:
-
<databricks-instance>
s názvem instance pracovního prostoru Azure Databricks, napříkladadb-1234567890123456.7.azuredatabricks.net
. -
<job-id>
s ID úlohy, například123
.
Tento příklad používá soubor .netrc .
Struktura požadavku
Název pole | Typ | Popis |
---|---|---|
job_id |
INT64 |
Kanonický identifier úlohy, která má být odstraněna. Toto pole je povinné. |
Get
Koncový bod | Metoda HTTP |
---|---|
2.0/jobs/get |
GET |
Načtěte informace o jedné úloze.
Příklad
Žádost
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/get?job_id=<job-id>' \
| jq .
Nebo:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/get \
--data job_id=<job-id> \
| jq .
Nahrazení:
-
<databricks-instance>
s názvem instance pracovního prostoru Azure Databricks, napříkladadb-1234567890123456.7.azuredatabricks.net
. -
<job-id>
s ID úlohy, například123
.
Tento příklad používá soubor .netrc a jq.
Response
{
"job_id": 1,
"settings": {
"name": "Nightly model training",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"timeout_seconds": 100000000,
"max_retries": 1,
"schedule": {
"quartz_cron_expression": "0 15 22 * * ?",
"timezone_id": "America/Los_Angeles",
"pause_status": "UNPAUSED"
},
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
},
"created_time": 1457570074236
}
Struktura požadavku
Název pole | Typ | Popis |
---|---|---|
job_id |
INT64 |
Kanonický identifier úlohy, o které se mají načíst informace. Toto pole je povinné. |
Struktura odpovědi
Název pole | Typ | Popis |
---|---|---|
job_id |
INT64 |
Kanonický identifier pro tuto úlohu. |
creator_user_name |
STRING |
Uživatelské jméno tvůrce. Pokud byl uživatel odstraněn, toto pole se do odpovědi nezahrne. |
settings |
JobSettings | Nastavení pro tuto úlohu a všechna jeho spuštění Tato nastavení je možné aktualizovat pomocí koncových bodů Reset nebo Update. |
created_time |
INT64 |
Čas vytvoření této úlohy v milisekundách epochy (milisekundy od 1. 1. 1970 UTC). |
Reset
Koncový bod | Metoda HTTP |
---|---|
2.0/jobs/reset |
POST |
Přepište všechna nastavení pro určitou úlohu. Pomocí koncového bodu Update částečně nastavíte update úlohy.
Příklad
V tomto příkladu požadavku je úloha 2 identická s úlohou 1 v příkladu vytvoření .
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/reset \
--data @reset-job.json \
| jq .
reset-job.json
:
{
"job_id": 2,
"new_settings": {
"name": "Nightly model training",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"timeout_seconds": 100000000,
"max_retries": 1,
"schedule": {
"quartz_cron_expression": "0 15 22 * * ?",
"timezone_id": "America/Los_Angeles",
"pause_status": "UNPAUSED"
},
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
}
}
Nahrazení:
-
<databricks-instance>
s názvem instance pracovního prostoru Azure Databricks, napříkladadb-1234567890123456.7.azuredatabricks.net
. - Obsah
reset-job.json
polí, která jsou vhodná pro vaše řešení.
Tento příklad používá soubor .netrc a jq.
Struktura požadavku
Název pole | Typ | Popis |
---|---|---|
job_id |
INT64 |
Kanonická úloha identifier pro reset. Toto pole je povinné. |
new_settings |
JobSettings | Nová nastavení úlohy. Tato nastavení zcela nahrazují stará nastavení. Změny v poli JobSettings.timeout_seconds se použijí na aktivní spuštění. Změny v jiných polích se použijí jenom pro budoucí spuštění. |
Update
Koncový bod | Metoda HTTP |
---|---|
2.0/jobs/update |
POST |
Přidejte, změňte nebo remove konkrétní nastavení existující úlohy. Pomocí koncového bodu Reset přepište všechna nastavení úlohy.
Příklad
Tento příklad požadavku odebere knihovny a přidá nastavení e-mailových oznámení do úlohy 1 definované v příkladu vytvoření .
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/update \
--data @update-job.json \
| jq .
update-job.json
:
{
"job_id": 1,
"new_settings": {
"existing_cluster_id": "1201-my-cluster",
"email_notifications": {
"on_start": [ "someone@example.com" ],
"on_success": [],
"on_failure": []
}
},
"fields_to_remove": ["libraries"]
}
Nahrazení:
-
<databricks-instance>
s názvem instance pracovního prostoru Azure Databricks, napříkladadb-1234567890123456.7.azuredatabricks.net
. - Obsah
update-job.json
polí, která jsou vhodná pro vaše řešení.
Tento příklad používá soubor .netrc a jq.
Struktura požadavku
Název pole | Typ | Popis |
---|---|---|
job_id |
INT64 |
Kanonická úloha identifier pro update. Toto pole je povinné. |
new_settings |
JobSettings | Nová nastavení pro úlohu. Pole nejvyšší úrovně zadaná v new_settings poli s výjimkou polí jsou zcela nahrazena. Pole se sloučí na základě příslušných klíčových polí, například task_key nebojob_cluster_key a položky pole se stejným klíčem jsou zcela nahrazeny. S výjimkou slučování polí není podporována částečná aktualizace vnořených polí.Změny v poli JobSettings.timeout_seconds se použijí na aktivní spuštění. Změny v jiných polích se použijí jenom pro budoucí spuštění. |
fields_to_remove |
Pole STRING |
Remove polí nejvyšší úrovně v nastavení úlohy. Odebrání vnořených polí není podporováno, s výjimkou položek z polí tasks a job_clusters polí. Toto je například platný argument pro toto pole:["libraries", "schedule", "tasks/task_1", "job_clusters/Default"] Toto pole je nepovinné. |
Spustit
Důležité
- Pracovní prostor je omezený na 1 000 souběžných spuštění úloh. Když si vyžádáte spuštění, které nejde zahájit okamžitě, vrátí se odpověď
429 Too Many Requests
. - Počet úloh, které může pracovní prostor vytvořit za hodinu, je omezený na 1 0000 (zahrnuje "spuštění odeslat"). Tato limit má vliv také na úlohy vytvořené rozhraním REST API a pracovní postupy v poznámkových blocích.
- Pracovní prostor může obsahovat až 12000 uložených úloh.
- Úloha může obsahovat až 100 úkolů.
Koncový bod | Metoda HTTP |
---|---|
2.0/jobs/run-now |
POST |
Spusťte úlohu a vraťte run_id
aktivované spuštění.
Tip
Pokud vyvoláte Vytvořit společně s Spustit nyní, můžete místo toho použít koncový bod Spuštění, který umožňuje odeslat úlohy přímo bez having k vytvoření úlohy.
Příklad
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/run-now \
--data @run-job.json \
| jq .
run-job.json
:
Příklad žádosti o úlohu poznámkového bloku:
{
"job_id": 1,
"notebook_params": {
"name": "john doe",
"age": "35"
}
}
Příklad požadavku na úlohu JAR:
{
"job_id": 2,
"jar_params": [ "john doe", "35" ]
}
Nahrazení:
-
<databricks-instance>
s názvem instance pracovního prostoru Azure Databricks, napříkladadb-1234567890123456.7.azuredatabricks.net
. - Obsah
run-job.json
polí, která jsou vhodná pro vaše řešení.
Tento příklad používá soubor .netrc a jq.
Struktura požadavku
Název pole | Typ | Popis |
---|---|---|
job_id |
INT64 |
|
jar_params |
Pole STRING |
list
parameters pro úlohy s úkoly JAR, např. "jar_params": ["john doe", "35"] .
parameters se použije k vyvolání hlavní funkce hlavní třídy zadané v úloze Spark JAR. Pokud není zadáno při run-now , výchozí hodnotou bude prázdný list. jar_params nelze zadat ve spojení s notebook_params. Reprezentace json tohoto pole (tj. {"jar_params":["john doe","35"]} ) nesmí překročit 10 000 bajtů. |
notebook_params |
Mapa města ParamPair | Mapa od klíčů k values pro úlohy sešitových poznámek, např."notebook_params": {"name": "john doe", "age": "35"} . Mapa se přenáší do poznámkového bloku a je přístupná prostřednictvím funkce dbutils.widgets.get.Pokud není při run-now zadáno, spuštěný běh používá jako základ úlohu parameters.Nelze zadat notebook_params ve spojení s jar_params. Reprezentace tohoto pole ve formátu JSON (tj. {"notebook_params":{"name":"john doe","age":"35"}} ) nesmí překročit 10 000 bajtů. |
python_params |
Pole STRING |
list
parameters pro práce s Pythonem, například "python_params": ["john doe", "35"] .
parameters bude předáno souboru Pythonu jako příkazový řádek parameters. Pokud je zadáno u run-now , přepíše to parameters zadané v nastavení úlohy. Reprezentace json tohoto pole (tj. {"python_params":["john doe","35"]} ) nesmí překročit 10 000 bajtů. |
spark_submit_params |
Pole STRING |
list
parameters pro úlohy s úkolem Spark Submit, např."spark_submit_params": ["--class", "org.apache.spark.examples.SparkPi"] .
parameters bude předáno skriptu spark-submit jako parametr příkazového řádku parameters. Pokud je zadáno u run-now , přepíše to parameters zadané v nastavení úlohy. Reprezentace JSON tohoto pole nesmí překročit 10 000 bajtů. |
idempotency_token |
STRING |
Volitelný token, který zaručuje idempotenci žádostí o spuštění úlohy. Pokud již existuje spuštění s poskytnutým tokenem, požadavek nevytvoří nové spuštění, ale místo toho vrátí ID existujícího spuštění. Pokud se odstraní spuštění s poskytnutým tokenem, vrátí se chyba. Pokud zadáte token idempotency, můžete při selhání opakovat, dokud požadavek nebude úspěšný. Azure Databricks zaručuje, že se s tímto tokenem idempotence spustí právě jedno spuštění. Tento token musí mít maximálně 64 znaků. Další informace naleznete v tématu Jak zajistit idempotenci pro úlohy. |
Struktura odpovědi
Název pole | Typ | Popis |
---|---|---|
run_id |
INT64 |
Globálně jedinečné ID nově aktivovaného spuštění. |
number_in_job |
INT64 |
Pořadové číslo tohoto spuštění mezi všemi spuštěními úlohy. |
Spuštění odesílané
Důležité
- Pracovní prostor je omezený na 1 000 souběžných spuštění úloh. Když si vyžádáte spuštění, které nejde zahájit okamžitě, vrátí se odpověď
429 Too Many Requests
. - Počet úloh, které může pracovní prostor vytvořit za hodinu, je omezený na 1 0000 (zahrnuje "spuštění odeslat"). Tato limit má vliv také na úlohy vytvořené rozhraním REST API a pracovní postupy v poznámkových blocích.
- Pracovní prostor může obsahovat až 12000 uložených úloh.
- Úloha může obsahovat až 100 úkolů.
Koncový bod | Metoda HTTP |
---|---|
2.0/jobs/runs/submit |
POST |
Odešlete jednorázové spuštění. Tento koncový bod umožňuje odeslat úlohu přímo bez vytvoření úlohy.
jobs/runs/get
Pomocí rozhraní API zkontrolujte stav spuštění po odeslání úlohy.
Příklad
Žádost
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/submit \
--data @submit-job.json \
| jq .
submit-job.json
:
{
"run_name": "my spark task",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
}
Nahrazení:
-
<databricks-instance>
s názvem instance pracovního prostoru Azure Databricks, napříkladadb-1234567890123456.7.azuredatabricks.net
. - Obsah
submit-job.json
polí, která jsou vhodná pro vaše řešení.
Tento příklad používá soubor .netrc a jq.
Response
{
"run_id": 123
}
Struktura požadavku
Důležité
- Při spuštění úlohy v novém clusteru úloh se úloha považuje za výpočetní úlohy (automatizované) úlohy, na které se vztahují ceny výpočetních úloh úloh.
- Když spustíte úlohu v existujícím clusteru pro všechny účely, považuje se za výpočetní úlohy pro všechny účely (interaktivní) na základě cen výpočetních prostředků pro všechny účely.
Název pole | Typ | Popis |
---|---|---|
existing_cluster_id NEBO new_cluster |
STRING OR NewCluster |
Pokud existing_cluster_id, ID existujícího clusteru, který se použije pro všechna spuštění této úlohy. Při spouštění úloh v existujícím clusteru možná budete muset cluster restartovat ručně, pokud přestane reagovat. Pro větší spolehlivost doporučujeme spouštět úlohy v nových clusterech. Pokud new_cluster, popis clusteru, který se vytvoří pro každé spuštění. Pokud zadáte PipelineTask, může být toto pole prázdné. |
notebook_task NEBO spark_jar_task spark_python_task NEBO spark_submit_task pipeline_task NEBO run_job_task |
NotebookTask NEBO SparkJarTask NEBO SparkPythonTask NEBO SparkSubmitTask NEBO PipelineTask NEBO RunJobTask | Pokud notebook_task, znamená to, že by tato úloha měla spustit poznámkový blok. Toto pole nesmí být zadáno ve spojení s spark_jar_task. Pokud spark_jar_task, znamená to, že by tato úloha měla spustit soubor JAR. Pokud spark_python_task, znamená to, že by tato úloha měla spustit soubor Pythonu. Pokud spark_submit_task, znamená to, že tuto úlohu by měl spustit skript pro odeslání Sparku. Pokud je pipeline_task zadán, znamená to, že by tato úloha měla spustit pipeline Delta Live Tables. Pokud run_job_task, znamená to, že by tato úloha měla spustit jinou úlohu. |
run_name |
STRING |
Volitelný název spuštění. Výchozí hodnota je Untitled . |
webhook_notifications |
WebhookNotifications | Volitelné set cílů systému, které vás upozorní, když se tato úloha spustí, dokončí nebo selže. |
notification_settings |
JobNotificationSettings | Volitelná nastavení oznámení, která se používají při odesílání oznámení každému webhook_notifications z těchto spuštění. |
libraries |
Pole knihovny | Volitelné list knihoven, které se mají nainstalovat do clusteru, který spustí úlohu. Výchozí hodnota je prázdná list. |
timeout_seconds |
INT32 |
Volitelný časový limit použitý pro každé spuštění této úlohy. Výchozí chování nemá žádný časový limit. |
idempotency_token |
STRING |
Volitelný token, který zaručuje idempotenci žádostí o spuštění úlohy. Pokud již existuje spuštění s poskytnutým tokenem, požadavek nevytvoří nové spuštění, ale místo toho vrátí ID existujícího spuštění. Pokud se odstraní spuštění s poskytnutým tokenem, vrátí se chyba. Pokud zadáte token idempotency, můžete při selhání opakovat, dokud požadavek nebude úspěšný. Azure Databricks zaručuje, že se s tímto tokenem idempotence spustí právě jedno spuštění. Tento token musí mít maximálně 64 znaků. Další informace naleznete v tématu Jak zajistit idempotenci pro úlohy. |
Struktura odpovědi
Název pole | Typ | Popis |
---|---|---|
run_id |
INT64 |
Kanonický identifier pro nově odeslaný běh. |
spuštění list
Koncový bod | Metoda HTTP |
---|---|
2.0/jobs/runs/list |
GET |
List se řadí sestupně podle počátečního času.
Poznámka:
Spuštění se automaticky odeberou po 60 dnech. Pokud chcete odkazovat na ně po dobu delší než 60 dnů, měli byste před vypršením jejich platnosti uložit staré výsledky spuštění. Pokud chcete exportovat pomocí uživatelského rozhraní, podívejte se na výsledky spuštění úlohy exportu. Pokud chcete exportovat pomocí rozhraní API úloh, přečtěte si téma Spuštění exportu.
Příklad
Žádost
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/list?job_id=<job-id>&active_only=<true-false>&offset=<offset>&limit=<limit>&run_type=<run-type>' \
| jq .
Nebo:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/list \
--data 'job_id=<job-id>&active_only=<true-false>&offset=<offset>&limit=<limit>&run_type=<run-type>' \
| jq .
Nahrazení:
-
<databricks-instance>
s názvem instance pracovního prostoru Azure Databricks, napříkladadb-1234567890123456.7.azuredatabricks.net
. -
<job-id>
s ID úlohy, například123
. - "
<true-false>
strue
nebofalse
". -
<offset>
offset
s hodnotou. -
<limit>
limit
s hodnotou. -
<run-type>
run_type
s hodnotou.
Tento příklad používá soubor .netrc a jq.
Response
{
"runs": [
{
"job_id": 1,
"run_id": 452,
"number_in_job": 5,
"state": {
"life_cycle_state": "RUNNING",
"state_message": "Performing action"
},
"task": {
"notebook_task": {
"notebook_path": "/Users/donald@duck.com/my-notebook"
}
},
"cluster_spec": {
"existing_cluster_id": "1201-my-cluster"
},
"cluster_instance": {
"cluster_id": "1201-my-cluster",
"spark_context_id": "1102398-spark-context-id"
},
"overriding_parameters": {
"jar_params": ["param1", "param2"]
},
"start_time": 1457570074236,
"end_time": 1457570075149,
"setup_duration": 259754,
"execution_duration": 3589020,
"cleanup_duration": 31038,
"run_duration": 3879812,
"trigger": "PERIODIC"
}
],
"has_more": true
}
Struktura požadavku
Název pole | Typ | Popis |
---|---|---|
active_only NEBO completed_only |
BOOL NEBO BOOL |
Pokud je true active_only , do výsledků se zahrnou pouze aktivní spuštění. V opačném případě se zobrazí seznam aktivních i dokončených spuštění. Aktivní spuštění je spuštění v PENDING sadě , RUNNING nebo TERMINATING RunLifecycleState. Toto pole nemůže být true , pokud je true completed_only .Pokud je completed_only true , do výsledků se zahrnou jenom dokončená spuštění. V opačném případě se zobrazí seznam aktivních i dokončených spuštění. Toto pole nemůže být true , pokud je true active_only . |
job_id |
INT64 |
Úloha, pro kterou se má list spustit. Pokud ji vynecháte, služba Úloh spustí list u všech úloh. |
offset |
INT32 |
offset prvního spuštění, které se má vrátit vzhledem k poslednímu spuštění. |
limit |
INT32 |
Počet spuštění, která se mají vrátit. Tato hodnota by měla být větší než 0 a menší než 1 000. Výchozí hodnota je 20. Pokud požadavek určuje jako limit hodnotu 0, služba místo toho použije maximální limit. |
run_type |
STRING |
Typ spuštění, která se mají vrátit. Popis typů spuštění najdete v tématu Spuštění. |
Struktura odpovědi
Název pole | Typ | Popis |
---|---|---|
runs |
Pole spustit | list spuštění od nejnovějších po nejméně. |
has_more |
BOOL |
Pokud je hodnota true, další spuštění odpovídající zadanému filtru jsou k dispozici pro výpis. |
spuštění get
Koncový bod | Metoda HTTP |
---|---|
2.0/jobs/runs/get |
GET |
Načtěte metadata spuštění.
Poznámka:
Spuštění se automaticky odeberou po 60 dnech. Pokud chcete odkazovat na ně po dobu delší než 60 dnů, měli byste před vypršením jejich platnosti uložit staré výsledky spuštění. Pokud chcete exportovat pomocí uživatelského rozhraní, podívejte se na výsledky spuštění úlohy exportu. Pokud chcete exportovat pomocí rozhraní API úloh, přečtěte si téma Spuštění exportu.
Příklad
Žádost
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/get?run_id=<run-id>' \
| jq .
Nebo:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/get \
--data run_id=<run-id> \
| jq .
Nahrazení:
-
<databricks-instance>
s názvem instance pracovního prostoru Azure Databricks, napříkladadb-1234567890123456.7.azuredatabricks.net
. -
<run-id>
s ID spuštění, například123
.
Tento příklad používá soubor .netrc a jq.
Response
{
"job_id": 1,
"run_id": 452,
"number_in_job": 5,
"state": {
"life_cycle_state": "RUNNING",
"state_message": "Performing action"
},
"task": {
"notebook_task": {
"notebook_path": "/Users/someone@example.com/my-notebook"
}
},
"cluster_spec": {
"existing_cluster_id": "1201-my-cluster"
},
"cluster_instance": {
"cluster_id": "1201-my-cluster",
"spark_context_id": "1102398-spark-context-id"
},
"overriding_parameters": {
"jar_params": ["param1", "param2"]
},
"start_time": 1457570074236,
"end_time": 1457570075149,
"setup_duration": 259754,
"execution_duration": 3589020,
"cleanup_duration": 31038,
"run_duration": 3879812,
"trigger": "PERIODIC"
}
Struktura požadavku
Název pole | Typ | Popis |
---|---|---|
run_id |
INT64 |
Kanonický identifier spuštění, u kterého se mají načíst metadata. Toto pole je povinné. |
Struktura odpovědi
Název pole | Typ | Popis |
---|---|---|
job_id |
INT64 |
Kanonický identifier úlohy, která obsahuje tento běh. |
run_id |
INT64 |
Kanonický identifier běhu. Toto ID je jedinečné pro všechna spuštění všech úloh. |
number_in_job |
INT64 |
Pořadové číslo tohoto spuštění mezi všemi spuštěními úlohy. Tato hodnota začíná na 1. |
original_attempt_run_id |
INT64 |
Pokud se jedná o opakování předchozího pokusu o spuštění, obsahuje toto pole run_id původního pokusu; jinak je to stejné jako run_id. |
state |
Spustit stav | Výsledek a stav životního cyklu spuštění. |
schedule |
CronSchedule | Plán cron, který toto spuštění aktivoval, pokud ho aktivoval pravidelný plánovač. |
task |
JobTask | Úloha prováděná spuštěním, pokud existuje. |
cluster_spec |
ClusterSpec | Snímek specifikace clusteru úlohy při vytvoření tohoto spuštění |
cluster_instance |
Instance clusteru | Cluster použitý pro toto spuštění. Pokud je spuštění určené pro použití nového clusteru, bude toto pole set, jakmile služba Úlohy požádá o cluster pro spuštění. |
overriding_parameters |
RunParameters | parameters použitá pro toto spuštění. |
start_time |
INT64 |
Čas zahájení tohoto spuštění v epoch milisekundách (milisekundy od 1. 1. 1970 UTC). To nemusí být čas, kdy se úloha úlohy spustí, například pokud je úloha naplánovaná tak, aby běžela v novém clusteru, jedná se o čas vydání volání vytvoření clusteru. |
end_time |
INT64 |
Čas ukončení tohoto běhu v epoch milisekundách (milisekundy od 1. 1. 1970 UTC). Pokud je úloha stále spuštěná, bude toto pole v rozsahu od set do 0. |
setup_duration |
INT64 |
Doba v milisekundách nutná k inicializaci clusteru set. U spuštění, která běží na nových clusterech, je to čas vytvoření clusteru, pro spuštění, která běží na existujících clusterech, by tentokrát měla být velmi krátká. Celková doba trvání běhu je součet setup_duration execution_duration a .cleanup_duration Pole setup_duration je set až 0 pro spuštění úloh s více úkoly. Celková doba trvání spuštění úlohy s více úkoly je hodnotarun_duration pole. |
execution_duration |
INT64 |
Doba v milisekundách trvala spuštění příkazů v souboru JAR nebo poznámkovém bloku, dokud nebyly dokončeny, selhaly, vypršel časový limit, byly zrušeny nebo došlo k neočekávané chybě. Celková doba trvání běhu je součet setup_duration , execution_duration acleanup_duration . Pole execution_duration je set až 0 pro spuštění úloh s více úkoly. Celková doba trvání spuštění úlohy s více úkoly je hodnota run_duration pole. |
cleanup_duration |
INT64 |
Doba v milisekundách trvala ukončení clusteru a vyčištění všech přidružených artefaktů. Celková doba trvání běhu je součet setup_duration , execution_duration a cleanup_duration . Pole cleanup_duration je set až 0 pro spuštění úloh s více úkoly. Celková doba trvání spuštění úlohy s více úkoly je hodnota run_duration pole. |
run_duration |
INT64 |
Čas v milisekundách trvalo spuštění úlohy a dokončení všech jeho oprav. Toto pole je set pouze pro spuštění úloh s více úkoly, nikoli pro spuštění jednotlivých úkolů. Doba trvání spuštění úlohy je součetsetup_duration , execution_duration a .cleanup_duration |
trigger |
Typ triggeru | Typ triggeru, který toto spuštění aktivoval. |
creator_user_name |
STRING |
Uživatelské jméno tvůrce. Pokud byl uživatel odstraněn, toto pole se do odpovědi nezahrne. |
run_page_url |
STRING |
Adresa URL na stránku podrobností spuštění. |
Spuštění exportu
Koncový bod | Metoda HTTP |
---|---|
2.0/jobs/runs/export |
GET |
Exportujte a načtěte úlohu spuštění úlohy.
Poznámka:
Exportovat je možné pouze spuštění poznámkového bloku ve formátu HTML. Export spuštění jiných typů selže.
Příklad
Žádost
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/export?run_id=<run-id>' \
| jq .
Nebo:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/export \
--data run_id=<run-id> \
| jq .
Nahrazení:
-
<databricks-instance>
s názvem instance pracovního prostoru Azure Databricks, napříkladadb-1234567890123456.7.azuredatabricks.net
. -
<run-id>
s ID spuštění, například123
.
Tento příklad používá soubor .netrc a jq.
Response
{
"views": [ {
"content": "<!DOCTYPE html><html><head>Head</head><body>Body</body></html>",
"name": "my-notebook",
"type": "NOTEBOOK"
} ]
}
Pokud chcete extrahovat poznámkový blok HTML z odpovědi JSON, stáhněte a spusťte tento skript Pythonu.
Poznámka:
Tělo poznámkového bloku v objektu __DATABRICKS_NOTEBOOK_MODEL
je kódované.
Struktura požadavku
Název pole | Typ | Popis |
---|---|---|
run_id |
INT64 |
Kanonický identifier pro běh. Toto pole je povinné. |
views_to_export |
ViewsToExport | Který views exportovat (KÓD, ŘÍDICÍ PANELY nebo VŠE). Výchozí hodnota je CODE. |
Struktura odpovědi
Název pole | Typ | Popis |
---|---|---|
views |
Pole ViewItem | Exportovaný obsah ve formátu HTML (jeden pro každou položku zobrazení). |
Spuštění zrušit
Koncový bod | Metoda HTTP |
---|---|
2.0/jobs/runs/cancel |
POST |
Zrušte spuštění úlohy. Vzhledem k tomu, že je spuštění zrušeno asynchronně, může být spuštění spuštěné i po dokončení tohoto požadavku. Spuštění bude brzy ukončeno. Pokud je spuštění již v terminálu life_cycle_state
, tato metoda je no-op.
Tento koncový bod ověří platnost parametru run_id
a pro neplatné parameters vrátí stavový kód HTTP 400.
Příklad
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/cancel \
--data '{ "run_id": <run-id> }'
Nahrazení:
-
<databricks-instance>
s názvem instance pracovního prostoru Azure Databricks, napříkladadb-1234567890123456.7.azuredatabricks.net
. -
<run-id>
s ID spuštění, například123
.
Tento příklad používá soubor .netrc .
Struktura požadavku
Název pole | Typ | Popis |
---|---|---|
run_id |
INT64 |
Kanonický identifier běhu, který se má zrušit. Toto pole je povinné. |
Spuštění zruší všechna
Koncový bod | Metoda HTTP |
---|---|
2.0/jobs/runs/cancel-all |
POST |
Zrušte všechna aktivní spuštění úlohy. Vzhledem k tomu, že je spuštění zrušeno asynchronně, nezabrání spuštění nových spuštění.
Tento koncový bod ověří platnost parametru job_id
a pro neplatné parameters vrátí stavový kód HTTP 400.
Příklad
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/cancel-all \
--data '{ "job_id": <job-id> }'
Nahrazení:
-
<databricks-instance>
s názvem instance pracovního prostoru Azure Databricks, napříkladadb-1234567890123456.7.azuredatabricks.net
. -
<job-id>
s ID úlohy, například123
.
Tento příklad používá soubor .netrc .
Struktura požadavku
Název pole | Typ | Popis |
---|---|---|
job_id |
INT64 |
Kanonický identifier úlohy, který má zrušit všechna spuštění. Toto pole je povinné. |
výstup spuštění get
Koncový bod | Metoda HTTP |
---|---|
2.0/jobs/runs/get-output |
GET |
Načtěte výstup a metadata jednoho spuštění úlohy. Když úloha poznámkového bloku vrátí hodnotu prostřednictvím volání dbutils.notebook.exit(), můžete tuto hodnotu načíst pomocí tohoto koncového bodu. Azure Databricks omezuje toto rozhraní API tak, aby vrátilo prvních 5 MB výstupu. Pokud chcete vrátit větší výsledek, můžete výsledky úloh uložit do služby cloudového úložiště.
Tento koncový bod ověří platnost parametru run_id
a pro neplatné parameters vrátí stavový kód HTTP 400.
Spuštění se automaticky odeberou po 60 dnech. Pokud chcete odkazovat na ně po dobu delší než 60 dnů, měli byste před vypršením jejich platnosti uložit staré výsledky spuštění. Pokud chcete exportovat pomocí uživatelského rozhraní, podívejte se na výsledky spuštění úlohy exportu. Pokud chcete exportovat pomocí rozhraní API úloh, přečtěte si téma Spuštění exportu.
Příklad
Žádost
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/get-output?run_id=<run-id>' \
| jq .
Nebo:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/get-output \
--data run_id=<run-id> \
| jq .
Nahrazení:
-
<databricks-instance>
s názvem instance pracovního prostoru Azure Databricks, napříkladadb-1234567890123456.7.azuredatabricks.net
. -
<run-id>
s ID spuštění, například123
.
Tento příklad používá soubor .netrc a jq.
Response
{
"metadata": {
"job_id": 1,
"run_id": 452,
"number_in_job": 5,
"state": {
"life_cycle_state": "TERMINATED",
"result_state": "SUCCESS",
"state_message": ""
},
"task": {
"notebook_task": {
"notebook_path": "/Users/someone@example.com/my-notebook"
}
},
"cluster_spec": {
"existing_cluster_id": "1201-my-cluster"
},
"cluster_instance": {
"cluster_id": "1201-my-cluster",
"spark_context_id": "1102398-spark-context-id"
},
"overriding_parameters": {
"jar_params": ["param1", "param2"]
},
"start_time": 1457570074236,
"setup_duration": 259754,
"execution_duration": 3589020,
"cleanup_duration": 31038,
"run_duration": 3879812,
"trigger": "PERIODIC"
},
"notebook_output": {
"result": "the maybe truncated string passed to dbutils.notebook.exit()"
}
}
Struktura požadavku
Název pole | Typ | Popis |
---|---|---|
run_id |
INT64 |
Kanonický identifier pro běh. U úlohy se ztlumenými úkoly se jedná o run_id spuštění úlohy. Viz Spuštění get výstupu. Toto pole je povinné. |
Struktura odpovědi
Název pole | Typ | Popis |
---|---|---|
notebook_output NEBO error |
NotebookOutput OR STRING |
Pokud notebook_output, výstup úlohy poznámkového bloku( pokud je k dispozici). Úloha poznámkového bloku, která se ukončí (úspěšně nebo se selháním) bez volánídbutils.notebook.exit() se považuje za prázdný výstup. Toto pole bude set, ale jeho výsledná hodnota bude prázdná.Pokud dojde k chybě, zobrazí se chybová zpráva označující, proč výstup není k dispozici. Zpráva je nestrukturovaná a její přesný formát se může změnit. |
metadata |
Běžet | Všechny podrobnosti o spuštění s výjimkou jeho výstupu. |
Odstranění spuštění
Koncový bod | Metoda HTTP |
---|---|
2.0/jobs/runs/delete |
POST |
Odstraňte neaktivní spuštění. Vrátí chybu, pokud je spuštění aktivní.
Příklad
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/delete \
--data '{ "run_id": <run-id> }'
Nahrazení:
-
<databricks-instance>
s názvem instance pracovního prostoru Azure Databricks, napříkladadb-1234567890123456.7.azuredatabricks.net
. -
<run-id>
s ID spuštění, například123
.
Tento příklad používá soubor .netrc .
Struktura požadavku
Název pole | Typ | Popis |
---|---|---|
run_id |
INT64 |
Kanonický identifier spuštění, u kterého se mají načíst metadata. |
Datové struktury
V této části:
- ABFSSStorageInfo
- Automatické škálování
- AzureAttributes
- Dostupnost Azure
- Instance clusteru
- ClusterLogConf
- ClusterSpec
- ClusterTag
- CronSchedule
- DbfsStorageInfo
- FileStorageInfo
- InitScriptInfo
- Práce
- JobEmailNotifications
- JobNotificationSettings
- JobSettings
- JobTask
- JobsHealthRule
- JobsHealthRules
- Knihovna
- MavenLibrary
- NewCluster
- NotebookOutput
- Poznámkový blok
- ParamPair
- PipelineTask
- PythonPyPiLibrary
- RCranLibrary
- Běžet
- RunJobTask
- RunLifeCycleState
- RunParameters
- RunResultState
- Spustit stav
- SparkConfPair
- SparkEnvPair
- SparkJarTask
- SparkPythonTask
- SparkSubmitTask
- Typ triggeru
- ViewItem
- Typ zobrazení
- ViewsToExport
- Webhook
- WebhookNotifications
- WorkspaceStorageInfo
ABFSSStorageInfo
Informace o úložišti Azure Data Lake Storage (ADLS)
Název pole | Typ | Popis |
---|---|---|
destination |
STRING |
Místo určení souboru. Příklad: abfss://... |
Automatické škálování
Rozsah definující minimální a maximální počet pracovních procesů clusteru
Název pole | Typ | Popis |
---|---|---|
min_workers |
INT32 |
Minimální počet pracovních procesů, na které může cluster při nedostatečně využité kapacitě vertikálně snížit. Je to také počáteční počet pracovních procesů, které cluster bude mít po vytvoření. |
max_workers |
INT32 |
Maximální počet pracovních procesů, na které může cluster při přetížení vertikálně navýšit kapacitu. max_workers musí být výhradně větší než min_workers. |
AzureAttributes
Atributy set během vytváření clusteru v souvislosti s Azure.
Název pole | Typ | Popis |
---|---|---|
first_on_demand |
INT32 |
První first_on_demand uzly clusteru se umístí na instance na vyžádání. Tato hodnota musí být větší než 0, jinak ověření vytvoření clusteru selže. Pokud je tato hodnota větší nebo rovna aktuální velikosti clusteru, všechny uzly se umístí na instance na vyžádání. Pokud je tato hodnota menší než aktuální velikost clusteru, first_on_demand uzly se umístí na instance na vyžádání a zbytek se umístí na instance dostupnosti. Tato hodnota nemá vliv na velikost clusteru a nemůže být v průběhu životnosti clusteru ztlumená. |
availability |
Dostupnost Azure | Typ dostupnosti použitý pro všechny následující uzly za first_on_demand ty. |
spot_bid_max_price |
DOUBLE |
Maximální cena za nabídku použitá pro spotové instance Azure. Tuto hodnotu můžete set na vyšší nebo rovnou aktuální spotové ceně. Můžete to také set na výchozí -1, což určuje, že instanci nelze vyřadit na základě ceny. Cena instance bude aktuální cena za spotové instance nebo cena za standardní instanci. Historické ceny a sazby vyřazení můžete zobrazit na webu Azure Portal. |
Dostupnost Azure
Chování typu dostupnosti instance Azure.
Typ | Popis |
---|---|
SPOT_AZURE |
Používejte spotové instance. |
ON_DEMAND_AZURE |
Používejte instance na vyžádání. |
SPOT_WITH_FALLBACK_AZURE |
Pokud možno používejte spotové instance, ale vraťte se k instancím na vyžádání, pokud spotové instance nelze získat (například pokud jsou spotové ceny Azure příliš vysoké nebo jsou mimo kvótu). Nevztahuje se na dostupnost fondu. |
Instance clusteru
Identifikátory clusteru a kontextu Sparku používaného spuštěním Tyto dvě values společně identifikují kontext spuštění napříč veškerým časem.
Název pole | Typ | Popis |
---|---|---|
cluster_id |
STRING |
Kanonický identifier pro cluster používaný spuštěním. Toto pole je vždy k dispozici pro spuštění v existujících clusterech. Pro spuštění na nových clusterech bude po vytvoření clusteru k dispozici. Tuto hodnotu lze použít k zobrazení protokolů přechodem na /#setting/sparkui/$cluster_id/driver-logs . Po dokončení spuštění budou protokoly dál dostupné.Odpověď toto pole nezahrnuje, pokud ještě není identifier k dispozici. |
spark_context_id |
STRING |
Kanonický identifier pro kontext Spark používaný během běhu. Toto pole se vyplní po zahájení spuštění. Tuto hodnotu lze použít k zobrazení uživatelského rozhraní Sparku tak, že přejdete na /#setting/sparkui/$cluster_id/$spark_context_id . Po dokončení spuštění bude uživatelské rozhraní Sparku dál dostupné.Odpověď toto pole nezahrnuje, pokud ještě není identifier k dispozici. |
ClusterLogConf
Cesta k protokolu clusteru
Název pole | Typ | Popis |
---|---|---|
dbfs |
Umístění dbFS protokolu clusteru Cíl musí být zadaný. Například { "dbfs" : { "destination" : "dbfs:/home/cluster_log" } } |
ClusterSpec
Důležité
- Při spuštění úlohy v novém clusteru úloh se úloha považuje za výpočetní úlohy (automatizované) úlohy, na které se vztahují ceny výpočetních úloh úloh.
- Když spustíte úlohu v existujícím clusteru pro všechny účely, považuje se za výpočetní úlohy pro všechny účely (interaktivní) na základě cen výpočetních prostředků pro všechny účely.
Název pole | Typ | Popis |
---|---|---|
existing_cluster_id NEBO new_cluster |
STRING OR NewCluster |
Pokud existing_cluster_id, ID existujícího clusteru, který se použije pro všechna spuštění této úlohy. Při spouštění úloh v existujícím clusteru možná budete muset cluster restartovat ručně, pokud přestane reagovat. Pro větší spolehlivost doporučujeme spouštět úlohy v nových clusterech. Pokud new_cluster, popis clusteru, který se vytvoří pro každé spuštění. Pokud zadáte PipelineTask, může být toto pole prázdné. |
libraries |
Pole knihovny | Volitelné list knihoven, které se mají nainstalovat do clusteru, který spustí úlohu. Výchozí hodnota je prázdná list. |
ClusterTag
Definice značky clusteru
Typ | Popis |
---|---|
STRING |
Klíč značky. Klíč musí: - Mít délku 1 až 512 znaků - Neobsahuje žádný z znaků. <>%*&+?\\/ - Nezačíná na azure , microsoft nebo windows |
STRING |
Hodnota značky. Délka hodnoty musí být menší nebo rovna 256 znakům UTF-8. |
CronSchedule
Název pole | Typ | Popis |
---|---|---|
quartz_cron_expression |
STRING |
Výraz Cron využívající syntaxi Quartz, který popisuje plán úlohy. Podrobnosti najdete v tématu Trigger Cron. Toto pole je povinné. |
timezone_id |
STRING |
ID timezone jazyka Java. Plán úlohy bude stanoven s ohledem na tuto timezone. Podrobnosti najdete v Java TimeZone. Toto pole je povinné. |
pause_status |
STRING |
Určete, jestli je tento plán pozastavený nebo ne. Buď "POZASTAVENO" nebo "UNPAUSED". |
DbfsStorageInfo
Informace o úložišti DBFS
Název pole | Typ | Popis |
---|---|---|
destination |
STRING |
Cíl DBFS. Příklad: dbfs:/my/path |
FileStorageInfo
Informace o úložišti souborů
Poznámka:
Tento typ lokality je k dispozici pouze pro clustery set při použití Databricks Container Services.
Název pole | Typ | Popis |
---|---|---|
destination |
STRING |
Místo určení souboru. Příklad: file:/my/file.sh |
InitScriptInfo
Cesta ke inicializačnímu skriptu
Pokyny k používání inicializačních skriptů se službou Databricks Container Services najdete v tématu Použití inicializačního skriptu.
Poznámka:
Typ úložiště souborů (název pole: file
) je k dispozici pouze pro clustery set s využitím služby Databricks Container Services. Viz FileStorageInfo.
Název pole | Typ | Popis |
---|---|---|
workspace NEBO dbfs (zastaralé)NEBO abfss |
WorkspaceStorageInfo DbfsStorageInfo (zastaralé) ABFSSStorageInfo |
Umístění inicializačního skriptu pracovního prostoru Cíl musí být zadaný. Příklad:{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } } (Zastaralé) Umístění dbFS inicializačního skriptu Cíl musí být zadaný. Příklad: { "dbfs" : { "destination" : "dbfs:/home/init_script" } } Umístění inicializačního skriptu ve službě Azure Data Lake Storage (ADLS). Cíl musí být zadaný. Například { "abfss": { "destination" : "abfss://..." } } |
Práce
Název pole | Typ | Popis |
---|---|---|
job_id |
INT64 |
Kanonický identifier pro tuto úlohu. |
creator_user_name |
STRING |
Uživatelské jméno tvůrce. Toto pole se do odpovědi nezahrne, pokud už byl uživatel odstraněn. |
run_as |
STRING |
Uživatelské jméno, které úloha spustí jako.
run_as je založená na aktuálním nastavení úlohy a je set tvůrci úlohy, pokud je řízení přístupu k úloze zakázané, nebo is_owner oprávnění, pokud je povolené řízení přístupu k úloze. |
settings |
JobSettings | Nastavení pro tuto úlohu a všechna jeho spuštění Tato nastavení je možné aktualizovat pomocí resetJob metody. |
created_time |
INT64 |
Čas vytvoření této úlohy v milisekundách epochy (milisekundy od 1. 1. 1970 UTC). |
JobEmailNotifications
Důležité
Pole on_start, on_success a on_failure přijímají pouze znaky latinky (znak ASCII set). Použití znaků jiného typu než ASCII vrátí chybu. Příklady neplatných znaků, které nejsou ASCII, jsou čínské, japonské kanji a emoji.
Název pole | Typ | Popis |
---|---|---|
on_start |
Pole STRING |
list e-mailových adres, které mají být upozorněny na zahájení spuštění. Pokud není zadáno při vytváření úloh, resetnebo update, je list prázdný a oznámení se neodesílají. |
on_success |
Pole STRING |
list e-mailových adres, které se mají oznámit po úspěšném dokončení spuštění. Spuštění je považováno za úspěšné dokončení, pokud končí na TERMINATED life_cycle_state a SUCCESSFUL result_state . Pokud není zadáno při vytváření úloh, resetnebo update, je list prázdný a oznámení se neodesílají. |
on_failure |
Pole STRING |
list e-mailových adres, které se mají informovat o neúspěšném dokončení spuštění. Spuštění je považováno za neúspěšné dokončení, pokud končí na INTERNAL_ERROR life_cycle_state nebo , SKIPPED FAILED nebo TIMED_OUT result_state. Pokud není zadáno při vytváření úloh, resetnebo updatelist je prázdný a oznámení se neodesílají. |
on_duration_warning_threshold_exceeded |
Pole STRING |
list e-mailových adres, které mají být oznámeny, když doba trvání běhu překročí prahovou hodnotu zadanou pro metriku RUN_DURATION_SECONDS v poli health . Pokud v RUN_DURATION_SECONDS poli pro úlohu není zadané žádné pravidlo metrikyhealth , oznámení se neodesílají. |
no_alert_for_skipped_runs |
BOOL |
Pokud je hodnota true, neodesílejte e-mail na recipients určený v on_failure , pokud je běh přeskočen. |
JobNotificationSettings
Název pole | Typ | Popis |
---|---|---|
no_alert_for_skipped_runs |
BOOL |
Pokud je podmínka pravdivá, neodesílejte oznámení na recipients zadané v on_failure , pokud je spuštění vynecháno. |
no_alert_for_canceled_runs |
BOOL |
Je-li to pravda, neodesílejte oznámení k recipients specifikované v on_failure , pokud je spuštění zrušeno. |
alert_on_last_attempt |
BOOL |
Pokud je pravda, neodesílejte oznámení recipients zadané v on_start pro opakování spuštění a neodesílejte oznámení recipients zadané v on_failure až do posledního opakování spuštění. |
JobSettings
Důležité
- Při spuštění úlohy v novém clusteru úloh se úloha považuje za výpočetní úlohy (automatizované) úlohy, na které se vztahují ceny výpočetních úloh úloh.
- Když spustíte úlohu v existujícím clusteru pro všechny účely, považuje se za výpočetní úlohy pro všechny účely (interaktivní) na základě cen výpočetních prostředků pro všechny účely.
Nastavení pro úlohu Tato nastavení je možné aktualizovat pomocí resetJob
metody.
Název pole | Typ | Popis |
---|---|---|
existing_cluster_id NEBO new_cluster |
STRING OR NewCluster |
Pokud existing_cluster_id, ID existujícího clusteru, který se použije pro všechna spuštění této úlohy. Při spouštění úloh v existujícím clusteru možná budete muset cluster restartovat ručně, pokud přestane reagovat. Pro větší spolehlivost doporučujeme spouštět úlohy v nových clusterech. Pokud new_cluster, popis clusteru, který se vytvoří pro každé spuštění. Pokud zadáte PipelineTask, může být toto pole prázdné. |
notebook_task NEBO spark_jar_task spark_python_task NEBO spark_submit_task pipeline_task NEBO run_job_task |
NotebookTask NEBO SparkJarTask NEBO SparkPythonTask NEBO SparkSubmitTask NEBO PipelineTask NEBO RunJobTask | Pokud notebook_task, znamená to, že by tato úloha měla spustit poznámkový blok. Toto pole nesmí být zadáno ve spojení s spark_jar_task. Pokud spark_jar_task, znamená to, že by tato úloha měla spustit soubor JAR. Pokud spark_python_task, znamená to, že by tato úloha měla spustit soubor Pythonu. Pokud spark_submit_task, znamená to, že tuto úlohu by měl spustit skript pro odeslání Sparku. Pokud je pipeline_task zadán, znamená to, že by tato úloha měla spustit pipeline Delta Live Tables. Pokud run_job_task, znamená to, že by tato úloha měla spustit jinou úlohu. |
name |
STRING |
Volitelný název úlohy. Výchozí hodnota je Untitled . |
libraries |
Pole knihovny | Volitelné list knihoven, které se mají nainstalovat do clusteru, který spustí úlohu. Výchozí hodnota je prázdná list. |
email_notifications |
JobEmailNotifications | Nepovinný set e-mailových adres, které budou upozorněny při zahájení a dokončení této úlohy, stejně jako při odstranění této úlohy. Výchozí chování je neodesílat žádné e-maily. |
webhook_notifications |
WebhookNotifications | Volitelné set cílů systému, které vás upozorní, když se tato úloha spustí, dokončí nebo selže. |
notification_settings |
JobNotificationSettings | Volitelná nastavení oznámení, která se používají při odesílání oznámení každému email_notifications z nich a webhook_notifications pro tuto úlohu. |
timeout_seconds |
INT32 |
Volitelný časový limit použitý pro každé spuštění této úlohy. Výchozí chování nemá žádný časový limit. |
max_retries |
INT32 |
Volitelný maximální počet opakování neúspěšného spuštění. Spuštění je považováno za neúspěšné, pokud se dokončí s FAILED result_state neboINTERNAL_ERROR life_cycle_state . Hodnota -1 znamená opakování na neomezenou dobu a hodnota 0 znamená nikdy opakovat. Výchozí chování je nikdy opakovat. |
min_retry_interval_millis |
INT32 |
Volitelný minimální interval v milisekundách mezi pokusy. Výchozí chování je, že neúspěšná spuštění se okamžitě opakuje. |
retry_on_timeout |
BOOL |
Volitelná zásada určující, jestli se má úloha opakovat, když vyprší časový limit. Výchozí chování není opakovat při vypršení časového limitu. |
schedule |
CronSchedule | Volitelný pravidelný plán pro tuto úlohu. Výchozí chování spočívá v tom, že úloha se spustí pouze po aktivaci kliknutím na Spustit nyní v uživatelském rozhraní úloh nebo odesláním požadavku rozhraní API narunNow . |
max_concurrent_runs |
INT32 |
Volitelný maximální povolený počet souběžných spuštění úlohy. Set tuto hodnotu, pokud chcete být schopni současně provést více spuštění stejné úlohy. To je užitečné například, když spustíte svou pracovní úlohu na častém rozvrhu a chcete povolit, aby se jednotlivé běhy překrývaly, nebo pokud chcete spustit více úloh, které se liší svými vstupy parameters. Toto nastavení má vliv jenom na nová spuštění. Předpokládejme například, že souběžnost úlohy je 4 a existují 4 souběžná aktivní spuštění. Nastavení souběžnosti na 3 pak nezabije žádné aktivní spuštění. Od tého dne se však nová spuštění přeskočí, pokud nejsou k dispozici méně než 3 aktivní spuštění. Tato hodnota nesmí překročit 1 000. Nastavení této hodnoty na 0 způsobí, že se všechna nová spuštění přeskočí. Výchozí chování je povolit pouze 1 souběžné spuštění. |
health |
JobsHealthRules | Volitelný set zdravotních pravidel definovaných pro tuto práci. |
JobTask
Název pole | Typ | Popis |
---|---|---|
notebook_task NEBO spark_jar_task spark_python_task NEBO spark_submit_task pipeline_task NEBO run_job_task |
NotebookTask NEBO SparkJarTask NEBO SparkPythonTask NEBO SparkSubmitTask NEBO PipelineTask NEBO RunJobTask | Pokud notebook_task, znamená to, že by tato úloha měla spustit poznámkový blok. Toto pole nesmí být zadáno ve spojení s spark_jar_task. Pokud spark_jar_task, znamená to, že by tato úloha měla spustit soubor JAR. Pokud spark_python_task, znamená to, že by tato úloha měla spustit soubor Pythonu. Pokud spark_submit_task, znamená to, že tuto úlohu by měl spustit skript pro odeslání Sparku. Pokud je pipeline_task zadán, znamená to, že by tato úloha měla spustit pipeline Delta Live Tables. Pokud run_job_task, znamená to, že by tato úloha měla spustit jinou úlohu. |
JobsHealthRule
Název pole | Typ | Popis |
---|---|---|
metric |
STRING |
Určuje metriku stavu, která se vyhodnocuje pro konkrétní pravidlo stavu. Platné values jsou RUN_DURATION_SECONDS . |
operator |
STRING |
Určuje operátor použitý k porovnání hodnoty metriky stavu se zadanou prahovou hodnotou. Platné values jsou GREATER_THAN . |
value |
INT32 |
Určuje prahovou hodnotu, kterou má metrika stavu splnit, aby vyhovovala pravidlu stavu. |
JobsHealthRules
Název pole | Typ | Popis |
---|---|---|
rules |
Pole JobsHealthRule | Volitelná set pravidel zdraví, která lze definovat pro úlohu. |
Knihovna
Název pole | Typ | Popis |
---|---|---|
jar NEBO egg NEBO NEBO whl pypi NEBO maven cran |
STRING OR STRING NEBO NEBO STRING PythonPyPiLibrary NEBO MavenLibrary NEBO RCranLibrary |
Pokud je soubor JAR, nainstalujte identifikátor URI souboru JAR. Podporují se identifikátory URI DBFS a ADLS (abfss ). Příklad: { "jar": "dbfs:/mnt/databricks/library.jar" } nebo{ "jar": "abfss://<container-path>/library.jar" } . Pokud se používá ADLS, ujistěte se, že cluster má v knihovně přístup pro čtení.Pokud je vejce, nainstalujte identifikátor URI vejce. Podporují se identifikátory URI DBFS a ADLS. Příklad: { "egg": "dbfs:/my/egg" } nebo{ "egg": "abfss://<container-path>/egg" } .Pokud whl, identifikátor URI wheel souboru nebo zip wheels , který se má nainstalovat. Podporují se identifikátory URI DBFS a ADLS. Příklad: { "whl": "dbfs:/my/whl" } nebo{ "whl": "abfss://<container-path>/whl" } . Pokud se používá ADLS, ujistěte se, že cluster má v knihovně přístup pro čtení.
wheel Název souboru musí také používat správnou konvenci.
wheels Pokud je třeba nainstalovat zip, přípona názvu souboru by měla být .wheelhouse.zip .Pokud pypi, specifikace knihovny PyPI, která se má nainstalovat. Zadání repo pole je volitelné a pokud není zadané, použije se výchozí index pip. Příklad:{ "package": "simplejson", "repo": "https://my-repo.com" } Pokud maven, specifikace knihovny Maven, která se má nainstalovat. Příklad: { "coordinates": "org.jsoup:jsoup:1.7.2" } Pokud je cran, specifikace knihovny CRAN, která se má nainstalovat. |
MavenLibrary
Název pole | Typ | Popis |
---|---|---|
coordinates |
STRING |
Souřadnice Mavenu ve stylu Gradle Například: org.jsoup:jsoup:1.7.2 . Toto pole je povinné. |
repo |
STRING |
Úložiště Maven pro instalaci balíčku Maven z. Pokud tento parametr vynecháte, prohledá se jak centrální úložiště Maven, tak balíčky Sparku. |
exclusions |
Pole STRING |
List závislostí, které se mají vyloučit. Například: ["slf4j:slf4j", "*:hadoop-client"] .Vyloučení závislostí Maven: https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html. |
NewCluster
Název pole | Typ | Popis |
---|---|---|
num_workers NEBO autoscale |
INT32 NEBO automatické škálování |
Pokud num_workers, počet pracovních uzlů, které má mít tento cluster. Cluster má jeden ovladač Sparku a num_workers exekutory celkem num_workers + 1 uzly Spark. Poznámka: Při čtení vlastností clusteru toto pole odráží požadovaný počet pracovních procesů místo skutečného aktuálního počtu pracovních procesů. Pokud se například změní velikost clusteru z 5 na 10 pracovních procesů, toto pole se okamžitě aktualizuje tak, aby odráželo cílovou velikost 10 pracovních procesů, zatímco pracovní procesy uvedené v spark_info se postupně zvětšují z 5 na 10 při zřizování nových uzlů. Pokud je povoleno automatické škálování, parameters je potřeba k automatickému zvýšení a snížení kapacity clusterů na základě zatížení. |
spark_version |
STRING |
Verze Sparku clusteru. list dostupných verzí Sparku lze načíst pomocí volání GET 2.0/clusters/spark-versions. Toto pole je povinné. |
spark_conf |
SparkConfPair | Objekt obsahující set volitelných uživatelem zadaných párů klíč-hodnota pro konfiguraci Sparku. Můžete také předat řetězec dalších možností prostředí JVM ovladači a exekutorům prostřednictvímspark.driver.extraJavaOptions a spark.executor.extraJavaOptions v uvedeném pořadí.Příklad konfigurace Sparku: {"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} nebo{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"} |
node_type_id |
STRING |
Toto pole kóduje prostředky dostupné pro každý z uzlů Sparku v tomto clusteru prostřednictvím jedné hodnoty. Uzly Sparku je například možné zřídit a optimalizovat pro úlohy náročné na paměť nebo výpočetní výkon a list dostupných typů uzlů je možné načíst pomocí GET 2.0/clusterů/list-node-types volání. Toto pole, instance_pool_id pole nebo zásady clusteru, které určují ID typu uzlu nebo ID fondu instancí, je povinné. |
driver_node_type_id |
STRING |
Typ uzlu ovladače Spark. Toto pole je volitelné; pokud není nastavené, typ uzlu ovladače je set jako stejná hodnota jako node_type_id definovaná výše. |
custom_tags |
ClusterTag | Objekt obsahující set tagů pro prostředky clustru. Databricks kromě default_tags označí všechny prostředky clusteru (například virtuální počítače) pomocí těchto značek. Poznámka: – Značky nejsou podporovány u starších typů uzlů, jako jsou výpočty optimalizované a optimalizované pro paměť. – Databricks umožňuje maximálně 45 vlastních značek. |
cluster_log_conf |
ClusterLogConf | Konfigurace pro doručování protokolů Sparku do dlouhodobého cíle úložiště. Pro jeden cluster je možné zadat pouze jeden cíl. Pokud je soubor uveden, protokoly se doručí do cílového umístění každé 5 mins . Cílem protokolů ovladačů je <destination>/<cluster-id>/driver , zatímco cíl protokolů exekutoru je <destination>/<cluster-id>/executor . |
init_scripts |
Pole InitScriptInfo | Konfigurace pro ukládání inicializačních skriptů. Lze zadat libovolný počet skriptů. Skripty se spouští postupně v zadaném pořadí. Pokud cluster_log_conf je zadáno, protokoly inicializačních skriptů se odesílají do<destination>/<cluster-id>/init_scripts . |
spark_env_vars |
SparkEnvPair | Objekt obsahující set volitelných párů klíč-hodnota proměnné prostředí zadané uživatelem. Pár klíč-hodnota formuláře (X,Y) se exportuje tak, jak je (tj.export X='Y' ) při spouštění řidiče a pracovníků.Pokud chcete zadat další set SPARK_DAEMON_JAVA_OPTS , doporučujeme je připojit k $SPARK_DAEMON_JAVA_OPTS , jak je znázorněno v následujícím příkladu. Tím se zajistí zahrnutí všech výchozích proměnných prostředí spravovaných službou Databricks.Příklady proměnných prostředí Sparku: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} nebo{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"} |
enable_elastic_disk |
BOOL |
Automatické škálování místního úložiště: Pokud je povoleno, tento cluster dynamicky získává další místo na disku, když pracovní procesy Sparku běží málo místa na disku. Podrobnosti najdete v tématu Povolení automatického škálování místního úložiště . |
driver_instance_pool_id |
STRING |
Volitelné ID fondu instancí, které se má použít pro uzel ovladače. Musíte také zadat instance_pool_id . Podrobnosti najdete v rozhraní API fondů instancí. |
instance_pool_id |
STRING |
Volitelné ID fondu instancí, které se má použít pro uzly clusteru. Pokud driver_instance_pool_id je k dispozici,instance_pool_id se používá pouze pro pracovní uzly. V opačném případě se používá pro uzel ovladače i pracovní uzly. Podrobnosti najdete v rozhraní API fondů instancí. |
NotebookOutput
Název pole | Typ | Popis |
---|---|---|
result |
STRING |
Hodnota předaná dbutils.notebook.exit() Azure Databricks omezuje toto rozhraní API tak, aby vrátilo prvních 1 MB hodnoty. Pro větší výsledek může vaše úloha uložit výsledky ve službě cloudového úložiště. Toto pole nebude chybět, pokud dbutils.notebook.exit() nebylo nikdy volána. |
truncated |
BOOLEAN |
Zda byl výsledek zkrácen nebo ne. |
Poznámkový blok
Všechny výstupní buňky podléhají velikosti 8 MB. Pokud má výstup buňky větší velikost, zbytek spuštění se zruší a spuštění se označí jako neúspěšné. V takovém případě může chybět i výstup některého obsahu z jiných buněk.
Pokud potřebujete pomoc s vyhledáním buňky, která je za limit, spusťte poznámkový blok v univerzálním clusteru a použijte tuto techniku automatického ukládání poznámkového bloku.
Název pole | Typ | Popis |
---|---|---|
notebook_path |
STRING |
Absolutní cesta poznámkového bloku, který se má spustit v pracovním prostoru Azure Databricks. Tato cesta musí začínat lomítkem. Toto pole je povinné. |
revision_timestamp |
LONG |
Časové razítko revize poznámkového bloku |
base_parameters |
Mapa města ParamPair | Základ parameters, který se má použít pro každé spuštění úlohy. Pokud je spuštění inicializováno voláním run-now se zadaným parameters, sloučí se dvě mapy parameters. Pokud je stejný klíč zadán v base_parameters a v run-now , bude použita hodnota z run-now .Použijte Co je odkaz na dynamickou hodnotu? k setparameters obsahující informace o spuštění úloh. Pokud poznámkový blok přijme parametr, který není zadaný v base_parameters úlohy nebo je přepsán pomocí run-now a parameters, použije se výchozí hodnota z poznámkového bloku.Načtěte tyto parameters v poznámkovém bloku pomocí dbutils.widgets.get. |
ParamPair
parameters založené na názvu pro úlohy, na kterých běží úlohy poznámkového bloku.
Důležité
Pole v této datové struktuře přijímají pouze znaky latinky (znak ASCII set). Použití znaků jiného typu než ASCII vrátí chybu. Příklady neplatných znaků, které nejsou ASCII, jsou čínské, japonské kanji a emoji.
Typ | Popis |
---|---|
STRING |
Název parametru. Předejte dbutils.widgets.get pro načtení hodnoty. |
STRING |
Hodnota parametru. |
PipelineTask
Název pole | Typ | Popis |
---|---|---|
pipeline_id |
STRING |
Úplný název úlohy pipeline Delta Live Tables na provedení. |
PythonPyPiLibrary
Název pole | Typ | Popis |
---|---|---|
package |
STRING |
Název balíčku PyPI, který se má nainstalovat. Podporuje se také volitelná přesná specifikace verze. Příklady: simplejson a simplejson==3.8.0 . Toto pole je povinné. |
repo |
STRING |
Úložiště where, ve kterém najdete balíček. Pokud není zadaný, použije se výchozí index pip. |
RCranLibrary
Název pole | Typ | Popis |
---|---|---|
package |
STRING |
Název balíčku CRAN, který se má nainstalovat. Toto pole je povinné. |
repo |
STRING |
Úložiště where, ve kterém najdete balíček. Pokud není zadané, použije se výchozí úložiště CRAN. |
Běžet
Všechny informace o spuštění s výjimkou jeho výstupu. Výstup lze pomocí metody načíst samostatně getRunOutput
.
Název pole | Typ | Popis |
---|---|---|
job_id |
INT64 |
Kanonický identifier úlohy, která obsahuje tento běh. |
run_id |
INT64 |
Kanonický identifier běhu. Toto ID je jedinečné pro všechna spuštění všech úloh. |
creator_user_name |
STRING |
Uživatelské jméno tvůrce. Toto pole se do odpovědi nezahrne, pokud už byl uživatel odstraněn. |
number_in_job |
INT64 |
Pořadové číslo tohoto spuštění mezi všemi spuštěními úlohy. Tato hodnota začíná na 1. |
original_attempt_run_id |
INT64 |
Pokud se jedná o opakování předchozího pokusu o spuštění, obsahuje toto pole run_id původního pokusu; jinak je to stejné jako run_id. |
state |
Spustit stav | Výsledek a stav životního cyklu spuštění. |
schedule |
CronSchedule | Plán cron, který toto spuštění aktivoval, pokud ho aktivoval pravidelný plánovač. |
task |
JobTask | Úloha prováděná spuštěním, pokud existuje. |
cluster_spec |
ClusterSpec | Snímek specifikace clusteru úlohy při vytvoření tohoto spuštění |
cluster_instance |
Instance clusteru | Cluster použitý pro toto spuštění. Pokud je spuštění určené pro použití nového clusteru, bude toto pole set, jakmile služba Úlohy požádá o cluster pro spuštění. |
overriding_parameters |
RunParameters | parameters použitá pro toto spuštění. |
start_time |
INT64 |
Čas zahájení tohoto spuštění v epoch milisekundách (milisekundy od 1. 1. 1970 UTC). To nemusí být čas, kdy se úloha úlohy spustí, například pokud je úloha naplánovaná tak, aby běžela v novém clusteru, jedná se o čas vydání volání vytvoření clusteru. |
setup_duration |
INT64 |
Doba, po které trvalo set clusteru v milisekundách. U spuštění, která běží na nových clusterech, je to čas vytvoření clusteru, pro spuštění, která běží na existujících clusterech, by tentokrát měla být velmi krátká. |
execution_duration |
INT64 |
Doba v milisekundách trvala spuštění příkazů v souboru JAR nebo poznámkovém bloku, dokud nebyly dokončeny, selhaly, vypršel časový limit, byly zrušeny nebo došlo k neočekávané chybě. |
cleanup_duration |
INT64 |
Doba v milisekundách trvala ukončení clusteru a vyčištění všech přidružených artefaktů. Celková doba trvání spuštění je součet setup_duration, execution_duration a cleanup_duration. |
end_time |
INT64 |
Čas ukončení tohoto běhu v epoch milisekundách (milisekundy od 1. 1. 1970 UTC). Pokud je úloha stále spuštěná, bude toto pole v rozsahu od set do 0. |
trigger |
Typ triggeru | Typ triggeru, který toto spuštění aktivoval. |
run_name |
STRING |
Volitelný název spuštění. Výchozí hodnota je Untitled . Maximální povolená délka je 4096 bajtů v kódování UTF-8. |
run_page_url |
STRING |
Adresa URL na stránku podrobností spuštění. |
run_type |
STRING |
Typ spuštění. - JOB_RUN – Normální spuštění úlohy. Spuštění vytvořené pomocí příkazu Spustit- WORKFLOW_RUN - Spuštění pracovního postupu. Spuštění vytvořené pomocí dbutils.notebook.run- SUBMIT_RUN - Odešlete spuštění. Spuštění vytvořené pomocí příkazu Spustit |
attempt_number |
INT32 |
Pořadové číslo tohoto pokusu o spuštění pro aktivovanou úlohu. Počáteční pokus o spuštění má attempt_number 0. Pokud se počáteční pokus o spuštění nezdaří a úloha má zásadu opakování (max_retries > 0), další spuštění se vytvoří s original_attempt_run_id ID původního pokusu a zvýšením attempt_number . Spuštění se opakují, dokud nebudou úspěšné, a maximální attempt_number hodnota je stejná jako max_retries hodnota úlohy. |
RunJobTask
Název pole | Typ | Popis |
---|---|---|
job_id |
INT32 |
Unikátní číslo identifier úlohy pro spuštění. Toto pole je povinné. |
RunLifeCycleState
Stav životního cyklu spuštění. Povolené přechody stavu jsou:
-
QUEUED
->PENDING
-
PENDING
- - ->RUNNING
>TERMINATING
>TERMINATED
-
PENDING
->SKIPPED
-
PENDING
->INTERNAL_ERROR
-
RUNNING
->INTERNAL_ERROR
-
TERMINATING
->INTERNAL_ERROR
Stát | Popis |
---|---|
QUEUED |
Spuštění se aktivovalo, ale je zařazeno do fronty, protože dosáhlo jednoho z následujících limitů: – Maximální počet souběžných aktivních spuštění v pracovním prostoru. – Maximální počet souběžných Run Job úloh se spustí v pracovním prostoru.– Maximální počet souběžných spuštění úlohy. Před dosažením tohoto stavu musí být úloha nebo spuštění ve frontě povolené. |
PENDING |
Spuštění se aktivovalo. Pokud je již dosaženo nakonfigurovaného maximálního počtu souběžných spuštění úlohy, spuštění okamžitě přejde do SKIPPED stavu bez přípravy prostředků. Jinak probíhá příprava clusteru a provádění. |
RUNNING |
Úloha tohoto spuštění se spouští. |
TERMINATING |
Úloha tohoto spuštění se dokončila a cluster a kontext spuštění se vyčistí. |
TERMINATED |
Úloha tohoto spuštění byla dokončena a kontext spuštění clusteru a spuštění byly vyčištěny. Tento stav je terminál. |
SKIPPED |
Toto spuštění bylo přerušeno, protože předchozí spuštění stejné úlohy již bylo aktivní. Tento stav je terminál. |
INTERNAL_ERROR |
Výjimečný stav, který značí selhání ve službě Úlohy, například selhání sítě za dlouhou dobu. Pokud spuštění v novém clusteru skončí ve INTERNAL_ERROR stavu, služba Úlohy cluster co nejdříve ukončí. Tento stav je terminál. |
RunParameters
Parameters pro toto spuštění. V požadavku by měl být v závislosti na typu úkolu úlohy zadán python_params
pouze jeden z jar_params run-now
nebo notebook_params.
Úlohy pomocí Spark JAR nebo Python úlohy vyžadují listparametersvztahující se k pozici a úlohy poznámkového bloku vyžadují mapu klíčových hodnot.
Název pole | Typ | Popis |
---|---|---|
jar_params |
Pole STRING |
list
parameters pro úlohy s úlohami Spark JAR, například "jar_params": ["john doe", "35"] .
parameters se použije k vyvolání hlavní funkce hlavní třídy zadané v úloze Spark JAR. Pokud není zadáno při run-now , výchozí hodnotou bude prázdný list. jar_params nelze zadat ve spojení s notebook_params. Reprezentace json tohoto pole (tj. {"jar_params":["john doe","35"]} ) nesmí překročit 10 000 bajtů.Použijte Co je odkaz na dynamickou hodnotu? k setparameters obsahující informace o spuštění úloh. |
notebook_params |
Mapa města ParamPair | Mapa od klíčů k values pro úlohy sešitových poznámek, např."notebook_params": {"name": "john doe", "age": "35"} . Mapa se přenáší do poznámkového bloku a je přístupná prostřednictvím funkce dbutils.widgets.get.Pokud není při run-now zadáno, spuštěný běh používá jako základ úlohu parameters.notebook_params nelze zadat ve spojení s jar_params. Použijte Co je odkaz na dynamickou hodnotu? k setparameters obsahující informace o spuštění úloh. Reprezentace tohoto pole ve formátu JSON (tj. {"notebook_params":{"name":"john doe","age":"35"}} ) nesmí překročit 10 000 bajtů. |
python_params |
Pole STRING |
list
parameters pro práce s Pythonem, například "python_params": ["john doe", "35"] .
parameters se předávají Pythonovému souboru jako příkazové řádky parameters. Pokud je zadáno u run-now , přepíše to parameters zadané v nastavení úlohy. Reprezentace json tohoto pole (tj. {"python_params":["john doe","35"]} ) nesmí překročit 10 000 bajtů.Použijte Co je odkaz na dynamickou hodnotu? k setparameters obsahující informace o spuštění úloh. Tyto parameters přijímají pouze znaky latinky (znak ASCII set). Použití znaků jiného typu než ASCII vrátí chybu. Příklady neplatných znaků, které nejsou ASCII, jsou čínské, japonské kanji a emoji. |
spark_submit_params |
Pole STRING |
list
parameters pro úlohy s úkolem Spark Submit, např."spark_submit_params": ["--class", "org.apache.spark.examples.SparkPi"] .
parameters se předá skriptu spark-submit jako parameterspříkazového řádku . Pokud je zadáno u run-now , přepíše to parameters zadané v nastavení úlohy. Reprezentace json tohoto pole (tj. {"python_params":["john doe","35"]} ) nesmí překročit 10 000 bajtů.Použijte Co je odkaz na dynamickou hodnotu? k setparameters obsahující informace o spuštění úloh. Tyto parameters přijímají pouze znaky latinky (znak ASCII set). Použití znaků jiného typu než ASCII vrátí chybu. Příklady neplatných znaků, které nejsou ASCII, jsou čínské, japonské kanji a emoji. |
RunResultState
Stav výsledku spuštění.
- Pokud
life_cycle_state
=TERMINATED
: Pokud spuštění mělo úlohu, je zaručeno, že bude k dispozici výsledek a indikuje výsledek úkolu. -
life_cycle_state
Pokud =PENDING
RUNNING
není stav výsledku , neboSKIPPED
není k dispozici. - Pokud
life_cycle_state
=TERMINATING
nebo životní cyklus =INTERNAL_ERROR
: stav výsledku je k dispozici, pokud má spuštění úlohu a podařilo se ji spustit.
Jakmile bude výsledek dostupný, stav výsledku se nikdy nezmění.
Stát | Popis |
---|---|
SUCCESS |
Úkol byl úspěšně dokončen. |
FAILED |
Úkol byl dokončen s chybou. |
TIMEDOUT |
Spuštění se zastavilo po dosažení časového limitu. |
CANCELED |
Spuštění bylo zrušeno na žádost uživatele. |
Spustit stav
Název pole | Typ | Popis |
---|---|---|
life_cycle_state |
RunLifeCycleState | Popis aktuálního umístění spuštění v životním cyklu spuštění. Toto pole je vždy k dispozici v odpovědi. |
result_state |
RunResultState | Stav výsledku spuštění. Pokud není k dispozici, odpověď toto pole nebude obsahovat. Podrobnosti o dostupnosti result_state najdete v tématu RunResultState . |
user_cancelled_or_timedout |
BOOLEAN |
Jestli byl spuštění zrušen ručně uživatelem nebo plánovačem, protože vypršel časový limit běhu. |
state_message |
STRING |
Popisná zpráva pro aktuální stav Toto pole je nestrukturované a jeho přesný formát se může změnit. |
SparkConfPair
Dvojice klíč-hodnota konfigurace Sparku
Typ | Popis |
---|---|
STRING |
Název vlastnosti konfigurace. |
STRING |
Hodnota vlastnosti konfigurace. |
SparkEnvPair
Páry klíč-hodnota proměnné prostředí Sparku
Důležité
Při zadávání proměnných prostředí v clusteru úloh přijímají pole v této datové struktuře pouze znaky latinky (znak ASCII set). Použití znaků jiného typu než ASCII vrátí chybu. Příklady neplatných znaků, které nejsou ASCII, jsou čínské, japonské kanji a emoji.
Typ | Popis |
---|---|
STRING |
Název proměnné prostředí. |
STRING |
Hodnota proměnné prostředí. |
SparkJarTask
Název pole | Typ | Popis |
---|---|---|
jar_uri |
STRING |
Zastaralé od 4. 4. 2016.
jar Místo toho zadejte pole.libraries Příklad najdete v tématu Vytvoření. |
main_class_name |
STRING |
Úplný název třídy obsahující hlavní metodu, která se má provést. Tato třída musí být obsažena v souboru JAR poskytnutém jako knihovna. Kód by měl použít SparkContext.getOrCreate k získání kontextu Sparku. Jinak se spuštění úlohy nezdaří. |
parameters |
Pole STRING |
Parameters byl předán hlavní metodě. Použijte Co je odkaz na dynamickou hodnotu? k setparameters obsahující informace o spuštění úloh. |
SparkPythonTask
Název pole | Typ | Popis |
---|---|---|
python_file |
STRING |
Identifikátor URI souboru Pythonu, který se má spustit. Podporované jsou cesty DBFS. Toto pole je povinné. |
parameters |
Pole STRING |
Příkazový řádek parameters předán do souboru Pythonu. Použijte Co je odkaz na dynamickou hodnotu? k setparameters obsahující informace o spuštění úloh. |
SparkSubmitTask
Důležité
- Úlohy odesílání Sparku můžete vyvolat pouze v nových clusterech.
- Ve specifikaci
libraries
new_cluster aspark_conf
nejsou podporované. Místo toho použijte--jars
a--py-files
k přidání knihoven Java a Pythonu a--conf
pro set konfiguraci Sparku. -
master
,deploy-mode
aexecutor-cores
automaticky konfiguruje Azure Databricks; nelze je zadat v parameters. - Úloha odeslání Sparku ve výchozím nastavení používá veškerou dostupnou paměť (s výjimkou rezervované paměti pro služby Azure Databricks). Můžete set,
--driver-memory
a--executor-memory
nastavit na menší hodnotu, aby zbylo místo pro použití mimo haldu. - Argumenty
--jars
,--py-files
--files
podporují cesty DBFS.
Například za předpokladu, že se soubor JAR nahraje do dbFS, můžete spustit SparkPi
nastavením následujícího parameters.
{
"parameters": [
"--class",
"org.apache.spark.examples.SparkPi",
"dbfs:/path/to/examples.jar",
"10"
]
}
Název pole | Typ | Popis |
---|---|---|
parameters |
Pole STRING |
Příkazový řádek parameters předán příkazu spark submit. Použijte Co je odkaz na dynamickou hodnotu? k setparameters obsahující informace o spuštění úloh. |
Typ triggeru
Jedná se o typ triggerů, které můžou spustit spuštění.
Typ | Popis |
---|---|
PERIODIC |
Naplánuje pravidelné spouštění, jako je plánovač cron. |
ONE_TIME |
Jednou se aktivuje, že se aktivuje jedno spuštění. K tomu dojde, když jste aktivovali jedno spuštění na vyžádání prostřednictvím uživatelského rozhraní nebo rozhraní API. |
RETRY |
Označuje spuštění, které se aktivuje jako opakování dříve neúspěšného spuštění. K tomu dochází, když v případě selhání požádáte o opětovné spuštění úlohy. |
ViewItem
Exportovaný obsah je ve formátu HTML. Pokud je například zobrazení pro export řídicí panely, vrátí se pro každý řídicí panel jeden řetězec HTML.
Název pole | Typ | Popis |
---|---|---|
content |
STRING |
Obsah zobrazení |
name |
STRING |
Název položky zobrazení V případě zobrazení kódu je název poznámkového bloku. V případě zobrazení řídicího panelu je název řídicího panelu. |
type |
Typ zobrazení | Typ položky zobrazení |
Typ zobrazení
Typ | Popis |
---|---|
NOTEBOOK |
Položka zobrazení poznámkového bloku |
DASHBOARD |
Položka zobrazení řídicího panelu |
ViewsToExport
Zobrazení k exportu: kód, všechny řídicí panely nebo všechny.
Typ | Popis |
---|---|
CODE |
Zobrazení kódu poznámkového bloku |
DASHBOARDS |
Všechny dashboardy views notebooku. |
ALL |
Všechny views poznámkového bloku. |
Webhook
Název pole | Typ | Popis |
---|---|---|
id |
STRING |
Identifier odkaz na cíl systémových oznámení. Toto pole je povinné. |
WebhookNotifications
WorkspaceStorageInfo
Informace o úložišti pracovního prostoru
Název pole | Typ | Popis |
---|---|---|
destination |
STRING |
Místo určení souboru. Příklad: /Users/someone@domain.com/init_script.sh |