Fuskark för schemaläggning av produktionsjobb
Den här artikeln syftar till att ge tydlig och åsiktsorienterad vägledning för schemaläggning av produktionsjobb. Med hjälp av metodtips kan du minska kostnaderna, förbättra prestanda och öka säkerheten.
Metodtips | Påverkan | Dokument |
---|---|---|
Använda jobbkluster för automatiserade arbetsflöden | Kostnad: Jobbkluster faktureras till lägre priser än interaktiva kluster. | - Skapa ett kluster - All-purpose och jobbkluster. |
Starta om långvariga kluster | Säkerhet: Starta om kluster för att dra nytta av korrigeringar och felkorrigeringar i Databricks Runtime. | - Starta om ett kluster för att uppdatera det med de senaste avbildningarna |
Använda tjänstens huvudnamn i stället för användarkonton för att köra produktionsjobb | Säkerhet: Om jobb ägs av enskilda användare kan de här jobben sluta köras när de lämnar organisationen. | - Hantera tjänstens huvudnamn |
Använd Databricks-jobb för orkestrering när det är möjligt | Kostnad: Du behöver inte använda externa verktyg för att orkestrera om du bara orkestrerar arbetsbelastningar i Azure Databricks. | - Schemalägga och samordna arbetsflöden |
Använda den senaste LTS-versionen av Databricks Runtime | Prestanda och kostnad: Azure Databricks förbättrar alltid Databricks Runtime för användbarhet, prestanda och säkerhet. | - Beräkning - Databricks stöder livscykeler |
Lagra inte produktionsdata i DBFS-roten | Säkerhet: När data lagras i DBFS-roten kan alla användare komma åt dem. | - Vad är DBFS? - Rekommendationer för att arbeta med DBFS-rot |