Scheda di riferimento rapido sulla pianificazione dei processi di produzione
Questo articolo mira a fornire indicazioni chiare e di opinione per la pianificazione dei processi di produzione. L'uso delle procedure consigliate consente di ridurre i costi, migliorare le prestazioni e rafforzare la sicurezza.
Procedure consigliate | Impatto | Documenti |
---|---|---|
Usare cluster di processi per flussi di lavoro automatizzati | Costo: i cluster di processi vengono fatturati a tariffe inferiori rispetto ai cluster interattivi. |
-
Creare un cluster - Cluster di processi e cluster di uso generico. |
Riavviare i cluster con esecuzione prolungata | Sicurezza: riavviare i cluster per sfruttare le patch e le correzioni di bug in Databricks Runtime. | - Riavviare il cluster per aggiornarlo con le immagini più recenti |
Usare le entità servizio anziché gli account utente per eseguire processi di produzione | Sicurezza: se i processi sono di proprietà di singoli utenti, quando gli utenti lasciano l'organizzazione, questi processi potrebbero interrompere l'esecuzione. | - Gestire le entità servizio |
Usare i processi di Databricks per l'orchestrazione quando possibile | Costo: non è necessario usare strumenti esterni per orchestrare se si orchestrano solo i carichi di lavoro in Azure Databricks. | - Panoramica dell'orchestrazione in Databricks |
Usare la versione LTS più recente di Databricks Runtime | Prestazioni e costi: Azure Databricks migliora sempre Databricks Runtime per l'usabilità, le prestazioni e la sicurezza. |
-
Calcolo - Cicli di vita del supporto di Databricks |
Non archiviare i dati di produzione nella radice DBFS | Sicurezza: quando i dati vengono archiviati nella radice DBFS, tutti gli utenti possono accedervi. |
-
Che cos'è DBFS? - Consigli per l'uso della radice DBFS |