Scheda di riferimento rapido sulla creazione del calcolo
Questo articolo mira a fornire indicazioni chiare e di opinione per la creazione ambienti di calcolo. Usando i tipi di calcolo corretti per il flusso di lavoro, è possibile migliorare le prestazioni e risparmiare sui costi.
Procedure consigliate | Impatto | Documenti |
---|---|---|
Se non si ha una versione di Azure Databricks, si può iniziare utilizzando i tipi di istanza generali per tutti gli usi. | La selezione del tipo di istanza appropriato per il carico di lavoro comporta una maggiore efficienza. | - Creare un cluster |
Usare la modalità di accesso condiviso a meno che la funzionalità richiesta non sia supportata | La modalità di ambiente di calcolo con accesso condiviso può essere usata da più utenti con isolamento dei dati tra loro. | - Modalità di accesso |
Usare i tipi di istanza di generazione più recenti se è disponibile una disponibilità sufficiente | La generazione più recente dei tipi di istanza offre le migliori prestazioni e le funzionalità più recenti. | - Tipi di istanza di Azure |
Imposta il bilanciamento tra le istanze on-demand e spot in base a quanto rapidamente hai bisogno che il tuo carico di lavoro venga eseguito. | Le istanze spot risparmiano sui costi, ma possono influire sul tempo di esecuzione complessivo di un'operazione se le istanze spot vengono recuperate. | - Consigli sulla configurazione dell’ambiente di calcolo |
Scegliere le dimensioni dei nodi e il numero di ruoli di lavoro in base ai tipi di operazioni eseguite dal carico di lavoro | Ad esempio, se ci si aspetta un sacco di shuffles, può essere più efficiente usare un nodo singolo di grandi dimensioni anziché più nodi più piccoli. | - Considerazioni sul dimensionamento delle risorse di calcolo |
Eseguire vacuum in un cluster con scalabilità automatica impostata per 1-4 worker, in cui ogni worker ha 8 core. Selezionare un driver con un numero di core compreso tra 8 e 32. Aumentare la dimensione della memoria del driver se si verificano errori di memoria insufficiente. |
Le istruzioni di vuoto si verificano in due fasi, la seconda delle quali richiede molto l'uso del driver. Se non si usa il cluster di dimensioni corrette, l'operazione potrebbe causare un rallentamento e potrebbe non riuscire. |
-
Quale dimensione di cluster è necessaria per il vacuum? - VACUUM procedure consigliate |
Valutare se il flusso di lavoro batch trarrà vantaggio da Photon | Photon offre query più veloci e riduce il costo totale per carico di lavoro. | - Vantaggi di Photon |