Ingegneria dei dati impostazioni di amministrazione dell'area di lavoro in Microsoft Fabric

Articolo
10/25/2024

Si applica a:✅ Ingegneria dei dati e Data Science in Microsoft Fabric

Quando si crea un'area di lavoro in Microsoft Fabric, viene creato automaticamente un pool di avvio associato a tale area di lavoro. Grazie alla configurazione semplificata di Microsoft Fabric, non è necessario scegliere le dimensioni del nodo o del computer, poiché queste opzioni vengono gestite automaticamente in background. Questa configurazione offre un'esperienza di avvio della sessione apache Spark più veloce (da 5 a 10 secondi) per consentire agli utenti di iniziare ed eseguire i processi Apache Spark in molti scenari comuni senza doversi preoccupare della configurazione del calcolo. Per scenari avanzati con requisiti di calcolo specifici, gli utenti possono creare un pool di Apache Spark personalizzato e ridimensionare i nodi in base alle esigenze di prestazioni.

Per apportare modifiche alle impostazioni di Apache Spark in un'area di lavoro, è necessario avere il ruolo di amministratore di tale area di lavoro. Per altre informazioni, vedere Ruoli nelle aree di lavoro.

Per gestire le impostazioni di Spark per il pool associato all'area di lavoro:

Passare alle Impostazioni dell'area di lavoro nell'area di lavoro e scegliere l'opzione Ingegneria dei dati/Data Science per espandere il menu:
L'opzione Calcolo Spark viene visualizzata nel menu a sinistra:

Nota

Se si modifica il pool predefinito da Pool di avvio a un pool di Spark personalizzato, l'avvio della sessione potrebbe risultare più lungo (~3 minuti).

Pool

Pool predefinito per l'area di lavoro

È possibile usare il pool di avvio creato automaticamente o creare pool personalizzati per l'area di lavoro.

Pool di avvio: pool live pre-alimentati creati automaticamente per un'esperienza più veloce. Questi cluster sono di medie dimensioni. Il pool di avvio è impostato su una configurazione predefinita in base allo SKU di capacità Fabric acquistata. Gli amministratori possono personalizzare il numero massimo di nodi ed executor in base ai requisiti di scalabilità del carico di lavoro Spark. Per ulteriori informazioni, vedere Configurare i pool di avvio
Pool di Spark personalizzato: è possibile ridimensionare i nodi, eseguire la scalabilità automatica e allocare dinamicamente gli executor in base ai requisiti del processo Spark. Per creare un pool di Spark personalizzato, l'amministratore della capacità deve abilitare l'opzione Pool di aree di lavoro personalizzati nella sezione Calcolo Spark delle impostazioni di Amministrazione della capacità.

Nota

Il controllo del livello di capacità per i pool di aree di lavoro personalizzati è abilitato per impostazione predefinita. Per altre informazioni, vedere Configurare e gestire le impostazioni di Data Science e Ingegneria dei dati per le capacità di Fabric.

Gli amministratori possono creare pool di Spark personalizzati in base ai requisiti di calcolo selezionando l'opzione Nuovo pool.

Apache Spark per Microsoft Fabric supporta cluster a nodo singolo, che consente agli utenti di selezionare una configurazione minima di 1 nodo, nel qual caso il driver e l'executor vengono eseguiti in un singolo nodo. Questi cluster a nodo singolo offrono disponibilità elevata ripristinabile durante gli errori dei nodi e una migliore affidabilità dei processi per i carichi di lavoro con requisiti di calcolo più piccoli. È anche possibile abilitare o disabilitare l'opzione di scalabilità automatica per i pool di Spark personalizzati. Se la scalabilità automatica è abilitata, il pool acquisisce nuovi nodi entro il limite massimo specificato dall'utente e li ritira dopo l'esecuzione del processo per ottenere prestazioni migliori.

È inoltre possibile selezionare l'opzione di allocazione dinamica degli executor per raggruppare automaticamente il numero ottimale di executor entro il limite massimo specificato in base al volume di dati e ottenere così prestazioni migliori.

Altre informazioni sul calcolo di Apache Spark per Fabric.

Personalizzare la configurazione di calcolo per gli elementi: in qualità di amministratore dell'area di lavoro, è possibile consentire agli utenti di modificare le configurazioni di calcolo (proprietà a livello di sessione che includono Driver/Executor Core, Driver/Executor Memory) per i singoli elementi, ad esempio notebook, definizioni di processi Spark tramite l'Ambiente.

Screenshot che mostra l'opzione di personalizzare il calcolo per gli elementi.

Se l'impostazione è disattivata dall'amministratore dell'area di lavoro, il pool predefinito e le relative configurazioni di calcolo vengono usate per tutti gli ambienti nell'area di lavoro.

Ambiente

L'ambiente offre configurazioni flessibili per l'esecuzione dei processi Spark (notebook, definizioni di processi Spark). In un Ambiente è possibile configurare le proprietà di calcolo, selezionare diversi runtime e impostare le dipendenze dei pacchetti di librerie in base ai requisiti del carico di lavoro.

Nella scheda Ambiente è possibile impostare l'ambiente predefinito. È possibile scegliere la versione di Spark da usare per l'area di lavoro.

In qualità di amministratore dell'area di lavoro Fabric, è possibile selezionare un Ambiente come Ambiente predefinito dell'area di lavoro.

È anche possibile crearne uno nuovo tramite l'elenco a discesa Ambiente.

Se si disabilita l'opzione per avere un ambiente predefinito, è possibile selezionare la versione del runtime di Fabric dalle versioni di runtime disponibili indicate nell'elenco a discesa.

Ulteriori informazioni sui runtime di Apache Spark.

Processi

Le impostazioni dei processi consentono agli amministratori di controllare la logica di ammissione dei processi per tutti i processi Spark nell'area di lavoro.

Per impostazione predefinita, tutte le aree di lavoro sono abilitate con l'ammissione di processo ottimistica. Altre informazioni sull'ammissione di processo per Spark in Microsoft Fabric.

È possibile abilitare riservare i core massimi per i processi Spark attivi per attivare l'approccio basato sull'ammissione dei processi ottimistica e riservare i core massimi per i processi Spark.

È anche possibile impostare il timeout della sessione Spark per personalizzare la scadenza della sessione per tutte le sessioni interattive del notebook.

Nota

La scadenza della sessione predefinita è impostata su 20 minuti per le sessioni spark interattive.

Concorrenza elevata

La modalità di concorrenza elevata consente agli utenti di condividere le stesse sessioni Spark in Apache Spark per carichi di lavoro di ingegneria dei dati e data science di Fabric. Un elemento come un notebook usa una sessione Spark per l'esecuzione e, se la modalità è abilitata, consente agli utenti di condividere una singola sessione Spark su più notebook.

Altre informazioni sulla concorrenza elevata in Apache Spark per Fabric.

Registrazione automatica per modelli e esperimenti di Machine Learning

Gli amministratori possono ora abilitare la registrazione automatica per i modelli e gli esperimenti di Machine Learning. Questa opzione acquisisce automaticamente i valori dei parametri di input, delle metriche di output e degli elementi di output di un modello di Machine Learning durante il training. Altre informazioni sulla registrazione automatica.

Informazioni sui runtime di Apache Spark in Fabric: panoramica, controllo delle versioni, supporto di più runtime e aggiornamento del protocollo Delta Lake.
Per ulteriori informazioni, consultare la documentazione pubblica di Apache Spark.
Risposte alle domande frequenti: Domande frequenti sulle impostazioni di amministrazione dell'area di lavoro Apache Spark.

Condividi tramite

Ingegneria dei dati impostazioni di amministrazione dell'area di lavoro in Microsoft Fabric

Pool

Pool predefinito per l'area di lavoro

Ambiente

Processi

Concorrenza elevata

Registrazione automatica per modelli e esperimenti di Machine Learning

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Ingegneria dei dati impostazioni di amministrazione dell'area di lavoro in Microsoft Fabric

Pool

Pool predefinito per l'area di lavoro

Ambiente

Processi

Concorrenza elevata

Registrazione automatica per modelli e esperimenti di Machine Learning

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive