Condividi tramite


Assegnare risorse di calcolo a un gruppo

Importante

Questa funzionalità è in Anteprima Pubblica.

Questo articolo illustra come creare una risorsa di calcolo assegnata a un gruppo utilizzando la modalità di accesso dedicata.

La modalità di accesso ai gruppi dedicati consente agli utenti di ottenere l'efficienza operativa di un cluster in modalità di accesso standard, supportando in modo sicuro anche linguaggi e carichi di lavoro non supportati dalla modalità di accesso standard, ad esempio Databricks Runtime per ML, Spark Machine Learning Library (MLlib), API RDD e R.

Abilitando l'anteprima pubblica del cluster del gruppo dedicato, l'area di lavoro avrà accesso anche alla nuova interfaccia utente di calcolo semplificata. Questa nuova interfaccia utente aggiorna i nomi delle modalità di accesso e semplifica le impostazioni di calcolo. Consultare Utilizzare il modulo semplice per gestire il calcolo.

Requisiti

Per usare la modalità di accesso al gruppo dedicato:

  • Un amministratore dell'area di lavoro deve abilitare l'anteprima di Compute: Cluster di gruppi dedicati utilizzando l'interfaccia utente delle anteprime. Vedi Gestire le anteprime di Azure Databricks.
  • L'area di lavoro deve essere abilitata per Unity Catalog.
  • È necessario usare Databricks Runtime 15.4 o versione successiva.
  • Il gruppo assegnato deve disporre di autorizzazioni CAN MANAGE per una cartella dell'area di lavoro in cui è possibile conservare notebook, esperimenti di Machine Learning e altri artefatti dell'area di lavoro usati dal cluster di gruppo.

Che cos'è la modalità di accesso dedicato?

La modalità di accesso dedicato è la versione più recente della modalità di accesso utente singolo. Con l'accesso dedicato, una risorsa di calcolo può essere assegnata a un singolo utente o gruppo, consentendo solo agli utenti assegnati di accedere all'uso della risorsa di calcolo.

Quando un utente è connesso a una risorsa di calcolo dedicata a un gruppo (un cluster di gruppo), le autorizzazioni dell'utente si sottoscrivono automaticamente alle autorizzazioni del gruppo, consentendo all'utente di condividere in modo sicuro la risorsa con gli altri membri del gruppo.

Creare una risorsa di calcolo dedicata a un gruppo

  1. Nell'area di lavoro di Azure Databricks, vai a Calcolo e fai clic su Crea un calcolo.
  2. Espandi la sezione avanzata .
  3. In modalità di accesso, fare clic su Manuale e quindi selezionare Dedicato (in precedenza: Utente singolo) dal menu a discesa.
  4. Nel campo utente singolo o gruppo selezionare il gruppo che si vuole assegnare a questa risorsa.
  5. Configurare le altre impostazioni di calcolo desiderate e quindi fare clic su Crea.

Procedure consigliate per la gestione dei cluster di gruppo

Poiché le autorizzazioni utente sono limitate al gruppo quando si usano cluster di gruppo, Databricks consiglia di creare una cartella /Workspace/Groups/<groupName> per ogni gruppo che si intende utilizzare con un cluster di gruppo. Assegnare quindi al gruppo le autorizzazioni CAN MANAGE sulla cartella. Ciò consente ai gruppi di evitare errori di autorizzazione. Tutti i notebook e gli asset dell'area di lavoro del gruppo devono essere gestiti nella cartella del gruppo.

È anche necessario modificare i carichi di lavoro seguenti per l'esecuzione nei cluster di gruppo:

  • MLflow: Assicurati di eseguire il notebook dalla cartella del gruppo o di eseguire mlflow.set_tracking_uri("/Workspace/Groups/<groupName>").
  • AutoML: impostare il parametro experiment_dir facoltativo su “/Workspace/Groups/<groupName>” per le esecuzioni autoML.
  • dbutils.notebook.run: verificare che il gruppo disponga dell'autorizzazione READ per il notebook in esecuzione.

Autorizzazioni di gruppo di esempio

Quando si crea un oggetto dati usando il cluster di gruppo, il gruppo viene assegnato come proprietario dell'oggetto.

Ad esempio, se si dispone di un notebook collegato a un cluster del gruppo ed esegui il comando seguente:

use catalog main;
create schema group_cluster_group_schema;

Eseguire quindi questa query per controllare il proprietario dello schema:

describe schema group_cluster_group_schema;

Descrizione di esempio dello schema di gruppo

gruppo di controllo dedicato alle attività di calcolo

Esistono due identità chiave coinvolte quando un cluster di gruppo esegue un carico di lavoro:

  1. L'utente che esegue il workload nel cluster del gruppo
  2. Gruppo le cui autorizzazioni vengono usate per eseguire le azioni effettive del carico di lavoro

La tabella di sistema del registro di controllo registra queste identità sotto i seguenti parametri:

  • identity_metadata.run_by: L'utente autenticato che esegue l'azione
  • identity_metadata.run_as: Il gruppo autorizzativo i cui permessi vengono utilizzati nell'azione.

La seguente query di esempio recupera i metadati di identità per un'azione eseguita con il cluster di gruppo.

select action_name, event_time, user_identity.email, identity_metadata
from system.access.audit
where user_identity.email = "uc-group-cluster-group" AND service_name = "unityCatalog"
order by event_time desc limit 100;

Consulta la tabella di riferimento del sistema di log di controllo per altre query di esempio. Vedere riferimento alla tabella del sistema di log di controllo.

Problemi noti

  • I file e le cartelle dell'area di lavoro creati a partire da cluster di gruppo determinano che il proprietario dell'oggetto assegnato sia Unknown. In questo modo, le operazioni successive su tali oggetti, ad esempio read, writee delete, hanno esito negativo con errori di autorizzazione negata.

Limitazioni

L'anteprima pubblica della modalità di accesso al gruppo dedicato presenta le limitazioni note seguenti:

  • Le tabelle di sistema di tracciamento non registrano le identità degli utenti identity_metadata.run_as (il gruppo di autorizzazione) o identity_metadata.run_by (l'utente che autentica) per i carichi di lavoro in esecuzione su un cluster di gruppo.
  • I log di controllo recapitati all'archiviazione dei clienti non registrano le identità identity_metadata.run_as (il gruppo autorizzante) o identity_metadata.run_by (l'utente autenticante) per i carichi di lavoro in esecuzione su un cluster di gruppo. È necessario usare la tabella system.access.audit per visualizzare i metadati di identità.
  • Se collegato a un cluster di gruppo, Esplora cataloghi non filtra in base agli asset accessibili solo al gruppo.
  • I gestori di gruppi che non sono membri del gruppo non possono creare, modificare o eliminare cluster di gruppo. Solo gli amministratori dell'area di lavoro e i membri del gruppo possono farlo.
  • Se un gruppo viene rinominato, è necessario aggiornare manualmente tutti i criteri di calcolo che fanno riferimento al nome del gruppo.
  • I cluster di gruppo non sono supportati per le aree di lavoro con ACL disabilitati (isWorkspaceAclsEnabled == false) a causa della mancanza intrinseca di controlli di sicurezza e accesso ai dati quando gli ACL dell'area di lavoro sono disabilitati.
  • Il comando %run usa attualmente le autorizzazioni dell'utente anziché le autorizzazioni del gruppo quando viene eseguito in un cluster di gruppo. Alternative come dbutils.notebook.run() utilizzano correttamente le autorizzazioni del gruppo.