Condividi tramite


Eseguire notebook in ambienti puliti

Questo articolo descrive come eseguire notebook in ambienti puliti. I notebook sono l'interfaccia usata dai collaboratori per eseguire l'analisi dei dati in collaborazione.

Per informazioni su come aggiungere un notebook a un ambiente pulito, vedere Creare ambienti puliti.

Operazioni preliminari

Per eseguire un notebook in un ambiente pulito, è necessario essere:

  • Il proprietario dell’ambiente pulito o chi ha il privilegio EXECUTE CLEAN ROOM TASK per l’ambiente pulito.
  • Un collaboratore che non ha creato il notebook. Il creatore del notebook non può eseguire il notebook. In questo modo viene applicata l'approvazione implicita del notebook da entrambe le parti.

Nota

Il creatore viene assegnato automaticamente come proprietario dell’ambiente pulito nel proprio account Databricks. All'amministratore del metastore dell'organizzazione del collaboratore viene assegnata automaticamente la proprietà dell’ambiente pulito nell'account Databricks. È possibile trasferire la proprietà. Consulta Gestire la proprietà degli oggetti di Unity Catalog.

Eseguire un notebook in un ambiente pulito

Per eseguire un notebook in una stanza pulita, è necessario usare Catalog Explorer.

  1. Nell'area di lavoro di Azure Databricks, fare clic sull'icona CatalogoCatalogo.

  2. Nella parte superiore del riquadro Catalogo, fare clic sull'icona a forma di ingranaggio e selezionare Clean Rooms.

    In alternativa, nella pagina Accesso rapido fare clic sul pulsante Ambiente pulito>.

  3. Selezionare la stanza pulita dall'elenco.

  4. In Notebook fare clic sul notebook per aprirlo in modalità di anteprima.

  5. Fare clic sul pulsante Run (Esegui).

    È possibile eseguire solo i notebook condivisi dall'altro collaboratore.

  6. (Facoltativo) Nella finestra di dialogo Esegui notebook con parametri, fare clic su + Aggiungi per passare i valori dei parametri all'attività del notebook.

  7. Fare clic sulla casella di controllo di conferma.

  8. Fare clic su Esegui.

  9. Fare clic su Visualizza dettagli per visualizzare lo stato di avanzamento dell'esecuzione.

    In alternativa, è possibile visualizzare lo stato dell'esecuzione passando a Esecuzioni in questa pagina o facendo clic su Flussi di lavoro nella barra laterale dell'area di lavoro e passando alla scheda Esecuzioni processo.

  10. Visualizzare i risultati dell'esecuzione del notebook.

    I risultati del notebook vengono visualizzati al termine dell'esecuzione. Per visualizzare le esecuzioni precedenti, passare a Esecuzioni e fare clic sul collegamento nella colonna ora di inizio.

Nota

I parametri cr_creator_input_catalog e cr_collaborator_input_catalog vengono passati automaticamente al notebook della sala pulita in fase di esecuzione. È possibile usare questi parametri per i test locali con tabelle di esempio. Per ulteriori informazioni sui parametri per le attività lavorative, vedere Parametri per le attività lavorative.

Condividere l'output del notebook usando le tabelle di output

Le tabelle di output sono tabelle temporanee di sola lettura generate da un'esecuzione del notebook e condivise nel metastore dello strumento di esecuzione del notebook. Se il notebook crea una tabella di output, l'esecutore del notebook può accedervi in un catalogo di output e condividerli con altri utenti nella loro area di lavoro. Vedere Creare e usare le tabelle di output in Databricks Clean Rooms.

Usare i flussi di lavoro di Azure Databricks per eseguire notebook di clean room

È possibile usare i processi di Azure Databricks per eseguire notebook ed eseguire attività nelle tabelle di output, consentendo di creare flussi di lavoro complessi che coinvolgono gli asset della sala pulita. Queste funzionalità in particolare rendono possibili tali flussi di lavoro:

  • Il tipo di attività notebook Clean Room consente di selezionare ed eseguire un notebook Clean Room come attività di Workflows. Per i processi, vedere Attività notebook di Clean Room.
  • Le esecuzioni di notebook avviate dal flusso di lavoro possono generare tabelle di output a cui possono fare riferimento altre attività del flusso di lavoro. Vedere Creare e usare le tabelle di output in Databricks Clean Rooms.
  • I flussi di lavoro possono usare valori di attività che trasmettono i valori dei parametri del lavoro ai notebook della stanza pulita o acquisiscono l'output di tali notebook e trasferiscono l'output ad altre attività del flusso di lavoro. Fare riferimento a Usare i valori delle attività per passare informazioni tra le attività.
  • Il nome dello schema di output della sala pulita viene generato automaticamente. Se si includono {{tasks.<your_task_name>.output.schema_name}} e {{tasks.<your_task_name>.output.catalog_name}} nei parametri, è possibile fare riferimento a tali valori da un ambiente pulito quando viene eseguito un compito nel notebook downstream. Passa a un'attività del notebook e, sotto Parametri, seleziona i tuoi valori.

Ad esempio, è possibile creare un flusso di lavoro che propaga il nome dello schema di output generato dinamicamente tra le attività, eseguendo le operazioni seguenti:

  1. Creare un'attività di tipo attività Notebook Clean Rooms che esegue un notebook che include l'impostazione del valore dell'attività seguente:

    dbutils.jobs.taskValues.set(key="output_schema", value=dbutils.widgets.get("cr_output_schema"))
    
  2. Creare un'attività successiva che fa riferimento al output_schema valore per elaborare l'output.

Nota

Per partecipare all'anteprima privata per la condivisione di tabelle federate, contattare il rappresentante dell'account Azure Databricks. Vedere Che cos'è Lakehouse Federation?.