Connettersi a Infoworks

Articolo
11/05/2024

Importante

Questa funzionalità è disponibile in anteprima pubblica.

Infoworks DataFoundry è un sistema automatizzato di operazioni e orchestrazione dei dati aziendali che viene eseguito in modo nativo in Azure Databricks e sfrutta la massima potenza di Azure Databricks per offrire una soluzione semplice per l'onboarding dei dati, un importante primo passaggio per rendere operativo il data lake. DataFoundry non solo automatizza l'inserimento dei dati, ma automatizza anche la funzionalità chiave che deve accompagnare l'inserimento per stabilire una base per l'analisi. L'onboarding dei dati con DataFoundry automatizza:

Inserimento dati: da tutte le origini dati aziendali ed esterne
Sincronizzazione dei dati: CDC per mantenere sincronizzati i dati con l'origine
Governance dei dati: catalogazione, derivazione, gestione dei metadati, controllo e cronologia

Ecco i passaggi per l'uso di Infoworks con Azure Databricks.

Passaggio 1: Generare un token di accesso personale di Databricks

Infoworks esegue l'autenticazione con Azure Databricks usando un token di accesso personale di Azure Databricks.

Nota

Come procedura consigliata per la sicurezza, quando si esegue l'autenticazione con strumenti automatizzati, sistemi, script e app, Databricks consiglia di usare token di accesso personali appartenenti alle entità servizio, anziché agli utenti dell'area di lavoro. Per creare token per le entità servizio, consultare Gestire i token per un'entità servizio.

Passaggio 2: Configurare un cluster per supportare le esigenze di integrazione

Infoworks scriverà i dati in un percorso di Azure Data Lake Storage e il cluster di integrazione di Azure Databricks leggerà i dati da tale posizione. Di conseguenza, il cluster di integrazione richiede l'accesso sicuro al percorso di Azure Data Lake Storage.

Proteggere l'accesso a un percorso di Azure Data Lake Storage

Per proteggere l'accesso ai dati in Azure Data Lake Storage (ADLS), è possibile usare una chiave di accesso dell'account di archiviazione di Azure (scelta consigliata) o un'entità servizio Microsoft Entra ID.

Usare una chiave di accesso dell'account di archiviazione di Azure

È possibile configurare una chiave di accesso dell'account di archiviazione nel cluster di integrazione come parte della configurazione di Spark. Assicurarsi che l'account di archiviazione abbia accesso al contenitore ADLS e al file system usato per la gestione temporanea dei dati e il contenitore ADLS e il file system in cui si vogliono scrivere le tabelle Delta Lake. Per configurare il cluster di integrazione per l'uso della chiave, seguire la procedura descritta in Connettersi ad Azure Data Lake Storage Gen2 e archiviazione BLOB.

Usare un'entità servizio Microsoft Entra ID

È possibile configurare un'entità servizio nel cluster di integrazione di Azure Databricks come parte della configurazione di Spark. Assicurarsi che l'entità servizio abbia accesso al contenitore ADLS usato per i dati di staging e al contenitore ADLS in cui si vogliono scrivere le tabelle Delta. Per configurare il cluster di integrazione per l'uso dell'entità servizio, seguire la procedura descritta in Access ADLS Gen2 con l'entità servizio.

Specificare la configurazione del cluster

Impostare Modalità cluster su Standard.
Impostare La versione di Databricks Runtime su una versione del runtime di Databricks.
Abilitare operazioni di scrittura ottimizzate e compattazione automatica aggiungendo le proprietà seguenti alla configurazione di Spark:
```
spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true
```
Configurare il cluster in base alle esigenze di integrazione e scalabilità.

Per informazioni dettagliate sulla configurazione del cluster, vedere Informazioni di riferimento sulla configurazione del calcolo.

Vedere Ottenere i dettagli della connessione per una risorsa di calcolo di Azure Databricks per la procedura per ottenere l'URL JDBC e il percorso HTTP.

Passaggio 3: Ottenere i dettagli di connessione JDBC e ODBC per connettersi a un cluster

Per connettere un cluster Azure Databricks a Infoworks, sono necessarie le proprietà di connessione JDBC/ODBC seguenti:

JDBC URL
HTTP Path

Passaggio 4: Ottenere Infoworks per Azure Databricks

Passare a Infoworks per altre informazioni e ottenere una demo.

Risorse aggiuntive

Supporto tecnico

Condividi tramite

Connettersi a Infoworks

Passaggio 1: Generare un token di accesso personale di Databricks

Passaggio 2: Configurare un cluster per supportare le esigenze di integrazione

Proteggere l'accesso a un percorso di Azure Data Lake Storage

Usare una chiave di accesso dell'account di archiviazione di Azure

Usare un'entità servizio Microsoft Entra ID

Specificare la configurazione del cluster

Passaggio 3: Ottenere i dettagli di connessione JDBC e ODBC per connettersi a un cluster

Passaggio 4: Ottenere Infoworks per Azure Databricks

Risorse aggiuntive

Commenti e suggerimenti

Risorse aggiuntive