Connettersi a Syncsort
Importante
Questa funzionalità è disponibile in anteprima pubblica.
Syncsort consente di suddividere i silo di dati integrando dati legacy, mainframe e IBM con Azure Databricks. È possibile eseguire facilmente il pull dei dati da queste origini in Delta Lake.
Ecco i passaggi per l'uso di Syncsort con Azure Databricks.
Passaggio 1: Generate un token di accesso personale di Databricks
Syncsort esegue l'autenticazione con Azure Databricks usando un token di accesso personale di Azure Databricks.
Nota
Come procedura consigliata per la sicurezza, quando si esegue l'autenticazione con strumenti automatizzati, sistemi, script e app, Databricks consiglia di usare token di accesso personali appartenenti alle entità servizio, anziché agli utenti dell'area di lavoro. Per creare token per le entità servizio, consultare Gestire i token per un'entità servizio.
passaggio 2: Set configura un cluster per supportare le esigenze di integrazione
Syncsort scriverà i dati in un percorso di Azure Data Lake Storage e il cluster di integrazione di Azure Databricks leggerà i dati da tale posizione. Di conseguenza, il cluster di integrazione richiede l'accesso sicuro al percorso di Azure Data Lake Storage.
Proteggere l'accesso a un percorso di Azure Data Lake Storage
Per proteggere l'accesso ai dati in Azure Data Lake Storage (ADLS), è possibile usare una chiave di accesso dell'account di archiviazione di Azure (scelta consigliata) o un'entità servizio Microsoft Entra ID.
Usare una chiave di accesso dell'account di archiviazione di Azure
È possibile configurare una chiave di accesso dell'account di archiviazione nel cluster di integrazione come parte della configurazione di Spark. Assicurarsi che l'account di archiviazione abbia accesso al contenitore ADLS e al file system usati per l'elaborazione dei dati e al contenitore ADLS e al file system where su cui si vuole scrivere il Delta Lake tables. Per configurare il cluster di integrazione per l'uso della chiave, seguire la procedura descritta in Connettersi ad Azure Data Lake Storage Gen2 e archiviazione BLOB.
Usare un'entità servizio Microsoft Entra ID
È possibile configurare un'entità servizio nel cluster di integrazione di Azure Databricks come parte della configurazione di Spark. Assicurarsi che l'entità servizio abbia accesso al contenitore ADLS utilizzato per lo staging dei dati e al contenitore ADLS where su cui si desidera scrivere il Delta tables. Per configurare il cluster di integrazione per l'uso dell'entità servizio, seguire la procedura descritta in Access ADLS Gen2 con l'entità servizio.
Specificare la configurazione del cluster
Set Modalità Cluster to Standard.
Set Versione di Databricks Runtime a una versione runtime di Databricks.
Abilitare operazioni di scrittura ottimizzate e compattazione automatica aggiungendo le proprietà seguenti alla configurazione di Spark:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
Configurare il cluster in base alle esigenze di integrazione e scalabilità.
Per informazioni dettagliate sulla configurazione del cluster, vedere Informazioni di riferimento sulla configurazione del calcolo.
Consultare Get per i dettagli di connessione di una risorsa di calcolo di Azure Databricks per ottenere l'URL JDBC e il percorso HTTP.
Passaggio 3: Ottenere i dettagli di connessione JDBC e ODBC per connettersi a un cluster
Per connettere un cluster Azure Databricks a Syncsort, sono necessarie le proprietà di connessione JDBC/ODBC seguenti:
- JDBC URL
- HTTP Path
Passaggio 4: Configurare Syncsort con Azure Databricks
Passare alla pagina di accesso di Databricks e Connetti per Big Data e seguire le istruzioni.