Connettersi a StreamSet
Importante
Questa funzionalità è disponibile in anteprima pubblica.
StreamSets consente di gestire e monitorare il flusso di dati durante tutto il ciclo di vita. L'integrazione nativa di StreamSet con Azure Databricks e Delta Lake consente di eseguire facilmente il pull dei dati da varie origini e gestire le pipeline.
Per una dimostrazione generale di StreamSets, guardare il video di YouTube seguente (10 minuti).
Ecco i passaggi per l'uso di StreamSets con Azure Databricks.
Passaggio 1: Generare un token di accesso personale di Databricks
StreamSets esegue l'autenticazione con Azure Databricks usando un token di accesso personale di Azure Databricks.
Nota
Come procedura consigliata per la sicurezza, quando si esegue l'autenticazione con strumenti automatizzati, sistemi, script e app, Databricks consiglia di usare token di accesso personali appartenenti alle entità servizio, anziché agli utenti dell'area di lavoro. Per creare token per le entità servizio, consultare Gestire i token per un'entità servizio.
Passaggio 2: Configurare un cluster per supportare le esigenze di integrazione
StreamSet scriverà i dati in un percorso di Azure Data Lake Storage e il cluster di integrazione di Azure Databricks leggerà i dati da tale posizione. Di conseguenza, il cluster di integrazione richiede l'accesso sicuro al percorso di Azure Data Lake Storage.
Proteggere l'accesso a un percorso di Azure Data Lake Storage
Per proteggere l'accesso ai dati in Azure Data Lake Storage (ADLS), è possibile usare una chiave di accesso dell'account di archiviazione di Azure (scelta consigliata) o un'entità servizio Microsoft Entra ID.
Usare una chiave di accesso dell'account di archiviazione di Azure
È possibile configurare una chiave di accesso dell'account di archiviazione nel cluster di integrazione come parte della configurazione di Spark. Assicurarsi che l'account di archiviazione abbia accesso al contenitore e al file system ADLS usati per la gestione temporanea dei dati e al contenitore e al file system ADLS in cui si vogliono scrivere le tabelle Delta Lake. Per configurare il cluster di integrazione per l'uso della chiave, seguire la procedura descritta in Connettersi ad Azure Data Lake Storage Gen2 e archiviazione BLOB.
Usare un'entità servizio Microsoft Entra ID
È possibile configurare un'entità servizio nel cluster di integrazione di Azure Databricks come parte della configurazione di Spark. Assicurarsi che l'entità servizio abbia accesso al contenitore ADLS usato per i dati di staging e al contenitore ADLS in cui si vogliono scrivere le tabelle Delta. Per configurare il cluster di integrazione per l'uso dell'entità servizio, seguire la procedura descritta in Access ADLS Gen2 con l'entità servizio.
Specificare la configurazione del cluster
Impostare
modalità cluster su standard .Impostare versione di Databricks Runtime su Runtime: 6.3 o versione successiva.
Abilitare operazioni di scrittura ottimizzate e compattazione automatica aggiungendo le proprietà seguenti alla configurazione di Spark:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
Configurare il cluster in base alle esigenze di integrazione e scalabilità.
Per informazioni dettagliate sulla configurazione del cluster, vedere Informazioni di riferimento sulla configurazione del calcolo.
Consultare per ottenere i dettagli della connessione per una risorsa di calcolo di Azure Databricks, in cui sono indicati i passaggi per ottenere l'URL JDBC e il percorso HTTP.
Passaggio 3: Ottenere i dettagli di connessione JDBC e ODBC per connettersi a un cluster
Per connettere un cluster di Azure Databricks a StreamSet, sono necessarie le proprietà di connessione JDBC/ODBC seguenti:
- JDBC URL
- HTTP Path
Passaggio 4: Acquisire StreamSets per Azure Databricks
Iscriversi a StreamSets per Databricks, se non si ha già un account StreamSets. È possibile iniziare gratuitamente e aggiornare quando si è pronti; consulta StreamSets DataOps Platform Pricing.
Passaggio 5: Informazioni su come usare StreamSets per caricare dati in Delta Lake
Iniziare con una pipeline di esempio o consultare le soluzioni StreamSets per informazioni su come creare una pipeline che inserisce dati in Delta Lake.