Verbinding maken met StreamSets
Belangrijk
Deze functie is beschikbaar als openbare preview.
StreamSets helpt u bij het beheren en bewaken van uw gegevensstroom gedurende de gehele levenscyclus. Dankzij de systeemeigen integratie van StreamSets met Azure Databricks en Delta Lake kunt u eenvoudig gegevens ophalen uit verschillende bronnen en uw pijplijnen beheren.
Bekijk de volgende YouTube-video (10 minuten) voor een algemene demonstratie van StreamSets.
Hier volgen de stappen voor het gebruik van StreamSets met Azure Databricks.
Stap 1: Een persoonlijk databricks-toegangstoken genereren
StreamSets verifieert met Azure Databricks met behulp van een persoonlijk toegangstoken van Azure Databricks.
Notitie
Als best practice voor beveiliging, wanneer u zich verifieert met geautomatiseerde hulpprogramma's, systemen, scripts en apps, raadt Databricks u aan om persoonlijke toegangstokens te gebruiken die behoren tot service-principals in plaats van werkruimtegebruikers. Zie Tokens voor een service-principal beheren om tokens voor service-principals te maken.
Stap 2: Een cluster instellen ter ondersteuning van integratiebehoeften
StreamSets schrijft gegevens naar een Azure Data Lake Storage-pad en het Azure Databricks-integratiecluster leest gegevens van die locatie. Daarom vereist het integratiecluster beveiligde toegang tot het Azure Data Lake Storage-pad.
Beveiligde toegang tot een Azure Data Lake Storage-pad
Als u de toegang tot gegevens in Azure Data Lake Storage (ADLS) wilt beveiligen, kunt u een toegangssleutel voor een Azure-opslagaccount (aanbevolen) of een Service-principal voor Microsoft Entra ID gebruiken.
Een toegangssleutel voor een Azure-opslagaccount gebruiken
U kunt een toegangssleutel voor een opslagaccount configureren in het integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat het opslagaccount toegang heeft tot de ADLS-container en het bestandssysteem dat wordt gebruikt voor faseringsgegevens en de ADLS-container en het bestandssysteem waar u de Delta Lake-tabellen wilt schrijven. Als u het integratiecluster wilt configureren voor het gebruik van de sleutel, volgt u de stappen in Verbinding maken met Azure Data Lake Storage Gen2 en Blob Storage.
Een Microsoft Entra ID-service-principal gebruiken
U kunt een service-principal configureren in het Azure Databricks-integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat de service-principal toegang heeft tot de ADLS-container die wordt gebruikt voor faseringsgegevens en de ADLS-container waar u de Delta-tabellen wilt schrijven. Als u het integratiecluster wilt configureren voor het gebruik van de service-principal, volgt u de stappen in Access ADLS Gen2 met een service-principal.
De clusterconfiguratie opgeven
Stel de clustermodus in op Standard.
Stel databricks Runtime-versie in op Runtime: 6.3 of hoger.
Geoptimaliseerde schrijfbewerkingen en automatische compressie inschakelen door de volgende eigenschappen toe te voegen aan uw Spark-configuratie:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
Configureer uw cluster, afhankelijk van uw integratie- en schaalbehoeften.
Zie de referentie voor compute-configuratie voor meer informatie over de clusterconfiguratie.
Zie Verbindingsgegevens ophalen voor een Azure Databricks-rekenresource voor de stappen voor het verkrijgen van de JDBC-URL en het HTTP-pad.
Stap 3: JDBC- en ODBC-verbindingsgegevens verkrijgen om verbinding te maken met een cluster
Als u een Azure Databricks-cluster wilt verbinden met StreamSets, hebt u de volgende eigenschappen van de JDBC-/ODBC-verbinding nodig:
- JDBC-URL
- HTTP-pad
Stap 4: StreamSets ophalen voor Azure Databricks
Meld u aan voor StreamSets voor Databricks als u nog geen StreamSets-account hebt. U kunt gratis aan de slag en upgraden wanneer u klaar bent; zie prijzen voor StreamSets DataOps Platform.
Stap 5: Meer informatie over het gebruik van StreamSets om gegevens te laden in Delta Lake
Begin met een voorbeeldpijplijn of bekijk StreamSets-oplossingen voor meer informatie over het bouwen van een pijplijn die gegevens opneemt in Delta Lake.