Ansluta till Qlik-replikering
Viktigt!
Den här funktionen finns som allmänt tillgänglig förhandsversion.
Qlik-replikering hjälper dig att hämta data från flera datakällor (Oracle, Microsoft SQL Server, SAP, stordator med mera) till Delta Lake. Med Replikeringens automatiserade insamling av ändringsdata (CDC) kan du undvika att extrahera data manuellt, överföra med hjälp av ett API-skript, hugga, mellanlagring och importera. Qlik Compose automatiserar CDC till Delta Lake.
Kommentar
Information om Qlik Sense, en lösning som hjälper dig att analysera data i Delta Lake, finns i Ansluta till Qlik Sense.
För en allmän demonstration av Qlik Replikera replikera, titta på följande YouTube-video (14 minuter).
En demonstration av datapipelines med Qlik-replikering finns i följande YouTube-video (6 minuter).
Här följer stegen för att använda Qlik-replikering med Azure Databricks.
Steg 1: Generate en personlig Databricks-åtkomsttoken
Qlik Replicate autentiserar med Azure Databricks med en personlig åtkomsttoken för Azure Databricks.
Kommentar
När du autentiserar med automatiserade verktyg, system, skript och appar rekommenderar Databricks att du använder personliga åtkomsttoken som tillhör tjänstens huvudnamn i stället för arbetsyteanvändare. Information om hur du skapar token för tjänstens huvudnamn finns i Hantera token för tjänstens huvudnamn.
steg 2: Set upp ett kluster för att stödja integreringsbehov
Qlik Replicate skriver data till en Azure Data Lake Storage-sökväg och Azure Databricks-integreringsklustret läser data från den platsen. Därför kräver integreringsklustret säker åtkomst till Azure Data Lake Storage-sökvägen.
Säker åtkomst till en Azure Data Lake Storage-sökväg
För att skydda åtkomsten till data i Azure Data Lake Storage (ADLS) kan du använda en Åtkomstnyckel för Azure-lagringskonto (rekommenderas) eller ett Microsoft Entra ID-tjänsthuvudnamn.
Använda åtkomstnyckeln för ett Azure Storage-konto
Du kan konfigurera en åtkomstnyckel för lagringskontot i integrationsklustret som en del av Spark-konfigurationen. Kontrollera att lagringskontot har åtkomst till ADLS-containern och filsystemet som används för att mellanlagra data samt till ADLS-containern och filsystemet where där du vill skriva till Delta Lake tables. Följ stegen i Anslut till Azure Data Lake Storage Gen2 och Blob Storage för att konfigurera integreringsklustret att använda nyckeln.
Använda tjänstens huvudnamn för Microsoft Entra-ID
Du kan konfigurera ett huvudnamn för tjänsten i Azure Databricks-integreringsklustret som en del av Spark-konfigurationen. Kontrollera att autentiseringsinformationen för tjänsten har åtkomst till den ADLS-container som används för mellanlagring av data och till ADLS-containern where där du vill skriva Delta-objektet tables. Följ stegen i Access ADLS Gen2 med tjänstens huvudnamn för att konfigurera integreringsklustret att använda tjänstens huvudnamn.
Ange klusterkonfigurationen
Set klusterläge till Standard.
Set Databricks Runtime Version till en Databricks-körningsversion.
Aktivera optimerade skrivningar och automatisk komprimering genom att lägga till följande egenskaper i Spark-konfigurationen:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
Konfigurera klustret beroende på dina integrerings- och skalningsbehov.
Information om klusterkonfiguration finns i Referens för beräkningskonfiguration.
Se Get anslutningsinformation för en Azure Databricks-beräkningsresurs för stegen för att hämta JDBC-URL:en och HTTP-sökvägen.
Steg 3: Hämta JDBC- och ODBC-anslutningsinformation för att ansluta till ett kluster
För att ansluta ett Azure Databricks-kluster till Qlik-replikering behöver du följande JDBC/ODBC-anslutningsegenskaper:
- JDBC-URL
- HTTP-sökväg
Steg 4: Konfigurera Qlik-replikera med Azure Databricks
Gå till Qlik-inloggningssidan och följ anvisningarna.