Udostępnij za pośrednictwem


Nawiązywanie połączenia z usługą Syncsort

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Rozwiązanie Syncsort ułatwia podzielenie silosów danych przez zintegrowanie starszych, komputerów mainframe i danych IBM z usługą Azure Databricks. Możesz łatwo ściągać dane z tych źródeł do usługi Delta Lake.

Poniżej przedstawiono kroki korzystania z usługi Syncsort z usługą Azure Databricks.

Krok 1: Generate token osobistego dostępu Databricks

Usługa Syncsort uwierzytelnia się w usłudze Azure Databricks przy użyciu osobistego tokenu dostępu usługi Azure Databricks.

Uwaga

Najlepszym rozwiązaniem w zakresie zabezpieczeń w przypadku uwierzytelniania za pomocą zautomatyzowanych narzędzi, systemów, skryptów i aplikacji usługa Databricks zaleca używanie osobistych tokenów dostępu należących do jednostek usługi zamiast użytkowników obszaru roboczego. Aby utworzyć tokeny dla jednostek usługi, zobacz Zarządzanie tokenami dla jednostki usługi.

Krok 2: Set skonfigurować klaster, aby spełnić potrzeby integracyjne

Usługa Syncsort zapisze dane w ścieżce usługi Azure Data Lake Storage, a klaster integracji usługi Azure Databricks odczytuje dane z tej lokalizacji. W związku z tym klaster integracji wymaga bezpiecznego dostępu do ścieżki usługi Azure Data Lake Storage.

Bezpieczny dostęp do ścieżki usługi Azure Data Lake Storage

Aby zabezpieczyć dostęp do danych w usłudze Azure Data Lake Storage (ADLS), możesz użyć klucza dostępu konta usługi Azure Storage (zalecane) lub jednostki usługi Microsoft Entra ID.

Używanie klucza dostępu do konta usługi Azure Storage

Klucz dostępu konta magazynu można skonfigurować w klastrze integracji w ramach konfiguracji platformy Spark. Upewnij się, że konto magazynu ma dostęp do kontenera usługi ADLS i systemu plików używanego do etapu danych oraz do kontenera usługi ADLS i systemu plików where, do których chcesz zapisać Delta Lake tables. Aby skonfigurować klaster integracji do używania klucza, wykonaj kroki opisane w temacie Nawiązywanie połączenia z usługą Azure Data Lake Storage Gen2 i usługą Blob Storage.

Używanie jednostki usługi Microsoft Entra ID

Jednostkę usługi można skonfigurować w klastrze integracji usługi Azure Databricks w ramach konfiguracji platformy Spark. Upewnij się, że podmiot zabezpieczeń ma dostęp do kontenera ADLS używanego do przechowywania danych oraz do kontenera ADLS where, do którego chcesz zapisać Delta tables. Aby skonfigurować klaster integracji do korzystania z jednostki usługi, wykonaj kroki opisane w artykule Access ADLS Gen2 with service principal (Uzyskiwanie dostępu do usługi ADLS Gen2 za pomocą jednostki usługi).

Określanie konfiguracji klastra

  1. Set tryb klastra do Standard.

  2. Set wersji środowiska uruchomieniowego usługi Databricks do wersji środowiska uruchomieniowego usługi Databricks.

  3. Włącz zoptymalizowane zapisy i automatyczne kompaktowanie, dodając następujące właściwości do konfiguracji platformy Spark:

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. Skonfiguruj klaster w zależności od potrzeb dotyczących integracji i skalowania.

Aby uzyskać szczegółowe informacje o konfiguracji klastra, zobacz Informacje o konfiguracji obliczeniowej.

Zobacz szczegóły połączenia Get dla zasobu obliczeniowego Azure Databricks, aby uzyskać adres URL JDBC i ścieżkę HTTP.

Krok 3. Uzyskiwanie szczegółów połączenia JDBC i ODBC w celu nawiązania połączenia z klastrem

Aby połączyć klaster usługi Azure Databricks z usługą Syncsort, potrzebne są następujące właściwości połączenia JDBC/ODBC:

  • JDBC URL
  • HTTP Path (Ścieżka HTTP)

Krok 4. Konfigurowanie programu Syncsort z usługą Azure Databricks

Przejdź do strony logowania do usługi Databricks i Połącz w celu uzyskania danych big data i postępuj zgodnie z instrukcjami.

Dodatkowe zasoby

Pomoc techniczna