Подключение к Syncsort

Статья
03/01/2024

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

Syncsort помогает разбивать приемники данных, интегрируя устаревшие версии, мейнфреймы и данные IBM с Azure Databricks. Вы можете легко извлечь данные из этих источников в Delta Lake.

Ниже приведены инструкции по использованию Syncsort с Azure Databricks.

Шаг 1: Создание личного токена доступа Databricks

Syncsort выполняет проверку подлинности для Azure Databricks с помощью личного маркера доступа Azure Databricks.

Примечание.

В качестве рекомендации по обеспечению безопасности при проверке подлинности с помощью автоматизированных средств, систем, сценариев и приложений Databricks рекомендуется использовать личные маркеры доступа, принадлежащие субъектам-службам, а не пользователям рабочей области. Сведения о создании маркеров для субъектов-служб см. в разделе "Управление маркерами" для субъекта-службы.

шаг 2. Настройка кластера для поддержки потребностей интеграции

Syncsort будет записывать данные в путь Azure Data Lake Storage, и кластер интеграции Azure Databricks будет считывать данные из этого расположения. Поэтому кластеру интеграции требуется безопасный доступ к пути Azure Data Lake Storage.

Безопасный доступ по пути в Azure Data Lake Storage

Для защиты доступа к данным в Azure Data Lake Storage (ADLS) можно использовать ключ доступа к учетной записи хранения Azure (рекомендуется) или субъект-службу идентификатора Microsoft Entra ID.

Использование ключа доступа к учетной записи хранения Azure

Вы можете настроить ключ доступа к учетной записи хранения в кластере интеграции как часть конфигурации Spark. Убедитесь, что учетная запись хранения имеет доступ к контейнеру ADLS и файловой системе, используемой для промежуточных данных, а также контейнера ADLS и файловой системы, в которой требуется записать таблицы Delta Lake. Чтобы настроить кластер интеграции для использования ключа, выполните действия, описанные в разделе "Подключение к Azure Data Lake Storage 2-го поколения и хранилищу BLOB-объектов".

Использование субъекта-службы Идентификатора Microsoft Entra

Вы можете настроить субъект-службу в кластере интеграции Azure Databricks в составе конфигурации Spark. Убедитесь, что субъект-служба имеет доступ к контейнеру ADLS, используемому для промежуточных данных и контейнера ADLS, в котором требуется записать таблицы Delta. Чтобы настроить кластер интеграции для использования субъекта-службы, выполните действия, описанные в статье Доступ к ADLS 2-го поколения с помощью субъекта-службы.

Указание конфигурации кластера

Задайте для режима кластера значениеstandard.
Установите для версию среды выполнения Databricks, чтобы задать версию среды выполнения Databricks.
Включите оптимизированные операции записи и автоматическое сжатие , добавив следующие свойства в конфигурацию Spark:
```
spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true
```
Настройте кластер в соответствии с вашими потребностями в интеграции и масштабировании.

Сведения о конфигурации кластера см . в справочнике по конфигурации вычислений.

См. , чтобы получить сведения о подключении для вычислительного ресурса Azure Databricks, а также узнать URL-адрес JDBC и путь HTTP.

Шаг 3. Получение сведений о подключении JDBC и ODBC для подключения к кластеру

Чтобы подключить кластер Azure Databricks к Syncsort, вам потребуются следующие свойства подключения JDBC / ODBC.

URL-адрес JDBC
Путь HTTP

Шаг 4. Настройка Syncsort с помощью Azure Databricks

Перейдите на страницу входа Databricks и Connect для данных большого размера и следуйте инструкциям.

Дополнительные ресурсы

Поддержка

Поделиться через

Подключение к Syncsort

Шаг 1: Создание личного токена доступа Databricks

шаг 2. Настройка кластера для поддержки потребностей интеграции

Безопасный доступ по пути в Azure Data Lake Storage

Использование ключа доступа к учетной записи хранения Azure

Использование субъекта-службы Идентификатора Microsoft Entra

Указание конфигурации кластера

Шаг 3. Получение сведений о подключении JDBC и ODBC для подключения к кластеру

Шаг 4. Настройка Syncsort с помощью Azure Databricks

Дополнительные ресурсы

Обратная связь

Дополнительные ресурсы