Подключение к StreamSets
Внимание
Эта функция предоставляется в режиме общедоступной предварительной версии.
StreamSets помогает вам управлять потоком данных и отслеживать его на протяжении всего его жизненного цикла. Интеграция платформенной функциональности StreamSets с Azure Databricks и Delta Lake позволяет извлекать данные из различных источников и легко управлять конвейерами.
Общую демонстрацию возможностей StreamSets см. в следующем видео YouTube (10 минут).
Ниже приведены инструкции по использованию StreamSets с Azure Databricks.
шаг 1: Generate личный токен доступа Databricks
StreamSets выполняет проверку подлинности для Azure Databricks с помощью личного маркера доступа Azure Databricks.
Примечание.
В качестве рекомендации по обеспечению безопасности при проверке подлинности с помощью автоматизированных средств, систем, сценариев и приложений Databricks рекомендуется использовать личные маркеры доступа, принадлежащие субъектам-службам, а не пользователям рабочей области. Сведения о создании маркеров для субъектов-служб см. в разделе "Управление маркерами" для субъекта-службы.
шаг 2. Set настройка кластера для поддержки потребностей интеграции
StreamSets будет записывать данные в путь Azure Data Lake Storage, и кластер интеграции Azure Databricks будет считывать данные из этого расположения. Поэтому кластеру интеграции требуется безопасный доступ к пути Azure Data Lake Storage.
Безопасный доступ по пути в Azure Data Lake Storage
Для защиты доступа к данным в Azure Data Lake Storage (ADLS) можно использовать ключ доступа к учетной записи хранения Azure (рекомендуется) или субъект-службу идентификатора Microsoft Entra ID.
Использование ключа доступа к учетной записи хранения Azure
Вы можете настроить ключ доступа к учетной записи хранения в кластере интеграции как часть конфигурации Spark. Убедитесь, что учетная запись хранения имеет доступ к контейнеру ADLS и файловой системе, используемой для промежуточных данных, а также к контейнеру ADLS и файловой системе where, в которые вы хотите записать данные в Delta Lake tables. Чтобы настроить кластер интеграции для использования ключа, выполните действия, описанные в разделе "Подключение к Azure Data Lake Storage 2-го поколения и хранилищу BLOB-объектов".
Использование субъекта-службы Идентификатора Microsoft Entra
Вы можете настроить субъект-службу в кластере интеграции Azure Databricks в составе конфигурации Spark. Убедитесь, что учетная запись службы имеет доступ к контейнеру ADLS, используемому для промежуточных данных, и к контейнеру ADLS where, в который вы хотите записать Delta tables. Чтобы настроить кластер интеграции для использования субъекта-службы, выполните действия, описанные в статье Доступ к ADLS 2-го поколения с помощью субъекта-службы.
Указание конфигурации кластера
Set режим кластерастандартный.
Set Версия среды выполнения Databricks: 6.3 или более поздняя.
Включите оптимизированные операции записи и автоматическое сжатие , добавив следующие свойства в конфигурацию Spark:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
Настройте кластер в соответствии с вашими потребностями в интеграции и масштабировании.
Сведения о конфигурации кластера см . в справочнике по конфигурации вычислений.
См. подробности о подключении Get для вычислительного ресурса Azure Databricks, чтобы узнать, как получить URL-адрес JDBC и путь HTTP.
Шаг 3. Получение сведений о подключении JDBC и ODBC для подключения к кластеру
Чтобы подключить кластер Azure Databricks к StreamSets, вам потребуются следующие свойства подключения JDBC/ODBC.
- URL-адрес JDBC
- Путь HTTP
Шаг 4. Get StreamSets для Azure Databricks
Зарегистрируйтесь для использования StreamSets для Databricks, если у вас еще нет учетной записи StreamSets. Вы можете get начинать бесплатно и обновить план, когда будете готовы; см. Цену платформы StreamSets DataOps .
Шаг 5. Узнайте, как использовать StreamSets для загрузки данных в Delta Lake
Начните с примера конвейера или ознакомьтесь с решениями StreamSets, чтобы узнать, как построить конвейер, который принимает данные в Delta Lake.