Подключение к источникам данных
В этой статье приводятся рекомендации по настройке подключений между Azure Databricks и источниками данных администраторами и другими пользователями. Если вы пытаетесь определить, есть ли у вас доступ к данным чтения из внешней системы, сначала просмотрите данные, к которым у вас есть доступ к рабочей области. См. статью " Обнаружение данных".
Примечание.
Сведения о подключении к внешним службам, которые не обязательно являются источниками данных, см. в статье "Управление доступом к внешним облачным службам с помощью учетных данных службы".
Вы можете подключить учетную запись Azure Databricks к таким источникам данных, как облачное хранилище объектов, системы управления реляционными базами данных, службы потоковых данных и корпоративные платформы, такие как CRM. Определенные привилегии, необходимые для настройки подключений, зависят от источника данных, способа настройки разрешений в рабочей области Azure Databricks, необходимых разрешений для взаимодействия с данными в источнике, модели управления данными и предпочитаемого метода подключения.
Большинство методов требуют повышенных привилегий как в источнике данных, так и в рабочей области Azure Databricks, чтобы настроить необходимые разрешения для интеграции систем. Пользователи без этих разрешений должны запрашивать справку. См. статью "Запрос доступа к источникам данных".
Настройка подключений к хранилищу объектов
Облачное хранилище объектов предоставляет основу для хранения большинства данных в Azure Databricks. Дополнительные сведения о облачном хранилище объектов и о том, где Azure Databricks хранит данные, см. в статье "Где azure Databricks записывает данные?".
Databricks рекомендует использовать каталог Unity для настройки доступа к облачному хранилищу объектов. Каталог Unity предоставляет управление данными для структурированных и неструктурированных данных в облачном хранилище объектов. См. статью "Подключение к облачному хранилищу объектов и службам с помощью каталога Unity".
Клиенты, не использующие каталог Unity, должны настраивать подключения с помощью устаревших методов. Сведения о настройке доступа к облачному хранилищу объектов для Azure Databricks.
Сведения о настройке сети в облачном хранилище объектов см. в разделе "Сеть".
Настройка подключений к внешним системам данных
Databricks рекомендует несколько вариантов настройки подключений к внешним системам данных в зависимости от ваших потребностей. В следующей таблице представлен общий обзор этих параметров:
Вариант | Описание |
---|---|
Федерация Lakehouse | Предоставляет доступ только для чтения к данным в корпоративных системах данных. Подключения настраиваются с помощью каталога Unity на уровне каталога или схемы, синхронизируя несколько таблиц с одной конфигурацией. См. статью "Что такое Федерация Lakehouse?". |
Подключение участника | Использует технологические решения для подключения к внешним источникам данных и автоматизации приема данных в lakehouse. Некоторые решения также включают обратный ETL и прямой доступ к данным Lakehouse из внешних систем. См. раздел "Что такое Databricks Partner Connect?" |
Драйверы | Azure Databricks включает драйверы для внешних систем данных в каждой среде выполнения Databricks. При необходимости можно установить сторонние драйверы для доступа к данным в других системах. Необходимо настроить подключения для каждой таблицы. Некоторые драйверы включают доступ на запись. См. статью "Подключение к внешним системам". |
JDBC | Несколько включенных драйверов для внешних систем, базируемых на основе поддержки JDBC, и параметр JDBC предоставляет расширяемые параметры настройки подключений к другим системам. Необходимо настроить подключения для каждой таблицы. См. статью "Запросы баз данных с помощью JDBC". |
Подключение к источникам данных потоковой передачи
Azure Databricks предоставляет оптимизированные соединители для многих систем потоковой передачи данных.
Для всех источников данных потоковой передачи необходимо создать учетные данные, которые предоставляют доступ и загружают эти учетные данные в Azure Databricks. Databricks рекомендует хранить учетные данные с помощью секретов, так как вы можете использовать секреты для всех параметров конфигурации и во всех режимах доступа.
Все соединители данных для источников потоковой передачи поддерживают передачу учетных данных с помощью параметров при определении потоковых запросов. См. раздел "Настройка источников данных потоковой передачи".
Запрос доступа к источникам данных
Во многих организациях большинство пользователей не имеют достаточных привилегий в Azure Databricks или внешних источниках данных для настройки подключений к данным.
Возможно, ваша организация уже настроили доступ к источнику данных с помощью одного из шаблонов, описанных в статьях, связанных с этой страницей. Если у вашей организации есть четко определенный процесс запроса доступа к данным, Databricks рекомендует выполнить этот процесс.
Если вы не уверены, как получить доступ к источнику данных, эта процедура может помочь вам:
- Используйте обозреватель каталогов для просмотра таблиц и томов, к которым можно получить доступ. См. раздел "Что такое обозреватель каталогов?".
- Попросите своих товарищей по команде или менеджеров о источниках данных, к которым они могут получить доступ.
- Большинство организаций используют группы, синхронизированные с поставщиком удостоверений (например, Okta или Microsoft Entra ID) для управления разрешениями для пользователей рабочей области. Если другие члены вашей команды могут получить доступ к источникам данных, к которым требуется доступ, администратор рабочей области добавит вас в правильную группу, чтобы предоставить вам доступ.
- Если определенная таблица, том или источник данных была настроена коллегой, то у этого человека должны быть разрешения на предоставление доступа к данным.
- Некоторые организации настраивают разрешения доступа к данным с помощью параметров вычислительных кластеров и хранилищ SQL.
- Доступ к источникам данных может отличаться по вычислениям.
- Вы можете просмотреть создателя вычислений на вкладке "Вычисления ". Обратитесь к создателю, чтобы узнать о источниках данных, которые должны быть доступны.