Поделиться через


Прием данных с помощью Фабрика данных Azure в Azure Cosmos DB для PostgreSQL

Область применения: Azure Cosmos DB для PostgreSQL (на базе расширения базы данных Citus до PostgreSQL)

Фабрика данных Azure — это облачная служба ETL и интеграции данных. Служба позволяет создавать рабочие процессы на основе данных для их перемещения и преобразования в большом масштабе.

С помощью фабрики данных можно создавать и планировать рабочие процессы на основе данных (называемые конвейерами), которые используют данные из разрозненных хранилищ данных. Конвейеры могут работать локально, в Azure или с использованием других поставщиков облачных служб для аналитики и создания отчетов.

Фабрика данных имеет приемник данных для Azure Cosmos DB для PostgreSQL. Приемник данных позволяет перенести данные (реляционные, NoSQL, файлы озера данных) в таблицы Azure Cosmos DB для PostgreSQL для хранения, обработки и отчетности.

Схема потока данных для Фабрика данных Azure.

Внимание

Фабрика данных не поддерживает частные конечные точки для Azure Cosmos DB для PostgreSQL в настоящее время.

Фабрика данных для приема в режиме реального времени

Ниже приведены основные причины выбора Фабрика данных Azure приема данных в Azure Cosmos DB для PostgreSQL:

  • Простота в использовании. Предлагает визуальную среду без применения кода для оркестрации и автоматизации перемещения данных.
  • Мощные возможности. Использует полную мощность базовой пропускной способности сети до 5 ГиБ/с.
  • Встроенные соединители — интегрирует все источники данных с более чем 90 встроенными соединителями.
  • Экономичность — поддерживает полностью управляемую облачную службу без сервера, которая масштабируется по требованию.

Действия по использованию фабрики данных

В этой статье описано, как создать конвейер данных с помощью пользовательского интерфейса фабрики данных. Конвейер в этой фабрике данных копирует данные из хранилища BLOB-объектов Azure в базу данных. Список хранилищ данных, которые поддерживаются в качестве источников и приемников, см. в таблице Поддерживаемые хранилища данных и форматы.

В фабрике данных можно использовать действие копирования для копирования данных между хранилищами данных, расположенными в локальной среде и в облаке в Azure Cosmos DB для PostgreSQL. Если вы не знакомы с фабрикой данных, ознакомьтесь с кратким руководством по началу работы:

  1. После подготовки фабрики данных перейдите к фабрике данных и запустите Фабрика данных Azure Studio. Вы увидите домашнюю страницу фабрики данных, как показано на следующем изображении:

    Снимок экрана: целевая страница Фабрика данных Azure.

  2. На домашней странице Фабрика данных Azure Studio выберите Orchestrate.

    Снимок экрана: страница

  3. В разделе "Свойства" введите имя конвейера.

  4. На панели элементов действий разверните категорию перемещения и преобразования и перетащите действие копирования данных в область конструктора конвейера. В нижней части панели конструктора на вкладке "Общие " введите имя действия копирования.

    Снимок экрана: конвейер в Фабрика данных Azure.

  5. Настройка источника.

    1. На странице "Действия" выберите вкладку "Источник". Нажмите кнопку "Создать", чтобы создать исходный набор данных.

    2. В диалоговом окне Новый набор данных выберите Хранилище BLOB-объектов Azure и щелкните Продолжить.

    3. Выберите тип формата данных, а затем нажмите кнопку Продолжить.

    4. На странице "Задать свойства" в разделе "Связанная служба" выберите "Создать".

    5. На странице "Новая связанная служба" введите имя связанной службы и выберите учетную запись хранения из списка имен учетной записи хранения.

      Снимок экрана: настройка источника в Фабрика данных Azure.

    6. В разделе "Тестовое подключение" выберите "Путь к файлу", введите контейнер и каталог для подключения, а затем выберите "Проверить подключение".

    7. Нажмите кнопку "Создать", чтобы сохранить конфигурацию.

    8. На экране "Задать свойства" нажмите кнопку "ОК".

  6. Настройка приемника.

    1. На странице "Действия" выберите вкладку "Приемник". Нажмите кнопку "Создать", чтобы создать набор данных приемника.

    2. В диалоговом окне Создать набор данных выберите элемент База данных Azure PostgreSQL, а затем — команду Продолжить.

    3. На странице "Задать свойства" в разделе "Связанная служба" выберите "Создать".

    4. На странице "Новая связанная служба" введите имя связанной службы и нажмите клавишу ВВОД вручную в методе выбора учетной записи.

    5. Введите имя координатора кластера в поле "Полное доменное имя ". Вы можете скопировать имя координатора на странице обзора кластера Azure Cosmos DB для PostgreSQL.

    6. Оставьте порт 5432 по умолчанию в поле "Порт " для прямого подключения к координатору или замените его портом 6432, чтобы подключиться к управляемому порту PgBouncer .

    7. Введите имя базы данных в кластере и укажите учетные данные для подключения к нему.

    8. Выберите SSL в раскрывающемся списке метода шифрования.

      Снимок экрана: настройка приемника в Фабрика данных Azure.

    9. Выберите "Проверить подключение" в нижней части панели, чтобы проверить конфигурацию приемника.

    10. Нажмите кнопку "Создать", чтобы сохранить конфигурацию.

    11. На экране "Задать свойства" нажмите кнопку "ОК".

    12. На вкладке "Приемник" на странице "Действия" выберите "Открыть рядом с раскрывающимся списком набора данных приемника" и выберите имя таблицы в целевом кластере, где требуется принять данные.

    13. В разделе "Запись" выберите команду Copy.

    Снимок экрана: выбор таблицы и команды

  7. На панели инструментов над холстом выберите элемент Проверка, чтобы проверить параметры конвейера. Исправьте все ошибки, повторную проверку и убедитесь, что конвейер успешно проверен.

  8. Выберите "Отладка " на панели инструментов для выполнения конвейера.

    Снимок экрана: отладка и выполнение в Фабрика данных Azure.

  9. После успешного запуска конвейера в верхней панели инструментов выберите Опубликовать все. Это действие опубликует созданные сущности (наборы данных и конвейеры) в фабрике данных.

Вызов хранимой процедуры в фабрике данных

В некоторых конкретных сценариях может потребоваться вызвать хранимую процедуру или функцию, чтобы отправить агрегированные данные из промежуточной таблицы в сводную таблицу. Фабрика данных не предлагает действие хранимой процедуры для Azure Cosmos DB для PostgreSQL, но в качестве обходного решения можно использовать действие поиска с запросом для вызова хранимой процедуры, как показано ниже:

Снимок экрана: вызов процедуры в Фабрика данных Azure.

Следующие шаги