Как работает фабрика данных Azure

Завершено

Здесь вы узнаете о компонентах и взаимосвязанных системах Фабрика данных Azure и о том, как они работают. Эти знания помогут вам определить, как лучше всего использовать Фабрика данных Azure для удовлетворения требований вашей организации.

Фабрика данных Azure — это набор взаимосвязанных систем, которые в совокупности обеспечивают платформу сквозного анализа данных. В этом уроке вы узнаете о следующих Фабрика данных Azure функциях:

  • Подключение и сбор данных
  • Преобразование и дополнение данных
  • Непрерывная интеграция и доставка (CI/CD) и публикация
  • Наблюдение

Вы также узнаете об этих ключевых компонентах Фабрика данных Azure:

  • Pipelines
  • Процедуры
  • Наборы данных
  • Связанные службы
  • Потоки данных
  • Среды выполнения интеграции

Функции фабрики данных Azure

Фабрика данных Azure состоит из нескольких функций, которые объединяются для предоставления инженерам данных полной платформы аналитики данных.

Подключение и сбор данных

Первая часть процесса — это сбор необходимых данных из соответствующих источников данных. Эти источники могут находиться в разных расположениях, включая локальные источники и в облаке. Данные могут быть:

  • структурированные
  • Неструктурировано
  • частично структурированные

Кроме того, эти разрозненные данные могут поступать с разной скоростью и с разной периодичностью. С помощью Фабрика данных Azure можно использовать действие копирования для перемещения данных из различных источников в единое централизованное хранилище данных в облаке. После копирования данных вы используете другие системы для преобразования и анализа данных.

Действие копирования выполняет следующие высокоуровневые шаги:

  1. Чтение данных из исходного хранилища данных.

  2. Выполните следующие задачи с данными:

    • Сериализация и десериализация
    • Сжатие и распаковка
    • Сопоставление столбцов

    Примечание.

    Возможны дополнительные задачи.

  3. Запись данных в целевое хранилище данных (известное как приемник).

Этот процесс представлен на следующем рисунке:

Рисунок, изображающий предыдущий процесс.

Преобразование и дополнение данных

После успешного копирования данных в центральное облачное расположение можно обрабатывать и преобразовывать данные по мере необходимости с помощью Фабрика данных Azure сопоставления потоков данных. Потоки данных позволяют создавать диаграммы преобразования данных, выполняемые в Spark. Однако вам не нужно разбираться в кластерах Spark или программировании Spark.

Совет

Хотя в этом нет необходимости, вы можете предпочесть кодировать свои преобразования вручную. Если это так, фабрика данных Azure поддерживает внешние действия для выполнения ваших преобразований.

CI/CD и публикация

Поддержка CI/CD позволяет разрабатывать и доставлять процессы извлечения, преобразования, загрузки (ETL) постепенно перед публикацией. Фабрика данных Azure обеспечивает CI/CD ваших конвейеров данных с помощью:

  • Azure DevOps
  • GitHub

Примечание.

Непрерывная интеграция означает автоматическое тестирование каждого изменения, внесенного в вашу кодовую базу, как можно скорее. Непрерывная доставка следует за этим тестированием и подталкивает изменения к промежуточной или производственной системе.

После Фабрика данных Azure уточнения необработанных данных можно загрузить данные в любой подсистеме аналитики, к которой пользователи могут получить доступ из своих средств бизнес-аналитики, включая:

  • Azure Synapse Analytics
  • База данных SQL Azure
  • Azure Cosmos DB

Azure Monitor

После успешной сборки и развертывания конвейера интеграции данных важно отслеживать запланированные действия и конвейеры. Мониторинг позволяет отслеживать показатели успешности и сбоев. Фабрика данных Azure обеспечивает поддержку мониторинга конвейера с помощью одного из следующих методов:

  • Azure Monitor
  • API
  • PowerShell
  • Журналы Azure Monitor
  • Панели работоспособности на портале Azure

Компоненты фабрики данных Azure

Фабрика данных Azure состоит из компонентов, описанных в следующей таблице:

Компонент Description
Pipelines Логическая группа действий, выполняющих определенную единицу работы. Эти действия вместе выполняют задачу. Преимущество использования конвейера заключается в том, что вы можете более легко управлять действиями как набором, а не отдельными элементами.
Процедуры Один этап обработки в конвейере. Фабрика данных Azure поддерживает три типа действий: перемещение данных, преобразование данных и действия по управлению.
Наборы данных Представляйте структуры данных в ваших хранилищах данных. Наборы данных указывают на (или ссылаться) на данные, которые вы хотите использовать в действиях как входные или выходные данные.
Связанные службы Определите информацию о подключении, необходимую фабрике данных Azure для подключения к внешним ресурсам, например к источнику данных. Фабрика данных Azure использует связанные службы для двух целей: для представления хранилища данных или вычислительного ресурса.
Потоки данных Позвольте вашим инженерам по данным разрабатывать логику преобразования данных без написания кода. Потоки данных выполняются как действия в конвейерах фабрики данных Azure, которые используют горизонтально масштабируемые кластеры Apache Spark.
Среды выполнения интеграции Фабрика данных Azure использует инфраструктуру вычислений для предоставления следующих возможностей интеграции данных в разных сетевых средах: поток данных, перемещение данных, диспетчеризация действий и выполнение пакета служб SQL Server Integration Services (SSIS). В фабрике данных Azure среда выполнения интеграции обеспечивает мост между действием и связанными службами.

Как показано на следующем рисунке, эти компоненты работают вместе, чтобы обеспечить полную сквозную платформу для инженеров по данным. Используя фабрику данных, вы можете:

  • Устанавливать триггеры по запросу и планировать обработку данных в соответствии с вашими потребностями.
  • Связать конвейер с триггером или запустить его вручную по мере необходимости.
  • Подключитесь к связанным службам (например, локальным приложениям и данным) или службам Azure через среды выполнения интеграции.
  • Отслеживайте все запуски конвейера в собственном коде в Фабрика данных Azure пользовательском интерфейсе или с помощью Azure Monitor.

Рисунок, показывающий взаимодействие компонентов, описанных в предыдущей таблице.