Как работает фабрика данных Azure
Здесь вы узнаете о компонентах и взаимосвязанных системах Фабрика данных Azure и о том, как они работают. Эти знания помогут вам определить, как лучше всего использовать Фабрика данных Azure для удовлетворения требований вашей организации.
Фабрика данных Azure — это набор взаимосвязанных систем, которые в совокупности обеспечивают платформу сквозного анализа данных. В этом уроке вы узнаете о следующих Фабрика данных Azure функциях:
- Подключение и сбор данных
- Преобразование и дополнение данных
- Непрерывная интеграция и доставка (CI/CD) и публикация
- Наблюдение
Вы также узнаете об этих ключевых компонентах Фабрика данных Azure:
- Pipelines
- Процедуры
- Наборы данных
- Связанные службы
- Потоки данных
- Среды выполнения интеграции
Функции фабрики данных Azure
Фабрика данных Azure состоит из нескольких функций, которые объединяются для предоставления инженерам данных полной платформы аналитики данных.
Подключение и сбор данных
Первая часть процесса — это сбор необходимых данных из соответствующих источников данных. Эти источники могут находиться в разных расположениях, включая локальные источники и в облаке. Данные могут быть:
- структурированные
- Неструктурировано
- частично структурированные
Кроме того, эти разрозненные данные могут поступать с разной скоростью и с разной периодичностью. С помощью Фабрика данных Azure можно использовать действие копирования для перемещения данных из различных источников в единое централизованное хранилище данных в облаке. После копирования данных вы используете другие системы для преобразования и анализа данных.
Действие копирования выполняет следующие высокоуровневые шаги:
Чтение данных из исходного хранилища данных.
Выполните следующие задачи с данными:
- Сериализация и десериализация
- Сжатие и распаковка
- Сопоставление столбцов
Примечание.
Возможны дополнительные задачи.
Запись данных в целевое хранилище данных (известное как приемник).
Этот процесс представлен на следующем рисунке:
Преобразование и дополнение данных
После успешного копирования данных в центральное облачное расположение можно обрабатывать и преобразовывать данные по мере необходимости с помощью Фабрика данных Azure сопоставления потоков данных. Потоки данных позволяют создавать диаграммы преобразования данных, выполняемые в Spark. Однако вам не нужно разбираться в кластерах Spark или программировании Spark.
Совет
Хотя в этом нет необходимости, вы можете предпочесть кодировать свои преобразования вручную. Если это так, фабрика данных Azure поддерживает внешние действия для выполнения ваших преобразований.
CI/CD и публикация
Поддержка CI/CD позволяет разрабатывать и доставлять процессы извлечения, преобразования, загрузки (ETL) постепенно перед публикацией. Фабрика данных Azure обеспечивает CI/CD ваших конвейеров данных с помощью:
- Azure DevOps
- GitHub
Примечание.
Непрерывная интеграция означает автоматическое тестирование каждого изменения, внесенного в вашу кодовую базу, как можно скорее. Непрерывная доставка следует за этим тестированием и подталкивает изменения к промежуточной или производственной системе.
После Фабрика данных Azure уточнения необработанных данных можно загрузить данные в любой подсистеме аналитики, к которой пользователи могут получить доступ из своих средств бизнес-аналитики, включая:
- Azure Synapse Analytics
- База данных SQL Azure
- Azure Cosmos DB
Azure Monitor
После успешной сборки и развертывания конвейера интеграции данных важно отслеживать запланированные действия и конвейеры. Мониторинг позволяет отслеживать показатели успешности и сбоев. Фабрика данных Azure обеспечивает поддержку мониторинга конвейера с помощью одного из следующих методов:
- Azure Monitor
- API
- PowerShell
- Журналы Azure Monitor
- Панели работоспособности на портале Azure
Компоненты фабрики данных Azure
Фабрика данных Azure состоит из компонентов, описанных в следующей таблице:
Компонент | Description |
---|---|
Pipelines | Логическая группа действий, выполняющих определенную единицу работы. Эти действия вместе выполняют задачу. Преимущество использования конвейера заключается в том, что вы можете более легко управлять действиями как набором, а не отдельными элементами. |
Процедуры | Один этап обработки в конвейере. Фабрика данных Azure поддерживает три типа действий: перемещение данных, преобразование данных и действия по управлению. |
Наборы данных | Представляйте структуры данных в ваших хранилищах данных. Наборы данных указывают на (или ссылаться) на данные, которые вы хотите использовать в действиях как входные или выходные данные. |
Связанные службы | Определите информацию о подключении, необходимую фабрике данных Azure для подключения к внешним ресурсам, например к источнику данных. Фабрика данных Azure использует связанные службы для двух целей: для представления хранилища данных или вычислительного ресурса. |
Потоки данных | Позвольте вашим инженерам по данным разрабатывать логику преобразования данных без написания кода. Потоки данных выполняются как действия в конвейерах фабрики данных Azure, которые используют горизонтально масштабируемые кластеры Apache Spark. |
Среды выполнения интеграции | Фабрика данных Azure использует инфраструктуру вычислений для предоставления следующих возможностей интеграции данных в разных сетевых средах: поток данных, перемещение данных, диспетчеризация действий и выполнение пакета служб SQL Server Integration Services (SSIS). В фабрике данных Azure среда выполнения интеграции обеспечивает мост между действием и связанными службами. |
Как показано на следующем рисунке, эти компоненты работают вместе, чтобы обеспечить полную сквозную платформу для инженеров по данным. Используя фабрику данных, вы можете:
- Устанавливать триггеры по запросу и планировать обработку данных в соответствии с вашими потребностями.
- Связать конвейер с триггером или запустить его вручную по мере необходимости.
- Подключитесь к связанным службам (например, локальным приложениям и данным) или службам Azure через среды выполнения интеграции.
- Отслеживайте все запуски конвейера в собственном коде в Фабрика данных Azure пользовательском интерфейсе или с помощью Azure Monitor.