Описание шаблонов интеграции данных

Завершено

Microsoft Azure предоставляет разнообразные службы платформы данных, которые позволяют выполнять различные типы анализа. Это могут быть решения как для описательной аналитики в хранилище данных, так и для прогнозной аналитики в службах HDInsight, Azure Databricks или Службе машинного обучения. Для реализации важного аспекта интеграции данных требуется служба.

Интеграция данных в первую очередь предусматривает получение данных из одного источника или нескольких. При необходимости также обычно реализуется процесс очистки и преобразования данных, а также их дополнения и подготовки. Наконец, обработанные таким образом данные хранятся в службе платформы данных, которая реализует нужные аналитические возможности. Фабрика данных Azure обеспечивает автоматизацию этого процесса с использованием схемы извлечения, преобразования и загрузки (ETL).

Extract

В процессе извлечения специалисты по инжинирингу данных определяют данные и их источник.

  • Определите источник данных: определите сведения о источнике, такие как группа ресурсов, подписка и сведения об удостоверениях, такие как ключ или секрет.

  • Определите данные: определите извлеченные данные. Это можно сделать с помощью запроса к базе данных, набора файлов или имени хранилища BLOB-объектов Azure.

Преобразование

  • Определите преобразование данных: операции преобразования данных могут включать разделение, объединение, создание, добавление, удаление или сводные столбцы. Сопоставьте поля между источником и назначением данных. Кроме того, может потребоваться агрегирование или слияние данных.

Загрузка

  • Определите назначение: во время загрузки многие назначения Azure могут принимать данные, отформатированные как нотация объектов JavaScript (JSON), файл или большой двоичный объект. Вам может потребоваться написать код для взаимодействия с интерфейсами API приложений.

    Фабрика данных Azure имеет встроенную поддержку Функций Azure. Кроме того, поддерживается множество языков программирования, включая Node.js, .NET, Python и Java. Хотя в прошлом язык XML был широко распространен, большинство систем были переведены на формат JSON из-за его повышенной гибкости, так как он относится к полуструктурированному типу данных.

  • Запустите задание: проверьте задание ETL в среде разработки или тестирования. Затем перенесите его в рабочую среду для загрузки рабочей системы.

  • Мониторинг задания: операции ETL могут включать множество сложных процессов. Настройте систему упреждающего и реактивного мониторинга, чтобы получать информацию о сбоях. Настройте ведение журналов в соответствии с используемой технологией.

Средства ETL

Инженерам данных доступны различные инструменты для работы с функциями извлечения, преобразования и загрузки. Фабрика данных Azure предоставляет почти 100 корпоративных соединителей и другие надежные ресурсы для пользователей, использующих код или обходящихся без него, позволяющие выполнять задачи по перемещению и преобразованию данных.

Эволюция процессов извлечения, преобразования и загрузки

Появление Azure открыло доступ к технологиям, способным обрабатывать неструктурированные данные в неограниченном масштабе. Это означало смещение парадигмы загрузки и преобразования данных от ETL (извлечение, преобразование и загрузка) к ELT (извлечение, загрузка и преобразование).

Преимуществом ELT является то, что данные можно хранить в исходном формате, будь то JSON, XML, PDF или изображения. ELT предполагает определение структуры данных на этапе преобразования, что позволяет использовать исходные данные в нескольких нижестоящих системах.

В процессе ELT данные извлекаются и загружаются в собственном формате. Благодаря этому ускоряется загрузка данных в конечную систему. Кроме того, сокращаются состязания за ресурсы в источниках данных.

Шаги процесса ELT аналогичны процессу ETL. Они просто следуют в другом порядке.

Еще один процесс наподобие ELT называется ELTL (извлечение, загрузка, преобразование и загрузка). Его отличие в том, что присутствует окончательная загрузка в конечную систему.

Фабрика данных Azure поддерживает схемы интеграции данных двух общих типов.

Рабочие нагрузки современного хранилища данных.

Современное хранилище данных — это централизованное хранилище данных, которое предоставляет службы описательной аналитики и поддержки принятия решений для всего предприятия с помощью источников структурированных, неструктурированных или потоковых данных. Данные периодически перемещаются в хранилище из нескольких транзакционных систем реляционных баз данных и других источников данных. Хранимые данные используются для анализа прошлых периодов и тенденций. Хранилище данных выступает в роли центрального хранилища для нескольких предметных областей и содержит единый источник истины.

Фабрика данных Azure, как правило, используется для автоматизации процесса извлечения, преобразования и загрузки данных посредством пакетной обработки структурированных и неструктурированных источников данных.

Расширенные аналитические рабочие нагрузки

Расширенную аналитику можно выполнять в виде прогнозной или упреждающей аналитики с помощью различных служб платформ данных Azure. Фабрика данных Azure обеспечивает интеграцию из исходных систем с хранилищем озера данных и может инициировать вычислительные ресурсы, такие как Azure Databricks или HDInsight, чтобы использовать данные для решения сложных аналитических задач.