Описание шаблонов интеграции данных
Microsoft Azure предоставляет разнообразные службы платформы данных, которые позволяют выполнять различные типы анализа. Это могут быть решения как для описательной аналитики в хранилище данных, так и для прогнозной аналитики в службах HDInsight, Azure Databricks или Службе машинного обучения. Для реализации важного аспекта интеграции данных требуется служба.
Интеграция данных в первую очередь предусматривает получение данных из одного источника или нескольких. При необходимости также обычно реализуется процесс очистки и преобразования данных, а также их дополнения и подготовки. Наконец, обработанные таким образом данные хранятся в службе платформы данных, которая реализует нужные аналитические возможности. Фабрика данных Azure обеспечивает автоматизацию этого процесса с использованием схемы извлечения, преобразования и загрузки (ETL).
Extract
В процессе извлечения специалисты по инжинирингу данных определяют данные и их источник.
Определите источник данных: определите сведения о источнике, такие как группа ресурсов, подписка и сведения об удостоверениях, такие как ключ или секрет.
Определите данные: определите извлеченные данные. Это можно сделать с помощью запроса к базе данных, набора файлов или имени хранилища BLOB-объектов Azure.
Преобразование
- Определите преобразование данных: операции преобразования данных могут включать разделение, объединение, создание, добавление, удаление или сводные столбцы. Сопоставьте поля между источником и назначением данных. Кроме того, может потребоваться агрегирование или слияние данных.
Загрузка
Определите назначение: во время загрузки многие назначения Azure могут принимать данные, отформатированные как нотация объектов JavaScript (JSON), файл или большой двоичный объект. Вам может потребоваться написать код для взаимодействия с интерфейсами API приложений.
Фабрика данных Azure имеет встроенную поддержку Функций Azure. Кроме того, поддерживается множество языков программирования, включая Node.js, .NET, Python и Java. Хотя в прошлом язык XML был широко распространен, большинство систем были переведены на формат JSON из-за его повышенной гибкости, так как он относится к полуструктурированному типу данных.
Запустите задание: проверьте задание ETL в среде разработки или тестирования. Затем перенесите его в рабочую среду для загрузки рабочей системы.
Мониторинг задания: операции ETL могут включать множество сложных процессов. Настройте систему упреждающего и реактивного мониторинга, чтобы получать информацию о сбоях. Настройте ведение журналов в соответствии с используемой технологией.
Средства ETL
Инженерам данных доступны различные инструменты для работы с функциями извлечения, преобразования и загрузки. Фабрика данных Azure предоставляет почти 100 корпоративных соединителей и другие надежные ресурсы для пользователей, использующих код или обходящихся без него, позволяющие выполнять задачи по перемещению и преобразованию данных.
Эволюция процессов извлечения, преобразования и загрузки
Появление Azure открыло доступ к технологиям, способным обрабатывать неструктурированные данные в неограниченном масштабе. Это означало смещение парадигмы загрузки и преобразования данных от ETL (извлечение, преобразование и загрузка) к ELT (извлечение, загрузка и преобразование).
Преимуществом ELT является то, что данные можно хранить в исходном формате, будь то JSON, XML, PDF или изображения. ELT предполагает определение структуры данных на этапе преобразования, что позволяет использовать исходные данные в нескольких нижестоящих системах.
В процессе ELT данные извлекаются и загружаются в собственном формате. Благодаря этому ускоряется загрузка данных в конечную систему. Кроме того, сокращаются состязания за ресурсы в источниках данных.
Шаги процесса ELT аналогичны процессу ETL. Они просто следуют в другом порядке.
Еще один процесс наподобие ELT называется ELTL (извлечение, загрузка, преобразование и загрузка). Его отличие в том, что присутствует окончательная загрузка в конечную систему.
Фабрика данных Azure поддерживает схемы интеграции данных двух общих типов.
Рабочие нагрузки современного хранилища данных.
Современное хранилище данных — это централизованное хранилище данных, которое предоставляет службы описательной аналитики и поддержки принятия решений для всего предприятия с помощью источников структурированных, неструктурированных или потоковых данных. Данные периодически перемещаются в хранилище из нескольких транзакционных систем реляционных баз данных и других источников данных. Хранимые данные используются для анализа прошлых периодов и тенденций. Хранилище данных выступает в роли центрального хранилища для нескольких предметных областей и содержит единый источник истины.
Фабрика данных Azure, как правило, используется для автоматизации процесса извлечения, преобразования и загрузки данных посредством пакетной обработки структурированных и неструктурированных источников данных.
Расширенные аналитические рабочие нагрузки
Расширенную аналитику можно выполнять в виде прогнозной или упреждающей аналитики с помощью различных служб платформ данных Azure. Фабрика данных Azure обеспечивает интеграцию из исходных систем с хранилищем озера данных и может инициировать вычислительные ресурсы, такие как Azure Databricks или HDInsight, чтобы использовать данные для решения сложных аналитических задач.