Определение служб данных
Microsoft Azure — это облачная платформа, которая обеспечивает возможности работы приложений и ИТ-инфраструктуры для некоторых крупнейших организаций мира. Она включает множество служб для поддержки облачных решений, включая рабочие нагрузки транзакций и аналитических данных.
Ниже описаны некоторые из наиболее часто используемых облачных служб для данных.
Примечание.
В этом разделе рассматриваются только некоторые из наиболее часто используемых служб данных для современных транзакционных и аналитических решений. Также доступны дополнительные службы.
Azure SQL
Azure SQL — это коллективное имя семейства реляционных решений баз данных на основе ядра СУБД Microsoft SQL Server. В качестве примера можно назвать следующие конкретные службы SQL Azure.
- База данных SQL Azure — полностью управляемая база данных платформы как услуга (PaaS), размещенная в Azure.
- Управляемый экземпляр SQL Azure — размещенный экземпляр SQL Server с автоматизированным обслуживанием, который обеспечивает более гибкие возможности конфигурации по сравнению с Базой данных SQL Azure SQL DB, но подразумевает большую степень административной ответственности для владельца.
- Azure SQL VM — виртуальная машина с установкой SQL Server, которая обеспечивает максимальные возможности конфигурации при полной ответственности за управление.
Администраторы баз данных обычно подготавливают системы баз данных SQL Azure и управляют ими для поддержки бизнес-приложений, которые должны хранить данные о транзакциях.
Инженеры данных могут использовать системы баз данных SQL Azure в качестве источников для конвейеров данных, которые выполняют операции извлечения, преобразования и загрузки для приема данных о транзакциях в систему аналитики.
Аналитики данных для создания отчетов могут запрашивать базы данных SQL Azure напрямую, хотя в больших организациях данные обычно объединяются с данными из других источников в хранилище аналитических данных для поддержки корпоративной аналитики.
Базы данных с открытым кодом в Azure
Azure включает управляемые службы для популярных систем реляционной базы данных с открытым исходным кодом, в том числе:
База данных Azure MySQL — простая в использовании система управления базами данных с открытым кодом, которая обычно используется в приложениях стека Linux, Apache, MySQL и PHP (LAMP).
База данных Azure для MariaDB — более новая система управления базами данных, созданная первоначальными разработчиками MySQL. С тех пор ядро базы данных было переписано и оптимизировано для повышения производительности. MariaDB обеспечивает совместимость с Oracle Database (другой популярной коммерческой системой управления базами данных).
База данных Azure для PostgreSQL — гибридная объектно-реляционная база данных. Вы можете хранить данные в реляционных таблицах, но база данных PostgreSQL также позволяет хранить пользовательские типы данных с их собственными нереляционными свойствами.
Как и в случае с системами баз данных SQL Azure, реляционные базы данных с открытым кодом управляются администраторами баз данных для поддержки транзакционных приложений и предоставляют источник данных для инженеров данных, создающих конвейеры для аналитических решений, и аналитиков данных, создающих отчеты.
Azure Cosmos DB
Azure Cosmos DB — это глобальная система нереляционных баз данных (NoSQL), которая поддерживает несколько интерфейсов программирования приложений (API), что позволяет хранить и управлять данными в виде документов JSON, пар "ключ-значение", семейств столбцов и графов.
В некоторых организациях экземпляры Cosmos DB могут подготавливаться к работе и управляться администратором базы данных, хотя зачастую управление хранилищем данных NoSQL осуществляется разработчиками программного обеспечения в рамках общей архитектуры приложения. Инженерам данных часто требуется интегрировать источники данных Cosmos DB в корпоративные решения аналитики, которые поддерживают моделирование и создание отчетов аналитиками данных.
Хранилище Azure
служба хранилища Azure — это базовая служба Azure, которая позволяет хранить данные в:
- Контейнеры BLOB-объектов — масштабируемое экономичное хранилище для двоичных файлов.
- Общие папки — общие сетевые папки, которые обычно используются в корпоративных сетях.
- Таблицы — хранилище типа "ключ-значение" для приложений, которым необходимо быстрое выполнение операций чтения и записи значений данных.
Инженеры данных используют службу хранилища Azure для размещения озер данных — хранилищ BLOB-объектов с иерархическим пространством имен, позволяющим упорядочивать файлы в папках распределенной файловой системы.
Azure Data Factory
Фабрика данных Azure — это служба Azure, которая позволяет определять и планировать конвейеры данных для передачи и преобразования данных. Конвейеры можно интегрировать с другими службами Azure, что позволяет принимать данные из облачных хранилищ данных, обрабатывать их с помощью облачных вычислений и сохранять результаты в другом хранилище данных.
Фабрика данных Azure используется инженерами данных для создания решений по извлечению, преобразованию и загрузке, которые заполняют хранилища аналитических данных данными из транзакционных систем в организации.
Microsoft Fabric
Microsoft Fabric — это унифицированная платформа аналитики Software-as-Service (SaaS) на основе открытого и управляемого озера, включающего функции для поддержки:
- Прием данных и ETL
- Аналитика озера данных
- Аналитика хранилища данных
- Обработка и анализ данных и машинное обучение
- Аналитика в режиме реального времени
- Визуализация данных
- Управление данными и контроль над ними
- Аналитические сведения, на основе ИИ
Инженеры данных могут использовать Microsoft Fabric для создания единого решения аналитики данных, которое объединяет конвейеры приема данных, хранилища данных, аналитику в режиме реального времени, бизнес-аналитику и аналитику СИ с помощью единой службы, которая централизованно хранится в Microsoft OneLake.
Azure Databricks
Azure Databricks — это интегрированная с Azure версия популярной платформы Databricks, которая объединяет платформу обработки данных Apache Spark с семантикой базы данных SQL и интегрированным интерфейсом управления для обеспечения крупномасштабной аналитики данных.
Инженеры данных могут использовать свои имеющиеся навыки работы с Databricks и Spark для создания аналитических хранилищ данных в Azure Databricks.
Аналитики данных могут использовать встроенную поддержку записных книжек в Azure Databricks для запроса и визуализации данных в удобном и понятном веб-интерфейсе.
Azure Stream Analytics
Azure Stream Analytics — это обработчик потоковой обработки в режиме реального времени, который записывает поток данных из входных данных, применяет запрос для извлечения и управления данными из входного потока и записывает результаты в выходные данные для анализа или дальнейшей обработки.
Инженеры данных могут включать Azure Stream Analytics в архитектуру аналитики данных, которая захватывает потоковые данные для приема в хранилище аналитических данных или визуализации в реальном времени.
Azure Data Explorer
Azure Data Explorer — это полностью управляемая, автономная платформа аналитики больших данных, которая предлагает высокопроизводительные запросы к данным журнала и телеметрии.
Аналитики данных могут использовать Azure Data Explorer для запроса и анализа данных, включающих атрибут метки времени, таких как данные в файлах журналов и данные телеметрии Интернета вещей (IoT).
Microsoft Purview
Microsoft Purview предоставляет решение для управления данными на уровне предприятия и возможности обнаружения. Microsoft Purview можно использовать для создания схемы данных и отслеживания происхождения данных из нескольких источников данных и систем, что позволяет находить надежные данные для анализа и создания отчетов.
Инженеры данных могут использовать Microsoft Purview для реализации управления данными в масштабах предприятия и обеспечения целостности данных, используемых для поддержки аналитических рабочих нагрузок.