Знакомство с хранилищами данных аналитики

8 мин

Существует два стандартных типа хранилища аналитических данных.

Хранилища данных

Схема хранилища данных со звездочной схемой.

Хранилище данных — это реляционная база данных, в которой данные хранятся в схеме, оптимизированной для аналитики данных, а не транзакционных рабочих нагрузок. Обычно данные из хранилища транзакций преобразуются в схему, в которой числовые значения хранятся в центральных таблицах фактов, связанных с одной или несколькими таблицами измерений, представляющими сущности, в которые можно агрегировать данные. Например, таблица фактов может содержать данные заказов на продажу, которые могут быть агрегированы по измерениям "клиент", "продукт", "магазин" и "время" (чтобы можно было, например, легко найти месячный итог продаж по продукту для каждого магазина). Такой тип схемы таблиц фактов и измерений называется схемой типа "звезда", хота эта схема часто расширяется до схемы типа "снежинка", поскольку добавляются дополнительные таблицы, связанные с таблицами измерения, для представления иерархий измерений (например, продукт может быть связан с категориями продуктов). Хранилище данных — это отличный вариант при наличии транзакционных данных, которые можно упорядочить в структурированную схему таблиц, если вы хотите использовать SQL для запросов к ним.

Data Lake

Схема озера данных, в котором файлы абстрагируются таблицами.

Озеро данных — это хранилище файлов, обычно в распределенной файловой системе, для обеспечения высокой производительности доступа к данным. Такие технологии, как Spark или Hadoop, часто используются для обработки запросов к сохраненным файлам и возврата данных для отчетов и аналитики. Эти системы часто применяют подход структурирования при чтении для определения табличных схем для файлов данных с частичным структурированием, когда данные считываются для анализа, без применения ограничений при их сохранении. Озера данных отлично поддерживают сочетание структурированных, частично структурированных и даже неструктурированных данных, которые необходимо проанализировать без применения схемы в момент записи в хранилище.

Гибридные подходы

Вы можете использовать гибридный подход, который объединяет функции озер данных и хранилищ данных в озере данных. Необработанные данные хранятся в виде файлов в озере данных, а конечные точки аналитики Microsoft Fabric SQL предоставляют их в виде таблиц, которые можно запрашивать с помощью SQL. При создании Lakehouse с помощью Microsoft Fabric автоматически создается конечная точка аналитики SQL. Такой гибридный подход является относительно новым в системах на базе Spark, и он стал возможен благодаря таким технологиям, как Delta Lake. Эти технологии добавляют в Spark возможности реляционного хранилища, позволяя определять таблицы, которые применяют схемы и согласованность транзакций, поддерживают источники данных с пакетной и потоковой передачей и предоставляют SQL API для запросов.

Службы Azure для аналитических хранилищ

В Azure существует несколько служб, которые можно использовать для реализации крупномасштабного аналитического хранилища, включая:

Microsoft Fabric — это комплексное решение для аналитики больших данных. Оно объединяет несколько технологий и возможностей, позволяя сочетать целостность данных и надежность масштабируемого высокопроизводительного реляционного хранилища данных на основе SQL Server с гибкостью озера данных и Apache Spark с открытым кодом. Она также включает встроенную поддержку аналитики журналов и телеметрии с помощью Аналитики в реальном времени Microsoft Fabric, а также встроенных конвейеров данных для приема и преобразования данных. Каждый продукт Microsoft Fabric имеет свой собственный дом, например дом фабрики данных. В каждой домашней странице Fabric отображаются элементы, которые вы создаете и имеют разрешение на использование из всей доступной рабочей области. Microsoft Fabric — это отличный выбор при создании единого единого решения для аналитики.

Снимок экрана: логотип Azure Databricks. Azure Databricks — это реализация Azure для популярной платформы Databricks. Databricks — это комплексное решение для анализа, основанное на Apache Spark и предлагающее собственные возможности SQL, а также оптимизированные для рабочей нагрузки кластеры Spark для аналитики данных и обработки и анализа данных. Databricks предоставляет интерактивный пользовательский интерфейс, с помощью которого можно управлять системой, и данные можно исследовать в интерактивных записных книжках. Из-за общего использования на нескольких облачных платформах вы можете рассмотреть возможность использования Azure Databricks в качестве аналитического хранилища, если вы хотите использовать существующий опыт работы с платформой или если вам нужно работать в многооблачной среде или поддерживать облачное решение.

Примечание.

Каждая из этих служб может рассматриваться как хранилище аналитических данных, так как они предоставляют схему и интерфейс, с помощью которых можно запрашивать данные. Однако во многих случаях данные хранятся в озере, а служба используется для обработки данных и выполнения запросов. Некоторые решения могут даже сочетать использование этих служб. Процесс извлечения, загрузки и преобразования (ELT) может копировать данные в озеро данных, а затем использовать одну из этих служб для преобразования данных, а другую — для запроса. Например, конвейер может использовать записную книжку, запущенную в Azure Databricks, для обработки большого объема данных в озере данных, а затем загрузить ее в таблицы в хранилище Microsoft Fabric.

Знакомство с хранилищами данных аналитики

Хранилища данных

Data Lake

Гибридные подходы

Службы Azure для аналитических хранилищ

Обратная связь