Основные сведения о хранилище данных

Завершено

Процесс создания современного хранилища данных обычно включает следующее:

  • Прием данных — перемещение данных из исходных систем в хранилище данных.
  • Хранилище данных — хранение данных в формате, оптимизированном для аналитики.
  • Обработка данных — преобразование данных в формат, готовый к использованию аналитическими инструментами.
  • Анализ и доставка данных — анализ данных для получения аналитических сведений и предоставления этих аналитических сведений бизнесу.

Microsoft Fabric позволяет инженерам данных и аналитикам получать, хранить, преобразовывать и визуализировать данные во всех инструментах с низким кодом и традиционным интерфейсом.

Общие сведения о хранилище данных Fabric

Хранилище данных Fabric — это реляционное хранилище данных, которое поддерживает полные возможности T-SQL транзакций, которые можно ожидать от корпоративного хранилища данных. Это полностью управляемое, масштабируемое и высокодоступное хранилище данных, которое можно использовать для хранения и запроса данных в Lakehouse. Используя хранилище данных, вы полностью управляете созданием таблиц, загрузкой, преобразованием и запросом данных с помощью портала Fabric или команд T-SQL. Sql можно использовать для запроса и анализа данных или использования Spark для обработки данных и создания моделей машинного обучения.

Хранилища данных в Fabric упрощают совместную работу между инженерами данных и аналитиками данных, работая вместе в одном интерфейсе. Инженеры данных создают реляционный слой на основе данных в Lakehouse, где аналитики могут использовать T-SQL и Power BI для изучения данных.

Проектирование хранилища данных

Как и все реляционные базы данных, хранилище данных Fabric содержит таблицы для хранения данных для аналитики позже. Чаще всего эти таблицы упорядочены в схеме, оптимизированной для многомерного моделирования. В этом подходе числовые данные, связанные с событиями (например, заказы на продажу), группируются по разным атрибутам (например, дате, клиенту, магазину). Например, можно проанализировать общую сумму, оплачиваемую за заказы на продажу, которая произошла по определенной дате или в определенном магазине.

Таблицы в хранилище данных

Таблицы в хранилище данных обычно организованы таким образом, чтобы обеспечить эффективный и эффективный анализ больших объемов данных. Эта организация часто называется моделью измерения, которая включает структурирование таблиц в таблицы фактов и таблицы измерений.

Таблицы фактов содержат числовые данные, которые необходимо проанализировать. Таблицы фактов обычно имеют большое количество строк и являются основным источником данных для анализа. Например, таблица фактов может содержать общую сумму, оплачиваемую за заказы на продажу, которая произошла на определенную дату или в определенном магазине.

Таблицы измерений содержат описательные сведения о данных в таблицах фактов. Таблицы измерений обычно имеют небольшое количество строк и используются для предоставления контекста для данных в таблицах фактов. Например, таблица измерений может содержать сведения о клиентах, размещающих заказы на продажу.

Помимо столбцов для атрибутов таблица измерений содержит ключевой столбец для уникального ключа, который однозначно идентифицирует каждую строку в этой таблице. Более того, таблица измерений часто содержит два ключевых столбца.

  • Суррогатный ключ — это уникальный идентификатор для каждой строки в таблице измерений. Это часто целочисленное значение, которое автоматически создается системой управления базами данных при вставке новой строки в таблицу.
  • Альтернативный ключ часто является естественным или бизнес-ключом, определяющим конкретный экземпляр сущности в исходной системе транзакций, например код продукта или идентификатор клиента.

Вам нужны суррогатные и альтернативные ключи в хранилище данных, так как они служат различным целям. Суррогатные ключи относятся к хранилищу данных и помогают поддерживать согласованность и точность данных. С другой стороны, альтернативные ключи относятся к исходной системе и помогают поддерживать трассировку между хранилищем данных и исходной системой.

Специальные типы таблиц измерений

Специальные типы измерений обеспечивают дополнительный контекст и обеспечивают более полный анализ данных.

Измерения времени предоставляют сведения о периоде времени, в котором произошло событие. Эта таблица позволяет аналитикам данных агрегировать данные по временным интервалам. Например, измерение времени может содержать столбцы года, квартала, месяца и дня размещения заказа на продажу.

Медленно изменяющиеся измерения — это таблицы измерений, отслеживающие изменения атрибутов измерения с течением времени, например изменения адреса клиента или цены продукта. Они важны в хранилище данных, так как они позволяют пользователям анализировать и понимать изменения данных с течением времени. Медленно изменяющиеся измерения обеспечивают актуальность и точность данных, что является обязательным для принятия хороших бизнес-решений.

Примеры схем хранилища данных

В большинстве транзакционных баз данных, которые используются в бизнес-приложениях, данные нормализуются для снижения дублирования. Но в типичном хранилище данных, наоборот, данные измерений денормализуются, чтобы уменьшить количество соединений для получения данных.

Часто хранилище данных организовано как схеме типа звезда, в которой таблица фактов имеет прямые связи с таблицами измерений, как в следующем примере:

Diagram of a star schema design displaying a FactSales table with five dimensions that form the shape of a star.

Атрибуты чего-то можно сгруппировать в таблице фактов на разных уровнях. Например, можно найти общий доход от продаж для всего региона или только для одного клиента. Сведения для каждого уровня можно хранить в одной таблице измерений.

Совет

Дополнительные сведения о проектировании схем звездочек для Fabric см. в статье "Что такое схема звезды".

Если существует много уровней или некоторые сведения разделяются различными вещами, то вместо этого может потребоваться использовать схему снежинки. Приведем пример:

Diagram of a snowflake schema design displaying multiple dimensions.

В этом случае таблица DimProduct была разделена (нормализована) для создания отдельных таблиц измерений для категорий продуктов и поставщиков.

  • Каждая строка в таблице DimProduct содержит значения ключей для соответствующих строк в таблицах DimCategory и DimSupplier.

Добавлена таблица DimGeography , содержащая сведения о расположении клиентов и магазинов.

  • Каждая строка в таблицах DimCustomer и DimStore содержит ключевое значение для соответствующей строки в таблице DimGeography.