Основные сведения о хранилище данных
Процесс создания современного хранилища данных обычно включает следующее:
- Прием данных — перемещение данных из исходных систем в хранилище данных.
- Хранилище данных — хранение данных в формате, оптимизированном для аналитики.
- Обработка данных — преобразование данных в формат, готовый к использованию аналитическими инструментами.
- Анализ и доставка данных — анализ данных для получения аналитических сведений и предоставления этих аналитических сведений бизнесу.
Microsoft Fabric позволяет инженерам данных и аналитикам получать, хранить, преобразовывать и визуализировать данные во всех инструментах с низким кодом и традиционным интерфейсом.
Общие сведения о хранилище данных Fabric
Хранилище данных Fabric — это реляционное хранилище данных, которое поддерживает полные возможности T-SQL транзакций, которые можно ожидать от корпоративного хранилища данных. Это полностью управляемое, масштабируемое и высокодоступное хранилище данных, которое можно использовать для хранения и запроса данных в Lakehouse. Используя хранилище данных, вы полностью управляете созданием таблиц, загрузкой, преобразованием и запросом данных с помощью портала Fabric или команд T-SQL. Sql можно использовать для запроса и анализа данных или использования Spark для обработки данных и создания моделей машинного обучения.
Хранилища данных в Fabric упрощают совместную работу между инженерами данных и аналитиками данных, работая вместе в одном интерфейсе. Инженеры данных создают реляционный слой на основе данных в Lakehouse, где аналитики могут использовать T-SQL и Power BI для изучения данных.
Проектирование хранилища данных
Как и все реляционные базы данных, хранилище данных Fabric содержит таблицы для хранения данных для аналитики позже. Чаще всего эти таблицы упорядочены в схеме, оптимизированной для многомерного моделирования. В этом подходе числовые данные, связанные с событиями (например, заказы на продажу), группируются по разным атрибутам (например, дате, клиенту, магазину). Например, можно проанализировать общую сумму, оплачиваемую за заказы на продажу, которая произошла по определенной дате или в определенном магазине.
Таблицы в хранилище данных
Таблицы в хранилище данных обычно организованы таким образом, чтобы обеспечить эффективный и эффективный анализ больших объемов данных. Эта организация часто называется моделью измерения, которая включает структурирование таблиц в таблицы фактов и таблицы измерений.
Таблицы фактов содержат числовые данные, которые необходимо проанализировать. Таблицы фактов обычно имеют большое количество строк и являются основным источником данных для анализа. Например, таблица фактов может содержать общую сумму, оплачиваемую за заказы на продажу, которая произошла на определенную дату или в определенном магазине.
Таблицы измерений содержат описательные сведения о данных в таблицах фактов. Таблицы измерений обычно имеют небольшое количество строк и используются для предоставления контекста для данных в таблицах фактов. Например, таблица измерений может содержать сведения о клиентах, размещающих заказы на продажу.
Помимо столбцов для атрибутов таблица измерений содержит ключевой столбец для уникального ключа, который однозначно идентифицирует каждую строку в этой таблице. Более того, таблица измерений часто содержит два ключевых столбца.
- Суррогатный ключ — это уникальный идентификатор для каждой строки в таблице измерений. Это часто целочисленное значение, которое автоматически создается системой управления базами данных при вставке новой строки в таблицу.
- Альтернативный ключ часто является естественным или бизнес-ключом, определяющим конкретный экземпляр сущности в исходной системе транзакций, например код продукта или идентификатор клиента.
Вам нужны суррогатные и альтернативные ключи в хранилище данных, так как они служат различным целям. Суррогатные ключи относятся к хранилищу данных и помогают поддерживать согласованность и точность данных. С другой стороны, альтернативные ключи относятся к исходной системе и помогают поддерживать трассировку между хранилищем данных и исходной системой.
Специальные типы таблиц измерений
Специальные типы измерений обеспечивают дополнительный контекст и обеспечивают более полный анализ данных.
Измерения времени предоставляют сведения о периоде времени, в котором произошло событие. Эта таблица позволяет аналитикам данных агрегировать данные по временным интервалам. Например, измерение времени может содержать столбцы года, квартала, месяца и дня размещения заказа на продажу.
Медленно изменяющиеся измерения — это таблицы измерений, отслеживающие изменения атрибутов измерения с течением времени, например изменения адреса клиента или цены продукта. Они важны в хранилище данных, так как они позволяют пользователям анализировать и понимать изменения данных с течением времени. Медленно изменяющиеся измерения обеспечивают актуальность и точность данных, что является обязательным для принятия хороших бизнес-решений.
Примеры схем хранилища данных
В большинстве транзакционных баз данных, которые используются в бизнес-приложениях, данные нормализуются для снижения дублирования. Но в типичном хранилище данных, наоборот, данные измерений денормализуются, чтобы уменьшить количество соединений для получения данных.
Часто хранилище данных организовано как схеме типа звезда, в которой таблица фактов имеет прямые связи с таблицами измерений, как в следующем примере:
Атрибуты чего-то можно сгруппировать в таблице фактов на разных уровнях. Например, можно найти общий доход от продаж для всего региона или только для одного клиента. Сведения для каждого уровня можно хранить в одной таблице измерений.
Совет
Дополнительные сведения о проектировании схем звездочек для Fabric см. в статье "Что такое схема звезды".
Если существует много уровней или некоторые сведения разделяются различными вещами, то вместо этого может потребоваться использовать схему снежинки. Приведем пример:
В этом случае таблица DimProduct была разделена (нормализована) для создания отдельных таблиц измерений для категорий продуктов и поставщиков.
- Каждая строка в таблице DimProduct содержит значения ключей для соответствующих строк в таблицах DimCategory и DimSupplier.
Добавлена таблица DimGeography , содержащая сведения о расположении клиентов и магазинов.
- Каждая строка в таблицах DimCustomer и DimStore содержит ключевое значение для соответствующей строки в таблице DimGeography.