Самостоятельная аналитика и аналитика (предварительная версия)
Самостоятельная аналитика и аналитика — это данные, инструменты и платформы, которые позволяют бизнес-пользователям получать доступ к данным, анализировать и создавать аналитические сведения из данных независимо. Приложение управления данными Microsoft Purview публикует модель метаданных домена в Структурах OneLake и AdlsG2 (хранилище Azure Data Lake), позволяя клиентам анализировать и генерировать аналитические сведения, предоставляя собственные средства и вычислительные ресурсы. Самостоятельная аналитика метаданных управления данными полезна для непрерывного улучшения управления работоспособностью объектов данных клиентов и развития культуры на основе данных в организации путем демократизации доступа к аналитическим данным и управлению работоспособностью.
Ключевые компоненты
- Модель данных: модель 3NF с сведениями о доменах и измерениях
-
Метаданные: Метаданные управления данными, в том числе:
- Домены управления
- продукты данных
- ресурсы данных
- Термины глоссария
- запрос на подписку
- правила качества данных
- Размеры
- факты о качестве данных (количество проходов и неудач)
Преимущества
- Возможностей: Позволяет специалистам по обработке данных, владельцам продуктов данных, диспетчерам данных и аналитикам изучать метаданные управления данными и связывать метаданные из различных источников для получения аналитических сведений.
- Гибкость и эффективность. Клиент сможет создавать пользовательские отчеты в дополнение к встроенным отчетам в управлении работоспособностью.
- Подвижность: Позволяет организациям клиентов быстрее реагировать на проблемы управления работоспособностью и исправления.
- Рентабельный: Снижает потребность в настройке платформ и средств сборки. Все данные доступны в OneLake, и клиент сможет использовать доступные инструменты (семантическая модель Fabric, отчеты PBI, поток данных и записная книжка) в OneLake.
Доступные в настоящее время отчеты (по умолчанию)
Ниже приведены готовые отчеты. Эти отчеты не настраиваемы.
- Классические ресурсы — обзор ресурсов по типу и коллекции, а также состояние их курирования.
- Внедрение классического каталога позволяет быстро понять, как используется Единый каталог. ваш глоссарий, предоставляющий snapshot терминов и их состояние.
- Классические классификации — обзор классифицированных активов и типов классификаций.
- Классическое управление данными — обзор классифицированных активов и типов классификаций.
- Классический глоссарий - здоровье и использование терминов глоссария.
- Классические метки конфиденциальности — обзор активов, к которым применены метки конфиденциальности, и применяемых типов меток.
- Управление данными . Отчет о работоспособности системы управления данными позволяет вашей команде быстро отслеживать ход работы и определять области, требующие дополнительной работы.
- Работоспособность данных — отчеты о производительности измерений качества данных и правил качества данных.
Модель данных для метаданных самостоятельной аналитики
Модель предметной области 3NF является частью процесса нормализации в структуре реляционной базы данных, которая гарантирует, что база данных свободна от избыточности и обновлений аномалий. Схема базы данных находится в третьей обычной форме, если она соответствует требованиям первого и второго нормального Forms и все ее атрибуты функционально зависят только от первичного ключа. Модель предметной области 3NF используется для структурирования данных таким образом, чтобы свести к минимуму дублирование и обеспечить целостность данных. Основное внимание уделяется разбивке данных на более мелкие связанные таблицы, в которых каждый фрагмент информации хранится только один раз.
Характеристики:
- Исключение транзитивных зависимостей. Неключевые атрибуты не должны зависеть от других неключевых атрибутов.
- Логическое группирование. Данные логически группируются в домены в зависимости от их функции или значения.
- Entity-Relationship диаграммы (ERD): обычно используется для представления моделей предметной области 3NF, показывающих, как сущности связаны друг с другом.
Имя таблицы | Описание | Ключи связи |
---|---|---|
Состояние подготовки политики доступа | Сведения о состоянии подготовки хранятся в этой таблице. | ProvisioningStateId |
Тип ресурса политики доступа | Сведения о ресурсах porlich для доступа хранятся в этой таблице. | ResourceTypeId |
Набор политик доступа | В этой таблице хранятся общие сведения о политике доступа, сведения о вариантах использования политики, а также о том, где политика применила ее и т. д. | AccessPolicySetId (UniqueId), ResourceTypeId (FK), ProvisioningStateId (FK) |
Бизнес-домен | Бизнес-доменное имя, описание, состояние и сведения о владельцах публикуются в таблице доменов бизнес- | Родительский бизнес-домен (FK), созданный идентификатором пользователя (FK), последний раз изменен идентификатором пользователя (FK) |
Классификация | Сведения о классификации ресурсов данных хранятся в этой таблице. | ClassificationId |
Вариант использования пользовательского доступа | Сведения о вариантах использования access хранятся в этой таблице. | AccessPolicySetId |
Ресурс данных | Имя ресурса данных, описание и сведения об источнике хранятся в этой таблице. | DataAssetId (UniqueId), DataAssetTypeId (FK), CreatedByUserId (FK), LastModifiedByUserId (FK) |
Столбец ресурса данных | Имя столбца ресурса данных, описание столбца и ссылки хранятся в этой таблице. | DataAssetId (FK), ColumnId (Unique), DataAssetTypeId (FK), DataTypeId (FK), Created By User Id (FK), Last Modified by User Id (FK) |
Назначение столбцов для классификации активов данных | Ссылочные ключи, связанные с классификацией данных, хранятся в этой таблице. | DataAssetId (FK), ColumnId (FK), ClassificationId (FK) |
Назначение домена ресурса данных | Сведения, связанные с назначением домена для управления ресурсами данных, доступны в этой таблице. | DataAssetId (FK), BusinessDomainId (FK), AssignedByUserId (FK) |
Владелец ресурса данных | Сведения о владельце ресурса данных, хранящиеся в этой таблице. | DataAssetOwnerId |
Назначение владельца ресурса данных | Сведения о назначении владельца ресурса данных хранятся в этой таблице. | DataAssetId, DataAssetOwnerId |
Тип данных типа ресурсов данных | Сведения о типе ресурса данных хранятся в этой таблице. | DataTypeId (UniqueId), DataAssetTypeId (FK) |
Продукт данных | Название продукта, описание, варианты использования, состояние и другие важные сведения, хранящиеся в этой таблице. | DataProductId (UniqueId), DataProductTypeId (FK), DataProductStatusId (FK), UpdateFrequencyId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK) |
Назначение ресурса продукта данных | Сведения о продукте данных и назначении ресурсов данных хранятся в этой таблице. | DataProductId, DataAssetId |
Назначение домена бизнес-продукта данных | Сведения о продукте данных и назначении домена управления хранятся в этой таблице. | DataProductId (FK), BusinessDomainId (FK), AssignedByUserId (FK) |
Документация по продукту данных | Справочная информация документации по продукту данных хранится в этой таблице. | DataProductId, DocumentationId |
Владелец продукта данных | Сведения о владельце продукта данных хранятся в этой таблице. | DataProductId, DataProductOwnerId |
Состояние продукта данных | Сведения о состоянии продукта данных (например, опубликованные или черновики), хранящиеся в этой таблице. | DataProductStatusId |
Условия использования продукта данных | Сведения об условиях использования продукта данных хранятся в этой таблице. | DataProductId, TermOfUsedId, DataAssetId |
Тип продукта данных | Сведения о типах продуктов данных — Master, Reference, Operational и т. д. хранятся в этой таблице. | DataProductTypeId |
Частота обновления продукта данных | Сведения о том, как часто обновляются данные этого продукта данных, хранятся в этой таблице. | UpdateFrequencyId |
Выполнение правила ресурса качества данных | Результаты проверки качества данных, хранящиеся в этой таблице | RuleId (FK), DataAssetId (FK), JobExecutionId (FK) |
Выполнение задания качества данных | Состояние выполнения задания качества данных хранится в этой таблице. | JobExecutionId (UniqueId) |
Правило качества данных | Сведения о правилах качества данных хранятся в этой таблице. | RuleId (UniqueId), RuleTypeId (FK), BusinessDomainId (FK), DataProductId (FK), DataAssetId (FK), JobTypeDisplayName (FK), RuleOriginDisplayName (FK), RuleTargetObjectType (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK) |
Выполнение столбца правила качества данных | В этой таблице хранятся сведения о количестве передаваемых и неудачных правил качества данных, оценке качества данных на уровне столбцов, а также сведения о выполнении заданий качества данных. | RuleId (FK), DataAssetId (FK), ColumnId (FK), JobExecutionId (FK) |
Тип правила качества данных | Тип правила качества данных и связанные с ним измерения хранятся в этой таблице. | RuleTypeId (UniqueId), DimensionDisplayName (FK) |
Запрос подписки на данные | Сведения о подписчиках данных, примененных политиках, состоянии запроса подписки и других важных сведениях, хранящихся в этой таблице. | SubscriberRequestId (UniqueId), SubscriberIdentityTypeDisplayName (FK), RequestorIdentityTypeDisplayName (FK), RequestorStatusDisplayName (FK) |
Термин глоссария | Сведения о термине глоссария, описании и общем состоянии термина глоссария хранятся в этой таблице. | GlossaryTermId (UniqueId), ParentGlossaryTermId (FK), CreatedByUserId (FK), LastModifiedByUserId (FK) |
Назначение бизнес-домена терминов глоссария | В этой таблице хранятся сведения о назначении доменов и состояниях терминов управления глоссариями. | GlossaryTermId (FK), BusinessDomainId (FK), AssignedByUserId (FK), GlossaryTermStatusId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK) |
Назначение продукта терминов глоссария | Сведения о назначении продукта терминов глоссария хранятся в этой таблице. | GlossaryTermId (FK), DataProductId (FK), AssignedByUserId (FK), GlossaryTermStatusId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK) |
Утверждающий набор политик | Набор политик и сведения утверждающего хранятся в этой таблице. | SubscriberRequestId (FK), AccessPolicySetId (FK), ApproverUserId (FK) |
Связь | Сведения о типе источника и целевом объекте хранятся в этой таблице. | AccountId, SourceId, TargetId |
Подписка на метаданные каталога Microsoft Purview на Fabric OneLake
Вы можете подписаться на метаданные управления данными Microsoft Purview для аналитики и получить аналитические сведения, выполнив следующие действия.
Выберите Параметры в области слева, выберите Единый каталог, а затем — интеграции решений.
Нажмите Изменить.
Добавить тип хранилища и включить настройку.
Добавление URL-адреса расположения (пример:
https://onelake.dfs.fabric.microsoft.com/workspace name/lakehouse name/Files/purviewmetadata
)- Выберите Свойства , чтобы скопировать URL-адрес.
- Скопируйте URL-адрес со страницы Свойства .
Добавьте имя папки в конце URL-адреса. Пример: /DEH (см. снимок экрана)
Предоставление участник доступ к microsoft Purview Manage Service Identity (MSI) в рабочую область Fabric.
Проверка подключения.
Нажмите кнопку Сохранить , чтобы сохранить конфигурацию, чтобы опубликовать метаданные Purview в рабочей области OneLake.
Создание семантической модели в OneLake
Семантическая модель в контексте данных и аналитики относится к структурированным представлениям данных, определяющим смысл, связи и правила в определенной области. Он предоставляет уровень абстракции, который помогает пользователям понимать сложные данные и взаимодействовать с ними, делая их более интуитивно понятными и доступными, особенно в контексте бизнес-аналитики (BI) и платформ аналитики. Перед созданием отчетов всегда требуется семантическая модель. В хранилище пользователь может добавлять объекты хранилища — таблицы или представления в свою семантиковую модель Power BI по умолчанию. Они также могут добавлять другие свойства семантического моделирования, такие как иерархии и описания. Затем эти свойства используются для создания таблиц семантической модели Power BI. Пользователи также могут удалять объекты из семантической модели Power BI по умолчанию.
Чтобы создать семантиковую модель на основе модели домена метаданных управления данными Microsoft Purview, выполните следующие действия.
- Откройте Lakehouse в рабочей области Fabric.
Использование ярлыка для создания ярлыка модели предметной области из OneLake и в OneLake
- Нажмите кнопку с многоточием (...) таблицы
- Выберите Создать ярлык и выберите Microsoft OneLake на странице Новые источники ярлыков.
- Выбор таблицы модели доменов для ярлыка
После публикации всех файлов в разностных таблицах с помощью ярлыка вы сможете добавить разностные таблицы в семантиковую модель.
- Перейдите на страницу конечной точки аналитики SQL со страницы Lakehouse.
- Выберите Отчеты в левом верхнем углу страницы конечной точки аналитики SQL .
- Выберите Управление семантической моделью по умолчанию.
- Выберите таблицы из таблиц dbo > , которые нужно добавить в семантическую модель для создания отчетов.
Чтобы добавить такие объекты, как таблицы или представления, в семантику Power BI по умолчанию, выберите Автоматически обновлять семантиковую модель.
Примечание.
Необходимо нарисовать связь семантической модели вручную с помощью ключей связей.
Подписка на метаданные каталога Microsoft Purview на хранилище AdlsG2
Вы можете подписаться на метаданные управления данными Microsoft Purview для публикации и хранения в хранилище AdlsG2 для аналитики и получения аналитических сведений, выполнив следующие действия.
Выберите Параметры в области слева, выберите Единый каталог, а затем — интеграции решений.
Нажмите Изменить.
Выберите Тип хранилища. и включено настройка.
Добавьте URL-адрес расположения. Это должен быть путь AdlsG2 + "/(имя контейнера)".
- Перейдите к portal.azure.com
- Выбор хранилища adlsg2 (главная > adlsg2)
- Перейдите > в раздел ПараметрыКонечные точки и выберите Основная конечная точка хранилища озера данных.
Предоставление участнику данных BLOB-объектов хранилища доступа к microsoft Purview Manage Service Identity (MSI) к контейнеру AdlsG2
Проверка подключения.
Перейдите на вкладку Сохранить , чтобы сохранить конфигурацию для публикации модели домена в хранилище adlsg2.
Просмотр опубликованной модели и данных
Открыть portal.azure.com
Выбор хранилища adlsg2
Выберите контейнер, добавленный с помощью конечной точки adlsg2 в purview
Просмотр списка разностных файлов Parquet, опубликованных в контейнере.
Просмотр опубликованной модели и метаданных (см. изображения ниже).
Создание отчета Power BI
Power BI изначально интегрирован во весь интерфейс Fabric. Эта встроенная интеграция включает в себя уникальный режим, называемый DirectLake, для доступа к данным из lakehouse для обеспечения наиболее эффективного выполнения запросов и отчетов. DirectLake — это новаторское новое решение, которое позволяет анализировать большие семантические модели в Power BI. С помощью DirectLake вы загружаете файлы в формате Parquet непосредственно из озера данных, не запрашивая хранилище данных или конечную точку lakehouse, а также не импортируя или дублируя данные в семантической модели Power BI. DirectLake — это быстрый путь для загрузки данных из озера данных непосредственно в подсистему Power BI, готовую к анализу.
В традиционном режиме DirectQuery подсистема Power BI напрямую запрашивает данные из источника для каждого выполнения запроса, а производительность запроса зависит от скорости получения данных. DirectQuery устраняет необходимость копирования данных, гарантируя, что любые изменения в источнике немедленно отражаются в результатах запроса.
Дополнительные сведения см. в руководстве по созданию отчета Power BI в Microsoft Fabric.
Важно!
- Цикл обновления по умолчанию — каждые 24 часа.
- Если вы подписываетесь на метаданные Microsoft Purview для публикации в рабочей области Fabric, msi Purview требуется участник доступ к рабочей области Fabric.
- Если вы подписываетесь на метаданные purview для публикации в контейнере adlsg2, Purview MSI требуется доступ участнику данных BLOB-объектов хранилища к Azure Data Lake Storage 2-го поколения.
Примечание.
- Планирование задания обновления данных не поддерживается.
- Виртуальная сеть не поддерживается.