Поделиться через


Самостоятельная аналитика и аналитика (предварительная версия)

Самостоятельная аналитика и аналитика — это данные, инструменты и платформы, которые позволяют бизнес-пользователям получать доступ к данным, анализировать и создавать аналитические сведения из данных независимо. Приложение управления данными Microsoft Purview публикует модель метаданных домена в Структурах OneLake и AdlsG2 (хранилище Azure Data Lake), позволяя клиентам анализировать и генерировать аналитические сведения, предоставляя собственные средства и вычислительные ресурсы. Самостоятельная аналитика метаданных управления данными полезна для непрерывного улучшения управления работоспособностью объектов данных клиентов и развития культуры на основе данных в организации путем демократизации доступа к аналитическим данным и управлению работоспособностью.

Ключевые компоненты

  • Модель данных: модель 3NF с сведениями о доменах и измерениях
  • Метаданные: Метаданные управления данными, в том числе:
    • Домены управления
    • продукты данных
    • ресурсы данных
    • Термины глоссария
    • запрос на подписку
    • правила качества данных
    • Размеры
    • факты о качестве данных (количество проходов и неудач)

Преимущества

  • Возможностей: Позволяет специалистам по обработке данных, владельцам продуктов данных, диспетчерам данных и аналитикам изучать метаданные управления данными и связывать метаданные из различных источников для получения аналитических сведений.
  • Гибкость и эффективность. Клиент сможет создавать пользовательские отчеты в дополнение к встроенным отчетам в управлении работоспособностью.
  • Подвижность: Позволяет организациям клиентов быстрее реагировать на проблемы управления работоспособностью и исправления.
  • Рентабельный: Снижает потребность в настройке платформ и средств сборки. Все данные доступны в OneLake, и клиент сможет использовать доступные инструменты (семантическая модель Fabric, отчеты PBI, поток данных и записная книжка) в OneLake.

Доступные в настоящее время отчеты (по умолчанию)

Ниже приведены готовые отчеты. Эти отчеты не настраиваемы.

Снимок экрана: аналитические сведения о метаданных purview.

Модель данных для метаданных самостоятельной аналитики

Модель предметной области 3NF является частью процесса нормализации в структуре реляционной базы данных, которая гарантирует, что база данных свободна от избыточности и обновлений аномалий. Схема базы данных находится в третьей обычной форме, если она соответствует требованиям первого и второго нормального Forms и все ее атрибуты функционально зависят только от первичного ключа. Модель предметной области 3NF используется для структурирования данных таким образом, чтобы свести к минимуму дублирование и обеспечить целостность данных. Основное внимание уделяется разбивке данных на более мелкие связанные таблицы, в которых каждый фрагмент информации хранится только один раз.

Характеристики:

  • Исключение транзитивных зависимостей. Неключевые атрибуты не должны зависеть от других неключевых атрибутов.
  • Логическое группирование. Данные логически группируются в домены в зависимости от их функции или значения.
  • Entity-Relationship диаграммы (ERD): обычно используется для представления моделей предметной области 3NF, показывающих, как сущности связаны друг с другом.
Имя таблицы Описание Ключи связи
Состояние подготовки политики доступа Сведения о состоянии подготовки хранятся в этой таблице. ProvisioningStateId
Тип ресурса политики доступа Сведения о ресурсах porlich для доступа хранятся в этой таблице. ResourceTypeId
Набор политик доступа В этой таблице хранятся общие сведения о политике доступа, сведения о вариантах использования политики, а также о том, где политика применила ее и т. д. AccessPolicySetId (UniqueId), ResourceTypeId (FK), ProvisioningStateId (FK)
Бизнес-домен Бизнес-доменное имя, описание, состояние и сведения о владельцах публикуются в таблице доменов бизнес- Родительский бизнес-домен (FK), созданный идентификатором пользователя (FK), последний раз изменен идентификатором пользователя (FK)
Классификация Сведения о классификации ресурсов данных хранятся в этой таблице. ClassificationId
Вариант использования пользовательского доступа Сведения о вариантах использования access хранятся в этой таблице. AccessPolicySetId
Ресурс данных Имя ресурса данных, описание и сведения об источнике хранятся в этой таблице. DataAssetId (UniqueId), DataAssetTypeId (FK), CreatedByUserId (FK), LastModifiedByUserId (FK)
Столбец ресурса данных Имя столбца ресурса данных, описание столбца и ссылки хранятся в этой таблице. DataAssetId (FK), ColumnId (Unique), DataAssetTypeId (FK), DataTypeId (FK), Created By User Id (FK), Last Modified by User Id (FK)
Назначение столбцов для классификации активов данных Ссылочные ключи, связанные с классификацией данных, хранятся в этой таблице. DataAssetId (FK), ColumnId (FK), ClassificationId (FK)
Назначение домена ресурса данных Сведения, связанные с назначением домена для управления ресурсами данных, доступны в этой таблице. DataAssetId (FK), BusinessDomainId (FK), AssignedByUserId (FK)
Владелец ресурса данных Сведения о владельце ресурса данных, хранящиеся в этой таблице. DataAssetOwnerId
Назначение владельца ресурса данных Сведения о назначении владельца ресурса данных хранятся в этой таблице. DataAssetId, DataAssetOwnerId
Тип данных типа ресурсов данных Сведения о типе ресурса данных хранятся в этой таблице. DataTypeId (UniqueId), DataAssetTypeId (FK)
Продукт данных Название продукта, описание, варианты использования, состояние и другие важные сведения, хранящиеся в этой таблице. DataProductId (UniqueId), DataProductTypeId (FK), DataProductStatusId (FK), UpdateFrequencyId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK)
Назначение ресурса продукта данных Сведения о продукте данных и назначении ресурсов данных хранятся в этой таблице. DataProductId, DataAssetId
Назначение домена бизнес-продукта данных Сведения о продукте данных и назначении домена управления хранятся в этой таблице. DataProductId (FK), BusinessDomainId (FK), AssignedByUserId (FK)
Документация по продукту данных Справочная информация документации по продукту данных хранится в этой таблице. DataProductId, DocumentationId
Владелец продукта данных Сведения о владельце продукта данных хранятся в этой таблице. DataProductId, DataProductOwnerId
Состояние продукта данных Сведения о состоянии продукта данных (например, опубликованные или черновики), хранящиеся в этой таблице. DataProductStatusId
Условия использования продукта данных Сведения об условиях использования продукта данных хранятся в этой таблице. DataProductId, TermOfUsedId, DataAssetId
Тип продукта данных Сведения о типах продуктов данных — Master, Reference, Operational и т. д. хранятся в этой таблице. DataProductTypeId
Частота обновления продукта данных Сведения о том, как часто обновляются данные этого продукта данных, хранятся в этой таблице. UpdateFrequencyId
Выполнение правила ресурса качества данных Результаты проверки качества данных, хранящиеся в этой таблице RuleId (FK), DataAssetId (FK), JobExecutionId (FK)
Выполнение задания качества данных Состояние выполнения задания качества данных хранится в этой таблице. JobExecutionId (UniqueId)
Правило качества данных Сведения о правилах качества данных хранятся в этой таблице. RuleId (UniqueId), RuleTypeId (FK), BusinessDomainId (FK), DataProductId (FK), DataAssetId (FK), JobTypeDisplayName (FK), RuleOriginDisplayName (FK), RuleTargetObjectType (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK)
Выполнение столбца правила качества данных В этой таблице хранятся сведения о количестве передаваемых и неудачных правил качества данных, оценке качества данных на уровне столбцов, а также сведения о выполнении заданий качества данных. RuleId (FK), DataAssetId (FK), ColumnId (FK), JobExecutionId (FK)
Тип правила качества данных Тип правила качества данных и связанные с ним измерения хранятся в этой таблице. RuleTypeId (UniqueId), DimensionDisplayName (FK)
Запрос подписки на данные Сведения о подписчиках данных, примененных политиках, состоянии запроса подписки и других важных сведениях, хранящихся в этой таблице. SubscriberRequestId (UniqueId), SubscriberIdentityTypeDisplayName (FK), RequestorIdentityTypeDisplayName (FK), RequestorStatusDisplayName (FK)
Термин глоссария Сведения о термине глоссария, описании и общем состоянии термина глоссария хранятся в этой таблице. GlossaryTermId (UniqueId), ParentGlossaryTermId (FK), CreatedByUserId (FK), LastModifiedByUserId (FK)
Назначение бизнес-домена терминов глоссария В этой таблице хранятся сведения о назначении доменов и состояниях терминов управления глоссариями. GlossaryTermId (FK), BusinessDomainId (FK), AssignedByUserId (FK), GlossaryTermStatusId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK)
Назначение продукта терминов глоссария Сведения о назначении продукта терминов глоссария хранятся в этой таблице. GlossaryTermId (FK), DataProductId (FK), AssignedByUserId (FK), GlossaryTermStatusId (FK), CreatedByUserId (FK), LastUpdatedByUserId (FK)
Утверждающий набор политик Набор политик и сведения утверждающего хранятся в этой таблице. SubscriberRequestId (FK), AccessPolicySetId (FK), ApproverUserId (FK)
Связь Сведения о типе источника и целевом объекте хранятся в этой таблице. AccountId, SourceId, TargetId

Подписка на метаданные каталога Microsoft Purview на Fabric OneLake

Вы можете подписаться на метаданные управления данными Microsoft Purview для аналитики и получить аналитические сведения, выполнив следующие действия.

  1. Выберите Параметры в области слева, выберите Единый каталог, а затем — интеграции решений.

    Снимок экрана, на котором показано, как перемещаться по странице подписки.

  2. Нажмите Изменить.

  3. Добавить тип хранилища и включить настройку.

  4. Добавление URL-адреса расположения (пример: https://onelake.dfs.fabric.microsoft.com/workspace name/lakehouse name/Files/purviewmetadata)

    • Выберите Свойства , чтобы скопировать URL-адрес.

Снимок экрана: настройка URL-адреса структуры 1.

  • Скопируйте URL-адрес со страницы Свойства .

Снимок экрана: настройка URL-адреса структуры 2.

  1. Добавьте имя папки в конце URL-адреса. Пример: /DEH (см. снимок экрана)

  2. Предоставление участник доступ к microsoft Purview Manage Service Identity (MSI) в рабочую область Fabric.

  3. Проверка подключения.

    Снимок экрана, на котором показано, как настроить подключение к подписке.

  4. Нажмите кнопку Сохранить , чтобы сохранить конфигурацию, чтобы опубликовать метаданные Purview в рабочей области OneLake.

Создание семантической модели в OneLake

Семантическая модель в контексте данных и аналитики относится к структурированным представлениям данных, определяющим смысл, связи и правила в определенной области. Он предоставляет уровень абстракции, который помогает пользователям понимать сложные данные и взаимодействовать с ними, делая их более интуитивно понятными и доступными, особенно в контексте бизнес-аналитики (BI) и платформ аналитики. Перед созданием отчетов всегда требуется семантическая модель. В хранилище пользователь может добавлять объекты хранилища — таблицы или представления в свою семантиковую модель Power BI по умолчанию. Они также могут добавлять другие свойства семантического моделирования, такие как иерархии и описания. Затем эти свойства используются для создания таблиц семантической модели Power BI. Пользователи также могут удалять объекты из семантической модели Power BI по умолчанию.

Чтобы создать семантиковую модель на основе модели домена метаданных управления данными Microsoft Purview, выполните следующие действия.

  1. Откройте Lakehouse в рабочей области Fabric.
  1. Использование ярлыка для создания ярлыка модели предметной области из OneLake и в OneLake

    1. Нажмите кнопку с многоточием (...) таблицы
    2. Выберите Создать ярлык и выберите Microsoft OneLake на странице Новые источники ярлыков.
    3. Выбор таблицы модели доменов для ярлыка

    Снимок экрана: публикация в разностной таблице с помощью ярлыка.

После публикации всех файлов в разностных таблицах с помощью ярлыка вы сможете добавить разностные таблицы в семантиковую модель.

  1. Перейдите на страницу конечной точки аналитики SQL со страницы Lakehouse.
  2. Выберите Отчеты в левом верхнем углу страницы конечной точки аналитики SQL .
  3. Выберите Управление семантической моделью по умолчанию.
  4. Выберите таблицы из таблиц dbo > , которые нужно добавить в семантическую модель для создания отчетов.

Снимок экрана: добавление таблицы в семантическую модель вручную.

Чтобы добавить такие объекты, как таблицы или представления, в семантику Power BI по умолчанию, выберите Автоматически обновлять семантиковую модель.

Снимок экрана: семантическая модель самостоятельной аналитики.

Примечание.

Необходимо нарисовать связь семантической модели вручную с помощью ключей связей.

Подписка на метаданные каталога Microsoft Purview на хранилище AdlsG2

Вы можете подписаться на метаданные управления данными Microsoft Purview для публикации и хранения в хранилище AdlsG2 для аналитики и получения аналитических сведений, выполнив следующие действия.

  1. Выберите Параметры в области слева, выберите Единый каталог, а затем — интеграции решений.

    Снимок экрана, на котором показано, как перемещаться по странице подписки для adlsg2.

  2. Нажмите Изменить.

  3. Выберите Тип хранилища. и включено настройка.

  4. Добавьте URL-адрес расположения. Это должен быть путь AdlsG2 + "/(имя контейнера)".

    1. Перейдите к portal.azure.com
    2. Выбор хранилища adlsg2 (главная > adlsg2)
    3. Перейдите > в раздел ПараметрыКонечные точки и выберите Основная конечная точка хранилища озера данных.
  5. Предоставление участнику данных BLOB-объектов хранилища доступа к microsoft Purview Manage Service Identity (MSI) к контейнеру AdlsG2

  6. Проверка подключения.

    Обзор модели

  7. Перейдите на вкладку Сохранить , чтобы сохранить конфигурацию для публикации модели домена в хранилище adlsg2.

Просмотр опубликованной модели и данных

  1. Открыть portal.azure.com

  2. Выбор хранилища adlsg2

  3. Выберите контейнер, добавленный с помощью конечной точки adlsg2 в purview

  4. Просмотр списка разностных файлов Parquet, опубликованных в контейнере.

  5. Просмотр опубликованной модели и метаданных (см. изображения ниже).

    Снимок экрана: настройка подключения к подписке в контейнере adlsg2.

    Просмотр файлов модели

Создание отчета Power BI

Power BI изначально интегрирован во весь интерфейс Fabric. Эта встроенная интеграция включает в себя уникальный режим, называемый DirectLake, для доступа к данным из lakehouse для обеспечения наиболее эффективного выполнения запросов и отчетов. DirectLake — это новаторское новое решение, которое позволяет анализировать большие семантические модели в Power BI. С помощью DirectLake вы загружаете файлы в формате Parquet непосредственно из озера данных, не запрашивая хранилище данных или конечную точку lakehouse, а также не импортируя или дублируя данные в семантической модели Power BI. DirectLake — это быстрый путь для загрузки данных из озера данных непосредственно в подсистему Power BI, готовую к анализу.

В традиционном режиме DirectQuery подсистема Power BI напрямую запрашивает данные из источника для каждого выполнения запроса, а производительность запроса зависит от скорости получения данных. DirectQuery устраняет необходимость копирования данных, гарантируя, что любые изменения в источнике немедленно отражаются в результатах запроса.

Дополнительные сведения см. в руководстве по созданию отчета Power BI в Microsoft Fabric.

Важно!

  • Цикл обновления по умолчанию — каждые 24 часа.
  • Если вы подписываетесь на метаданные Microsoft Purview для публикации в рабочей области Fabric, msi Purview требуется участник доступ к рабочей области Fabric.
  • Если вы подписываетесь на метаданные purview для публикации в контейнере adlsg2, Purview MSI требуется доступ участнику данных BLOB-объектов хранилища к Azure Data Lake Storage 2-го поколения.

Примечание.

  • Планирование задания обновления данных не поддерживается.
  • Виртуальная сеть не поддерживается.