Поделиться через


Самостоятельная аналитика и аналитика (предварительная версия)

Примечание.

Каталог данных Microsoft Purview меняется на Единый каталог Microsoft Purview. Все функции останутся неизменными. Вы увидите изменение имени, когда новый интерфейс управления данными Microsoft Purview станет общедоступным в вашем регионе. Проверьте имя в регионе.

Самостоятельная аналитика и аналитика относятся к данным, инструментам и платформам, которые позволяют бизнес-пользователям получать доступ, анализировать и создавать аналитические сведения из данных независимо друг от друга. Приложение управления данными Purview публикует модели доменов и измерений метаданных и моделей метаданных в OneLake, позволяя клиентам анализировать и генерировать аналитические сведения, предоставляя собственные средства и вычисления. Самостоятельная аналитика метаданных управления данными полезна для непрерывного улучшения управления работоспособностью объектов данных клиентов и развития культуры на основе данных в организации путем демократизации доступа к аналитическим данным и управлению работоспособностью.

Ключевые компоненты

  • Модели данных: модели 3NF с сведениями о доменах и измерениях
  • Метаданные: Метаданные управления данными, в том числе:
    • Домены управления
    • продукты данных
    • ресурсы данных
    • Термины глоссария
    • запрос на подписку
    • правила качества данных
    • Размеры
    • оценки качества данных и многое другое будет в ближайшее время.

Преимущества

  • Возможностей: Позволяет специалистам по обработке данных, владельцам продуктов данных, диспетчерам данных и аналитикам изучать метаданные управления данными и связывать метаданные из различных источников для получения аналитических сведений.
  • Гибкость и эффективность. Клиент сможет создавать пользовательские отчеты в дополнение к встроенным отчетам в управлении работоспособностью.
  • Подвижность: Позволяет организациям клиентов быстрее реагировать на проблемы управления работоспособностью и исправления.
  • Рентабельный: Снижает потребность в настройке платформ и средств сборки. Все данные доступны в OneLake, и клиент сможет использовать доступные инструменты (семантическая модель Fabric, отчеты PBI, поток данных и записная книжка) в OneLake.

Доступные в настоящее время отчеты (по умолчанию)

Ниже приведены готовые отчеты. Эти отчеты не настраиваемы.

Снимок экрана: аналитические сведения о метаданных purview.

Подписка на метаданные каталога Microsoft Purview

Вы можете подписаться на метаданные управления данными Microsoft Purview для аналитики и получения аналитических сведений. Чтобы подписаться, выполните указанные ниже действия.

  1. В левой области выберите Параметры , каталог данных, а затем — интеграции решений.

    Снимок экрана, на котором показано, как перемещаться по странице подписки.

  2. Нажмите Изменить.

  3. Добавьте тип хранилища.

  4. Добавление URL-адреса расположения

  5. Добавьте имя папки в конце URL-адреса. Пример: /DEH (см. снимок экрана)

  6. Предоставьте участник доступ к microsoft Purview Manage Service Identity (MSI) к рабочей области структуры.

  7. Проверка подключения.

    Снимок экрана, на котором показано, как настроить подключение к подписке.

Модель данных метаданных самостоятельной аналитики

Модель предметной области 3NF является частью процесса нормализации в структуре реляционной базы данных, которая гарантирует, что база данных свободна от избыточности и обновлений аномалий. Схема базы данных находится в третьей обычной форме, если она соответствует требованиям первого и второго нормального Forms и все ее атрибуты функционально зависят только от первичного ключа. Модель предметной области 3NF используется для структурирования данных таким образом, чтобы свести к минимуму дублирование и обеспечить целостность данных. Основное внимание уделяется разбивке данных на более мелкие связанные таблицы, в которых каждый фрагмент информации хранится только один раз.

Характеристики:

  • Исключение транзитивных зависимостей. Неключевые атрибуты не должны зависеть от других неключевых атрибутов.
  • Логическое группирование. Данные логически группируются в домены в зависимости от их функции или значения.
  • Entity-Relationship диаграммы (ERD): обычно используется для представления моделей предметной области 3NF, показывающих, как сущности связаны друг с другом.
Имя таблицы Описание Ключи связи
Состояние подготовки политики доступа Сведения о состоянии подготовки хранятся в этой таблице. ProvisioningStateId
Тип ресурса политики доступа Сведения о ресурсах porlich для доступа хранятся в этой таблице. ResourceTypeId
Набор политик доступа В этой таблице хранятся общие сведения о политике доступа, сведения о вариантах использования политики, а также о том, где политика применила ее и т. д. AccessPolicySetId, ResourceTypeId, ProvisioningStateId
Классификация Сведения о классификации ресурсов данных хранятся в этой таблице. ClassificationId
Вариант использования пользовательского доступа Сведения о вариантах использования access хранятся в этой таблице. AccessPolicySetId
Ресурс данных Имя ресурса данных, описание и сведения об источнике хранятся в этой таблице. DataAssetId, AccountId, DataAssetTypeId
Столбец ресурса данных Имя столбца ресурса данных, описание столбца и ссылки хранятся в этой таблице. DataAssetId, ColumnId, DataAssetTypeId, DataTypeId, AccountId
Назначение столбцов для классификации активов данных Ссылочные ключи, связанные с классификацией данных, хранятся в этой таблице. DataAssetId, ColumnId, ClassificationId
Назначение домена ресурса данных Сведения, связанные с назначением домена для управления ресурсами данных, доступны в этой таблице. DataAssetId, BusinessDomainId
Владелец ресурса данных Сведения о владельце ресурса данных, хранящиеся в этой таблице. DataAssetOwnerId
Назначение владельца ресурса данных Сведения о назначении владельца ресурса данных хранятся в этой таблице. DataAssetId, DataAssetOwnerId
Тип данных типа ресурсов данных Сведения о типе ресурса данных хранятся в этой таблице. DataTypeId, DataAssetTypeId
Продукт данных Название продукта, описание, варианты использования, состояние и другие важные сведения, хранящиеся в этой таблице. DataProductId, DataProductTypeId, AccountId
Назначение ресурса продукта данных Сведения о продукте данных и назначении ресурсов данных хранятся в этой таблице. DataProductId, DataAssetId
Назначение домена управления data product Сведения о продукте данных и назначении домена управления хранятся в этой таблице. DataProductId, BusinessDomainId
Документация по продукту данных Справочная информация документации по продукту данных хранится в этой таблице. DataProductId, DocumentationId
Владелец продукта данных Сведения о владельце продукта данных хранятся в этой таблице. DataProductId, DataProductOwnerId
Состояние продукта данных Сведения о состоянии продукта данных (например, опубликованные или черновики), хранящиеся в этой таблице. DataProductStatusId
Условия использования продукта данных Сведения об условиях использования продукта данных хранятся в этой таблице. DataProductId, TermOfUsedId, DataAssetId
Тип продукта данных Сведения о типах продуктов данных — Master, Reference, Operational и т. д. хранятся в этой таблице. DataProductTypeId
Частота обновления продукта данных Сведения о том, как часто обновляются данные этого продукта данных, хранятся в этой таблице. UpdateFrequencyId
Выполнение правила ресурса качества данных Результаты проверки качества данных, хранящиеся в этой таблице RuleId, DataAssetId, JobExecutionId
Выполнение задания качества данных Состояние выполнения задания качества данных хранится в этой таблице. JobExecutionId
Правило качества данных Сведения о правилах качества данных хранятся в этой таблице. RuleId, RuleTypeId, BusinessDomainId, DataProductId, DataAssetId
Выполнение столбца правила качества данных В этой таблице хранятся сведения о количестве передаваемых и неудачных правил качества данных, оценке качества данных на уровне столбцов, а также сведения о выполнении заданий качества данных. RuleId, DataAssetId, ColumnId
Тип правила качества данных Тип правила качества данных и связанные с ним измерения хранятся в этой таблице. RuleTypeId
Запрос подписки на данные Сведения о подписчиках данных, примененных политиках, состоянии запроса подписки и других важных сведениях, хранящихся в этой таблице. SubscriberRequestId
Термин глоссария Сведения о термине глоссария, описании и общем состоянии термина глоссария хранятся в этой таблице. GlossaryTermId, ParentGlossaryTermId, AccountId
Назначение домена терминов управления терминами глоссария В этой таблице хранятся сведения о назначении доменов и состояниях терминов управления глоссариями. GlossaryTermId, BusinessDomainId
Назначение продукта терминов глоссария Сведения о назначении продукта терминов глоссария хранятся в этой таблице. GlossaryTermId, DataProductId
Утверждающий набор политик Набор политик и сведения утверждающего хранятся в этой таблице. SubscriberRequestId, AccessPolicySetId
Связь Сведения о типе источника и целевом объекте хранятся в этой таблице. AccountId, SourceId, TargetId

Создание семантической модели

Семантическая модель в контексте данных и аналитики относится к структурированным представлениям данных, определяющим смысл, связи и правила в определенной области. Он предоставляет уровень абстракции, который помогает пользователям понимать сложные данные и взаимодействовать с ними, делая их более интуитивно понятными и доступными, особенно в контексте бизнес-аналитики (BI) и платформ аналитики. Перед созданием отчетов всегда требуется семантическая модель. В хранилище пользователь может добавлять объекты хранилища — таблицы или представления в свою семантиковую модель Power BI по умолчанию. Они также могут добавлять другие свойства семантического моделирования, такие как иерархии и описания. Затем эти свойства используются для создания таблиц семантической модели Power BI. Пользователи также могут удалять объекты из семантической модели Power BI по умолчанию.

Чтобы повторно использовать семантиковую модель из области метаданных управления данными Microsoft Purview и моделей измерений, выполните следующие действия.

  1. Откройте хранилище в рабочей области Fabric.

  2. Публикация файлов моделей доменов и измерений в разностных таблицах

    1. Нажмите кнопку с многоточием (...)
    2. Выберите **Загрузить в таблицы > Новая таблица
    3. Новое имя таблицы предварительно заполнено
    4. Выберите Тип файла parquet.

    Снимок экрана: публикация в разностной таблице из Parquet вручную.

  3. Вы также можете использовать ярлык для сочетания доменов и измерений модели из OneLake и в OneLake.

    1. Нажмите кнопку с многоточием (...) таблицы
    2. Выберите Создать ярлык и выберите Microsoft OneLake на странице Новые источники ярлыков.
    3. Выбор таблицы моделей доменов и измерений для ярлыка

    Снимок экрана: публикация в разностной таблице с помощью ярлыка.

После публикации всех файлов в разностных таблицах вручную или с помощью ярлыка вы сможете добавить разностные таблицы в семантиковую модель.

  1. Перейдите на страницу конечной точки аналитики SQL со страницы Lakehouse.
  2. Выберите Отчеты в левом верхнем углу страницы конечной точки аналитики SQL .
  3. Выберите Управление семантической моделью по умолчанию.
  4. Выберите таблицы из таблиц dbo > , которые нужно добавить в семантическую модель для создания отчетов.

Снимок экрана: добавление таблицы в семантическую модель вручную.

Чтобы добавить такие объекты, как таблицы или представления, в семантику Power BI по умолчанию, выберите Автоматически обновлять семантиковую модель.

Снимок экрана: семантическая модель самостоятельной аналитики.

Создание отчета Power BI

Power BI изначально интегрирован во весь интерфейс Fabric. Эта встроенная интеграция включает в себя уникальный режим, называемый DirectLake, для доступа к данным из lakehouse для обеспечения наиболее эффективного выполнения запросов и отчетов. DirectLake — это новаторское новое решение, позволяющее анализировать очень большие семантические модели в Power BI. С помощью DirectLake вы загружаете файлы в формате Parquet непосредственно из озера данных, не запрашивая хранилище данных или конечную точку lakehouse, а также не импортируя или дублируя данные в семантической модели Power BI. DirectLake — это быстрый путь для загрузки данных из озера данных непосредственно в подсистему Power BI, готовую к анализу.

В традиционном режиме DirectQuery подсистема Power BI напрямую запрашивает данные из источника для каждого выполнения запроса, а производительность запроса зависит от скорости получения данных. DirectQuery устраняет необходимость копирования данных, гарантируя, что любые изменения в источнике немедленно отражаются в результатах запроса.

Дополнительные сведения см. в руководстве по созданию отчета Power BI в Microsoft Fabric.

Важно!

  • Цикл обновления по умолчанию — каждые 24 часа.
  • Purview MSI требуется участник доступ к рабочей области Fabric.
  • Поддержка Fabric OneLake доступна в общедоступной предварительной версии. Вы можете подписаться на метаданные purview из любого поддерживаемого региона Azure для публикации в рабочей области Fabric для самостоятельной аналитики.
  • Поддержка ADLSg2 доступна в закрытой предварительной версии. Чтобы подписаться на метаданные Purview для хранилища ADLSg2, обратитесь в группу по работе с учетными записями Майкрософт или службу поддержки клиентов, чтобы получить список разрешений для вашего клиента. Для списка разрешений необходимо указать следующие сведения: идентификатор клиента, название организации, имя учетной записи Purview, идентификатор учетной записи Purview, регион Azure и идентификатор подписки Azure.

Ожидается в ближайшее время

  • Поддержка ADLSg2 в настоящее время находится в закрытой предварительной версии. Общедоступная предварительная версия запланирована на 30 ноября 2024 г.
  • Планирование задания обновления данных пока не поддерживается. Предварительная ETA для этой функции — 30 ноября.