Поделиться через


Качество данных для хранилища данных Fabric Lakehouse (закрытая предварительная версия)

Примечание.

Каталог данных Microsoft Purview меняется на Единый каталог Microsoft Purview. Все функции останутся неизменными. Вы увидите изменение имени, когда новый интерфейс управления данными Microsoft Purview станет общедоступным в вашем регионе. Проверьте имя в регионе.

Структура OneLake — это единое единое логическое озеро данных для всей организации. Озеро данных обрабатывает большие объемы данных из различных источников. Как и OneDrive, OneLake автоматически поставляется с каждым клиентом Microsoft Fabric и предназначен для единого места для всех аналитических данных. OneLake предоставляет клиентам:

  • Одно озеро данных для всей организации
  • Одна копия данных для использования с несколькими аналитическими механизмами

OneLake стремится предоставить вам максимально возможную ценность из одной копии данных без перемещения или дублирования данных. Вам больше не нужно копировать данные только для того, чтобы использовать их с другой подсистемой или разорвать разрозненные, чтобы вы могли анализировать данные с данными из других источников. Microsoft Purview можно использовать для каталогизации пространства данных структуры и измерения качества данных, чтобы управлять действиями по улучшению и управлять ими.

Вы можете использовать ярлык для ссылки на данные, хранящиеся в других расположениях файлов. Эти расположения файлов могут находиться в одной рабочей области или в разных рабочих областях, в OneLake или за пределами OneLake в Azure Data Lake Storage (ADLS), AWS S3 или Dataverse с дополнительными целевыми расположениями в ближайшее время. Расположение источника данных не имеет большого значения. Сочетания клавиш OneLake делают файлы и папки похожими на то, что они хранятся локально. Когда команды работают независимо в отдельных рабочих областях, ярлыки позволяют объединять данные из разных бизнес-групп и доменов в виртуальный продукт данных в соответствии с конкретными потребностями пользователя.

Зеркальное отображение можно использовать для объединения данных из различных источников в Структуру Зеркальное отображение в Fabric — это недорогое решение с низкой задержкой для объединения данных из различных систем в единую платформу аналитики. Вы можете непрерывно реплицировать существующее пространство данных непосредственно в OneLake структуры, включая данные из базы данных Azure SQL, Azure Cosmos DB и Snowflake. Благодаря самым актуальным данным в запрашиваемом формате в OneLake теперь можно использовать все различные службы в Fabric. Например, выполнение аналитики с помощью Spark, выполнение записных книжек, проектирование данных, визуализация с помощью отчетов Power BI и многое другое. Затем разностные таблицы можно использовать везде Fabric, что позволяет пользователям ускорить переход к Fabric.

Настройка сканирования карты данных

Чтобы настроить сканирование карты данных, необходимо зарегистрировать источник данных, который требуется сканировать.

Register Fabric OneLake

При проверке рабочей области Fabric в существующем интерфейсе регистрации клиента Fabric в качестве источника данных нет изменений. Чтобы зарегистрировать новый источник данных в каталоге данных, выполните следующие действия.

  • Перейдите к учетной записи Microsoft Purview на портале управления Microsoft Purview.
  • Выберите Карта данных в области навигации слева.
  • Выберите Зарегистрировать
  • В разделе Регистрация источников выберите Структура.

Инструкции по настройке см. в одном и том же клиенте и нескольких клиентах .

Настройка сканирования карты данных

При проверке подартифактов Lakehouse в существующем интерфейсе Purview нет изменений для настройки сканирования. Существует еще один шаг, чтобы предоставить учетные данные сканирования по крайней мере с ролью участника в рабочих областях Fabric для извлечения сведений о схеме из поддерживаемых форматов файлов.

В настоящее время в качестве метода проверки подлинности поддерживается только субъект-служба. Поддержка MSI по-прежнему остается невыполненной. Функция сканирования Lakehouse доступна в закрытой предварительной версии. Вам нужно связаться с командой учетной записи Microoft, чтобы разрешить вывод вашего клиента.

Инструкции по настройке см. в одном и том же клиенте и нескольких клиентах .

Настройка подключения для сканирования структуры lakehouse

После регистрации fabric lakehouse в качестве источника можно выбрать fabric в списке зарегистрированных источников данных и выбрать Команду Создать сканирование. Добавьте сведения о подключении, как указано на снимках экрана ниже.

настройка сканирования структуры.

  1. Добавление имени субъекта-службы в поле Учетные данные
  2. Добавьте имя ресурса Azure.

страница сканирования карты данных fabric 1

  1. Добавление идентификатора клиента
  2. Добавление идентификатора принципа службы
  3. Добавление подключения Key Vault
  4. Добавление имени секрета

страница сканирования карты данных fabric 2

После завершения сканирования карты данных найдите экземпляр Lakehouse из Purview Каталог данных.

Снимок экрана: обзор структуры lakehouse в каталоге данных

Просмотрите таблицы Lakehouse с помощью категории таблиц .

Снимок экрана: просмотр таблиц lakehouse структуры в каталоге данных

Предварительные требования к проверке качества данных Fabric Lakehouse

  1. Ярлык, зеркало или загрузите данные в Fabric Lakehouse в разностном формате.

Снимок экрана: разностная таблица структуры.

Важно!

Если вы добавили новые таблицы, файлы или новый набор данных в Fabric lakehouse с помощью morroring или ярлыка, необходимо запустить карту данных область сканировать, чтобы каталогизировать новый набор данных, прежде чем добавлять эти ресурсы данных в продукт данных для оценки качества данных.

  1. Предоставление участнику права на рабочую область для MSI Purview

Снимок экрана: предоставление доступа участник.

  1. Добавьте отсканированный ресурс данных из lakehouse в продукты данных домена управления. Профилирование данных и сканирование DQ можно выполнять только для ресурсов данных, связанных с продуктами данных в домене управления.

Снимок экрана: ресурсы данных Lakehouse, добавленные в продукт данных.

Для профилирования данных и проверки качества данных необходимо создать подключение к источнику данных, так как мы используем другой соединитель для подключения источника данных и для сканирования данных для отслеживания фактов и измерений качества данных. Чтобы настроить подключение, выполните приведенные далее действия.

  • Перейдите в раздел Управление > работоспособностью Качество > данных Выберите управление домен > Выберите вкладку > Управление Выберите подключение.

  • Выберите вкладку + Создать , чтобы открыть страницу конфигурации подключения.

  • Добавление отображаемого имени подключения и хорошее описание

  • Добавление типа источника Fabric

  • Добавление идентификатора клиента

  • Добавление учетных данных - MICROSOFT Purview MSI

  • Проверьте подключение, чтобы убедиться, что настроено подключение успешно.

    Снимок экрана, на котором показано, как настроить подключение к структуре.

Важно!

  • Для проверки DQ MSI-файл purview должен иметь участник доступ к рабочей области Fabric для подключения рабочей области Fabric. Чтобы предоставить доступ участник, откройте рабочую область > fabric, выберите три точки (...) > Выберите Доступ к > рабочей области Добавить пользователей или группу > Добавить MSI Purview в качестве участника
  • Таблицы Fabric должны иметь разностный формат.
  • Функция проверки DQ Fabric Lakehouse доступна в закрытой предварительной версии. Чтобы использовать эту функцию, обратитесь в группу поддержки майкрософт или службу поддержки, чтобы включить список клиентов. Для включения в список разрешений необходимо указать следующие сведения: идентификатор клиента, название организации, имя учетной записи Purview, идентификатор учетной записи Purview, регион Azure и идентификатор подписки Azure.

Профилирование и проверка качества данных (DQ) на наличие данных в Fabric Lakehouse

После успешной настройки подключения можно профилировать, создавать и применять правила, а также выполнять проверку качества данных (DQ) в Fabric Lakehouse. Следуйте пошаговому руководству, описанному ниже.

  1. Свяжите таблицу Lakehouse с продуктом данных для курирования, обнаружения и подписки. Дополнительные сведения см. в документе о создании продуктов данных и управлении ими.

Снимок экрана: связывание таблицы lakehouse с продуктом данных.

  1. Таблица Lakehouse Profile Fabric. Дополнительные сведения см. в документе о настройке и запуске профилирования данных.

Снимок экрана: профиль таблицы lakehouse.

  1. Настройте и запустите проверку качества данных для измерения качества данных таблицы Lakehouse Fabric. Дополнительные сведения см. в документе о настройке и запуске проверки качества данных.

Снимок экрана: проверка таблицы lakehouse.

Важно!

  • Убедитесь, что данные имеют разностный формат.
  • Убедитесь, что проверка карты данных выполнена успешно, если это не так, повторно запустите сканирование карты данных.

Ограничение

Поддержка карты данных Purview для структуры Lakehouse доступна в закрытой предварительной версии. Нам необходимо разрешить список клиентов purview для карты данных Purview и Fabric OneLake, чтобы включить сканирование DQ таблиц Fabric Lakehouse с помощью Purview DQ. Обратитесь в группу учетных записей Майкрософт, чтобы разрешить клиенту поддержку Fabric Lakehouse.

Качество данных для файла Parquet предназначено для поддержки:

  • Каталог с файлом частей Parquet. Например: ./Sales/{Parquet Part Files}. Полное имя должно соответствовать .https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions} Убедитесь, что у нас нет шаблонов {n} в структуре каталогов или вложенных каталогов. Вместо этого должно быть прямое полное доменное имя, приводящее к {SparkPartitions}.
  • Каталог с секционированные файлы Parquet, секционированные по столбцам в наборе данных, например данные о продажах, секционированные по годам и месяцам. Например: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Поддерживаются оба этих основных сценария, которые представляют согласованную схему набора данных Parquet. Ограничение. Оно не предназначено для или не поддерживает произвольные иерархии N каталогов с файлами Parquet. Мы советуем клиенту представить данные в (1) или (2) построенной структуре. Поэтому рекомендуется следовать поддерживаемой стандарту parquet или перенести данные в формат delta, совместимый с ACID .

Совет

Для карты данных

  • Убедитесь, что имя субъекта-службы имеет разрешения рабочей области.
  • Убедитесь, что для проверки подключения используется имя субъекта-службы.
  • Я бы предложил запустить полную проверку, если вы настраиваете сканирование lakehouse в первый раз.
  • Убедитесь, что принятые ресурсы обновлены или обновлены

Каталог данных

  • DQ-подключение должно использовать учетные данные MSI.
  • В идеале создайте новый продукт данных для первого тестирования анализа данных Lakehouse DQ
  • Добавьте данные приема, проверка, что ресурс данных обновляется.
  • Попробуйте выполнить профиль, в случае успешного выполнения попробуйте запустить правило DQ. Если это не удалось, попробуйте обновить схему ресурса (> схема импорта схемы).
  • Некоторые пользователи также должны были создать новый Lakehouse и образцы данных, чтобы проверка все работает с нуля. В некоторых случаях работа с ресурсами, которые ранее были приняты в карте данных, не согласована.

Справочные документы