Поделиться через


Качество данных для хранилища данных Fabric Lakehouse

Структура OneLake — это единое единое логическое озеро данных для всей организации. Озеро данных обрабатывает большие объемы данных из различных источников. Как и Microsoft OneDrive, OneLake автоматически поставляется с каждым клиентом Microsoft Fabric и является единым местом для всех аналитических данных. OneLake предоставляет клиентам:

  • Одно озеро данных для всей организации
  • Одна копия данных для использования с несколькими аналитическими механизмами

OneLake стремится предоставить вам максимально возможную ценность из одной копии данных без перемещения или дублирования данных. Вам больше не нужно копировать данные только для того, чтобы использовать их с другой подсистемой или разорвать разрозненные, чтобы вы могли анализировать данные с данными из других источников. Microsoft Purview можно использовать для каталогизации пространства данных структуры и измерения качества данных, чтобы управлять действиями по улучшению и управлять ими.

Вы можете использовать ярлык для ссылки на данные, хранящиеся в других расположениях файлов. Эти расположения файлов могут находиться в одной рабочей области или в разных рабочих областях, в OneLake или за пределами OneLake в Azure Data Lake Storage (ADLS), Amazon Web Services (AWS) S3 или Dataverse с дополнительными целевыми расположениями в ближайшее время. Расположение источника данных не имеет большого значения. Сочетания клавиш OneLake делают файлы и папки похожими на то, что они хранятся локально. Когда команды работают независимо в отдельных рабочих областях, ярлыки позволяют объединять данные из разных бизнес-групп и доменов в виртуальный продукт данных в соответствии с конкретными потребностями пользователя.

Зеркальное отображение можно использовать для объединения данных из различных источников в Fabric. Зеркальное отображение в Fabric — это недорогое решение с низкой задержкой, которое объединяет данные из различных систем в единую платформу аналитики. Вы можете непрерывно реплицировать существующее пространство данных непосредственно в OneLake структуры, включая данные из базы данных Azure SQL, Azure Cosmos DB и Snowflake. С самыми актуальными данными в формате queriable в OneLake теперь можно использовать все различные службы в Fabric. Например, выполнение аналитики с помощью Spark, выполнение записных книжек, проектирование данных, визуализация с помощью отчетов Power BI и многое другое. Затем разностные таблицы можно использовать везде Fabric, что позволяет пользователям ускорить переход к Fabric.

Register Fabric OneLake

Чтобы настроить сканирование карты данных, необходимо сначала зарегистрировать источник данных, который требуется сканировать. Чтобы проверить рабочую область Fabric, нет никаких изменений в существующем интерфейсе регистрации клиента Fabric в качестве источника данных. Чтобы зарегистрировать новый источник данных, выполните следующие действия.

  • На портале Microsoft Purview перейдите в раздел Карта данных.
  • Нажмите Зарегистрировать.
  • В разделе Регистрация источников выберите Структура.

Ознакомьтесь с теми же инструкциями по настройке клиента и нескольких клиентов .

Настройка сканирования карты данных

Чтобы проверить подартифакты Lakehouse, в существующем интерфейсе карты данных нет изменений для настройки сканирования. Существует еще один шаг, чтобы предоставить учетным данным проверки по крайней мере роль участника в рабочих областях Fabric для извлечения сведений о схеме из поддерживаемых форматов файлов.

В настоящее время в качестве метода проверки подлинности поддерживается только субъект-служба. Поддержка MSI по-прежнему остается невыполненной.

Ознакомьтесь с теми же инструкциями по настройке клиента и нескольких клиентов .

Настройка подключения для сканирования Fabric Lakehouse

После регистрации Fabric Lakehouse в качестве источника можно выбрать Fabric в списке зарегистрированных источников данных на карте данных и выбрать Создать сканирование. Добавьте идентификатор источника данных, а затем выполните следующие действия:

  1. Создание группы безопасности и субъекта-службы

  2. Обязательно добавьте в эту группу безопасности как субъект-службу, так и управляемое удостоверение Purview, а затем укажите эту группу безопасности.

  3. Связывание группы безопасности с клиентом Fabric

    1. Войдите на портал администрирования Fabric.
    2. Выберите страницу Параметры клиента. Вы должны быть Администратор Fabric, чтобы просмотреть страницу параметров клиента.
    3. Выберите Администратор параметры > API Разрешить субъектам-службам использовать API администратора только для чтения.
    4. Выберите Определенные группы безопасности.
    5. Выберите параметры API > Администратор Расширение ответов API администратора с помощью подробных метаданных и Улучшение ответов API администрирования с помощью DAX и гибридных выражений > Включите переключатель, чтобы Схема данных Microsoft Purview автоматически обнаруживали подробные метаданные наборов данных Fabric в ходе сканирования. После обновления параметров API Администратор в клиенте Fabric подождите около 15 минут, прежде чем зарегистрировать подключение для проверки и тестирования.
  4. Предоставьте Администратор разрешения api только для чтения для этой группы безопасности.

  5. Добавьте имя субъекта-службы в поле Учетные данные .

  6. Добавьте имя ресурса Azure.

    страница сканирования карты данных fabric 1

  7. Добавьте идентификатор клиента.

  8. Добавление идентификатора принципа службы.

  9. Добавьте Key Vault подключение.

  10. Добавьте имя секрета.

страница сканирования карты данных fabric 2

После завершения сканирования карты данных найдите экземпляр Lakehouse в Единый каталог.

  1. На портале Microsoft Purview откройте Единый каталог.
  2. Выберите Обнаружение, а затем — Ресурсы данных.
  3. На странице Ресурсы данных выберите Microsoft Fabric.
  4. Выберите Структура рабочих областей, а затем выберите рабочую область из списка.
  5. На странице рабочей области найдите экземпляр Lakehouse в разделе Имя элемента.

Чтобы просмотреть таблицы Lakehouse, выполните приведенные ниже действия.

  1. На странице рабочей области выберите имя элемента Таблицы.
  2. Выберите ресурс таблицы Lakehouse, указанный в разделе Имя элемента.
  3. Просмотрите страницу сведений об активе, чтобы найти метаданные, такие как схема, происхождение и свойства.

Предварительные требования к проверке качества данных Fabric Lakehouse

  1. Сочетание клавиш, зеркало или загрузка данных в Fabric Lakehouse в разностном формате.

Снимок экрана: разностная таблица структуры.

Важно!

Если вы добавили новые таблицы, файлы или новый набор данных в Fabric Lakehouse с помощью зеркального отображения или ярлыка, необходимо запустить карту данных область сканировать эти новые наборы данных, прежде чем добавлять эти ресурсы данных в продукт данных для оценки качества данных.

  1. Предоставление участнику права на рабочую область для MSI Purview

Снимок экрана: предоставление доступа участник.

  1. Добавьте отсканированный ресурс данных из Lakehouse в продукты данных домена управления. На странице продукта данных в Единый каталог найдите ресурсы данных и выберите Добавить ресурсы данных. Профилирование данных и сканирование качества данных можно выполнять только для ресурсов данных, связанных с продуктами данных в домене управления.

Для профилирования данных и проверки качества данных необходимо создать подключение к источнику данных, так как для подключения источника данных и сканирования данных для отслеживания фактов и измерений качества данных используются различные соединители. Чтобы настроить подключение, выполните приведенные далее действия.

  • В Единый каталог выберите Управление работоспособностью, а затем — Качество данных.

  • Выберите домен управления и в раскрывающемся списке Управление выберите Connections.

  • Выберите Создать , чтобы открыть страницу конфигурации подключения.

  • Добавьте отображаемое имя подключения и описание.

  • Добавьте тип источника Fabric.

  • Добавьте идентификатор клиента.

  • Добавление идентификатора рабочей области

  • Добавление идентификатора Lakehouse

  • Добавьте учетные данные - MICROSOFT Purview MSI.

    Снимок экрана, на котором показано, где найти рабочую область и идентификатор lakehouse.

  • Проверьте подключение, чтобы убедиться, что настроено подключение успешно.

    Снимок экрана, на котором показано, как настроить подключение к структуре.

Важно!

  • Для проверки качества данных MSI Microsoft Purview должен иметь участник доступ к рабочей области Fabric для подключения рабочей области Fabric. Чтобы предоставить доступ участник, откройте рабочую область Fabric, выберите три точки (...), выберите Доступ к рабочей области, затем Добавить людей или группу, а затем добавьте Purview MSI в качестве участника.
  • Таблицы Fabric должны иметь формат Delta или Айсберг.

Профилирование и проверка качества данных (DQ) в Fabric Lakehouse

После успешной настройки подключения можно профилировать, создавать и применять правила, а также выполнять проверку качества данных (DQ) в Fabric Lakehouse. Следуйте пошаговому руководству, описанному ниже.

  1. Свяжите таблицу Lakehouse с продуктом данных для курирования, обнаружения и подписки. Узнайте, как создавать продукты данных и управлять ими.

Снимок экрана: связывание таблицы Lakehouse с продуктом данных.

  1. Таблица Profile Fabric Lakehouse. Узнайте, как настроить и запустить профилирование данных для ресурса данных.

Снимок экрана: профиль таблицы lakehouse.

  1. Настройте и запустите проверку качества данных для измерения качества данных таблицы Fabric Lakehouse. Узнайте, как настроить и запустить проверку качества данных.

Снимок экрана: проверка таблицы lakehouse.

Важно!

  • Убедитесь, что данные имеют формат Delta или Формат айсберга.
  • Убедитесь, что проверка карты данных успешно выполнена. Если это не так, повторно запустите сканирование.

Ограничения

Качество данных для файла Parquet предназначено для поддержки:

  • Каталог с файлом частей Parquet. Например: ./Sales/{Parquet Part Files}. Полное имя должно соответствовать .https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions} Убедитесь, что в структуре каталога или подкаталога нет шаблонов {n}; это должно быть прямое полное доменное имя, ведущее к {SparkPartitions}.
  • Каталог с секционированные файлы Parquet, секционированные по столбцам в наборе данных, например данные о продажах, секционированные по годам и месяцам. Например: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Поддерживаются оба этих основных сценария, которые представляют согласованную схему набора данных Parquet. Ограничение. Оно не предназначено для или не поддерживает произвольные иерархии N каталогов с файлами Parquet. Мы советуем клиенту представить данные в (1) или (2) построенной структуре. Поэтому рекомендуется следовать поддерживаемой стандарту parquet или перенести данные в формат delta, совместимый с ACID .

Совет

Для карты данных

  • Убедитесь, что имя субъекта-службы имеет разрешения рабочей области.
  • Убедитесь, что для проверки подключения используется имя субъекта-службы.
  • Если вы настраиваете проверку Lakehouse в первый раз, рекомендуется выполнить полную проверку.
  • Убедитесь, что принятые ресурсы обновлены или обновлены

Единый каталог

  • DQ-подключение должно использовать учетные данные MSI.
  • В идеале создайте новый продукт данных для первого тестирования DQ данных Lakehouse
  • Добавьте в нее ресурсы данных, проверка, что ресурсы данных обновляются.
  • Попробуйте выполнить профиль, в случае успешного выполнения попробуйте запустить правило DQ. Если это не удалось, попробуйте обновить схему ресурса (> схема импорта схемы).
  • Некоторые пользователи также должны были создать новый Lakehouse и образцы данных, чтобы проверка все работает с нуля. В некоторых случаях работа с ресурсами, которые ранее были приняты в схеме данных, не согласована.

Ресурсы