Качество данных для хранилища данных Fabric Lakehouse (предварительная версия)
Структура OneLake — это единое единое логическое озеро данных для всей организации. Озеро данных обрабатывает большие объемы данных из различных источников. Как и OneDrive, OneLake автоматически поставляется с каждым клиентом Microsoft Fabric и предназначен для единого места для всех аналитических данных. OneLake предоставляет клиентам:
- Одно озеро данных для всей организации
- Одна копия данных для использования с несколькими аналитическими механизмами
OneLake стремится предоставить вам максимально возможную ценность из одной копии данных без перемещения или дублирования данных. Вам больше не нужно копировать данные только для того, чтобы использовать их с другой подсистемой или разорвать разрозненные, чтобы вы могли анализировать данные с данными из других источников. Microsoft Purview можно использовать для каталогизации пространства данных структуры и измерения качества данных, чтобы управлять действиями по улучшению и управлять ими.
Вы можете использовать ярлык для ссылки на данные, хранящиеся в других расположениях файлов. Эти расположения файлов могут находиться в одной рабочей области или в разных рабочих областях, в OneLake или за пределами OneLake в Azure Data Lake Storage (ADLS), AWS S3 или Dataverse с дополнительными целевыми расположениями в ближайшее время. Расположение источника данных не имеет большого значения. Сочетания клавиш OneLake делают файлы и папки похожими на то, что они хранятся локально. Когда команды работают независимо в отдельных рабочих областях, ярлыки позволяют объединять данные из разных бизнес-групп и доменов в виртуальный продукт данных в соответствии с конкретными потребностями пользователя.
Зеркальное отображение можно использовать для объединения данных из различных источников в Структуру Зеркальное отображение в Fabric — это недорогое решение с низкой задержкой для объединения данных из различных систем в единую платформу аналитики. Вы можете непрерывно реплицировать существующее пространство данных непосредственно в OneLake структуры, включая данные из базы данных Azure SQL, Azure Cosmos DB и Snowflake. Благодаря самым актуальным данным в запрашиваемом формате в OneLake теперь можно использовать все различные службы в Fabric. Например, выполнение аналитики с помощью Spark, выполнение записных книжек, проектирование данных, визуализация с помощью отчетов Power BI и многое другое. Затем разностные таблицы можно использовать везде Fabric, что позволяет пользователям ускорить переход к Fabric.
Настройка сканирования карты данных
Чтобы настроить сканирование карты данных, необходимо зарегистрировать источник данных, который требуется сканировать.
Register Fabric OneLake
При проверке рабочей области Fabric в существующем интерфейсе регистрации клиента Fabric в качестве источника данных нет изменений. Чтобы зарегистрировать новый источник данных в Единый каталог Microsoft Purview, выполните следующие действия.
- Перейдите к учетной записи Microsoft Purview на портале управления Microsoft Purview.
- Выберите Карта данных в области навигации слева.
- Выберите Зарегистрировать
- В разделе Регистрация источников выберите Структура.
Инструкции по настройке см. в одном и том же клиенте и нескольких клиентах .
Настройка сканирования карты данных
При проверке подартифактов Lakehouse в существующем интерфейсе Purview нет изменений для настройки сканирования. Существует еще один шаг, чтобы предоставить учетные данные сканирования по крайней мере с ролью участника в рабочих областях Fabric для извлечения сведений о схеме из поддерживаемых форматов файлов.
В настоящее время в качестве метода проверки подлинности поддерживается только субъект-служба. Поддержка MSI по-прежнему остается невыполненной.
Инструкции по настройке см. в одном и том же клиенте и нескольких клиентах .
Настройка подключения для сканирования Fabric Lakehouse
После регистрации Fabric Lakehouse в качестве источника можно выбрать Fabric в списке зарегистрированных источников данных и выбрать Команду Создать сканирование. Добавьте сведения о подключении, как указано на снимках экрана ниже.
- Создание группы безопасности и субъекта-службы
- Обязательно добавьте в эту группу безопасности как субъект-службу, так и управляемое удостоверение Purview, а затем укажите эту группу безопасности.
- Связывание группы безопасности с клиентом Fabric
- Войдите на портал администрирования Fabric.
- Выберите страницу Параметры клиента. Вы должны быть Администратор Fabric, чтобы просмотреть страницу параметров клиента.
- Выберите Администратор параметры > API Разрешить субъектам-службам использовать API администратора только для чтения.
- Выберите Определенные группы безопасности.
- Выберите параметры API > Администратор Расширение ответов API администратора с помощью подробных метаданных и Улучшение ответов API администрирования с помощью DAX и гибридных выражений > Включите переключатель, чтобы Схема данных Microsoft Purview автоматически обнаруживали подробные метаданные наборов данных Fabric в ходе сканирования. После обновления параметров API Администратор в клиенте Fabric подождите около 15 минут, прежде чем зарегистрировать подключение для проверки и тестирования.
- Предоставьте Администратор разрешения api только для чтения для этой группы безопасности.
- Добавьте имя субъекта-службы в поле Учетные данные .
- Добавьте имя ресурса Azure.
- Добавьте идентификатор клиента.
- Добавление идентификатора принципа службы.
- Добавьте Key Vault подключение.
- Добавьте имя секрета.
После завершения сканирования карты данных найдите экземпляр Lakehouse из Единый каталог.
Просмотрите таблицы Lakehouse с помощью категории таблиц .
Предварительные требования к проверке качества данных Fabric Lakehouse
- Ярлык, зеркало или загрузите данные в Fabric Lakehouse в разностном формате.
Важно!
Если вы добавили новые таблицы, файлы или новый набор данных в Fabric lakehouse с помощью morroring или ярлыка, необходимо запустить карту данных область сканировать, чтобы каталогизировать новый набор данных, прежде чем добавлять эти ресурсы данных в продукт данных для оценки качества данных.
- Предоставление участнику права на рабочую область для MSI Purview
- Добавьте отсканированный ресурс данных из lakehouse в продукты данных домена управления. Профилирование данных и сканирование DQ можно выполнять только для ресурсов данных, связанных с продуктами данных в домене управления.
Для профилирования данных и проверки качества данных необходимо создать подключение к источнику данных, так как мы используем другой соединитель для подключения источника данных и для сканирования данных для отслеживания фактов и измерений качества данных. Чтобы настроить подключение, выполните приведенные далее действия.
В Единый каталог выберите Управление работоспособностью, а затем — Качество данных.
Выберите домен управления и в раскрывающемся списке Управление выберите Connections.
Выберите Создать , чтобы открыть страницу конфигурации подключения.
Добавьте отображаемое имя подключения и описание.
Добавьте тип источника Fabric.
Добавьте идентификатор клиента.
Добавьте учетные данные - MICROSOFT Purview MSI.
Проверьте подключение, чтобы убедиться, что настроено подключение успешно.
Важно!
- Для проверки DQ MSI Purview должен иметь участник доступ к рабочей области Fabric для подключения рабочей области Fabric. Чтобы предоставить доступ участник, откройте рабочую область Fabric, выберите три точки (...), выберите Доступ к рабочей области, затем Добавить людей или группу, а затем добавьте Purview MSI в качестве участника.
- Таблицы Fabric должны быть в разностном формате или формате айсберга.
Профилирование и проверка качества данных (DQ) на наличие данных в Fabric Lakehouse
После успешной настройки подключения можно профилировать, создавать и применять правила, а также выполнять проверку качества данных (DQ) в Fabric Lakehouse. Следуйте пошаговому руководству, описанному ниже.
- Свяжите таблицу Lakehouse с продуктом данных для курирования, обнаружения и подписки. Дополнительные сведения см. в документе о создании продуктов данных и управлении ими.
- Таблица Lakehouse Profile Fabric. Дополнительные сведения см. в документе о настройке и запуске профилирования данных.
- Настройте и запустите проверку качества данных для измерения качества данных таблицы Lakehouse Fabric. Дополнительные сведения см. в документе о настройке и запуске проверки качества данных.
Важно!
- Убедитесь, что данные находятся в разностном формате или формате айсберга.
- Убедитесь, что проверка карты данных выполнена успешно, если это не так, повторно выполните сканирование карты данных.
Ограничение
Качество данных для файла Parquet предназначено для поддержки:
- Каталог с файлом частей Parquet. Например: ./Sales/{Parquet Part Files}. Полное имя должно соответствовать .
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
Убедитесь, что у нас нет шаблонов {n} в структуре каталогов или вложенных каталогов. Вместо этого должно быть прямое полное доменное имя, приводящее к {SparkPartitions}. - Каталог с секционированные файлы Parquet, секционированные по столбцам в наборе данных, например данные о продажах, секционированные по годам и месяцам. Например: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Поддерживаются оба этих основных сценария, которые представляют согласованную схему набора данных Parquet. Ограничение. Оно не предназначено для или не поддерживает произвольные иерархии N каталогов с файлами Parquet. Мы советуем клиенту представить данные в (1) или (2) построенной структуре. Поэтому рекомендуется следовать поддерживаемой стандарту parquet или перенести данные в формат delta, совместимый с ACID .
Совет
Для карты данных
- Убедитесь, что имя субъекта-службы имеет разрешения рабочей области.
- Убедитесь, что для проверки подключения используется имя субъекта-службы.
- Я бы предложил запустить полную проверку, если вы настраиваете сканирование lakehouse в первый раз.
- Убедитесь, что принятые ресурсы обновлены или обновлены
Единый каталог
- DQ-подключение должно использовать учетные данные MSI.
- В идеале создайте новый продукт данных для первого тестирования анализа данных Lakehouse DQ
- Добавьте данные приема, проверка, что ресурс данных обновляется.
- Попробуйте выполнить профиль, в случае успешного выполнения попробуйте запустить правило DQ. Если это не удалось, попробуйте обновить схему ресурса (> схема импорта схемы).
- Некоторые пользователи также должны были создать новый Lakehouse и образцы данных, чтобы проверка все работает с нуля. В некоторых случаях работа с ресурсами, которые ранее были приняты в схеме данных, не согласована.
Справочные документы
- Настройка и запуск профилирования данных
- Настройка и запуск проверки качества данных
- Часто задаваемые вопросы и самостоятельное помощь
- Настройка подключения к качеству данных
- Узнайте о зеркальном отображении в Fabric?
- Сочетания клавиш OneLake
- Качество данных для зеркальных источников данных Fabric
- Качество данных для источников сочетаний клавиш OneLake