Пример настройки для управления данными
Управление данными Microsoft Purview, включающее Единый каталог Microsoft Purview и Схема данных Microsoft Purview, обеспечивает всестороннюю видимость, достоверность данных и ответственные инновации, помогая организациям достичь большей ценности для бизнеса в эпоху ИИ. Используя пример управления данными о работоспособности, выполните действия, описанные в этой статье, чтобы понять, как настроить Единый каталог и использовать его функции для создания разумной практики управления данными в организации.
Шаг 1. Настройка доменов управления в Единый каталог
Домены управления являются ключом к установлению ответственности за данные и помогут обеспечить федеративное управление данными в компании. При создании доменов управления, начиная с правильного владельца, вы сможете эффективно определять и сотрудничать с экспертами для всех данных в пространстве данных. Домены управления могут быть различными типами, чтобы соответствовать типу границ данных для команды, которая будет управлять данными. Например, функциональные домены (финансы, отдел кадров, продажи) или домены данных (продукт, клиент, работоспособность).
Предварительные условия
- Для Единый каталог требуется роль администратора управления данными.
Предоставление разрешений и создание первого домена управления
Откройте портал Microsoft Purview.
Войдите на портал Microsoft Purview, используя учетные данные для учетной записи администратора, которому назначена роль управления ролями (например, администратор Purview). Перейдите в раздел Параметры > Роли и области для просмотра и управления ими.
Выберите Группы ролей.
На странице Группы ролей для решений Microsoft Purview выберите группу ролей Управление данными .
На странице Изменение участника группы ролей выберите Выбрать пользователей или Выбрать группы.
Выберите поле проверка для всех пользователей или групп, которые вы хотите добавить в группу ролей.
Выберите Выбрать.
В Единый каталог выберите Управление каталогом, а затем домены управления.
На странице Домены управления вы можете настроить остальную часть каталога, чтобы позволить другим пользователям федеративно управлять данными, предоставить командам возможность накапливать свои знания и определять ценность ваших данных для бизнеса.
- Для начала выберите Новый домен управления.
- Вы можете обновить имя домена управления, но для этого мы можем назвать его "(Руководство) Личное здоровье" и дать ему описание "Персональные данные о здоровье относятся к любой информации, связанной с физическим или психическим здоровьем человека, которая собирается и используется в секторе здравоохранения. Это может быть широкий спектр типов данных, таких как медицинские записи, журналы лечения, диагностические изображения и результаты лабораторных испытаний. Он часто защищен различными законами и нормативными актами для обеспечения конфиденциальности и конфиденциальности.
- Выберите тип в качестве домена данных.
- Оставьте родительский пустой (если это первый домен управления в каталоге, ему не будет ничего выбрать здесь).
- Нажмите кнопку Создать
- Теперь создайте еще два домена самостоятельно. Это будут ключевые точки федерации для совместной работы и управления в вашей организации, поэтому подумайте о том, кто может быть владельцем ваших доменов при реализации Единый каталог Microsoft Purview.
- Ниже приведены примеры.
- Корпоративный функциональный домен представляет строго контролируемые активы и термины, которые используются всей компанией.
- Продажи — это функциональный домен, который будет иметь большинство организаций, который является дочерним доменом корпоративного.
- Для начала выберите Новый домен управления.
Выберите созданный домен управления.
Перейдите на вкладку Роли домена управления.
По умолчанию при создании домена управления вы добавляетесь ко всем ролям в домене управления. В качестве владельца домена управления вы добавляете администраторов данных (бизнес-экспертов в вашем домене) и владельцев продуктов данных (которые знают, какие ресурсы данных лучше всего использовать для других пользователей).
Вернитесь на вкладку Сведения .
Нажмите кнопку Управление политиками , чтобы применить политику уровня домена. Эта политика будет применяться ко всем продуктам данных в домене, что позволяет автоматическому применению политики гарантировать, что эксперты по данным также не должны быть экспертами по вопросам политики.
На вкладке Управление политиками доступа установите флажок Разрешить копирование данных. При выборе этого параметра политики автоматически будет применяться аттестация, требующая от всех пользователей, запрашивающих доступ к вашим продуктам данных, чтобы подтвердить, что они понимают политику копирования данных для ваших данных.
Выберите Сохранить изменения , чтобы убедиться, что политика задана доменом управления.
Выберите Опубликовать в домене управления. Кнопка Опубликовать публикует все остальные понятия в домене.
Создание терминов глоссария
Добавление терминов глоссария в домен управления позволяет другим пользователям лучше понять, как бизнес использует и понимает данные. Термины глоссария также обеспечивают использование общих терминов и, как правило, ваши знания в вашей области управления.
На странице домена управления найдите термины Глоссария карта и выберите Просмотреть все.
На странице Термины глоссария выберите Новый термин.
Введите сведения:
- Имя: "Вспышка"
- Описание: болезнь, которая затронула или может затронуть большую часть населения.
- Вы можете оставить остальные поля пустыми, но есть поля для сбора: термин владелец, ответственный за определение термина для вашей компании, сокращения для совместного использования, также известные как названия термина, наконец, вы можете предоставить ссылки на ресурсы, которые будут содержать еще больше информации о термине.
Нажмите кнопку Создать
Нажмите кнопку Управление политиками . Как и политики уровня домена, можно создать политики уровня терминов, которые будут применяться везде, где используется термин.
Установите флажок рядом с пунктом Требуется утверждение диспетчера. Это обеспечивает дополнительное утверждение от пользователей, перечисленных диспетчером в Microsoft Entra ID при запросе доступа к продуктам данных.
Выберите Опубликовать для созданного термина вспышки. Опубликованные термины будут фильтроваться в Единый каталог и гарантировать, что другие пользователи, использующие этот термин для описания своего продукта данных, смогут увидеть это описание в Единый каталог при просмотре продукта данных.
Теперь создайте еще два термина. На этот раз выберите термин "Вспышка" в качестве родительского термина для созданных терминов. Попробуйте построить отношения между этими дочерними терминами на соответствующей вкладке для любого из терминов, чтобы помочь создать сеть того, как эти термины работают вместе, чтобы объяснить всю тему.
- Пандемия: глобальная вспышка болезни, которая затрагивает большое число людей в нескольких странах или континентах.
- Эпидемия: вспышка болезни на уровне страны или региона, которая является высококонтагиозной и затрагивает значительную часть населения.
Попробуйте создать несколько других терминов в других доменах, созданных ранее. Если вы не знаете, что добавить, нажмите кнопку Получить предлагаемые термины , чтобы GenAI предложил несколько на основе описания и имени уже предоставленного домена.
Добавление OKR
Теперь добавьте OKR (целевой и ключевой результат) для домена личной работоспособности, чтобы помочь другим понять ценность ваших данных для бизнеса. Это позволит создать прямую связь между данными и бизнес-ценностью, которые они предоставляют.
Выберите поле OKR на странице домена управления.
Выберите Создать OKR.
Сначала введите сведения о цели:
- Цель: снижение риска пандемии путем эффективного использования вакцины для пациентов.
- Владелец: введите свое имя
- Целевая дата: 31.12.2024
Нажмите кнопку Создать
Добавление ключевых результатов к цели гарантирует, что цели измеримы и отслеживаются ход достижения цели. Выберите + Добавить результат ключа.
Введите сведения о ключевом результате:
- Ключевой результат: обеспечить полную вакцинацию 80% пожилых групп (>65 лет), которые, скорее всего, будут затронуты пандемией, к концу календарного года 2024 года.
- Состояние выполнения: в нужном направлении
- Сумма выполнения: 70
- Сумма цели: 80
- Максимальная сумма: 100
Нажмите Создать.
Нажмите Опубликовать.
Создание критически важных элементов данных
Наконец, создайте критически важный элемент данных (CDE) в личной работоспособности, чтобы гарантировать, что наиболее важные столбцы данных имеют согласованное определение, понимание и что они всегда соответствуют ожиданиям бизнеса в отношении того, как эти данные формируются и хранятся.
- На странице Домены управления с выбранным доменом Личной работоспособности выберите поле Критически важные элементы данных .
- Выберите Создать элемент критически важных данных.
- Введите базовые метаданные CDE:
- Имя: Возрастные группы
- Описание. Общие группы возрастов лиц, используемые для обеспечения того, чтобы необходимые аналитические отчеты следовали ссылке, от которую могут зависеть другие люди, и удаление отдельных возрастов для повышения анонимности данных. Возрастная группа делится на 8 групп; <2 года, 2-4 года, 5-11 лет, 12-17 лет, 18-24 лет, 25-49 лет, 50-64 лет, 65+ лет.
- Владелец: введите свое имя
- Ожидаемый тип данных: Text
- Нажмите кнопку Создать
Реальная сила CDE заключается в том, что он сопоставляется непосредственно со столбцами физических данных, в которых хранятся эти данные. Это подключение обеспечивает общее понимание и позволяет оценивать правила и политики качества данных в большом масштабе.
В только что созданном CDE выберите + Добавить столбец.
Поиск ресурса данных вакцины и случаев заболевания Covid 19 из золотого контейнера озера данных
Выберите поле, а не имя, актива вакцины и случаев covid 19 .
Совет
Если выбрать синее имя ресурса, откроется новое окно в Microsoft Purview с подробными сведениями об активе.
Нажмите переключатель рядом со столбцом AgeGroupVacc.
Нажмите Добавить.
Перейдите на вкладку Качество данных в верхней части только что созданного CDE, чтобы применить правила качества данных к CDE. Это похоже на то, как вы добавили политики для терминов глоссария и доменов управления.
Выберите Новое правило.
Выбор сопоставления типов данных
Введите имя правила: Подтверждение форматирования возрастной группы
Нажмите кнопку Создать
Выберите Опубликовать в CDE.
Теперь этот CDE будет автоматически применять правило качества данных к каждому продукту данных, который использует ресурс вакцины от Covid 19 и тенденций случаев, который мы рассмотрим в следующем разделе.
- Попробуйте создать несколько других cdes в других доменах. Вот некоторые идеи:
- Sales: Revenue и Seller Name
- Корпоративный: идентификатор продукта
Шаг 2. Настройка и регистрация данных в схеме данных
Если у вас нет доступных источников данных для сканирования, вы можете выполнить следующие действия, чтобы полностью развернуть пример Azure Data Lake Storage (ADLS 2-го поколения).
Совет
Если у вас уже есть источник данных в том же клиенте, что и учетная запись Microsoft Purview, перейдите к следующей части этого раздела, чтобы проверить ресурсы.
В недвижимости вы найдете множество различных систем, используемых для различных приложений данных. Существуют такие среды отчетности, как Fabric и Snowflake, в которых команды используют копии данных для создания аналитических решений и управления своими отчетами и панелями мониторинга. Существуют операционные системы данных, которые используются командами приложений или клиентами для выполнения бизнес-процессов, которые собирают или добавляют данные на основе решений, принятых в ходе этого процесса.
Чтобы создать более реалистичное хранилище данных, рекомендуется отобразить в каталоге множество источников данных, которые могут охватывать широкий спектр различных данных, используемых любой компанией. Типы данных, необходимые для работы с вариантом использования, могут сильно отличаться от бизнес-пользователей, которым нужны отчеты и панели мониторинга, аналитикам нужны соответствующие измерения и факты для создания отчетов, специалистам по обработке и анализу данных нужны необработанные исходные данные, поступающие непосредственно из системы, которая собирает все эти и другие данные, что позволяет различным пользователям увидеть важность поиска. понимание и доступ к данным в одном месте.
Для некоторых других учебников по добавлению данных в ваше имущество вы можете следовать этим руководствам:
- Руководство по Fabric Lakehouse — предоставляет основу для среды создания отчетов
- база данных Azure SQL (пример) — предоставляет хорошо структурированный пример рабочего хранилища данных.
Предварительные условия
- Подписка в Azure: создайте бесплатную учетную запись Azure сегодня
- Microsoft Entra ID для клиента: Управление Microsoft Entra ID
- Учетная запись Microsoft Purview
- Администратор доступ к учетной записи Microsoft Purview (это значение по умолчанию, если вы создали учетную запись Microsoft Purview. Разрешения в новой предварительной версии портала Microsoft Purview | Microsoft Learn)
- Все ресурсы; Microsoft Purview, источник данных и Microsoft Entra ID должны находиться в одном облачном клиенте.
Настройка пространства данных
О. Создание и заполнение учетной записи хранения
- Следуйте инструкциям в этом руководстве по созданию учетной записи хранения: Создание учетной записи хранения для Azure Data Lake Storage 2-го поколения
- Создайте контейнеры для нового озера данных:
- Перейдите на страницу Обзор учетной записи хранения.
- Перейдите на вкладку Контейнеры в разделе Хранилище данных.
- Нажмите кнопку + Контейнер
- Назовите имя "bronze" и нажмите кнопку Создать .
- Повторите эти действия, чтобы создать "золотой" контейнер.
- Скачайте примеры данных CSV из data.gov: Вакцинация от COVID-19 и тенденции случаев по возрастным группам, США
- Отправьте CSV-файл в контейнер с именем bronze в созданной учетной записи хранения.
- Выберите контейнер с именем bronze и нажмите кнопку Отправить .
- Найдите расположение, в котором вы сохранили CSV-файл, и выберите файл Covid-19_Vaccination_Case _Trends .
- Выберите Добавить.
Б. Создание Фабрика данных Azure
На этом шаге показано, как данные перемещаются между слоями озера данных медальона, и убедитесь, что данные используются в стандартизированном формате, который потребители ожидают использовать. Это предварительный шаг для запуска качества данных.
Следуйте этому руководству, чтобы создать Фабрика данных Azure: Создание Фабрика данных Azure
Скопируйте данные из CSV-файла в контейнере "bronze" в "золотой" контейнер в виде таблицы разностного формата с помощью Фабрика данных Azure руководства: Преобразование данных с помощью потока данных сопоставления
Откройте интерфейс Фабрика данных Azure (ADF) из портал Azure, нажав кнопку Запустить студию на вкладке Обзор созданного ресурса ADF.
Перейдите на вкладку Автор в студии ADF.
Нажмите кнопку + и выберите Поток данных в раскрывающемся меню.
Присвойте потоку данных имя CSVtoDeltaC19VaxTrends.
Выберите Добавить источник в пустом поле.
Задайте для параметров источника значение:
- Имя выходного потока: "C19csv"
- Описание: оставьте пустым
- Тип источника: Встроенный
- Тип встроенного набора данных: текст с разделителями
- Связанная служба: выберите озеро данных, в котором хранится CSV-файл.
Задайте для параметров источника значение:
- Режим файла: файл
- Путь к файлу: /bronze/ Covid-19_Vaccination_Case _Trends
- Разрешить отсутствие файлов: не устанавливайте флажок
- Отслеживание измененных данных: не устанавливайте флажок
- Тип сжатия: Нет
- Кодировка: по умолчанию (UTF-8)
- Разделитель столбцов: запятая (,)
- Разделитель строк: default(\r, \n или\r\n)
- Символ кавычек: двойная кавычка (")
- Escape-символ: обратная косая черта ()
- Первая строка в качестве заголовка: CHECKED
- Оставьте остальные значения по умолчанию
Выберите маленький + Рядом с созданным источником и выберите Приемник.
Создайте приемник, в котором будут храниться данные формата и расположения, чтобы переместить данные из csv-файла в "bronze" в разностную таблицу с золотом.
- Задайте значения приемника (оставьте все параметры по умолчанию, если не указано).
- Тип приемника: встроенный
- Тип встроенного набора данных: Delta
- Связанная служба: то же озеро данных, которое используется в источнике, так как мы будем храниться в другом контейнере.
Задайте значения параметров (оставьте все параметры по умолчанию, если не указано)
- Путь к папке: gold/Covid19 Вакцины и случаи заболевания
Необходимо ввести значение, так как это имя является тем, как мы хотим, чтобы данные хранились и не существуют для выбора.
Выберите Проверить, чтобы проверить поток данных и предоставить инструкции по устранению ошибок.
Выберите Опубликовать все.
Нажмите кнопку + и выберите конвейер в раскрывающемся меню.
Присвойте конвейеру имя "CSV-to Delta C19 Vax Trends"
Выберите поток данных, созданный на предыдущих шагах CSV-файла, в Delta (C19VaxTrends) и перетащите его на открытой вкладке конвейера.
Выберите Проверить.
Выберите Опубликовать.
Выберите Отладка (использовать среду выполнения действия), чтобы запустить конвейер.
Совет
Если вы столкнулись с ошибками для пробелов или недопустимыми символами для разностного формата, откройте скачанный CSV-файл и внесите исправления. Затем повторно отправьте и перезапишите CSV-файл в зоне bronze. Затем повторно запустите конвейер.
Перейдите к контейнеру gold в озере данных, и теперь вы увидите новую таблицу Delta, созданную во время конвейера.
Сканирование ресурсов
Если вы не сканировали ресурсы данных в Схема данных Microsoft Purview, вы можете выполнить следующие действия, чтобы заполнить карту данных.
При проверке источников в вашем пространстве данных автоматически собираются метаданные ресурсов данных (таблицы, файлы, папки, отчеты и т. д.) в этих источниках. Регистрируя источник данных и создавая проверку, вы устанавливаете техническое право собственности на источники и ресурсы, отображаемые в каталоге, и гарантируете, что у вас есть контроль над тем, кто может получить доступ к метаданным в Microsoft Purview. Регистрируя и сохраняя источники и ресурсы на уровне домена, они будут храниться на самом высоком уровне иерархии доступа. Как правило, лучше всего создать некоторые коллекции, в которых вы будете сканировать метаданные ресурса и установить правильную иерархию доступа для данных.
-
Предоставьте доступ для чтения для управляемого удостоверения Microsoft Purview (MSI) к озеру данных или другому хранилищу данных.
Совет
MSI — это имя учетной записи экземпляра Microsoft Purview.
Если вы решили использовать Microsoft Fabric или SQL, вы можете использовать следующие руководства для предоставления доступа:
Регистрация озера данных и сканирование ресурсов
В Схема данных Microsoft Purview на вкладке Домены выберите назначение ролей для домена (это будет имя учетной записи Microsoft Purview):
- Добавьте себя в качестве администратора источника данных и куратора данных в домен.
- Щелкните значок пользователя рядом с ролью Администратор источника данных.
- Выполните поиск по имени в Microsoft Entra ID (может потребоваться ввести полное имя точно так же, как в Microsoft Entra ID).
- Нажмите OK.
- Повторите эти действия для куратора данных.
- Добавьте себя в качестве администратора источника данных и куратора данных в домен.
Зарегистрируйте озеро данных:
- Перейдите на вкладку Источники данных .
- Нажмите Зарегистрировать.
- Выберите тип хранилища Azure Data Lake Storage 2-го поколения.
Укажите сведения для подключения:
- Подписка (необязательно)
- Имя источника данных (это будет имя источника ADLS 2-го поколения)
- Коллекция, в которой должны храниться метаданные ресурса (необязательно)
- Выберите Зарегистрировать
После завершения регистрации источника данных можно настроить проверку. Регистрация означает, что Microsoft Purview подключен к источнику данных и поместил его в правильную коллекцию для владения. Затем сканирование считывает метаданные из источника и заполняет ресурсы на карте данных.
Выберите источник, зарегистрированный на вкладке "Источники данных"
Выберите новое сканирование и укажите сведения:
- Использование среды выполнения интеграции по умолчанию для этой проверки
- Учетные данные должны быть MSI Microsoft Purview (система)
- Уровень сканирования — автоматическое обнаружение
- Выберите коллекцию или используйте домен (коллекция должна быть той же или дочерней коллекцией, где был зарегистрирован источник данных).
- Нажмите кнопку Продолжить.
Совет
На этом этапе Microsoft Purview проверит подключение для проверки возможности проверки. Если вы не предоставили читателю MSI Microsoft Purview доступ к источнику данных, он завершится ошибкой. Если вы не являетесь владельцем источника данных или имеете доступ пользователя участник проверка завершится ошибкой, так как ожидается, что у вас есть авторизация для создания подключения.
Теперь выберите только контейнер gold, в котором мы разместили разностную таблицу в разделе данных о сборке учебника. Это помешает сканировать другие ресурсы данных, которые находятся в хранилище данных.
- Если рядом с gold есть только один синий проверка, вы можете оставить чеки рядом со всем, так как он будет сканировать полный источник и по-прежнему создавать ресурсы, которые мы будем использовать, и многое другое.
- Нажмите кнопку Продолжить.
На экране Выбор набора правил проверки следует использовать набор правил проверки по умолчанию.
Нажмите кнопку Продолжить.
При установке триггера сканирования вы зададите частоту сканирования, чтобы по мере добавления ресурсов данных в золотой контейнер озера он продолжал заполнять карту данных. Выберите Один раз.
Нажмите Продолжить.
Выберите Сохранить и выполнить. При этом будет создано сканирование, которое считывает только метаданные из золотого контейнера озера данных и заполняет таблицу, которую мы будем использовать в Единый каталог Microsoft Purview в следующих разделах. Если выбрать только сохранить, проверка не будет выполняться, и ресурсы не отображаются. После выполнения проверки вы увидите созданное сканирование с состоянием Последнего выполнения в очереди. Когда проверка завершит чтение, ресурсы будут готовы к работе со следующим разделом. Это может занять несколько минут или часов в зависимости от количества ресурсов в источнике.
Шаг 3. Публикация продуктов данных
Создание продуктов данных очень важно, чтобы ваша организация сделала нужные данные доступными для обнаружения. Продукты данных помогут предотвратить чрезмерное управление данными, которые являются низкими или не имеют ценности в вашем хранилище данных, так как они не используются или имеют ограниченное значение. Обеспечение того, что специалисты по данным собираются опубликовать продукты данных, активирует наиболее ценные данные и создаст правильный уровень управления на основе этой ценности. Обработка ресурсов, которые технические команды не знают о бизнес-цели или пытаются управлять всем в вашем сложном и растущем пространстве данных, приведет к дополнительному времени и потере производительности, чтобы отследить детали данных, которые никогда не будут использоваться или могут быть просто удалены из имущества. Вместо этого сосредоточьтесь на фрагментах данных, которые имеют ценность, и что людям нужно обнаружить и создать еще больше ценности. По мере того как команды используют больше данных и получают лучшее представление о том, что необходимо, или можно создать более полезные продукты данных для удовлетворения этих требований, и система управления может адаптироваться, чтобы обеспечить всегда правильный размер в зависимости от ценности и конфиденциальности данных.
Предварительные условия
- Должен быть владельцем продукта данных для используемого домена управления .
- В схеме данных должны быть ресурсы данных. Если вы этого не сделали, дополнительные сведения см. в разделе 2 этого руководства .
- Домен управления должен быть опубликован для публикации продукта данных. Если у вас его нет, см. раздел 1 этого руководства , чтобы создать его.
Создание и публикация продукта данных
Откройте портал Microsoft Purview.
Выберите Единый каталог.
Выберите Управление каталогом , а затем Домены управления.
На странице Домены управления выберите личный домен работоспособности.
Выберите ссылку Перейти к продуктам данных в разделе Бизнес-понятия.
Здесь эксперты по данным, называемые владельцами продуктов данных, определяют ресурсы данных, которые предназначены для использования другими пользователями в вашей организации, и предоставляют необходимую информацию, чтобы сделать их пригодными для использования.
Выберите Новый продукт данных
Предоставление сведений о продукте данных
- Название: "Covid-19 Вакцинация и случаи тенденции по возрасту"
- Описание: "Эти данные поступают из CDC в составе Министерства здравоохранения США & социальных служб. Данные содержат тенденции вакцинации и случаев по возрастным группам на национальном уровне США. Данные стратифицируются по крайней мере одной дозой и полностью вакцинированы. Данные также представляют всех партнеров по вакцинам, включая юрисдикционные партнерские клиники, розничные аптеки, учреждения по долгосрочному уходу, диализные центры, Федеральное агентство по управлению чрезвычайными ситуациями и партнерские сайты администрирования ресурсов и услуг здравоохранения, а также объекты федеральных организаций.
- Тип: Набор данных
- Нажмите Далее.
- Варианты использования: "Эти данные предоставляются для общественного использования и предназначены для того, чтобы помочь понять тенденции вакцинации и новые случаи в различных возрастных группах. Возрасты разделены на две группы от <2 лет до 65+ лет. Аналогичным образом тенденции представлены в ежедневных цифрах, которые обеспечивают среднее число новых случаев заболевания в семь дней по возрастным группам".
- Пометка как одобренная как установленная.
- Выберите Сохранить.
Теперь у вас есть базовые метаданные продукта данных. Затем добавьте некоторые свойства и сопоставите ресурс с карты данных.
Нажмите кнопку + Добавить ресурсы данных .
Вы увидите ресурсы, которые вы сканировали на карте данных. Это будет включать все папки и слои источника данных.
Найдите ресурс Вакцины и тенденции случаев covid19 , добавленный в золотой контейнер озера данных, и выберите этот набор ресурсов.
Нажмите Добавить. Вы можете выбрать столько ресурсов, сколько требуется для продукта данных, но здесь требуется только один.
Совет
Нажмите кнопку Получить предложения , чтобы genAI помоги выбрать ресурсы на карте данных, а затем выберите Вакцина и тенденции случаев covid19 в сокращенном списке результатов.
Теперь вы можете увидеть ресурс, добавленный в продукт данных.
Выберите + Добавить термин рядом с заголовком терминов глоссария.
Выберите термин вспышки, созданный ранее, и нажмите кнопку Добавить.
Вы должны увидеть критически важный элемент данных для возрастной группы из ресурса, сопоставленного с продуктом данных.
Выберите + Добавить OKR рядом с заголовком OKR.
Выберите пункт Снижение риска пандемии путем эффективного использования вакцины для пациентов. Это цель, которую мы создали в первом разделе.
Управление политиками запросов на доступ к продуктам данных
В верхней части страницы последним шагом перед публикацией продукта данных является нажатие кнопки Управление политиками . Здесь политики доступа и рабочий процесс запроса доступа настраиваются путем выбора и предоставления имен для утверждения. Вы также можете использовать вкладку Унаследованные политики , чтобы просмотреть политику домена управления, примененную для аттестации копий данных, примененную ранее. То же самое касается утверждения руководителя , необходимого из термина глоссария вспышки.
Перейдите на вкладку Управление политиками .
В разделе Ограничение времени доступа укажите сведения о том, как долго выполняется запрос на доступ, прежде чем его нужно продлить. Мы настроим этот параметр, чтобы предоставить доступ на срок до одного года.
В коробку положите 1.
Выберите годы в раскрывающемся списке.
В разделе Требования к утверждению укажите свое имя в поле утверждающих. (Для этого потребуется зарегистрировать имя в Microsoft Entra ID)
Примечание.
Не нужно проверка утверждение руководителя, так как эта политика наследуется от термина глоссария вспышки.
Нажмите кнопку Форма предварительного просмотра запроса , чтобы увидеть, что потребители каталога будут просматривать при запросе доступа. Вы увидите, что требуется аттестация копирования данных и утверждение руководителя, так как они были заданы доменом управления и термином глоссария.
Нажмите Сохранить изменения.
После сопоставления ресурсов данных и настройки политик доступа вы сможете опубликовать продукт данных в каталоге.
Выберите Опубликовать в продукте данных.
Попробуйте создать отчет о прибыли в других доменах, созданных ранее
- Отчет о прибыли, тип: панели мониторинга и отчеты.
- Источник продукта, тип: данные Maser и эталонные данные.
Примечание.
Вы можете добавить к ним много ресурсов и посмотреть, как будет выглядеть продукт данных с большим количеством ресурсов, а также может ли продукты данных использовать термины из любого домена, чтобы увидеть, как глоссарий используется для описания данных с помощью согласованного набора терминов.
Шаг 4. Запуск качества данных
Теперь, когда у вас есть продукт данных, доступный в каталоге, выполнение правил качества данных сообщит всем, что данные в хорошей форме и готовы к использованию. По мере получения дополнительных данных можно добавить новые правила качества данных, чтобы убедиться, что они подходят для всех вариантов использования. Обеспечение высочайшего качества продуктов данных поможет повысить доверие к данным и сообщить другим пользователям, что они отслеживаются с улучшением. По мере роста ценности данных качество этих данных придется более тщательно отслеживать и контролировать, так как проблемы с качеством данных могут привести к значительному воздействию при плохом управлении.
Предварительные условия
- Правила качества данных можно выполнять только в таблицах разностного формата в ADLS 2-го поколения и Microsoft Fabric.
- Управляемое удостоверение от Microsoft Purview должно быть включено для чтения источника данных, так как на сегодняшний день это единственные поддерживаемые учетные данные для качества данных.
- Вы должны иметь роль администратора качества данных в домене управления, в котором выполняется качество данных.
- Вы должны быть владельцем или иметь доступ администратора пользователей к источнику данных, который подключается к проверке качества данных, чтобы обеспечить правильную авторизацию безопасности для сканирования данных.
- Для запуска профилей с данными требуется роль администратора профиля данных.
Создание и выполнение правил качества данных
Откройте портал Microsoft Purview.
Выберите Единый каталог.
Перейдите на вкладку Качество данных в разделе Управление данными.
Выберите личный домен работоспособности, созданный в разделе 1.
Нажмите кнопку Управление и выберите Connections в меню. Создание этого подключения гарантирует, что вы сможете выполнять проверки качества данных в источнике данных в этой области управления, что не позволит командам получить доступ к знаниям о данных без надлежащего разрешения.
Выберите Создать на экране подключений, чтобы создать новое подключение:
- Укажите отображаемое имя "Personal Health ADLSg2 DQ".
- Выберите тип источника Azure Data Lake Storage 2-го поколения.
- Укажите сведения об источнике данных, созданном в разделе 2.
Примечание.
Учетные данные должны быть MSI (система) Microsoft Purview для подключения к качеству данных
- Выберите Проверить подключение.
- После проверки подключения нажмите кнопку Отправить.
- Укажите сведения об источнике данных, созданном в разделе 2.
После установки подключения вы можете запустить профили и приступить к созданию правил качества данных. Это гарантирует, что эксперты, которые знают бизнес-правила и соответствующие правила, будут работать на самых важных продуктах данных.
- Назад на страницу Качество данных.
- Выберите домен управления личным здоровьем.
- Выберите продукт данных о вакцинации и случаев covid-19 По возрасту , встроенный в разделе 3.
- Выберите ресурс, добавленный в продукт данных. (Он должен быть в разностном формате из раздела 2, иначе качество данных не выполняется).
- Примените правила качества данных к столбцам данных, чтобы определить, соответствуют ли они вашим ожиданиям качества:
- Выберите вкладку Правила в выбранном ресурсе.
- Выберите Новое правило.
- Выберите Правило пустых и пустых полей.
- Укажите сведения:
- Выберите Столбец AgeGroupVacc в раскрывающемся списке столбца.
- Имя правила: Подтверждение существования возрастной группы вакцинации
- Нажмите Создать.
- Выберите Новое правило.
- Выберите Сопоставление типов данных.
- Укажите подробные сведения.
- Выберите ДатаАдминистрированный столбец.
- Нажмите Создать.
- Выберите Выполнить проверку качества данных.
Данные профиля
Создайте профиль для данных, чтобы просмотреть высокоуровневую статику каждого столбца и обнаружить аномалии, которые могут иметь новое правило.
- В Единый каталог выберите Управление работоспособностью, а затем — Качество данных.
- Выбор данных профиля
- Установите верхний флажок рядом с полем Имя столбца , чтобы профилировать все столбцы. Microsoft Purview порекомендует, какие столбцы следует профилировать, и вы можете выбрать столбцы, которые, как вы знаете, стоит профилировать, чтобы предотвратить заполнение профилей на высоко конфиденциальных данных или данные, которые, как вы знаете, будут заполнены разреженно.
- Выберите Профиль запуска
После завершения сканирования вы сможете просмотреть оценку качества данных и профиль для нового продукта данных, и оценка качества данных будет доступна всем пользователям каталога, гарантируя, что все будут знать состояние данных.
Создайте расписание для проверок качества данных, чтобы обеспечить постоянный мониторинг проблем с качеством данных. Настройте оповещения, чтобы убедиться, что вы решаете проблемы с качеством данных, прежде чем затронут потребителей.
- В разделе Управление работоспособностью выберите Качество данных.
- Выберите домен "Личная работоспособности", в котором настроены правила качества данных.
- В раскрывающемся списке Управление выберите Запланированные проверки.
- На странице Запланированные проверки выберите Создать.
- Добавление сведений об обзоре
- Имя: Личная оценка работоспособности DQ Monthly Evaluation
- Описание: ежемесячное сканирование правил DQ для непрерывного улучшения.
- Нажмите кнопку Продолжить.
- Выбор область сканирования
- Установите флажок рядом с полем Вакцина и случаи covid-19 Тренды по возрасту продукта данных
- Нажмите кнопку Продолжить.
- Запланируйте проверку, чтобы убедиться, что она выполняется в последний день каждого месяца
- Выберите Повторяющиеся
- Повторение: каждые месяц
- Дни месяца: последний
- Расписание сканирования (UTC): 12:00:00
- Запуск повторения в (UTC): оставьте значение по умолчанию
- Нажмите кнопку Продолжить.
- Просмотрите сведения о проверке, чтобы узнать, есть ли какие-либо изменения, которые вы хотите внести перед сохранением.
- Выберите Сохранить. Так как мы активировали проверку вручную ранее, нам не нужно запускать другую проверку сейчас, но если требуется новая проверка, выберите Сохранить и запустить.
Настройка оповещений
После запланированного сканирования качества данных можно активировать оповещения, чтобы сообщить стюардам о наличии проблем или необходимости внимания из-за проблем с качеством данных или сбоев сканирования. Настройте оповещение о качестве данных для неудачных проверок и при снижении оценки более чем на 5 %.
- Назад в домен личной работоспособности на странице Качество данных.
- В раскрывающемся списке Управление выберите Оповещения.
- Выберите Создать.
- Ввод сведений об оповещении
- Отображаемое имя: личная проверка работоспособности DQ Ежемесячное сканирование
- Описание. Чтобы гарантировать, что минимальные пороговые значения DQ соответствуют ожиданиям потребителей.
- Целевой объект: оценка снижается более чем
- Пороговое значение: 5
- Отключить уведомления: не устанавливайте флажок
- Включить уведомление о неудачных проверках качества: оставьте флажок
- Получатель: введите свое имя
- Нажмите Продолжить.
Совет
При реализации в Единый каталог вам потребуется отправлять оповещения стюардам, которые могут уведомлять потребителей о проблеме и работать с техническим владельцем данных для внесения исправлений.
В конце этого раздела вы получите функциональный Единый каталог с качеством операционных данных для управления данными, которые вы предлагаете потребителям данных организации. Все было сделано для получения наиболее ценных данных для потребителя и создания доверия к данным, которые он будет использовать. По мере роста ценности данных и появления новых стратегий обработки данных в следующем разделе показано, как можно управлять всем каталогом или углубиться в управление конкретными данными с помощью Master Data.
Шаг 5. Управление основными данными
Управление основными данными — это практика соответствия наиболее важным сущностям данных, которые должны быть точными, уникальными и последовательно применяться во всех областях бизнеса, так как ошибки и проблемы в этих данных могут повлиять на весь бизнес. С помощью одного из наших партнеров MDM вы сможете интегрировать выбранное решение Master Управление данными (MDM) с Microsoft Purview, чтобы обеспечить унификацию, стандартизацию и очистку данных, что позволит создавать золотые записи и публикацию master данных как продуктов данных.
Следуйте руководствам по выбору решения: Управление основными данными в Microsoft Purview
Шаг 6. Управление работоспособностью данных
В Microsoft Purview Data Estate Health Центральный офис данных и другие менеджеры по обработке данных могут оценивать состояние данных в соответствии со стандартами своей компании и эффективно управлять прогрессом в реализации стратегии. Чтобы убедиться, что все в компании знают, что можно сделать для повышения ценности своих данных, важно, чтобы стандарты были понятны и масштабируемы для всей организации без необходимости делать всех экспертами по управлению данными. Начиная с стандартного отраслевого набора элементов управления, которые доступны в Microsoft Pur, и настройте элементы управления в соответствии с их ожиданиями и обеспечить соответствие их целям данных. Решающее значение для эффективности этих элементов управления имеет не только измерение этих стандартов, но и обеспечение того, чтобы лица, ответственные за данные, могли самостоятельно принимать меры и нести ответственность за внесение улучшений, влияющих на ценность данных. В data Estate Health вы можете настроить все эти критически важные возможности и управлять ими.
Предварительные условия
- Продукты данных, термины глоссария и другие бизнес-концепции, опубликованные в Единый каталог Microsoft Purview. Вы можете следовать предыдущим разделам, чтобы создать следующее:
- По крайней мере через 24 часа с момента курирования продуктов данных.
- В Единый каталог должна быть роль владельца работоспособности данных.
Оценка управления данными с помощью работоспособности хранилища данных
Откройте портал Microsoft Purview.
Выберите Единый каталог.
В разделе Работоспособности хранилища данных в области навигации слева выберите Элементы управления работоспособностью.
Выберите пряник > рядом с группой элементов управления Создание значений .
Наведите указатель мыши на заголовок элемента управления, щелкните значок карандаша, чтобы изменить элемент управления. Изменяя элемент управления, вы изменяете пороговое значение элемента управления, чтобы задать ожидания для оценки и задать цветовую оценку, чтобы продемонстрировать этапы выполнения.
Сведения позволяют предоставить описание элемента управления и его значение для вашей организации, а также задать владельца для определенного элемента управления.
Перейдите на вкладку Правила элемента управления, чтобы изменить пороговое значение. Это показывает, что он имеет высокую цель, и если он не работоспособен, важно выполнить дальнейшие действия.
- Наследование от группы: переключатель, чтобы отключить (должен стать серым).
- Целевая оценка: 90
- Выберите Новое правило.
- Установите поле рядом с оценкой значение GreaterThanOrEqual
- Задайте для процентного значения значение 90.
- Состояние = работоспособности (зеленый)
- Else Box Status = Critical (Purple)
- Выберите Сохранить.
В разделе Работоспособности хранилища данных выберите Качество метаданных.
Здесь можно изменить или добавить правила, которые создают оценки элемента управления. Здесь мы хотим изменить серьезность действий для создания значений , чтобы все пользователи знали о важности этого действия.
- Выберите Настроить серьезность.
- Выберите группу элементов управления Создание значений .
- Выберите заголовок элемента управления выравниванием BUSINESS OKR .
- Измените уровень серьезности со среднего на высокий и нажмите кнопку Сохранить.
- Перейдите на вкладку Действия работоспособности
- Фильтр назначен: к вашему имени
- Выберите действие, в котором можно увидеть, что владелец действия должен сделать, чтобы обеспечить выполнение ожиданий системы управления, или он может назначить нового владельца, чтобы получить лучших экспертов для предоставления своих данных. Существует также состояние, которое позволяет другим пользователям узнать, какая работа выполняется и где другие действия могут потребовать определения приоритетов.
Шаг 7. Демократизация данных
Предоставление пользователям возможности находить нужные им данные и получать доступ к ней с помощью жалобы является сутью демократизации данных и гарантирует, что пользователи могут найти данные, необходимые для создания ценности для бизнеса. Предоставление чистого и простого интерфейса для обнаружения данных — это цель Единый каталог Microsoft Purview, в то же время предоставляя управляющим возможность обновлять и управлять данными, доступными в каталоге в большом масштабе. В этом разделе мы рассмотрим, как пользователи могут найти и запросить доступ к данным, а также убедиться, что соответствующие утверждающие могут отслеживать и предоставлять входные данные по этим запросам на доступ.
Предварительные условия
- Как минимум выполнены шаги 1–4:
- Единый каталог разрешение на чтение в одном домене управления
Обнаружение продуктов данных
- В Единый каталог выберите Обнаружение, а затем — Продукты данных.
- На странице Продукты данных используйте строку поиска для поиска показателей вакцинации по возрасту.
- Здесь вы увидите продукты данных, опубликованные в разделе 2. Это показывает, как пользователи будут предоставляться только данным, предназначенным для их обнаружения, и предотвращает переход пользователей в высокотехнических данных.
- Выберите продукт данных о вакцинации и случаев covid-19 По возрасту
- Здесь потребители могут просматривать предоставленные вами метаданные и любые другие свойства, настроенные во время установки. Оценка качества данных также доступна, чтобы потребители знали о качестве, прежде чем получить доступ к данным.
- Выберите ресурс, и потребитель увидит все столбцы, доступные в ресурсе данных.
- Выберите термин глоссария вспышки, и потребитель сможет увидеть описание и другие сведения о термине, чтобы получить более глубокое представление о данных.
- Когда потребитель будет уверен, что он хочет использовать эти данные, он должен получить утвержденный доступ к данным.
- Выберите Запросить доступ.
- Заполните сведения о форме для отправки запроса.
- Пользователь: оставьте свое имя
- Утверждение руководителя: автоматически требуется и направляется руководителю Microsoft Entra ID.
- Цель: выберите цель
- Бизнес-обоснование: мониторинг OKR
- Установите флажок рядом с аттестацией, чтобы сказать, что вы понимаете ожидания использования этих данных.
- Нажмите кнопку Отправить.
Теперь запрос на доступ будет отправлен в список, управляемый в Microsoft Entra ID. Отсюда менеджер может получить доступ к запросам, открыв электронное письмо и выбрав ссылку или перейдя в Microsoft Purview. Утверждение доступа и управление ими можно выполнять непосредственно в Microsoft Purview.
- В Единый каталог выберите Управление каталогом, а затем — Запросы.
- Выберите личный домен работоспособности .
- Выберите отправленный запрос.
- Теперь утверждающие могут утвердить или отклонить, выбрав Ответить на запрос.