Рекомендации по классификации в Схема данных Microsoft Purview
Классификация данных в Схема данных Microsoft Purview — это способ классификации ресурсов данных путем назначения уникальных логических меток или классов ресурсам данных. Классификация основана на бизнес-контексте данных. Например, можно классифицировать ресурсы по номеру паспорта, номеру водительского удостоверения, номеру кредитной карты, коду SWIFT, имени человека и т. д. Дополнительные сведения о самой классификации см. в нашей статье классификации.
В этой статье описаны рекомендации, которые следует применять при классификации ресурсов данных, чтобы ваши проверки были более эффективными и у вас были максимально полные сведения обо всем пространстве данных.
Набор правил сканирования
С помощью набора правил проверки можно настроить соответствующие классификации, которые должны применяться к конкретному сканированию источника данных. Выберите соответствующие системные классификации или пользовательские классификации, если вы создали их для сканируемых данных.
Например, на следующем рисунке для проверяемого источника данных (например, финансовых данных) будут применены только определенная выбранная система и пользовательские классификации.
Управление заметками
При принятии решения о том, какие классификации следует применять, рекомендуется:
Перейдите в областьКлассификации примечаний>картыданных>.
Просмотрите доступные системные классификации для применения к проверяемой базе данных. Формальные имена системных классификаций имеют префикс МАЙКРОСОФТ .
При необходимости создайте пользовательскую классификацию. Перейдите на вкладку Настраиваемый и нажмите кнопку + Создать. Дополнительные сведения о создании пользовательской классификации см. в статье о пользовательской классификации.
Создайте правило классификации для пользовательской классификации, созданной на предыдущем шаге. Перейдите враздел Правила классификациизаметок для управления аннотациями>карты> данных. Здесь можно создать правило классификации для пользовательского имени классификации, созданного на предыдущем шаге.
Пользовательские классификации
Создавайте пользовательские классификации, только если доступные системные классификации не соответствуют вашим потребностям.
Для имени пользовательской классификации рекомендуется использовать соглашение о пространстве имен (например, <название> компании).<бизнес-подразделение>.<пользовательское имя> классификации).
Например, для пользовательской классификации EMPLOYEE_ID для вымышленной компании Contoso имя пользовательской классификации будет CONTOSO.HR. EMPLOYEE_ID, и понятное имя сохраняется в системе как отдел кадров. ИДЕНТИФИКАТОР СОТРУДНИКА.
При создании и настройке правил классификации для пользовательской классификации выполните следующие действия.
Выберите подходящее имя классификации, для которого будет создано правило классификации.
Схема данных Microsoft Purview поддерживает следующие два метода создания настраиваемых правил классификации:
Используйте метод Регулярное выражение (регулярное выражение), если можно согласованно выразить элемент данных с помощью шаблона регулярного выражения или создать шаблон с помощью файла данных. Убедитесь, что данные выборки отражают население.
Используйте метод Dictionary только в том случае, если список значений в файле словаря представляет все возможные значения данных для классификации и, как ожидается, будет соответствовать заданному набору данных (с учетом будущих значений).
Использование метода Регулярных выражений :
Настройте шаблон регулярных выражений для классифицируемых данных. Убедитесь, что шаблон регулярных выражений является достаточно универсальным для удовлетворения классифицируемых данных.
Microsoft Purview также предоставляет функцию для создания рекомендуемого шаблона регулярных выражений. После отправки примера файла данных выберите один из предложенных шаблонов, а затем выберите Добавить в шаблоны , чтобы использовать предлагаемые шаблоны данных и столбцов. Вы можете изменить предлагаемые шаблоны или ввести собственные шаблоны, не загружая файл.
Вы также можете настроить шаблон имени столбца, чтобы классифицировать столбец, чтобы свести к минимуму ложные срабатывания.
Настройте параметр минимального порогового значения соответствия , допустимый для данных, соответствующих шаблону данных, для применения классификации. Пороговые значения могут быть от 1% до 100%. Мы предлагаем значение не менее 60 % в качестве порога, чтобы избежать ложноположительных результатов. Однако можно настроить по мере необходимости для конкретных сценариев классификации. Например, если вы хотите обнаружить и применить классификацию для любого значения в данных, если оно соответствует шаблону, пороговое значение может быть ниже 1 %.
Параметр для задания правила минимального соответствия автоматически отключается, если в правило классификации добавляется несколько шаблонов данных.
Используйте правило классификации тестов и проверьте с примерами данных, чтобы убедиться, что правило классификации работает должным образом. Убедитесь, что в образце данных (например, в файле .csv) присутствует по крайней мере три столбца, включая столбец, к которому будет применена классификация. В случае успешного выполнения теста в столбце должна появиться метка классификации, как показано на следующем рисунке:
Использование метода Dictionary :
Метод Dictionary можно использовать для размещения данных перечисления или, если список возможных значений словаря доступен.
Этот метод поддерживает .csv и TSV-файлы с ограничением размера файла в 30 МБ.
Архетипы пользовательской классификации
Принцип работы параметра threshold в регулярном выражении
Рассмотрим пример исходных данных на следующем рисунке. Существует пять столбцов, и настраиваемое правило классификации должно применяться к столбцам , Sample_col1, Sample_col2 и Sample_col3 для шаблона данных N{Digit}{Digit}{Digit}AN.
Пользовательская классификация называется NDDDAN.
Правило классификации (регулярное выражение для шаблона данных) — ^N[0-9]{3}AN$.
Пороговое значение будет вычисляться для шаблона "^N[0-9]{3}AN$", как показано на следующем рисунке:
Если пороговое значение 55 %, классифицируются только столбцы , Sample_col1 и Sample_col2 . Sample_col3 не будет классифицироваться, так как он не соответствует пороговой критерию 55 %.
Использование шаблонов данных и столбцов
Для заданного примера данных, где и столбец B , и столбец C имеют одинаковые шаблоны данных, можно классифицировать по столбцу B на основе шаблона данных "^P[0-9]{3}[A-Z]{2}$".
Используйте шаблон столбца вместе с шаблоном данных, чтобы убедиться, что классифицируется только столбец Product ID .
Примечание.
Шаблон столбца проверяется как условие И с шаблоном данных.
Используйте правило классификации тестов и проверьте с примерами данных, чтобы убедиться, что правило классификации работает должным образом.
Использование шаблонов нескольких столбцов
Если для одного правила классификации требуется классифицировать несколько шаблонов столбцов, используйте имена столбцов, разделенных символами (|). Например, для столбцов Product ID, Product_ID, ProductID и т. д. запишите шаблон столбца, как показано на следующем рисунке:
Дополнительные сведения см. в разделе Конструкция изменения регулярных выражений.
Рекомендации по классификации
Ниже приведены некоторые рекомендации, которые следует учитывать при определении классификаций.
Чтобы решить, какие классификации необходимо применить к ресурсам перед сканированием, рассмотрите способ использования классификаций. Ненужные метки классификации могут выглядеть шумно и даже вводить в заблуждение для потребителей данных. Классификации можно использовать для:
- Опишите характер данных, которые существуют в проверяемом ресурсе данных или схеме. Другими словами, классификации должны позволять клиентам определять содержимое ресурса данных или схемы по меткам классификации при поиске в каталоге.
- Установите приоритеты и разработайте план для обеспечения безопасности и соответствия требованиям организации.
- Опишите этапы в процессах подготовки данных (необработанные зоны, целевая зона и т. д.) и назначьте классификации определенным ресурсам, чтобы пометить этап процесса.
Классификации можно назначать на уровне ресурса или столбца автоматически, включив соответствующие классификации в правило сканирования, или назначить их вручную после приема метаданных в Схема данных Microsoft Purview.
Сведения об автоматическом назначении см. в разделе Поддерживаемые хранилища данных для Схема данных Microsoft Purview.
Прежде чем сканировать источники данных в Схема данных Microsoft Purview, важно разобраться в данных и настроить соответствующий набор правил проверки (например, выбрав соответствующую системную классификацию, пользовательские классификации или сочетание и того, и другого), так как это может повлиять на производительность сканирования. Дополнительные сведения см. в разделе Поддерживаемые классификации в Схема данных Microsoft Purview.
Сканер Microsoft Purview применяет правила выборки данных для глубоких проверок (подлежащих классификации) как для системных, так и для пользовательских классификаций. Правило выборки основано на типе источников данных. Дополнительные сведения см. в разделе "Выборка в файле" статьи Поддерживаемые источники данных и типы файлов в Microsoft Purview.
Примечание.
Пороговое значение отдельных данных. Это общее количество уникальных значений данных, которые необходимо найти в столбце, прежде чем средство проверки запустит шаблон данных. Пороговое значение отдельных данных не имеет ничего общего с сопоставлением шаблонов, но оно является необходимым условием для сопоставления шаблонов. Правила классификации системы требуют наличия по крайней мере 8 отдельных значений в каждом столбце, чтобы подвергать их классификации. Системе требуется это значение, чтобы убедиться, что столбец содержит достаточно данных для точной классификации сканера. Например, столбец, содержащий несколько строк, содержащих значение 1, не будет классифицирован. Столбцы, содержащие одну строку со значением, а остальные строки имеют значения NULL, также не будут классифицированы. Если указать несколько шаблонов, это значение применяется к каждому из них.
Правила выборки также применяются к наборам ресурсов. Дополнительные сведения см. в разделе "Выборка файлов набора ресурсов" статьи Поддерживаемые источники данных и типы файлов в Схема данных Microsoft Purview.
Пользовательские классификации нельзя применять к ресурсам типов документов с помощью настраиваемых правил классификации. Классификации для таких типов можно применять только вручную.
Пользовательские классификации не включены в правила проверки по умолчанию. Таким образом, если ожидается автоматическое назначение пользовательских классификаций, необходимо развернуть и использовать пользовательское правило проверки, включающее настраиваемую классификацию для запуска сканирования.
Если вы применяете классификации вручную на портале управления Microsoft Purview, такие классификации сохраняются при последующих проверках.
Последующие проверки не удаляют никакие классификации из ресурсов, если они были обнаружены ранее, даже если правила классификации неприменимы.
Для зашифрованных исходных ресурсов данных Microsoft Purview выбирает только имена файлов, полные имена, сведения о схеме для структурированных типов файлов и таблицы баз данных. Чтобы классификация работала, расшифруйте зашифрованные данные перед выполнением проверок.