Хэширование и отправка исходной таблицы конфиденциальной информации для типов конфиденциальной информации с точным соответствием данных
В этой статье показано, как хэшировать и передавать таблицу источников конфиденциальной информации.
Совет
Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас в центре пробных версий Microsoft Purview. Сведения о регистрации и условиях пробной версии.
Сфера применения
- Создание точного соответствия данных типа конфиденциальной информации новый интерфейс
- Создание классического интерфейса точного соответствия данных типа конфиденциальной информации
Хэш и отправка исходной таблицы конфиденциальной информации
На этом этапе вы:
- Настройте пользовательскую группу безопасности и учетную запись пользователя.
- Настройте средство агента отправки точного сопоставления данных (EDM).
- Используйте средство агента отправки EDM, чтобы хэшировать таблицу источника конфиденциальной информации с солевым значением и отправить ее.
Вы можете хэширования и отправки конфиденциальных данных с помощью двух компьютерного илиодного компьютера, как описано в разделе Хэш и отправка данных. Рекомендуется использовать два компьютера для разделения процессов хэширования и отправки конфиденциальных данных. Разделение шагов между двумя компьютерами помогает гарантировать, что фактические данные никогда не будут доступны в виде ясного текста на компьютере, который может быть скомпрометирован из-за подключения к Интернету. Это также упрощает выявление всех проблем, с которыми вы сталкиваетесь.
Предварительные условия
Требования к технологиям
- Рабочая или учебная учетная запись Для Microsoft 365. Эту учетную запись необходимо добавить в группу безопасности EDM_DataUploaders .
- Компьютер с одной из следующих операционных систем. На этом компьютере работает агент отправки EDM.
- Windows 11
- Windows 10
- Windows Server 2016 с .NET версии 4.6.2
- Windows Server 2019
- Windows Server 2022
- Каталог на компьютере, используемом для отправки данных. Этот каталог содержит:
- Агент отправки EDM.
- Файл данных конфиденциальной информации в формате.csv, .tsv или pipe (|). По умолчанию агент отправки EDM ожидает, что файл данных будет иметь формат .csv.
> [! СОВЕТ]
Можно использовать файл с данными, разделенными табуляциями или каналами (вместо запятых), указав параметры "(Tab)" или "(|)" с параметром
/ColumnSeparated
. Пример:EdmUploadAgent.exe /UploadData /DataStoreName PatientRecords /DataFile C:\Edm\Hash\PatientRecords.csv /HashLocation C:\Edm\Hash /Schema edm.xml /AllowedBadLinesPercentage 5
- Выходные данные имеют и соляные файлы, которые создаются при выполнении хэш-процедуры.
- Имя хранилища данных из файлаedm.xml . В нашем примере используется
PatientRecords
.
Требования к группе безопасности и учетной записи пользователя
Как глобальный администратор перейдите в Центр администрирования, используя соответствующую ссылку для своей подписки , и создайте группу безопасностис именем EDM_DataUploaders.
Добавьте одного или нескольких пользователей в группу безопасности EDM_DataUploaders . (Именно эти пользователи управляют базой данных конфиденциальной информации.)
Схема точного сопоставления данных
Если вы использовали схему EDM и средство типа конфиденциальной информации для нового интерфейса или пакет правил конфиденциальной информации EDM для классического интерфейса, необходимо скачать эту схему, чтобы хэшировать таблицу источников конфиденциальной информации. Дополнительные сведения см. в статье Экспорт файла схемы EDM в формате XML.
Чтобы скачать эту схему EDM, откройте окно командной строки и выполните следующую команду:
EdmUploadAgent.exe /SaveSchema /DataStoreName <schema name> /OutputDir <path to output folder>
Требования к форматированию данных
Перед хэшированием и передачей конфиденциальных данных выполните поиск специальных символов в таблице, которые могут вызвать проблемы при анализе содержимого.
Вы можете проверить, что таблица имеет подходящий формат, используя агент отправки EDM со следующим синтаксисом:
EdmUploadAgent.exe /ValidateData /DataFile [data file] /Schema [schema file]
Распространенные проблемы с форматированием
- Несовпадение количества столбцов: Эта проблема может быть вызвана наличием символов запятых или кавычек в значениях в таблице, которые EDM интерпретирует как разделители столбцов. Если они не окружают целое значение, одинарные и двойные кавычки могут привести к тому, что средство неправильно идентифицирует начало и конец отдельных столбцов.
- Одинарные символы кавычек или запятые внутри значения: Например, если имя человека содержит одну кавычку, например Том О'Нил или название города начинается с апострофа, например s-Gravenhage, необходимо изменить процесс экспорта данных, используемый для создания таблицы конфиденциальной информации, и заключить такие столбцы двойными кавычками.
- Символы двойных кавычек внутри значений: Рекомендуется использовать для таблицы формат с разделителями табуляции. Таблицы с разделителями табуляции менее подвержены таким проблемам.
Хэш и отправка данных
Таблица источника конфиденциальной информации отформатирована в виде открытого текста. Используя один компьютер для шага хэша и другой компьютер для шага отправки, вы защищаете данные от предоставления данных в виде открытого текста на компьютере с прямым подключением к клиенту Microsoft 365.
Важно!
Этот подход требует установки одной и той же версии агента отправки EDM на обоих компьютерах. Затем можно скопировать хэш-файл и солевой файл с защищенного компьютера на компьютер, который может подключаться непосредственно к клиенту Microsoft 365.
На компьютере в безопасной среде выполните следующую команду в окне командной строки:
EdmUploadAgent.exe /CreateHash /DataFile [data file] /HashLocation [hash file location] /Schema [Schema file] /AllowedBadLinesPercentage [value]
Например:EdmUploadAgent.exe /CreateHash /DataFile C:\Edm\Data\PatientRecords.csv /HashLocation C:\Edm\Hash /Schema edm.xml /AllowedBadLinesPercentage 5
При этом будут выведены хэш-файл и соляной файл с такими расширениями, если параметр /
Salt <saltvalue>
не указан:- EdmHash
- EdmSalt
Безопасно скопируйте эти файлы на компьютер, используемый для отправки исходной таблицы конфиденциальной информации (например, PatientRecords.csv) в клиент.
Авторизация агента отправки EDM:
- Как администратор откройте окно командной строки.
- Перейдите в каталог, в котором установлен агент отправки EDM. (Рекомендуемый каталог — C:\EDM\Data.)
- Выполните следующую команду:
EDM Upload Agent.exe /Authorize
Важно!
Агент отправки EDM необходимо запустить из папки, в которой он установлен, и необходимо указать полный путь к файлам данных.
Войдите с помощью рабочей или учебной учетной записи Microsoft 365. (Учетная запись, добавленная в группу безопасности EDM_DataUploaders . Сведения о вашем клиенте извлекаются из учетной записи пользователя для выполнения подключения.
Чтобы отправить хэшированные данные, выполните следующую команду в окне командной строки:
EdmUploadAgent.exe /UploadHash /DataStoreName \<DataStoreName\> /HashFile \<HashedSourceFilePath\ /ColumnSeparator ["{Tab}"|"|"]
Пример:
EdmUploadAgent.exe /UploadHash /DataStoreName PatientRecords /HashFile C:\\Edm\\Hash\\**PatientRecords.EdmHash**
Чтобы убедиться, что отправка конфиденциальных данных прошла успешно, выполните следующую команду в окне командной строки:
EdmUploadAgent.exe /GetDataStore
Если отправка прошла успешно, отобразится список хранилищ данных и время их последнего обновления.
Чтобы отобразить все отправляемые данные в определенное хранилище и когда они были обновлены, выполните следующую команду в окне командной строки:
EdmUploadAgent.exe /GetSession /DataStoreName <DataStoreName>
Совет
Чтобы автоматизировать процесс хэша и отправки после его создания в первый раз, см. статью Обновление файла таблицы источника конфиденциальной информации для точного сопоставления данных.
Языки набора символов EDM и двухбайтовых символов
Точное совпадение данных поддерживает двубайтовые символы, например те, которые используются на китайском, японском и корейском языках. Однако он не поддерживает совпадения строк для подтверждающих доказательств, закодированных как двойные байтовые символы. Кроме того, он не соответствует тексту CJK с несколькими токенами, обнаруженному в классифицированном содержимом, если не включена глобализация для EDM, как описано далее в этом документе. Во всех случаях sit должен быть сопоставлен с любым текстом с несколькими токенами, как для основного поля, так и для полей подтверждающих доказательств.
Чтобы вызвать точное сопоставление данных для двухбайтовых символов, выполните следующие действия.
- Создайте тип конфиденциальной информации EDM (SIT), настроенный для сопоставления на двухбайтовом языке набора символов, например японском кандзи.
- Убедитесь, что вы скачали и установили версию 17.01.0495.0 (или более позднюю) агента отправки EDM.
- Обновите параметр глобализации файла EdmUploadAgent.exe.config до true:
<add key=" IsGlobalizationEnabled" value="true">
- Хэшировать и отправлять исходную таблицу с данными для сопоставления.
Дальнейшие действия
Для нового интерфейса: проверка точного типа конфиденциальной информации для соответствия данных
Для классического интерфейса: создание точного соответствия данных типа или пакета правил конфиденциальной информации