Поделиться через


Обнаружение и редактирование персональных данных

Функция распознавания персональных данных позволяет оценивать неструктурированный текст, извлекать и редактировать персональные данные и медицинские сведения по нескольким предварительно определенным категориям.

Варианты разработки

Чтобы использовать обнаружение piI, вы отправляете текст для анализа и обрабатываете выходные данные API в приложении. Анализ выполняется как есть, без настройки модели, используемой в данных. Существует два способа использования обнаружения пин-кодов:

Вариант разработки Description
Студия службы "Язык" Language Studio — это веб-платформа, которая позволяет попробовать связывание сущностей с текстовыми примерами без учетной записи Azure и собственных данных при регистрации. Дополнительные сведения см. в кратком руководстве по веб-сайту Или языковой студии Language Studio.
REST API или клиентская библиотека (пакет SDK для Azure) Интеграция обнаружения PII в приложения с помощью REST API или клиентской библиотеки, доступной на различных языках. Дополнительные сведения см. в кратком руководстве по обнаружению piI.

Определение способа обработки данных (необязательно)

Указание модели обнаружения персональных данных

По умолчанию эта функция использует последнюю доступную модель ИИ в тексте. Вы также можете настроить запросы API для использования определенной версии модели.

Языки ввода

При отправке документов, которые будут обработаны, можно указать, какие из поддерживаемых языков они написаны. Если вы не указываете язык, извлечение по умолчанию используется на английском языке. API может возвращать смещения в ответе для поддержки различных многоязычных кодировок и эмодзи.

Политика redaction (только версия 2024-11-5-preview)

В версии 2024-11-5-preview вы можете определить redactionPolicy параметр, который будет отражать политику редактирования, которая будет использоваться при редактировании документа в ответе. Поле политики поддерживает 3 типа политик:

  • DoNotRedact
  • MaskWithCharacter (по умолчанию)
  • MaskWithEntityType

Политика DoNotRedact позволяет пользователю возвращать ответ без redactedText поля.

Политика MaskWithRedactionCharacter позволяет redactedText маскировать символ, сохраняя длину и смещение исходного текста. Это существующее поведение.

Также есть необязательное поле redactionCharacter , в котором можно ввести символ, который будет использоваться в редакте, если вы используете MaskWithCharacter политику.

Политика MaskWithEntityType позволяет маскировать обнаруженный текст сущности PII с обнаруженным типом сущности.

Отправка данных

Анализ выполняется при получении запроса. При синхронном использовании функции распознавания персональных данных состояние не отслеживается. Никакие данные в учетной записи не сохраняются, а все результаты немедленно возвращаются в ответе.

При асинхронном использовании этой функции результаты API доступны в течение 24 часов с момента приема запроса и указываются в ответе. По истечении этого периода результаты очищаются и больше не будут доступны для извлечения.

Выбор возвращаемых сущностей

API пытается определить определенные категории сущностей для заданного языка документов. Если вы хотите указать, какие сущности обнаружены и возвращаются, используйте необязательный piiCategories параметр с соответствующими категориями сущностей. Этот параметр также позволяет обнаруживать сущности, которые не активны по умолчанию для языка документа. В примере ниже обнаруживается только Person. Можно указать один или несколько типов сущностей, которые необходимо вернуть.

Совет

Если вы не включаете default при указании категорий сущностей, API возвращает только указанные категории сущностей.

Входные данные:

Примечание.

В этом примере возвращается только тип сущности пользователя :

https://<your-language-resource-endpoint>/language/:analyze-text?api-version=2022-05-01

{
    "kind": "PiiEntityRecognition",
    "parameters": 
    {
        "modelVersion": "latest",
        "piiCategories" :
        [
            "Person"
        ]
    },
    "analysisInput":
    {
        "documents":
        [
            {
                "id":"1",
                "language": "en",
                "text": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is John Doe) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!"
            }
        ]
    },
    "kind": "PiiEntityRecognition", 
    "parameters": { 
        "redactionPolicy": { 
            "policyKind": "MaskWithCharacter"  
             //MaskWithCharacter|MaskWithEntityType|DoNotRedact 
            "redactionCharacter": "*"  
}

Выходные данные:


{
    "kind": "PiiEntityRecognitionResults",
    "results": {
        "documents": [
            {
                "redactedText": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is ********) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!",
                "id": "1",
                "entities": [
                    {
                        "text": "John Doe",
                        "category": "Person",
                        "offset": 226,
                        "length": 8,
                        "confidenceScore": 0.98
                    }
                ],
                "warnings": []
            }
        ],
        "errors": [],
        "modelVersion": "2021-01-15"
    }
}

Получение обнаруженных персональных данных

При получении результатов от функции распознавания персональных данных можно передать результаты в приложение в потоке или сохранить выходные данные в файл в локальной системе. Ответ API включает распознанные сущности, включая их категории и подкатегории, а также оценки достоверности. Строка текста с сущностями PII, редактированная, также возвращается.

Ограничения службы и данных

Сведения о размере и числе запросов, которые можно отправлять в минуту и секунду, см. в статье об ограничениях службы.

Следующие шаги

Общие сведения о Распознавании именованных сущностей