Распознавание личных данных (PII) сущностей
Обнаружение персональных данных (личных сведений) — это функция, предлагаемая языком ИИ Azure. Он определяет, классифицирует и редактирует личную информацию (PII) в неструктурированном тексте. Личные данные включают адреса электронной почты, номера телефонов, сведения об оплате и т. д.
Существует несколько способов вызова API обнаружения PII. Здесь вы используете azure_ai
расширение для обработки piI из текста в запросах SQL.
Необходимые компоненты
Вам нужен гибкий сервер База данных Azure для PostgreSQL с включенным и настроенным расширением.azure_ai
Кроме того, необходимо авторизовать его с помощью Azure Cognitive Services, задав ключ и конечную точку ресурса языка.
Сценарии
Используйте обнаружение piI для нескольких приложений, в том числе:
- Метки конфиденциальности: классификация документов или сообщений электронной почты по конфиденциальности в соответствии с типами персональных данных. Текст, содержащий номера телефонов, может быть помечен как конфиденциальный, в то время как кредитные карта или номера банковских счетов будут помечены строго секретными.
- Редактаж для поддержки и операций: многие операционные задачи, такие как сортировка инцидентов или маршрутизация поддержки, не требуют личной информации. Компании могут использовать редактакцию PII для фильтрации сведений о клиентах, которые не нужны задаче сотрудника.
- Уменьшите личную информацию, чтобы уменьшить бессознательную предвзятость: компания может удалить имена, адреса и другую информацию, чтобы помочь снизить бессознательный пол или другие смещения.
Обнаружение PII в SQL с помощью Azure Cognitive Services
Расширение База данных Azure для PostgreSQL гибкого сервера azure_ai предоставляет определяемые пользователем функции (ОПРЕДЕЛяемые пользователем функции) для доступа к возможностям искусственного интеллекта из SQL напрямую. ДОСТУП к API обнаружения piI осуществляется с помощью функции, предоставленной azure_cognitive.recognize_pii_entities
в следующих функциях azure_ai
:
azure_cognitive.recognize_pii_entities(
text text,
language text,
timeout_ms integer DEFAULT 3600000,
throw_on_error boolean DEFAULT true,
domain text DEFAULT 'none'::text,
disable_service_logs boolean DEFAULT false
)
Обязательные параметры : text
входные данные и language
язык, на котором text
записывается запись. Например, en-us
это английский и fr
французский. Полный список доступных языков см . в поддержке языков.
По умолчанию распознавание сущностей останавливается, если оно не завершается в 3600 000 мс = 1 час. Эту задержку можно настроить, изменив timeout_ms
.
Если возникает ошибка, по умолчанию создается исключение, что приводит к откату транзакции. Это поведение можно отключить, установив throw_on_error
значение false.
Этот domain
параметр можно использовать для настройки типа личных данных. В настоящее время по умолчанию none
используется общий идентификатор личных данных, а домен phi
определяет личную информацию о работоспособности.
См. документацию по расширению Azure Cognitive Services для полной документации по параметрам.
Например, вызов этого запроса:
SELECT azure_cognitive.recognize_pii_entities('My phone number is +1555555555, and the address of my office is 16255 NE 36th Way, Redmond, WA 98052.', 'en-us');
Дает следующий результат:
("My phone number is ***********, and the address of my office is ************************************.","{""(+1555555555,PhoneNumber,\\""\\"",0.8)"",""(\\""16255 NE 36th Way, Redmond, WA 98052\\"",Address,\\""\\"",1)""}")
Служба PII обнаружила номер телефона с оценкой достоверности 0,8 и адресом с оценкой достоверности 1. Он также вернул входные данные с двумя точками данных PII, отредактированных.
Столбцы таблицы можно использовать для входного текста:
SELECT description, azure_cognitive.recognize_pii_entities(description, 'en-us')
FROM listings LIMIT 1;
Что возвращает (с \x
включенным для расширенного отображения):
recognize_pii_entities | ("New modern house built in 2013. Spectacular sunset/water views, light, rooftop deck and lounge area, hot tub, 5 bedrooms, gourmet kitchen. Perfect for 2-3 families, walk to downtown. Located in highly desirable Queen Anne neighborhood. Our house is modern, light and fresh with a warm simple palette accented with barnwood, steel and concrete. Open living spaces for entertaining, gourmet kitchen, deck off the kitchen, reading nook, half bath and smaller tv room off kitchen. Fireplace with sofa and sitting area. Basement room is great for ****...this room has patio access and a garage door that opens into the space with basketball hoop right outside. A queen bedroom and full bath are in the basement with concrete heated floors. A queen sleeper sofa is in the tv area in the basement. This room has a door if privacy is needed. Great for a second ****** with ****. The 2nd floor has 4 bedrooms (one queen in master, one twin bedroom, another bedroom has twin bunk beds and the last","{""(kids,PersonType,\\""\\"",0.73)"",""(family,PersonType,\\""\\"",0.71)"",""(kids,PersonType,\\""\\"",0.65)""}")
Итоги
Обнаружение piI идентифицирует и классифицирует личную информацию в неструктурированном входном тексте. Языковая модель Azure Cognitive Services выполняет тяжелый подъем, а azure_ai
расширение для База данных Azure для PostgreSQL предоставляет azure_cognitive.recognize_pii_entities
API для обнаружения и редактирования piI непосредственно в запросах SQL.