Co to jest wykrywanie danych osobowych (PII) w języku sztucznej inteligencji platformy Azure?
Wykrywanie sztucznej inteligencji to jedna z funkcji oferowanych przez język azure AI, kolekcji algorytmów uczenia maszynowego i sztucznej inteligencji w chmurze do tworzenia inteligentnych aplikacji obejmujących język pisany. Funkcja wykrywania danych osobowych może identyfikować , kategoryzować i redagować poufne informacje w tekście bez struktury. Na przykład: numery telefonów, adresy e-mail i formy identyfikacji. Język sztucznej inteligencji platformy Azure obsługuje ogólne redaction tekstu PII, a także konwersacyjne dane osobowe, wyspecjalizowany model do obsługi transkrypcji mowy oraz bardziej nieformalny, konwersacyjny ton spotkania i transkrypcji połączeń. Usługa obsługuje również redaction natywnego identyfikatora PII, gdzie dane wejściowe i wyjściowe są plikami dokumentów strukturalnych.
Co nowego
Interfejs API w wersji zapoznawczej wykrywania danych pii tekstowych i konwersacyjnych danych pii (wersja 2024-11-15-preview
) obsługuje teraz opcję maskowania wykrytych poufnych jednostek z etykietą poza tylko znakami redaction. Klienci mają możliwość określenia, czy dane osobowe zawierają informacje, takie jak nazwy i numery telefonów, tj. “John Doe received a call from 424-878-9192”
, są maskowane znakiem redakcji, tj. “******** received a call from ************”
lub maskowane etykietą jednostki, tj. “[PERSON_1] received a call from [PHONENUMBER_1]”
. Więcej informacji na temat określania stylu zasad redaction dla danych wyjściowych można znaleźć w naszych przewodnikach z instrukcjami.
Modele wykrywania konwersacyjnych danych biznesowych (wersja 2024-11-01-preview
i GA
) zostały zaktualizowane w celu zapewnienia rozszerzonej jakości i dokładności sztucznej inteligencji. Typ jednostki identyfikatora liczbowego obejmuje również licencję kierowców i identyfikator beneficjenta Medicare.
Od czerwca 2024 r. udostępniamy teraz ogólną obsługę dostępności dla usługi konwersacyjnej pii (tylko w języku angielskim). Klienci mogą teraz redagować transkrypcje, czaty i inny tekst napisany w stylu konwersacyjnym (tj. tekst z uwzględnieniem wsparcie środowiska "um", "ah"s, wielu osób mówiących i pisownię słów w celu zwiększenia przejrzystości) z większą pewnością w zakresie jakości sztucznej inteligencji, obsługi umowy SLA platformy Azure i wsparcie środowiska produkcyjnych oraz zabezpieczeń klasy korporacyjnej.
Napiwek
Wypróbuj wykrywanie pii w portalu azure AI Foundry, w którym można użyć aktualnie istniejącego zasobu programu Language Studio lub utworzyć nowy zasób rozwiązania Azure AI Foundry
- Przewodniki Szybki start to instrukcje wprowadzające, które ułatwiają wysyłanie żądań do usługi.
- Przewodniki z instrukcjami zawierają instrukcje dotyczące korzystania z usługi w bardziej szczegółowy lub dostosowany sposób.
- Artykuły koncepcyjne zawierają szczegółowe wyjaśnienia dotyczące funkcjonalności i funkcji usługi.
Typowy przepływ pracy
Aby użyć tej funkcji, przesyłasz dane do analizy i obsługujesz dane wyjściowe interfejsu API w aplikacji. Analiza jest wykonywana zgodnie z rzeczywistym użyciem, bez dodatkowego dostosowania do modelu używanego na danych.
Utwórz zasób języka sztucznej inteligencji platformy Azure, który zapewnia dostęp do funkcji oferowanych przez język azure AI. Generuje hasło (nazywane kluczem) i adres URL punktu końcowego używany do uwierzytelniania żądań interfejsu API.
Utwórz żądanie przy użyciu interfejsu API REST lub biblioteki klienta dla języków C#, Java, JavaScript i Python. Możesz również wysyłać wywołania asynchroniczne z żądaniem wsadowym, aby połączyć żądania interfejsu API dla wielu funkcji w jedno wywołanie.
Wyślij żądanie zawierające dane tekstowe. Klucz i punkt końcowy są używane do uwierzytelniania.
Prześlij odpowiedź strumieniowo lub przechowaj ją lokalnie.
Obsługa dokumentów natywnych
Dokument natywny odnosi się do formatu pliku używanego do tworzenia oryginalnego dokumentu, takiego jak Microsoft Word (docx) lub przenośny plik dokumentu (pdf). Obsługa dokumentów natywnych eliminuje konieczność wstępnego przetwarzania tekstu przed użyciem funkcji zasobów języka sztucznej inteligencji platformy Azure. Obecnie obsługa dokumentów natywnych jest dostępna dla funkcji PiiEntityRecognition.
Obecnie dane osobowe obsługują następujące formaty dokumentów natywnych:
Typ pliku | Rozszerzenie pliku | opis |
---|---|---|
Tekst | .txt |
Niesformatowany dokument tekstowy. |
Adobe PDF | .pdf |
Przenośny plik dokumentu sformatowany. |
Microsoft Word | .docx |
Plik dokumentu programu Microsoft Word. |
Aby uzyskać więcej informacji, zobacz Use native documents for language processing (Używanie dokumentów natywnych do przetwarzania języka)
Wprowadzenie do wykrywania danych pii
Aby użyć wykrywania danych pii, należy przesłać tekst do analizy i obsłużyć dane wyjściowe interfejsu API w aplikacji. Analiza jest wykonywana zgodnie z rzeczywistym użyciem, bez dostosowywania modelu używanego na danych. Istnieją dwa sposoby używania wykrywania danych przez użytkownika:
Opcja programowania | opis |
---|---|
Studio językowe | Language Studio to platforma internetowa, która umożliwia wypróbowanie łączenia jednostek z przykładami tekstowymi bez konta platformy Azure i własnych danych podczas tworzenia konta. Aby uzyskać więcej informacji, zobacz witrynę internetową language Studio lub przewodnik Szybki start dla programu Language Studio. |
Interfejs API REST lub biblioteka klienta (Zestaw Azure SDK) | Integrowanie wykrywania pii z aplikacjami przy użyciu interfejsu API REST lub biblioteki klienta dostępnej w różnych językach. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start dotyczący wykrywania danych osobowych. |
Dokumentacja referencyjna i przykłady kodu
Jeśli używasz tej funkcji w aplikacjach, zapoznaj się z następującą dokumentacją referencyjną i przykładami dotyczącymi języka AI platformy Azure:
Opcja/język programowania | Dokumentacja referencyjna | Przykłady |
---|---|---|
Interfejs API REST | Dokumentacja interfejsu API REST | |
C# | Dokumentacja języka C# | Przykłady języka C# |
Java | Dokumentacja języka Java | Przykłady języka Java |
JavaScript | Dokumentacja języka JavaScript | Przykłady języka JavaScript |
Python | Dokumentacja języka Python | Przykłady w języku Python |
Odpowiedzialne AI
System sztucznej inteligencji obejmuje nie tylko technologię, ale także osoby, które go używają, osoby, których to dotyczy, oraz środowisko wdrażania. Przeczytaj notatkę dotyczącą przejrzystości dla danych pii , aby dowiedzieć się więcej na temat odpowiedzialnego używania i wdrażania sztucznej inteligencji w systemach. Aby uzyskać więcej informacji, zobacz następujące artykuły:
- Uwaga dotycząca przezroczystości języka sztucznej inteligencji platformy Azure
- Integracja i odpowiedzialne użycie
- Dane, prywatność i bezpieczeństwo
Przykładowe scenariusze
- Stosowanie etykiet poufności — na przykład na podstawie wyników usługi PII można zastosować etykietę poufności publicznej do dokumentów, w których nie wykryto żadnych jednostek PII. W przypadku dokumentów, w których są rozpoznawane adresy USA i numery telefonów, można zastosować etykietę poufne. Etykieta o wysokim stopniu poufności może być używana w przypadku dokumentów, w których są rozpoznawane numery routingu bankowego.
- Zredaguj niektóre kategorie danych osobowych z dokumentów, które stają się szersze — na przykład jeśli rekordy kontaktów klientów są dostępne dla przedstawicieli pomocy technicznej pierwszej linii, firma może redagować dane osobowe klienta oprócz ich nazwy z historii klienta, aby zachować prywatność klienta.
- Redact dane osobowe w celu zmniejszenia nieświadomych stronniczości - na przykład podczas procesu przeglądu życiorysu firmy mogą blokować nazwy, adres i numer telefonu, aby pomóc zmniejszyć nieświadomą płeć lub inne uprzedzenia.
- Zastąp dane osobowe w danych źródłowych uczenia maszynowego, aby zmniejszyć niesprawiedliwość — na przykład jeśli chcesz usunąć nazwy, które mogą ujawnić płeć podczas trenowania modelu uczenia maszynowego, możesz użyć usługi do zidentyfikowania ich i zastąpić je ogólnymi symbolami zastępczymi na potrzeby trenowania modelu.
- Usuń dane osobowe z transkrypcji centrum telefonicznego — na przykład jeśli chcesz usunąć nazwy lub inne dane osobowe, które występują między agentem a klientem w scenariuszu centrum obsługi telefonicznej. Możesz użyć usługi, aby je zidentyfikować i usunąć.
- Czyszczenie danych do nauki o danych — dane osobowe mogą służyć do przygotowania danych dla analityków danych i inżynierów, aby móc używać tych danych do trenowania modeli uczenia maszynowego. Zredagowanie danych w celu upewnienia się, że dane klientów nie są uwidocznione.
Następne kroki
Istnieją dwa sposoby rozpoczynania pracy z funkcją łączenia jednostek:
- Language Studio, która jest platformą internetową, która umożliwia wypróbowanie kilku funkcji usługi językowej bez konieczności pisania kodu.
- Artykuł Szybki start zawierający instrukcje dotyczące podejmowania żądań do usługi przy użyciu interfejsu API REST i zestawu SDK biblioteki klienta.