Kom igång med textanalys

Slutförd

Azure AI Language är en del av Azure AI-tjänsternas erbjudanden som kan utföra avancerad bearbetning av naturligt språk över ostrukturerad text. Azure AI Languages textanalysfunktioner omfattar:

  • Namngiven entitetsigenkänning identifierar personer, platser, händelser med mera. Den här funktionen kan också anpassas för att extrahera anpassade kategorier.
  • Entitetslänkning identifierar kända entiteter tillsammans med en länk till Wikipedia.
  • Identifiering av personligt identifierande information (PII) identifierar personligt känslig information, inklusive personlig hälsoinformation (PHI).
  • Språkidentifiering identifierar språket i texten och returnerar en språkkod som "en" för engelska.
  • Attitydanalys och åsiktsutvinning identifierar om texten är positiv eller negativ.
  • Sammanfattning sammanfattar text genom att identifiera den viktigaste informationen.
  • Extrahering av nyckelfraser visar huvudbegreppen från ostrukturerad text.

Entitetsigenkänning och länkning

Du kan ge Azure AI Language ostrukturerad text och den returnerar en lista över entiteter i texten som den känner igen. En entitet är ett objekt av en viss typ eller kategori. och i vissa fall undertyp, till exempel de som visas i följande tabell.

Type SubType Exempel
Person ”Bill Gates”, ”John”
Plats ”Paris”, ”New York”
Organisation ”Microsoft”
Kvantitet Antal ”6” eller ”sex”
Kvantitet Procent ”25 %” eller ”femtio procent”
Kvantitet Ordning ”1:a” eller ”första”
Kvantitet Ålder ”90 dagar gammal” eller ”30 år gammal”
Kvantitet Valuta ”10,99”
Kvantitet Dimension ”10 mil”, ”40 cm”
Kvantitet Temperatur ”45 grader”
Datum/tid ”18:30 4 februari 2012”
Datum/tid Date ”2 maj 2017” eller ”02/05/2017”
Datum/tid Tid ”8.00” eller ”8:00”
Datum/tid DateRange ”2:a maj till 5:e maj”
Datum/tid TimeRange ”18:00 till 19:00”
Datum/tid Varaktighet ”1 minut och 45 sekunder”
Datum/tid Ställ in ”varje tisdag”
URL "https://www.bing.com"
Email "support@microsoft.com"
USA-baserat telefonnummer ”(312) 555-0176”
IP-adress ”10.0.1.125”

Azure AI Language har också stöd för entitetslänkning för att skilja entiteter åt genom att länka till en specifik referens. För identifierade entiteter returnerar tjänsten en URL till en relevant Wikipedia-artikel.

Anta till exempel att du använder Azure AI Language för att identifiera entiteter i följande granskningsextrakt för restaurang:

Jag åt på restaurangen i Seattle i förra veckan.

Enhet Type SubType Wikipedia-URL
Seattle Plats https://en.wikipedia.org/wiki/Seattle
förra veckan Datum/tid DateRange

Språkidentifiering

Använd funktionen för språkidentifiering i Azure AI Language för att identifiera språket där texten skrivs. Du kan skicka flera dokument i taget för analys. För varje dokument som skickas identifieras tjänsten:

  • Språknamnet (till exempel ”Engelska”).
  • Språkkoden ISO 639-1 (till exempel "en").
  • En poäng för språkidentifieringens konfidensnivå.

Tänk dig till exempel ett scenario där du äger och driver en restaurang där kunderna kan fylla i enkäter och ge feedback om maten, servicen, personalen och så vidare. Anta att du har fått följande recensioner från kunderna:

Recension 1: "Ett fantastiskt ställe för lunch. Soppan var utsökt.""

Recension 2: "Comida maravillosa y gran servicio."

Recension 3: "Croque monsieur avec frites var fantastisk. Bon appetit!"

Du kan använda textanalysfunktionerna i Azure AI Language för att identifiera språkföregångarna för dessa granskningar. och den kan svara med följande resultat:

Dokument Språknamn ISO 6391-kod Poäng
Recension 1 English en 1.0
Recension 2 Spanska es 1.0
Recension 3 English en 0,9

Observera att språket som identifierades för recension 3 är engelska, trots att texten innehåller en blandning av engelska och franska. Språkidentifieringstjänsten fokuserar på det dominerande språket i texten. Tjänsten använder en algoritm för att fastställa det dominerande språket, till exempel längden på fraser eller total mängd text på språket jämfört med andra språk i texten. Det dominerande språket är det värde som returneras, tillsammans med språkkoden. Konfidenspoängen kan vara mindre än 1 till följd av den blandade språktexten.

Det kan finnas text som är tvetydig eller som har blandat språkinnehåll. Dessa situationer kan utgöra en utmaning. Ett tvetydigt innehållsexempel är t.ex. när dokumentet innehåller begränsat med text, eller endast skiljetecken. Om du till exempel använder Azure AI Language för att analysera texten ":-)" resulterar det i ett okänt värde för språknamnet och språkidentifieraren och en poäng på NaN (som används för att ange inte ett tal).

Attitydanalys och åsiktsutvinning

Textanalysfunktionerna i Azure AI Language kan utvärdera text och returnera sentimentpoäng och etiketter för varje mening. Den här funktionen är användbar för att hitta positiva och negativa attityder i sociala medier, kundrecensioner, diskussionsforum med mera.

Azure AI Language använder en fördefinierad klassificeringsmodell för maskininlärning för att utvärdera texten. Tjänsten returnerar sentimentpoäng i tre kategorier: positiva, neutrala och negativa. I var och en av kategorierna anges en poäng mellan 0 och 1. Poängen anger hur sannolikt den angivna texten är en viss attityd. Ett dokumentsentiment tillhandahålls också.

Följande två restaurangrecensioner kunde till exempel attitydanalyseras:

Recension 1: "Vi åt middag på den här restaurangen igår kväll och det första jag märkte var hur artig personalen var. Vi hälsades på ett vänligt sätt och fördes till vårt bord direkt. Bordet var rent, stolarna var bekväma och maten var fantastisk."

och

Recension 2: "Vår matupplevelse på den här restaurangen var en av de värsta jag någonsin haft. Servicen var långsam och maten var hemsk. Jag kommer aldrig att äta på den här anläggningen igen."

Sentimentpoängen för den första granskningen kan vara: Dokumentsentiment: positiv positiv poäng: .90 Neutral poäng: .10 Negativ poäng: .00

Den andra granskningen kan returnera ett svar: Dokumentsentiment: negativ positiv poäng: .00 Neutral poäng: .00 Negativ poäng: .99

Extrahering av nyckelfraser

Extrahering av nyckelfraser identifierar huvudpunkterna i texten. Tänk på det restaurangscenario som beskrevs tidigare. Om du har ett stort antal undersökningar kan det ta lång tid att läsa igenom recensionerna. I stället kan du använda funktionerna för extrahering av nyckelfraser i språktjänsten för att sammanfatta huvudpunkterna.

Du kanske har fått recensionen:

" Vi åt middag här för ett födelsedagsfirande och hade en fantastisk upplevelse. Vi hälsades av en vänlig värdinnan och fördes till vårt bord direkt. Stämningen var avslappnad, maten var fantastisk och servicen var fantastisk. Om du gillar god mat och uppmärksam service bör du prova det här stället."

Extraheringen av nyckelfraser kan ge en viss kontext till recensionen genom att extrahera följande fraser:

  • födelsedag
  • fantastisk upplevelse
  • vänligt sätt
  • god mat
  • påpasslig service
  • middag
  • table
  • miljön
  • restaurangen

Förutom att använda attitydanalys för att fastställa att detta är en positiv granskning kan du också använda nyckelfrastjänsten för att identifiera viktiga element i granskningen.

Skapa en resurs för Azure AI Language

Om du vill använda Azure AI Language i ett program måste du etablera en lämplig resurs i din Azure-prenumeration. Du kan välja någon av följande typer av resurser:

  • En språkresurs – välj den här resurstypen om du bara planerar att använda Azure AI Language-tjänster, eller om du vill hantera åtkomst och fakturering för resursen separat från andra tjänster.
  • En Azure AI-tjänstresurs – välj den här resurstypen om du planerar att använda Azure AI Language i kombination med andra Azure AI-tjänster och du vill hantera åtkomst och fakturering för dessa tjänster tillsammans.