Erste Schritte mit der Textanalyse

Abgeschlossen

Azure AI Language ist ein Teil der Azure KI-Services, die eine erweiterte Verarbeitung natürlicher Sprache über unstrukturierten Text durchführen können. Zu den Textanalysefunktionen von Azure KI Language gehören:

  • Benannte Entitätserkennung identifiziert Personen, Orte, Ereignisse und vieles mehr. Diese Funktion kann auch angepasst werden, um benutzerdefinierte Kategorien zu extrahieren.
  • Entitätsverknüpfung identifiziert bekannte Entitäten zusammen mit einem Link zu Wikipedia.
  • Die Erkennung personenbezogener Informationen (PII) identifiziert personenbezogene vertrauliche Informationen, einschließlich personenbezogener Gesundheitsdaten (PHI).
  • Die Spracherkennung identifiziert die Sprache des Texts und gibt einen Sprachcode wie „en“ für Englisch zurück.
  • Stimmungsanalyse und Opinion Mining identifizieren, ob ein Text positiv oder negativ ist.
  • Zusammenfassung fasst Text zusammen, indem die wichtigsten Informationen identifiziert werden.
  • Die Schlüsselauszugsextraktion listet die Hauptkonzepte von unstrukturiertem Text auf.

Entitätserkennung und Verknüpfung

Sie können unstrukturierten Text in Azure KI Language eingeben. Dadurch wird eine Liste der im Text erkannten Entitäten zurückgegeben. Eine Entität ist ein Element eines bestimmten Typs oder einer Kategorie und in manchen Fällen eines Untertyps, wie in der folgenden Tabelle dargestellt.

Typ Untertyp Beispiel
Person „Bill Gates“, „John“
Ort „Paris“, „New York“
Organisation „Microsoft“
Menge Number „6“ oder „sechs“
Menge Prozentwert „25 %“ oder „fünfzig Prozent“
Menge Ordinal „1.“ oder „Erster“
Menge Age „90 Tage alt“ oder „30 Jahre alt“
Menge Währung „10,99“
Menge Dimension „10 Meilen“, „40 cm“
Menge Temperatur „45 Grad“
DateTime „18:30 Uhr, 4. Februar 2012“
Datetime Date „2. Mai 2017“ oder „2.5.2017“
Datetime Time „8 Uhr“ oder „8:00“
Datetime DateRange „2. bis 5. Mai“
Datetime TimeRange „18 bis 19 Uhr“
Datetime Duration „1 Minute und 45 Sekunden“
Datetime Set „jeden Dienstag“
URL https://www.bing.com
E-Mail support@microsoft.com
US-amerikanische Telefonnummer „(312) 555-0176“
IP-Adresse „10.0.1.125“

Azure KI Language unterstützt auch die Entitätsverknüpfung, damit Entitäten durch Verknüpfung mit einer bestimmten Referenz leichter unterschieden werden können. Für erkannte Entitäten gibt der Dienst eine URL für einen relevanten Wikipedia-Artikel zurück.

Angenommen, Sie verwenden Azure KI Language, um Entitäten im folgenden Auszug aus einer Restaurantbewertung zu erkennen:

Ich habe letzte Woche in diesem Restaurant in Seattle gegessen.

Entität Typ Untertyp Wikipedia-URL
Seattle Ort https://en.wikipedia.org/wiki/Seattle
Letzte Woche Datetime DateRange

Sprachenerkennung

Sie können die Sprachenerkennungsfunktion von Azure KI Language verwenden, um die Sprache zu ermitteln, in der ein Text geschrieben ist. Sie können mehrere Dokumente gleichzeitig zur Analyse einreichen. Für jedes eingereichte Dokument erkennt der Dienst:

  • Den Namen der Sprache (z. B. „Englisch“).
  • Den ISO-639-1-Sprachencode (z. B. „en“).
  • Einen Score für die Konfidenzstufe der Sprachenerkennung.

Stellen Sie sich z. B. ein Szenario vor, in dem Sie ein Restaurant besitzen und betreiben und in dem Gäste Umfragen ausfüllen und Feedback zum Essen, zum Service, zum Personal usw. geben können. Angenommen, Sie haben die folgenden Bewertungen von Kunden erhalten:

Bewertung 1: „Ein fantastischer Ort zum Mittagessen. Die Suppe war köstlich.

Bewertung 2: „Comida maravillosa y gran servicio.

Bewertung 3: „The croque monsieur avec frites was terrific. Bon appetit!

Mithilfe der Textanalysefunktionen von Azure KI Language können Sie die Sprache der einzelnen Bewertungen ermitteln und es könnten die folgenden Ergebnisse geliefert werden:

Dokument Sprachenname ISO-Code 6391 Score
Bewertung 1 Englisch en 1,0
Bewertung 2 Spanisch es 1,0
Bewertung 3 Englisch en 0,9

Beachten Sie, dass für Bewertung 3 die Sprache Englisch erkannt wurde, obwohl der Text eine Mischung aus Englisch und Französisch enthält. Der Sprachenerkennungsdienst konzentriert sich auf die vorherrschende Sprache im Text. Der Dienst verwendet einen Algorithmus, um die vorherrschende Sprache zu bestimmen, z. B. die Länge der Ausdrücke oder die Gesamttextmenge für die Sprache im Vergleich zu anderen Sprachen im Text. Die vorherrschende Sprache ist der zurückgegebene Wert, zusammen mit dem Sprachcode. Der Konfidenz-Score kann aufgrund des gemischtsprachigen Texts kleiner als 1 sein.

Es kann sein, dass ein Text zweideutig ist oder einen gemischten Sprachinhalt hat. Diese Situationen können eine Herausforderung darstellen. Ein Beispiel für mehrdeutigen Inhalt wäre ein Fall, in dem das Dokument eine sehr begrenzte Menge an Text oder nur Interpunktionszeichen enthält. Wenn Sie beispielsweise den Text „:-)“ mit Azure KI Language analysieren, erhalten Sie den Wert Unbekannt für den Sprachennamen und die Sprachen-ID sowie einen Score von NaN (not a number, d. h. „keine Zahl“).

Standpunktanalyse und Opinion Mining

Die Textanalysefunktionen in Azure KI Language können Text auswerten und für jeden Satz Stimmungsscores sowie Bezeichnungen zurückgeben. Diese Funktion ist nützlich, um positive und negative Stimmungen in sozialen Medien, Kundenbewertungen, Diskussionsforen und mehr zu erkennen.

Azure KI Language verwendet ein vordefiniertes Klassifizierungsmodell für maschinelles Lernen, um den Text auszuwerten. Der Dienst liefert Stimmungsbewertungen in drei Kategorien: Positiv, neutral und negativ. In jeder der Kategorien wird eine Bewertung zwischen 0 und 1 bereitgestellt. Scores geben an, wie wahrscheinlich es ist, dass es sich bei dem angegebenen Text um eine bestimmte Stimmung handelt. Eine Dokumentstimmung wird ebenfalls bereitgestellt.

Die folgenden beiden Restaurantbewertungen könnten beispielsweise in Bezug auf die Stimmung analysiert werden:

Bewertung 1: „Wir haben gestern in diesem Restaurant zu Abend gegessen, und als Erstes ist mir aufgefallen, wie höflich das Personal war. Wir wurden freundlich begrüßt und sofort an unseren Tisch gebracht. Der Tisch war sauber, die Stühle waren bequem, und das Essen war ausgezeichnet.

and

Bewertung 2: „Ich habe selten eine so schlechte Erfahrung bei einem Abendessen gemacht wie in diesem Restaurant. Der Service war langsam, und das Essen war schrecklich. Ich werde nie wieder in diesem Restaurant essen.

Der Stimmungs-Score für die erste Bewertung kann Folgendes sein: Dokumentstimmung: positive Positives Ergebnis: 0,90 Neutrale Bewertung: 0,10 Negative Bewertung: 0,00

Die zweite Überprüfung liefert möglicherweise eine Antwort: Dokumentstimmung: negativ positive Bewertung: 0,00 Neutrale Bewertung: 0,00 Negative Bewertung: 0,99

Schlüsselwortextraktion

Die Extraktion von Schlüsselwörtern identifiziert die wichtigsten Punkte im Text. Betrachten Sie das zuvor beschriebene Restaurantszenario. Wenn Sie eine große Anzahl von Umfragen haben, kann es sehr lange dauern, die Bewertungen zu lesen. Stattdessen können Sie die Schlüsselbegriffserkennung des Sprachdiensts verwenden, um die wichtigsten Punkte zusammenzufassen.

Möglicherweise erhalten Sie eine Bewertung wie die folgende:

Wir haben hier anlässlich einer Geburtstagsfeier zu Abend gegessen und hatten ein fantastisches Erlebnis. Wir wurden von der Wirtin freundlich begrüßt und sofort an unseren Tisch gebracht. Das Ambiente war entspannt, das Essen hervorragend und der Service großartig. Wenn Sie gutes Essen und aufmerksamen Service schätzen, sollten Sie dieses Restaurant ausprobieren.

Die Schlüsselbegriffserkennung kann einen Kontext für diese Bewertung bereitstellen, indem sie die folgenden Begriffe extrahiert:

  • Geburtstagsfeier
  • fantastisches Erlebnis
  • freundliche Wirtin
  • gutes Essen
  • aufmerksamer Service
  • Abendessen
  • table
  • Ambiente
  • Restaurant

Sie können nicht nur die Stimmungsanalyse verwenden, um festzustellen, dass es sich um eine positive Bewertung handelt, sondern auch den Key-Phrase-Service nutzen, um wichtige Elemente der Bewertung zu identifizieren.

Erstellen einer Ressource für Azure KI Language

Damit Sie Azure KI Language in einer Anwendung verwenden können, müssen Sie in Ihrem Azure-Abonnement eine entsprechende Ressource bereitstellen. Sie können einen der folgenden Ressourcentypen wählen:

  • Eine Sprach-Ressource — Wählen Sie diesen Ressourcentyp, wenn Sie nur die Azure KI Language-Dienste nutzen möchten oder wenn Sie den Zugriff und die Abrechnung für die Ressource getrennt von anderen Diensten verwalten möchten.
  • Eine Azure KI Services-Ressource – Wählen Sie diesen Ressourcentyp aus, wenn Sie Azure KI Language in Kombination mit anderen Azure KI Services verwenden und den Zugriff und die Abrechnung für diese Dienste gemeinsam verwalten möchten.