Verwenden der vordefinierten Textanalyse in Fabric mit REST-API und SynapseML (Vorschau)

Artikel
02/11/2025

Wichtig

Dieses Feature befindet sich in der Vorschau.

Text Analytics- ist eine Azure AI-Dienste, mit denen Sie Text Mining und Textanalyse mit NLP-Features (Natural Language Processing) durchführen können.

Dieses Lernprogramm veranschaulicht die Verwendung von Textanalysen in Fabric mit RESTful-API für:

Erkennen von Stimmungsbezeichnungen auf Satz- oder Dokumentebene.
Identifizieren Sie die Sprache für eine bestimmte Texteingabe.
Extrahieren Sie Schlüsselphasen aus einem Text.
Identifizieren Sie verschiedene Entitäten im Text, und kategorisieren Sie sie in vordefinierte Klassen oder Typen.

# Get workload endpoints and access token

from synapse.ml.mlflow import get_mlflow_env_config
import json

mlflow_env_configs = get_mlflow_env_config()
access_token = access_token = mlflow_env_configs.driver_aad_token
prebuilt_AI_base_host = mlflow_env_configs.workload_endpoint + "cognitive/textanalytics/"
print("Workload endpoint for AI service: \n" + prebuilt_AI_base_host)

service_url = prebuilt_AI_base_host + "language/:analyze-text?api-version=2022-05-01"

# Make a RESful request to AI service

post_headers = {
    "Content-Type" : "application/json",
    "Authorization" : "Bearer {}".format(access_token)
}

def printresponse(response):
    print(f"HTTP {response.status_code}")
    if response.status_code == 200:
        try:
            result = response.json()
            print(json.dumps(result, indent=2, ensure_ascii=False))
        except:
            print(f"pasre error {response.content}")
    else:
        print(response.headers)
        print(f"error message: {response.content}")

import synapse.ml.core
from synapse.ml.cognitive.language import AnalyzeText
from pyspark.sql.functions import col

Stimmungsanalyse

REST-API
SynapseML

Das Feature "Stimmungsanalyse" bietet eine Möglichkeit zum Erkennen der Stimmungsbezeichnungen (z. B. "negativ", "neutral" und "positiv") und Konfidenzbewertungen auf Satz- und Dokumentebene. Dieses Feature gibt auch Konfidenzergebnisse zwischen 0 und 1 für jedes Dokument und Sätze darin für positive, neutrale und negative Stimmungen zurück. Eine Liste der aktivierten Sprachen finden Sie unter Sprachunterstützung für Stimmungsanalyse und Opinion Mining.

import requests
from pprint import pprint
import uuid

post_body = {
    "kind": "SentimentAnalysis",
    "parameters": {
        "modelVersion": "latest",
        "opinionMining": "True"
    },
    "analysisInput":{
        "documents":[
            {
                "id":"1",
                "language":"en",
                "text": "The food and service were unacceptable. The concierge was nice, however."
            }
        ]
    }
} 

post_headers["x-ms-workload-resource-moniker"] = str(uuid.uuid1())
response = requests.post(service_url, json=post_body, headers=post_headers)

# Output all information of the request process
printresponse(response)

Ausgabe

    HTTP 200
    {
      "kind": "SentimentAnalysisResults",
      "results": {
        "documents": [
          {
            "id": "1",
            "sentiment": "mixed",
            "confidenceScores": {
              "positive": 0.43,
              "neutral": 0.04,
              "negative": 0.53
            },
            "sentences": [
              {
                "sentiment": "negative",
                "confidenceScores": {
                  "positive": 0.0,
                  "neutral": 0.01,
                  "negative": 0.99
                },
                "offset": 0,
                "length": 40,
                "text": "The food and service were unacceptable. ",
                "targets": [
                  {
                    "sentiment": "negative",
                    "confidenceScores": {
                      "positive": 0.01,
                      "negative": 0.99
                    },
                    "offset": 4,
                    "length": 4,
                    "text": "food",
                    "relations": [
                      {
                        "relationType": "assessment",
                        "ref": "#/documents/0/sentences/0/assessments/0"
                      }
                    ]
                  },
                  {
                    "sentiment": "negative",
                    "confidenceScores": {
                      "positive": 0.01,
                      "negative": 0.99
                    },
                    "offset": 13,
                    "length": 7,
                    "text": "service",
                    "relations": [
                      {
                        "relationType": "assessment",
                        "ref": "#/documents/0/sentences/0/assessments/0"
                      }
                    ]
                  }
                ],
                "assessments": [
                  {
                    "sentiment": "negative",
                    "confidenceScores": {
                      "positive": 0.01,
                      "negative": 0.99
                    },
                    "offset": 26,
                    "length": 12,
                    "text": "unacceptable",
                    "isNegated": false
                  }
                ]
              },
              {
                "sentiment": "positive",
                "confidenceScores": {
                  "positive": 0.86,
                  "neutral": 0.08,
                  "negative": 0.07
                },
                "offset": 40,
                "length": 32,
                "text": "The concierge was nice, however.",
                "targets": [
                  {
                    "sentiment": "positive",
                    "confidenceScores": {
                      "positive": 1.0,
                      "negative": 0.0
                    },
                    "offset": 44,
                    "length": 9,
                    "text": "concierge",
                    "relations": [
                      {
                        "relationType": "assessment",
                        "ref": "#/documents/0/sentences/1/assessments/0"
                      }
                    ]
                  }
                ],
                "assessments": [
                  {
                    "sentiment": "positive",
                    "confidenceScores": {
                      "positive": 1.0,
                      "negative": 0.0
                    },
                    "offset": 58,
                    "length": 4,
                    "text": "nice",
                    "isNegated": false
                  }
                ]
              }
            ],
            "warnings": []
          }
        ],
        "errors": [],
        "modelVersion": "2022-11-01"
      }
    }

Das Feature "Stimmungsanalyse" bietet eine Möglichkeit zum Erkennen der Stimmungsbezeichnungen (z. B. "negativ", "neutral" und "positiv") und Konfidenzbewertungen auf Satz- und Dokumentebene. Darüber hinaus werden bei diesem Feature Zuverlässigkeitsbewertungen zwischen 0 und 1 für jedes Dokument und jeden darin enthaltenen Satz zurückgegeben (positive, neutrale und negative Stimmung). Eine Liste der aktivierten Sprachen finden Sie unter Sprachunterstützung für Stimmungsanalyse und Opinion Mining.

df = spark.createDataFrame([
    ("Great atmosphere. Close to plenty of restaurants, hotels, and transit! Staff are friendly and helpful.",),
    ("What a sad story!",)
], ["text"])

model = (AnalyzeText()
        .setTextCol("text")
        .setKind("SentimentAnalysis")
        .setOutputCol("response"))

result = model.transform(df)\
        .withColumn("documents", col("response.documents"))\
        .withColumn("sentiment", col("documents.sentiment"))

display(result.select("text", "sentiment"))

Sprachdetektor

REST-API
SynapseML

Der Sprachdetektor wertet die Texteingabe für jedes Dokument aus und gibt Sprachbezeichner mit einer Bewertung zurück, die die Stärke der Analyse angibt. Diese Funktion ist nützlich für Inhaltsspeicher, die beliebigen Text sammeln, wobei die Sprache unbekannt ist. Eine Liste der aktivierten Sprachen finden Sie unter Unterstützte Sprachen für die Spracherkennung.

post_body = {
    "kind": "LanguageDetection",
    "parameters": {
        "modelVersion": "latest"
    },
    "analysisInput":{
        "documents":[
            {
                "id":"1",
                "text": "This is a document written in English."
            }
        ]
    }
}

post_headers["x-ms-workload-resource-moniker"] = str(uuid.uuid1())
response = requests.post(service_url, json=post_body, headers=post_headers)

# Output all information of the request process
printresponse(response)

Ausgabe

    HTTP 200
    {
      "kind": "LanguageDetectionResults",
      "results": {
        "documents": [
          {
            "id": "1",
            "detectedLanguage": {
              "name": "English",
              "iso6391Name": "en",
              "confidenceScore": 0.99
            },
            "warnings": []
          }
        ],
        "errors": [],
        "modelVersion": "2022-10-01"
      }
    }

df = spark.createDataFrame([
    (["Hello world"],),
    (["Bonjour tout le monde", "Hola mundo", "Tumhara naam kya hai?"],),
    (["你好"],),
    (["日本国（にほんこく、にっぽんこく、英"],)
], ["text"])

model = (AnalyzeText()
        .setTextCol("text")
        .setKind("LanguageDetection")
        .setOutputCol("response"))

result = model.transform(df)\
        .withColumn("documents", col("response.documents"))\
        .withColumn("detectedLanguage", col("documents.detectedLanguage.name"))

display(result.select("text", "detectedLanguage"))

Schlüsselphrase-Extraktor

REST-API
SynapseML

Die Schlüsselausdrucksextraktion wertet unstrukturierten Text aus und gibt eine Liste der Schlüsselausdrücke zurück. Diese Funktion ist nützlich, wenn Sie die Hauptpunkte in einer Sammlung von Dokumenten schnell identifizieren müssen. Eine Liste der aktivierten Sprachen finden Sie in dem Abschnitt Unterstützte Sprachen für Schlüsselphrasenextraktion.

post_body = {
    "kind": "KeyPhraseExtraction",
    "parameters": {
        "modelVersion": "latest"
    },
    "analysisInput":{
        "documents":[
            {
                "id":"1",
                "language":"en",
                "text": "Dr. Smith has a very modern medical office, and she has great staff."
            }
        ]
    }
}

post_headers["x-ms-workload-resource-moniker"] = str(uuid.uuid1())
response = requests.post(service_url, json=post_body, headers=post_headers)

# Output all information of the request process
printresponse(response)

Ausgabe

    HTTP 200
    {
      "kind": "KeyPhraseExtractionResults",
      "results": {
        "documents": [
          {
            "id": "1",
            "keyPhrases": [
              "modern medical office",
              "Dr. Smith",
              "great staff"
            ],
            "warnings": []
          }
        ],
        "errors": [],
        "modelVersion": "2022-10-01"
      }
    }

Die Schlüsselausdrucksextraktion wertet unstrukturierten Text aus und gibt eine Liste der Schlüsselausdrücke zurück. Diese Funktion ist nützlich, wenn Sie die Hauptpunkte in einer Sammlung von Dokumenten schnell identifizieren müssen. Eine Liste der unterstützten Sprachen finden Sie unter Unterstützte Sprachen für Schlüsselbegriffserkennung.

df = spark.createDataFrame([
    ("en", "Microsoft was founded by Bill Gates and Paul Allen."),
    ("en", "Text Analytics is one of the Azure Cognitive Services."),
    ("en", "My cat might need to see a veterinarian.")
], ["language", "text"])

model = (AnalyzeText()
        .setTextCol("text")
        .setKind("KeyPhraseExtraction")
        .setOutputCol("response"))

result = model.transform(df)\
        .withColumn("documents", col("response.documents"))\
        .withColumn("keyPhrases", col("documents.keyPhrases"))

display(result.select("text", "keyPhrases"))

Benannte Entitätserkennung (Named Entity Recognition, NER)

REST-API
SynapseML

Named Entity Recognition (NER) ist die Möglichkeit, unterschiedliche Entitäten im Text zu identifizieren und in vordefinierte Klassen oder Typen wie z. B. Person, Standort, Ereignis, Produkt und Organisation zu kategorisieren. Eine Liste der aktivierten Sprachen finden Sie unter NER-Sprachunterstützung.

post_body = {
    "kind": "EntityRecognition",
    "parameters": {
        "modelVersion": "latest"
    },
    "analysisInput":{
        "documents":[
            {
                "id":"1",
                "language": "en",
                "text": "I had a wonderful trip to Seattle last week."
            }
        ]
    }
}

post_headers["x-ms-workload-resource-moniker"] = str(uuid.uuid1())
response = requests.post(service_url, json=post_body, headers=post_headers)

# Output all information of the request process
printresponse(response)

Ausgabe

    HTTP 200
    {
      "kind": "EntityRecognitionResults",
      "results": {
        "documents": [
          {
            "id": "1",
            "entities": [
              {
                "text": "trip",
                "category": "Event",
                "offset": 18,
                "length": 4,
                "confidenceScore": 0.74
              },
              {
                "text": "Seattle",
                "category": "Location",
                "subcategory": "GPE",
                "offset": 26,
                "length": 7,
                "confidenceScore": 1.0
              },
              {
                "text": "last week",
                "category": "DateTime",
                "subcategory": "DateRange",
                "offset": 34,
                "length": 9,
                "confidenceScore": 0.8
              }
            ],
            "warnings": []
          }
        ],
        "errors": [],
        "modelVersion": "2021-06-01"
      }
    }

df = spark.createDataFrame([
    ("en", "Microsoft was founded by Bill Gates and Paul Allen."),
    ("en", "Pike place market is my favorite Seattle attraction.")
], ["language", "text"])

model = (AnalyzeText()
        .setTextCol("text")
        .setKind("EntityRecognition")
        .setOutputCol("response"))

result = model.transform(df)\
        .withColumn("documents", col("response.documents"))\
        .withColumn("entityNames", col("documents.entities.text"))

display(result.select("text", "entityNames"))

Entitätsverknüpfung

REST-API
SynapseML

Keine Schritte für die REST-API in diesem Abschnitt.

Die Entitätsverknüpfung identifiziert und disambiguiert die Identität von Entitäten, die im Text gefunden wurden. Im Satz "Wir gingen letzte Woche nach Seattle", würde das Wort "Seattle" mit einem Link zu weiteren Informationen zu Wikipedia identifiziert. Siehe Unterstützte Sprachen für Entitätsverknüpfung für die Liste der aktivierten Sprachen.

df = spark.createDataFrame([
    ("en", "Microsoft was founded by Bill Gates and Paul Allen."),
    ("en", "Pike place market is my favorite Seattle attraction.")
], ["language", "text"])

model = (AnalyzeText()
        .setTextCol("text")
        .setKind("EntityLinking")
        .setOutputCol("response"))

result = model.transform(df)\
        .withColumn("documents", col("response.documents"))\
        .withColumn("entityNames", col("documents.entities.name"))

display(result)

Freigeben über

Verwenden der vordefinierten Textanalyse in Fabric mit REST-API und SynapseML (Vorschau)

Voraussetzungen

Stimmungsanalyse

Ausgabe

Sprachdetektor

Ausgabe

Schlüsselphrase-Extraktor

Ausgabe

Benannte Entitätserkennung (Named Entity Recognition, NER)

Ausgabe

Entitätsverknüpfung

Feedback

Zusätzliche Ressourcen

Freigeben über

Verwenden der vordefinierten Textanalyse in Fabric mit REST-API und SynapseML (Vorschau)

Voraussetzungen

Stimmungsanalyse

Ausgabe

Sprachdetektor

Ausgabe

Schlüsselphrase-Extraktor

Ausgabe

Benannte Entitätserkennung (Named Entity Recognition, NER)

Ausgabe

Entitätsverknüpfung

Verwandte Inhalte

Feedback

Zusätzliche Ressourcen