Używanie wbudowanej Analizy Tekstu w Fabric z interfejsem API REST i z użyciem SynapseML (wersja zapoznawcza)


Ta funkcja jest w wersji zapoznawczej .

analizy tekstu to usługi Azure AI, które umożliwiają wyszukiwanie tekstu i analizę tekstu za pomocą funkcji przetwarzania języka naturalnego (NLP).

W tym samouczku przedstawiono używanie analizy tekstu w usłudze Fabric z interfejsem API RESTful w celu:

  • Wykrywaj etykiety tonacji na poziomie zdania lub dokumentu.
  • Zidentyfikuj język dla danego tekstu wejściowego.
  • Wyodrębnianie faz kluczy z tekstu.
  • Zidentyfikuj różne jednostki w tekście i kategoryzuj je w wstępnie zdefiniowanych klasach lub typach.

Warunki wstępne

# Get workload endpoints and access token

from synapse.ml.mlflow import get_mlflow_env_config
import json

mlflow_env_configs = get_mlflow_env_config()
access_token = access_token = mlflow_env_configs.driver_aad_token
prebuilt_AI_base_host = mlflow_env_configs.workload_endpoint + "cognitive/textanalytics/"
print("Workload endpoint for AI service: \n" + prebuilt_AI_base_host)

service_url = prebuilt_AI_base_host + "language/:analyze-text?api-version=2022-05-01"

# Make a RESful request to AI service

post_headers = {
    "Content-Type" : "application/json",
    "Authorization" : "Bearer {}".format(access_token)

def printresponse(response):
    print(f"HTTP {response.status_code}")
    if response.status_code == 200:
            result = response.json()
            print(json.dumps(result, indent=2, ensure_ascii=False))
            print(f"pasre error {response.content}")
        print(f"error message: {response.content}")

Analiza sentymentu

Funkcja analizy sentymentu umożliwia wykrywanie etykiet sentymentu (takich jak "negatywne", "neutralne" i "pozytywne") oraz wyniki zaufania na poziomie zdania i dokumentu. Ta funkcja zwraca również poziomy pewności w zakresie od 0 do 1 dla każdego dokumentu oraz zawartych w nim zdań, oceniając pozytywne, neutralne i negatywne odczucia. Aby uzyskać listę obsługiwanych języków, zobacz obsługę języka analizy tonacji i wyszukiwania opinii.

import requests
from pprint import pprint
import uuid

post_body = {
    "kind": "SentimentAnalysis",
    "parameters": {
        "modelVersion": "latest",
        "opinionMining": "True"
                "text": "The food and service were unacceptable. The concierge was nice, however."

post_headers["x-ms-workload-resource-moniker"] = str(uuid.uuid1())
response = requests.post(service_url, json=post_body, headers=post_headers)

# Output all information of the request process


    HTTP 200
      "kind": "SentimentAnalysisResults",
      "results": {
        "documents": [
            "id": "1",
            "sentiment": "mixed",
            "confidenceScores": {
              "positive": 0.43,
              "neutral": 0.04,
              "negative": 0.53
            "sentences": [
                "sentiment": "negative",
                "confidenceScores": {
                  "positive": 0.0,
                  "neutral": 0.01,
                  "negative": 0.99
                "offset": 0,
                "length": 40,
                "text": "The food and service were unacceptable. ",
                "targets": [
                    "sentiment": "negative",
                    "confidenceScores": {
                      "positive": 0.01,
                      "negative": 0.99
                    "offset": 4,
                    "length": 4,
                    "text": "food",
                    "relations": [
                        "relationType": "assessment",
                        "ref": "#/documents/0/sentences/0/assessments/0"
                    "sentiment": "negative",
                    "confidenceScores": {
                      "positive": 0.01,
                      "negative": 0.99
                    "offset": 13,
                    "length": 7,
                    "text": "service",
                    "relations": [
                        "relationType": "assessment",
                        "ref": "#/documents/0/sentences/0/assessments/0"
                "assessments": [
                    "sentiment": "negative",
                    "confidenceScores": {
                      "positive": 0.01,
                      "negative": 0.99
                    "offset": 26,
                    "length": 12,
                    "text": "unacceptable",
                    "isNegated": false
                "sentiment": "positive",
                "confidenceScores": {
                  "positive": 0.86,
                  "neutral": 0.08,
                  "negative": 0.07
                "offset": 40,
                "length": 32,
                "text": "The concierge was nice, however.",
                "targets": [
                    "sentiment": "positive",
                    "confidenceScores": {
                      "positive": 1.0,
                      "negative": 0.0
                    "offset": 44,
                    "length": 9,
                    "text": "concierge",
                    "relations": [
                        "relationType": "assessment",
                        "ref": "#/documents/0/sentences/1/assessments/0"
                "assessments": [
                    "sentiment": "positive",
                    "confidenceScores": {
                      "positive": 1.0,
                      "negative": 0.0
                    "offset": 58,
                    "length": 4,
                    "text": "nice",
                    "isNegated": false
            "warnings": []
        "errors": [],
        "modelVersion": "2022-11-01"

Detektor języka

Detektor języka ocenia wprowadzanie tekstu dla każdego dokumentu i zwraca identyfikatory języka z wynikiem wskazującym siłę analizy. Ta funkcja jest przydatna w przypadku magazynów zawartości, które zbierają dowolny tekst, gdzie język jest nieznany. Aby uzyskać listę obsługiwanych języków, zobacz Obsługiwane języki do wykrywania języka.

post_body = {
    "kind": "LanguageDetection",
    "parameters": {
        "modelVersion": "latest"
                "text": "This is a document written in English."

post_headers["x-ms-workload-resource-moniker"] = str(uuid.uuid1())
response = requests.post(service_url, json=post_body, headers=post_headers)

# Output all information of the request process


    HTTP 200
      "kind": "LanguageDetectionResults",
      "results": {
        "documents": [
            "id": "1",
            "detectedLanguage": {
              "name": "English",
              "iso6391Name": "en",
              "confidenceScore": 0.99
            "warnings": []
        "errors": [],
        "modelVersion": "2022-10-01"

Moduł wyodrębniania kluczowych fraz

Wyodrębnianie kluczowych fraz ocenia tekst bez struktury i zwraca listę kluczowych fraz. Ta funkcja jest przydatna, jeśli musisz szybko zidentyfikować główne punkty w kolekcji dokumentów. Lista obsługiwanych języków dla wyodrębniania kluczowych fraz znajduje się pod Obsługiwane języki.

post_body = {
    "kind": "KeyPhraseExtraction",
    "parameters": {
        "modelVersion": "latest"
                "text": "Dr. Smith has a very modern medical office, and she has great staff."

post_headers["x-ms-workload-resource-moniker"] = str(uuid.uuid1())
response = requests.post(service_url, json=post_body, headers=post_headers)

# Output all information of the request process


    HTTP 200
      "kind": "KeyPhraseExtractionResults",
      "results": {
        "documents": [
            "id": "1",
            "keyPhrases": [
              "modern medical office",
              "Dr. Smith",
              "great staff"
            "warnings": []
        "errors": [],
        "modelVersion": "2022-10-01"

Rozpoznawanie nazwanych jednostek (NER)

Rozpoznawanie jednostek nazwanych (NER) to możliwość identyfikowania różnych jednostek w tekście i kategoryzowania ich w wstępnie zdefiniowanych klasach lub typach, takich jak: osoba, lokalizacja, zdarzenie, produkt i organizacja. Zobacz obsługę języka NER, aby sprawdzić listę obsługiwanych języków.

post_body = {
    "kind": "EntityRecognition",
    "parameters": {
        "modelVersion": "latest"
                "language": "en",
                "text": "I had a wonderful trip to Seattle last week."

post_headers["x-ms-workload-resource-moniker"] = str(uuid.uuid1())
response = requests.post(service_url, json=post_body, headers=post_headers)

# Output all information of the request process


    HTTP 200
      "kind": "EntityRecognitionResults",
      "results": {
        "documents": [
            "id": "1",
            "entities": [
                "text": "trip",
                "category": "Event",
                "offset": 18,
                "length": 4,
                "confidenceScore": 0.74
                "text": "Seattle",
                "category": "Location",
                "subcategory": "GPE",
                "offset": 26,
                "length": 7,
                "confidenceScore": 1.0
                "text": "last week",
                "category": "DateTime",
                "subcategory": "DateRange",
                "offset": 34,
                "length": 9,
                "confidenceScore": 0.8
            "warnings": []
        "errors": [],
        "modelVersion": "2021-06-01"

Łączenie jednostek

W tej sekcji nie ma etapów dotyczących API REST.