Erstellen eines Wissensspeichers mithilfe von REST
In Azure AI Search ist ein Wissensspeicher ein Repository von KI-generierten Inhalten, die für Nicht-Suchszenarien verwendet werden. Sie erstellen den Wissensspeicher mit einem Indexer und Skillset, und geben den Azure Storage an, um die Ausgabe zu speichern. Nachdem der Wissensspeicher gefüllt wurde, können Sie Tools wie Storage-Explorer oder Power BI zum Untersuchen des Inhalts verwenden.
In diesem Artikel verwenden Sie die REST-API zum Erfassen, Anreichern und Untersuchen von Kundenbewertungen zu Hotelaufenthalten in einem Wissensspeicher. Der Wissensspeicher enthält Originaltext aus der Quelle sowie mittels KI generierte Inhalte, darunter eine Stimmungsbewertung, Schlüsselbegriffsextraktion, Spracherkennung und Textübersetzungen von nicht englischsprachigen Kundenkommentaren.
Um das anfängliche DataSet verfügbar zu machen, werden die Hotelrezensionen zuerst in Azure Blob Storage importiert. Bei der Nachbearbeitung werden die Ergebnisse als Wissensspeicher in Azure Table Storage gespeichert.
Tipp
In diesem Artikel wird REST für detaillierte Erläuterungen zu den einzelnen Schritten verwendet. Laden Sie die REST-Datei herunter, wenn Sie nur die Befehle ausführen möchten. Alternativ können Sie auch einen Wissensspeicher im Azure-Portal erstellen.
Voraussetzungen
Visual Studio Code mit einem REST-Client. Wenn Sie Hilfe bei den ersten Schritten benötigen, lesen Sie Schnellstart: Textsuche mithilfe von REST.
Azure AI Search. Erstellen Sie einen Dienst, oder suchen Sie einen vorhandenen. Für diese Übung können Sie den kostenlosen Dienst verwenden.
„Azure Storage“. Erstellen Sie ein Konto, oder suchen Sie ein vorhandenes. Der Kontotyp muss StorageV2 (universell, V2) lauten.
Das Skillset in diesen Beispielen verwendet Azure KI Services für Anreicherungen. Aufgrund der geringen Workloadgröße wird Azure AI Services im Hintergrund genutzt und bietet eine kostenlose Verarbeitung von bis zu 20 Transaktionen pro Tag. Eine kleine Workload bedeutet, dass Sie das Erstellen oder Anfügen einer Azure AI Multi-Service-Ressource überspringen können.
Hochladen von Daten in Azure Storage und Abrufen einer Verbindungszeichenfolge
Laden Sie „HotelReviews_Free.csv“ herunter. Diese CSV-Datei enthält 19 Einträge mit Kundenfeedback zu einem einzigen Hotel (aus Kaggle.com).
Suchen Sie im Azure-Portal Ihr Speicherkonto, und verwenden Sie Speicherbrowser, um einen BLOB-Container mit dem Namen hotel-reviews zu erstellen.
Wählen Sie oben auf der Seite Hochladen aus, um die Datei HotelReviews-Free.csv zu laden, die Sie im vorherigen Schritt heruntergeladen haben.
Wählen Sie auf der linken Seite Zugriffstasten aus, wählen Sie Schlüssel anzeigen aus, und kopieren Sie dann die Verbindungszeichenfolge für key1 oder key2. Eine vollständige Verbindungszeichenfolge weist das folgende Format auf:
"knowledgeStore": {
"storageConnectionString": "DefaultEndpointsProtocol=https;AccountName=<YOUR-ACCOUNT-NAME>;AccountKey=<YOUR-ACCOUNT-KEY>;EndpointSuffix=core.windows.net;"
}
Hinweis
Lesen Sie Herstellen einer Verbindung mithilfe einer verwalteten Identität, wenn Sie keine vertraulichen Daten in der Verbindungszeichenfolge bereitstellen möchten.
Kopieren eines Schlüssels und einer URL
In diesem Beispiel erfordern REST-Aufrufe den Suchdienstendpunkt und verwenden einen API-Schlüssel für jede Anforderung. Diese Werte erhalten Sie im Azure-Portal.
Melden Sie sich im Azure-Portal an, navigieren Sie zur Seite Übersicht, und kopieren Sie die URL. Ein Beispiel für einen Endpunkt ist
https://mydemo.search.windows.net
.Kopieren Sie unter Einstellungen>Schlüssel einen Administratorschlüssel. Mit einem Administratorschlüssel können Sie Objekte hinzufügen, ändern und löschen. Es gibt zwei austauschbare Administratorschlüssel. Kopieren Sie einen der beiden Schlüssel.
Ein gültiger API-Schlüssel stellt anforderungsbasiert eine Vertrauensstellung her zwischen der Anwendung, die die Anforderung sendet, und dem Dienst, der sie verarbeitet.
Erstellen eines Index
Index erstellen (REST) erstellt einen Suchindex für den Suchdienst. Ein Suchindex hat nichts mit einem Wissensspeicher zu tun, aber der Indexer verlangt einen. Der Suchindex enthält denselben Inhalt wie der Wissensspeicher, den Sie durchsuchen können, indem Sie Abfrageanforderungen senden.
Öffnen Sie eine neue Textdatei in Visual Studio Code.
Legen Sie Variablen auf den Suchendpunkt und den API-Schlüssel fest, den Sie zuvor gesammelt haben.
@baseUrl = PUT-YOUR-SEARCH-SERVICE-URL-HERE @apiKey = PUT-YOUR-ADMIN-API-KEY-HERE @storageConnection = PUT-YOUR-STORAGE-CONNECTION-STRING-HERE @blobContainer = PUT-YOUR-CONTAINER-NAME-HERE (hotel-reviews)
Speichern Sie die Datei nicht mit einer
.rest
-Dateierweiterung.Fügen Sie das folgende Beispiel ein, um die Indexanforderung zu erstellen.
### Create a new index POST {{baseUrl}}/indexes?api-version=2024-07-01 HTTP/1.1 Content-Type: application/json api-key: {{apiKey}} { "name": "hotel-reviews-kstore-idx", "fields": [ { "name": "name", "type": "Edm.String", "filterable": false, "sortable": false, "facetable": false }, { "name": "reviews_date", "type": "Edm.DateTimeOffset", "searchable": false, "filterable": false, "sortable": false, "facetable": false }, { "name": "reviews_rating", "type": "Edm.String", "searchable": false, "filterable": false, "sortable": false, "facetable": false }, { "name": "reviews_text", "type": "Edm.String", "filterable": false, "sortable": false, "facetable": false }, { "name": "reviews_title", "type": "Edm.String", "searchable": false, "filterable": false, "sortable": false, "facetable": false }, { "name": "reviews_username", "type": "Edm.String", "searchable": false, "filterable": false, "sortable": false, "facetable": false }, { "name": "AzureSearch_DocumentKey", "type": "Edm.String", "searchable": false, "filterable": false, "sortable": false, "facetable": false, "key": true }, { "name": "language", "type": "Edm.String", "filterable": true, "sortable": false, "facetable": true }, { "name": "translated_text", "type": "Edm.String", "filterable": false, "sortable": false, "facetable": false }, { "name": "sentiment", "type": "Collection(Edm.String)", "searchable": false, "filterable": true, "retrievable": true, "sortable": false, "facetable": true }, { "name": "keyphrases", "type": "Collection(Edm.String)", "filterable": true, "sortable": false, "facetable": true } ] }
Klicken Sie auf Anforderung senden. Es sollte die Antwort
HTTP/1.1 201 Created
angezeigt werden, deren Antworttext die JSON-Darstellung des Indexschemas enthält.
Erstellen einer Datenquelle
Datenquelle erstellen erstellt eine Datenquellenverbindung in Azure KI-Suche.
Fügen Sie das folgende Beispiel ein, um die Datenquelle zu erstellen.
### Create a data source POST {{baseUrl}}/datasources?api-version=2024-07-01 HTTP/1.1 Content-Type: application/json api-key: {{apiKey}} { "name": "hotel-reviews-kstore-ds", "description": null, "type": "azureblob", "subtype": null, "credentials": { "connectionString": "{{storageConnectionString}}" }, "container": { "name": "{{blobContainer}}", "query": null }, "dataChangeDetectionPolicy": null, "dataDeletionDetectionPolicy": null }
Klicken Sie auf Anforderung senden.
Erstellen eines Skillsets
Ein Skillset definiert Anreicherungen (Fähigkeiten) und Ihren Wissensspeicher. Skillset erstellen erstellt das Objekt in Ihrem Suchdienst.
Fügen Sie das folgende Beispiel ein, um das Skillset zu erstellen.
### Create a skillset POST {{baseUrl}}/skillsets?api-version=2024-07-01 HTTP/1.1 Content-Type: application/json api-key: {{apiKey}} { "name": "hotel-reviews-kstore-ss", "description": "Skillset to detect language, translate text, extract key phrases, and score sentiment", "skills": [ { "@odata.type": "#Microsoft.Skills.Text.SplitSkill", "context": "/document/reviews_text", "textSplitMode": "pages", "maximumPageLength": 5000, "inputs": [ { "name": "text", "source": "/document/reviews_text" } ], "outputs": [ { "name": "textItems", "targetName": "pages" } ] }, { "@odata.type": "#Microsoft.Skills.Text.V3.SentimentSkill", "context": "/document/reviews_text/pages/*", "inputs": [ { "name": "text", "source": "/document/reviews_text/pages/*" }, { "name": "languageCode", "source": "/document/language" } ], "outputs": [ { "name": "sentiment", "targetName": "sentiment" } ] }, { "@odata.type": "#Microsoft.Skills.Text.LanguageDetectionSkill", "context": "/document", "inputs": [ { "name": "text", "source": "/document/reviews_text" } ], "outputs": [ { "name": "languageCode", "targetName": "language" } ] }, { "@odata.type": "#Microsoft.Skills.Text.TranslationSkill", "context": "/document/reviews_text/pages/*", "defaultFromLanguageCode": null, "defaultToLanguageCode": "en", "inputs": [ { "name": "text", "source": "/document/reviews_text/pages/*" } ], "outputs": [ { "name": "translatedText", "targetName": "translated_text" } ] }, { "@odata.type": "#Microsoft.Skills.Text.KeyPhraseExtractionSkill", "context": "/document/reviews_text/pages/*", "inputs": [ { "name": "text", "source": "/document/reviews_text/pages/*" }, { "name": "languageCode", "source": "/document/language" } ], "outputs": [ { "name": "keyPhrases" , "targetName": "keyphrases" } ] }, { "@odata.type": "#Microsoft.Skills.Util.ShaperSkill", "context": "/document", "inputs": [ { "name": "name", "source": "/document/name" }, { "name": "reviews_date", "source": "/document/reviews_date" }, { "name": "reviews_rating", "source": "/document/reviews_rating" }, { "name": "reviews_text", "source": "/document/reviews_text" }, { "name": "reviews_title", "source": "/document/reviews_title" }, { "name": "reviews_username", "source": "/document/reviews_username" }, { "name": "AzureSearch_DocumentKey", "source": "/document/AzureSearch_DocumentKey" }, { "name": "pages", "sourceContext": "/document/reviews_text/pages/*", "inputs": [ { "name": "languageCode", "source": "/document/language" }, { "name": "translatedText", "source": "/document/reviews_text/pages/*/translated_text" }, { "name": "sentiment", "source": "/document/reviews_text/pages/*/sentiment" }, { "name": "keyPhrases", "source": "/document/reviews_text/pages/*/keyphrases/*" }, { "name": "Page", "source": "/document/reviews_text/pages/*" } ] } ], "outputs": [ { "name": "output" , "targetName": "tableprojection" } ] } ], "knowledgeStore": { "storageConnectionString": "{{storageConnectionString}}", "projections": [ { "tables": [ { "tableName": "hotelReviews1Document", "generatedKeyName": "Documentid", "source": "/document/tableprojection" }, { "tableName": "hotelReviews2Pages", "generatedKeyName": "Pagesid", "source": "/document/tableprojection/pages/*" }, { "tableName": "hotelReviews3KeyPhrases", "generatedKeyName": "KeyPhrasesid", "source": "/document/tableprojection/pages/*/keyPhrases/*" } ], "objects": [] }, { "tables": [ { "tableName": "hotelReviews4InlineProjectionDocument", "generatedKeyName": "Documentid", "sourceContext": "/document", "inputs": [ { "name": "name", "source": "/document/name"}, { "name": "reviews_date", "source": "/document/reviews_date"}, { "name": "reviews_rating", "source": "/document/reviews_rating"}, { "name": "reviews_username", "source": "/document/reviews_username"}, { "name": "reviews_title", "source": "/document/reviews_title"}, { "name": "reviews_text", "source": "/document/reviews_text"}, { "name": "AzureSearch_DocumentKey", "source": "/document/AzureSearch_DocumentKey" } ] }, { "tableName": "hotelReviews5InlineProjectionPages", "generatedKeyName": "Pagesid", "sourceContext": "/document/reviews_text/pages/*", "inputs": [ { "name": "Sentiment", "source": "/document/reviews_text/pages/*/sentiment"}, { "name": "LanguageCode", "source": "/document/language"}, { "name": "Keyphrases", "source": "/document/reviews_text/pages/*/keyphrases"}, { "name": "TranslatedText", "source": "/document/reviews_text/pages/*/translated_text"}, { "name": "Page", "source": "/document/reviews_text/pages/*" } ] }, { "tableName": "hotelReviews6InlineProjectionKeyPhrases", "generatedKeyName": "kpidv2", "sourceContext": "/document/reviews_text/pages/*/keyphrases/*", "inputs": [ { "name": "Keyphrases", "source": "/document/reviews_text/pages/*/keyphrases/*" } ] } ], "objects": [] } ] } }
Die wichtigsten Punkte:
Die Shaper-Fähigkeit ist wichtig für die Definition des Wissensspeichers. Sie gibt an, wie die Daten in die Tabellen des Wissensspeichers fließen. Die Eingaben sind die Teile des angereicherten Dokuments, die Sie speichern möchten. Die Ausgabe ist eine Konsolidierung der Knoten in einer einzigen Struktur.
Projektionen geben die Tabellen, Objekte und Blobs Ihres Wissensspeichers an. Jedes Projektionselement gibt die
"name"
der Spalten oder Felder an, die in Azure Storage erstellt werden sollen. Die"source"
gibt an, welcher Teil der Shaper-Ausgabe diesem Feld oder dieser Spalte zugewiesen ist.
Erstellen eines Indexers
Indexer erstellen erstellt den Indexer und führt ihn aus. Die Ausführung des Indexers beginnt mit der Entschlüsselung der Dokumente, dem Extrahieren von Text und Bildern und der Initialisierung des Skillsets. Der Indexer sucht nach den anderen Objekten, die Sie erstellt haben: Datenquelle, Index und Skillset.
Fügen Sie das folgende Beispiel ein, um den Indexer zu erstellen.
### Create indexer POST {{baseUrl}}/indexers?api-version=2024-07-01 HTTP/1.1 Content-Type: application/json api-key: {{apiKey}} { "name": "hotel-reviews-kstore-idxr", "dataSourceName": "hotel-reviews-kstore-ds", "skillsetName": "hotel-reviews-kstore-ss", "targetIndexName": "hotel-reviews-kstore-idx", "parameters": { "configuration": { "dataToExtract": "contentAndMetadata", "parsingMode": "delimitedText", "firstLineContainsHeaders": true, "delimitedTextDelimiter": "," } }, "fieldMappings": [ { "sourceFieldName": "AzureSearch_DocumentKey", "targetFieldName": "AzureSearch_DocumentKey", "mappingFunction": { "name": "base64Encode" } } ], "outputFieldMappings": [ { "sourceFieldName": "/document/reviews_text/pages/*/Keyphrases/*", "targetFieldName": "Keyphrases" }, { "sourceFieldName": "/document/Language", "targetFieldName": "Language" }, { "sourceFieldName": "/document/reviews_text/pages/*/Sentiment", "targetFieldName": "Sentiment" } ] }
Wählen Sie Anforderung senden aus, um den Indexer zu erstellen und auszuführen. Dieser Schritt dauert mehrere Minuten.
Die wichtigsten Punkte:
Das
parameters/configuration
-Objekt steuert die Erfassung der Daten durch den Indexer. In diesem Fall befinden sich die Eingabedaten in einer einzigen CSV-Datei, die über eine Kopfzeile und durch Trennzeichen getrennte Werte verfügt.Feldzuordnungen erstellen „AzureSearch_DocumentKey“, einen eindeutigen Bezeichner jedes Dokuments, der (basierend auf dem Speicherpfad der Metadaten) vom Blobindexer generiert wird.
Ausgabefeldzuordnungen geben an, wie angereicherte Felder Feldern in einem Suchindex zugeordnet werden. Ausgabefeldzuordnungen werden nicht in Wissensspeichern verwendet (denn Wissensspeicher nutzen Formen und Projektionen, um die physischen Datenstrukturen auszudrücken).
Status überprüfen
Nach dem Senden der einzelnen Anforderungen sollte der Dienst mit der Erfolgsmeldung 201 antworten.
### Get Indexer Status (wait several minutes for the indexer to complete)
GET {{baseUrl}}/indexers/hotel-reviews-kstore-idxr/status?api-version=2024-07-01 HTTP/1.1
Content-Type: application/json
api-key: {{apiKey}}
Nach einigen Minuten können Sie den Index abfragen, um den Inhalt zu prüfen. Auch wenn Sie den Index nicht verwenden, ist dieser Schritt eine bequeme Möglichkeit zu bestätigen, dass das Skillset die erwartete Ausgabe erzeugt hat.
### Query the index (indexer status must be "success" before querying the index)
POST {{baseUrl}}/indexes/hotel-reviews-kstore-idxr/docs/search?api-version=2024-07-01 HTTP/1.1
Content-Type: application/json
api-key: {{apiKey}}
{
"search": "*",
"select": "reviews_title, reviews_username, language, translated_text, sentiment",
"count": true
}
Überprüfen von Tabellen im Azure-Portal
Wechseln Sie im Azure-Portal zu Ihrem Azure Storage-Konto, und zeigen Sie im Speicherbrowser die neuen Tabellen an. Es sollten sechs Tabellen angezeigt werden, und zwar eine für jede im Skillset definierte Projektion.
Jede Tabelle wird mit den IDs generiert, die für die Kreuzverknüpfung der Tabellen in Abfragen erforderlich sind. Scrollen Sie beim Öffnen einer Tabelle über diese Felder, um die von der Pipeline hinzugefügten Inhaltsfelder anzuzeigen.
In dieser exemplarischen Vorgehensweise besteht der Wissensspeicher aus einer Reihe von Tabellen, die verschiedene Möglichkeiten zur Gestaltung und Strukturierung einer Tabelle aufzeigen. Die erste Gruppe mit drei Tabellen zeigt, wie die Ausgabe eines Skills für Shaper die Spalten und Zeilen festlegt. Die Tabellen 4 bis 6 werden aus Anweisungen zur Inline-Gestaltung erstellt, die in die Projektion selbst eingebettet sind. Bei beiden Ansätzen erzielen Sie das gleiche Ergebnis.
Tabelle | Beschreibung |
---|---|
hotelReviews1Document |
Enthält Felder, die der CSV-Datei entnommen werden, z. B. reviews_date und reviews_text. |
hotelReviews2Pages |
Enthält angereicherte Felder, die vom Skillset erstellt wurden, z. B. Stimmungsbewertung und übersetzter Text. |
hotelReviews3KeyPhrases |
Enthält eine lange Liste nur der Schlüsselbegriffe. |
hotelReviews4InlineProjectionDocument |
Alternative zur ersten Tabelle, wobei die Inlinegestaltung anstelle des Skills für Shaper verwendet wird, um Daten für die Projektion zu strukturieren. |
hotelReviews5InlineProjectionPages |
Alternative zur zweiten Tabelle mit Inlinegestaltung. |
hotelreviews6InlineProjectionKeyPhrases |
Alternative zur dritten Tabelle mit Inlinegestaltung. |
Bereinigen
Wenn Sie in Ihrem eigenen Abonnement arbeiten, sollten Sie sich am Ende eines Projekts überlegen, ob Sie die erstellten Ressourcen noch benötigen. Ressourcen, die weiterhin ausgeführt werden, können Sie Geld kosten. Sie können entweder einzelne Ressourcen oder aber die Ressourcengruppe löschen, um den gesamten Ressourcensatz zu entfernen.
Ressourcen können im Portal über den Link Alle Ressourcen oder Ressourcengruppen im linken Navigationsbereich gesucht und verwaltet werden.
Nächste Schritte
Nachdem Sie Ihre Daten mit Azure AI Services angereichert und die Ergebnisse in einen Wissensspeicher projiziert haben, können Sie mit Storage-Explorer oder anderen Apps Ihr angereichertes Dataset erkunden.