Freigeben über


Indizieren von Nur-Text-Blobs und -Dateien in Azure KI-Suche

Gilt für: Blobindexer, Dateiindexer

Wenn Sie einen Indexer verwenden, um durchsuchbare Blobtexte oder Dateiinhalte für die Volltextsuche zu extrahieren, können Sie einen Analysemodus zuweisen, um bessere Indizierungsergebnisse zu erzielen. In der Standardeinstellung analysiert der Indexer die Eigenschaft content eines Blobs als ein einzelnes Textsegment. Wenn jedoch alle Blobs und Dateien Nur-Text in derselben Codierung enthalten, können Sie die Indizierungsleistung erheblich verbessern, indem Sie den text-Analysemodus nutzen.

Empfehlungen für text-Analyse umfassen eines der folgenden Merkmale:

  • Dateityp ist .txt
  • Dateien weisen einen beliebigen Typ auf, aber der Inhalt selbst ist Text (z. B. Programmquellcode, HTML, XML usw.). Bei Dateien in einer Markupsprache werden die Syntaxzeichen als statischer Text behandelt.

Bedenken Sie, dass alle Indexer nach JSON serialisiert werden. Der Inhalt der gesamten Textdatei wird standardmäßig in einem großen Feld als "content": "<file-contents>" indiziert. New line-- und Return-Anweisungen werden in das Inhaltsfeld eingebettet und als \r\n\ ausgedrückt.

Wenn Sie ein verfeinertes oder präziseres Ergebnis wünschen und wenn der Dateityp kompatibel ist, ziehen Sie die folgenden Lösungen in Erwägung:

Eine alternative dritte Option zum Aufbrechen von Inhalt in mehrere Teile erfordert erweiterte Features in Form von KI-Anreicherung. Es wird eine Analyse hinzugefügt, mit der Teile der Datei identifiziert und verschiedenen Suchfeldern zugeordnet werden. Sie finden möglicherweise eine vollständige oder teilweise Lösung durch integrierte Skills wie Entitätserkennung oder Schlüsselwortextraktion. Eine wahrscheinlichere Lösung könnte aber ein benutzerdefiniertes Lernmodell sein, das Ihren Inhalt versteht und in einen benutzerdefinierten Skill verpackt.

Einrichten der Nur-Text-Indizierung

Erstellen oder aktualisieren Sie zum Indizieren von Nur-Text-Blobs eine Indexerdefinition mit der für text festgelegten parsingMode-Konfigurierungseigenschaft in einer Create Indexer-Anforderung:

PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=2024-07-01
Content-Type: application/json
api-key: [admin key]

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text" } }
}

Standardmäßig wird von der UTF-8-Codierung ausgegangen. Um eine andere Codierung anzugeben, verwenden Sie die Konfigurationseigenschaft encoding. Die unterstützte Liste der Codierungen befindet sich in der Spalte Unterstützung für .NET 5 und höher.

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text", "encoding" : "iso-8859-1" } }
}

Beispiel für eine Anfrage

In der Indexerdefinition werden die Definitionsmodi angegeben.

POST https://[service name].search.windows.net/indexers?api-version=2024-07-01
Content-Type: application/json
api-key: [admin key]

{
  "name" : "my-plaintext-indexer",
  "dataSourceName" : "my-blob-datasource",
  "targetIndexName" : "my-target-index",
  "parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextHeaders" : "id,datePublished,tags" } }
}

Nächste Schritte