IndexingParametersConfiguration interface

Referenz

Paket:: @azure/search-documents

Ein Wörterbuch mit indexerspezifischen Konfigurationseigenschaften. Jeder Name ist der Name einer bestimmten Eigenschaft. Jeder Wert muss einen Grundtyp aufweisen.

Eigenschaften

allowSkillsetToReadFileData	Bei "true" wird ein Pfad //document//file_data erstellt, bei dem es sich um ein Objekt handelt, das die ursprünglichen Dateidaten darstellt, die aus der BLOB-Datenquelle heruntergeladen wurden. Auf diese Weise können Sie die ursprünglichen Dateidaten an eine benutzerdefinierte Fähigkeit zur Verarbeitung innerhalb der Anreicherungspipeline oder an die Dokumentextraktion-Fähigkeit übergeben.
dataToExtract	Gibt die Daten an, die aus Azure Blob Storage extrahiert werden sollen, und teilt dem Indexer mit, welche Daten aus Bildinhalten extrahiert werden sollen, wenn "imageAction" auf einen anderen Wert als "none" festgelegt ist. Dies gilt für eingebettete Bildinhalte in einer .PDF oder einer anderen Anwendung oder Bilddateien wie .jpg und .pngin Azure-Blobs.
delimitedTextDelimiter	Gibt für CSV-Blobs das Zeilenendetrennzeichen für CSV-Dateien an, bei denen jede Zeile ein neues Dokument beginnt (z. B. "\|").
delimitedTextHeaders	Gibt für CSV-Blobs eine durch Trennzeichen getrennte Liste von Spaltenüberschriften an, die zum Zuordnen von Quellfeldern zu Zielfeldern in einem Index hilfreich sind.
documentRoot	Bei JSON-Arrays können Sie bei einem strukturierten oder halbstrukturierten Dokument mithilfe dieser Eigenschaft einen Pfad zu dem Array angeben.
excludedFileNameExtensions	Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die beim Verarbeiten von Azure Blob Storage ignoriert werden sollen. Beispielsweise könnten Sie ".png, .mp4" ausschließen, um diese Dateien während der Indizierung zu überspringen.
executionEnvironment	Gibt die Umgebung an, in der der Indexer ausgeführt werden soll.
failOnUnprocessableDocument	Legen Sie für Azure-Blobs auf "false" fest, wenn Sie die Indizierung fortsetzen möchten, wenn ein Dokument die Indizierung fehlschlägt.
failOnUnsupportedContentType	Legen Sie für Azure-Blobs den Wert "false" fest, wenn Sie die Indizierung fortsetzen möchten, wenn ein nicht unterstützter Inhaltstyp auftritt, und Sie wissen nicht alle Inhaltstypen (Dateierweiterungen) im Voraus.
firstLineContainsHeaders	Gibt für CSV-Blobs an, dass die erste (nicht leere) Zeile jedes BLOB Header enthält.
imageAction	Bestimmt, wie eingebettete Bilder und Bilddateien im Azure Blob Storage verarbeitet werden. Wenn Sie die "imageAction"-Konfiguration auf einen anderen Wert als "none" festlegen, muss auch ein Skillset an diesen Indexer angefügt werden.
indexedFileNameExtensions	Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die beim Verarbeiten aus Azure Blob Storage ausgewählt werden sollen. Beispielsweise könnten Sie sich auf die Indizierung bestimmter Anwendungsdateien ".docx, .pptx, .msg" konzentrieren, um diese Dateitypen speziell einzuschließen.
indexStorageMetadataOnlyForOversizedDocuments	Legen Sie für Azure-Blobs diese Eigenschaft auf "true" fest, um weiterhin Speichermetadaten für BLOB-Inhalte zu indizieren, die zu groß zum Verarbeiten sind. Überdimensionierte Blobs werden standardmäßig als Fehler behandelt. Grenzwerte für blob-Größe finden Sie unter https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.
parsingMode	Stellt den Analysemodus für die Indizierung aus einer Azure-Blob-Datenquelle dar.
pdfTextRotationAlgorithm	Bestimmt den Algorithmus für die Textextraktion aus PDF-Dateien im Azure Blob Storage.
queryTimeout	Erhöht das Timeout über die 5-Minuten-Standardeinstellung für Azure SQL-Datenbankdatenquellen, die im Format "hh:mm:ss" angegeben sind.

Details zur Eigenschaft

allowSkillsetToReadFileData

Bei "true" wird ein Pfad //document//file_data erstellt, bei dem es sich um ein Objekt handelt, das die ursprünglichen Dateidaten darstellt, die aus der BLOB-Datenquelle heruntergeladen wurden. Auf diese Weise können Sie die ursprünglichen Dateidaten an eine benutzerdefinierte Fähigkeit zur Verarbeitung innerhalb der Anreicherungspipeline oder an die Dokumentextraktion-Fähigkeit übergeben.

allowSkillsetToReadFileData?: boolean

Eigenschaftswert

boolean

dataToExtract

Gibt die Daten an, die aus Azure Blob Storage extrahiert werden sollen, und teilt dem Indexer mit, welche Daten aus Bildinhalten extrahiert werden sollen, wenn "imageAction" auf einen anderen Wert als "none" festgelegt ist. Dies gilt für eingebettete Bildinhalte in einer .PDF oder einer anderen Anwendung oder Bilddateien wie .jpg und .pngin Azure-Blobs.

dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"

Eigenschaftswert

"storageMetadata" | "allMetadata" | "contentAndMetadata"

delimitedTextDelimiter

Gibt für CSV-Blobs das Zeilenendetrennzeichen für CSV-Dateien an, bei denen jede Zeile ein neues Dokument beginnt (z. B. "|").

delimitedTextDelimiter?: string

Eigenschaftswert

string

delimitedTextHeaders

Gibt für CSV-Blobs eine durch Trennzeichen getrennte Liste von Spaltenüberschriften an, die zum Zuordnen von Quellfeldern zu Zielfeldern in einem Index hilfreich sind.

delimitedTextHeaders?: string

Eigenschaftswert

string

documentRoot

Bei JSON-Arrays können Sie bei einem strukturierten oder halbstrukturierten Dokument mithilfe dieser Eigenschaft einen Pfad zu dem Array angeben.

documentRoot?: string

Eigenschaftswert

string

excludedFileNameExtensions

Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die beim Verarbeiten von Azure Blob Storage ignoriert werden sollen. Beispielsweise könnten Sie ".png, .mp4" ausschließen, um diese Dateien während der Indizierung zu überspringen.

excludedFileNameExtensions?: string

Eigenschaftswert

string

executionEnvironment

Gibt die Umgebung an, in der der Indexer ausgeführt werden soll.

executionEnvironment?: "standard" | "private"

Eigenschaftswert

"standard" | "private"

failOnUnprocessableDocument

Legen Sie für Azure-Blobs auf "false" fest, wenn Sie die Indizierung fortsetzen möchten, wenn ein Dokument die Indizierung fehlschlägt.

failOnUnprocessableDocument?: boolean

Eigenschaftswert

boolean

failOnUnsupportedContentType

Legen Sie für Azure-Blobs den Wert "false" fest, wenn Sie die Indizierung fortsetzen möchten, wenn ein nicht unterstützter Inhaltstyp auftritt, und Sie wissen nicht alle Inhaltstypen (Dateierweiterungen) im Voraus.

failOnUnsupportedContentType?: boolean

Eigenschaftswert

boolean

firstLineContainsHeaders

Gibt für CSV-Blobs an, dass die erste (nicht leere) Zeile jedes BLOB Header enthält.

firstLineContainsHeaders?: boolean

Eigenschaftswert

boolean

imageAction

Bestimmt, wie eingebettete Bilder und Bilddateien im Azure Blob Storage verarbeitet werden. Wenn Sie die "imageAction"-Konfiguration auf einen anderen Wert als "none" festlegen, muss auch ein Skillset an diesen Indexer angefügt werden.

imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

Eigenschaftswert

"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

indexedFileNameExtensions

Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die beim Verarbeiten aus Azure Blob Storage ausgewählt werden sollen. Beispielsweise könnten Sie sich auf die Indizierung bestimmter Anwendungsdateien ".docx, .pptx, .msg" konzentrieren, um diese Dateitypen speziell einzuschließen.

indexedFileNameExtensions?: string

Eigenschaftswert

string

indexStorageMetadataOnlyForOversizedDocuments

Legen Sie für Azure-Blobs diese Eigenschaft auf "true" fest, um weiterhin Speichermetadaten für BLOB-Inhalte zu indizieren, die zu groß zum Verarbeiten sind. Überdimensionierte Blobs werden standardmäßig als Fehler behandelt. Grenzwerte für blob-Größe finden Sie unter https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

indexStorageMetadataOnlyForOversizedDocuments?: boolean

Eigenschaftswert

boolean

parsingMode

Stellt den Analysemodus für die Indizierung aus einer Azure-Blob-Datenquelle dar.

parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"

Eigenschaftswert

pdfTextRotationAlgorithm

Bestimmt den Algorithmus für die Textextraktion aus PDF-Dateien im Azure Blob Storage.

pdfTextRotationAlgorithm?: "none" | "detectAngles"

Eigenschaftswert

"none" | "detectAngles"

queryTimeout

Erhöht das Timeout über die 5-Minuten-Standardeinstellung für Azure SQL-Datenbankdatenquellen, die im Format "hh:mm:ss" angegeben sind.

queryTimeout?: string

Eigenschaftswert

string

Freigeben über

IndexingParametersConfiguration interface

Eigenschaften

Details zur Eigenschaft

allowSkillsetToReadFileData

Eigenschaftswert

dataToExtract

Eigenschaftswert

delimitedTextDelimiter

Eigenschaftswert

delimitedTextHeaders

Eigenschaftswert

documentRoot

Eigenschaftswert

excludedFileNameExtensions

Eigenschaftswert

executionEnvironment

Eigenschaftswert

failOnUnprocessableDocument

Eigenschaftswert

failOnUnsupportedContentType

Eigenschaftswert

firstLineContainsHeaders

Eigenschaftswert

imageAction

Eigenschaftswert

indexedFileNameExtensions

Eigenschaftswert

indexStorageMetadataOnlyForOversizedDocuments

Eigenschaftswert

parsingMode

Eigenschaftswert

pdfTextRotationAlgorithm

Eigenschaftswert

queryTimeout

Eigenschaftswert

Zusätzliche Ressourcen