IndexingParametersConfiguration interface
Ein Wörterbuch mit indexerspezifischen Konfigurationseigenschaften. Jeder Name ist der Name einer bestimmten Eigenschaft. Jeder Wert muss einen Grundtyp aufweisen.
Eigenschaften
allow |
Bei "true" wird ein Pfad //document//file_data erstellt, bei dem es sich um ein Objekt handelt, das die ursprünglichen Dateidaten darstellt, die aus der BLOB-Datenquelle heruntergeladen wurden. Auf diese Weise können Sie die ursprünglichen Dateidaten an eine benutzerdefinierte Fähigkeit zur Verarbeitung innerhalb der Anreicherungspipeline oder an die Dokumentextraktion-Fähigkeit übergeben. |
data |
Gibt die Daten an, die aus Azure Blob Storage extrahiert werden sollen, und teilt dem Indexer mit, welche Daten aus Bildinhalten extrahiert werden sollen, wenn "imageAction" auf einen anderen Wert als "none" festgelegt ist. Dies gilt für eingebettete Bildinhalte in einer .PDF oder einer anderen Anwendung oder Bilddateien wie .jpg und .pngin Azure-Blobs. |
delimited |
Gibt für CSV-Blobs das Zeilenendetrennzeichen für CSV-Dateien an, bei denen jede Zeile ein neues Dokument beginnt (z. B. "|"). |
delimited |
Gibt für CSV-Blobs eine durch Trennzeichen getrennte Liste von Spaltenüberschriften an, die zum Zuordnen von Quellfeldern zu Zielfeldern in einem Index hilfreich sind. |
document |
Bei JSON-Arrays können Sie bei einem strukturierten oder halbstrukturierten Dokument mithilfe dieser Eigenschaft einen Pfad zu dem Array angeben. |
excluded |
Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die beim Verarbeiten von Azure Blob Storage ignoriert werden sollen. Beispielsweise könnten Sie ".png, .mp4" ausschließen, um diese Dateien während der Indizierung zu überspringen. |
execution |
Gibt die Umgebung an, in der der Indexer ausgeführt werden soll. |
fail |
Legen Sie für Azure-Blobs auf "false" fest, wenn Sie die Indizierung fortsetzen möchten, wenn ein Dokument die Indizierung fehlschlägt. |
fail |
Legen Sie für Azure-Blobs den Wert "false" fest, wenn Sie die Indizierung fortsetzen möchten, wenn ein nicht unterstützter Inhaltstyp auftritt, und Sie wissen nicht alle Inhaltstypen (Dateierweiterungen) im Voraus. |
first |
Gibt für CSV-Blobs an, dass die erste (nicht leere) Zeile jedes BLOB Header enthält. |
image |
Bestimmt, wie eingebettete Bilder und Bilddateien im Azure Blob Storage verarbeitet werden. Wenn Sie die "imageAction"-Konfiguration auf einen anderen Wert als "none" festlegen, muss auch ein Skillset an diesen Indexer angefügt werden. |
indexed |
Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die beim Verarbeiten aus Azure Blob Storage ausgewählt werden sollen. Beispielsweise könnten Sie sich auf die Indizierung bestimmter Anwendungsdateien ".docx, .pptx, .msg" konzentrieren, um diese Dateitypen speziell einzuschließen. |
index |
Legen Sie für Azure-Blobs diese Eigenschaft auf "true" fest, um weiterhin Speichermetadaten für BLOB-Inhalte zu indizieren, die zu groß zum Verarbeiten sind. Überdimensionierte Blobs werden standardmäßig als Fehler behandelt. Grenzwerte für blob-Größe finden Sie unter https://docs.microsoft.com/azure/search/search-limits-quotas-capacity. |
parsing |
Stellt den Analysemodus für die Indizierung aus einer Azure-Blob-Datenquelle dar. |
pdf |
Bestimmt den Algorithmus für die Textextraktion aus PDF-Dateien im Azure Blob Storage. |
query |
Erhöht das Timeout über die 5-Minuten-Standardeinstellung für Azure SQL-Datenbankdatenquellen, die im Format "hh:mm:ss" angegeben sind. |
Details zur Eigenschaft
allowSkillsetToReadFileData
Bei "true" wird ein Pfad //document//file_data erstellt, bei dem es sich um ein Objekt handelt, das die ursprünglichen Dateidaten darstellt, die aus der BLOB-Datenquelle heruntergeladen wurden. Auf diese Weise können Sie die ursprünglichen Dateidaten an eine benutzerdefinierte Fähigkeit zur Verarbeitung innerhalb der Anreicherungspipeline oder an die Dokumentextraktion-Fähigkeit übergeben.
allowSkillsetToReadFileData?: boolean
Eigenschaftswert
boolean
dataToExtract
Gibt die Daten an, die aus Azure Blob Storage extrahiert werden sollen, und teilt dem Indexer mit, welche Daten aus Bildinhalten extrahiert werden sollen, wenn "imageAction" auf einen anderen Wert als "none" festgelegt ist. Dies gilt für eingebettete Bildinhalte in einer .PDF oder einer anderen Anwendung oder Bilddateien wie .jpg und .pngin Azure-Blobs.
dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"
Eigenschaftswert
"storageMetadata" | "allMetadata" | "contentAndMetadata"
delimitedTextDelimiter
Gibt für CSV-Blobs das Zeilenendetrennzeichen für CSV-Dateien an, bei denen jede Zeile ein neues Dokument beginnt (z. B. "|").
delimitedTextDelimiter?: string
Eigenschaftswert
string
delimitedTextHeaders
Gibt für CSV-Blobs eine durch Trennzeichen getrennte Liste von Spaltenüberschriften an, die zum Zuordnen von Quellfeldern zu Zielfeldern in einem Index hilfreich sind.
delimitedTextHeaders?: string
Eigenschaftswert
string
documentRoot
Bei JSON-Arrays können Sie bei einem strukturierten oder halbstrukturierten Dokument mithilfe dieser Eigenschaft einen Pfad zu dem Array angeben.
documentRoot?: string
Eigenschaftswert
string
excludedFileNameExtensions
Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die beim Verarbeiten von Azure Blob Storage ignoriert werden sollen. Beispielsweise könnten Sie ".png, .mp4" ausschließen, um diese Dateien während der Indizierung zu überspringen.
excludedFileNameExtensions?: string
Eigenschaftswert
string
executionEnvironment
Gibt die Umgebung an, in der der Indexer ausgeführt werden soll.
executionEnvironment?: "standard" | "private"
Eigenschaftswert
"standard" | "private"
failOnUnprocessableDocument
Legen Sie für Azure-Blobs auf "false" fest, wenn Sie die Indizierung fortsetzen möchten, wenn ein Dokument die Indizierung fehlschlägt.
failOnUnprocessableDocument?: boolean
Eigenschaftswert
boolean
failOnUnsupportedContentType
Legen Sie für Azure-Blobs den Wert "false" fest, wenn Sie die Indizierung fortsetzen möchten, wenn ein nicht unterstützter Inhaltstyp auftritt, und Sie wissen nicht alle Inhaltstypen (Dateierweiterungen) im Voraus.
failOnUnsupportedContentType?: boolean
Eigenschaftswert
boolean
firstLineContainsHeaders
Gibt für CSV-Blobs an, dass die erste (nicht leere) Zeile jedes BLOB Header enthält.
firstLineContainsHeaders?: boolean
Eigenschaftswert
boolean
imageAction
Bestimmt, wie eingebettete Bilder und Bilddateien im Azure Blob Storage verarbeitet werden. Wenn Sie die "imageAction"-Konfiguration auf einen anderen Wert als "none" festlegen, muss auch ein Skillset an diesen Indexer angefügt werden.
imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
Eigenschaftswert
"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
indexedFileNameExtensions
Durch Trennzeichen getrennte Liste der Dateinamenerweiterungen, die beim Verarbeiten aus Azure Blob Storage ausgewählt werden sollen. Beispielsweise könnten Sie sich auf die Indizierung bestimmter Anwendungsdateien ".docx, .pptx, .msg" konzentrieren, um diese Dateitypen speziell einzuschließen.
indexedFileNameExtensions?: string
Eigenschaftswert
string
indexStorageMetadataOnlyForOversizedDocuments
Legen Sie für Azure-Blobs diese Eigenschaft auf "true" fest, um weiterhin Speichermetadaten für BLOB-Inhalte zu indizieren, die zu groß zum Verarbeiten sind. Überdimensionierte Blobs werden standardmäßig als Fehler behandelt. Grenzwerte für blob-Größe finden Sie unter https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.
indexStorageMetadataOnlyForOversizedDocuments?: boolean
Eigenschaftswert
boolean
parsingMode
Stellt den Analysemodus für die Indizierung aus einer Azure-Blob-Datenquelle dar.
parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
Eigenschaftswert
"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
pdfTextRotationAlgorithm
Bestimmt den Algorithmus für die Textextraktion aus PDF-Dateien im Azure Blob Storage.
pdfTextRotationAlgorithm?: "none" | "detectAngles"
Eigenschaftswert
"none" | "detectAngles"
queryTimeout
Erhöht das Timeout über die 5-Minuten-Standardeinstellung für Azure SQL-Datenbankdatenquellen, die im Format "hh:mm:ss" angegeben sind.
queryTimeout?: string
Eigenschaftswert
string