IndexingParametersConfiguration interface
Dizionario delle proprietà di configurazione specifiche dell'indicizzatore. Ogni nome è il nome di una proprietà specifica. Ogni valore deve essere di un tipo primitivo.
Proprietà
allow |
Se true, creerà un percorso //document//file_data che rappresenta i dati del file originale scaricati dall'origine dati BLOB. In questo modo è possibile passare i dati di file originali a una competenza personalizzata per l'elaborazione all'interno della pipeline di arricchimento o alla competenza Estrazione documenti. |
data |
Specifica i dati da estrarre dall'archiviazione BLOB di Azure e indica al indicizzatore i dati da estrarre dal contenuto dell'immagine quando "imageAction" è impostato su un valore diverso da "nessuno". Ciò si applica al contenuto dell'immagine incorporato in un .PDF o in altri file di immagine, ad esempio .jpg e .png, nei BLOB di Azure. |
delimited |
Per i BLOB CSV, specifica il delimitatore a caratteri singoli end-of-line per i file CSV in cui ogni riga avvia un nuovo documento, ad esempio "|"). |
delimited |
Per i BLOB CSV, specifica un elenco delimitato da virgole di intestazioni di colonna, utile per il mapping dei campi di origine ai campi di destinazione in un indice. |
document |
Per le matrici JSON, dato un documento strutturato o semistrutturato, è possibile specificare un percorso della matrice usando questa proprietà. |
excluded |
Elenco delimitato da virgole di estensioni del nome file da ignorare durante l'elaborazione dall'archiviazione BLOB di Azure. Ad esempio, è possibile escludere ".png, .mp4" per ignorare tali file durante l'indicizzazione. |
execution |
Specifica l'ambiente in cui deve essere eseguito l'indicizzatore. |
fail |
Per i BLOB di Azure, impostare su false se si vuole continuare l'indicizzazione se un documento ha esito negativo. |
fail |
Per i BLOB di Azure, impostare su false se si vuole continuare l'indicizzazione quando viene rilevato un tipo di contenuto non supportato e non si conoscono tutti i tipi di contenuto (estensioni file) in anticipo. |
first |
Per i BLOB CSV, indica che la prima riga (non vuota) di ogni BLOB contiene intestazioni. |
image |
Determina come elaborare immagini incorporate e file di immagine nell'archiviazione BLOB di Azure. L'impostazione della configurazione "imageAction" su qualsiasi valore diverso da "nessuno" richiede che un set di competenze sia collegato anche a tale indicizzatore. |
indexed |
Elenco delimitato da virgole delle estensioni del nome file da selezionare durante l'elaborazione dall'archiviazione BLOB di Azure. Si potrebbe ad esempio concentrare l'indicizzazione su specifici file dell'applicazione, come ".docx, .pptx, .msg", per includere specificamente questi tipi di file. |
index |
Per i BLOB di Azure, impostare questa proprietà su true su ancora indicizzare i metadati di archiviazione per il contenuto BLOB troppo grande da elaborare. I BLOB sovradimensionati vengono gestiti come errori per impostazione predefinita. Per i limiti sulle dimensioni del BLOB, vedere https://docs.microsoft.com/azure/search/search-limits-quotas-capacity. |
parsing |
Rappresenta la modalità di analisi per l'indicizzazione da un'origine dati BLOB di Azure. |
pdf |
Determina l'algoritmo per l'estrazione di testo dai file PDF nell'archiviazione BLOB di Azure. |
query |
Aumenta il timeout oltre il valore predefinito di 5 minuti per Azure SQL origini dati del database, specificato nel formato "hh:mm:ss". |
Dettagli proprietà
allowSkillsetToReadFileData
Se true, creerà un percorso //document//file_data che rappresenta i dati del file originale scaricati dall'origine dati BLOB. In questo modo è possibile passare i dati di file originali a una competenza personalizzata per l'elaborazione all'interno della pipeline di arricchimento o alla competenza Estrazione documenti.
allowSkillsetToReadFileData?: boolean
Valore della proprietà
boolean
dataToExtract
Specifica i dati da estrarre dall'archiviazione BLOB di Azure e indica al indicizzatore i dati da estrarre dal contenuto dell'immagine quando "imageAction" è impostato su un valore diverso da "nessuno". Ciò si applica al contenuto dell'immagine incorporato in un .PDF o in altri file di immagine, ad esempio .jpg e .png, nei BLOB di Azure.
dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"
Valore della proprietà
"storageMetadata" | "allMetadata" | "contentAndMetadata"
delimitedTextDelimiter
Per i BLOB CSV, specifica il delimitatore a caratteri singoli end-of-line per i file CSV in cui ogni riga avvia un nuovo documento, ad esempio "|").
delimitedTextDelimiter?: string
Valore della proprietà
string
delimitedTextHeaders
Per i BLOB CSV, specifica un elenco delimitato da virgole di intestazioni di colonna, utile per il mapping dei campi di origine ai campi di destinazione in un indice.
delimitedTextHeaders?: string
Valore della proprietà
string
documentRoot
Per le matrici JSON, dato un documento strutturato o semistrutturato, è possibile specificare un percorso della matrice usando questa proprietà.
documentRoot?: string
Valore della proprietà
string
excludedFileNameExtensions
Elenco delimitato da virgole di estensioni del nome file da ignorare durante l'elaborazione dall'archiviazione BLOB di Azure. Ad esempio, è possibile escludere ".png, .mp4" per ignorare tali file durante l'indicizzazione.
excludedFileNameExtensions?: string
Valore della proprietà
string
executionEnvironment
Specifica l'ambiente in cui deve essere eseguito l'indicizzatore.
executionEnvironment?: "standard" | "private"
Valore della proprietà
"standard" | "private"
failOnUnprocessableDocument
Per i BLOB di Azure, impostare su false se si vuole continuare l'indicizzazione se un documento ha esito negativo.
failOnUnprocessableDocument?: boolean
Valore della proprietà
boolean
failOnUnsupportedContentType
Per i BLOB di Azure, impostare su false se si vuole continuare l'indicizzazione quando viene rilevato un tipo di contenuto non supportato e non si conoscono tutti i tipi di contenuto (estensioni file) in anticipo.
failOnUnsupportedContentType?: boolean
Valore della proprietà
boolean
firstLineContainsHeaders
Per i BLOB CSV, indica che la prima riga (non vuota) di ogni BLOB contiene intestazioni.
firstLineContainsHeaders?: boolean
Valore della proprietà
boolean
imageAction
Determina come elaborare immagini incorporate e file di immagine nell'archiviazione BLOB di Azure. L'impostazione della configurazione "imageAction" su qualsiasi valore diverso da "nessuno" richiede che un set di competenze sia collegato anche a tale indicizzatore.
imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
Valore della proprietà
"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
indexedFileNameExtensions
Elenco delimitato da virgole delle estensioni del nome file da selezionare durante l'elaborazione dall'archiviazione BLOB di Azure. Si potrebbe ad esempio concentrare l'indicizzazione su specifici file dell'applicazione, come ".docx, .pptx, .msg", per includere specificamente questi tipi di file.
indexedFileNameExtensions?: string
Valore della proprietà
string
indexStorageMetadataOnlyForOversizedDocuments
Per i BLOB di Azure, impostare questa proprietà su true su ancora indicizzare i metadati di archiviazione per il contenuto BLOB troppo grande da elaborare. I BLOB sovradimensionati vengono gestiti come errori per impostazione predefinita. Per i limiti sulle dimensioni del BLOB, vedere https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.
indexStorageMetadataOnlyForOversizedDocuments?: boolean
Valore della proprietà
boolean
parsingMode
Rappresenta la modalità di analisi per l'indicizzazione da un'origine dati BLOB di Azure.
parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
Valore della proprietà
"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
pdfTextRotationAlgorithm
Determina l'algoritmo per l'estrazione di testo dai file PDF nell'archiviazione BLOB di Azure.
pdfTextRotationAlgorithm?: "none" | "detectAngles"
Valore della proprietà
"none" | "detectAngles"
queryTimeout
Aumenta il timeout oltre il valore predefinito di 5 minuti per Azure SQL origini dati del database, specificato nel formato "hh:mm:ss".
queryTimeout?: string
Valore della proprietà
string