IndexingParametersConfiguration interface
Dizionario di proprietà di configurazione specifiche dell'indicizzatore. Ogni nome è il nome di una proprietà specifica. Ogni valore deve essere di un tipo primitivo.
Proprietà
allow |
Se true, creerà un percorso //document//file_data che rappresenta i dati del file originale scaricati dall'origine dati BLOB. In questo modo è possibile passare i dati del file originale a una competenza personalizzata per l'elaborazione all'interno della pipeline di arricchimento o alla competenza Estrazione documenti. |
data |
Specifica i dati da estrarre dall'archivio BLOB di Azure e indica all'indicizzatore quali dati estrarre dal contenuto dell'immagine quando "imageAction" è impostato su un valore diverso da "nessuno". Questo vale per il contenuto di immagini incorporato in un .PDF o in un'altra applicazione o file di immagine, ad esempio .jpg e .png, nei BLOB di Azure. |
delimited |
Per i BLOB CSV, specifica il delimitatore a caratteri singoli di fine riga per i file CSV in cui ogni riga avvia un nuovo documento ,ad esempio "|". |
delimited |
Per i BLOB CSV, specifica un elenco delimitato da virgole di intestazioni di colonna, utile per il mapping dei campi di origine ai campi di destinazione in un indice. |
document |
Per le matrici JSON, dato un documento strutturato o semistrutturato, è possibile specificare un percorso della matrice usando questa proprietà. |
excluded |
Elenco delimitato da virgole delle estensioni del nome file da ignorare durante l'elaborazione dall'archivio BLOB di Azure. Ad esempio, è possibile escludere ".png, .mp4" per ignorare tali file durante l'indicizzazione. |
execution |
Specifica l'ambiente in cui deve essere eseguito l'indicizzatore. |
fail |
Per i BLOB di Azure, impostare su false se si vuole continuare l'indicizzazione in caso di errore di indicizzazione di un documento. |
fail |
Per i BLOB di Azure, impostare su false se si vuole continuare l'indicizzazione quando viene rilevato un tipo di contenuto non supportato e non si conoscono tutti i tipi di contenuto (estensioni di file) in anticipo. |
first |
Per i BLOB CSV, indica che la prima riga (non vuota) di ogni BLOB contiene intestazioni. |
image |
Determina come elaborare immagini incorporate e file di immagine nell'archivio BLOB di Azure. L'impostazione della configurazione "imageAction" su qualsiasi valore diverso da "none" richiede l'associazione di un set di competenze anche a tale indicizzatore. |
indexed |
Elenco delimitato da virgole delle estensioni del nome file da selezionare durante l'elaborazione dall'archivio BLOB di Azure. Ad esempio, è possibile concentrare l'indicizzazione su file dell'applicazione specifici ".docx, .pptx, .msg" per includere in modo specifico tali tipi di file. |
index |
Per i BLOB di Azure, impostare questa proprietà su true per indicizzare i metadati di archiviazione per il contenuto BLOB troppo grande da elaborare. I BLOB sovradimensionati vengono considerati come errori per impostazione predefinita. Per i limiti relativi alle dimensioni del BLOB, vedere https://docs.microsoft.com/azure/search/search-limits-quotas-capacity. |
parsing |
Rappresenta la modalità di analisi per l'indicizzazione da un'origine dati BLOB di Azure. |
pdf |
Determina l'algoritmo per l'estrazione di testo da file PDF nell'archivio BLOB di Azure. |
query |
Aumenta il timeout oltre il valore predefinito di 5 minuti per le origini dati del database SQL di Azure, specificato nel formato "hh:mm:ss". |
Dettagli proprietà
allowSkillsetToReadFileData
Se true, creerà un percorso //document//file_data che rappresenta i dati del file originale scaricati dall'origine dati BLOB. In questo modo è possibile passare i dati del file originale a una competenza personalizzata per l'elaborazione all'interno della pipeline di arricchimento o alla competenza Estrazione documenti.
allowSkillsetToReadFileData?: boolean
Valore della proprietà
boolean
dataToExtract
Specifica i dati da estrarre dall'archivio BLOB di Azure e indica all'indicizzatore quali dati estrarre dal contenuto dell'immagine quando "imageAction" è impostato su un valore diverso da "nessuno". Questo vale per il contenuto di immagini incorporato in un .PDF o in un'altra applicazione o file di immagine, ad esempio .jpg e .png, nei BLOB di Azure.
dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"
Valore della proprietà
"storageMetadata" | "allMetadata" | "contentAndMetadata"
delimitedTextDelimiter
Per i BLOB CSV, specifica il delimitatore a caratteri singoli di fine riga per i file CSV in cui ogni riga avvia un nuovo documento ,ad esempio "|".
delimitedTextDelimiter?: string
Valore della proprietà
string
delimitedTextHeaders
Per i BLOB CSV, specifica un elenco delimitato da virgole di intestazioni di colonna, utile per il mapping dei campi di origine ai campi di destinazione in un indice.
delimitedTextHeaders?: string
Valore della proprietà
string
documentRoot
Per le matrici JSON, dato un documento strutturato o semistrutturato, è possibile specificare un percorso della matrice usando questa proprietà.
documentRoot?: string
Valore della proprietà
string
excludedFileNameExtensions
Elenco delimitato da virgole delle estensioni del nome file da ignorare durante l'elaborazione dall'archivio BLOB di Azure. Ad esempio, è possibile escludere ".png, .mp4" per ignorare tali file durante l'indicizzazione.
excludedFileNameExtensions?: string
Valore della proprietà
string
executionEnvironment
Specifica l'ambiente in cui deve essere eseguito l'indicizzatore.
executionEnvironment?: "standard" | "private"
Valore della proprietà
"standard" | "private"
failOnUnprocessableDocument
Per i BLOB di Azure, impostare su false se si vuole continuare l'indicizzazione in caso di errore di indicizzazione di un documento.
failOnUnprocessableDocument?: boolean
Valore della proprietà
boolean
failOnUnsupportedContentType
Per i BLOB di Azure, impostare su false se si vuole continuare l'indicizzazione quando viene rilevato un tipo di contenuto non supportato e non si conoscono tutti i tipi di contenuto (estensioni di file) in anticipo.
failOnUnsupportedContentType?: boolean
Valore della proprietà
boolean
firstLineContainsHeaders
Per i BLOB CSV, indica che la prima riga (non vuota) di ogni BLOB contiene intestazioni.
firstLineContainsHeaders?: boolean
Valore della proprietà
boolean
imageAction
Determina come elaborare immagini incorporate e file di immagine nell'archivio BLOB di Azure. L'impostazione della configurazione "imageAction" su qualsiasi valore diverso da "none" richiede l'associazione di un set di competenze anche a tale indicizzatore.
imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
Valore della proprietà
"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
indexedFileNameExtensions
Elenco delimitato da virgole delle estensioni del nome file da selezionare durante l'elaborazione dall'archivio BLOB di Azure. Ad esempio, è possibile concentrare l'indicizzazione su file dell'applicazione specifici ".docx, .pptx, .msg" per includere in modo specifico tali tipi di file.
indexedFileNameExtensions?: string
Valore della proprietà
string
indexStorageMetadataOnlyForOversizedDocuments
Per i BLOB di Azure, impostare questa proprietà su true per indicizzare i metadati di archiviazione per il contenuto BLOB troppo grande da elaborare. I BLOB sovradimensionati vengono considerati come errori per impostazione predefinita. Per i limiti relativi alle dimensioni del BLOB, vedere https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.
indexStorageMetadataOnlyForOversizedDocuments?: boolean
Valore della proprietà
boolean
parsingMode
Rappresenta la modalità di analisi per l'indicizzazione da un'origine dati BLOB di Azure.
parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
Valore della proprietà
"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
pdfTextRotationAlgorithm
Determina l'algoritmo per l'estrazione di testo da file PDF nell'archivio BLOB di Azure.
pdfTextRotationAlgorithm?: "none" | "detectAngles"
Valore della proprietà
"none" | "detectAngles"
queryTimeout
Aumenta il timeout oltre il valore predefinito di 5 minuti per le origini dati del database SQL di Azure, specificato nel formato "hh:mm:ss".
queryTimeout?: string
Valore della proprietà
string