IndexingParametersConfiguration interface
Dictionnaire de propriétés de configuration spécifiques à l’indexeur. Chaque nom est le nom d’une propriété spécifique. Chaque valeur doit être d’un type primitif.
Propriétés
allow |
Si la valeur est true, crée un chemin d’accès //document//file_data qui est un objet représentant les données de fichier d’origine téléchargées à partir de votre source de données blob. Cela vous permet de transmettre les données de fichier d’origine à une compétence personnalisée pour traitement dans le pipeline d’enrichissement ou à la compétence Extraction de documents. |
data |
Spécifie les données à extraire du stockage Blob Azure et indique à l’indexeur les données à extraire du contenu de l’image lorsque « imageAction » est défini sur une valeur autre que « none ». Cela s’applique au contenu d’image incorporé dans un .PDF ou une autre application, ou aux fichiers image tels que .jpg et .png, dans les objets blob Azure. |
delimited |
Pour les objets blob CSV, spécifie le délimiteur à caractère unique de fin de ligne pour les fichiers CSV où chaque ligne démarre un nouveau document (par exemple, « | »). |
delimited |
Pour les objets blob CSV, spécifie une liste délimitée par des virgules d’en-têtes de colonne, utile pour le mappage des champs sources aux champs de destination dans un index. |
document |
Pour les tableaux JSON, dans un document structuré ou semi-structuré, vous pouvez spécifier un chemin d’accès au tableau à l’aide de cette propriété. |
excluded |
Liste délimitée par des virgules des extensions de nom de fichier à ignorer lors du traitement à partir du stockage Blob Azure. Par exemple, vous pouvez exclure « .png, .mp4 » pour ignorer ces fichiers pendant l’indexation. |
execution |
Spécifie l’environnement dans lequel l’indexeur doit s’exécuter. |
fail |
Pour les objets blob Azure, définissez sur false si vous souhaitez continuer l’indexation en cas d’échec de l’indexation d’un document. |
fail |
Pour les objets blob Azure, définissez sur false si vous souhaitez continuer l’indexation lorsqu’un type de contenu non pris en charge est rencontré et que vous ne connaissez pas tous les types de contenu (extensions de fichier) à l’avance. |
first |
Pour les objets blob CSV, indique que la première ligne (non vide) de chaque objet blob contient des en-têtes. |
image |
Détermine comment traiter les images incorporées et les fichiers image dans le stockage Blob Azure. La définition de la configuration « imageAction » sur une valeur autre que « none » nécessite qu’un ensemble de compétences soit également attaché à cet indexeur. |
indexed |
Liste délimitée par des virgules des extensions de nom de fichier à sélectionner lors du traitement à partir du stockage Blob Azure. Par exemple, vous pouvez axer l’indexation sur les fichiers d’applications « .docx, .pptx, .msg » pour inclure spécifiquement ces types de fichier. |
index |
Pour les objets blob Azure, définissez cette propriété sur true pour toujours indexer les métadonnées de stockage pour le contenu d’objet blob trop volumineux à traiter. Par défaut, les objets blob surdimensionnés sont traités comme des erreurs. Pour connaître les limites de taille d’objet blob, consultez https://docs.microsoft.com/azure/search/search-limits-quotas-capacity. |
parsing |
Représente le mode d’analyse pour l’indexation à partir d’une source de données d’objets blob Azure. |
pdf |
Détermine l’algorithme d’extraction de texte à partir de fichiers PDF dans le stockage Blob Azure. |
query |
Augmente le délai d’expiration au-delà de la valeur par défaut de 5 minutes pour Azure SQL sources de données de base de données, spécifiées au format « hh:mm:ss ». |
Détails de la propriété
allowSkillsetToReadFileData
Si la valeur est true, crée un chemin d’accès //document//file_data qui est un objet représentant les données de fichier d’origine téléchargées à partir de votre source de données blob. Cela vous permet de transmettre les données de fichier d’origine à une compétence personnalisée pour traitement dans le pipeline d’enrichissement ou à la compétence Extraction de documents.
allowSkillsetToReadFileData?: boolean
Valeur de propriété
boolean
dataToExtract
Spécifie les données à extraire du stockage Blob Azure et indique à l’indexeur les données à extraire du contenu de l’image lorsque « imageAction » est défini sur une valeur autre que « none ». Cela s’applique au contenu d’image incorporé dans un .PDF ou une autre application, ou aux fichiers image tels que .jpg et .png, dans les objets blob Azure.
dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"
Valeur de propriété
"storageMetadata" | "allMetadata" | "contentAndMetadata"
delimitedTextDelimiter
Pour les objets blob CSV, spécifie le délimiteur à caractère unique de fin de ligne pour les fichiers CSV où chaque ligne démarre un nouveau document (par exemple, « | »).
delimitedTextDelimiter?: string
Valeur de propriété
string
delimitedTextHeaders
Pour les objets blob CSV, spécifie une liste délimitée par des virgules d’en-têtes de colonne, utile pour le mappage des champs sources aux champs de destination dans un index.
delimitedTextHeaders?: string
Valeur de propriété
string
documentRoot
Pour les tableaux JSON, dans un document structuré ou semi-structuré, vous pouvez spécifier un chemin d’accès au tableau à l’aide de cette propriété.
documentRoot?: string
Valeur de propriété
string
excludedFileNameExtensions
Liste délimitée par des virgules des extensions de nom de fichier à ignorer lors du traitement à partir du stockage Blob Azure. Par exemple, vous pouvez exclure « .png, .mp4 » pour ignorer ces fichiers pendant l’indexation.
excludedFileNameExtensions?: string
Valeur de propriété
string
executionEnvironment
Spécifie l’environnement dans lequel l’indexeur doit s’exécuter.
executionEnvironment?: "standard" | "private"
Valeur de propriété
"standard" | "private"
failOnUnprocessableDocument
Pour les objets blob Azure, définissez sur false si vous souhaitez continuer l’indexation en cas d’échec de l’indexation d’un document.
failOnUnprocessableDocument?: boolean
Valeur de propriété
boolean
failOnUnsupportedContentType
Pour les objets blob Azure, définissez sur false si vous souhaitez continuer l’indexation lorsqu’un type de contenu non pris en charge est rencontré et que vous ne connaissez pas tous les types de contenu (extensions de fichier) à l’avance.
failOnUnsupportedContentType?: boolean
Valeur de propriété
boolean
firstLineContainsHeaders
Pour les objets blob CSV, indique que la première ligne (non vide) de chaque objet blob contient des en-têtes.
firstLineContainsHeaders?: boolean
Valeur de propriété
boolean
imageAction
Détermine comment traiter les images incorporées et les fichiers image dans le stockage Blob Azure. La définition de la configuration « imageAction » sur une valeur autre que « none » nécessite qu’un ensemble de compétences soit également attaché à cet indexeur.
imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
Valeur de propriété
"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
indexedFileNameExtensions
Liste délimitée par des virgules des extensions de nom de fichier à sélectionner lors du traitement à partir du stockage Blob Azure. Par exemple, vous pouvez axer l’indexation sur les fichiers d’applications « .docx, .pptx, .msg » pour inclure spécifiquement ces types de fichier.
indexedFileNameExtensions?: string
Valeur de propriété
string
indexStorageMetadataOnlyForOversizedDocuments
Pour les objets blob Azure, définissez cette propriété sur true pour toujours indexer les métadonnées de stockage pour le contenu d’objet blob trop volumineux à traiter. Par défaut, les objets blob surdimensionnés sont traités comme des erreurs. Pour connaître les limites de taille d’objet blob, consultez https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.
indexStorageMetadataOnlyForOversizedDocuments?: boolean
Valeur de propriété
boolean
parsingMode
Représente le mode d’analyse pour l’indexation à partir d’une source de données d’objets blob Azure.
parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
Valeur de propriété
"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
pdfTextRotationAlgorithm
Détermine l’algorithme d’extraction de texte à partir de fichiers PDF dans le stockage Blob Azure.
pdfTextRotationAlgorithm?: "none" | "detectAngles"
Valeur de propriété
"none" | "detectAngles"
queryTimeout
Augmente le délai d’expiration au-delà de la valeur par défaut de 5 minutes pour Azure SQL sources de données de base de données, spécifiées au format « hh:mm:ss ».
queryTimeout?: string
Valeur de propriété
string