IndexingParametersConfiguration interface

Referência

Pacote:: @azure/search-documents

Um dicionário de propriedades de configuração específicas do indexador. Cada nome é o nome de uma propriedade específica. Cada valor deve ser de um tipo primitivo.

Propriedades

allowSkillsetToReadFileData	Se for true, criará um caminho //document//file_data que é um objeto que representa os dados de arquivo originais baixados da fonte de dados do blob. Isso permite que você passe os dados de arquivo originais para uma habilidade personalizada para processamento dentro do pipeline de enriquecimento ou para a habilidade extração de documentos.
dataToExtract	Especifica os dados a serem extraídos do armazenamento de blobs do Azure e informa ao indexador quais dados extrair do conteúdo da imagem quando "imageAction" é definido como um valor diferente de "nenhum". Isso se aplica ao conteúdo de imagem inserida em um .PDF ou outro aplicativo ou arquivos de imagem, como .jpg e .png, em blobs do Azure.
delimitedTextDelimiter	Para blobs CSV, especifica o delimitador de caractere único de fim de linha para arquivos CSV em que cada linha inicia um novo documento (por exemplo, "\|").
delimitedTextHeaders	Para blobs CSV, especifica uma lista delimitada por vírgulas de cabeçalhos de coluna, útil para mapear campos de origem para campos de destino em um índice.
documentRoot	Para matrizes JSON, considerando um documento estruturado ou semiestruturado, você pode especificar um caminho para a matriz usando essa propriedade.
excludedFileNameExtensions	Lista delimitada por vírgulas de extensões de nome de arquivo a serem ignoradas ao processar do armazenamento de blobs do Azure. Por exemplo, você pode excluir ".png, .mp4" para ignorar esses arquivos durante a indexação.
executionEnvironment	Especifica o ambiente no qual o indexador deve ser executado.
failOnUnprocessableDocument	Para blobs do Azure, defina como false se você quiser continuar indexando se um documento falhar na indexação.
failOnUnsupportedContentType	Para blobs do Azure, defina como false se você quiser continuar indexando quando um tipo de conteúdo sem suporte for encontrado e você não souber todos os tipos de conteúdo (extensões de arquivo) com antecedência.
firstLineContainsHeaders	Para blobs CSV, indica que a primeira linha (não em branco) de cada blob contém cabeçalhos.
imageAction	Determina como processar imagens inseridas e arquivos de imagem no armazenamento de blobs do Azure. Definir a configuração "imageAction" como qualquer valor diferente de "nenhum" requer que um conjunto de habilidades também seja anexado a esse indexador.
indexedFileNameExtensions	Lista delimitada por vírgulas de extensões de nome de arquivo para selecionar ao processar no armazenamento de blobs do Azure. Por exemplo, você pode enfocar a indexação em arquivos de aplicativo específicos ".docx, .pptx, .msg" para incluir especificamente esses tipos de arquivo.
indexStorageMetadataOnlyForOversizedDocuments	Para blobs do Azure, defina essa propriedade como true para ainda indexar metadados de armazenamento para conteúdo de blob muito grande para processar. Por padrão, os blobs superdimensionados são tratados como erros. Para obter limites no tamanho do blob, consulte https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.
parsingMode	Representa o modo de análise para indexação de uma fonte de dados de blob do Azure.
pdfTextRotationAlgorithm	Determina o algoritmo para extração de texto de arquivos PDF no armazenamento de blobs do Azure.
queryTimeout	Aumenta o tempo limite além do padrão de 5 minutos para SQL do Azure fontes de dados de banco de dados, especificadas no formato "hh:mm:ss".

Detalhes da propriedade

allowSkillsetToReadFileData

Se for true, criará um caminho //document//file_data que é um objeto que representa os dados de arquivo originais baixados da fonte de dados do blob. Isso permite que você passe os dados de arquivo originais para uma habilidade personalizada para processamento dentro do pipeline de enriquecimento ou para a habilidade extração de documentos.

allowSkillsetToReadFileData?: boolean

Valor da propriedade

boolean

dataToExtract

Especifica os dados a serem extraídos do armazenamento de blobs do Azure e informa ao indexador quais dados extrair do conteúdo da imagem quando "imageAction" é definido como um valor diferente de "nenhum". Isso se aplica ao conteúdo de imagem inserida em um .PDF ou outro aplicativo ou arquivos de imagem, como .jpg e .png, em blobs do Azure.

dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"

Valor da propriedade

"storageMetadata" | "allMetadata" | "contentAndMetadata"

delimitedTextDelimiter

Para blobs CSV, especifica o delimitador de caractere único de fim de linha para arquivos CSV em que cada linha inicia um novo documento (por exemplo, "|").

delimitedTextDelimiter?: string

Valor da propriedade

string

delimitedTextHeaders

Para blobs CSV, especifica uma lista delimitada por vírgulas de cabeçalhos de coluna, útil para mapear campos de origem para campos de destino em um índice.

delimitedTextHeaders?: string

Valor da propriedade

string

documentRoot

Para matrizes JSON, considerando um documento estruturado ou semiestruturado, você pode especificar um caminho para a matriz usando essa propriedade.

documentRoot?: string

Valor da propriedade

string

excludedFileNameExtensions

Lista delimitada por vírgulas de extensões de nome de arquivo a serem ignoradas ao processar do armazenamento de blobs do Azure. Por exemplo, você pode excluir ".png, .mp4" para ignorar esses arquivos durante a indexação.

excludedFileNameExtensions?: string

Valor da propriedade

string

executionEnvironment

Especifica o ambiente no qual o indexador deve ser executado.

executionEnvironment?: "standard" | "private"

Valor da propriedade

"standard" | "private"

failOnUnprocessableDocument

Para blobs do Azure, defina como false se você quiser continuar indexando se um documento falhar na indexação.

failOnUnprocessableDocument?: boolean

Valor da propriedade

boolean

failOnUnsupportedContentType

Para blobs do Azure, defina como false se você quiser continuar indexando quando um tipo de conteúdo sem suporte for encontrado e você não souber todos os tipos de conteúdo (extensões de arquivo) com antecedência.

failOnUnsupportedContentType?: boolean

Valor da propriedade

boolean

firstLineContainsHeaders

Para blobs CSV, indica que a primeira linha (não em branco) de cada blob contém cabeçalhos.

firstLineContainsHeaders?: boolean

Valor da propriedade

boolean

imageAction

Determina como processar imagens inseridas e arquivos de imagem no armazenamento de blobs do Azure. Definir a configuração "imageAction" como qualquer valor diferente de "nenhum" requer que um conjunto de habilidades também seja anexado a esse indexador.

imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

Valor da propriedade

"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"

indexedFileNameExtensions

Lista delimitada por vírgulas de extensões de nome de arquivo para selecionar ao processar no armazenamento de blobs do Azure. Por exemplo, você pode enfocar a indexação em arquivos de aplicativo específicos ".docx, .pptx, .msg" para incluir especificamente esses tipos de arquivo.

indexedFileNameExtensions?: string

Valor da propriedade

string

indexStorageMetadataOnlyForOversizedDocuments

Para blobs do Azure, defina essa propriedade como true para ainda indexar metadados de armazenamento para conteúdo de blob muito grande para processar. Por padrão, os blobs superdimensionados são tratados como erros. Para obter limites no tamanho do blob, consulte https://docs.microsoft.com/azure/search/search-limits-quotas-capacity.

indexStorageMetadataOnlyForOversizedDocuments?: boolean

Valor da propriedade

boolean

parsingMode

Representa o modo de análise para indexação de uma fonte de dados de blob do Azure.

parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"

Valor da propriedade

pdfTextRotationAlgorithm

Determina o algoritmo para extração de texto de arquivos PDF no armazenamento de blobs do Azure.

pdfTextRotationAlgorithm?: "none" | "detectAngles"

Valor da propriedade

"none" | "detectAngles"

queryTimeout

Aumenta o tempo limite além do padrão de 5 minutos para SQL do Azure fontes de dados de banco de dados, especificadas no formato "hh:mm:ss".

queryTimeout?: string

Valor da propriedade

string

Compartilhar via

IndexingParametersConfiguration interface

Propriedades

Detalhes da propriedade

allowSkillsetToReadFileData

Valor da propriedade

dataToExtract

Valor da propriedade

delimitedTextDelimiter

Valor da propriedade

delimitedTextHeaders

Valor da propriedade

documentRoot

Valor da propriedade

excludedFileNameExtensions

Valor da propriedade

executionEnvironment

Valor da propriedade

failOnUnprocessableDocument

Valor da propriedade

failOnUnsupportedContentType

Valor da propriedade

firstLineContainsHeaders

Valor da propriedade

imageAction

Valor da propriedade

indexedFileNameExtensions

Valor da propriedade

indexStorageMetadataOnlyForOversizedDocuments

Valor da propriedade

parsingMode

Valor da propriedade

pdfTextRotationAlgorithm

Valor da propriedade

queryTimeout

Valor da propriedade

Recursos adicionais