你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
IndexingParametersConfiguration interface
索引器特定配置属性的字典。 每个名称都是特定属性的名称。 每个值都必须是基元类型。
属性
allow |
如果为 true,将创建一个路径 //document//file_data,该路径是表示从 Blob 数据源下载的原始文件数据的对象。 这使你可以将原始文件数据传递给自定义技能,以便在扩充管道内进行处理,或传递到文档提取技能。 |
data |
指定要从 Azure Blob 存储中提取的数据,并在“imageAction”设置为“none”以外的值时,告知索引器从图像内容中提取哪些数据。 这适用于.PDF或其他应用程序中的嵌入图像内容,或者 Azure blob 中的图像文件(如.jpg和.png)。 |
delimited |
对于 CSV Blob,指定 CSV 文件的行尾单字符分隔符,其中每行启动一个新文档 (例如“|”) 。 |
delimited |
对于 CSV Blob,指定以逗号分隔的列标题列表,用于将源字段映射到索引中的目标字段。 |
document |
对于 JSON 数组,给定结构化或半结构化文档,可以使用此属性指定数组的路径。 |
excluded |
从 Azure Blob 存储进行处理时要忽略的文件扩展名的逗号分隔列表。 例如,可以排除“.png,.mp4”,以便在索引期间跳过这些文件。 |
execution |
指定索引器应在其中执行的环境。 |
fail |
对于 Azure Blob,如果要在文档索引失败时继续编制索引,请将 设置为 false。 |
fail |
对于 Azure Blob,如果想要在遇到不受支持的内容类型时继续编制索引,并且事先不知道所有内容类型 (文件扩展名) ,请将 设置为 false。 |
first |
对于 CSV blob,指示每个 blob 的第一个 (非空) 行包含标头。 |
image |
确定如何处理 Azure Blob 存储中的嵌入图像和图像文件。 将“imageAction”配置设置为“none”以外的任何值都需要将技能组附加到该索引器。 |
indexed |
从 Azure Blob 存储进行处理时要选择的以逗号分隔的文件扩展名列表。 例如,可以让索引编制侧重于特定的应用程序文件“.docx、.pptx、.msg”,以便专门包括这些文件类型。 |
index |
对于 Azure Blob,请将此属性设置为 true,以便为太大而无法处理的 Blob 内容的存储元数据编制索引。 过大的 blob 会被默认视为错误。 有关 Blob 大小的限制,请参阅 https://docs.microsoft.com/azure/search/search-limits-quotas-capacity。 |
parsing |
表示用于从 Azure Blob 数据源编制索引分析模式。 |
pdf |
确定从 Azure Blob 存储中的 PDF 文件提取文本的算法。 |
query |
将Azure SQL数据库数据源的超时时间增加到超过 5 分钟默认值,以“hh:mm:ss”格式指定。 |
属性详细信息
allowSkillsetToReadFileData
如果为 true,将创建一个路径 //document//file_data,该路径是表示从 Blob 数据源下载的原始文件数据的对象。 这使你可以将原始文件数据传递给自定义技能,以便在扩充管道内进行处理,或传递到文档提取技能。
allowSkillsetToReadFileData?: boolean
属性值
boolean
dataToExtract
指定要从 Azure Blob 存储中提取的数据,并在“imageAction”设置为“none”以外的值时,告知索引器从图像内容中提取哪些数据。 这适用于.PDF或其他应用程序中的嵌入图像内容,或者 Azure blob 中的图像文件(如.jpg和.png)。
dataToExtract?: "storageMetadata" | "allMetadata" | "contentAndMetadata"
属性值
"storageMetadata" | "allMetadata" | "contentAndMetadata"
delimitedTextDelimiter
对于 CSV Blob,指定 CSV 文件的行尾单字符分隔符,其中每行启动一个新文档 (例如“|”) 。
delimitedTextDelimiter?: string
属性值
string
delimitedTextHeaders
对于 CSV Blob,指定以逗号分隔的列标题列表,用于将源字段映射到索引中的目标字段。
delimitedTextHeaders?: string
属性值
string
documentRoot
对于 JSON 数组,给定结构化或半结构化文档,可以使用此属性指定数组的路径。
documentRoot?: string
属性值
string
excludedFileNameExtensions
从 Azure Blob 存储进行处理时要忽略的文件扩展名的逗号分隔列表。 例如,可以排除“.png,.mp4”,以便在索引期间跳过这些文件。
excludedFileNameExtensions?: string
属性值
string
executionEnvironment
指定索引器应在其中执行的环境。
executionEnvironment?: "standard" | "private"
属性值
"standard" | "private"
failOnUnprocessableDocument
对于 Azure Blob,如果要在文档索引失败时继续编制索引,请将 设置为 false。
failOnUnprocessableDocument?: boolean
属性值
boolean
failOnUnsupportedContentType
对于 Azure Blob,如果想要在遇到不受支持的内容类型时继续编制索引,并且事先不知道所有内容类型 (文件扩展名) ,请将 设置为 false。
failOnUnsupportedContentType?: boolean
属性值
boolean
firstLineContainsHeaders
对于 CSV blob,指示每个 blob 的第一个 (非空) 行包含标头。
firstLineContainsHeaders?: boolean
属性值
boolean
imageAction
确定如何处理 Azure Blob 存储中的嵌入图像和图像文件。 将“imageAction”配置设置为“none”以外的任何值都需要将技能组附加到该索引器。
imageAction?: "none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
属性值
"none" | "generateNormalizedImages" | "generateNormalizedImagePerPage"
indexedFileNameExtensions
从 Azure Blob 存储进行处理时要选择的以逗号分隔的文件扩展名列表。 例如,可以让索引编制侧重于特定的应用程序文件“.docx、.pptx、.msg”,以便专门包括这些文件类型。
indexedFileNameExtensions?: string
属性值
string
indexStorageMetadataOnlyForOversizedDocuments
对于 Azure Blob,请将此属性设置为 true,以便为太大而无法处理的 Blob 内容的存储元数据编制索引。 过大的 blob 会被默认视为错误。 有关 Blob 大小的限制,请参阅 https://docs.microsoft.com/azure/search/search-limits-quotas-capacity。
indexStorageMetadataOnlyForOversizedDocuments?: boolean
属性值
boolean
parsingMode
表示用于从 Azure Blob 数据源编制索引分析模式。
parsingMode?: "text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
属性值
"text" | "default" | "delimitedText" | "json" | "jsonArray" | "jsonLines"
pdfTextRotationAlgorithm
确定从 Azure Blob 存储中的 PDF 文件提取文本的算法。
pdfTextRotationAlgorithm?: "none" | "detectAngles"
属性值
"none" | "detectAngles"
queryTimeout
将Azure SQL数据库数据源的超时时间增加到超过 5 分钟默认值,以“hh:mm:ss”格式指定。
queryTimeout?: string
属性值
string