你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Indexes - Create
创建新的搜索索引。
POST {endpoint}/indexes?api-version=2024-07-01
URI 参数
名称 | 在 | 必需 | 类型 | 说明 |
---|---|---|---|---|
endpoint
|
path | True |
string |
搜索服务的终结点 URL。 |
api-version
|
query | True |
string |
客户端 API 版本。 |
请求头
名称 | 必需 | 类型 | 说明 |
---|---|---|---|
x-ms-client-request-id |
string uuid |
随请求一起发送的跟踪 ID,以帮助进行调试。 |
请求正文
名称 | 必需 | 类型 | 说明 |
---|---|---|---|
fields | True |
索引的字段。 |
|
name | True |
string |
索引的名称。 |
@odata.etag |
string |
索引的 ETag。 |
|
analyzers | LexicalAnalyzer[]: |
索引的分析器。 |
|
charFilters | CharFilter[]: |
索引的字符筛选器。 |
|
corsOptions |
用于控制索引的跨域资源共享(CORS)的选项。 |
||
defaultScoringProfile |
string |
如果在查询中未指定评分配置文件,则使用的名称。 如果未设置此属性,并且查询中未指定任何评分配置文件,则将使用默认评分(tf-idf)。 |
|
encryptionKey |
描述在 Azure Key Vault 中创建的加密密钥。 当你希望完全保证没有人(甚至Microsoft)可以解密数据时,此密钥用于为数据提供额外的静态加密级别。 加密数据后,数据将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果需要轮换加密密钥,可以根据需要更改此属性;你的数据将不受影响。 使用客户管理的密钥加密不适用于免费搜索服务,并且仅适用于在 2019 年 1 月 1 日或之后创建的付费服务。 |
||
scoringProfiles |
索引的计分配置文件。 |
||
semantic |
定义影响语义功能的搜索索引的参数。 |
||
similarity | Similarity: |
评分和排名与搜索查询匹配的文档时使用的相似性算法的类型。 相似性算法只能在索引创建时定义,不能在现有索引上修改。 如果为 null,则使用 ClassicSimilarity 算法。 |
|
suggesters |
索引的建议器。 |
||
tokenFilters |
TokenFilter[]:
|
标记筛选索引。 |
|
tokenizers | LexicalTokenizer[]: |
索引的 tokenizer。 |
|
vectorSearch |
包含与矢量搜索相关的配置选项。 |
响应
名称 | 类型 | 说明 |
---|---|---|
201 Created | ||
Other Status Codes |
错误响应。 |
示例
SearchServiceCreateIndex
示例请求
POST https://myservice.search.windows.net/indexes?api-version=2024-07-01
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile"
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile"
},
{
"name": "descriptionEmbedding_forBQ",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswBQProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "nameEmbedding",
"type": "Collection(Edm.Half)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": "<applicationSecret>"
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myHnswSQProfile",
"algorithm": "myHnsw",
"compression": "mySQ8"
},
{
"name": "myHnswBQProfile",
"algorithm": "myHnsw",
"compression": "myBQ"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine"
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
},
{
"name": "myBQ",
"kind": "binaryQuantization",
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
]
}
}
示例响应
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile",
"synonymMaps": []
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile"
},
{
"name": "descriptionEmbedding_forBQ",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswBQProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "nameEmbedding",
"type": "Collection(Edm.Half)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenFilters": [],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myHnswSQProfile",
"algorithm": "myHnsw",
"compression": "mySQ8"
},
{
"name": "myHnswBQProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi",
"compression": "myBQ"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
},
{
"name": "myBQ",
"kind": "binaryQuantization",
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
]
}
}
定义
名称 | 说明 |
---|---|
Ascii |
如果存在此类等效项,则将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Azure |
为搜索服务创建的已注册应用程序的凭据,用于对 Azure Key Vault 中存储的加密密钥进行身份验证的访问权限。 |
Azure |
允许使用 Azure OpenAI 资源为给定文本输入生成矢量嵌入。 |
Azure |
将调用的 Azure Open AI 模型名称。 |
Azure |
指定用于连接到 Azure OpenAI 资源的参数。 |
Azure |
指定用于向量化查询字符串的 Azure OpenAI 资源。 |
Binary |
包含特定于索引和查询期间使用的二进制量化压缩方法的配置选项。 |
BM25Similarity |
基于 Okapi BM25 相似性算法的排名函数。 BM25 是一种类似于 TF-IDF 的算法,包括长度规范化(由“b”参数控制)以及术语频率饱和(由“k1”参数控制)。 |
Char |
定义搜索引擎支持的所有字符筛选器的名称。 |
Cjk |
形成从标准标记器生成的 CJK 术语的 bigram。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Cjk |
CjkBigramTokenFilter 可以忽略的脚本。 |
Classic |
使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的旧相似性算法。 这种 TF-IDF 变体引入了静态文档长度规范化,以及惩罚仅部分匹配搜索查询的文档的协调因素。 |
Classic |
适用于处理大多数欧洲语言文档的基于语法的 tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Common |
为索引时经常出现的字词构造 bigrams。 单个字词仍编制索引,并覆盖 bigrams。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Cors |
定义用于控制索引的跨域资源共享(CORS)的选项。 |
Custom |
允许你控制将文本转换为可索引/可搜索令牌的过程。 它是用户定义的配置,由单个预定义的 tokenizer 和一个或多个筛选器组成。 tokenizer 负责将文本分解为令牌,以及用于修改 tokenizer 发出的令牌的筛选器。 |
Dictionary |
分解许多德语语言中发现的复合词。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Distance |
定义基于地理位置距离提升分数的函数。 |
Distance |
向距离评分函数提供参数值。 |
Edge |
从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Edge |
指定应从中生成 n 元语法的输入的哪一端。 |
Edge |
从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Edge |
将输入从边缘标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Elision |
删除 elisions。 例如,“l'avion”(平面)将转换为“avion”(平面)。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Error |
资源管理错误附加信息。 |
Error |
错误详细信息。 |
Error |
错误响应 |
Exhaustive |
包含特定于详尽 KNN 算法的参数。 |
Exhaustive |
包含特定于查询期间使用的详尽 KNN 算法的配置选项,该算法将在整个矢量索引中执行暴力搜索。 |
Freshness |
定义一个函数,该函数根据日期时间字段的值提升分数。 |
Freshness |
为新鲜度评分函数提供参数值。 |
Hnsw |
包含特定于 HNSW 算法的参数。 |
Hnsw |
包含特定于 HNSW 近似近邻算法的配置选项,这些算法用于索引和查询。 HNSW 算法在搜索速度和准确性之间提供了一种无法权衡的权衡。 |
Input |
技能的输入字段映射。 |
Keep |
一个标记筛选器,它只保留包含指定字词列表中的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Keyword |
将术语标记为关键字。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Keyword |
以单个标记的形式发出整个输入。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Keyword |
以单个标记的形式发出整个输入。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Length |
删除太长或太短的字词。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Lexical |
定义搜索引擎支持的所有文本分析器的名称。 |
Lexical |
定义搜索引擎支持的所有 tokenizer 的名称。 |
Limit |
在编制索引时限制令牌数。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Lucene |
标准 Apache Lucene 分析器;由标准 tokenizer、小写筛选器和停止筛选器组成。 |
Lucene |
中断 Unicode 文本分段规则后面的文本。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Lucene |
中断 Unicode 文本分段规则后面的文本。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Magnitude |
定义一个函数,该函数根据数值字段的大小提升分数。 |
Magnitude |
向数量级评分函数提供参数值。 |
Mapping |
一个字符筛选器,它应用使用映射选项定义的映射。 匹配是贪婪(给定点获胜时最长的模式匹配)。 允许替换为空字符串。 此字符筛选器是使用 Apache Lucene 实现的。 |
Microsoft |
使用特定于语言的规则划分文本,并将单词减少到其基形式。 |
Microsoft |
使用特定于语言的规则划分文本。 |
Microsoft |
列出Microsoft语言词干标记器支持的语言。 |
Microsoft |
列出Microsoft语言标记器支持的语言。 |
NGram |
生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。 |
NGram |
生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。 |
NGram |
将输入标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Output |
技能的输出字段映射。 |
Path |
类似路径层次结构的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Pattern |
灵活将文本通过正则表达式模式分隔为字词。 此分析器是使用 Apache Lucene 实现的。 |
Pattern |
使用 Java 正则表达式发出多个令牌 - 一个标记用于一个或多个模式中的每个捕获组。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Pattern |
替换输入字符串中的字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列和替换模式来标识要替换的字符。 例如,假设输入文本“aa bb aa bb”,模式“(aa)\s+(bb)”,并替换“$1#$2”,结果将为“aa#bb aa#bb”。 此字符筛选器是使用 Apache Lucene 实现的。 |
Pattern |
替换输入字符串中的字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列和替换模式来标识要替换的字符。 例如,假设输入文本“aa bb aa bb”,模式“(aa)\s+(bb)”,并替换“$1#$2”,结果将为“aa#bb aa#bb”。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Pattern |
使用正则表达式模式匹配构造不同令牌的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Phonetic |
标识要与 PhoneticTokenFilter 一起使用的拼音编码器的类型。 |
Phonetic |
为拼音匹配创建令牌。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Prioritized |
描述要用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。 |
Regex |
定义可以组合的标志,以控制在模式分析器和模式标记器中使用正则表达式的方式。 |
Scalar |
包含特定于标量量化的参数。 |
Scalar |
包含特定于索引和查询期间使用的标量量化压缩方法的配置选项。 |
Scoring |
定义用于合并计分配置文件中所有评分函数的结果的聚合函数。 |
Scoring |
定义用于跨一系列文档内插分数提升的函数。 |
Scoring |
定义影响搜索查询中评分的搜索索引的参数。 |
Search |
表示索引定义中的字段,该定义描述字段的名称、数据类型和搜索行为。 |
Search |
定义搜索索引中字段的数据类型。 |
Search |
表示搜索索引定义,该定义描述索引的字段和搜索行为。 |
Search |
清除数据源的标识属性。 |
Search |
指定要使用的数据源的标识。 |
Search |
Azure Key Vault 中的客户管理的加密密钥。 创建和管理的密钥可用于加密或解密静态数据,例如索引和同义词映射。 |
Semantic |
定义要在语义功能的上下文中使用的特定配置。 |
Semantic |
用作语义配置的一部分的字段。 |
Semantic |
定义影响语义功能的搜索索引的参数。 |
Shingle |
将令牌的组合创建为单个令牌。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Snowball |
使用 Snowball 生成的词干分析器词干的筛选器。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Snowball |
用于 Snowball 令牌筛选器的语言。 |
Stemmer |
提供使用基于自定义字典的词干分析替代其他词干筛选器的功能。 任何字典词干术语都将标记为关键字,以便它们不会在链中以词干分析器进行词干。 必须放置在任何词干筛选器之前。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Stemmer |
特定于语言的词干筛选。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Stemmer |
用于词干分析器标记筛选器的语言。 |
Stop |
以非字母分隔文本;应用小写和非索引字标记筛选器。 此分析器是使用 Apache Lucene 实现的。 |
Stopwords |
标识特定于语言的非索引字的预定义列表。 |
Stopwords |
从令牌流中删除停止字词。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Suggester |
定义建议 API 应如何应用于索引中的一组字段。 |
Suggester |
一个值,指示建议器的功能。 |
Synonym |
匹配令牌流中的单个或多单词同义词。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Tag |
定义一个函数,该函数使用与给定标记列表匹配的字符串值提升文档的分数。 |
Tag |
向标记评分函数提供参数值。 |
Text |
定义匹配项应在搜索查询中提升评分的索引字段的权重。 |
Token |
表示令牌筛选器可对其操作的字符类。 |
Token |
定义搜索引擎支持的所有令牌筛选器的名称。 |
Truncate |
将术语截断为特定长度。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Uax |
将 URL 和电子邮件作为一个令牌进行标记化。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Unique |
筛选出与上一个标记相同的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Vector |
用于解释矢量字段内容的编码格式。 |
Vector |
包含与矢量搜索相关的配置选项。 |
Vector |
用于索引和查询的算法。 |
Vector |
用于矢量比较的相似性指标。 建议选择与训练嵌入模型相同的相似性指标。 |
Vector |
用于编制索引和查询的压缩方法。 |
Vector |
压缩矢量值的量化数据类型。 |
Vector |
定义要与矢量搜索一起使用的配置的组合。 |
Vector |
在查询期间使用的向量化方法。 |
Web |
指定用于连接到用户定义的向量器的属性。 |
Web |
指定用于生成查询字符串嵌入的矢量的用户定义的向量器。 使用技能集的自定义 Web API 接口实现外部向量器的集成。 |
Word |
将单词拆分为子词,对子词组执行可选转换。 此令牌筛选器是使用 Apache Lucene 实现的。 |
AsciiFoldingTokenFilter
如果存在此类等效项,则将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
preserveOriginal |
boolean |
False |
一个值,该值指示是否保留原始令牌。 默认值为 false。 |
AzureActiveDirectoryApplicationCredentials
为搜索服务创建的已注册应用程序的凭据,用于对 Azure Key Vault 中存储的加密密钥进行身份验证的访问权限。
名称 | 类型 | 说明 |
---|---|---|
applicationId |
string |
向 AAD 应用程序 ID 授予对静态数据加密时要使用的 Azure Key Vault 所需的访问权限。 应用程序 ID 不应与 AAD 应用程序的对象 ID 混淆。 |
applicationSecret |
string |
指定的 AAD 应用程序的身份验证密钥。 |
AzureOpenAIEmbeddingSkill
允许使用 Azure OpenAI 资源为给定文本输入生成矢量嵌入。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
apiKey |
string |
指定的 Azure OpenAI 资源的 API 密钥。 |
authIdentity | SearchIndexerDataIdentity: |
用于出站连接的用户分配的托管标识。 |
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
deploymentId |
string |
指定资源上的 Azure OpenAI 模型部署的 ID。 |
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
dimensions |
integer |
生成的输出嵌入应具有的维度数。 仅在文本嵌入-3 和更高版本中受支持。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
modelName |
在提供的 deploymentId 路径中部署的嵌入模型的名称。 |
|
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
|
resourceUri |
string |
Azure OpenAI 资源的资源 URI。 |
AzureOpenAIModelName
将调用的 Azure Open AI 模型名称。
名称 | 类型 | 说明 |
---|---|---|
text-embedding-3-large |
string |
|
text-embedding-3-small |
string |
|
text-embedding-ada-002 |
string |
AzureOpenAIParameters
指定用于连接到 Azure OpenAI 资源的参数。
名称 | 类型 | 说明 |
---|---|---|
apiKey |
string |
指定的 Azure OpenAI 资源的 API 密钥。 |
authIdentity | SearchIndexerDataIdentity: |
用于出站连接的用户分配的托管标识。 |
deploymentId |
string |
指定资源上的 Azure OpenAI 模型部署的 ID。 |
modelName |
在提供的 deploymentId 路径中部署的嵌入模型的名称。 |
|
resourceUri |
string |
Azure OpenAI 资源的资源 URI。 |
AzureOpenAIVectorizer
指定用于向量化查询字符串的 Azure OpenAI 资源。
名称 | 类型 | 说明 |
---|---|---|
azureOpenAIParameters | AzureOpenAIParameters: |
包含特定于 Azure OpenAI 嵌入向量化的参数。 |
kind |
string:
azure |
要配置为与矢量搜索一起使用的向量化方法类型的名称。 |
name |
string |
要与此特定向量化方法关联的名称。 |
BinaryQuantizationVectorSearchCompressionConfiguration
包含特定于索引和查询期间使用的二进制量化压缩方法的配置选项。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
defaultOversampling |
number |
默认过度采样因子。 在初始搜索中,过度采样将在内部请求更多文档(由此乘数指定)。 这会增加使用全精度向量重新计算相似性分数重新计算的结果集。 最小值为 1,这意味着没有过度采样(1x)。 仅当 rerankWithOriginalVectors 为 true 时,才能设置此参数。 较高的值会以牺牲延迟为代价提高召回率。 |
|
kind |
string:
binary |
要配置为用于矢量搜索的压缩方法类型的名称。 |
|
name |
string |
要与此特定配置关联的名称。 |
|
rerankWithOriginalVectors |
boolean |
True |
如果设置为 true,则获取使用压缩向量计算的有序结果集后,将通过重新计算全精度相似性分数来重新计算结果集。 这将提高召回率,代价是延迟。 |
BM25Similarity
基于 Okapi BM25 相似性算法的排名函数。 BM25 是一种类似于 TF-IDF 的算法,包括长度规范化(由“b”参数控制)以及术语频率饱和(由“k1”参数控制)。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
此属性控制文档长度如何影响相关性分数。 默认情况下,使用值 0.75。 值为 0.0 表示不应用长度规范化,而值为 1.0 表示分数由文档长度完全规范化。 |
k1 |
number |
此属性控制每个匹配字词的术语频率与文档查询对的最终相关性分数之间的缩放函数。 默认情况下,使用值 1.2。 值为 0.0 表示分数不会随着术语频率的增加而缩放。 |
CharFilterName
定义搜索引擎支持的所有字符筛选器的名称。
名称 | 类型 | 说明 |
---|---|---|
html_strip |
string |
尝试去除 HTML 构造的字符筛选器。 请参阅 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
形成从标准标记器生成的 CJK 术语的 bigram。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
ignoreScripts |
要忽略的脚本。 |
||
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
outputUnigrams |
boolean |
False |
一个值,该值指示是输出 unigram 和 bigrams(如果为 true),还是只输出 bigrams(如果为 false)。 默认值为 false。 |
CjkBigramTokenFilterScripts
CjkBigramTokenFilter 可以忽略的脚本。
名称 | 类型 | 说明 |
---|---|---|
han |
string |
在形成 CJK 术语的 bigram 时忽略 Han 脚本。 |
hangul |
string |
在形成 CJK 术语的 bigram 时忽略 Hangul 脚本。 |
hiragana |
string |
在形成 CJK 术语的 bigram 时忽略平假名脚本。 |
katakana |
string |
在形成 CJK 术语的大帧时忽略片假名脚本。 |
ClassicSimilarity
使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的旧相似性算法。 这种 TF-IDF 变体引入了静态文档长度规范化,以及惩罚仅部分匹配搜索查询的文档的协调因素。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
适用于处理大多数欧洲语言文档的基于语法的 tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 |
name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
CommonGramTokenFilter
为索引时经常出现的字词构造 bigrams。 单个字词仍编制索引,并覆盖 bigrams。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
commonWords |
string[] |
常用单词集。 |
|
ignoreCase |
boolean |
False |
一个值,该值指示常见字词匹配是否不区分大小写。 默认值为 false。 |
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
queryMode |
boolean |
False |
一个值,该值指示令牌筛选器是否处于查询模式。 在查询模式下,令牌筛选器会生成 bigrams,然后删除常用字词和单个字词,后跟一个常用词。 默认值为 false。 |
CorsOptions
定义用于控制索引的跨域资源共享(CORS)的选项。
名称 | 类型 | 说明 |
---|---|---|
allowedOrigins |
string[] |
将向其授予 JavaScript 代码访问索引的源列表。 可以包含 {protocol}://{fully-qualified-domain-name}[:{port#}] 形式的主机列表,或单个“*”以允许所有源(不建议)。 |
maxAgeInSeconds |
integer |
浏览器应缓存 CORS 预检响应的持续时间。 默认为 5 分钟。 |
CustomAnalyzer
允许你控制将文本转换为可索引/可搜索令牌的过程。 它是用户定义的配置,由单个预定义的 tokenizer 和一个或多个筛选器组成。 tokenizer 负责将文本分解为令牌,以及用于修改 tokenizer 发出的令牌的筛选器。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器类型的 URI 片段。 |
charFilters |
用于在标记器处理输入文本之前准备输入文本的字符筛选器列表。 例如,它们可以替换某些字符或符号。 筛选器按列出顺序运行。 |
|
name |
string |
分析器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
tokenFilters |
用于筛选或修改 tokenizer 生成的令牌的令牌筛选器列表。 例如,可以指定将所有字符转换为小写的小写筛选器。 筛选器按列出顺序运行。 |
|
tokenizer |
用于将连续文本划分为一系列标记的 tokenizer 的名称,例如将句子分解为单词。 |
DictionaryDecompounderTokenFilter
分解许多德语语言中发现的复合词。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
maxSubwordSize |
integer |
15 |
最大子字大小。 仅输出比此短的子词。 默认值为 15。 最大值为 300。 |
minSubwordSize |
integer |
2 |
最小子字大小。 输出的子词长度仅超过此长度。 默认值为 2。 最大值为 300。 |
minWordSize |
integer |
5 |
最小字大小。 仅处理超过此长度的单词。 默认值为 5。 最大值为 300。 |
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
onlyLongestMatch |
boolean |
False |
一个值,该值指示是否仅向输出添加最长匹配的子词。 默认值为 false。 |
wordList |
string[] |
要与之匹配的字词列表。 |
DistanceScoringFunction
定义基于地理位置距离提升分数的函数。
名称 | 类型 | 说明 |
---|---|---|
boost |
number |
原始分数的乘数。 必须是不等于 1.0 的正数。 |
distance |
距离评分函数的参数值。 |
|
fieldName |
string |
用作评分函数输入的字段的名称。 |
interpolation |
一个值,该值指示如何在文档分数之间内插提升;默认值为“Linear”。 |
|
type |
string:
distance |
指示要使用的函数的类型。 有效值包括数量级、新鲜度、距离和标记。 函数类型必须小写。 |
DistanceScoringParameters
向距离评分函数提供参数值。
名称 | 类型 | 说明 |
---|---|---|
boostingDistance |
number |
距离提升范围结束的参考位置的距离(以公里为单位)。 |
referencePointParameter |
string |
在搜索查询中传递的参数的名称,用于指定引用位置。 |
EdgeNGramTokenFilter
从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n 元语法长度。 默认值为 2。 |
minGram |
integer |
1 |
最小 n 元语法长度。 默认值为 1。 必须小于 maxGram 的值。 |
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
side | front |
指定应从中生成 n 元语法的输入的哪一端。 默认值为“front”。 |
EdgeNGramTokenFilterSide
指定应从中生成 n 元语法的输入的哪一端。
名称 | 类型 | 说明 |
---|---|---|
back |
string |
指定应从输入的后面生成 n 元语法。 |
front |
string |
指定应从输入的前面生成 n 元语法。 |
EdgeNGramTokenFilterV2
从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n 元语法长度。 默认值为 2。 最大值为 300。 |
minGram |
integer |
1 |
最小 n 元语法长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。 |
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
side | front |
指定应从中生成 n 元语法的输入的哪一端。 默认值为“front”。 |
EdgeNGramTokenizer
将输入从边缘标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n 元语法长度。 默认值为 2。 最大值为 300。 |
minGram |
integer |
1 |
最小 n 元语法长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。 |
name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
tokenChars |
要保留在令牌中的字符类。 |
ElisionTokenFilter
删除 elisions。 例如,“l'avion”(平面)将转换为“avion”(平面)。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
articles |
string[] |
要删除的项目集。 |
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
ErrorAdditionalInfo
资源管理错误附加信息。
名称 | 类型 | 说明 |
---|---|---|
info |
object |
其他信息。 |
type |
string |
其他信息类型。 |
ErrorDetail
错误详细信息。
名称 | 类型 | 说明 |
---|---|---|
additionalInfo |
错误附加信息。 |
|
code |
string |
错误代码。 |
details |
错误详细信息。 |
|
message |
string |
错误消息。 |
target |
string |
错误目标。 |
ErrorResponse
错误响应
名称 | 类型 | 说明 |
---|---|---|
error |
错误对象。 |
ExhaustiveKnnParameters
包含特定于详尽 KNN 算法的参数。
名称 | 类型 | 说明 |
---|---|---|
metric |
用于矢量比较的相似性指标。 |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
包含特定于查询期间使用的详尽 KNN 算法的配置选项,该算法将在整个矢量索引中执行暴力搜索。
名称 | 类型 | 说明 |
---|---|---|
exhaustiveKnnParameters |
包含特定于详尽 KNN 算法的参数。 |
|
kind |
string:
exhaustive |
要配置为用于矢量搜索的算法类型的名称。 |
name |
string |
要与此特定配置关联的名称。 |
FreshnessScoringFunction
定义一个函数,该函数根据日期时间字段的值提升分数。
名称 | 类型 | 说明 |
---|---|---|
boost |
number |
原始分数的乘数。 必须是不等于 1.0 的正数。 |
fieldName |
string |
用作评分函数输入的字段的名称。 |
freshness |
新鲜度评分函数的参数值。 |
|
interpolation |
一个值,该值指示如何在文档分数之间内插提升;默认值为“Linear”。 |
|
type |
string:
freshness |
指示要使用的函数的类型。 有效值包括数量级、新鲜度、距离和标记。 函数类型必须小写。 |
FreshnessScoringParameters
为新鲜度评分函数提供参数值。
名称 | 类型 | 说明 |
---|---|---|
boostingDuration |
string |
过期期限之后,特定文档的提升将停止。 |
HnswParameters
包含特定于 HNSW 算法的参数。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
efConstruction |
integer |
400 |
包含最近的邻居的动态列表的大小,该列表在索引期间使用。 增加此参数可能会提高索引质量,但代价是索引编制时间增加。 在某些时候,增加此参数会导致返回减少。 |
efSearch |
integer |
500 |
包含最近邻居的动态列表的大小,该列表在搜索期间使用。 增加此参数可能会改善搜索结果,但代价是搜索速度较慢。 在某些时候,增加此参数会导致返回减少。 |
m |
integer |
4 |
在构造过程中为每个新元素创建的双向链接数。 增加此参数值可能会提高召回率,并减少具有高内在维度的数据集的检索时间,代价是内存消耗增加和索引时间更长。 |
metric |
用于矢量比较的相似性指标。 |
HnswVectorSearchAlgorithmConfiguration
包含特定于 HNSW 近似近邻算法的配置选项,这些算法用于索引和查询。 HNSW 算法在搜索速度和准确性之间提供了一种无法权衡的权衡。
名称 | 类型 | 说明 |
---|---|---|
hnswParameters |
包含特定于 HNSW 算法的参数。 |
|
kind |
string:
hnsw |
要配置为用于矢量搜索的算法类型的名称。 |
name |
string |
要与此特定配置关联的名称。 |
InputFieldMappingEntry
技能的输入字段映射。
名称 | 类型 | 说明 |
---|---|---|
inputs |
创建复杂类型时使用的递归输入。 |
|
name |
string |
输入的名称。 |
source |
string |
输入的源。 |
sourceContext |
string |
用于选择递归输入的源上下文。 |
KeepTokenFilter
一个标记筛选器,它只保留包含指定字词列表中的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
keepWords |
string[] |
要保留的字词列表。 |
|
keepWordsCase |
boolean |
False |
一个值,指示是否先小写所有单词。 默认值为 false。 |
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
KeywordMarkerTokenFilter
将术语标记为关键字。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
ignoreCase |
boolean |
False |
一个值,指示是否忽略大小写。 如果为 true,则首先将所有单词转换为小写。 默认值为 false。 |
keywords |
string[] |
要标记为关键字的字词列表。 |
|
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
KeywordTokenizer
以单个标记的形式发出整个输入。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
bufferSize |
integer |
256 |
读取缓冲区大小(以字节为单位)。 默认值为 256。 |
name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
KeywordTokenizerV2
以单个标记的形式发出整个输入。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
maxTokenLength |
integer |
256 |
最大令牌长度。 默认值为 256。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 |
name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
LengthTokenFilter
删除太长或太短的字词。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
max |
integer |
300 |
最大长度(以字符为单位)。 默认值和最大值为 300。 |
min |
integer |
0 |
字符的最小长度。 默认值为 0。 最大值为 300。 必须小于最大值的值。 |
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
LexicalAnalyzerName
定义搜索引擎支持的所有文本分析器的名称。
名称 | 类型 | 说明 |
---|---|---|
ar.lucene |
string |
用于阿拉伯语的 Lucene 分析器。 |
ar.microsoft |
string |
Microsoft阿拉伯语分析器。 |
bg.lucene |
string |
保加利亚语的 Lucene 分析器。 |
bg.microsoft |
string |
Microsoft保加利亚分析器。 |
bn.microsoft |
string |
孟加拉语的Microsoft分析器。 |
ca.lucene |
string |
加泰罗尼亚语的 Lucene 分析器。 |
ca.microsoft |
string |
加泰罗尼亚语Microsoft分析器。 |
cs.lucene |
string |
用于捷克的 Lucene 分析器。 |
cs.microsoft |
string |
适用于捷克的Microsoft分析器。 |
da.lucene |
string |
丹麦语的 Lucene 分析器。 |
da.microsoft |
string |
适用于丹麦语的Microsoft分析器。 |
de.lucene |
string |
用于德语的 Lucene 分析器。 |
de.microsoft |
string |
适用于德语的Microsoft分析器。 |
el.lucene |
string |
用于希腊的 Lucene 分析器。 |
el.microsoft |
string |
适用于希腊的Microsoft分析器。 |
en.lucene |
string |
用于英语的 Lucene 分析器。 |
en.microsoft |
string |
Microsoft英语分析器。 |
es.lucene |
string |
用于西班牙语的 Lucene 分析器。 |
es.microsoft |
string |
Microsoft西班牙语分析器。 |
et.microsoft |
string |
爱沙尼亚Microsoft分析器。 |
eu.lucene |
string |
用于巴斯克的 Lucene 分析器。 |
fa.lucene |
string |
波斯语的 Lucene 分析器。 |
fi.lucene |
string |
芬兰语的 Lucene 分析器。 |
fi.microsoft |
string |
Microsoft芬兰语分析器。 |
fr.lucene |
string |
用于法语的 Lucene 分析器。 |
fr.microsoft |
string |
Microsoft法语分析器。 |
ga.lucene |
string |
用于爱尔兰的 Lucene 分析器。 |
gl.lucene |
string |
用于加利西亚的 Lucene 分析器。 |
gu.microsoft |
string |
Microsoft古吉拉特分析器。 |
he.microsoft |
string |
适用于希伯来语的Microsoft分析器。 |
hi.lucene |
string |
Lucene 分析器用于印地语。 |
hi.microsoft |
string |
Microsoft印地语分析器。 |
hr.microsoft |
string |
适用于克罗地亚的Microsoft分析器。 |
hu.lucene |
string |
用于匈牙利语的 Lucene 分析器。 |
hu.microsoft |
string |
匈牙利语Microsoft分析器。 |
hy.lucene |
string |
亚美尼亚语的 Lucene 分析器。 |
id.lucene |
string |
适用于印度尼西亚的 Lucene 分析器。 |
id.microsoft |
string |
印度尼西亚Microsoft分析器(巴萨)。 |
is.microsoft |
string |
Microsoft冰岛分析器。 |
it.lucene |
string |
用于意大利语的 Lucene 分析器。 |
it.microsoft |
string |
Microsoft意大利语分析器。 |
ja.lucene |
string |
用于日语的 Lucene 分析器。 |
ja.microsoft |
string |
适用于日语的Microsoft分析器。 |
keyword |
string |
将字段的全部内容视为单个标记。 这对于邮政编码、ID 和某些产品名称等数据非常有用。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Microsoft Kannada 分析器。 |
ko.lucene |
string |
用于朝鲜语的 Lucene 分析器。 |
ko.microsoft |
string |
适用于朝鲜语的Microsoft分析器。 |
lt.microsoft |
string |
Microsoft立陶宛分析器。 |
lv.lucene |
string |
用于拉脱维亚的 Lucene 分析器。 |
lv.microsoft |
string |
Microsoft拉脱维亚分析器。 |
ml.microsoft |
string |
Microsoft马拉雅拉姆分析器。 |
mr.microsoft |
string |
Microsoft用于马拉蒂的分析器。 |
ms.microsoft |
string |
Microsoft马来语分析器(拉丁语)。 |
nb.microsoft |
string |
Microsoft挪威分析器(博克马尔)。 |
nl.lucene |
string |
用于荷兰的 Lucene 分析器。 |
nl.microsoft |
string |
适用于荷兰的Microsoft分析器。 |
no.lucene |
string |
挪威语的 Lucene 分析器。 |
pa.microsoft |
string |
Microsoft旁遮普分析器。 |
pattern |
string |
灵活将文本通过正则表达式模式分隔为字词。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
用于波兰的 Lucene 分析器。 |
pl.microsoft |
string |
Microsoft波兰分析器。 |
pt-BR.lucene |
string |
葡萄牙语(巴西)的 Lucene 分析器。 |
pt-BR.microsoft |
string |
Microsoft葡萄牙语(巴西)分析器。 |
pt-PT.lucene |
string |
葡萄牙语(葡萄牙)的 Lucene 分析器。 |
pt-PT.microsoft |
string |
Microsoft葡萄牙分析器(葡萄牙)。 |
ro.lucene |
string |
罗马尼亚语的 Lucene 分析器。 |
ro.microsoft |
string |
Microsoft罗马尼亚语分析器。 |
ru.lucene |
string |
用于俄语的 Lucene 分析器。 |
ru.microsoft |
string |
适用于俄语的Microsoft分析器。 |
simple |
string |
将非字母的文本除以小写形式,并将其转换为小写。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Microsoft斯洛伐克分析器。 |
sl.microsoft |
string |
斯洛文尼亚Microsoft分析器。 |
sr-cyrillic.microsoft |
string |
塞尔维亚语(西里尔文)的Microsoft分析器。 |
sr-latin.microsoft |
string |
Microsoft塞尔维亚语(拉丁语)分析器。 |
standard.lucene |
string |
标准 Lucene 分析器。 |
standardasciifolding.lucene |
string |
标准 ASCII 折叠 Lucene 分析器。 请参阅 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
以非字母分隔文本;应用小写和非索引字标记筛选器。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
用于瑞典的 Lucene 分析器。 |
sv.microsoft |
string |
Microsoft用于瑞典的分析器。 |
ta.microsoft |
string |
泰米尔语Microsoft分析器。 |
te.microsoft |
string |
Microsoft Telugu 分析器。 |
th.lucene |
string |
用于泰国的 Lucene 分析器。 |
th.microsoft |
string |
Microsoft泰语分析器。 |
tr.lucene |
string |
用于土耳其的 Lucene 分析器。 |
tr.microsoft |
string |
适用于土耳其的Microsoft分析器。 |
uk.microsoft |
string |
Microsoft乌克兰语分析器。 |
ur.microsoft |
string |
用于乌尔都语的Microsoft分析器。 |
vi.microsoft |
string |
Microsoft越南语分析器。 |
whitespace |
string |
使用空格 tokenizer 的分析器。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
用于中文的 Lucene 分析器(简体中文)。 |
zh-Hans.microsoft |
string |
Microsoft中文分析器(简体中文)。 |
zh-Hant.lucene |
string |
中国(传统)的 Lucene 分析器。 |
zh-Hant.microsoft |
string |
Microsoft中国(传统)分析器。 |
LexicalTokenizerName
定义搜索引擎支持的所有 tokenizer 的名称。
LimitTokenFilter
在编制索引时限制令牌数。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
consumeAllTokens |
boolean |
False |
一个值,该值指示是否必须使用输入中的所有令牌,即使达到 maxTokenCount 也是如此。 默认值为 false。 |
maxTokenCount |
integer |
1 |
要生成的令牌的最大数目。 默认值为 1。 |
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
LuceneStandardAnalyzer
标准 Apache Lucene 分析器;由标准 tokenizer、小写筛选器和停止筛选器组成。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器类型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 |
name |
string |
分析器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
stopwords |
string[] |
非索引字列表。 |
LuceneStandardTokenizer
中断 Unicode 文本分段规则后面的文本。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 |
name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
LuceneStandardTokenizerV2
中断 Unicode 文本分段规则后面的文本。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 |
name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
MagnitudeScoringFunction
定义一个函数,该函数根据数值字段的大小提升分数。
名称 | 类型 | 说明 |
---|---|---|
boost |
number |
原始分数的乘数。 必须是不等于 1.0 的正数。 |
fieldName |
string |
用作评分函数输入的字段的名称。 |
interpolation |
一个值,该值指示如何在文档分数之间内插提升;默认值为“Linear”。 |
|
magnitude |
数量级评分函数的参数值。 |
|
type |
string:
magnitude |
指示要使用的函数的类型。 有效值包括数量级、新鲜度、距离和标记。 函数类型必须小写。 |
MagnitudeScoringParameters
向数量级评分函数提供参数值。
名称 | 类型 | 说明 |
---|---|---|
boostingRangeEnd |
number |
提升结束的字段值。 |
boostingRangeStart |
number |
启动提升的字段值。 |
constantBoostBeyondRange |
boolean |
一个值,指示是否对超出范围结束值的字段值应用常量提升;默认值为 false。 |
MappingCharFilter
一个字符筛选器,它应用使用映射选项定义的映射。 匹配是贪婪(给定点获胜时最长的模式匹配)。 允许替换为空字符串。 此字符筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定字符筛选器类型的 URI 片段。 |
mappings |
string[] |
以下格式的映射列表:“a=>b”(字符“a”的所有匹配项都将替换为字符“b”)。 |
name |
string |
字符筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
MicrosoftLanguageStemmingTokenizer
使用特定于语言的规则划分文本,并将单词减少到其基形式。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
isSearchTokenizer |
boolean |
False |
一个值,指示如何使用 tokenizer。 如果用作搜索标记器,则设置为 true,如果用作索引标记器,则设置为 false。 默认值为 false。 |
language |
要使用的语言。 默认值为英语。 |
||
maxTokenLength |
integer |
255 |
最大令牌长度。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌,然后根据设置的最大令牌长度拆分每个令牌。 默认值为 255。 |
name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
MicrosoftLanguageTokenizer
使用特定于语言的规则划分文本。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
isSearchTokenizer |
boolean |
False |
一个值,指示如何使用 tokenizer。 如果用作搜索标记器,则设置为 true,如果用作索引标记器,则设置为 false。 默认值为 false。 |
language |
要使用的语言。 默认值为英语。 |
||
maxTokenLength |
integer |
255 |
最大令牌长度。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌,然后根据设置的最大令牌长度拆分每个令牌。 默认值为 255。 |
name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
MicrosoftStemmingTokenizerLanguage
列出Microsoft语言词干标记器支持的语言。
名称 | 类型 | 说明 |
---|---|---|
arabic |
string |
为阿拉伯语选择Microsoft词干标记器。 |
bangla |
string |
为孟加拉语选择Microsoft词干标记器。 |
bulgarian |
string |
为保加利亚人选择Microsoft词干标记器。 |
catalan |
string |
选择加泰罗尼亚语的Microsoft词干标记器。 |
croatian |
string |
为克罗地亚选择Microsoft词干标记器。 |
czech |
string |
为捷克选择Microsoft词干标记器。 |
danish |
string |
为丹麦语选择Microsoft词干标记器。 |
dutch |
string |
为荷兰人选择Microsoft词干标记器。 |
english |
string |
为英语选择Microsoft词干标记器。 |
estonian |
string |
选择爱沙尼亚语的Microsoft词干标记器。 |
finnish |
string |
为芬兰人选择Microsoft词干标记器。 |
french |
string |
为法语选择Microsoft词干标记器。 |
german |
string |
为德语选择Microsoft词干标记器。 |
greek |
string |
为希腊选择Microsoft词干标记器。 |
gujarati |
string |
为古吉拉特选择Microsoft词干标记器。 |
hebrew |
string |
为希伯来语选择Microsoft词干标记器。 |
hindi |
string |
为印地语选择Microsoft词干标记器。 |
hungarian |
string |
选择匈牙利语的Microsoft词干标记器。 |
icelandic |
string |
为冰岛人选择Microsoft词干标记器。 |
indonesian |
string |
为印度尼西亚语选择Microsoft词干标记器。 |
italian |
string |
为意大利语选择Microsoft词干标记器。 |
kannada |
string |
为 Kannada 选择Microsoft词干标记器。 |
latvian |
string |
选择拉脱维亚语的Microsoft词干标记器。 |
lithuanian |
string |
为立陶宛人选择Microsoft词干标记器。 |
malay |
string |
选择马来语的Microsoft词干标记器。 |
malayalam |
string |
为马拉雅拉姆选择Microsoft词干标记器。 |
marathi |
string |
为 Marathi 选择Microsoft词干标记器。 |
norwegianBokmaal |
string |
为挪威语(Bokmål)选择Microsoft词干标记器。 |
polish |
string |
为波兰选择Microsoft词干标记器。 |
portuguese |
string |
为葡萄牙语选择Microsoft词干标记器。 |
portugueseBrazilian |
string |
为葡萄牙语(巴西)选择Microsoft词干标记器。 |
punjabi |
string |
为旁遮普选择Microsoft词干标记器。 |
romanian |
string |
为罗马尼亚语选择Microsoft词干标记器。 |
russian |
string |
为俄语选择Microsoft词干标记器。 |
serbianCyrillic |
string |
为塞尔维亚语(西里尔文)选择Microsoft词干标记器。 |
serbianLatin |
string |
为塞尔维亚语(拉丁语)选择Microsoft词干标记器。 |
slovak |
string |
选择斯洛伐克语的Microsoft词干标记器。 |
slovenian |
string |
选择斯洛文尼亚语的Microsoft词干标记器。 |
spanish |
string |
为西班牙语选择Microsoft词干标记器。 |
swedish |
string |
为瑞典人选择Microsoft词干标记器。 |
tamil |
string |
为泰米尔选择Microsoft词干标记器。 |
telugu |
string |
为 Telugu 选择Microsoft词干标记器。 |
turkish |
string |
为土耳其选择Microsoft词干标记器。 |
ukrainian |
string |
选择乌克兰语的Microsoft词干标记器。 |
urdu |
string |
为乌尔都语选择Microsoft词干标记器。 |
MicrosoftTokenizerLanguage
列出Microsoft语言标记器支持的语言。
名称 | 类型 | 说明 |
---|---|---|
bangla |
string |
选择孟加拉语的Microsoft标记器。 |
bulgarian |
string |
为保加利亚人选择Microsoft标记器。 |
catalan |
string |
选择加泰罗尼亚语的Microsoft标记器。 |
chineseSimplified |
string |
为中文(简体中文)选择Microsoft标记器。 |
chineseTraditional |
string |
为中文(传统)选择Microsoft标记器。 |
croatian |
string |
为克罗地亚选择Microsoft tokenizer。 |
czech |
string |
为捷克选择Microsoft标记器。 |
danish |
string |
为丹麦语选择Microsoft tokenizer。 |
dutch |
string |
为荷兰人选择Microsoft tokenizer。 |
english |
string |
为英语选择Microsoft标记器。 |
french |
string |
为法语选择Microsoft tokenizer。 |
german |
string |
为德语选择Microsoft tokenizer。 |
greek |
string |
为希腊语选择Microsoft tokenizer。 |
gujarati |
string |
为古吉拉特选择Microsoft标记器。 |
hindi |
string |
为印地语选择Microsoft标记器。 |
icelandic |
string |
为冰岛选择Microsoft标记器。 |
indonesian |
string |
为印度尼西亚语选择Microsoft标记器。 |
italian |
string |
为意大利语选择Microsoft tokenizer。 |
japanese |
string |
为日语选择Microsoft tokenizer。 |
kannada |
string |
为 Kannada 选择Microsoft标记器。 |
korean |
string |
为朝鲜语选择Microsoft tokenizer。 |
malay |
string |
为马来选择Microsoft标记器。 |
malayalam |
string |
为马拉雅拉姆选择Microsoft标记器。 |
marathi |
string |
为 Marathi 选择Microsoft标记器。 |
norwegianBokmaal |
string |
为挪威语(Bokmål)选择Microsoft标记器。 |
polish |
string |
为波兰选择Microsoft标记器。 |
portuguese |
string |
为葡萄牙语选择Microsoft标记器。 |
portugueseBrazilian |
string |
为葡萄牙语(巴西)选择Microsoft标记器。 |
punjabi |
string |
为旁遮普选择Microsoft标记器。 |
romanian |
string |
为罗马尼亚语选择Microsoft标记器。 |
russian |
string |
为俄语选择Microsoft标记器。 |
serbianCyrillic |
string |
为塞尔维亚语(西里尔文)选择Microsoft标记器。 |
serbianLatin |
string |
为塞尔维亚语(拉丁语)选择Microsoft标记器。 |
slovenian |
string |
为斯洛文尼亚人选择Microsoft标记器。 |
spanish |
string |
为西班牙语选择Microsoft tokenizer。 |
swedish |
string |
为瑞典人选择Microsoft标记器。 |
tamil |
string |
选择泰米尔语的Microsoft标记器。 |
telugu |
string |
为 Telugu 选择Microsoft tokenizer。 |
thai |
string |
为泰文选择Microsoft tokenizer。 |
ukrainian |
string |
为乌克兰语选择Microsoft标记器。 |
urdu |
string |
为乌尔都语选择Microsoft tokenizer。 |
vietnamese |
string |
为越南人选择Microsoft标记器。 |
NGramTokenFilter
生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n 元语法长度。 默认值为 2。 |
minGram |
integer |
1 |
最小 n 元语法长度。 默认值为 1。 必须小于 maxGram 的值。 |
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
NGramTokenFilterV2
生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n 元语法长度。 默认值为 2。 最大值为 300。 |
minGram |
integer |
1 |
最小 n 元语法长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。 |
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
NGramTokenizer
将输入标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n 元语法长度。 默认值为 2。 最大值为 300。 |
minGram |
integer |
1 |
最小 n 元语法长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。 |
name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
tokenChars |
要保留在令牌中的字符类。 |
OutputFieldMappingEntry
技能的输出字段映射。
名称 | 类型 | 说明 |
---|---|---|
name |
string |
技能定义的输出的名称。 |
targetName |
string |
输出的目标名称。 它是可选的,默认为名称。 |
PathHierarchyTokenizerV2
类似路径层次结构的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
delimiter |
string |
/ |
要使用的分隔符字符。 默认值为“/”。 |
maxTokenLength |
integer |
300 |
最大令牌长度。 默认值和最大值为 300。 |
name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
replacement |
string |
/ |
一个值,如果设置,则替换分隔符字符。 默认值为“/”。 |
reverse |
boolean |
False |
一个值,该值指示是否按反向顺序生成令牌。 默认值为 false。 |
skip |
integer |
0 |
要跳过的初始令牌数。 默认值为 0。 |
PatternAnalyzer
灵活将文本通过正则表达式模式分隔为字词。 此分析器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器类型的 URI 片段。 |
|
flags |
正则表达式标志。 |
||
lowercase |
boolean |
True |
一个值,该值指示术语是否应小写。 默认值为 true。 |
name |
string |
分析器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
pattern |
string |
\W+ |
匹配标记分隔符的正则表达式模式。 默认值是匹配一个或多个非单词字符的表达式。 |
stopwords |
string[] |
非索引字列表。 |
PatternCaptureTokenFilter
使用 Java 正则表达式发出多个令牌 - 一个标记用于一个或多个模式中的每个捕获组。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
patterns |
string[] |
要与每个令牌匹配的模式列表。 |
|
preserveOriginal |
boolean |
True |
一个值,该值指示是否返回原始令牌,即使其中一个模式匹配。 默认值为 true。 |
PatternReplaceCharFilter
替换输入字符串中的字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列和替换模式来标识要替换的字符。 例如,假设输入文本“aa bb aa bb”,模式“(aa)\s+(bb)”,并替换“$1#$2”,结果将为“aa#bb aa#bb”。 此字符筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定字符筛选器类型的 URI 片段。 |
name |
string |
字符筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
pattern |
string |
正则表达式模式。 |
replacement |
string |
替换文本。 |
PatternReplaceTokenFilter
替换输入字符串中的字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列和替换模式来标识要替换的字符。 例如,假设输入文本“aa bb aa bb”,模式“(aa)\s+(bb)”,并替换“$1#$2”,结果将为“aa#bb aa#bb”。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
pattern |
string |
正则表达式模式。 |
replacement |
string |
替换文本。 |
PatternTokenizer
使用正则表达式模式匹配构造不同令牌的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
flags |
正则表达式标志。 |
||
group |
integer |
-1 |
正则表达式模式中匹配组的从零开始的序号,用于提取到令牌中。 如果要使用整个模式将输入拆分为标记,而不考虑匹配组,请使用 -1。 默认值为 -1。 |
name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
pattern |
string |
\W+ |
匹配标记分隔符的正则表达式模式。 默认值是匹配一个或多个非单词字符的表达式。 |
PhoneticEncoder
标识要与 PhoneticTokenFilter 一起使用的拼音编码器的类型。
名称 | 类型 | 说明 |
---|---|---|
beiderMorse |
string |
将令牌编码为 Beider-Morse 值。 |
caverphone1 |
string |
将令牌编码为 Caverphone 1.0 值。 |
caverphone2 |
string |
将令牌编码为 Caverphone 2.0 值。 |
cologne |
string |
将令牌编码为科隆拼音值。 |
doubleMetaphone |
string |
将令牌编码为双元手机值。 |
haasePhonetik |
string |
使用 Kölner Phonetik 算法的 Haase 优化对令牌进行编码。 |
koelnerPhonetik |
string |
使用 Kölner Phonetik 算法对令牌进行编码。 |
metaphone |
string |
将令牌编码为 Metaphone 值。 |
nysiis |
string |
将令牌编码为 NYSIIS 值。 |
refinedSoundex |
string |
将令牌编码为精简的 Soundex 值。 |
soundex |
string |
将令牌编码为 Soundex 值。 |
PhoneticTokenFilter
为拼音匹配创建令牌。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
encoder | metaphone |
要使用的拼音编码器。 默认值为“metaphone”。 |
|
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
replace |
boolean |
True |
一个值,该值指示编码的令牌是否应替换原始令牌。 如果为 false,则编码的令牌将添加为同义词。 默认值为 true。 |
PrioritizedFields
描述要用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。
名称 | 类型 | 说明 |
---|---|---|
prioritizedContentFields |
定义要用于语义排名、标题、突出显示和答案的内容字段。 为了获得最佳结果,所选字段应包含自然语言形式的文本。 数组中字段的顺序表示其优先级。 如果内容很长,优先级较低的字段可能会截断。 |
|
prioritizedKeywordsFields |
定义用于语义排名、标题、突出显示和答案的关键字字段。 为了获得最佳结果,所选字段应包含关键字列表。 数组中字段的顺序表示其优先级。 如果内容很长,优先级较低的字段可能会截断。 |
|
titleField |
定义用于语义排名、标题、突出显示和答案的标题字段。 如果索引中没有标题字段,请将此字段留空。 |
RegexFlags
定义可以组合的标志,以控制在模式分析器和模式标记器中使用正则表达式的方式。
名称 | 类型 | 说明 |
---|---|---|
CANON_EQ |
string |
启用规范等效性。 |
CASE_INSENSITIVE |
string |
启用不区分大小写的匹配。 |
COMMENTS |
string |
允许模式中的空格和注释。 |
DOTALL |
string |
启用 dotall 模式。 |
LITERAL |
string |
启用模式的文本分析。 |
MULTILINE |
string |
启用多行模式。 |
UNICODE_CASE |
string |
启用 Unicode 感知大小写折叠。 |
UNIX_LINES |
string |
启用 Unix 行模式。 |
ScalarQuantizationParameters
包含特定于标量量化的参数。
名称 | 类型 | 说明 |
---|---|---|
quantizedDataType |
压缩矢量值的量化数据类型。 |
ScalarQuantizationVectorSearchCompressionConfiguration
包含特定于索引和查询期间使用的标量量化压缩方法的配置选项。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
defaultOversampling |
number |
默认过度采样因子。 在初始搜索中,过度采样将在内部请求更多文档(由此乘数指定)。 这会增加使用全精度向量重新计算相似性分数重新计算的结果集。 最小值为 1,这意味着没有过度采样(1x)。 仅当 rerankWithOriginalVectors 为 true 时,才能设置此参数。 较高的值会以牺牲延迟为代价提高召回率。 |
|
kind |
string:
scalar |
要配置为用于矢量搜索的压缩方法类型的名称。 |
|
name |
string |
要与此特定配置关联的名称。 |
|
rerankWithOriginalVectors |
boolean |
True |
如果设置为 true,则获取使用压缩向量计算的有序结果集后,将通过重新计算全精度相似性分数来重新计算结果集。 这将提高召回率,代价是延迟。 |
scalarQuantizationParameters |
包含特定于标量量化的参数。 |
ScoringFunctionAggregation
定义用于合并计分配置文件中所有评分函数的结果的聚合函数。
名称 | 类型 | 说明 |
---|---|---|
average |
string |
按所有评分函数结果的平均值提升分数。 |
firstMatching |
string |
使用评分配置文件中的第一个适用的评分函数提升分数。 |
maximum |
string |
将所有评分函数结果的最大值提升分数。 |
minimum |
string |
将所有评分函数结果的最小值提高分数。 |
sum |
string |
按所有评分函数结果的总和提升分数。 |
ScoringFunctionInterpolation
定义用于跨一系列文档内插分数提升的函数。
名称 | 类型 | 说明 |
---|---|---|
constant |
string |
按常量因子提升分数。 |
linear |
string |
通过线性递减量提高分数。 这是评分函数的默认内插。 |
logarithmic |
string |
将分数提高为对数减少的量。 为了提高分数,提升速度会很快下降,分数降低时速度会越来越慢。 标记评分函数中不允许使用此内插选项。 |
quadratic |
string |
将分数提升为四次减少的量。 随着分数的降低,提升速度会慢慢降低,分数越快。 标记评分函数中不允许使用此内插选项。 |
ScoringProfile
定义影响搜索查询中评分的搜索索引的参数。
名称 | 类型 | 说明 |
---|---|---|
functionAggregation |
一个值,该值指示应如何组合单个评分函数的结果。 默认值为“Sum”。 如果没有评分函数,则忽略。 |
|
functions | ScoringFunction[]: |
影响文档评分的函数的集合。 |
name |
string |
计分配置文件的名称。 |
text |
基于某些索引字段中的文本匹配项提升评分的参数。 |
SearchField
表示索引定义中的字段,该定义描述字段的名称、数据类型和搜索行为。
名称 | 类型 | 说明 |
---|---|---|
analyzer |
要用于字段的分析器的名称。 此选项只能与可搜索字段一起使用,不能与 searchAnalyzer 或 indexAnalyzer 一起设置。 选择分析器后,无法更改该字段。 复杂字段必须为 null。 |
|
dimensions |
integer |
矢量字段的维度。 |
facetable |
boolean |
一个值,该值指示是否允许在分面查询中引用字段。 通常用于按类别显示的搜索结果(例如,按品牌搜索、按百万像素、按价格等)搜索数字摄像头并查看命中次数)。 对于复杂字段,此属性必须为 null。 无法分面 Edm.GeographyPoint 或 Collection(Edm.GeographyPoint)类型的字段。 对于所有其他简单字段,默认值为 true。 |
fields |
如果这是类型为 Edm.ComplexType 或 Collection(Edm.ComplexType)的字段,则为子字段的列表。 对于简单字段,必须为 null 或为空。 |
|
filterable |
boolean |
一个值,该值指示是否允许在$filter查询中引用字段。 filterable 不同于可搜索的字符串的处理方式。 可筛选的 Edm.String 或 Collection(Edm.String)类型的字段不会进行断字,因此比较仅适用于完全匹配项。 例如,如果将此类字段 f 设置为“sunny day”,则 $filter=f eq 'sunny' 将找不到匹配项,但 $filter=f eq 'sunny day' 将。 对于复杂字段,此属性必须为 null。 对于简单字段,默认值为 true,复杂字段的默认值为 null。 |
indexAnalyzer |
在索引时为字段使用的分析器的名称。 此选项只能与可搜索字段一起使用。 它必须与 searchAnalyzer 一起设置,并且不能与分析器选项一起设置。 此属性不能设置为语言分析器的名称;如果需要语言分析器,请改用分析器属性。 选择分析器后,无法更改该字段。 复杂字段必须为 null。 |
|
key |
boolean |
一个值,该值指示字段是否唯一标识索引中的文档。 每个索引中的一个顶级字段必须选择为键字段,并且必须的类型为 Edm.String。 键字段可用于直接查找文档并更新或删除特定文档。 对于简单字段,默认值为 false,复杂字段为 null。 |
name |
string |
字段的名称,在索引或父字段的字段集合中必须唯一。 |
retrievable |
boolean |
一个值,该值指示是否可以在搜索结果中返回字段。 如果要使用字段(例如边距)作为筛选器、排序或评分机制,但不希望字段对最终用户可见,则可以禁用此选项。 对于键字段,此属性必须为 true,对于复杂字段,此属性必须为 null。 可以在现有字段上更改此属性。 启用此属性不会导致索引存储要求增加。 对于简单字段,默认值为 true,矢量字段为 false,复杂字段为 null。 |
searchAnalyzer |
在搜索时用于字段的分析器的名称。 此选项只能与可搜索字段一起使用。 它必须与 indexAnalyzer 一起设置,并且不能与分析器选项一起设置。 此属性不能设置为语言分析器的名称;如果需要语言分析器,请改用分析器属性。 可以在现有字段中更新此分析器。 复杂字段必须为 null。 |
|
searchable |
boolean |
一个值,该值指示字段是否可全文搜索。 这意味着它将在编制索引期间进行断字分析。 如果将可搜索字段设置为“sunny day”等值,则内部会将其拆分为单个标记“sunny”和“day”。 这将启用全文搜索这些术语。 默认情况下,可搜索类型为 Edm.String 或 Collection(Edm.String)的字段。 对于其他非字符串数据类型的简单字段,此属性必须为 false,对于复杂字段必须为 null。 注意:可搜索字段在索引中使用额外的空间,以适应用于全文搜索的字段值的其他标记化版本。 如果要在索引中节省空间,并且不需要在搜索中包含字段,请将可搜索设置为 false。 |
sortable |
boolean |
一个值,该值指示是否启用要在$orderby表达式中引用的字段。 默认情况下,搜索引擎按分数对结果进行排序,但在很多体验中,用户希望按文档中的字段进行排序。 仅当简单字段是单值(它在父文档的作用域中具有单个值)时,才能进行排序。 简单集合字段不可排序,因为它们是多值。 复杂集合的简单子字段也是多值,因此无法排序。 无论是直接父字段还是上级字段,都是复杂的集合,都是如此。 复杂字段不可排序,并且此类字段的可排序属性必须为 null。 对于单值简单字段,可排序的默认值为 true,对于多值简单字段为 false,对于复杂字段为 null。 |
stored |
boolean |
一个不可变值,该值指示字段是否将单独保存在要在搜索结果中返回的磁盘上。 如果不打算在搜索响应中返回字段内容以节省存储开销,则可以禁用此选项。 这只能在创建索引期间设置,并且只能为向量字段设置。 对于现有字段,不能更改此属性,也不能为新字段设置为 false。 如果此属性设置为 false,则属性“可检索”也必须设置为 false。 对于键字段、新字段和非向量字段,此属性必须为 true 或未设置,并且对于复杂字段必须为 null。 禁用此属性可以减少索引存储要求。 矢量字段的默认值为 true。 |
synonymMaps |
string[] |
要与此字段关联的同义词的名称列表。 此选项只能与可搜索字段一起使用。 目前每个字段仅支持一个同义词映射。 将同义词映射分配给字段可确保使用同义词映射中的规则在查询时扩展针对该字段的查询词。 可以在现有字段上更改此属性。 对于复杂字段,必须为 null 或空集合。 |
type |
字段的数据类型。 |
|
vectorEncoding |
用于解释字段内容的编码格式。 |
|
vectorSearchProfile |
string |
矢量搜索配置文件的名称,该配置文件指定要在搜索向量字段时使用的算法和向量器。 |
SearchFieldDataType
定义搜索索引中字段的数据类型。
名称 | 类型 | 说明 |
---|---|---|
Edm.Boolean |
string |
指示字段包含布尔值(true 或 false)。 |
Edm.Byte |
string |
指示字段包含 8 位无符号整数。 仅当与 Collection(Edm.Byte 一起使用)时才有效。 |
Edm.ComplexType |
string |
指示字段包含一个或多个复杂对象,而这些对象又包含其他类型的子字段。 |
Edm.DateTimeOffset |
string |
指示字段包含日期/时间值,包括时区信息。 |
Edm.Double |
string |
指示字段包含 IEEE 双精度浮点数。 |
Edm.GeographyPoint |
string |
指示字段在经度和纬度方面包含地理位置。 |
Edm.Half |
string |
指示字段包含半精度浮点数。 仅当与 Collection(Edm.Half)一起使用时才有效。 |
Edm.Int16 |
string |
指示字段包含 16 位带符号整数。 仅当与 Collection(Edm.Int16 一起使用)时才有效。 |
Edm.Int32 |
string |
指示字段包含 32 位有符号整数。 |
Edm.Int64 |
string |
指示字段包含 64 位有符号整数。 |
Edm.SByte |
string |
指示字段包含 8 位有符号整数。 仅当与 Collection(Edm.SByte 一起使用)时才有效。 |
Edm.Single |
string |
指示字段包含单精度浮点数。 仅当与 Collection(Edm.Single)一起使用时才有效。 |
Edm.String |
string |
指示字段包含字符串。 |
SearchIndex
表示搜索索引定义,该定义描述索引的字段和搜索行为。
名称 | 类型 | 说明 |
---|---|---|
@odata.etag |
string |
索引的 ETag。 |
analyzers | LexicalAnalyzer[]: |
索引的分析器。 |
charFilters | CharFilter[]: |
索引的字符筛选器。 |
corsOptions |
用于控制索引的跨域资源共享(CORS)的选项。 |
|
defaultScoringProfile |
string |
如果在查询中未指定评分配置文件,则使用的名称。 如果未设置此属性,并且查询中未指定任何评分配置文件,则将使用默认评分(tf-idf)。 |
encryptionKey |
描述在 Azure Key Vault 中创建的加密密钥。 当你希望完全保证没有人(甚至Microsoft)可以解密数据时,此密钥用于为数据提供额外的静态加密级别。 加密数据后,数据将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果需要轮换加密密钥,可以根据需要更改此属性;你的数据将不受影响。 使用客户管理的密钥加密不适用于免费搜索服务,并且仅适用于在 2019 年 1 月 1 日或之后创建的付费服务。 |
|
fields |
索引的字段。 |
|
name |
string |
索引的名称。 |
scoringProfiles |
索引的计分配置文件。 |
|
semantic |
定义影响语义功能的搜索索引的参数。 |
|
similarity | Similarity: |
评分和排名与搜索查询匹配的文档时使用的相似性算法的类型。 相似性算法只能在索引创建时定义,不能在现有索引上修改。 如果为 null,则使用 ClassicSimilarity 算法。 |
suggesters |
索引的建议器。 |
|
tokenFilters |
TokenFilter[]:
|
标记筛选索引。 |
tokenizers | LexicalTokenizer[]: |
索引的 tokenizer。 |
vectorSearch |
包含与矢量搜索相关的配置选项。 |
SearchIndexerDataNoneIdentity
清除数据源的标识属性。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定标识类型的 URI 片段。 |
SearchIndexerDataUserAssignedIdentity
指定要使用的数据源的标识。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定标识类型的 URI 片段。 |
userAssignedIdentity |
string |
用户分配的托管标识的完全限定的 Azure 资源 ID 通常以“/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentity/myId”的形式分配给搜索服务。 |
SearchResourceEncryptionKey
Azure Key Vault 中的客户管理的加密密钥。 创建和管理的密钥可用于加密或解密静态数据,例如索引和同义词映射。
名称 | 类型 | 说明 |
---|---|---|
accessCredentials |
用于访问 Azure Key Vault 的可选 Azure Active Directory 凭据。 如果改用托管标识,则不需要。 |
|
keyVaultKeyName |
string |
用于加密静态数据的 Azure Key Vault 密钥的名称。 |
keyVaultKeyVersion |
string |
用于加密静态数据的 Azure Key Vault 密钥的版本。 |
keyVaultUri |
string |
Azure Key Vault 的 URI(也称为 DNS 名称),其中包含用于加密静态数据的密钥。 示例 URI 可能是 |
SemanticConfiguration
定义要在语义功能的上下文中使用的特定配置。
名称 | 类型 | 说明 |
---|---|---|
name |
string |
语义配置的名称。 |
prioritizedFields |
描述要用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。 至少需要设置三个子属性(titleField、优先级为KeywordsFields 和优先级的ContentFields)中的一个。 |
SemanticField
用作语义配置的一部分的字段。
名称 | 类型 | 说明 |
---|---|---|
fieldName |
string |
SemanticSettings
定义影响语义功能的搜索索引的参数。
名称 | 类型 | 说明 |
---|---|---|
configurations |
索引的语义配置。 |
|
defaultConfiguration |
string |
允许在索引中设置默认语义配置的名称,使其可以选择每次作为查询参数传递。 |
ShingleTokenFilter
将令牌的组合创建为单个令牌。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
filterToken |
string |
_ |
要为没有标记的每个位置插入的字符串。 默认值为下划线(“_” ) |
maxShingleSize |
integer |
2 |
最大闪亮大小。 默认值和最小值为 2。 |
minShingleSize |
integer |
2 |
最小闪闪大小。 默认值和最小值为 2。 必须小于 maxShingleSize 的值。 |
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
outputUnigrams |
boolean |
True |
一个值,该值指示输出流是否包含输入标记(unigrams)以及分片。 默认值为 true。 |
outputUnigramsIfNoShingles |
boolean |
False |
一个值,该值指示是否为这些时间输出单元语法(当没有带带线时)。 当 outputUnigrams 设置为 false 时,此属性优先。 默认值为 false。 |
tokenSeparator |
string |
联接相邻标记以形成 shingle 时要使用的字符串。 默认值为单个空格(“ ” )。 |
SnowballTokenFilter
使用 Snowball 生成的词干分析器词干的筛选器。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
language |
要使用的语言。 |
|
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
SnowballTokenFilterLanguage
用于 Snowball 令牌筛选器的语言。
名称 | 类型 | 说明 |
---|---|---|
armenian |
string |
选择亚美尼亚语的 Lucene Snowball 词干标记器。 |
basque |
string |
选择 Basque 的 Lucene Snowball 词干标记器。 |
catalan |
string |
选择加泰罗尼亚语的 Lucene Snowball 词干标记器。 |
danish |
string |
选择丹麦语的 Lucene Snowball 词干标记器。 |
dutch |
string |
为荷兰人选择 Lucene Snowball 词干标记器。 |
english |
string |
选择用于英语的 Lucene Snowball 词干标记器。 |
finnish |
string |
为芬兰人选择 Lucene Snowball 词干标记器。 |
french |
string |
为法语选择 Lucene Snowball 词干标记器。 |
german |
string |
为德语选择 Lucene Snowball 词干标记器。 |
german2 |
string |
选择使用德国变体算法的 Lucene Snowball 词干标记器。 |
hungarian |
string |
选择匈牙利语的 Lucene Snowball 词干标记器。 |
italian |
string |
为意大利人选择 Lucene Snowball 词干标记器。 |
kp |
string |
为使用 Kraaij-Pohlmann 词干算法的荷兰选择 Lucene Snowball 词干词干标记器。 |
lovins |
string |
为使用 Lovins 词干算法的英语选择 Lucene Snowball 词干词干标记器。 |
norwegian |
string |
选择挪威语的 Lucene Snowball 词干标记器。 |
porter |
string |
为使用 Porter 词干算法的英语选择 Lucene Snowball 词干词干标记器。 |
portuguese |
string |
选择葡萄牙语的 Lucene Snowball 词干标记器。 |
romanian |
string |
选择罗马尼亚语的 Lucene Snowball 词干标记器。 |
russian |
string |
为俄语选择 Lucene Snowball 词干标记器。 |
spanish |
string |
选择西班牙语的 Lucene Snowball 词干标记器。 |
swedish |
string |
为瑞典人选择 Lucene Snowball 词干标记器。 |
turkish |
string |
为土耳其选择 Lucene Snowball 词干标记器。 |
StemmerOverrideTokenFilter
提供使用基于自定义字典的词干分析替代其他词干筛选器的功能。 任何字典词干术语都将标记为关键字,以便它们不会在链中以词干分析器进行词干。 必须放置在任何词干筛选器之前。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
rules |
string[] |
采用以下格式的词干规则列表:“word => stem”,例如:“ran => run”。 |
StemmerTokenFilter
特定于语言的词干筛选。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
language |
要使用的语言。 |
|
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
StemmerTokenFilterLanguage
用于词干分析器标记筛选器的语言。
名称 | 类型 | 说明 |
---|---|---|
arabic |
string |
为阿拉伯语选择 Lucene 词干词干标记器。 |
armenian |
string |
选择亚美尼亚语的 Lucene 词干标记器。 |
basque |
string |
为 Basque 选择 Lucene 词干词干标记器。 |
brazilian |
string |
选择葡萄牙语(巴西)的 Lucene 词干标记器。 |
bulgarian |
string |
选择保加利亚语的 Lucene 词干标记器。 |
catalan |
string |
选择加泰罗尼亚语的 Lucene 词干标记器。 |
czech |
string |
选择捷克的 Lucene 词干标记器。 |
danish |
string |
为丹麦语选择 Lucene 词干词干标记器。 |
dutch |
string |
为荷兰人选择 Lucene 词干标记器。 |
dutchKp |
string |
为使用 Kraaij-Pohlmann 词干算法的荷兰选择 Lucene 词干词干标记器。 |
english |
string |
为英语选择 Lucene 词干词干标记器。 |
finnish |
string |
选择芬兰语的 Lucene 词干标记器。 |
french |
string |
为法语选择 Lucene 词干词干标记器。 |
galician |
string |
为加利西亚选择 Lucene 词干词干标记器。 |
german |
string |
为德语选择 Lucene 词干词干标记器。 |
german2 |
string |
选择使用德语变体算法的 Lucene 词干词干标记器。 |
greek |
string |
为希腊文选择 Lucene 词干词干标记器。 |
hindi |
string |
为印地语选择 Lucene 词干词干标记器。 |
hungarian |
string |
选择匈牙利语的 Lucene 词干标记器。 |
indonesian |
string |
选择印尼语的 Lucene 词干标记器。 |
irish |
string |
选择爱尔兰语的 Lucene 词干标记器。 |
italian |
string |
为意大利语选择 Lucene 词干词干标记器。 |
latvian |
string |
选择拉脱维亚语的 Lucene 词干词干标记器。 |
lightEnglish |
string |
选择用于执行光词干的英语的 Lucene 词干词干标记器。 |
lightFinnish |
string |
为芬兰人选择用于执行光词干的 Lucene 词干词干标记器。 |
lightFrench |
string |
选择用于执行光词干的法语的 Lucene 词干词干标记器。 |
lightGerman |
string |
为执行光词干的德语选择 Lucene 词干词干标记器。 |
lightHungarian |
string |
为匈牙利选择执行光词干的 Lucene 词干标记器。 |
lightItalian |
string |
为意大利人选择用于执行光词干的 Lucene 词干词干标记器。 |
lightNorwegian |
string |
选择挪威语(Bokmål)的 Lucene 词干词干标记器,用于进行光词干分析。 |
lightNynorsk |
string |
选择挪威语(Nynorsk)的 Lucene 词干词干标记器,用于进行光词干分析。 |
lightPortuguese |
string |
选择用于执行光词干的葡萄牙语的 Lucene 词干词干标记器。 |
lightRussian |
string |
为执行光词干的俄罗斯选择 Lucene 词干词干标记器。 |
lightSpanish |
string |
选择用于执行光词干的西班牙语的 Lucene 词干词干标记器。 |
lightSwedish |
string |
为执行光词干的瑞典人选择 Lucene 词干词干标记器。 |
lovins |
string |
为使用 Lovins 词干算法的英语选择 Lucene 词干词干标记器。 |
minimalEnglish |
string |
为英语选择 Lucene 词干词干标记器,该标记器执行最小词干分析。 |
minimalFrench |
string |
为法语选择 Lucene 词干词干标记器,该标记器执行最小词干化。 |
minimalGalician |
string |
为加里西亚选择 Lucene 词干词干标记器,该标记器执行最小词干分析。 |
minimalGerman |
string |
为德语选择 Lucene 词干词干标记器,该标记器执行最小词干分析。 |
minimalNorwegian |
string |
选择挪威语(Bokmål)的 Lucene 词干词干标记器,该标记器执行最小词干分析。 |
minimalNynorsk |
string |
选择挪威语(Nynorsk)的 Lucene 词干词干标记器,该标记器执行最小词干分析。 |
minimalPortuguese |
string |
为葡萄牙语选择 Lucene 词干词干标记器,该标记器执行最小词干分析。 |
norwegian |
string |
选择挪威语(Bokmål)的 Lucene 词干词干标记器。 |
porter2 |
string |
为使用 Porter2 词干算法的英语选择 Lucene 词干词干标记器。 |
portuguese |
string |
选择葡萄牙语的 Lucene 词干词干标记器。 |
portugueseRslp |
string |
为使用 RSLP 词干算法的葡萄牙语选择 Lucene 词干词干标记器。 |
possessiveEnglish |
string |
为英语选择 Lucene 词干标记器,以便从单词中删除尾随拥有。 |
romanian |
string |
选择罗马尼亚语的 Lucene 词干标记器。 |
russian |
string |
选择用于俄语的 Lucene 词干标记器。 |
sorani |
string |
为 Sorani 选择 Lucene 词干词干标记器。 |
spanish |
string |
选择西班牙语的 Lucene 词干标记器。 |
swedish |
string |
为瑞典人选择 Lucene 词干标记器。 |
turkish |
string |
为土耳其选择 Lucene 词干标记器。 |
StopAnalyzer
以非字母分隔文本;应用小写和非索引字标记筛选器。 此分析器是使用 Apache Lucene 实现的。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器类型的 URI 片段。 |
name |
string |
分析器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
stopwords |
string[] |
非索引字列表。 |
StopwordsList
标识特定于语言的非索引字的预定义列表。
名称 | 类型 | 说明 |
---|---|---|
arabic |
string |
选择阿拉伯语的非索引字列表。 |
armenian |
string |
选择亚美尼亚语的非索引字列表。 |
basque |
string |
选择 Basque 的非索引字列表。 |
brazilian |
string |
选择葡萄牙语(巴西)的非索引字列表。 |
bulgarian |
string |
选择保加利亚语的非索引字列表。 |
catalan |
string |
选择加泰罗尼亚语的非索引字列表。 |
czech |
string |
选择捷克语的非索引字列表。 |
danish |
string |
为丹麦语选择非索引字列表。 |
dutch |
string |
选择荷兰语的非索引字列表。 |
english |
string |
选择英语的非索引字列表。 |
finnish |
string |
为芬兰语选择非索引字列表。 |
french |
string |
选择法语的非索引字列表。 |
galician |
string |
选择加利西亚语的非索引字列表。 |
german |
string |
选择德语的非索引字列表。 |
greek |
string |
选择希腊文的非索引字列表。 |
hindi |
string |
选择印地语的非索引字列表。 |
hungarian |
string |
选择匈牙利语的非索引字列表。 |
indonesian |
string |
为印度尼西亚语选择非索引字列表。 |
irish |
string |
选择爱尔兰语的非索引字列表。 |
italian |
string |
为意大利语选择非索引字列表。 |
latvian |
string |
选择拉脱维亚语的非索引字列表。 |
norwegian |
string |
为挪威语选择非索引字列表。 |
persian |
string |
选择波斯语的非索引字列表。 |
portuguese |
string |
选择葡萄牙语的非索引字列表。 |
romanian |
string |
选择罗马尼亚语的非索引字列表。 |
russian |
string |
选择俄语的非索引字列表。 |
sorani |
string |
选择 Sorani 的非索引字列表。 |
spanish |
string |
选择西班牙语的非索引字列表。 |
swedish |
string |
为瑞典人选择非索引字列表。 |
thai |
string |
选择泰文的非索引字列表。 |
turkish |
string |
为土耳其选择非索引字列表。 |
StopwordsTokenFilter
从令牌流中删除停止字词。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
ignoreCase |
boolean |
False |
一个值,指示是否忽略大小写。 如果为 true,则首先将所有单词转换为小写。 默认值为 false。 |
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
removeTrailing |
boolean |
True |
一个值,该值指示是否忽略最后一个搜索词(如果它是非索引字)。 默认值为 true。 |
stopwords |
string[] |
非索引字列表。 不能同时设置此属性和非索引字列表属性。 |
|
stopwordsList | english |
要使用的非索引字的预定义列表。 不能同时设置此属性和 stopwords 属性。 默认值为英语。 |
Suggester
定义建议 API 应如何应用于索引中的一组字段。
名称 | 类型 | 说明 |
---|---|---|
name |
string |
建议器的名称。 |
searchMode |
一个值,指示建议器的功能。 |
|
sourceFields |
string[] |
建议器应用到的字段名称列表。 每个字段必须可搜索。 |
SuggesterSearchMode
一个值,指示建议器的功能。
名称 | 类型 | 说明 |
---|---|---|
analyzingInfixMatching |
string |
匹配字段中连续的整个术语和前缀。 例如,对于字段“最快的棕色狐狸”,查询“fast”和“fastest brow”都将匹配。 |
SynonymTokenFilter
匹配令牌流中的单个或多单词同义词。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
expand |
boolean |
True |
一个值,该值指示同义词列表中的所有单词(如果未使用 => 表示法),是否将相互映射。 如果为 true,同义词列表中的所有单词(如果未使用 => 表示法),则相互映射。 以下列表:令人难以置信的,令人难以置信的,神话般的,惊人的相当于:令人难以置信的,令人难以置信的,令人难以置信的,神话,惊人的 => 令人难以置信的,令人难以置信的,神话,惊人的。 如果为 false,以下列表:令人难以置信的,令人难以置信的,神话般的,惊人的将相当于:令人难以置信的,令人难以置信的,令人难以置信的,神话,惊人的 => 令人难以置信的。 默认值为 true。 |
ignoreCase |
boolean |
False |
一个值,该值指示是否将大小写输入用于匹配。 默认值为 false。 |
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
synonyms |
string[] |
以下两种格式之一的同义词列表:1。 令人难以置信的,令人难以置信的,令人难以置信的,神话般的 => 惊人的 - 所有术语在 => 符号的左侧将被替换为其右侧的所有术语;2. 令人难以置信的,令人难以置信的,神话般的,惊人的 - 逗号分隔的等效单词列表。 设置展开选项以更改此列表的解释方式。 |
TagScoringFunction
定义一个函数,该函数使用与给定标记列表匹配的字符串值提升文档的分数。
名称 | 类型 | 说明 |
---|---|---|
boost |
number |
原始分数的乘数。 必须是不等于 1.0 的正数。 |
fieldName |
string |
用作评分函数输入的字段的名称。 |
interpolation |
一个值,该值指示如何在文档分数之间内插提升;默认值为“Linear”。 |
|
tag |
标记评分函数的参数值。 |
|
type |
string:
tag |
指示要使用的函数的类型。 有效值包括数量级、新鲜度、距离和标记。 函数类型必须小写。 |
TagScoringParameters
向标记评分函数提供参数值。
名称 | 类型 | 说明 |
---|---|---|
tagsParameter |
string |
在搜索查询中传递的参数的名称,用于指定要与目标字段进行比较的标记列表。 |
TextWeights
定义匹配项应在搜索查询中提升评分的索引字段的权重。
名称 | 类型 | 说明 |
---|---|---|
weights |
object |
用于提升文档评分的每字段权重的字典。 键是字段名称,值是每个字段的权重。 |
TokenCharacterKind
表示令牌筛选器可对其操作的字符类。
名称 | 类型 | 说明 |
---|---|---|
digit |
string |
将数字保留在令牌中。 |
letter |
string |
将字母保留在令牌中。 |
punctuation |
string |
在令牌中保留标点符号。 |
symbol |
string |
将符号保留在令牌中。 |
whitespace |
string |
在令牌中保留空格。 |
TokenFilterName
定义搜索引擎支持的所有令牌筛选器的名称。
TruncateTokenFilter
将术语截断为特定长度。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
length |
integer |
300 |
将截断术语的长度。 默认值和最大值为 300。 |
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
UaxUrlEmailTokenizer
将 URL 和电子邮件作为一个令牌进行标记化。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 |
name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
UniqueTokenFilter
筛选出与上一个标记相同的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
onlyOnSamePosition |
boolean |
False |
一个值,该值指示是否仅在同一位置删除重复项。 默认值为 false。 |
VectorEncodingFormat
用于解释矢量字段内容的编码格式。
名称 | 类型 | 说明 |
---|---|---|
packedBit |
string |
编码格式,表示打包成更广泛的数据类型的位。 |
VectorSearch
包含与矢量搜索相关的配置选项。
名称 | 类型 | 说明 |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
包含特定于索引或查询期间使用的算法的配置选项。 |
compressions | VectorSearchCompressionConfiguration[]: |
包含特定于索引或查询期间使用的压缩方法的配置选项。 |
profiles |
定义要与矢量搜索一起使用的配置组合。 |
|
vectorizers | VectorSearchVectorizer[]: |
包含有关如何向量化文本矢量查询的配置选项。 |
VectorSearchAlgorithmKind
用于索引和查询的算法。
名称 | 类型 | 说明 |
---|---|---|
exhaustiveKnn |
string |
将执行暴力搜索的详尽 KNN 算法。 |
hnsw |
string |
HNSW (分层导航小型世界),一种近似近邻算法。 |
VectorSearchAlgorithmMetric
用于矢量比较的相似性指标。 建议选择与训练嵌入模型相同的相似性指标。
名称 | 类型 | 说明 |
---|---|---|
cosine |
string |
测量矢量之间的角度,以量化它们的相似性,无视数量级。 角度越小,相似性越近。 |
dotProduct |
string |
计算元素型产品的总和,以测量对齐和数量级相似性。 越大越积极,越接近相似性。 |
euclidean |
string |
计算多维空间中的向量之间的直线距离。 距离越小,相似性越近。 |
hamming |
string |
仅适用于位打包的二进制数据类型。 通过计算二进制向量中的不同位置来确定差异性。 差异越少,相似性越近。 |
VectorSearchCompressionKind
用于编制索引和查询的压缩方法。
名称 | 类型 | 说明 |
---|---|---|
binaryQuantization |
string |
二进制量化,一种压缩方法。 在二进制量化中,原始向量值通过离散化和表示使用二进制值表示矢量的每个组件来压缩为更窄的二进制类型,从而减少整体数据大小。 |
scalarQuantization |
string |
标量量化,一种压缩方法。 在标量量子化中,原始向量值通过离散化和表示矢量的每个分量(使用一组量化值)压缩为较窄的类型,从而减少整体数据大小。 |
VectorSearchCompressionTargetDataType
压缩矢量值的量化数据类型。
名称 | 类型 | 说明 |
---|---|---|
int8 |
string |
VectorSearchProfile
定义要与矢量搜索一起使用的配置的组合。
名称 | 类型 | 说明 |
---|---|---|
algorithm |
string |
指定算法和可选参数的矢量搜索算法配置的名称。 |
compression |
string |
指定压缩方法和可选参数的压缩方法配置的名称。 |
name |
string |
要与此特定矢量搜索配置文件关联的名称。 |
vectorizer |
string |
要配置为与矢量搜索一起使用的矢量化的名称。 |
VectorSearchVectorizerKind
在查询期间使用的向量化方法。
名称 | 类型 | 说明 |
---|---|---|
azureOpenAI |
string |
在查询时使用 Azure OpenAI 资源生成嵌入内容。 |
customWebApi |
string |
在查询时使用自定义 Web 终结点生成嵌入内容。 |
WebApiParameters
指定用于连接到用户定义的向量器的属性。
名称 | 类型 | 说明 |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
用于出站连接的用户分配的托管标识。 如果未指定 authResourceId,则使用系统分配的托管标识。 对索引器的更新(如果未指定标识)时,该值保持不变。 如果设置为“none”,则会清除此属性的值。 |
authResourceId |
string |
适用于连接到 Azure 函数中的外部代码的自定义终结点或提供转换的其他应用程序。 此值应该是在向 Azure Active Directory 注册函数或应用时为该函数或应用创建的应用程序 ID。 指定后,矢量化使用搜索服务的托管 ID(系统或用户分配)和函数或应用的访问令牌连接到函数或应用,使用此值作为创建访问令牌范围的资源 ID。 |
httpHeaders |
object |
发出 HTTP 请求所需的标头。 |
httpMethod |
string |
HTTP 请求的方法。 |
timeout |
string |
请求的所需超时。 默认值为 30 秒。 |
uri |
string |
提供向量器的 Web API 的 URI。 |
WebApiVectorizer
指定用于生成查询字符串嵌入的矢量的用户定义的向量器。 使用技能集的自定义 Web API 接口实现外部向量器的集成。
名称 | 类型 | 说明 |
---|---|---|
customWebApiParameters |
指定用户定义的向量器的属性。 |
|
kind |
string:
custom |
要配置为与矢量搜索一起使用的向量化方法类型的名称。 |
name |
string |
要与此特定向量化方法关联的名称。 |
WordDelimiterTokenFilter
将单词拆分为子词,对子词组执行可选转换。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
catenateAll |
boolean |
False |
一个值,该值指示是否将所有子词部分都加猫化。 例如,如果设置为 true,“Azure-Search-1”将变为“AzureSearch1”。 默认值为 false。 |
catenateNumbers |
boolean |
False |
一个值,该值指示是否将延长数目部分的最大运行次数。 例如,如果设置为 true,则“1-2”变为“12”。 默认值为 false。 |
catenateWords |
boolean |
False |
一个值,该值指示是否将延长单词部分的最大运行次数。 例如,如果设置为 true,“Azure-Search”将变为“AzureSearch”。 默认值为 false。 |
generateNumberParts |
boolean |
True |
一个值,该值指示是否生成数字子词。 默认值为 true。 |
generateWordParts |
boolean |
True |
一个值,该值指示是否生成部分词。 如果设置,会导致生成部分单词;例如,“AzureSearch”变为“Azure”“搜索”。 默认值为 true。 |
name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
preserveOriginal |
boolean |
False |
一个值,该值指示是否保留原始单词并将其添加到子词列表中。 默认值为 false。 |
protectedWords |
string[] |
要防止分隔的令牌列表。 |
|
splitOnCaseChange |
boolean |
True |
一个值,该值指示是否拆分 caseChange 上的单词。 例如,如果设置为 true,“AzureSearch”将变为“Azure”“搜索”。 默认值为 true。 |
splitOnNumerics |
boolean |
True |
一个值,该值指示是否对数字进行拆分。 例如,如果设置为 true,则“Azure1Search”变为“Azure”“1”搜索”。 默认值为 true。 |
stemEnglishPossessive |
boolean |
True |
一个值,该值指示是否删除每个子词的尾随“'s”。 默认值为 true。 |