你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Indexes - Create

创建新的搜索索引。

POST {endpoint}/indexes?api-version=2024-07-01

URI 参数

名称 必需 类型 说明
endpoint
path True

string

搜索服务的终结点 URL。

api-version
query True

string

客户端 API 版本。

请求头

名称 必需 类型 说明
x-ms-client-request-id

string

uuid

随请求一起发送的跟踪 ID,以帮助进行调试。

请求正文

名称 必需 类型 说明
fields True

SearchField[]

索引的字段。

name True

string

索引的名称。

@odata.etag

string

索引的 ETag。

analyzers LexicalAnalyzer[]:

索引的分析器。

charFilters CharFilter[]:

索引的字符筛选器。

corsOptions

CorsOptions

用于控制索引的跨域资源共享(CORS)的选项。

defaultScoringProfile

string

如果在查询中未指定评分配置文件,则使用的名称。 如果未设置此属性,并且查询中未指定任何评分配置文件,则将使用默认评分(tf-idf)。

encryptionKey

SearchResourceEncryptionKey

描述在 Azure Key Vault 中创建的加密密钥。 当你希望完全保证没有人(甚至Microsoft)可以解密数据时,此密钥用于为数据提供额外的静态加密级别。 加密数据后,数据将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果需要轮换加密密钥,可以根据需要更改此属性;你的数据将不受影响。 使用客户管理的密钥加密不适用于免费搜索服务,并且仅适用于在 2019 年 1 月 1 日或之后创建的付费服务。

scoringProfiles

ScoringProfile[]

索引的计分配置文件。

semantic

SemanticSettings

定义影响语义功能的搜索索引的参数。

similarity Similarity:

评分和排名与搜索查询匹配的文档时使用的相似性算法的类型。 相似性算法只能在索引创建时定义,不能在现有索引上修改。 如果为 null,则使用 ClassicSimilarity 算法。

suggesters

Suggester[]

索引的建议器。

tokenFilters TokenFilter[]:

标记筛选索引。

tokenizers LexicalTokenizer[]:

索引的 tokenizer。

vectorSearch

VectorSearch

包含与矢量搜索相关的配置选项。

响应

名称 类型 说明
201 Created

SearchIndex

Other Status Codes

ErrorResponse

错误响应。

示例

SearchServiceCreateIndex

示例请求

POST https://myservice.search.windows.net/indexes?api-version=2024-07-01

{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "key": true,
      "searchable": false
    },
    {
      "name": "baseRate",
      "type": "Edm.Double"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswSQProfile"
    },
    {
      "name": "descriptionEmbedding_notstored",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": false,
      "stored": false,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswSQProfile"
    },
    {
      "name": "descriptionEmbedding_forBQ",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswBQProfile"
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false,
      "analyzer": "fr.lucene"
    },
    {
      "name": "hotelName",
      "type": "Edm.String"
    },
    {
      "name": "nameEmbedding",
      "type": "Collection(Edm.Half)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile"
    },
    {
      "name": "category",
      "type": "Edm.String"
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "analyzer": "tagsAnalyzer"
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean"
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean"
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset"
    },
    {
      "name": "rating",
      "type": "Edm.Int32"
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint"
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": {
      "applicationId": "00000000-0000-0000-0000-000000000000",
      "applicationSecret": "<applicationSecret>"
    }
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "b": 0.5,
    "k1": 1.3
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myHnswSQProfile",
        "algorithm": "myHnsw",
        "compression": "mySQ8"
      },
      {
        "name": "myHnswBQProfile",
        "algorithm": "myHnsw",
        "compression": "myBQ"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ],
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "m": 4,
          "metric": "cosine"
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rerankWithOriginalVectors": true,
        "defaultOversampling": 10
      },
      {
        "name": "myBQ",
        "kind": "binaryQuantization",
        "rerankWithOriginalVectors": true,
        "defaultOversampling": 10
      }
    ]
  }
}

示例响应

{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswSQProfile",
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding_notstored",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": false,
      "stored": false,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswSQProfile"
    },
    {
      "name": "descriptionEmbedding_forBQ",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswBQProfile",
      "synonymMaps": []
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "nameEmbedding",
      "type": "Collection(Edm.Half)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "fieldName": "location",
          "interpolation": "logarithmic",
          "type": "distance",
          "boost": 5,
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenFilters": [],
      "tokenizer": "standard_v2"
    }
  ],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": {
      "applicationId": "00000000-0000-0000-0000-000000000000",
      "applicationSecret": null
    }
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "b": 0.5,
    "k1": 1.3
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myHnswSQProfile",
        "algorithm": "myHnsw",
        "compression": "mySQ8"
      },
      {
        "name": "myHnswBQProfile",
        "algorithm": "myHnsw",
        "vectorizer": "myOpenAi",
        "compression": "myBQ"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rerankWithOriginalVectors": true,
        "defaultOversampling": 10
      },
      {
        "name": "myBQ",
        "kind": "binaryQuantization",
        "rerankWithOriginalVectors": true,
        "defaultOversampling": 10
      }
    ]
  }
}

定义

名称 说明
AsciiFoldingTokenFilter

如果存在此类等效项,则将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项。 此令牌筛选器是使用 Apache Lucene 实现的。

AzureActiveDirectoryApplicationCredentials

为搜索服务创建的已注册应用程序的凭据,用于对 Azure Key Vault 中存储的加密密钥进行身份验证的访问权限。

AzureOpenAIEmbeddingSkill

允许使用 Azure OpenAI 资源为给定文本输入生成矢量嵌入。

AzureOpenAIModelName

将调用的 Azure Open AI 模型名称。

AzureOpenAIParameters

指定用于连接到 Azure OpenAI 资源的参数。

AzureOpenAIVectorizer

指定用于向量化查询字符串的 Azure OpenAI 资源。

BinaryQuantizationVectorSearchCompressionConfiguration

包含特定于索引和查询期间使用的二进制量化压缩方法的配置选项。

BM25Similarity

基于 Okapi BM25 相似性算法的排名函数。 BM25 是一种类似于 TF-IDF 的算法,包括长度规范化(由“b”参数控制)以及术语频率饱和(由“k1”参数控制)。

CharFilterName

定义搜索引擎支持的所有字符筛选器的名称。

CjkBigramTokenFilter

形成从标准标记器生成的 CJK 术语的 bigram。 此令牌筛选器是使用 Apache Lucene 实现的。

CjkBigramTokenFilterScripts

CjkBigramTokenFilter 可以忽略的脚本。

ClassicSimilarity

使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的旧相似性算法。 这种 TF-IDF 变体引入了静态文档长度规范化,以及惩罚仅部分匹配搜索查询的文档的协调因素。

ClassicTokenizer

适用于处理大多数欧洲语言文档的基于语法的 tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

CommonGramTokenFilter

为索引时经常出现的字词构造 bigrams。 单个字词仍编制索引,并覆盖 bigrams。 此令牌筛选器是使用 Apache Lucene 实现的。

CorsOptions

定义用于控制索引的跨域资源共享(CORS)的选项。

CustomAnalyzer

允许你控制将文本转换为可索引/可搜索令牌的过程。 它是用户定义的配置,由单个预定义的 tokenizer 和一个或多个筛选器组成。 tokenizer 负责将文本分解为令牌,以及用于修改 tokenizer 发出的令牌的筛选器。

DictionaryDecompounderTokenFilter

分解许多德语语言中发现的复合词。 此令牌筛选器是使用 Apache Lucene 实现的。

DistanceScoringFunction

定义基于地理位置距离提升分数的函数。

DistanceScoringParameters

向距离评分函数提供参数值。

EdgeNGramTokenFilter

从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

EdgeNGramTokenFilterSide

指定应从中生成 n 元语法的输入的哪一端。

EdgeNGramTokenFilterV2

从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

EdgeNGramTokenizer

将输入从边缘标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。

ElisionTokenFilter

删除 elisions。 例如,“l'avion”(平面)将转换为“avion”(平面)。 此令牌筛选器是使用 Apache Lucene 实现的。

ErrorAdditionalInfo

资源管理错误附加信息。

ErrorDetail

错误详细信息。

ErrorResponse

错误响应

ExhaustiveKnnParameters

包含特定于详尽 KNN 算法的参数。

ExhaustiveKnnVectorSearchAlgorithmConfiguration

包含特定于查询期间使用的详尽 KNN 算法的配置选项,该算法将在整个矢量索引中执行暴力搜索。

FreshnessScoringFunction

定义一个函数,该函数根据日期时间字段的值提升分数。

FreshnessScoringParameters

为新鲜度评分函数提供参数值。

HnswParameters

包含特定于 HNSW 算法的参数。

HnswVectorSearchAlgorithmConfiguration

包含特定于 HNSW 近似近邻算法的配置选项,这些算法用于索引和查询。 HNSW 算法在搜索速度和准确性之间提供了一种无法权衡的权衡。

InputFieldMappingEntry

技能的输入字段映射。

KeepTokenFilter

一个标记筛选器,它只保留包含指定字词列表中的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。

KeywordMarkerTokenFilter

将术语标记为关键字。 此令牌筛选器是使用 Apache Lucene 实现的。

KeywordTokenizer

以单个标记的形式发出整个输入。 此 tokenizer 是使用 Apache Lucene 实现的。

KeywordTokenizerV2

以单个标记的形式发出整个输入。 此 tokenizer 是使用 Apache Lucene 实现的。

LengthTokenFilter

删除太长或太短的字词。 此令牌筛选器是使用 Apache Lucene 实现的。

LexicalAnalyzerName

定义搜索引擎支持的所有文本分析器的名称。

LexicalTokenizerName

定义搜索引擎支持的所有 tokenizer 的名称。

LimitTokenFilter

在编制索引时限制令牌数。 此令牌筛选器是使用 Apache Lucene 实现的。

LuceneStandardAnalyzer

标准 Apache Lucene 分析器;由标准 tokenizer、小写筛选器和停止筛选器组成。

LuceneStandardTokenizer

中断 Unicode 文本分段规则后面的文本。 此 tokenizer 是使用 Apache Lucene 实现的。

LuceneStandardTokenizerV2

中断 Unicode 文本分段规则后面的文本。 此 tokenizer 是使用 Apache Lucene 实现的。

MagnitudeScoringFunction

定义一个函数,该函数根据数值字段的大小提升分数。

MagnitudeScoringParameters

向数量级评分函数提供参数值。

MappingCharFilter

一个字符筛选器,它应用使用映射选项定义的映射。 匹配是贪婪(给定点获胜时最长的模式匹配)。 允许替换为空字符串。 此字符筛选器是使用 Apache Lucene 实现的。

MicrosoftLanguageStemmingTokenizer

使用特定于语言的规则划分文本,并将单词减少到其基形式。

MicrosoftLanguageTokenizer

使用特定于语言的规则划分文本。

MicrosoftStemmingTokenizerLanguage

列出Microsoft语言词干标记器支持的语言。

MicrosoftTokenizerLanguage

列出Microsoft语言标记器支持的语言。

NGramTokenFilter

生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

NGramTokenFilterV2

生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

NGramTokenizer

将输入标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。

OutputFieldMappingEntry

技能的输出字段映射。

PathHierarchyTokenizerV2

类似路径层次结构的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

PatternAnalyzer

灵活将文本通过正则表达式模式分隔为字词。 此分析器是使用 Apache Lucene 实现的。

PatternCaptureTokenFilter

使用 Java 正则表达式发出多个令牌 - 一个标记用于一个或多个模式中的每个捕获组。 此令牌筛选器是使用 Apache Lucene 实现的。

PatternReplaceCharFilter

替换输入字符串中的字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列和替换模式来标识要替换的字符。 例如,假设输入文本“aa bb aa bb”,模式“(aa)\s+(bb)”,并替换“$1#$2”,结果将为“aa#bb aa#bb”。 此字符筛选器是使用 Apache Lucene 实现的。

PatternReplaceTokenFilter

替换输入字符串中的字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列和替换模式来标识要替换的字符。 例如,假设输入文本“aa bb aa bb”,模式“(aa)\s+(bb)”,并替换“$1#$2”,结果将为“aa#bb aa#bb”。 此令牌筛选器是使用 Apache Lucene 实现的。

PatternTokenizer

使用正则表达式模式匹配构造不同令牌的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

PhoneticEncoder

标识要与 PhoneticTokenFilter 一起使用的拼音编码器的类型。

PhoneticTokenFilter

为拼音匹配创建令牌。 此令牌筛选器是使用 Apache Lucene 实现的。

PrioritizedFields

描述要用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。

RegexFlags

定义可以组合的标志,以控制在模式分析器和模式标记器中使用正则表达式的方式。

ScalarQuantizationParameters

包含特定于标量量化的参数。

ScalarQuantizationVectorSearchCompressionConfiguration

包含特定于索引和查询期间使用的标量量化压缩方法的配置选项。

ScoringFunctionAggregation

定义用于合并计分配置文件中所有评分函数的结果的聚合函数。

ScoringFunctionInterpolation

定义用于跨一系列文档内插分数提升的函数。

ScoringProfile

定义影响搜索查询中评分的搜索索引的参数。

SearchField

表示索引定义中的字段,该定义描述字段的名称、数据类型和搜索行为。

SearchFieldDataType

定义搜索索引中字段的数据类型。

SearchIndex

表示搜索索引定义,该定义描述索引的字段和搜索行为。

SearchIndexerDataNoneIdentity

清除数据源的标识属性。

SearchIndexerDataUserAssignedIdentity

指定要使用的数据源的标识。

SearchResourceEncryptionKey

Azure Key Vault 中的客户管理的加密密钥。 创建和管理的密钥可用于加密或解密静态数据,例如索引和同义词映射。

SemanticConfiguration

定义要在语义功能的上下文中使用的特定配置。

SemanticField

用作语义配置的一部分的字段。

SemanticSettings

定义影响语义功能的搜索索引的参数。

ShingleTokenFilter

将令牌的组合创建为单个令牌。 此令牌筛选器是使用 Apache Lucene 实现的。

SnowballTokenFilter

使用 Snowball 生成的词干分析器词干的筛选器。 此令牌筛选器是使用 Apache Lucene 实现的。

SnowballTokenFilterLanguage

用于 Snowball 令牌筛选器的语言。

StemmerOverrideTokenFilter

提供使用基于自定义字典的词干分析替代其他词干筛选器的功能。 任何字典词干术语都将标记为关键字,以便它们不会在链中以词干分析器进行词干。 必须放置在任何词干筛选器之前。 此令牌筛选器是使用 Apache Lucene 实现的。

StemmerTokenFilter

特定于语言的词干筛选。 此令牌筛选器是使用 Apache Lucene 实现的。

StemmerTokenFilterLanguage

用于词干分析器标记筛选器的语言。

StopAnalyzer

以非字母分隔文本;应用小写和非索引字标记筛选器。 此分析器是使用 Apache Lucene 实现的。

StopwordsList

标识特定于语言的非索引字的预定义列表。

StopwordsTokenFilter

从令牌流中删除停止字词。 此令牌筛选器是使用 Apache Lucene 实现的。

Suggester

定义建议 API 应如何应用于索引中的一组字段。

SuggesterSearchMode

一个值,指示建议器的功能。

SynonymTokenFilter

匹配令牌流中的单个或多单词同义词。 此令牌筛选器是使用 Apache Lucene 实现的。

TagScoringFunction

定义一个函数,该函数使用与给定标记列表匹配的字符串值提升文档的分数。

TagScoringParameters

向标记评分函数提供参数值。

TextWeights

定义匹配项应在搜索查询中提升评分的索引字段的权重。

TokenCharacterKind

表示令牌筛选器可对其操作的字符类。

TokenFilterName

定义搜索引擎支持的所有令牌筛选器的名称。

TruncateTokenFilter

将术语截断为特定长度。 此令牌筛选器是使用 Apache Lucene 实现的。

UaxUrlEmailTokenizer

将 URL 和电子邮件作为一个令牌进行标记化。 此 tokenizer 是使用 Apache Lucene 实现的。

UniqueTokenFilter

筛选出与上一个标记相同的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。

VectorEncodingFormat

用于解释矢量字段内容的编码格式。

VectorSearch

包含与矢量搜索相关的配置选项。

VectorSearchAlgorithmKind

用于索引和查询的算法。

VectorSearchAlgorithmMetric

用于矢量比较的相似性指标。 建议选择与训练嵌入模型相同的相似性指标。

VectorSearchCompressionKind

用于编制索引和查询的压缩方法。

VectorSearchCompressionTargetDataType

压缩矢量值的量化数据类型。

VectorSearchProfile

定义要与矢量搜索一起使用的配置的组合。

VectorSearchVectorizerKind

在查询期间使用的向量化方法。

WebApiParameters

指定用于连接到用户定义的向量器的属性。

WebApiVectorizer

指定用于生成查询字符串嵌入的矢量的用户定义的向量器。 使用技能集的自定义 Web API 接口实现外部向量器的集成。

WordDelimiterTokenFilter

将单词拆分为子词,对子词组执行可选转换。 此令牌筛选器是使用 Apache Lucene 实现的。

AsciiFoldingTokenFilter

如果存在此类等效项,则将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

指定令牌筛选器类型的 URI 片段。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

preserveOriginal

boolean

False

一个值,该值指示是否保留原始令牌。 默认值为 false。

AzureActiveDirectoryApplicationCredentials

为搜索服务创建的已注册应用程序的凭据,用于对 Azure Key Vault 中存储的加密密钥进行身份验证的访问权限。

名称 类型 说明
applicationId

string

向 AAD 应用程序 ID 授予对静态数据加密时要使用的 Azure Key Vault 所需的访问权限。 应用程序 ID 不应与 AAD 应用程序的对象 ID 混淆。

applicationSecret

string

指定的 AAD 应用程序的身份验证密钥。

AzureOpenAIEmbeddingSkill

允许使用 Azure OpenAI 资源为给定文本输入生成矢量嵌入。

名称 类型 说明
@odata.type string:

#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill

指定技能类型的 URI 片段。

apiKey

string

指定的 Azure OpenAI 资源的 API 密钥。

authIdentity SearchIndexerDataIdentity:

用于出站连接的用户分配的托管标识。

context

string

表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。

deploymentId

string

指定资源上的 Azure OpenAI 模型部署的 ID。

description

string

描述技能的说明,描述技能的输入、输出和用法。

dimensions

integer

生成的输出嵌入应具有的维度数。 仅在文本嵌入-3 和更高版本中受支持。

inputs

InputFieldMappingEntry[]

技能的输入可以是源数据集中的列,也可以是上游技能的输出。

modelName

AzureOpenAIModelName

在提供的 deploymentId 路径中部署的嵌入模型的名称。

name

string

唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。

outputs

OutputFieldMappingEntry[]

技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。

resourceUri

string

Azure OpenAI 资源的资源 URI。

AzureOpenAIModelName

将调用的 Azure Open AI 模型名称。

名称 类型 说明
text-embedding-3-large

string

text-embedding-3-small

string

text-embedding-ada-002

string

AzureOpenAIParameters

指定用于连接到 Azure OpenAI 资源的参数。

名称 类型 说明
apiKey

string

指定的 Azure OpenAI 资源的 API 密钥。

authIdentity SearchIndexerDataIdentity:

用于出站连接的用户分配的托管标识。

deploymentId

string

指定资源上的 Azure OpenAI 模型部署的 ID。

modelName

AzureOpenAIModelName

在提供的 deploymentId 路径中部署的嵌入模型的名称。

resourceUri

string

Azure OpenAI 资源的资源 URI。

AzureOpenAIVectorizer

指定用于向量化查询字符串的 Azure OpenAI 资源。

名称 类型 说明
azureOpenAIParameters AzureOpenAIParameters:

AzureOpenAIEmbeddingSkill

包含特定于 Azure OpenAI 嵌入向量化的参数。

kind string:

azureOpenAI

要配置为与矢量搜索一起使用的向量化方法类型的名称。

name

string

要与此特定向量化方法关联的名称。

BinaryQuantizationVectorSearchCompressionConfiguration

包含特定于索引和查询期间使用的二进制量化压缩方法的配置选项。

名称 类型 默认值 说明
defaultOversampling

number

默认过度采样因子。 在初始搜索中,过度采样将在内部请求更多文档(由此乘数指定)。 这会增加使用全精度向量重新计算相似性分数重新计算的结果集。 最小值为 1,这意味着没有过度采样(1x)。 仅当 rerankWithOriginalVectors 为 true 时,才能设置此参数。 较高的值会以牺牲延迟为代价提高召回率。

kind string:

binaryQuantization

要配置为用于矢量搜索的压缩方法类型的名称。

name

string

要与此特定配置关联的名称。

rerankWithOriginalVectors

boolean

True

如果设置为 true,则获取使用压缩向量计算的有序结果集后,将通过重新计算全精度相似性分数来重新计算结果集。 这将提高召回率,代价是延迟。

BM25Similarity

基于 Okapi BM25 相似性算法的排名函数。 BM25 是一种类似于 TF-IDF 的算法,包括长度规范化(由“b”参数控制)以及术语频率饱和(由“k1”参数控制)。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number

此属性控制文档长度如何影响相关性分数。 默认情况下,使用值 0.75。 值为 0.0 表示不应用长度规范化,而值为 1.0 表示分数由文档长度完全规范化。

k1

number

此属性控制每个匹配字词的术语频率与文档查询对的最终相关性分数之间的缩放函数。 默认情况下,使用值 1.2。 值为 0.0 表示分数不会随着术语频率的增加而缩放。

CharFilterName

定义搜索引擎支持的所有字符筛选器的名称。

名称 类型 说明
html_strip

string

尝试去除 HTML 构造的字符筛选器。 请参阅 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

形成从标准标记器生成的 CJK 术语的 bigram。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

指定令牌筛选器类型的 URI 片段。

ignoreScripts

CjkBigramTokenFilterScripts[]

要忽略的脚本。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

outputUnigrams

boolean

False

一个值,该值指示是输出 unigram 和 bigrams(如果为 true),还是只输出 bigrams(如果为 false)。 默认值为 false。

CjkBigramTokenFilterScripts

CjkBigramTokenFilter 可以忽略的脚本。

名称 类型 说明
han

string

在形成 CJK 术语的 bigram 时忽略 Han 脚本。

hangul

string

在形成 CJK 术语的 bigram 时忽略 Hangul 脚本。

hiragana

string

在形成 CJK 术语的 bigram 时忽略平假名脚本。

katakana

string

在形成 CJK 术语的大帧时忽略片假名脚本。

ClassicSimilarity

使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的旧相似性算法。 这种 TF-IDF 变体引入了静态文档长度规范化,以及惩罚仅部分匹配搜索查询的文档的协调因素。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

适用于处理大多数欧洲语言文档的基于语法的 tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

指定 tokenizer 类型的 URI 片段。

maxTokenLength

integer

255

最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

CommonGramTokenFilter

为索引时经常出现的字词构造 bigrams。 单个字词仍编制索引,并覆盖 bigrams。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

指定令牌筛选器类型的 URI 片段。

commonWords

string[]

常用单词集。

ignoreCase

boolean

False

一个值,该值指示常见字词匹配是否不区分大小写。 默认值为 false。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

queryMode

boolean

False

一个值,该值指示令牌筛选器是否处于查询模式。 在查询模式下,令牌筛选器会生成 bigrams,然后删除常用字词和单个字词,后跟一个常用词。 默认值为 false。

CorsOptions

定义用于控制索引的跨域资源共享(CORS)的选项。

名称 类型 说明
allowedOrigins

string[]

将向其授予 JavaScript 代码访问索引的源列表。 可以包含 {protocol}://{fully-qualified-domain-name}[:{port#}] 形式的主机列表,或单个“*”以允许所有源(不建议)。

maxAgeInSeconds

integer

浏览器应缓存 CORS 预检响应的持续时间。 默认为 5 分钟。

CustomAnalyzer

允许你控制将文本转换为可索引/可搜索令牌的过程。 它是用户定义的配置,由单个预定义的 tokenizer 和一个或多个筛选器组成。 tokenizer 负责将文本分解为令牌,以及用于修改 tokenizer 发出的令牌的筛选器。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

指定分析器类型的 URI 片段。

charFilters

CharFilterName[]

用于在标记器处理输入文本之前准备输入文本的字符筛选器列表。 例如,它们可以替换某些字符或符号。 筛选器按列出顺序运行。

name

string

分析器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

tokenFilters

TokenFilterName[]

用于筛选或修改 tokenizer 生成的令牌的令牌筛选器列表。 例如,可以指定将所有字符转换为小写的小写筛选器。 筛选器按列出顺序运行。

tokenizer

LexicalTokenizerName

用于将连续文本划分为一系列标记的 tokenizer 的名称,例如将句子分解为单词。

DictionaryDecompounderTokenFilter

分解许多德语语言中发现的复合词。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

指定令牌筛选器类型的 URI 片段。

maxSubwordSize

integer

15

最大子字大小。 仅输出比此短的子词。 默认值为 15。 最大值为 300。

minSubwordSize

integer

2

最小子字大小。 输出的子词长度仅超过此长度。 默认值为 2。 最大值为 300。

minWordSize

integer

5

最小字大小。 仅处理超过此长度的单词。 默认值为 5。 最大值为 300。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

onlyLongestMatch

boolean

False

一个值,该值指示是否仅向输出添加最长匹配的子词。 默认值为 false。

wordList

string[]

要与之匹配的字词列表。

DistanceScoringFunction

定义基于地理位置距离提升分数的函数。

名称 类型 说明
boost

number

原始分数的乘数。 必须是不等于 1.0 的正数。

distance

DistanceScoringParameters

距离评分函数的参数值。

fieldName

string

用作评分函数输入的字段的名称。

interpolation

ScoringFunctionInterpolation

一个值,该值指示如何在文档分数之间内插提升;默认值为“Linear”。

type string:

distance

指示要使用的函数的类型。 有效值包括数量级、新鲜度、距离和标记。 函数类型必须小写。

DistanceScoringParameters

向距离评分函数提供参数值。

名称 类型 说明
boostingDistance

number

距离提升范围结束的参考位置的距离(以公里为单位)。

referencePointParameter

string

在搜索查询中传递的参数的名称,用于指定引用位置。

EdgeNGramTokenFilter

从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

指定令牌筛选器类型的 URI 片段。

maxGram

integer

2

最大 n 元语法长度。 默认值为 2。

minGram

integer

1

最小 n 元语法长度。 默认值为 1。 必须小于 maxGram 的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

side

EdgeNGramTokenFilterSide

front

指定应从中生成 n 元语法的输入的哪一端。 默认值为“front”。

EdgeNGramTokenFilterSide

指定应从中生成 n 元语法的输入的哪一端。

名称 类型 说明
back

string

指定应从输入的后面生成 n 元语法。

front

string

指定应从输入的前面生成 n 元语法。

EdgeNGramTokenFilterV2

从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

指定令牌筛选器类型的 URI 片段。

maxGram

integer

2

最大 n 元语法长度。 默认值为 2。 最大值为 300。

minGram

integer

1

最小 n 元语法长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

side

EdgeNGramTokenFilterSide

front

指定应从中生成 n 元语法的输入的哪一端。 默认值为“front”。

EdgeNGramTokenizer

将输入从边缘标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

指定 tokenizer 类型的 URI 片段。

maxGram

integer

2

最大 n 元语法长度。 默认值为 2。 最大值为 300。

minGram

integer

1

最小 n 元语法长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

tokenChars

TokenCharacterKind[]

要保留在令牌中的字符类。

ElisionTokenFilter

删除 elisions。 例如,“l'avion”(平面)将转换为“avion”(平面)。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

指定令牌筛选器类型的 URI 片段。

articles

string[]

要删除的项目集。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

ErrorAdditionalInfo

资源管理错误附加信息。

名称 类型 说明
info

object

其他信息。

type

string

其他信息类型。

ErrorDetail

错误详细信息。

名称 类型 说明
additionalInfo

ErrorAdditionalInfo[]

错误附加信息。

code

string

错误代码。

details

ErrorDetail[]

错误详细信息。

message

string

错误消息。

target

string

错误目标。

ErrorResponse

错误响应

名称 类型 说明
error

ErrorDetail

错误对象。

ExhaustiveKnnParameters

包含特定于详尽 KNN 算法的参数。

名称 类型 说明
metric

VectorSearchAlgorithmMetric

用于矢量比较的相似性指标。

ExhaustiveKnnVectorSearchAlgorithmConfiguration

包含特定于查询期间使用的详尽 KNN 算法的配置选项,该算法将在整个矢量索引中执行暴力搜索。

名称 类型 说明
exhaustiveKnnParameters

ExhaustiveKnnParameters

包含特定于详尽 KNN 算法的参数。

kind string:

exhaustiveKnn

要配置为用于矢量搜索的算法类型的名称。

name

string

要与此特定配置关联的名称。

FreshnessScoringFunction

定义一个函数,该函数根据日期时间字段的值提升分数。

名称 类型 说明
boost

number

原始分数的乘数。 必须是不等于 1.0 的正数。

fieldName

string

用作评分函数输入的字段的名称。

freshness

FreshnessScoringParameters

新鲜度评分函数的参数值。

interpolation

ScoringFunctionInterpolation

一个值,该值指示如何在文档分数之间内插提升;默认值为“Linear”。

type string:

freshness

指示要使用的函数的类型。 有效值包括数量级、新鲜度、距离和标记。 函数类型必须小写。

FreshnessScoringParameters

为新鲜度评分函数提供参数值。

名称 类型 说明
boostingDuration

string

过期期限之后,特定文档的提升将停止。

HnswParameters

包含特定于 HNSW 算法的参数。

名称 类型 默认值 说明
efConstruction

integer

400

包含最近的邻居的动态列表的大小,该列表在索引期间使用。 增加此参数可能会提高索引质量,但代价是索引编制时间增加。 在某些时候,增加此参数会导致返回减少。

efSearch

integer

500

包含最近邻居的动态列表的大小,该列表在搜索期间使用。 增加此参数可能会改善搜索结果,但代价是搜索速度较慢。 在某些时候,增加此参数会导致返回减少。

m

integer

4

在构造过程中为每个新元素创建的双向链接数。 增加此参数值可能会提高召回率,并减少具有高内在维度的数据集的检索时间,代价是内存消耗增加和索引时间更长。

metric

VectorSearchAlgorithmMetric

用于矢量比较的相似性指标。

HnswVectorSearchAlgorithmConfiguration

包含特定于 HNSW 近似近邻算法的配置选项,这些算法用于索引和查询。 HNSW 算法在搜索速度和准确性之间提供了一种无法权衡的权衡。

名称 类型 说明
hnswParameters

HnswParameters

包含特定于 HNSW 算法的参数。

kind string:

hnsw

要配置为用于矢量搜索的算法类型的名称。

name

string

要与此特定配置关联的名称。

InputFieldMappingEntry

技能的输入字段映射。

名称 类型 说明
inputs

InputFieldMappingEntry[]

创建复杂类型时使用的递归输入。

name

string

输入的名称。

source

string

输入的源。

sourceContext

string

用于选择递归输入的源上下文。

KeepTokenFilter

一个标记筛选器,它只保留包含指定字词列表中的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

指定令牌筛选器类型的 URI 片段。

keepWords

string[]

要保留的字词列表。

keepWordsCase

boolean

False

一个值,指示是否先小写所有单词。 默认值为 false。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

KeywordMarkerTokenFilter

将术语标记为关键字。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

指定令牌筛选器类型的 URI 片段。

ignoreCase

boolean

False

一个值,指示是否忽略大小写。 如果为 true,则首先将所有单词转换为小写。 默认值为 false。

keywords

string[]

要标记为关键字的字词列表。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

KeywordTokenizer

以单个标记的形式发出整个输入。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

指定 tokenizer 类型的 URI 片段。

bufferSize

integer

256

读取缓冲区大小(以字节为单位)。 默认值为 256。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

KeywordTokenizerV2

以单个标记的形式发出整个输入。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

指定 tokenizer 类型的 URI 片段。

maxTokenLength

integer

256

最大令牌长度。 默认值为 256。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

LengthTokenFilter

删除太长或太短的字词。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

指定令牌筛选器类型的 URI 片段。

max

integer

300

最大长度(以字符为单位)。 默认值和最大值为 300。

min

integer

0

字符的最小长度。 默认值为 0。 最大值为 300。 必须小于最大值的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

LexicalAnalyzerName

定义搜索引擎支持的所有文本分析器的名称。

名称 类型 说明
ar.lucene

string

用于阿拉伯语的 Lucene 分析器。

ar.microsoft

string

Microsoft阿拉伯语分析器。

bg.lucene

string

保加利亚语的 Lucene 分析器。

bg.microsoft

string

Microsoft保加利亚分析器。

bn.microsoft

string

孟加拉语的Microsoft分析器。

ca.lucene

string

加泰罗尼亚语的 Lucene 分析器。

ca.microsoft

string

加泰罗尼亚语Microsoft分析器。

cs.lucene

string

用于捷克的 Lucene 分析器。

cs.microsoft

string

适用于捷克的Microsoft分析器。

da.lucene

string

丹麦语的 Lucene 分析器。

da.microsoft

string

适用于丹麦语的Microsoft分析器。

de.lucene

string

用于德语的 Lucene 分析器。

de.microsoft

string

适用于德语的Microsoft分析器。

el.lucene

string

用于希腊的 Lucene 分析器。

el.microsoft

string

适用于希腊的Microsoft分析器。

en.lucene

string

用于英语的 Lucene 分析器。

en.microsoft

string

Microsoft英语分析器。

es.lucene

string

用于西班牙语的 Lucene 分析器。

es.microsoft

string

Microsoft西班牙语分析器。

et.microsoft

string

爱沙尼亚Microsoft分析器。

eu.lucene

string

用于巴斯克的 Lucene 分析器。

fa.lucene

string

波斯语的 Lucene 分析器。

fi.lucene

string

芬兰语的 Lucene 分析器。

fi.microsoft

string

Microsoft芬兰语分析器。

fr.lucene

string

用于法语的 Lucene 分析器。

fr.microsoft

string

Microsoft法语分析器。

ga.lucene

string

用于爱尔兰的 Lucene 分析器。

gl.lucene

string

用于加利西亚的 Lucene 分析器。

gu.microsoft

string

Microsoft古吉拉特分析器。

he.microsoft

string

适用于希伯来语的Microsoft分析器。

hi.lucene

string

Lucene 分析器用于印地语。

hi.microsoft

string

Microsoft印地语分析器。

hr.microsoft

string

适用于克罗地亚的Microsoft分析器。

hu.lucene

string

用于匈牙利语的 Lucene 分析器。

hu.microsoft

string

匈牙利语Microsoft分析器。

hy.lucene

string

亚美尼亚语的 Lucene 分析器。

id.lucene

string

适用于印度尼西亚的 Lucene 分析器。

id.microsoft

string

印度尼西亚Microsoft分析器(巴萨)。

is.microsoft

string

Microsoft冰岛分析器。

it.lucene

string

用于意大利语的 Lucene 分析器。

it.microsoft

string

Microsoft意大利语分析器。

ja.lucene

string

用于日语的 Lucene 分析器。

ja.microsoft

string

适用于日语的Microsoft分析器。

keyword

string

将字段的全部内容视为单个标记。 这对于邮政编码、ID 和某些产品名称等数据非常有用。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Microsoft Kannada 分析器。

ko.lucene

string

用于朝鲜语的 Lucene 分析器。

ko.microsoft

string

适用于朝鲜语的Microsoft分析器。

lt.microsoft

string

Microsoft立陶宛分析器。

lv.lucene

string

用于拉脱维亚的 Lucene 分析器。

lv.microsoft

string

Microsoft拉脱维亚分析器。

ml.microsoft

string

Microsoft马拉雅拉姆分析器。

mr.microsoft

string

Microsoft用于马拉蒂的分析器。

ms.microsoft

string

Microsoft马来语分析器(拉丁语)。

nb.microsoft

string

Microsoft挪威分析器(博克马尔)。

nl.lucene

string

用于荷兰的 Lucene 分析器。

nl.microsoft

string

适用于荷兰的Microsoft分析器。

no.lucene

string

挪威语的 Lucene 分析器。

pa.microsoft

string

Microsoft旁遮普分析器。

pattern

string

灵活将文本通过正则表达式模式分隔为字词。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

用于波兰的 Lucene 分析器。

pl.microsoft

string

Microsoft波兰分析器。

pt-BR.lucene

string

葡萄牙语(巴西)的 Lucene 分析器。

pt-BR.microsoft

string

Microsoft葡萄牙语(巴西)分析器。

pt-PT.lucene

string

葡萄牙语(葡萄牙)的 Lucene 分析器。

pt-PT.microsoft

string

Microsoft葡萄牙分析器(葡萄牙)。

ro.lucene

string

罗马尼亚语的 Lucene 分析器。

ro.microsoft

string

Microsoft罗马尼亚语分析器。

ru.lucene

string

用于俄语的 Lucene 分析器。

ru.microsoft

string

适用于俄语的Microsoft分析器。

simple

string

将非字母的文本除以小写形式,并将其转换为小写。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Microsoft斯洛伐克分析器。

sl.microsoft

string

斯洛文尼亚Microsoft分析器。

sr-cyrillic.microsoft

string

塞尔维亚语(西里尔文)的Microsoft分析器。

sr-latin.microsoft

string

Microsoft塞尔维亚语(拉丁语)分析器。

standard.lucene

string

标准 Lucene 分析器。

standardasciifolding.lucene

string

标准 ASCII 折叠 Lucene 分析器。 请参阅 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

以非字母分隔文本;应用小写和非索引字标记筛选器。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

用于瑞典的 Lucene 分析器。

sv.microsoft

string

Microsoft用于瑞典的分析器。

ta.microsoft

string

泰米尔语Microsoft分析器。

te.microsoft

string

Microsoft Telugu 分析器。

th.lucene

string

用于泰国的 Lucene 分析器。

th.microsoft

string

Microsoft泰语分析器。

tr.lucene

string

用于土耳其的 Lucene 分析器。

tr.microsoft

string

适用于土耳其的Microsoft分析器。

uk.microsoft

string

Microsoft乌克兰语分析器。

ur.microsoft

string

用于乌尔都语的Microsoft分析器。

vi.microsoft

string

Microsoft越南语分析器。

whitespace

string

使用空格 tokenizer 的分析器。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

用于中文的 Lucene 分析器(简体中文)。

zh-Hans.microsoft

string

Microsoft中文分析器(简体中文)。

zh-Hant.lucene

string

中国(传统)的 Lucene 分析器。

zh-Hant.microsoft

string

Microsoft中国(传统)分析器。

LexicalTokenizerName

定义搜索引擎支持的所有 tokenizer 的名称。

名称 类型 说明
classic

string

适用于处理大多数欧洲语言文档的基于语法的 tokenizer。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

将输入从边缘标记为给定大小的 n 元语法。 请参阅 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

以单个标记的形式发出整个输入。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

以非字母分隔文本。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

将非字母的文本除以小写形式,并将其转换为小写。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

使用特定于语言的规则划分文本,并将单词减少到其基形式。

microsoft_language_tokenizer

string

使用特定于语言的规则划分文本。

nGram

string

将输入标记为给定大小的 n 元语法。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

类似路径层次结构的 Tokenizer。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

使用正则表达式模式匹配构造不同令牌的 Tokenizer。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

标准 Lucene 分析器;由标准 tokenizer、小写筛选器和停止筛选器组成。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

将 URL 和电子邮件作为一个令牌进行标记化。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

将文本除以空格。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

在编制索引时限制令牌数。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

指定令牌筛选器类型的 URI 片段。

consumeAllTokens

boolean

False

一个值,该值指示是否必须使用输入中的所有令牌,即使达到 maxTokenCount 也是如此。 默认值为 false。

maxTokenCount

integer

1

要生成的令牌的最大数目。 默认值为 1。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

LuceneStandardAnalyzer

标准 Apache Lucene 分析器;由标准 tokenizer、小写筛选器和停止筛选器组成。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

指定分析器类型的 URI 片段。

maxTokenLength

integer

255

最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。

name

string

分析器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

stopwords

string[]

非索引字列表。

LuceneStandardTokenizer

中断 Unicode 文本分段规则后面的文本。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

指定 tokenizer 类型的 URI 片段。

maxTokenLength

integer

255

最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

LuceneStandardTokenizerV2

中断 Unicode 文本分段规则后面的文本。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

指定 tokenizer 类型的 URI 片段。

maxTokenLength

integer

255

最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

MagnitudeScoringFunction

定义一个函数,该函数根据数值字段的大小提升分数。

名称 类型 说明
boost

number

原始分数的乘数。 必须是不等于 1.0 的正数。

fieldName

string

用作评分函数输入的字段的名称。

interpolation

ScoringFunctionInterpolation

一个值,该值指示如何在文档分数之间内插提升;默认值为“Linear”。

magnitude

MagnitudeScoringParameters

数量级评分函数的参数值。

type string:

magnitude

指示要使用的函数的类型。 有效值包括数量级、新鲜度、距离和标记。 函数类型必须小写。

MagnitudeScoringParameters

向数量级评分函数提供参数值。

名称 类型 说明
boostingRangeEnd

number

提升结束的字段值。

boostingRangeStart

number

启动提升的字段值。

constantBoostBeyondRange

boolean

一个值,指示是否对超出范围结束值的字段值应用常量提升;默认值为 false。

MappingCharFilter

一个字符筛选器,它应用使用映射选项定义的映射。 匹配是贪婪(给定点获胜时最长的模式匹配)。 允许替换为空字符串。 此字符筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

指定字符筛选器类型的 URI 片段。

mappings

string[]

以下格式的映射列表:“a=>b”(字符“a”的所有匹配项都将替换为字符“b”)。

name

string

字符筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

MicrosoftLanguageStemmingTokenizer

使用特定于语言的规则划分文本,并将单词减少到其基形式。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

指定 tokenizer 类型的 URI 片段。

isSearchTokenizer

boolean

False

一个值,指示如何使用 tokenizer。 如果用作搜索标记器,则设置为 true,如果用作索引标记器,则设置为 false。 默认值为 false。

language

MicrosoftStemmingTokenizerLanguage

要使用的语言。 默认值为英语。

maxTokenLength

integer

255

最大令牌长度。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌,然后根据设置的最大令牌长度拆分每个令牌。 默认值为 255。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

MicrosoftLanguageTokenizer

使用特定于语言的规则划分文本。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

指定 tokenizer 类型的 URI 片段。

isSearchTokenizer

boolean

False

一个值,指示如何使用 tokenizer。 如果用作搜索标记器,则设置为 true,如果用作索引标记器,则设置为 false。 默认值为 false。

language

MicrosoftTokenizerLanguage

要使用的语言。 默认值为英语。

maxTokenLength

integer

255

最大令牌长度。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌,然后根据设置的最大令牌长度拆分每个令牌。 默认值为 255。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

MicrosoftStemmingTokenizerLanguage

列出Microsoft语言词干标记器支持的语言。

名称 类型 说明
arabic

string

为阿拉伯语选择Microsoft词干标记器。

bangla

string

为孟加拉语选择Microsoft词干标记器。

bulgarian

string

为保加利亚人选择Microsoft词干标记器。

catalan

string

选择加泰罗尼亚语的Microsoft词干标记器。

croatian

string

为克罗地亚选择Microsoft词干标记器。

czech

string

为捷克选择Microsoft词干标记器。

danish

string

为丹麦语选择Microsoft词干标记器。

dutch

string

为荷兰人选择Microsoft词干标记器。

english

string

为英语选择Microsoft词干标记器。

estonian

string

选择爱沙尼亚语的Microsoft词干标记器。

finnish

string

为芬兰人选择Microsoft词干标记器。

french

string

为法语选择Microsoft词干标记器。

german

string

为德语选择Microsoft词干标记器。

greek

string

为希腊选择Microsoft词干标记器。

gujarati

string

为古吉拉特选择Microsoft词干标记器。

hebrew

string

为希伯来语选择Microsoft词干标记器。

hindi

string

为印地语选择Microsoft词干标记器。

hungarian

string

选择匈牙利语的Microsoft词干标记器。

icelandic

string

为冰岛人选择Microsoft词干标记器。

indonesian

string

为印度尼西亚语选择Microsoft词干标记器。

italian

string

为意大利语选择Microsoft词干标记器。

kannada

string

为 Kannada 选择Microsoft词干标记器。

latvian

string

选择拉脱维亚语的Microsoft词干标记器。

lithuanian

string

为立陶宛人选择Microsoft词干标记器。

malay

string

选择马来语的Microsoft词干标记器。

malayalam

string

为马拉雅拉姆选择Microsoft词干标记器。

marathi

string

为 Marathi 选择Microsoft词干标记器。

norwegianBokmaal

string

为挪威语(Bokmål)选择Microsoft词干标记器。

polish

string

为波兰选择Microsoft词干标记器。

portuguese

string

为葡萄牙语选择Microsoft词干标记器。

portugueseBrazilian

string

为葡萄牙语(巴西)选择Microsoft词干标记器。

punjabi

string

为旁遮普选择Microsoft词干标记器。

romanian

string

为罗马尼亚语选择Microsoft词干标记器。

russian

string

为俄语选择Microsoft词干标记器。

serbianCyrillic

string

为塞尔维亚语(西里尔文)选择Microsoft词干标记器。

serbianLatin

string

为塞尔维亚语(拉丁语)选择Microsoft词干标记器。

slovak

string

选择斯洛伐克语的Microsoft词干标记器。

slovenian

string

选择斯洛文尼亚语的Microsoft词干标记器。

spanish

string

为西班牙语选择Microsoft词干标记器。

swedish

string

为瑞典人选择Microsoft词干标记器。

tamil

string

为泰米尔选择Microsoft词干标记器。

telugu

string

为 Telugu 选择Microsoft词干标记器。

turkish

string

为土耳其选择Microsoft词干标记器。

ukrainian

string

选择乌克兰语的Microsoft词干标记器。

urdu

string

为乌尔都语选择Microsoft词干标记器。

MicrosoftTokenizerLanguage

列出Microsoft语言标记器支持的语言。

名称 类型 说明
bangla

string

选择孟加拉语的Microsoft标记器。

bulgarian

string

为保加利亚人选择Microsoft标记器。

catalan

string

选择加泰罗尼亚语的Microsoft标记器。

chineseSimplified

string

为中文(简体中文)选择Microsoft标记器。

chineseTraditional

string

为中文(传统)选择Microsoft标记器。

croatian

string

为克罗地亚选择Microsoft tokenizer。

czech

string

为捷克选择Microsoft标记器。

danish

string

为丹麦语选择Microsoft tokenizer。

dutch

string

为荷兰人选择Microsoft tokenizer。

english

string

为英语选择Microsoft标记器。

french

string

为法语选择Microsoft tokenizer。

german

string

为德语选择Microsoft tokenizer。

greek

string

为希腊语选择Microsoft tokenizer。

gujarati

string

为古吉拉特选择Microsoft标记器。

hindi

string

为印地语选择Microsoft标记器。

icelandic

string

为冰岛选择Microsoft标记器。

indonesian

string

为印度尼西亚语选择Microsoft标记器。

italian

string

为意大利语选择Microsoft tokenizer。

japanese

string

为日语选择Microsoft tokenizer。

kannada

string

为 Kannada 选择Microsoft标记器。

korean

string

为朝鲜语选择Microsoft tokenizer。

malay

string

为马来选择Microsoft标记器。

malayalam

string

为马拉雅拉姆选择Microsoft标记器。

marathi

string

为 Marathi 选择Microsoft标记器。

norwegianBokmaal

string

为挪威语(Bokmål)选择Microsoft标记器。

polish

string

为波兰选择Microsoft标记器。

portuguese

string

为葡萄牙语选择Microsoft标记器。

portugueseBrazilian

string

为葡萄牙语(巴西)选择Microsoft标记器。

punjabi

string

为旁遮普选择Microsoft标记器。

romanian

string

为罗马尼亚语选择Microsoft标记器。

russian

string

为俄语选择Microsoft标记器。

serbianCyrillic

string

为塞尔维亚语(西里尔文)选择Microsoft标记器。

serbianLatin

string

为塞尔维亚语(拉丁语)选择Microsoft标记器。

slovenian

string

为斯洛文尼亚人选择Microsoft标记器。

spanish

string

为西班牙语选择Microsoft tokenizer。

swedish

string

为瑞典人选择Microsoft标记器。

tamil

string

选择泰米尔语的Microsoft标记器。

telugu

string

为 Telugu 选择Microsoft tokenizer。

thai

string

为泰文选择Microsoft tokenizer。

ukrainian

string

为乌克兰语选择Microsoft标记器。

urdu

string

为乌尔都语选择Microsoft tokenizer。

vietnamese

string

为越南人选择Microsoft标记器。

NGramTokenFilter

生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

指定令牌筛选器类型的 URI 片段。

maxGram

integer

2

最大 n 元语法长度。 默认值为 2。

minGram

integer

1

最小 n 元语法长度。 默认值为 1。 必须小于 maxGram 的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

NGramTokenFilterV2

生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

指定令牌筛选器类型的 URI 片段。

maxGram

integer

2

最大 n 元语法长度。 默认值为 2。 最大值为 300。

minGram

integer

1

最小 n 元语法长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

NGramTokenizer

将输入标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

指定 tokenizer 类型的 URI 片段。

maxGram

integer

2

最大 n 元语法长度。 默认值为 2。 最大值为 300。

minGram

integer

1

最小 n 元语法长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

tokenChars

TokenCharacterKind[]

要保留在令牌中的字符类。

OutputFieldMappingEntry

技能的输出字段映射。

名称 类型 说明
name

string

技能定义的输出的名称。

targetName

string

输出的目标名称。 它是可选的,默认为名称。

PathHierarchyTokenizerV2

类似路径层次结构的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

指定 tokenizer 类型的 URI 片段。

delimiter

string

/

要使用的分隔符字符。 默认值为“/”。

maxTokenLength

integer

300

最大令牌长度。 默认值和最大值为 300。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

replacement

string

/

一个值,如果设置,则替换分隔符字符。 默认值为“/”。

reverse

boolean

False

一个值,该值指示是否按反向顺序生成令牌。 默认值为 false。

skip

integer

0

要跳过的初始令牌数。 默认值为 0。

PatternAnalyzer

灵活将文本通过正则表达式模式分隔为字词。 此分析器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

指定分析器类型的 URI 片段。

flags

RegexFlags

正则表达式标志。

lowercase

boolean

True

一个值,该值指示术语是否应小写。 默认值为 true。

name

string

分析器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

pattern

string

\W+

匹配标记分隔符的正则表达式模式。 默认值是匹配一个或多个非单词字符的表达式。

stopwords

string[]

非索引字列表。

PatternCaptureTokenFilter

使用 Java 正则表达式发出多个令牌 - 一个标记用于一个或多个模式中的每个捕获组。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

指定令牌筛选器类型的 URI 片段。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

patterns

string[]

要与每个令牌匹配的模式列表。

preserveOriginal

boolean

True

一个值,该值指示是否返回原始令牌,即使其中一个模式匹配。 默认值为 true。

PatternReplaceCharFilter

替换输入字符串中的字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列和替换模式来标识要替换的字符。 例如,假设输入文本“aa bb aa bb”,模式“(aa)\s+(bb)”,并替换“$1#$2”,结果将为“aa#bb aa#bb”。 此字符筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

指定字符筛选器类型的 URI 片段。

name

string

字符筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

pattern

string

正则表达式模式。

replacement

string

替换文本。

PatternReplaceTokenFilter

替换输入字符串中的字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列和替换模式来标识要替换的字符。 例如,假设输入文本“aa bb aa bb”,模式“(aa)\s+(bb)”,并替换“$1#$2”,结果将为“aa#bb aa#bb”。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

指定令牌筛选器类型的 URI 片段。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

pattern

string

正则表达式模式。

replacement

string

替换文本。

PatternTokenizer

使用正则表达式模式匹配构造不同令牌的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

指定 tokenizer 类型的 URI 片段。

flags

RegexFlags

正则表达式标志。

group

integer

-1

正则表达式模式中匹配组的从零开始的序号,用于提取到令牌中。 如果要使用整个模式将输入拆分为标记,而不考虑匹配组,请使用 -1。 默认值为 -1。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

pattern

string

\W+

匹配标记分隔符的正则表达式模式。 默认值是匹配一个或多个非单词字符的表达式。

PhoneticEncoder

标识要与 PhoneticTokenFilter 一起使用的拼音编码器的类型。

名称 类型 说明
beiderMorse

string

将令牌编码为 Beider-Morse 值。

caverphone1

string

将令牌编码为 Caverphone 1.0 值。

caverphone2

string

将令牌编码为 Caverphone 2.0 值。

cologne

string

将令牌编码为科隆拼音值。

doubleMetaphone

string

将令牌编码为双元手机值。

haasePhonetik

string

使用 Kölner Phonetik 算法的 Haase 优化对令牌进行编码。

koelnerPhonetik

string

使用 Kölner Phonetik 算法对令牌进行编码。

metaphone

string

将令牌编码为 Metaphone 值。

nysiis

string

将令牌编码为 NYSIIS 值。

refinedSoundex

string

将令牌编码为精简的 Soundex 值。

soundex

string

将令牌编码为 Soundex 值。

PhoneticTokenFilter

为拼音匹配创建令牌。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

指定令牌筛选器类型的 URI 片段。

encoder

PhoneticEncoder

metaphone

要使用的拼音编码器。 默认值为“metaphone”。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

replace

boolean

True

一个值,该值指示编码的令牌是否应替换原始令牌。 如果为 false,则编码的令牌将添加为同义词。 默认值为 true。

PrioritizedFields

描述要用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。

名称 类型 说明
prioritizedContentFields

SemanticField[]

定义要用于语义排名、标题、突出显示和答案的内容字段。 为了获得最佳结果,所选字段应包含自然语言形式的文本。 数组中字段的顺序表示其优先级。 如果内容很长,优先级较低的字段可能会截断。

prioritizedKeywordsFields

SemanticField[]

定义用于语义排名、标题、突出显示和答案的关键字字段。 为了获得最佳结果,所选字段应包含关键字列表。 数组中字段的顺序表示其优先级。 如果内容很长,优先级较低的字段可能会截断。

titleField

SemanticField

定义用于语义排名、标题、突出显示和答案的标题字段。 如果索引中没有标题字段,请将此字段留空。

RegexFlags

定义可以组合的标志,以控制在模式分析器和模式标记器中使用正则表达式的方式。

名称 类型 说明
CANON_EQ

string

启用规范等效性。

CASE_INSENSITIVE

string

启用不区分大小写的匹配。

COMMENTS

string

允许模式中的空格和注释。

DOTALL

string

启用 dotall 模式。

LITERAL

string

启用模式的文本分析。

MULTILINE

string

启用多行模式。

UNICODE_CASE

string

启用 Unicode 感知大小写折叠。

UNIX_LINES

string

启用 Unix 行模式。

ScalarQuantizationParameters

包含特定于标量量化的参数。

名称 类型 说明
quantizedDataType

VectorSearchCompressionTargetDataType

压缩矢量值的量化数据类型。

ScalarQuantizationVectorSearchCompressionConfiguration

包含特定于索引和查询期间使用的标量量化压缩方法的配置选项。

名称 类型 默认值 说明
defaultOversampling

number

默认过度采样因子。 在初始搜索中,过度采样将在内部请求更多文档(由此乘数指定)。 这会增加使用全精度向量重新计算相似性分数重新计算的结果集。 最小值为 1,这意味着没有过度采样(1x)。 仅当 rerankWithOriginalVectors 为 true 时,才能设置此参数。 较高的值会以牺牲延迟为代价提高召回率。

kind string:

scalarQuantization

要配置为用于矢量搜索的压缩方法类型的名称。

name

string

要与此特定配置关联的名称。

rerankWithOriginalVectors

boolean

True

如果设置为 true,则获取使用压缩向量计算的有序结果集后,将通过重新计算全精度相似性分数来重新计算结果集。 这将提高召回率,代价是延迟。

scalarQuantizationParameters

ScalarQuantizationParameters

包含特定于标量量化的参数。

ScoringFunctionAggregation

定义用于合并计分配置文件中所有评分函数的结果的聚合函数。

名称 类型 说明
average

string

按所有评分函数结果的平均值提升分数。

firstMatching

string

使用评分配置文件中的第一个适用的评分函数提升分数。

maximum

string

将所有评分函数结果的最大值提升分数。

minimum

string

将所有评分函数结果的最小值提高分数。

sum

string

按所有评分函数结果的总和提升分数。

ScoringFunctionInterpolation

定义用于跨一系列文档内插分数提升的函数。

名称 类型 说明
constant

string

按常量因子提升分数。

linear

string

通过线性递减量提高分数。 这是评分函数的默认内插。

logarithmic

string

将分数提高为对数减少的量。 为了提高分数,提升速度会很快下降,分数降低时速度会越来越慢。 标记评分函数中不允许使用此内插选项。

quadratic

string

将分数提升为四次减少的量。 随着分数的降低,提升速度会慢慢降低,分数越快。 标记评分函数中不允许使用此内插选项。

ScoringProfile

定义影响搜索查询中评分的搜索索引的参数。

名称 类型 说明
functionAggregation

ScoringFunctionAggregation

一个值,该值指示应如何组合单个评分函数的结果。 默认值为“Sum”。 如果没有评分函数,则忽略。

functions ScoringFunction[]:

影响文档评分的函数的集合。

name

string

计分配置文件的名称。

text

TextWeights

基于某些索引字段中的文本匹配项提升评分的参数。

SearchField

表示索引定义中的字段,该定义描述字段的名称、数据类型和搜索行为。

名称 类型 说明
analyzer

LexicalAnalyzerName

要用于字段的分析器的名称。 此选项只能与可搜索字段一起使用,不能与 searchAnalyzer 或 indexAnalyzer 一起设置。 选择分析器后,无法更改该字段。 复杂字段必须为 null。

dimensions

integer

矢量字段的维度。

facetable

boolean

一个值,该值指示是否允许在分面查询中引用字段。 通常用于按类别显示的搜索结果(例如,按品牌搜索、按百万像素、按价格等)搜索数字摄像头并查看命中次数)。 对于复杂字段,此属性必须为 null。 无法分面 Edm.GeographyPoint 或 Collection(Edm.GeographyPoint)类型的字段。 对于所有其他简单字段,默认值为 true。

fields

SearchField[]

如果这是类型为 Edm.ComplexType 或 Collection(Edm.ComplexType)的字段,则为子字段的列表。 对于简单字段,必须为 null 或为空。

filterable

boolean

一个值,该值指示是否允许在$filter查询中引用字段。 filterable 不同于可搜索的字符串的处理方式。 可筛选的 Edm.String 或 Collection(Edm.String)类型的字段不会进行断字,因此比较仅适用于完全匹配项。 例如,如果将此类字段 f 设置为“sunny day”,则 $filter=f eq 'sunny' 将找不到匹配项,但 $filter=f eq 'sunny day' 将。 对于复杂字段,此属性必须为 null。 对于简单字段,默认值为 true,复杂字段的默认值为 null。

indexAnalyzer

LexicalAnalyzerName

在索引时为字段使用的分析器的名称。 此选项只能与可搜索字段一起使用。 它必须与 searchAnalyzer 一起设置,并且不能与分析器选项一起设置。 此属性不能设置为语言分析器的名称;如果需要语言分析器,请改用分析器属性。 选择分析器后,无法更改该字段。 复杂字段必须为 null。

key

boolean

一个值,该值指示字段是否唯一标识索引中的文档。 每个索引中的一个顶级字段必须选择为键字段,并且必须的类型为 Edm.String。 键字段可用于直接查找文档并更新或删除特定文档。 对于简单字段,默认值为 false,复杂字段为 null。

name

string

字段的名称,在索引或父字段的字段集合中必须唯一。

retrievable

boolean

一个值,该值指示是否可以在搜索结果中返回字段。 如果要使用字段(例如边距)作为筛选器、排序或评分机制,但不希望字段对最终用户可见,则可以禁用此选项。 对于键字段,此属性必须为 true,对于复杂字段,此属性必须为 null。 可以在现有字段上更改此属性。 启用此属性不会导致索引存储要求增加。 对于简单字段,默认值为 true,矢量字段为 false,复杂字段为 null。

searchAnalyzer

LexicalAnalyzerName

在搜索时用于字段的分析器的名称。 此选项只能与可搜索字段一起使用。 它必须与 indexAnalyzer 一起设置,并且不能与分析器选项一起设置。 此属性不能设置为语言分析器的名称;如果需要语言分析器,请改用分析器属性。 可以在现有字段中更新此分析器。 复杂字段必须为 null。

searchable

boolean

一个值,该值指示字段是否可全文搜索。 这意味着它将在编制索引期间进行断字分析。 如果将可搜索字段设置为“sunny day”等值,则内部会将其拆分为单个标记“sunny”和“day”。 这将启用全文搜索这些术语。 默认情况下,可搜索类型为 Edm.String 或 Collection(Edm.String)的字段。 对于其他非字符串数据类型的简单字段,此属性必须为 false,对于复杂字段必须为 null。 注意:可搜索字段在索引中使用额外的空间,以适应用于全文搜索的字段值的其他标记化版本。 如果要在索引中节省空间,并且不需要在搜索中包含字段,请将可搜索设置为 false。

sortable

boolean

一个值,该值指示是否启用要在$orderby表达式中引用的字段。 默认情况下,搜索引擎按分数对结果进行排序,但在很多体验中,用户希望按文档中的字段进行排序。 仅当简单字段是单值(它在父文档的作用域中具有单个值)时,才能进行排序。 简单集合字段不可排序,因为它们是多值。 复杂集合的简单子字段也是多值,因此无法排序。 无论是直接父字段还是上级字段,都是复杂的集合,都是如此。 复杂字段不可排序,并且此类字段的可排序属性必须为 null。 对于单值简单字段,可排序的默认值为 true,对于多值简单字段为 false,对于复杂字段为 null。

stored

boolean

一个不可变值,该值指示字段是否将单独保存在要在搜索结果中返回的磁盘上。 如果不打算在搜索响应中返回字段内容以节省存储开销,则可以禁用此选项。 这只能在创建索引期间设置,并且只能为向量字段设置。 对于现有字段,不能更改此属性,也不能为新字段设置为 false。 如果此属性设置为 false,则属性“可检索”也必须设置为 false。 对于键字段、新字段和非向量字段,此属性必须为 true 或未设置,并且对于复杂字段必须为 null。 禁用此属性可以减少索引存储要求。 矢量字段的默认值为 true。

synonymMaps

string[]

要与此字段关联的同义词的名称列表。 此选项只能与可搜索字段一起使用。 目前每个字段仅支持一个同义词映射。 将同义词映射分配给字段可确保使用同义词映射中的规则在查询时扩展针对该字段的查询词。 可以在现有字段上更改此属性。 对于复杂字段,必须为 null 或空集合。

type

SearchFieldDataType

字段的数据类型。

vectorEncoding

VectorEncodingFormat

用于解释字段内容的编码格式。

vectorSearchProfile

string

矢量搜索配置文件的名称,该配置文件指定要在搜索向量字段时使用的算法和向量器。

SearchFieldDataType

定义搜索索引中字段的数据类型。

名称 类型 说明
Edm.Boolean

string

指示字段包含布尔值(true 或 false)。

Edm.Byte

string

指示字段包含 8 位无符号整数。 仅当与 Collection(Edm.Byte 一起使用)时才有效。

Edm.ComplexType

string

指示字段包含一个或多个复杂对象,而这些对象又包含其他类型的子字段。

Edm.DateTimeOffset

string

指示字段包含日期/时间值,包括时区信息。

Edm.Double

string

指示字段包含 IEEE 双精度浮点数。

Edm.GeographyPoint

string

指示字段在经度和纬度方面包含地理位置。

Edm.Half

string

指示字段包含半精度浮点数。 仅当与 Collection(Edm.Half)一起使用时才有效。

Edm.Int16

string

指示字段包含 16 位带符号整数。 仅当与 Collection(Edm.Int16 一起使用)时才有效。

Edm.Int32

string

指示字段包含 32 位有符号整数。

Edm.Int64

string

指示字段包含 64 位有符号整数。

Edm.SByte

string

指示字段包含 8 位有符号整数。 仅当与 Collection(Edm.SByte 一起使用)时才有效。

Edm.Single

string

指示字段包含单精度浮点数。 仅当与 Collection(Edm.Single)一起使用时才有效。

Edm.String

string

指示字段包含字符串。

SearchIndex

表示搜索索引定义,该定义描述索引的字段和搜索行为。

名称 类型 说明
@odata.etag

string

索引的 ETag。

analyzers LexicalAnalyzer[]:

索引的分析器。

charFilters CharFilter[]:

索引的字符筛选器。

corsOptions

CorsOptions

用于控制索引的跨域资源共享(CORS)的选项。

defaultScoringProfile

string

如果在查询中未指定评分配置文件,则使用的名称。 如果未设置此属性,并且查询中未指定任何评分配置文件,则将使用默认评分(tf-idf)。

encryptionKey

SearchResourceEncryptionKey

描述在 Azure Key Vault 中创建的加密密钥。 当你希望完全保证没有人(甚至Microsoft)可以解密数据时,此密钥用于为数据提供额外的静态加密级别。 加密数据后,数据将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果需要轮换加密密钥,可以根据需要更改此属性;你的数据将不受影响。 使用客户管理的密钥加密不适用于免费搜索服务,并且仅适用于在 2019 年 1 月 1 日或之后创建的付费服务。

fields

SearchField[]

索引的字段。

name

string

索引的名称。

scoringProfiles

ScoringProfile[]

索引的计分配置文件。

semantic

SemanticSettings

定义影响语义功能的搜索索引的参数。

similarity Similarity:

评分和排名与搜索查询匹配的文档时使用的相似性算法的类型。 相似性算法只能在索引创建时定义,不能在现有索引上修改。 如果为 null,则使用 ClassicSimilarity 算法。

suggesters

Suggester[]

索引的建议器。

tokenFilters TokenFilter[]:

标记筛选索引。

tokenizers LexicalTokenizer[]:

索引的 tokenizer。

vectorSearch

VectorSearch

包含与矢量搜索相关的配置选项。

SearchIndexerDataNoneIdentity

清除数据源的标识属性。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.DataNoneIdentity

指定标识类型的 URI 片段。

SearchIndexerDataUserAssignedIdentity

指定要使用的数据源的标识。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.DataUserAssignedIdentity

指定标识类型的 URI 片段。

userAssignedIdentity

string

用户分配的托管标识的完全限定的 Azure 资源 ID 通常以“/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentity/myId”的形式分配给搜索服务。

SearchResourceEncryptionKey

Azure Key Vault 中的客户管理的加密密钥。 创建和管理的密钥可用于加密或解密静态数据,例如索引和同义词映射。

名称 类型 说明
accessCredentials

AzureActiveDirectoryApplicationCredentials

用于访问 Azure Key Vault 的可选 Azure Active Directory 凭据。 如果改用托管标识,则不需要。

keyVaultKeyName

string

用于加密静态数据的 Azure Key Vault 密钥的名称。

keyVaultKeyVersion

string

用于加密静态数据的 Azure Key Vault 密钥的版本。

keyVaultUri

string

Azure Key Vault 的 URI(也称为 DNS 名称),其中包含用于加密静态数据的密钥。 示例 URI 可能是 https://my-keyvault-name.vault.azure.net

SemanticConfiguration

定义要在语义功能的上下文中使用的特定配置。

名称 类型 说明
name

string

语义配置的名称。

prioritizedFields

PrioritizedFields

描述要用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。 至少需要设置三个子属性(titleField、优先级为KeywordsFields 和优先级的ContentFields)中的一个。

SemanticField

用作语义配置的一部分的字段。

名称 类型 说明
fieldName

string

SemanticSettings

定义影响语义功能的搜索索引的参数。

名称 类型 说明
configurations

SemanticConfiguration[]

索引的语义配置。

defaultConfiguration

string

允许在索引中设置默认语义配置的名称,使其可以选择每次作为查询参数传递。

ShingleTokenFilter

将令牌的组合创建为单个令牌。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

指定令牌筛选器类型的 URI 片段。

filterToken

string

_

要为没有标记的每个位置插入的字符串。 默认值为下划线(“_” )

maxShingleSize

integer

2

最大闪亮大小。 默认值和最小值为 2。

minShingleSize

integer

2

最小闪闪大小。 默认值和最小值为 2。 必须小于 maxShingleSize 的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

outputUnigrams

boolean

True

一个值,该值指示输出流是否包含输入标记(unigrams)以及分片。 默认值为 true。

outputUnigramsIfNoShingles

boolean

False

一个值,该值指示是否为这些时间输出单元语法(当没有带带线时)。 当 outputUnigrams 设置为 false 时,此属性优先。 默认值为 false。

tokenSeparator

string

联接相邻标记以形成 shingle 时要使用的字符串。 默认值为单个空格(“ ” )。

SnowballTokenFilter

使用 Snowball 生成的词干分析器词干的筛选器。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

指定令牌筛选器类型的 URI 片段。

language

SnowballTokenFilterLanguage

要使用的语言。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

SnowballTokenFilterLanguage

用于 Snowball 令牌筛选器的语言。

名称 类型 说明
armenian

string

选择亚美尼亚语的 Lucene Snowball 词干标记器。

basque

string

选择 Basque 的 Lucene Snowball 词干标记器。

catalan

string

选择加泰罗尼亚语的 Lucene Snowball 词干标记器。

danish

string

选择丹麦语的 Lucene Snowball 词干标记器。

dutch

string

为荷兰人选择 Lucene Snowball 词干标记器。

english

string

选择用于英语的 Lucene Snowball 词干标记器。

finnish

string

为芬兰人选择 Lucene Snowball 词干标记器。

french

string

为法语选择 Lucene Snowball 词干标记器。

german

string

为德语选择 Lucene Snowball 词干标记器。

german2

string

选择使用德国变体算法的 Lucene Snowball 词干标记器。

hungarian

string

选择匈牙利语的 Lucene Snowball 词干标记器。

italian

string

为意大利人选择 Lucene Snowball 词干标记器。

kp

string

为使用 Kraaij-Pohlmann 词干算法的荷兰选择 Lucene Snowball 词干词干标记器。

lovins

string

为使用 Lovins 词干算法的英语选择 Lucene Snowball 词干词干标记器。

norwegian

string

选择挪威语的 Lucene Snowball 词干标记器。

porter

string

为使用 Porter 词干算法的英语选择 Lucene Snowball 词干词干标记器。

portuguese

string

选择葡萄牙语的 Lucene Snowball 词干标记器。

romanian

string

选择罗马尼亚语的 Lucene Snowball 词干标记器。

russian

string

为俄语选择 Lucene Snowball 词干标记器。

spanish

string

选择西班牙语的 Lucene Snowball 词干标记器。

swedish

string

为瑞典人选择 Lucene Snowball 词干标记器。

turkish

string

为土耳其选择 Lucene Snowball 词干标记器。

StemmerOverrideTokenFilter

提供使用基于自定义字典的词干分析替代其他词干筛选器的功能。 任何字典词干术语都将标记为关键字,以便它们不会在链中以词干分析器进行词干。 必须放置在任何词干筛选器之前。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

指定令牌筛选器类型的 URI 片段。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

rules

string[]

采用以下格式的词干规则列表:“word => stem”,例如:“ran => run”。

StemmerTokenFilter

特定于语言的词干筛选。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

指定令牌筛选器类型的 URI 片段。

language

StemmerTokenFilterLanguage

要使用的语言。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

StemmerTokenFilterLanguage

用于词干分析器标记筛选器的语言。

名称 类型 说明
arabic

string

为阿拉伯语选择 Lucene 词干词干标记器。

armenian

string

选择亚美尼亚语的 Lucene 词干标记器。

basque

string

为 Basque 选择 Lucene 词干词干标记器。

brazilian

string

选择葡萄牙语(巴西)的 Lucene 词干标记器。

bulgarian

string

选择保加利亚语的 Lucene 词干标记器。

catalan

string

选择加泰罗尼亚语的 Lucene 词干标记器。

czech

string

选择捷克的 Lucene 词干标记器。

danish

string

为丹麦语选择 Lucene 词干词干标记器。

dutch

string

为荷兰人选择 Lucene 词干标记器。

dutchKp

string

为使用 Kraaij-Pohlmann 词干算法的荷兰选择 Lucene 词干词干标记器。

english

string

为英语选择 Lucene 词干词干标记器。

finnish

string

选择芬兰语的 Lucene 词干标记器。

french

string

为法语选择 Lucene 词干词干标记器。

galician

string

为加利西亚选择 Lucene 词干词干标记器。

german

string

为德语选择 Lucene 词干词干标记器。

german2

string

选择使用德语变体算法的 Lucene 词干词干标记器。

greek

string

为希腊文选择 Lucene 词干词干标记器。

hindi

string

为印地语选择 Lucene 词干词干标记器。

hungarian

string

选择匈牙利语的 Lucene 词干标记器。

indonesian

string

选择印尼语的 Lucene 词干标记器。

irish

string

选择爱尔兰语的 Lucene 词干标记器。

italian

string

为意大利语选择 Lucene 词干词干标记器。

latvian

string

选择拉脱维亚语的 Lucene 词干词干标记器。

lightEnglish

string

选择用于执行光词干的英语的 Lucene 词干词干标记器。

lightFinnish

string

为芬兰人选择用于执行光词干的 Lucene 词干词干标记器。

lightFrench

string

选择用于执行光词干的法语的 Lucene 词干词干标记器。

lightGerman

string

为执行光词干的德语选择 Lucene 词干词干标记器。

lightHungarian

string

为匈牙利选择执行光词干的 Lucene 词干标记器。

lightItalian

string

为意大利人选择用于执行光词干的 Lucene 词干词干标记器。

lightNorwegian

string

选择挪威语(Bokmål)的 Lucene 词干词干标记器,用于进行光词干分析。

lightNynorsk

string

选择挪威语(Nynorsk)的 Lucene 词干词干标记器,用于进行光词干分析。

lightPortuguese

string

选择用于执行光词干的葡萄牙语的 Lucene 词干词干标记器。

lightRussian

string

为执行光词干的俄罗斯选择 Lucene 词干词干标记器。

lightSpanish

string

选择用于执行光词干的西班牙语的 Lucene 词干词干标记器。

lightSwedish

string

为执行光词干的瑞典人选择 Lucene 词干词干标记器。

lovins

string

为使用 Lovins 词干算法的英语选择 Lucene 词干词干标记器。

minimalEnglish

string

为英语选择 Lucene 词干词干标记器,该标记器执行最小词干分析。

minimalFrench

string

为法语选择 Lucene 词干词干标记器,该标记器执行最小词干化。

minimalGalician

string

为加里西亚选择 Lucene 词干词干标记器,该标记器执行最小词干分析。

minimalGerman

string

为德语选择 Lucene 词干词干标记器,该标记器执行最小词干分析。

minimalNorwegian

string

选择挪威语(Bokmål)的 Lucene 词干词干标记器,该标记器执行最小词干分析。

minimalNynorsk

string

选择挪威语(Nynorsk)的 Lucene 词干词干标记器,该标记器执行最小词干分析。

minimalPortuguese

string

为葡萄牙语选择 Lucene 词干词干标记器,该标记器执行最小词干分析。

norwegian

string

选择挪威语(Bokmål)的 Lucene 词干词干标记器。

porter2

string

为使用 Porter2 词干算法的英语选择 Lucene 词干词干标记器。

portuguese

string

选择葡萄牙语的 Lucene 词干词干标记器。

portugueseRslp

string

为使用 RSLP 词干算法的葡萄牙语选择 Lucene 词干词干标记器。

possessiveEnglish

string

为英语选择 Lucene 词干标记器,以便从单词中删除尾随拥有。

romanian

string

选择罗马尼亚语的 Lucene 词干标记器。

russian

string

选择用于俄语的 Lucene 词干标记器。

sorani

string

为 Sorani 选择 Lucene 词干词干标记器。

spanish

string

选择西班牙语的 Lucene 词干标记器。

swedish

string

为瑞典人选择 Lucene 词干标记器。

turkish

string

为土耳其选择 Lucene 词干标记器。

StopAnalyzer

以非字母分隔文本;应用小写和非索引字标记筛选器。 此分析器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

指定分析器类型的 URI 片段。

name

string

分析器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

stopwords

string[]

非索引字列表。

StopwordsList

标识特定于语言的非索引字的预定义列表。

名称 类型 说明
arabic

string

选择阿拉伯语的非索引字列表。

armenian

string

选择亚美尼亚语的非索引字列表。

basque

string

选择 Basque 的非索引字列表。

brazilian

string

选择葡萄牙语(巴西)的非索引字列表。

bulgarian

string

选择保加利亚语的非索引字列表。

catalan

string

选择加泰罗尼亚语的非索引字列表。

czech

string

选择捷克语的非索引字列表。

danish

string

为丹麦语选择非索引字列表。

dutch

string

选择荷兰语的非索引字列表。

english

string

选择英语的非索引字列表。

finnish

string

为芬兰语选择非索引字列表。

french

string

选择法语的非索引字列表。

galician

string

选择加利西亚语的非索引字列表。

german

string

选择德语的非索引字列表。

greek

string

选择希腊文的非索引字列表。

hindi

string

选择印地语的非索引字列表。

hungarian

string

选择匈牙利语的非索引字列表。

indonesian

string

为印度尼西亚语选择非索引字列表。

irish

string

选择爱尔兰语的非索引字列表。

italian

string

为意大利语选择非索引字列表。

latvian

string

选择拉脱维亚语的非索引字列表。

norwegian

string

为挪威语选择非索引字列表。

persian

string

选择波斯语的非索引字列表。

portuguese

string

选择葡萄牙语的非索引字列表。

romanian

string

选择罗马尼亚语的非索引字列表。

russian

string

选择俄语的非索引字列表。

sorani

string

选择 Sorani 的非索引字列表。

spanish

string

选择西班牙语的非索引字列表。

swedish

string

为瑞典人选择非索引字列表。

thai

string

选择泰文的非索引字列表。

turkish

string

为土耳其选择非索引字列表。

StopwordsTokenFilter

从令牌流中删除停止字词。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

指定令牌筛选器类型的 URI 片段。

ignoreCase

boolean

False

一个值,指示是否忽略大小写。 如果为 true,则首先将所有单词转换为小写。 默认值为 false。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

removeTrailing

boolean

True

一个值,该值指示是否忽略最后一个搜索词(如果它是非索引字)。 默认值为 true。

stopwords

string[]

非索引字列表。 不能同时设置此属性和非索引字列表属性。

stopwordsList

StopwordsList

english

要使用的非索引字的预定义列表。 不能同时设置此属性和 stopwords 属性。 默认值为英语。

Suggester

定义建议 API 应如何应用于索引中的一组字段。

名称 类型 说明
name

string

建议器的名称。

searchMode

SuggesterSearchMode

一个值,指示建议器的功能。

sourceFields

string[]

建议器应用到的字段名称列表。 每个字段必须可搜索。

SuggesterSearchMode

一个值,指示建议器的功能。

名称 类型 说明
analyzingInfixMatching

string

匹配字段中连续的整个术语和前缀。 例如,对于字段“最快的棕色狐狸”,查询“fast”和“fastest brow”都将匹配。

SynonymTokenFilter

匹配令牌流中的单个或多单词同义词。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

指定令牌筛选器类型的 URI 片段。

expand

boolean

True

一个值,该值指示同义词列表中的所有单词(如果未使用 => 表示法),是否将相互映射。 如果为 true,同义词列表中的所有单词(如果未使用 => 表示法),则相互映射。 以下列表:令人难以置信的,令人难以置信的,神话般的,惊人的相当于:令人难以置信的,令人难以置信的,令人难以置信的,神话,惊人的 => 令人难以置信的,令人难以置信的,神话,惊人的。 如果为 false,以下列表:令人难以置信的,令人难以置信的,神话般的,惊人的将相当于:令人难以置信的,令人难以置信的,令人难以置信的,神话,惊人的 => 令人难以置信的。 默认值为 true。

ignoreCase

boolean

False

一个值,该值指示是否将大小写输入用于匹配。 默认值为 false。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

synonyms

string[]

以下两种格式之一的同义词列表:1。 令人难以置信的,令人难以置信的,令人难以置信的,神话般的 => 惊人的 - 所有术语在 => 符号的左侧将被替换为其右侧的所有术语;2. 令人难以置信的,令人难以置信的,神话般的,惊人的 - 逗号分隔的等效单词列表。 设置展开选项以更改此列表的解释方式。

TagScoringFunction

定义一个函数,该函数使用与给定标记列表匹配的字符串值提升文档的分数。

名称 类型 说明
boost

number

原始分数的乘数。 必须是不等于 1.0 的正数。

fieldName

string

用作评分函数输入的字段的名称。

interpolation

ScoringFunctionInterpolation

一个值,该值指示如何在文档分数之间内插提升;默认值为“Linear”。

tag

TagScoringParameters

标记评分函数的参数值。

type string:

tag

指示要使用的函数的类型。 有效值包括数量级、新鲜度、距离和标记。 函数类型必须小写。

TagScoringParameters

向标记评分函数提供参数值。

名称 类型 说明
tagsParameter

string

在搜索查询中传递的参数的名称,用于指定要与目标字段进行比较的标记列表。

TextWeights

定义匹配项应在搜索查询中提升评分的索引字段的权重。

名称 类型 说明
weights

object

用于提升文档评分的每字段权重的字典。 键是字段名称,值是每个字段的权重。

TokenCharacterKind

表示令牌筛选器可对其操作的字符类。

名称 类型 说明
digit

string

将数字保留在令牌中。

letter

string

将字母保留在令牌中。

punctuation

string

在令牌中保留标点符号。

symbol

string

将符号保留在令牌中。

whitespace

string

在令牌中保留空格。

TokenFilterName

定义搜索引擎支持的所有令牌筛选器的名称。

名称 类型 说明
apostrophe

string

删除撇号后的所有字符(包括撇号本身)。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

一个标记筛选器,该筛选器应用阿拉伯语规范化器来规范化正版。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

如果存在此类等效项,则将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

形成从标准标记器生成的 CJK 术语的 bigram。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

规范化 CJK 宽度差异。 将全形 ASCII 变体折叠为等效的基本拉丁语,将半角片假名变体折叠为等效的假名。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

从首字母缩略词中删除英语拥有者和点。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

为索引时经常出现的字词构造 bigrams。 单个字词仍编制索引,并覆盖 bigrams。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

删除 elisions。 例如,“l'avion”(平面)将转换为“avion”(平面)。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

根据德国 2 雪球算法的启发法规范德语字符。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

规范化印地语中的文本,以消除拼写变体中的一些差异。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

以印度语言规范化文本的 Unicode 表示形式。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

发出每个传入令牌两次,一次作为关键字,一次作为非关键字发出。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

用于英语的高性能 kstem 筛选器。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

删除太长或太短的字词。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

在编制索引时限制令牌数。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

将标记文本规范化为小写。 请参阅 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

生成给定大小的 n 元语法。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

对波斯语应用规范化。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

为拼音匹配创建令牌。 请参阅 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

使用 Porter 词干算法转换令牌流。 请参阅 http://tartarus.org/~martin/PorterStemmer

reverse

string

反转令牌字符串。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

折叠斯堪的纳维亚字符 åÅääÄÄ->a 和 öÖøØ->o. 它还歧视使用双元音 aa, ae, ao, oe 和 oo, 只留下第一个。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

规范化使用可互换的斯堪的纳维亚字符。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

将令牌的组合创建为单个令牌。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

使用 Snowball 生成的词干分析器词干的筛选器。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

规范化 Sorani 文本的 Unicode 表示形式。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

特定于语言的词干筛选。 请参阅 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

从令牌流中删除停止字词。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

剪裁标记中的前导空格和尾随空格。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

将术语截断为特定长度。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

筛选出与上一个标记相同的文本的标记。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

将标记文本规范化为大写。 请参阅 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

将单词拆分为子词,对子词组执行可选转换。

TruncateTokenFilter

将术语截断为特定长度。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

指定令牌筛选器类型的 URI 片段。

length

integer

300

将截断术语的长度。 默认值和最大值为 300。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

UaxUrlEmailTokenizer

将 URL 和电子邮件作为一个令牌进行标记化。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

指定 tokenizer 类型的 URI 片段。

maxTokenLength

integer

255

最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

UniqueTokenFilter

筛选出与上一个标记相同的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

指定令牌筛选器类型的 URI 片段。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

onlyOnSamePosition

boolean

False

一个值,该值指示是否仅在同一位置删除重复项。 默认值为 false。

VectorEncodingFormat

用于解释矢量字段内容的编码格式。

名称 类型 说明
packedBit

string

编码格式,表示打包成更广泛的数据类型的位。

VectorSearch

包含与矢量搜索相关的配置选项。

名称 类型 说明
algorithms VectorSearchAlgorithmConfiguration[]:

包含特定于索引或查询期间使用的算法的配置选项。

compressions VectorSearchCompressionConfiguration[]:

包含特定于索引或查询期间使用的压缩方法的配置选项。

profiles

VectorSearchProfile[]

定义要与矢量搜索一起使用的配置组合。

vectorizers VectorSearchVectorizer[]:

包含有关如何向量化文本矢量查询的配置选项。

VectorSearchAlgorithmKind

用于索引和查询的算法。

名称 类型 说明
exhaustiveKnn

string

将执行暴力搜索的详尽 KNN 算法。

hnsw

string

HNSW (分层导航小型世界),一种近似近邻算法。

VectorSearchAlgorithmMetric

用于矢量比较的相似性指标。 建议选择与训练嵌入模型相同的相似性指标。

名称 类型 说明
cosine

string

测量矢量之间的角度,以量化它们的相似性,无视数量级。 角度越小,相似性越近。

dotProduct

string

计算元素型产品的总和,以测量对齐和数量级相似性。 越大越积极,越接近相似性。

euclidean

string

计算多维空间中的向量之间的直线距离。 距离越小,相似性越近。

hamming

string

仅适用于位打包的二进制数据类型。 通过计算二进制向量中的不同位置来确定差异性。 差异越少,相似性越近。

VectorSearchCompressionKind

用于编制索引和查询的压缩方法。

名称 类型 说明
binaryQuantization

string

二进制量化,一种压缩方法。 在二进制量化中,原始向量值通过离散化和表示使用二进制值表示矢量的每个组件来压缩为更窄的二进制类型,从而减少整体数据大小。

scalarQuantization

string

标量量化,一种压缩方法。 在标量量子化中,原始向量值通过离散化和表示矢量的每个分量(使用一组量化值)压缩为较窄的类型,从而减少整体数据大小。

VectorSearchCompressionTargetDataType

压缩矢量值的量化数据类型。

名称 类型 说明
int8

string

VectorSearchProfile

定义要与矢量搜索一起使用的配置的组合。

名称 类型 说明
algorithm

string

指定算法和可选参数的矢量搜索算法配置的名称。

compression

string

指定压缩方法和可选参数的压缩方法配置的名称。

name

string

要与此特定矢量搜索配置文件关联的名称。

vectorizer

string

要配置为与矢量搜索一起使用的矢量化的名称。

VectorSearchVectorizerKind

在查询期间使用的向量化方法。

名称 类型 说明
azureOpenAI

string

在查询时使用 Azure OpenAI 资源生成嵌入内容。

customWebApi

string

在查询时使用自定义 Web 终结点生成嵌入内容。

WebApiParameters

指定用于连接到用户定义的向量器的属性。

名称 类型 说明
authIdentity SearchIndexerDataIdentity:

用于出站连接的用户分配的托管标识。 如果未指定 authResourceId,则使用系统分配的托管标识。 对索引器的更新(如果未指定标识)时,该值保持不变。 如果设置为“none”,则会清除此属性的值。

authResourceId

string

适用于连接到 Azure 函数中的外部代码的自定义终结点或提供转换的其他应用程序。 此值应该是在向 Azure Active Directory 注册函数或应用时为该函数或应用创建的应用程序 ID。 指定后,矢量化使用搜索服务的托管 ID(系统或用户分配)和函数或应用的访问令牌连接到函数或应用,使用此值作为创建访问令牌范围的资源 ID。

httpHeaders

object

发出 HTTP 请求所需的标头。

httpMethod

string

HTTP 请求的方法。

timeout

string

请求的所需超时。 默认值为 30 秒。

uri

string

提供向量器的 Web API 的 URI。

WebApiVectorizer

指定用于生成查询字符串嵌入的矢量的用户定义的向量器。 使用技能集的自定义 Web API 接口实现外部向量器的集成。

名称 类型 说明
customWebApiParameters

WebApiParameters

指定用户定义的向量器的属性。

kind string:

customWebApi

要配置为与矢量搜索一起使用的向量化方法类型的名称。

name

string

要与此特定向量化方法关联的名称。

WordDelimiterTokenFilter

将单词拆分为子词,对子词组执行可选转换。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

指定令牌筛选器类型的 URI 片段。

catenateAll

boolean

False

一个值,该值指示是否将所有子词部分都加猫化。 例如,如果设置为 true,“Azure-Search-1”将变为“AzureSearch1”。 默认值为 false。

catenateNumbers

boolean

False

一个值,该值指示是否将延长数目部分的最大运行次数。 例如,如果设置为 true,则“1-2”变为“12”。 默认值为 false。

catenateWords

boolean

False

一个值,该值指示是否将延长单词部分的最大运行次数。 例如,如果设置为 true,“Azure-Search”将变为“AzureSearch”。 默认值为 false。

generateNumberParts

boolean

True

一个值,该值指示是否生成数字子词。 默认值为 true。

generateWordParts

boolean

True

一个值,该值指示是否生成部分词。 如果设置,会导致生成部分单词;例如,“AzureSearch”变为“Azure”“搜索”。 默认值为 true。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

preserveOriginal

boolean

False

一个值,该值指示是否保留原始单词并将其添加到子词列表中。 默认值为 false。

protectedWords

string[]

要防止分隔的令牌列表。

splitOnCaseChange

boolean

True

一个值,该值指示是否拆分 caseChange 上的单词。 例如,如果设置为 true,“AzureSearch”将变为“Azure”“搜索”。 默认值为 true。

splitOnNumerics

boolean

True

一个值,该值指示是否对数字进行拆分。 例如,如果设置为 true,则“Azure1Search”变为“Azure”“1”搜索”。 默认值为 true。

stemEnglishPossessive

boolean

True

一个值,该值指示是否删除每个子词的尾随“'s”。 默认值为 true。