共用方式為


Indexes - Create

建立新的搜尋索引。

POST {endpoint}/indexes?api-version=2024-11-01-preview

URI 參數

名稱 位於 必要 類型 Description
endpoint
path True

string

搜尋服務的端點 URL。

api-version
query True

string

用戶端 API 版本。

要求標頭

名稱 必要 類型 Description
x-ms-client-request-id

string

uuid

隨要求一起傳送的追蹤標識碼,以協助偵錯。

要求本文

名稱 必要 類型 Description
fields True

SearchField[]

索引的欄位。

name True

string

索引的名稱。

@odata.etag

string

索引的 ETag。

analyzers LexicalAnalyzer[]:

索引的分析器。

charFilters CharFilter[]:

索引的字元篩選。

corsOptions

CorsOptions

控制索引之跨原始來源資源分享 (CORS) 的選項。

defaultScoringProfile

string

如果在查詢中未指定評分配置檔,則為要使用的評分配置檔名稱。 如果未設定此屬性,而且查詢中未指定任何評分配置檔,則會使用預設評分 (tf-idf)。

encryptionKey

SearchResourceEncryptionKey

您在 Azure Key Vault 中建立的加密金鑰描述。 當您想要完整保證,即使沒有Microsoft,也無法解密您的數據時,此密鑰會用來為您的數據提供額外的待用加密層級。 加密數據之後,一律會保持加密狀態。 搜尋服務會忽略將此屬性設定為 null 的嘗試。 如果您想要輪替加密金鑰,您可以視需要變更此屬性;您的數據不會受到影響。 使用客戶管理的金鑰加密不適用於免費搜尋服務,而且僅適用於 2019 年 1 月 1 日或之後建立的付費服務。

normalizers LexicalNormalizer[]:

CustomNormalizer[]

索引的正規化程式。

scoringProfiles

ScoringProfile[]

索引的評分配置檔。

semantic

SemanticSettings

定義影響語意功能的搜尋索引參數。

similarity Similarity:

評分和排名符合搜尋查詢的檔時所要使用的相似度演算法類型。 相似度演算法只能在索引建立時定義,而且無法在現有索引上修改。 如果為 null,則會使用 ClassicSimilarity 演算法。

suggesters

Suggester[]

索引的建議工具。

tokenFilters TokenFilter[]:

索引的令牌篩選。

tokenizers LexicalTokenizer[]:

索引的Tokenizers。

vectorSearch

VectorSearch

包含與向量搜尋相關的組態選項。

回應

名稱 類型 Description
201 Created

SearchIndex

Other Status Codes

ErrorResponse

錯誤回應。

範例

SearchServiceCreateIndex

範例要求

POST https://previewexampleservice.search.windows.net/indexes?api-version=2024-11-01-preview


{
  "name": "temp-preview-test",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "key": true,
      "sortable": true
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 20,
      "vectorSearchProfile": "config1"
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "name",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "standard.lucene"
    },
    {
      "name": "category",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "tag": {
            "tagsParameter": "categoryTag"
          },
          "type": "tag",
          "fieldName": "category",
          "boost": 2
        }
      ]
    }
  ],
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer"
    }
  ],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "normalizers": [],
  "semantic": {},
  "vectorSearch": {
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "algorithms": [
      {
        "hnswParameters": {
          "metric": "cosine"
        },
        "name": "cosine",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "euclidean"
        },
        "name": "euclidean",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "dotProduct"
        },
        "name": "dotProduct",
        "kind": "hnsw"
      }
    ],
    "vectorizers": [
      {
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com/",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        },
        "name": "openai",
        "kind": "azureOpenAI"
      },
      {
        "customWebApiParameters": {
          "uri": "https://my-custom-endpoint.org/",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "httpMethod": "POST",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        },
        "name": "custom-web-api",
        "kind": "customWebApi"
      },
      {
        "amlParameters": {
          "uri": "https://my-custom-endpoint.org/",
          "resourceId": "aml resource id",
          "timeout": "PT1M",
          "region": "aml region",
          "modelName": "OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32"
        },
        "name": "aml",
        "kind": "aml"
      }
    ],
    "compressions": [
      {
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 10,
          "rescoreStorageMethod": "preserveOriginals"
        },
        "truncationDimension": 2
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 10,
          "rescoreStorageMethod": "preserveOriginals"
        },
        "truncationDimension": 2
      }
    ]
  }
}

範例回覆

{
  "@odata.etag": "0x1234568AE7E58A1",
  "name": "temp-preview-test",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "synonymMaps": []
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 20,
      "vectorSearchProfile": "config1",
      "synonymMaps": []
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "name",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "standard.lucene",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "fieldName": "category",
          "interpolation": "linear",
          "type": "tag",
          "boost": 2,
          "tag": {
            "tagsParameter": "categoryTag"
          }
        }
      ]
    }
  ],
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer",
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ]
    }
  ],
  "normalizers": [],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
  },
  "semantic": {
    "configurations": []
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "cosine",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "euclidean",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "euclidean",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "dotProduct",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "dotProduct",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      }
    ],
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "vectorizers": [
      {
        "name": "openai",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        }
      },
      {
        "name": "custom-web-api",
        "kind": "customWebApi",
        "customWebApiParameters": {
          "httpMethod": "POST",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        }
      },
      {
        "name": "aml",
        "kind": "aml",
        "amlParameters": {
          "resourceId": "aml resource id",
          "region": "aml region",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "modelName": "OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32"
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2,
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 10,
          "rescoreStorageMethod": "preserveOriginals"
        }
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2,
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 10,
          "rescoreStorageMethod": "preserveOriginals"
        }
      }
    ]
  }
}

定義

名稱 Description
AIServicesVisionParameters

指定用於向量化查詢影像或文字的 AI 服務視覺參數。

AIServicesVisionVectorizer

指定用於向量化查詢影像或文字的 AI 服務視覺參數。

AIStudioModelCatalogName

將呼叫的 Azure AI Studio 目錄內嵌模型名稱。

AMLParameters

指定連接到 AML 向量化工具的屬性。

AMLVectorizer

指定透過 Azure AI Studio 模型目錄部署的 Azure Machine Learning 端點,以產生查詢字串的向量內嵌。

AsciiFoldingTokenFilter

如果這類對等專案存在,請將前127個ASCII字元中的字母、數位和符號 Unicode 字元轉換成其 ASCII 對等專案。 此令牌篩選器是使用 Apache Lucene 實作。

AzureActiveDirectoryApplicationCredentials

為搜尋服務建立之已註冊應用程式的認證,用於對儲存在 Azure Key Vault 中的加密密鑰進行驗證存取。

AzureOpenAIEmbeddingSkill

可讓您使用 Azure OpenAI 資源為指定的文字輸入產生向量內嵌。

AzureOpenAIModelName

將呼叫的 Azure Open AI 模型名稱。

AzureOpenAIParameters

指定連線到 Azure OpenAI 資源的參數。

AzureOpenAIVectorizer

指定用來向量化查詢字串的 Azure OpenAI 資源。

BinaryQuantizationVectorSearchCompressionConfiguration

包含二進位量化壓縮方法在編製索引和查詢期間所使用的組態選項。

BM25Similarity

根據 Okapi BM25 相似度演算法的排名函式。 BM25 是類似TF-IDF的演算法,包括長度正規化(由'b' 參數控制)以及詞彙頻率飽和度(由 'k1' 參數控制)。

CharFilterName

定義搜尋引擎所支援之所有字元篩選的名稱。

CjkBigramTokenFilter

形成從標準Tokenizer產生的CJK詞彙 bigram。 此令牌篩選器是使用 Apache Lucene 實作。

CjkBigramTokenFilterScripts

CjkBigramTokenFilter 可以忽略的腳本。

ClassicSimilarity

舊版相似度演算法,其使用 TF-IDF 的 Lucene TFIDFSimilarity 實作。 這種 TF-IDF 變化引進靜態文件長度正規化,以及協調因只部分符合搜尋查詢的檔而受懲罰的因素。

ClassicTokenizer

適用於處理大部分歐洲語言檔的文法型Tokenizer。 這個 Tokenizer 是使用 Apache Lucene 實作。

CommonGramTokenFilter

針對索引編製時經常發生的字詞建構 bigrams。 單一字詞仍然編製索引,並覆蓋了 bigrams。 此令牌篩選器是使用 Apache Lucene 實作。

CorsOptions

定義選項,以控制索引的跨原始來源資源分享 (CORS)。

CustomAnalyzer

可讓您控制將文字轉換成可編製索引/可搜尋令牌的程式。 它是使用者定義的組態,由單一預先定義的Tokenizer和一或多個篩選所組成。 Tokenizer 負責將文字分成令牌,以及修改 Tokenizer 所發出的令牌的篩選條件。

CustomNormalizer

可讓您設定可篩選、可排序和多面向字段的正規化,依預設會以嚴格的比對運作。 這是由至少一或多個篩選所組成的使用者定義組態,可修改所儲存的令牌。

DictionaryDecompounderTokenFilter

分解許多德文語言中發現的複合字組。 此令牌篩選器是使用 Apache Lucene 實作。

DistanceScoringFunction

定義根據地理位置距離提升分數的函式。

DistanceScoringParameters

提供距離評分函式的參數值。

EdgeNGramTokenFilter

從輸入令牌的正面或背面開始,產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 實作。

EdgeNGramTokenFilterSide

指定應該從哪一端產生 n-gram 的輸入端。

EdgeNGramTokenFilterV2

從輸入令牌的正面或背面開始,產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 實作。

EdgeNGramTokenizer

將邊緣的輸入標記化為指定大小的 n-gram。 這個 Tokenizer 是使用 Apache Lucene 實作。

ElisionTokenFilter

拿掉 elisions。 例如,“l'avion” (平面) 會轉換成 “avion” (plane)。 此令牌篩選器是使用 Apache Lucene 實作。

ErrorAdditionalInfo

資源管理錯誤其他資訊。

ErrorDetail

錯誤詳細數據。

ErrorResponse

錯誤回應

ExhaustiveKnnParameters

包含完整 KNN 演算法特有的參數。

ExhaustiveKnnVectorSearchAlgorithmConfiguration

包含查詢期間所使用完整 KNN 演算法的特定組態選項,這會在整個向量索引上執行暴力密碼破解搜尋。

FreshnessScoringFunction

定義函式,根據日期時間欄位的值來提升分數。

FreshnessScoringParameters

提供更新評分函式的參數值。

HnswParameters

包含 HNSW 演算法特有的參數。

HnswVectorSearchAlgorithmConfiguration

包含 HNSW 近似近鄰演算法在編制索引和查詢期間所使用的組態選項。 HNSW 演算法提供搜尋速度和精確度之間的無法權衡取捨。

InputFieldMappingEntry

技能的輸入欄位對應。

KeepTokenFilter

令牌篩選條件,只保留包含指定單字清單中的文字標記。 此令牌篩選器是使用 Apache Lucene 實作。

KeywordMarkerTokenFilter

將字詞標示為關鍵詞。 此令牌篩選器是使用 Apache Lucene 實作。

KeywordTokenizer

以單一令牌的形式發出整個輸入。 這個 Tokenizer 是使用 Apache Lucene 實作。

KeywordTokenizerV2

以單一令牌的形式發出整個輸入。 這個 Tokenizer 是使用 Apache Lucene 實作。

LengthTokenFilter

拿掉太長或太短的字組。 此令牌篩選器是使用 Apache Lucene 實作。

LexicalAnalyzerName

定義搜尋引擎所支援之所有文字分析器的名稱。

LexicalNormalizerName

定義搜尋引擎所支援之所有文字正規化程序的名稱。

LexicalTokenizerName

定義搜尋引擎支援的所有 Tokenizer 名稱。

LimitTokenFilter

在編製索引時限制令牌數目。 此令牌篩選器是使用 Apache Lucene 實作。

LuceneStandardAnalyzer

標準 Apache Lucene 分析器;由標準 Tokenizer、小寫篩選和停止篩選所組成。

LuceneStandardTokenizer

在 Unicode 文字分割規則之後中斷文字。 這個 Tokenizer 是使用 Apache Lucene 實作。

LuceneStandardTokenizerV2

在 Unicode 文字分割規則之後中斷文字。 這個 Tokenizer 是使用 Apache Lucene 實作。

MagnitudeScoringFunction

定義函式,根據數值欄位的大小來提升分數。

MagnitudeScoringParameters

提供量級評分函式的參數值。

MappingCharFilter

套用對應選項所定義的對應的字元篩選。 比對是貪婪(在指定點獲勝的時間最長的模式比對)。 允許取代為空字串。 此字元篩選器是使用 Apache Lucene 實作。

MicrosoftLanguageStemmingTokenizer

使用語言特定規則來分割文字,並將單字縮減為基底形式。

MicrosoftLanguageTokenizer

使用語言特定規則來分割文字。

MicrosoftStemmingTokenizerLanguage

列出Microsoft語言詞幹標記化工具所支持的語言。

MicrosoftTokenizerLanguage

列出Microsoft語言令牌化程序支持的語言。

NGramTokenFilter

產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 實作。

NGramTokenFilterV2

產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 實作。

NGramTokenizer

將輸入標記化為指定大小的 n-gram。 這個 Tokenizer 是使用 Apache Lucene 實作。

OutputFieldMappingEntry

技能的輸出欄位對應。

PathHierarchyTokenizerV2

類似路徑階層的Tokenizer。 這個 Tokenizer 是使用 Apache Lucene 實作。

PatternAnalyzer

彈性地透過正則表示式模式將文字分隔成字詞。 此分析器是使用 Apache Lucene 實作的。

PatternCaptureTokenFilter

使用 Java regex 來發出多個令牌 - 一個或多個模式中每個擷取群組各一個。 此令牌篩選器是使用 Apache Lucene 實作。

PatternReplaceCharFilter

字元篩選條件,取代輸入字串中的字元。 它會使用正則表示式來識別要保留的字元序列,以及用來識別要取代的字元的取代模式。 例如,假設輸入文字 “aa bb aa bb”, pattern “(aa)\s+(bb)” 和取代 “$1#$$2”,結果會是 “aa#bb aa#bb”。 此字元篩選器是使用 Apache Lucene 實作。

PatternReplaceTokenFilter

字元篩選條件,取代輸入字串中的字元。 它會使用正則表示式來識別要保留的字元序列,以及用來識別要取代的字元的取代模式。 例如,假設輸入文字 “aa bb aa bb”, pattern “(aa)\s+(bb)” 和取代 “$1#$$2”,結果會是 “aa#bb aa#bb”。 此令牌篩選器是使用 Apache Lucene 實作。

PatternTokenizer

使用 regex 模式比對來建構不同令牌的 Tokenizer。 這個 Tokenizer 是使用 Apache Lucene 實作。

PhoneticEncoder

識別要與 PhoneticTokenFilter 搭配使用的注音編碼器類型。

PhoneticTokenFilter

建立注音相符專案的令牌。 此令牌篩選器是使用 Apache Lucene 實作。

PrioritizedFields

描述要用於語意排名、標題、醒目提示和答案的標題、內容和關鍵詞欄位。

RegexFlags

定義可以結合的旗標,以控制正則表達式在模式分析器和模式標記化工具中的使用方式。

RescoringOptions

包含重新記錄的選項。

ScalarQuantizationParameters

包含純量量化特有的參數。

ScalarQuantizationVectorSearchCompressionConfiguration

包含索引編製和查詢期間所使用純量量化壓縮方法的特定組態選項。

ScoringFunctionAggregation

定義聚合函數,用來結合評分配置檔中所有評分函式的結果。

ScoringFunctionInterpolation

定義用來跨一系列檔插補分數提升的函式。

ScoringProfile

定義影響搜尋查詢評分之搜尋索引的參數。

SearchField

表示索引定義中的欄位,描述欄位的名稱、數據類型和搜尋行為。

SearchFieldDataType

定義搜尋索引中欄位的數據類型。

SearchIndex

表示搜尋索引定義,描述索引的欄位和搜尋行為。

SearchIndexerDataNoneIdentity

清除資料源的識別屬性。

SearchIndexerDataUserAssignedIdentity

指定要使用之數據源的身分識別。

SearchResourceEncryptionKey

Azure Key Vault 中客戶管理的加密密鑰。 您建立和管理的金鑰可用來加密或解密待用數據,例如索引和同義字對應。

SemanticConfiguration

定義在語意功能內容中使用的特定組態。

SemanticField

做為語意組態一部分的欄位。

SemanticSettings

定義影響語意功能的搜尋索引參數。

ShingleTokenFilter

建立令牌的組合做為單一令牌。 此令牌篩選器是使用 Apache Lucene 實作。

SnowballTokenFilter

使用 Snowball 產生的字幹分析器來幹詞的篩選。 此令牌篩選器是使用 Apache Lucene 實作。

SnowballTokenFilterLanguage

用於 Snowball 令牌篩選的語言。

StemmerOverrideTokenFilter

提供使用自定義字典型字幹分析覆寫其他字幹篩選的功能。 任何字典字幹字詞都會標示為關鍵詞,因此它們不會在鏈結中加上字幹分析器。 必須在任何字幹篩選之前放置。 此令牌篩選器是使用 Apache Lucene 實作。

StemmerTokenFilter

語言特定字幹分析篩選器。 此令牌篩選器是使用 Apache Lucene 實作。

StemmerTokenFilterLanguage

用於字幹分析器令牌篩選的語言。

StopAnalyzer

將文字分割為非字母;套用小寫和停用字詞標記篩選。 此分析器是使用 Apache Lucene 實作的。

StopwordsList

識別預先定義的語言特定停用字詞清單。

StopwordsTokenFilter

從令牌數據流移除停用字詞。 此令牌篩選器是使用 Apache Lucene 實作。

Suggester

定義建議 API 應如何套用至索引中的欄位群組。

SuggesterSearchMode

值,指出建議工具的功能。

SynonymTokenFilter

比對令牌數據流中的單字或多字同義字。 此令牌篩選器是使用 Apache Lucene 實作。

TagScoringFunction

定義函式,此函式會使用符合指定標籤清單的字串值來提升檔的分數。

TagScoringParameters

提供標記評分函式的參數值。

TextWeights

定義索引欄位的加權,比對應該在搜尋查詢中提升評分。

TokenCharacterKind

表示令牌篩選可以運作的字元類別。

TokenFilterName

定義搜尋引擎所支援之所有令牌篩選的名稱。

TruncateTokenFilter

將字詞截斷為特定長度。 此令牌篩選器是使用 Apache Lucene 實作。

UaxUrlEmailTokenizer

將 URL 和電子郵件令牌化為一個令牌。 這個 Tokenizer 是使用 Apache Lucene 實作。

UniqueTokenFilter

篩選出與上一個標記相同的文字標記。 此令牌篩選器是使用 Apache Lucene 實作。

VectorEncodingFormat

用於解譯向量欄位內容的編碼格式。

VectorSearch

包含與向量搜尋相關的組態選項。

VectorSearchAlgorithmKind

用於編製索引和查詢的演算法。

VectorSearchAlgorithmMetric

用於向量比較的相似度計量。 建議您選擇與定型內嵌模型相同的相似度計量。

VectorSearchCompressionKind

用於編製索引和查詢的壓縮方法。

VectorSearchCompressionRescoreStorageMethod

用於重新記錄和內部索引作業之原始完整精確度向量的儲存方法。

VectorSearchCompressionTargetDataType

壓縮向量值的量化數據類型。

VectorSearchProfile

定義要與向量搜尋搭配使用的組態組合。

VectorSearchVectorizerKind

要用於查詢時間的向量化方法。

WebApiParameters

指定連接到使用者定義向量化工具的屬性。

WebApiVectorizer

指定使用者定義的向量化程式,以產生查詢字串的向量內嵌。 外部向量化工具的整合是使用技能集的自定義 Web API 介面來達成。

WordDelimiterTokenFilter

將單字分割成子字詞,並在子字詞群組上執行選擇性轉換。 此令牌篩選器是使用 Apache Lucene 實作。

AIServicesVisionParameters

指定用於向量化查詢影像或文字的 AI 服務視覺參數。

名稱 類型 Description
apiKey

string

所指定 AI 服務資源的 API 金鑰。

authIdentity SearchIndexerDataIdentity:

用於輸出連線的使用者指派受控識別。 如果提供 authResourceId 且未指定,則會使用系統指派的受控識別。 在索引更新時,如果未指定身分識別,值會保持不變。 如果設定為 「none」 則會清除此屬性的值。

modelVersion

string

呼叫 AI 服務視覺服務時要使用的模型版本。 如果未指定,則會預設為最新的可用。

resourceUri

string

AI 服務資源的資源 URI。

AIServicesVisionVectorizer

指定用於向量化查詢影像或文字的 AI 服務視覺參數。

名稱 類型 Description
aiServicesVisionParameters

AIServicesVisionParameters

包含 AI Services 視覺內嵌向量化的特定參數。

kind string:

aiServicesVision

要設定用於向量搜尋的向量化方法類型名稱。

name

string

要與這個特定向量化方法產生關聯的名稱。

AIStudioModelCatalogName

將呼叫的 Azure AI Studio 目錄內嵌模型名稱。

名稱 類型 Description
Cohere-embed-v3-english

string

Cohere-embed-v3-multilingual

string

Facebook-DinoV2-Image-Embeddings-ViT-Base

string

Facebook-DinoV2-Image-Embeddings-ViT-Giant

string

OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336

string

OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32

string

AMLParameters

指定連接到 AML 向量化工具的屬性。

名稱 類型 Description
key

string

(金鑰驗證的必要專案)AML 服務的金鑰。

modelName

AIStudioModelCatalogName

從部署在所提供端點的 Azure AI Studio 目錄內嵌模型名稱。

region

string

(令牌驗證的選擇性)。 AML 服務所部署的區域。

resourceId

string

(令牌驗證的必要專案)。 AML 服務的 Azure Resource Manager 資源識別碼。 其格式應為 subscriptions/{guid}/resourceGroups/{resource-group-name}/Microsoft.MachineLearningServices/workspaces/{workspace-name}/services/{service_name}。

timeout

string

(選擇性)指定時,表示發出 API 呼叫之 HTTP 用戶端的逾時。

uri

string

( 不需要驗證或金鑰驗證 )將傳送 JSON 承載之 AML 服務的評分 URI。 只允許 HTTPs URI 配置。

AMLVectorizer

指定透過 Azure AI Studio 模型目錄部署的 Azure Machine Learning 端點,以產生查詢字串的向量內嵌。

名稱 類型 Description
amlParameters

AMLParameters

指定 AML 向量化工具的屬性。

kind string:

aml

要設定用於向量搜尋的向量化方法類型名稱。

name

string

要與這個特定向量化方法產生關聯的名稱。

AsciiFoldingTokenFilter

如果這類對等專案存在,請將前127個ASCII字元中的字母、數位和符號 Unicode 字元轉換成其 ASCII 對等專案。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

指定令牌篩選類型的 URI 片段。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

preserveOriginal

boolean

False

值,指出是否要保留原始令牌。 默認值為 false。

AzureActiveDirectoryApplicationCredentials

為搜尋服務建立之已註冊應用程式的認證,用於對儲存在 Azure Key Vault 中的加密密鑰進行驗證存取。

名稱 類型 Description
applicationId

string

AAD 應用程式識別碼,已將待用數據加密時要使用的 Azure Key Vault 所需訪問許可權授與。 應用程式標識碼不應與 AAD 應用程式的物件標識元混淆。

applicationSecret

string

指定 AAD 應用程式的驗證金鑰。

AzureOpenAIEmbeddingSkill

可讓您使用 Azure OpenAI 資源為指定的文字輸入產生向量內嵌。

名稱 類型 Description
@odata.type string:

#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill

指定技能類型的 URI 片段。

apiKey

string

所指定 Azure OpenAI 資源的 API 金鑰。

authIdentity SearchIndexerDataIdentity:

用於輸出連線的使用者指派受控識別。

context

string

代表作業發生的層級,例如檔根目錄或文件內容(例如 /document 或 /document/content)。 預設值為 /document。

deploymentId

string

指定資源上 Azure OpenAI 模型部署的識別碼。

description

string

描述技能的描述,描述技能的輸入、輸出和使用方式。

dimensions

integer

產生的輸出內嵌應具有的維度數目。 只有文字內嵌-3 和更新版本的模型才支援。

inputs

InputFieldMappingEntry[]

技能的輸入可以是源數據集中的數據行,或上游技能的輸出。

modelName

AzureOpenAIModelName

在提供的 deploymentId 路徑上部署的內嵌模型名稱。

name

string

技能的名稱,可唯一識別技能集內的技能。 未定義名稱的技能將會在技能數位中指定其以 1 起始索引的預設名稱,前面加上字元 『#』。

outputs

OutputFieldMappingEntry[]

技能的輸出是搜尋索引中的字段,或是另一個技能可作為輸入的值。

resourceUri

string

Azure OpenAI 資源的資源 URI。

AzureOpenAIModelName

將呼叫的 Azure Open AI 模型名稱。

名稱 類型 Description
text-embedding-3-large

string

text-embedding-3-small

string

text-embedding-ada-002

string

AzureOpenAIParameters

指定連線到 Azure OpenAI 資源的參數。

名稱 類型 Description
apiKey

string

所指定 Azure OpenAI 資源的 API 金鑰。

authIdentity SearchIndexerDataIdentity:

用於輸出連線的使用者指派受控識別。

deploymentId

string

指定資源上 Azure OpenAI 模型部署的識別碼。

modelName

AzureOpenAIModelName

在提供的 deploymentId 路徑上部署的內嵌模型名稱。

resourceUri

string

Azure OpenAI 資源的資源 URI。

AzureOpenAIVectorizer

指定用來向量化查詢字串的 Azure OpenAI 資源。

名稱 類型 Description
azureOpenAIParameters AzureOpenAIParameters:

AzureOpenAIEmbeddingSkill

包含 Azure OpenAI 內嵌向量化特有的參數。

kind string:

azureOpenAI

要設定用於向量搜尋的向量化方法類型名稱。

name

string

要與這個特定向量化方法產生關聯的名稱。

BinaryQuantizationVectorSearchCompressionConfiguration

包含二進位量化壓縮方法在編製索引和查詢期間所使用的組態選項。

名稱 類型 預設值 Description
defaultOversampling

number

默認過度取樣因數。 在初始搜尋中,過度取樣會在內部要求更多檔(由這個乘數指定)。 這會增加從全精確度向量使用重新計算相似度分數來重新產生的結果集。 最小值為 1,表示沒有過度取樣(1 倍)。 只有在 rerankWithOriginalVectors 為 true 時,才能設定此參數。 較高的值會犧牲延遲來改善召回率。

kind string:

binaryQuantization

要設定用於向量搜尋之壓縮方法類型的名稱。

name

string

要與此特定組態產生關聯的名稱。

rerankWithOriginalVectors

boolean

True

如果設定為 true,一旦取得使用壓縮向量計算的已排序結果集之後,就會重新計算完整精確度相似度分數來重新調整結果集。 這會以犧牲延遲為代價來改善召回率。

rescoringOptions

RescoringOptions

包含重新記錄的選項。

truncationDimension

integer

要截斷向量的維度數目。 截斷向量可減少向量的大小,以及搜尋期間需要傳輸的數據量。 這可以節省記憶體成本,並降低搜尋效能,以犧牲召回率。 它只應該用於內嵌使用 Matryoshka 表示法學習 (MRL) 定型的內嵌,例如 OpenAI 文字內嵌-3-large(小型)。 默認值為 null,這表示不會截斷。

BM25Similarity

根據 Okapi BM25 相似度演算法的排名函式。 BM25 是類似TF-IDF的演算法,包括長度正規化(由'b' 參數控制)以及詞彙頻率飽和度(由 'k1' 參數控制)。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number

此屬性會控制檔的長度如何影響相關性分數。 根據預設,會使用 0.75 的值。 值為 0.0 表示不會套用任何長度正規化,而值為 1.0 表示分數會完全由文件的長度正規化。

k1

number

此屬性會控制每個相符字詞的字詞頻率與文件查詢組最終相關性分數之間的縮放函數。 根據預設,會使用1.2的值。 值為 0.0 表示分數不會隨著詞彙頻率增加而調整。

CharFilterName

定義搜尋引擎所支援之所有字元篩選的名稱。

名稱 類型 Description
html_strip

string

嘗試去除 HTML 建構的字元篩選。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

形成從標準Tokenizer產生的CJK詞彙 bigram。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

指定令牌篩選類型的 URI 片段。

ignoreScripts

CjkBigramTokenFilterScripts[]

要忽略的腳本。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

outputUnigrams

boolean

False

值,指出是否要同時輸出 unigram 和 bigrams (如果為 true),或只是 bigrams (如果為 false)。 默認值為 false。

CjkBigramTokenFilterScripts

CjkBigramTokenFilter 可以忽略的腳本。

名稱 類型 Description
han

string

當形成 CJK 字詞的大框架時,請忽略 Han 腳本。

hangul

string

在形成 CJK 字詞的 bigram 時忽略 Hangul 腳本。

hiragana

string

在形成 CJK 字詞的 bigram 時忽略平假名腳本。

katakana

string

當形成 CJK 字詞的大框架時,請忽略片假名腳本。

ClassicSimilarity

舊版相似度演算法,其使用 TF-IDF 的 Lucene TFIDFSimilarity 實作。 這種 TF-IDF 變化引進靜態文件長度正規化,以及協調因只部分符合搜尋查詢的檔而受懲罰的因素。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

適用於處理大部分歐洲語言檔的文法型Tokenizer。 這個 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

指定 Tokenizer 類型的 URI 片段。

maxTokenLength

integer

255

令牌長度上限。 預設值為 255。 分割長度超過最大長度的令牌。 可以使用的令牌長度上限為 300 個字元。

name

string

Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

CommonGramTokenFilter

針對索引編製時經常發生的字詞建構 bigrams。 單一字詞仍然編製索引,並覆蓋了 bigrams。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

指定令牌篩選類型的 URI 片段。

commonWords

string[]

一組通用字組。

ignoreCase

boolean

False

值,指出一般字組比對是否不區分大小寫。 默認值為 false。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

queryMode

boolean

False

值,指出令牌篩選是否處於查詢模式。 在查詢模式中時,令牌篩選會產生 bigrams,然後移除通用單字和單一字詞,後面接著一般單字。 默認值為 false。

CorsOptions

定義選項,以控制索引的跨原始來源資源分享 (CORS)。

名稱 類型 Description
allowedOrigins

string[]

JavaScript 程式代碼將授與索引存取權的來源清單。 可以包含 {protocol}://{fully-qualified-domain-name}[:{port#}] 格式的主機列表,或單一 '*' 允許所有來源(不建議)。

maxAgeInSeconds

integer

瀏覽器應該快取 CORS 預檢回應的持續時間。 預設為5分鐘。

CustomAnalyzer

可讓您控制將文字轉換成可編製索引/可搜尋令牌的程式。 它是使用者定義的組態,由單一預先定義的Tokenizer和一或多個篩選所組成。 Tokenizer 負責將文字分成令牌,以及修改 Tokenizer 所發出的令牌的篩選條件。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

指定分析器類型的 URI 片段。

charFilters

CharFilterName[]

令牌化程式處理輸入文字之前,用來準備輸入文字的字元篩選清單。 例如,它們可以取代特定字元或符號。 篩選條件會依列出的順序執行。

name

string

分析器的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

tokenFilters

TokenFilterName[]

令牌篩選清單,用來篩選或修改令牌化程式所產生的令牌。 例如,您可以指定將所有字元轉換成小寫的小寫篩選條件。 篩選條件會依列出的順序執行。

tokenizer

LexicalTokenizerName

用來將連續文字分割成標記序列的Tokenizer名稱,例如將句子分成單字。

CustomNormalizer

可讓您設定可篩選、可排序和多面向字段的正規化,依預設會以嚴格的比對運作。 這是由至少一或多個篩選所組成的使用者定義組態,可修改所儲存的令牌。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.CustomNormalizer

指定正規化程序類型的 URI 片段。

charFilters

CharFilterName[]

用來在處理輸入文字之前準備輸入文字的字元篩選清單。 例如,它們可以取代特定字元或符號。 篩選條件會依列出的順序執行。

name

string

正規化程序的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 它不能以 '.microsoft' 或 '.lucene' 結尾,也不能命名為 'asciifolding'、'standard'、'lowercase'、'uppercase' 或 'elision'。

tokenFilters

TokenFilterName[]

用來篩選或修改輸入令牌的令牌篩選清單。 例如,您可以指定將所有字元轉換成小寫的小寫篩選條件。 篩選條件會依列出的順序執行。

DictionaryDecompounderTokenFilter

分解許多德文語言中發現的複合字組。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

指定令牌篩選類型的 URI 片段。

maxSubwordSize

integer

15

子字詞大小上限。 只輸出比這個短的子字。 預設值為 15。 最大值為300。

minSubwordSize

integer

2

最小子字大小。 輸出的子字詞長度只會超過這個。 預設值為 2。 最大值為300。

minWordSize

integer

5

字型大小下限。 只有比處理此時間更長的字組。 預設值為 5。 最大值為300。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

onlyLongestMatch

boolean

False

值,指出是否只將最長相符的子字詞新增至輸出。 默認值為 false。

wordList

string[]

要比對的字組清單。

DistanceScoringFunction

定義根據地理位置距離提升分數的函式。

名稱 類型 Description
boost

number

原始分數的乘數。 必須是不等於 1.0 的正數。

distance

DistanceScoringParameters

距離計分函式的參數值。

fieldName

string

做為評分函式輸入的功能變數名稱。

interpolation

ScoringFunctionInterpolation

值,指出如何跨檔分數插補提升;預設為 “Linear”。

type string:

distance

表示要使用的函式類型。 有效值包括大小、新鮮度、距離和標籤。 函式類型必須是小寫。

DistanceScoringParameters

提供距離評分函式的參數值。

名稱 類型 Description
boostingDistance

number

距離提升範圍結束的參考位置以公里為單位的距離。

referencePointParameter

string

在搜尋查詢中傳遞的參數名稱,以指定參考位置。

EdgeNGramTokenFilter

從輸入令牌的正面或背面開始,產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

指定令牌篩選類型的 URI 片段。

maxGram

integer

2

n-gram 長度上限。 預設值為 2。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 必須小於 maxGram的值。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

side

EdgeNGramTokenFilterSide

front

指定應該從哪一端產生 n-gram 的輸入端。 預設值為 「front」。。

EdgeNGramTokenFilterSide

指定應該從哪一端產生 n-gram 的輸入端。

名稱 類型 Description
back

string

指定應該從輸入背面產生 n-gram。

front

string

指定應該從輸入前端產生 n-gram。

EdgeNGramTokenFilterV2

從輸入令牌的正面或背面開始,產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

指定令牌篩選類型的 URI 片段。

maxGram

integer

2

n-gram 長度上限。 預設值為 2。 最大值為300。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

side

EdgeNGramTokenFilterSide

front

指定應該從哪一端產生 n-gram 的輸入端。 預設值為 「front」。。

EdgeNGramTokenizer

將邊緣的輸入標記化為指定大小的 n-gram。 這個 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

指定 Tokenizer 類型的 URI 片段。

maxGram

integer

2

n-gram 長度上限。 預設值為 2。 最大值為300。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。

name

string

Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

tokenChars

TokenCharacterKind[]

要保留在令牌中的字元類別。

ElisionTokenFilter

拿掉 elisions。 例如,“l'avion” (平面) 會轉換成 “avion” (plane)。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

指定令牌篩選類型的 URI 片段。

articles

string[]

要移除的發行項集。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

ErrorAdditionalInfo

資源管理錯誤其他資訊。

名稱 類型 Description
info

object

其他資訊。

type

string

其他信息類型。

ErrorDetail

錯誤詳細數據。

名稱 類型 Description
additionalInfo

ErrorAdditionalInfo[]

錯誤其他資訊。

code

string

錯誤碼。

details

ErrorDetail[]

錯誤詳細數據。

message

string

錯誤訊息。

target

string

錯誤目標。

ErrorResponse

錯誤回應

名稱 類型 Description
error

ErrorDetail

error 物件。

ExhaustiveKnnParameters

包含完整 KNN 演算法特有的參數。

名稱 類型 Description
metric

VectorSearchAlgorithmMetric

用於向量比較的相似度計量。

ExhaustiveKnnVectorSearchAlgorithmConfiguration

包含查詢期間所使用完整 KNN 演算法的特定組態選項,這會在整個向量索引上執行暴力密碼破解搜尋。

名稱 類型 Description
exhaustiveKnnParameters

ExhaustiveKnnParameters

包含完整 KNN 演算法特有的參數。

kind string:

exhaustiveKnn

要設定用於向量搜尋之演算法類型的名稱。

name

string

要與此特定組態產生關聯的名稱。

FreshnessScoringFunction

定義函式,根據日期時間欄位的值來提升分數。

名稱 類型 Description
boost

number

原始分數的乘數。 必須是不等於 1.0 的正數。

fieldName

string

做為評分函式輸入的功能變數名稱。

freshness

FreshnessScoringParameters

Freshness 評分函式的參數值。

interpolation

ScoringFunctionInterpolation

值,指出如何跨檔分數插補提升;預設為 “Linear”。

type string:

freshness

表示要使用的函式類型。 有效值包括大小、新鮮度、距離和標籤。 函式類型必須是小寫。

FreshnessScoringParameters

提供更新評分函式的參數值。

名稱 類型 Description
boostingDuration

string

到期期間之後,特定檔會停止提升。

HnswParameters

包含 HNSW 演算法特有的參數。

名稱 類型 預設值 Description
efConstruction

integer

400

動態清單的大小,包含最接近的鄰居,這是在索引時間使用。 增加此參數可能會改善索引品質,但代價是索引編製時間增加。 在特定時間點,增加此參數會導致傳回減少。

efSearch

integer

500

動態清單的大小,其中包含在搜尋期間使用的近鄰。 增加此參數可能會改善搜尋結果,但代價是搜尋速度較慢。 在特定時間點,增加此參數會導致傳回減少。

m

integer

4

建構期間針對每個新元素建立的雙向連結數目。 增加此參數值可改善回收,並減少具有高內建維度之數據集的擷取時間,代價是耗用記憶體耗用量增加和編製索引時間較長。

metric

VectorSearchAlgorithmMetric

用於向量比較的相似度計量。

HnswVectorSearchAlgorithmConfiguration

包含 HNSW 近似近鄰演算法在編制索引和查詢期間所使用的組態選項。 HNSW 演算法提供搜尋速度和精確度之間的無法權衡取捨。

名稱 類型 Description
hnswParameters

HnswParameters

包含 HNSW 演算法特有的參數。

kind string:

hnsw

要設定用於向量搜尋之演算法類型的名稱。

name

string

要與此特定組態產生關聯的名稱。

InputFieldMappingEntry

技能的輸入欄位對應。

名稱 類型 Description
inputs

InputFieldMappingEntry[]

建立複雜型別時所使用的遞歸輸入。

name

string

輸入的名稱。

source

string

輸入的來源。

sourceContext

string

用於選取遞歸輸入的來源內容。

KeepTokenFilter

令牌篩選條件,只保留包含指定單字清單中的文字標記。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

指定令牌篩選類型的 URI 片段。

keepWords

string[]

要保留的字組清單。

keepWordsCase

boolean

False

值,指出是否先小寫所有單字。 默認值為 false。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

KeywordMarkerTokenFilter

將字詞標示為關鍵詞。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

指定令牌篩選類型的 URI 片段。

ignoreCase

boolean

False

值,指出是否忽略大小寫。 如果為 true,則所有單字都會先轉換成小寫。 默認值為 false。

keywords

string[]

要標示為關鍵詞的字組清單。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

KeywordTokenizer

以單一令牌的形式發出整個輸入。 這個 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

指定 Tokenizer 類型的 URI 片段。

bufferSize

integer

256

以位元組為單位的讀取緩衝區大小。 預設值為 256。

name

string

Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

KeywordTokenizerV2

以單一令牌的形式發出整個輸入。 這個 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

指定 Tokenizer 類型的 URI 片段。

maxTokenLength

integer

256

令牌長度上限。 預設值為 256。 分割長度超過最大長度的令牌。 可以使用的令牌長度上限為 300 個字元。

name

string

Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

LengthTokenFilter

拿掉太長或太短的字組。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

指定令牌篩選類型的 URI 片段。

max

integer

300

字元的最大長度。 預設值和最大值為 300。

min

integer

0

字元的最小長度。 預設值為 0。 最大值為300。 必須小於 max的值。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

LexicalAnalyzerName

定義搜尋引擎所支援之所有文字分析器的名稱。

名稱 類型 Description
ar.lucene

string

阿拉伯文的 Lucene 分析器。

ar.microsoft

string

Microsoft阿拉伯文的分析器。

bg.lucene

string

保加利亞的 Lucene 分析器。

bg.microsoft

string

保加利亞文Microsoft分析器。

bn.microsoft

string

班格拉的 Microsoft 分析器。

ca.lucene

string

加泰隆尼亞的 Lucene 分析器。

ca.microsoft

string

Microsoft加泰羅尼亞的分析器。

cs.lucene

string

捷克文的 Lucene 分析器。

cs.microsoft

string

Microsoft捷克文的分析器。

da.lucene

string

丹麥文的 Lucene 分析器。

da.microsoft

string

Microsoft丹麥文的分析器。

de.lucene

string

適用於德文的 Lucene 分析器。

de.microsoft

string

Microsoft適用於德文的分析器。

el.lucene

string

希臘文的 Lucene 分析器。

el.microsoft

string

適用於希臘文的Microsoft分析器。

en.lucene

string

適用於英文的 Lucene 分析器。

en.microsoft

string

Microsoft英文分析器。

es.lucene

string

適用於西班牙文的 Lucene 分析器。

es.microsoft

string

Microsoft西班牙文分析器。

et.microsoft

string

愛沙尼亞Microsoft分析器。

eu.lucene

string

Basque 的 Lucene 分析器。

fa.lucene

string

波斯文的 Lucene 分析器。

fi.lucene

string

芬蘭文的 Lucene 分析器。

fi.microsoft

string

芬蘭文Microsoft分析器。

fr.lucene

string

適用於法文的 Lucene 分析器。

fr.microsoft

string

適用於法文Microsoft分析器。

ga.lucene

string

愛爾蘭的 Lucene 分析器。

gl.lucene

string

加利西亞的 Lucene 分析器。

gu.microsoft

string

Microsoft古吉拉蒂的分析器。

he.microsoft

string

Microsoft希伯來文的分析器。

hi.lucene

string

適用於印度文的 Lucene 分析器。

hi.microsoft

string

適用於印度文Microsoft分析器。

hr.microsoft

string

克羅埃西亞Microsoft分析器。

hu.lucene

string

匈牙利文的 Lucene 分析器。

hu.microsoft

string

匈牙利文Microsoft分析器。

hy.lucene

string

亞美尼亞文的 Lucene 分析器。

id.lucene

string

印尼文的 Lucene 分析器。

id.microsoft

string

Microsoft印尼(巴薩)的分析器。

is.microsoft

string

冰島Microsoft分析器。

it.lucene

string

義大利文的 Lucene 分析器。

it.microsoft

string

義大利文Microsoft分析器。

ja.lucene

string

日文的 Lucene 分析器。

ja.microsoft

string

日文Microsoft分析器。

keyword

string

將欄位的整個內容視為單一標記。 這適用於郵遞區號、標識元和某些產品名稱等數據。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

適用於 Kannada 的Microsoft分析器。

ko.lucene

string

韓文的 Lucene 分析器。

ko.microsoft

string

適用於韓文Microsoft分析器。

lt.microsoft

string

立陶宛Microsoft分析器。

lv.lucene

string

拉脫維亞的 Lucene 分析器。

lv.microsoft

string

拉脫維亞Microsoft分析器。

ml.microsoft

string

馬來亞蘭Microsoft分析器。

mr.microsoft

string

Microsoft Marathi 的分析器。

ms.microsoft

string

馬來語(拉丁)的Microsoft分析器。

nb.microsoft

string

挪威文(博克瑪律)的Microsoft分析器。

nl.lucene

string

荷蘭文的 Lucene 分析器。

nl.microsoft

string

Microsoft荷蘭文的分析器。

no.lucene

string

挪威文的 Lucene 分析器。

pa.microsoft

string

Microsoft旁遮普的分析器。

pattern

string

彈性地透過正則表示式模式將文字分隔成字詞。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

波蘭文的 Lucene 分析器。

pl.microsoft

string

Microsoft波蘭文的分析器。

pt-BR.lucene

string

葡萄牙文(巴西)的 Lucene 分析器。

pt-BR.microsoft

string

Microsoft葡萄牙文(巴西)的分析器。

pt-PT.lucene

string

葡萄牙文(葡萄牙)的 Lucene 分析器。

pt-PT.microsoft

string

葡萄牙文(葡萄牙)的Microsoft分析器。

ro.lucene

string

羅馬尼亞文的 Lucene 分析器。

ro.microsoft

string

Microsoft羅馬尼亞文的分析器。

ru.lucene

string

適用於俄羅斯的 Lucene 分析器。

ru.microsoft

string

適用於俄羅斯的Microsoft分析器。

simple

string

將文字分割成非字母,並將其轉換成小寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

斯洛伐克文Microsoft分析器。

sl.microsoft

string

斯洛維尼亞Microsoft分析器。

sr-cyrillic.microsoft

string

塞爾維亞文(斯拉夫)的Microsoft分析器。

sr-latin.microsoft

string

塞爾維亞文(拉丁文)的Microsoft分析器。

standard.lucene

string

標準 Lucene 分析器。

standardasciifolding.lucene

string

標準 ASCII 折疊 Lucene 分析器。 請參閱 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

將文字分割為非字母;套用小寫和停用字詞標記篩選。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

瑞典文的 Lucene 分析器。

sv.microsoft

string

Microsoft瑞典文的分析器。

ta.microsoft

string

泰米爾語Microsoft分析器。

te.microsoft

string

Microsoft Telugu 的分析器。

th.lucene

string

泰文的 Lucene 分析器。

th.microsoft

string

適用於泰文Microsoft分析器。

tr.lucene

string

土耳其文的 Lucene 分析器。

tr.microsoft

string

Microsoft土耳其文的分析器。

uk.microsoft

string

烏克蘭文Microsoft分析器。

ur.microsoft

string

適用於 Urdu 的Microsoft分析器。

vi.microsoft

string

Microsoft越南語的分析器。

whitespace

string

使用空格符 Tokenizer 的分析器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

適用於中文的 Lucene 分析器(簡體中文)。

zh-Hans.microsoft

string

Microsoft中文分析器(簡體中文)。

zh-Hant.lucene

string

中國(繁體中文)的 Lucene 分析器。

zh-Hant.microsoft

string

Microsoft中文(繁體中文)分析器。

LexicalNormalizerName

定義搜尋引擎所支援之所有文字正規化程序的名稱。

名稱 類型 Description
asciifolding

string

如果這類對等專案存在,請將前127個ASCII字元中的字母、數位和符號 Unicode 字元轉換成其 ASCII 對等專案。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

string

拿掉 elisions。 例如,“l'avion” (平面) 會轉換成 “avion” (plane)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

string

將標記文字正規化為小寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

string

標準正規化程式,由小寫和 asciifolding 組成。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

string

將標記文字正規化為大寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

定義搜尋引擎支援的所有 Tokenizer 名稱。

名稱 類型 Description
classic

string

適用於處理大部分歐洲語言檔的文法型Tokenizer。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

將邊緣的輸入標記化為指定大小的 n-gram。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

以單一令牌的形式發出整個輸入。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

將文字除以非字母。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

將文字分割成非字母,並將其轉換成小寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

使用語言特定規則來分割文字,並將單字縮減為基底形式。

microsoft_language_tokenizer

string

使用語言特定規則來分割文字。

nGram

string

將輸入標記化為指定大小的 n-gram。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

類似路徑階層的Tokenizer。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

使用 regex 模式比對來建構不同令牌的 Tokenizer。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

標準 Lucene 分析器;由標準 Tokenizer、小寫篩選和停止篩選所組成。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

將 URL 和電子郵件令牌化為一個令牌。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

在空格符處分割文字。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

在編製索引時限制令牌數目。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

指定令牌篩選類型的 URI 片段。

consumeAllTokens

boolean

False

值,指出是否必須取用輸入中的所有令牌,即使達到 maxTokenCount 也一樣。 默認值為 false。

maxTokenCount

integer

1

要產生的令牌數目上限。 預設值為 1。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

LuceneStandardAnalyzer

標準 Apache Lucene 分析器;由標準 Tokenizer、小寫篩選和停止篩選所組成。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

指定分析器類型的 URI 片段。

maxTokenLength

integer

255

令牌長度上限。 預設值為 255。 分割長度超過最大長度的令牌。 可以使用的令牌長度上限為 300 個字元。

name

string

分析器的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

stopwords

string[]

停用字詞清單。

LuceneStandardTokenizer

在 Unicode 文字分割規則之後中斷文字。 這個 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

指定 Tokenizer 類型的 URI 片段。

maxTokenLength

integer

255

令牌長度上限。 預設值為 255。 分割長度超過最大長度的令牌。

name

string

Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

LuceneStandardTokenizerV2

在 Unicode 文字分割規則之後中斷文字。 這個 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

指定 Tokenizer 類型的 URI 片段。

maxTokenLength

integer

255

令牌長度上限。 預設值為 255。 分割長度超過最大長度的令牌。 可以使用的令牌長度上限為 300 個字元。

name

string

Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

MagnitudeScoringFunction

定義函式,根據數值欄位的大小來提升分數。

名稱 類型 Description
boost

number

原始分數的乘數。 必須是不等於 1.0 的正數。

fieldName

string

做為評分函式輸入的功能變數名稱。

interpolation

ScoringFunctionInterpolation

值,指出如何跨檔分數插補提升;預設為 “Linear”。

magnitude

MagnitudeScoringParameters

大小計分函式的參數值。

type string:

magnitude

表示要使用的函式類型。 有效值包括大小、新鮮度、距離和標籤。 函式類型必須是小寫。

MagnitudeScoringParameters

提供量級評分函式的參數值。

名稱 類型 Description
boostingRangeEnd

number

提升結束的域值。

boostingRangeStart

number

啟動提升的域值。

constantBoostBeyondRange

boolean

值,指出是否對超出範圍結束值的域值套用常數提升;默認值為 false。

MappingCharFilter

套用對應選項所定義的對應的字元篩選。 比對是貪婪(在指定點獲勝的時間最長的模式比對)。 允許取代為空字串。 此字元篩選器是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

指定字元篩選類型的 URI 片段。

mappings

string[]

下列格式的對應清單:“a=>b” (所有出現的字元 “a” 都會取代為字元 “b”。

name

string

char 篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

MicrosoftLanguageStemmingTokenizer

使用語言特定規則來分割文字,並將單字縮減為基底形式。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

指定 Tokenizer 類型的 URI 片段。

isSearchTokenizer

boolean

False

值,指出如何使用Tokenizer。 如果使用 做為搜尋Tokenizer,請將 設定為 true,如果做為索引標記化工具,則設定為 false。 默認值為 false。

language

MicrosoftStemmingTokenizerLanguage

要使用的語言。 預設值為英文。

maxTokenLength

integer

255

令牌長度上限。 分割長度超過最大長度的令牌。 可以使用的令牌長度上限為 300 個字元。 超過 300 個字元的令牌會先分割成長度為 300 的令牌,然後每個令牌都會根據設定的令牌長度上限來分割。 預設值為 255。

name

string

Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

MicrosoftLanguageTokenizer

使用語言特定規則來分割文字。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

指定 Tokenizer 類型的 URI 片段。

isSearchTokenizer

boolean

False

值,指出如何使用Tokenizer。 如果使用 做為搜尋Tokenizer,請將 設定為 true,如果做為索引標記化工具,則設定為 false。 默認值為 false。

language

MicrosoftTokenizerLanguage

要使用的語言。 預設值為英文。

maxTokenLength

integer

255

令牌長度上限。 分割長度超過最大長度的令牌。 可以使用的令牌長度上限為 300 個字元。 超過 300 個字元的令牌會先分割成長度為 300 的令牌,然後每個令牌都會根據設定的令牌長度上限來分割。 預設值為 255。

name

string

Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

MicrosoftStemmingTokenizerLanguage

列出Microsoft語言詞幹標記化工具所支持的語言。

名稱 類型 Description
arabic

string

選取阿拉伯文的Microsoft詞干標記化工具。

bangla

string

選取班格拉的Microsoft詞干標記化工具。

bulgarian

string

選取保加利亞文的Microsoft詞干標記化工具。

catalan

string

選取加泰隆尼亞文的Microsoft詞干標記化程式。

croatian

string

選取克羅埃西亞文的Microsoft詞干標記化工具。

czech

string

選取捷克文的Microsoft詞幹化工具。

danish

string

選取丹麥文的Microsoft詞干標記化工具。

dutch

string

選取荷蘭文的Microsoft詞干標記化工具。

english

string

選取英文的Microsoft詞干標記化工具。

estonian

string

選取愛沙尼亞文的Microsoft詞幹化工具。

finnish

string

選取芬蘭文的Microsoft詞干標記化工具。

french

string

選取法文的Microsoft詞幹詞標記化工具。

german

string

選取德文的Microsoft詞干標記化工具。

greek

string

選取希臘文的Microsoft詞幹化工具。

gujarati

string

選取 Gujarati 的Microsoft詞幹化標記化程式。

hebrew

string

選取希伯來文的Microsoft詞干標記化工具。

hindi

string

選取印度文的Microsoft詞干標記化工具。

hungarian

string

選取匈牙利文的Microsoft詞干標記化工具。

icelandic

string

選取冰島的Microsoft詞干標記化工具。

indonesian

string

選取印尼文的Microsoft詞干標記化工具。

italian

string

選取義大利文的Microsoft詞干標記化工具。

kannada

string

選取 Kannada 的Microsoft詞幹標記化工具。

latvian

string

選取拉脫維亞文的Microsoft詞干標記化工具。

lithuanian

string

選取立陶宛文的Microsoft詞干標記化工具。

malay

string

選取馬來文的Microsoft詞干標記化工具。

malayalam

string

選取馬來亞蘭的Microsoft詞干標記化程式。

marathi

string

為 Marathi 選取Microsoft詞幹化工具。

norwegianBokmaal

string

選取挪威文 (Bokmål) 的Microsoft詞幹詞標記化工具。

polish

string

選取波蘭文的Microsoft詞幹詞標記化工具。

portuguese

string

選取葡萄牙文的Microsoft詞干標記化工具。

portugueseBrazilian

string

選取葡萄牙文 (巴西) 的Microsoft詞幹詞標記化工具。

punjabi

string

選取旁遮普文的Microsoft詞干標記化程式。

romanian

string

選取羅馬尼亞文的Microsoft詞干標記化工具。

russian

string

選取適用於俄文的Microsoft詞干標記化工具。

serbianCyrillic

string

選取塞爾維亞文的Microsoft詞干標記化工具(斯拉夫)。

serbianLatin

string

選取塞爾維亞文(拉丁文)的Microsoft詞干標記化工具。

slovak

string

選取斯洛伐克文的Microsoft詞干標記化工具。

slovenian

string

選取斯洛維尼亞文的Microsoft詞干標記化程式。

spanish

string

選取西班牙文的Microsoft詞干標記化工具。

swedish

string

選取瑞典文的Microsoft詞干標記化程式。

tamil

string

選取泰米爾文的Microsoft詞幹化工具。

telugu

string

選取 Telugu 的Microsoft詞幹化 Tokenizer。

turkish

string

選取土耳其文的Microsoft詞干標記化工具。

ukrainian

string

選取烏克蘭文的Microsoft詞干標記化工具。

urdu

string

選取 Urdu 的Microsoft詞幹標記化工具。

MicrosoftTokenizerLanguage

列出Microsoft語言令牌化程序支持的語言。

名稱 類型 Description
bangla

string

選取班格拉的Microsoft Tokenizer。

bulgarian

string

選取保加利亞文的Microsoft Tokenizer。

catalan

string

選取加泰羅尼亞文的Microsoft Tokenizer。

chineseSimplified

string

選取中文的Microsoft Tokenizer(簡體中文)。

chineseTraditional

string

選取中文(繁體中文)的Microsoft Tokenizer。

croatian

string

選取克羅埃西亞文的Microsoft Tokenizer。

czech

string

選取捷克文的Microsoft Tokenizer。

danish

string

選取丹麥文的Microsoft Tokenizer。

dutch

string

選取荷蘭文的Microsoft Tokenizer。

english

string

選取英文Microsoft Tokenizer。

french

string

選取法文Microsoft Tokenizer。

german

string

選取德文的Microsoft Tokenizer。

greek

string

選取希臘文的Microsoft Tokenizer。

gujarati

string

選取 Gujarati 的Microsoft Tokenizer。

hindi

string

選取印度文的Microsoft Tokenizer。

icelandic

string

選取冰島的Microsoft Tokenizer。

indonesian

string

選取印尼文的Microsoft Tokenizer。

italian

string

選取義大利文的Microsoft Tokenizer。

japanese

string

選取日文Microsoft Tokenizer。

kannada

string

選取 Kannada 的Microsoft Tokenizer。

korean

string

選取韓文的Microsoft Tokenizer。

malay

string

選取馬來的Microsoft Tokenizer。

malayalam

string

選取馬來亞蘭的Microsoft Tokenizer。

marathi

string

選取 Marathi 的Microsoft Tokenizer。

norwegianBokmaal

string

選取挪威文 (Bokmål) 的Microsoft Tokenizer。

polish

string

選取波蘭文Microsoft Tokenizer。

portuguese

string

選取葡萄牙文的Microsoft Tokenizer。

portugueseBrazilian

string

選取葡萄牙文 (巴西) 的Microsoft Tokenizer。

punjabi

string

選取旁遮普Microsoft Tokenizer。

romanian

string

選取羅馬尼亞文的Microsoft Tokenizer。

russian

string

選取適用於俄文的Microsoft Tokenizer。

serbianCyrillic

string

選取塞爾維亞文的Microsoft標記化工具(斯拉夫)。

serbianLatin

string

選取塞爾維亞文(拉丁文)的Microsoft Tokenizer。

slovenian

string

選取斯洛維尼亞Microsoft Tokenizer。

spanish

string

選取西班牙文Microsoft Tokenizer。

swedish

string

選取瑞典文的Microsoft Tokenizer。

tamil

string

選取泰米爾文的Microsoft Tokenizer。

telugu

string

選取 Telugu 的Microsoft Tokenizer。

thai

string

選取泰文Microsoft Tokenizer。

ukrainian

string

選取烏克蘭文的Microsoft Tokenizer。

urdu

string

選取 Urdu 的Microsoft Tokenizer。

vietnamese

string

選取越南文的Microsoft Tokenizer。

NGramTokenFilter

產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

指定令牌篩選類型的 URI 片段。

maxGram

integer

2

n-gram 長度上限。 預設值為 2。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 必須小於 maxGram的值。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

NGramTokenFilterV2

產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

指定令牌篩選類型的 URI 片段。

maxGram

integer

2

n-gram 長度上限。 預設值為 2。 最大值為300。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

NGramTokenizer

將輸入標記化為指定大小的 n-gram。 這個 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

指定 Tokenizer 類型的 URI 片段。

maxGram

integer

2

n-gram 長度上限。 預設值為 2。 最大值為300。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。

name

string

Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

tokenChars

TokenCharacterKind[]

要保留在令牌中的字元類別。

OutputFieldMappingEntry

技能的輸出欄位對應。

名稱 類型 Description
name

string

技能所定義的輸出名稱。

targetName

string

輸出的目標名稱。 這是選擇性的,預設為 name。

PathHierarchyTokenizerV2

類似路徑階層的Tokenizer。 這個 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

指定 Tokenizer 類型的 URI 片段。

delimiter

string

/

要使用的分隔符。 預設值為 “/”。

maxTokenLength

integer

300

令牌長度上限。 預設值和最大值為 300。

name

string

Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

replacement

string

/

值,如果設定,則會取代分隔符。 預設值為 “/”。

reverse

boolean

False

值,指出是否要以反向順序產生令牌。 默認值為 false。

skip

integer

0

要略過的初始令牌數目。 預設值為 0。

PatternAnalyzer

彈性地透過正則表示式模式將文字分隔成字詞。 此分析器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

指定分析器類型的 URI 片段。

flags

RegexFlags

正則表達式旗標。

lowercase

boolean

True

值,指出字詞是否應該小寫。 默認值為 true。

name

string

分析器的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

pattern

string

\W+

符合標記分隔符的正則表達式模式。 預設值是符合一或多個非單字字元的表達式。

stopwords

string[]

停用字詞清單。

PatternCaptureTokenFilter

使用 Java regex 來發出多個令牌 - 一個或多個模式中每個擷取群組各一個。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

指定令牌篩選類型的 URI 片段。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

patterns

string[]

要與每個令牌相符的模式清單。

preserveOriginal

boolean

True

值,指出是否要傳回原始令牌,即使其中一個模式相符也一樣。 默認值為 true。

PatternReplaceCharFilter

字元篩選條件,取代輸入字串中的字元。 它會使用正則表示式來識別要保留的字元序列,以及用來識別要取代的字元的取代模式。 例如,假設輸入文字 “aa bb aa bb”, pattern “(aa)\s+(bb)” 和取代 “$1#$$2”,結果會是 “aa#bb aa#bb”。 此字元篩選器是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

指定字元篩選類型的 URI 片段。

name

string

char 篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

pattern

string

正則表達式模式。

replacement

string

取代文字。

PatternReplaceTokenFilter

字元篩選條件,取代輸入字串中的字元。 它會使用正則表示式來識別要保留的字元序列,以及用來識別要取代的字元的取代模式。 例如,假設輸入文字 “aa bb aa bb”, pattern “(aa)\s+(bb)” 和取代 “$1#$$2”,結果會是 “aa#bb aa#bb”。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

指定令牌篩選類型的 URI 片段。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

pattern

string

正則表達式模式。

replacement

string

取代文字。

PatternTokenizer

使用 regex 模式比對來建構不同令牌的 Tokenizer。 這個 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

指定 Tokenizer 類型的 URI 片段。

flags

RegexFlags

正則表達式旗標。

group

integer

-1

正則表達式模式中相符群組的以零起始序數,以擷取至標記。 如果您想要使用整個模式將輸入分割成令牌,不論相符群組為何,請使用 -1。 預設值為 -1。

name

string

Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

pattern

string

\W+

符合標記分隔符的正則表達式模式。 預設值是符合一或多個非單字字元的表達式。

PhoneticEncoder

識別要與 PhoneticTokenFilter 搭配使用的注音編碼器類型。

名稱 類型 Description
beiderMorse

string

將令牌編碼為 Beider-Morse 值。

caverphone1

string

將令牌編碼為 Caverphone 1.0 值。

caverphone2

string

將令牌編碼為 Caverphone 2.0 值。

cologne

string

將令牌編碼為科隆注音值。

doubleMetaphone

string

將令牌編碼為雙元手機值。

haasePhonetik

string

使用 Kölner Phonetik 演算法的 Haase 精簡編碼令牌。

koelnerPhonetik

string

使用 Kölner Phonetik 演演算法編碼令牌。

metaphone

string

將令牌編碼為 Metaphone 值。

nysiis

string

將令牌編碼為 NYSIIS 值。

refinedSoundex

string

將令牌編碼為精簡的 Soundex 值。

soundex

string

將令牌編碼為 Soundex 值。

PhoneticTokenFilter

建立注音相符專案的令牌。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

指定令牌篩選類型的 URI 片段。

encoder

PhoneticEncoder

metaphone

要使用的語音編碼器。 預設值為 「metaphone」。。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

replace

boolean

True

值,指出編碼令牌是否應該取代原始令牌。 如果為 false,編碼的令牌會新增為同義字。 默認值為 true。

PrioritizedFields

描述要用於語意排名、標題、醒目提示和答案的標題、內容和關鍵詞欄位。

名稱 類型 Description
prioritizedContentFields

SemanticField[]

定義要用於語意排名、標題、醒目提示和答案的內容欄位。 為了獲得最佳結果,選取的字段應該包含自然語言格式的文字。 陣列中欄位的順序代表其優先順序。 如果內容很長,優先順序較低的欄位可能會遭到截斷。

prioritizedKeywordsFields

SemanticField[]

定義要用於語意排名、標題、醒目提示和答案的關鍵詞欄位。 為了獲得最佳結果,選取的字段應該包含關鍵詞清單。 陣列中欄位的順序代表其優先順序。 如果內容很長,優先順序較低的欄位可能會遭到截斷。

titleField

SemanticField

定義要用於語意排名、標題、醒目提示和答案的標題字段。 如果您的索引中沒有標題字段,請將此欄位保留空白。

RegexFlags

定義可以結合的旗標,以控制正則表達式在模式分析器和模式標記化工具中的使用方式。

名稱 類型 Description
CANON_EQ

string

啟用標準等價。

CASE_INSENSITIVE

string

啟用不區分大小寫的比對。

COMMENTS

string

允許模式中的空格元和批注。

DOTALL

string

啟用 dotall 模式。

LITERAL

string

啟用模式的常值剖析。

MULTILINE

string

啟用多行模式。

UNICODE_CASE

string

啟用 Unicode 感知大小寫折疊。

UNIX_LINES

string

啟用 Unix 行模式。

RescoringOptions

包含重新記錄的選項。

名稱 類型 預設值 Description
defaultOversampling

number

默認過度取樣因數。 過度取樣會擷取一組更大的潛在檔,以因量化而抵消解析遺失。 這會增加將在全精確度向量上重新記錄的結果集。 最小值為 1,表示沒有過度取樣(1 倍)。 只有在 'enableRescoring' 為 true 時,才能設定此參數。 較高的值會犧牲延遲來改善召回率。

enableRescoring

boolean

True

如果設定為 true,在壓縮向量的初始搜尋之後,會使用全精確度向量重新計算相似度分數。 這會以犧牲延遲為代價來改善召回率。

rescoreStorageMethod

VectorSearchCompressionRescoreStorageMethod

preserveOriginals

控制原始向量的儲存方法。 此設定是不可變的。

ScalarQuantizationParameters

包含純量量化特有的參數。

名稱 類型 Description
quantizedDataType

VectorSearchCompressionTargetDataType

壓縮向量值的量化數據類型。

ScalarQuantizationVectorSearchCompressionConfiguration

包含索引編製和查詢期間所使用純量量化壓縮方法的特定組態選項。

名稱 類型 預設值 Description
defaultOversampling

number

默認過度取樣因數。 在初始搜尋中,過度取樣會在內部要求更多檔(由這個乘數指定)。 這會增加從全精確度向量使用重新計算相似度分數來重新產生的結果集。 最小值為 1,表示沒有過度取樣(1 倍)。 只有在 rerankWithOriginalVectors 為 true 時,才能設定此參數。 較高的值會犧牲延遲來改善召回率。

kind string:

scalarQuantization

要設定用於向量搜尋之壓縮方法類型的名稱。

name

string

要與此特定組態產生關聯的名稱。

rerankWithOriginalVectors

boolean

True

如果設定為 true,一旦取得使用壓縮向量計算的已排序結果集之後,就會重新計算完整精確度相似度分數來重新調整結果集。 這會以犧牲延遲為代價來改善召回率。

rescoringOptions

RescoringOptions

包含重新記錄的選項。

scalarQuantizationParameters

ScalarQuantizationParameters

包含純量量化特有的參數。

truncationDimension

integer

要截斷向量的維度數目。 截斷向量可減少向量的大小,以及搜尋期間需要傳輸的數據量。 這可以節省記憶體成本,並降低搜尋效能,以犧牲召回率。 它只應該用於內嵌使用 Matryoshka 表示法學習 (MRL) 定型的內嵌,例如 OpenAI 文字內嵌-3-large(小型)。 默認值為 null,這表示不會截斷。

ScoringFunctionAggregation

定義聚合函數,用來結合評分配置檔中所有評分函式的結果。

名稱 類型 Description
average

string

依所有評分函式結果的平均值來提升分數。

firstMatching

string

使用評分配置檔中的第一個適用評分函式來提升分數。

maximum

string

將所有評分函式結果的最大值提升分數。

minimum

string

將所有評分函式結果的最小值提升分數。

sum

string

依所有評分函式結果的總和來提升分數。

ScoringFunctionInterpolation

定義用來跨一系列檔插補分數提升的函式。

名稱 類型 Description
constant

string

以常數因素提升分數。

linear

string

以線性遞減量來提升分數。 這是評分函式的預設插補。

logarithmic

string

將分數提升為以對數遞減的數量。 提升會快速降低分數,並隨著分數降低而變慢。 標籤評分函式中不允許使用這個插補選項。

quadratic

string

將分數提升為四次減少的數量。 提升速度會緩慢地降低分數,而且分數降低的速度會更快。 標籤評分函式中不允許使用這個插補選項。

ScoringProfile

定義影響搜尋查詢評分之搜尋索引的參數。

名稱 類型 Description
functionAggregation

ScoringFunctionAggregation

值,指出應該如何合併個別評分函式的結果。 預設為 「Sum」。 如果沒有評分函式,則會忽略 。

functions ScoringFunction[]:

影響檔評分的函式集合。

name

string

評分配置檔的名稱。

text

TextWeights

根據特定索引欄位中文字相符專案提升評分的參數。

SearchField

表示索引定義中的欄位,描述欄位的名稱、數據類型和搜尋行為。

名稱 類型 Description
analyzer

LexicalAnalyzerName

要用於欄位的分析器名稱。 此選項只能與可搜尋的字段搭配使用,而且無法與 searchAnalyzer 或 indexAnalyzer 一起設定。 選擇分析器之後,就無法變更欄位。 複雜欄位必須為 Null。

dimensions

integer

向量欄位的維度。

facetable

boolean

值,指出是否要在Facet查詢中參考欄位。 通常用於搜尋結果的呈現中,包括依類別的點擊計數(例如,搜尋數字相機,並查看依品牌點擊、依百萬像素、價格等等)。 複雜欄位的這個屬性必須為 Null。 類型為 Edm.GeographyPoint 或 Collection(Edm.GeographyPoint) 的欄位不可多面向。 所有其他簡單欄位的預設值為 true。

fields

SearchField[]

如果這是Edm.ComplexType或Collection(Edm.ComplexType)類型的字段,則為子字段的清單。 簡單欄位必須為 Null 或空白。

filterable

boolean

值,指出是否要在$filter查詢中參考欄位。 filterable 與可搜尋的字串處理方式不同。 可篩選的 Edm.String 或 Collection(Edm.String) 類型的字段不會進行斷詞,因此比較僅適用於完全相符專案。 例如,如果您將這類字段 f 設定為 「sunny day」,$filter=f eq 'sunny' 將找不到相符專案,但$filter=f eq 'sunny day' 將會。 複雜欄位的這個屬性必須為 Null。 簡單欄位的預設值為 true,複雜欄位則為 Null。

indexAnalyzer

LexicalAnalyzerName

用於欄位索引編製時間的分析器名稱。 此選項只能與可搜尋的欄位搭配使用。 它必須與 searchAnalyzer 一起設定,且無法與分析器選項一起設定。 此屬性無法設定為語言分析器的名稱;如果您需要語言分析器,請改用分析器屬性。 選擇分析器之後,就無法變更欄位。 複雜欄位必須為 Null。

key

boolean

值,指出欄位是否唯一識別索引中的檔。 每個索引中只有一個最上層字段必須選擇為索引鍵欄位,而且必須是Edm.String類型。 索引鍵欄位可用來直接查閱檔,並更新或刪除特定檔。 簡單欄位的預設值為 false,複雜欄位為 Null。

name

string

欄位的名稱,在索引或父字段的 fields 集合中必須是唯一的。

normalizer

LexicalNormalizerName

要用於欄位的正規化程序名稱。 此選項只能與已啟用可篩選、可排序或可多面向的欄位搭配使用。 選擇正規化程序之後,就無法變更欄位。 複雜欄位必須為 Null。

retrievable

boolean

值,指出是否可以在搜尋結果中傳回欄位。 如果您想要使用欄位(例如 margin)做為篩選、排序或評分機制,但不想讓使用者看到字段,則可以停用此選項。 對於索引鍵字段,此屬性必須為 true,而且複雜字段必須為 Null。 這個屬性可以在現有的欄位上變更。 啟用此屬性不會造成索引記憶體需求增加。 簡單欄位的預設值為 true,向量欄位為 false,複雜欄位則為 null。

searchAnalyzer

LexicalAnalyzerName

在搜尋時用於欄位的分析器名稱。 此選項只能與可搜尋的欄位搭配使用。 它必須與 indexAnalyzer 一起設定,且無法與分析器選項一起設定。 此屬性無法設定為語言分析器的名稱;如果您需要語言分析器,請改用分析器屬性。 您可以在現有的欄位更新此分析器。 複雜欄位必須為 Null。

searchable

boolean

值,指出欄位是否可供全文搜索。 這表示它會在編製索引期間進行斷詞分析。 如果您將可搜尋的字段設定為「晴天」之類的值,則內部會分割成個別標記「陽光明媚」和「日」。 這可啟用全文搜索這些字詞。 默認可搜尋類型為 Edm.String 或 Collection(Edm.String) 的欄位。 對於其他非字串數據類型的簡單欄位,此屬性必須為 false,而且複雜欄位必須為 null。 注意:可搜尋的欄位會耗用索引中的額外空間,以容納全文搜索之域值的其他標記化版本。 如果您想要在索引中節省空間,而且不需要在搜尋中包含字段,請將 [可搜尋] 設定為 false。

sortable

boolean

值,指出是否要在$orderby運算式中參考字段。 根據預設,搜尋引擎會依分數排序結果,但在許多情況下,使用者會想要依檔中的欄位排序。 只有在單一值時,才能排序簡單字段(在父檔範圍中有單一值)。 簡單集合欄位無法排序,因為它們是多重值。 複雜集合的簡單子欄位也是多重值,因此無法排序。 不論其為即時父欄位或上階字段,都是複雜的集合,都是如此。 複雜欄位無法排序,而且這類欄位的可排序屬性必須為 Null。 單一值簡單欄位的可排序預設值為 true、多重值簡單欄位為 false,而複雜欄位則為 null。

stored

boolean

不可變的值,指出欄位是否會個別保存在要在搜尋結果中傳回的磁碟上。 如果您不打算在搜尋回應中傳回字段內容,以節省記憶體額外負荷,則可以停用此選項。 這隻能在索引建立期間設定,而且只能在向量字段設定。 現有欄位無法變更此屬性,或針對新欄位設定為 false。 如果此屬性設定為 false,則屬性 『可擷取』 也必須設定為 false。 對於索引鍵欄位、新字段和非向量欄位,此屬性必須為 true 或 unset,而且複雜欄位必須為 Null。 停用此屬性會減少索引記憶體需求。 向量欄位的預設值為 true。

synonymMaps

string[]

要與此欄位關聯的同義字名稱清單。 此選項只能與可搜尋的欄位搭配使用。 目前每個欄位只支援一個同義字對應。 將同義字對應指派給字段可確保以該欄位為目標的查詢字詞會使用同義字對應中的規則在查詢時間展開。 這個屬性可以在現有的欄位上變更。 複雜欄位的 Null 或空白集合。

type

SearchFieldDataType

欄位的數據類型。

vectorEncoding

VectorEncodingFormat

用來解譯欄位內容的編碼格式。

vectorSearchProfile

string

向量搜尋配置檔的名稱,指定搜尋向量字段時要使用的演算法和向量化程式。

SearchFieldDataType

定義搜尋索引中欄位的數據類型。

名稱 類型 Description
Edm.Boolean

string

表示欄位包含布爾值 (true 或 false)。

Edm.Byte

string

表示欄位包含 8 位無符號整數。 只有在搭配 Collection(Edm.Byte) 使用時才有效。

Edm.ComplexType

string

表示欄位包含一或多個複雜物件,而該物件接著具有其他類型的子字段。

Edm.DateTimeOffset

string

表示欄位包含日期/時間值,包括時區資訊。

Edm.Double

string

表示欄位包含 IEEE 雙精確度浮點數。

Edm.GeographyPoint

string

表示欄位在經度和緯度方面包含地理位置。

Edm.Half

string

表示欄位包含半精確度浮點數。 只有在搭配 Collection(Edm.Half) 使用時才有效。

Edm.Int16

string

表示欄位包含16位帶正負號的整數。 只有在搭配 Collection(Edm.Int16) 使用時才有效。

Edm.Int32

string

表示欄位包含32位帶正負號的整數。

Edm.Int64

string

表示欄位包含 64 位帶正負號的整數。

Edm.SByte

string

表示欄位包含 8 位帶正負號的整數。 只有在搭配 Collection(Edm.SByte) 使用時才有效。

Edm.Single

string

表示欄位包含單精度浮點數。 只有在搭配 Collection(Edm.Single) 使用時才有效。

Edm.String

string

表示欄位包含字串。

SearchIndex

表示搜尋索引定義,描述索引的欄位和搜尋行為。

名稱 類型 Description
@odata.etag

string

索引的 ETag。

analyzers LexicalAnalyzer[]:

索引的分析器。

charFilters CharFilter[]:

索引的字元篩選。

corsOptions

CorsOptions

控制索引之跨原始來源資源分享 (CORS) 的選項。

defaultScoringProfile

string

如果在查詢中未指定評分配置檔,則為要使用的評分配置檔名稱。 如果未設定此屬性,而且查詢中未指定任何評分配置檔,則會使用預設評分 (tf-idf)。

encryptionKey

SearchResourceEncryptionKey

您在 Azure Key Vault 中建立的加密金鑰描述。 當您想要完整保證,即使沒有Microsoft,也無法解密您的數據時,此密鑰會用來為您的數據提供額外的待用加密層級。 加密數據之後,一律會保持加密狀態。 搜尋服務會忽略將此屬性設定為 null 的嘗試。 如果您想要輪替加密金鑰,您可以視需要變更此屬性;您的數據不會受到影響。 使用客戶管理的金鑰加密不適用於免費搜尋服務,而且僅適用於 2019 年 1 月 1 日或之後建立的付費服務。

fields

SearchField[]

索引的欄位。

name

string

索引的名稱。

normalizers LexicalNormalizer[]:

CustomNormalizer[]

索引的正規化程式。

scoringProfiles

ScoringProfile[]

索引的評分配置檔。

semantic

SemanticSettings

定義影響語意功能的搜尋索引參數。

similarity Similarity:

評分和排名符合搜尋查詢的檔時所要使用的相似度演算法類型。 相似度演算法只能在索引建立時定義,而且無法在現有索引上修改。 如果為 null,則會使用 ClassicSimilarity 演算法。

suggesters

Suggester[]

索引的建議工具。

tokenFilters TokenFilter[]:

索引的令牌篩選。

tokenizers LexicalTokenizer[]:

索引的Tokenizers。

vectorSearch

VectorSearch

包含與向量搜尋相關的組態選項。

SearchIndexerDataNoneIdentity

清除資料源的識別屬性。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.DataNoneIdentity

指定身分識別類型的 URI 片段。

SearchIndexerDataUserAssignedIdentity

指定要使用之數據源的身分識別。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.DataUserAssignedIdentity

指定身分識別類型的 URI 片段。

userAssignedIdentity

string

使用者指派受控識別的完整 Azure 資源標識符,通常格式為 “/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId”。

SearchResourceEncryptionKey

Azure Key Vault 中客戶管理的加密密鑰。 您建立和管理的金鑰可用來加密或解密待用數據,例如索引和同義字對應。

名稱 類型 Description
accessCredentials

AzureActiveDirectoryApplicationCredentials

用來存取 Azure Key Vault 的選擇性 Azure Active Directory 認證。 如果改用受控識別,則不需要。

identity SearchIndexerDataIdentity:

要用於此加密金鑰的明確受控識別。 如果未指定,且存取認證屬性為 Null,則會使用系統指派的受控識別。 更新資源時,如果未指定明確識別,則會維持不變。 如果指定了 「none」 ,則會清除此屬性的值。

keyVaultKeyName

string

要用來加密待用數據的 Azure Key Vault 金鑰名稱。

keyVaultKeyVersion

string

要用來加密待用數據的 Azure Key Vault 金鑰版本。

keyVaultUri

string

Azure Key Vault 的 URI,也稱為 DNS 名稱,其中包含用來加密待用數據的密鑰。 範例 URI 可能會 https://my-keyvault-name.vault.azure.net

SemanticConfiguration

定義在語意功能內容中使用的特定組態。

名稱 類型 Description
name

string

語意組態的名稱。

prioritizedFields

PrioritizedFields

描述要用於語意排名、標題、醒目提示和答案的標題、內容和關鍵詞欄位。 至少必須設定三個子屬性的其中一個(titleField、優先順序為KeywordsFields 和優先順序的ContentFields)。

SemanticField

做為語意組態一部分的欄位。

名稱 類型 Description
fieldName

string

SemanticSettings

定義影響語意功能的搜尋索引參數。

名稱 類型 Description
configurations

SemanticConfiguration[]

索引的語意組態。

defaultConfiguration

string

可讓您在索引中設定預設語意組態的名稱,讓您選擇每次將它當做查詢參數傳遞。

ShingleTokenFilter

建立令牌的組合做為單一令牌。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

指定令牌篩選類型的 URI 片段。

filterToken

string

_

要針對沒有標記之每個位置插入的字串。 默認值為底線 (“_” )。

maxShingleSize

integer

2

閃亮大小上限。 預設值和最小值為 2。

minShingleSize

integer

2

最小閃亮大小。 預設值和最小值為 2。 必須小於 maxShingleSize的值。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

outputUnigrams

boolean

True

值,指出輸出數據流是否會包含輸入標記 (unigrams) 以及隨機顯示。 默認值為 true。

outputUnigramsIfNoShingles

boolean

False

值,指出是否要輸出單格,當沒有顯示任何擷取子時。 當 outputUnigrams 設定為 false 時,這個屬性會優先。 默認值為 false。

tokenSeparator

string

聯結相鄰標記以形成閃亮時所使用的字串。 預設值為單一空格 (“ ” )。

SnowballTokenFilter

使用 Snowball 產生的字幹分析器來幹詞的篩選。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

指定令牌篩選類型的 URI 片段。

language

SnowballTokenFilterLanguage

要使用的語言。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

SnowballTokenFilterLanguage

用於 Snowball 令牌篩選的語言。

名稱 類型 Description
armenian

string

選取亞美尼亞文的 Lucene Snowball 字幹標記化程式。

basque

string

選取巴斯克的 Lucene Snowball 字幹標記化程式。

catalan

string

選取加泰隆尼亞文的 Lucene Snowball 字幹標記化程式。

danish

string

選取丹麥文的 Lucene Snowball 字幹標記化程式。

dutch

string

選取荷蘭文的 Lucene Snowball 字幹標記化程式。

english

string

選取適用於英文的 Lucene Snowball 詞幹標記化工具。

finnish

string

選取芬蘭文的 Lucene Snowball 字幹標記化程式。

french

string

選取法文的 Lucene Snowball 字幹標記化工具。

german

string

選取德文的 Lucene Snowball 字幹標記化工具。

german2

string

選取使用德文變異演算法的 Lucene Snowball 字幹標記化程式。

hungarian

string

選取匈牙利文的 Lucene Snowball 字幹標記化程式。

italian

string

選取義大利文的 Lucene Snowball 詞幹標記化工具。

kp

string

針對使用 Kraaij-Pohlmann 詞幹分析演算法的荷蘭文,選取 Lucene Snowball 字幹詞幹分析標記化程式。

lovins

string

針對使用 Lovins 字幹分析演算法的英文,選取 Lucene Snowball 字幹分析標記化程式。

norwegian

string

選取挪威文的 Lucene Snowball 詞幹詞標記化程式。

porter

string

針對使用 Porter 字幹分析演算法的英文,選取 Lucene Snowball 字幹分析標記化程式。

portuguese

string

選取葡萄牙文的 Lucene Snowball 字幹標記化程式。

romanian

string

選取羅馬尼亞文的 Lucene Snowball 字幹標記化程式。

russian

string

選取適用於俄羅斯的 Lucene Snowball 字幹標記化工具。

spanish

string

選取西班牙文的 Lucene Snowball 詞幹詞標記化程式。

swedish

string

選取瑞典文的 Lucene Snowball 詞幹標記化程式。

turkish

string

選取土耳其文的 Lucene Snowball 字幹標記化工具。

StemmerOverrideTokenFilter

提供使用自定義字典型字幹分析覆寫其他字幹篩選的功能。 任何字典字幹字詞都會標示為關鍵詞,因此它們不會在鏈結中加上字幹分析器。 必須在任何字幹篩選之前放置。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

指定令牌篩選類型的 URI 片段。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

rules

string[]

下列格式的字幹規則清單:「word => stem」,例如:「ran => run」。。

StemmerTokenFilter

語言特定字幹分析篩選器。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

指定令牌篩選類型的 URI 片段。

language

StemmerTokenFilterLanguage

要使用的語言。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

StemmerTokenFilterLanguage

用於字幹分析器令牌篩選的語言。

名稱 類型 Description
arabic

string

選取阿拉伯文的 Lucene 字幹詞幹化工具。

armenian

string

選取亞美尼亞文的 Lucene 詞幹詞標記化程式。

basque

string

選取 Basque 的 Lucene 字幹詞幹化工具。

brazilian

string

選取葡萄牙文 (巴西) 的 Lucene 字幹標記化工具。

bulgarian

string

選取保加利亞文的 Lucene 詞幹詞化工具。

catalan

string

選取加泰隆尼亞文的 Lucene 字幹標記化工具。

czech

string

選取捷克文的 Lucene 字幹標記化程式。

danish

string

選取丹麥文的 Lucene 字幹詞幹化工具。

dutch

string

選取荷蘭文的 Lucene 字幹標記化程式。

dutchKp

string

針對使用 Kraaij-Pohlmann 字幹分析演算法的荷蘭文,選取 Lucene 字幹分析標記化程式。

english

string

選取適用於英文的 Lucene 字幹詞幹標記化程式。

finnish

string

選取芬蘭文的 Lucene 字幹標記化程式。

french

string

選取法文的 Lucene 字幹詞幹標記化工具。

galician

string

選取 Galician 的 Lucene 字幹詞幹標記化程式。

german

string

選取德文的 Lucene 字幹詞幹標記化程式。

german2

string

選取使用德文變體演算法的 Lucene 字幹標記化程式。

greek

string

選取希臘文的 Lucene 字幹標記化程式。

hindi

string

選取適用於印度文的 Lucene 字幹標記化工具。

hungarian

string

選取匈牙利文的 Lucene 字幹標記化程式。

indonesian

string

選取印尼文的 Lucene 字幹標記化程式。

irish

string

選取愛爾蘭文的 Lucene 字幹標記化程式。

italian

string

選取義大利文的 Lucene 字幹標記化工具。

latvian

string

選取拉脫維亞文的 Lucene 字幹詞干標記化程式。

lightEnglish

string

針對執行光幹分析的英文,選取 Lucene 字幹詞幹化工具。

lightFinnish

string

針對執行光幹分析的芬蘭文,選取 Lucene 字幹詞幹化工具。

lightFrench

string

選取法文的 Lucene 字幹詞幹標記化程式,以執行光幹處理。

lightGerman

string

針對執行光幹分析的德文選取 Lucene 字幹詞幹化工具。

lightHungarian

string

針對進行光幹分析的匈牙利文,選取 Lucene 字幹詞幹標記化程式。

lightItalian

string

選取義大利文的 Lucene 字幹詞幹標記化程式,以執行光幹處理。

lightNorwegian

string

為挪威文 (Bokmål) 選取 Lucene 字幹詞幹標記化程式,以執行光幹分析。

lightNynorsk

string

為挪威文 (Nynorsk) 選取 Lucene 字幹詞幹化工具,以執行光幹分析。

lightPortuguese

string

針對執行光幹分析的葡萄牙文,選取 Lucene 字幹詞幹化工具。

lightRussian

string

針對執行光幹分析的俄文,選取 Lucene 字幹詞幹化工具。

lightSpanish

string

針對執行光幹分析的西班牙文,選取 Lucene 字幹詞幹化工具。

lightSwedish

string

針對執行光幹分析的瑞典文,選取 Lucene 字幹詞幹標記化程式。

lovins

string

針對使用 Lovins 字幹分析演算法的英文,選取 Lucene 字幹分析標記化程式。

minimalEnglish

string

針對執行最小字幹分析的英文選取 Lucene 字幹詞幹化工具。

minimalFrench

string

選取法文的 Lucene 字幹詞幹化工具,其會執行最少的詞幹處理。

minimalGalician

string

針對執行最小字幹分析的 Galician,選取 Lucene 字幹詞幹分析標記化程式。

minimalGerman

string

選取德文的 Lucene 字幹詞幹分析標記化程式,其會執行最少的字幹分析。

minimalNorwegian

string

選取挪威文 (Bokmål) 的 Lucene 字幹詞幹標記化程式,其會執行最少的詞幹處理。

minimalNynorsk

string

選取挪威文 (Nynorsk) 的 Lucene 字幹詞幹化工具,其會執行最少的詞幹處理。

minimalPortuguese

string

選取葡萄牙文的 Lucene 字幹詞幹標記化程式,其會執行最少的詞幹處理。

norwegian

string

選取挪威文 (Bokmål) 的 Lucene 字幹詞幹標記化程式。

porter2

string

針對使用 Porter2 字幹分析演算法的英文選取 Lucene 字幹分析標記化程式。

portuguese

string

選取葡萄牙文的 Lucene 字幹詞幹化工具。

portugueseRslp

string

針對使用 RSLP 字幹分析演算法的葡萄牙文,選取 Lucene 字幹分析 Tokenizer。

possessiveEnglish

string

針對英文選取 Lucene 字幹標記化工具,以從單字中移除尾端擁有者。

romanian

string

選取羅馬尼亞文的 Lucene 字幹標記化程式。

russian

string

選取適用於俄文的 Lucene 字幹標記化程式。

sorani

string

選取 Sorani 的 Lucene 字幹詞幹化工具。

spanish

string

選取西班牙文的 Lucene 字幹標記化程式。

swedish

string

選取瑞典文的 Lucene 字幹標記化程式。

turkish

string

選取土耳其文的 Lucene 字幹詞幹標記化程式。

StopAnalyzer

將文字分割為非字母;套用小寫和停用字詞標記篩選。 此分析器是使用 Apache Lucene 實作的。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

指定分析器類型的 URI 片段。

name

string

分析器的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

stopwords

string[]

停用字詞清單。

StopwordsList

識別預先定義的語言特定停用字詞清單。

名稱 類型 Description
arabic

string

選取阿拉伯文的停用字詞清單。

armenian

string

選取亞美尼亞文的停用字詞清單。

basque

string

選取 Basque 的停用字詞清單。

brazilian

string

選取葡萄牙文 (巴西) 的停用字詞清單。

bulgarian

string

選取保加利亞文的停用字詞清單。

catalan

string

選取加泰隆尼亞文的停用字詞清單。

czech

string

選取捷克文的停用字詞清單。

danish

string

選取丹麥文的停用字詞清單。

dutch

string

選取荷蘭文的停用字詞清單。

english

string

選取英文的停用字詞清單。

finnish

string

選取芬蘭文的停用字詞清單。

french

string

選取法文的停用字詞清單。

galician

string

選取 Galician 的停用字詞清單。

german

string

選取德文的停用字詞清單。

greek

string

選取希臘文的停用字詞清單。

hindi

string

選取印度文的停用字詞清單。

hungarian

string

選取匈牙利文的停用字詞清單。

indonesian

string

選取印尼文的停用字詞清單。

irish

string

選取愛爾蘭文的停用字詞清單。

italian

string

選取義大利文的停用字詞清單。

latvian

string

選取拉脫維亞文的停用字詞清單。

norwegian

string

選取挪威文的停用字詞清單。

persian

string

選取波斯文的停用字詞清單。

portuguese

string

選取葡萄牙文的停用字詞清單。

romanian

string

選取羅馬尼亞文的停用字詞清單。

russian

string

選取俄文的停用字詞清單。

sorani

string

選取 Sorani 的停用字詞清單。

spanish

string

選取西班牙文的停用字詞清單。

swedish

string

選取瑞典文的停用字詞清單。

thai

string

選取泰文的停用字詞清單。

turkish

string

選取土耳其文的停用字詞清單。

StopwordsTokenFilter

從令牌數據流移除停用字詞。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

指定令牌篩選類型的 URI 片段。

ignoreCase

boolean

False

值,指出是否忽略大小寫。 如果為 true,則所有單字都會先轉換成小寫。 默認值為 false。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

removeTrailing

boolean

True

值,指出是否要忽略最後一個搜尋字詞是否為停用字詞。 默認值為 true。

stopwords

string[]

停用字詞清單。 無法同時設定此屬性和停用字詞清單屬性。

stopwordsList

StopwordsList

english

要使用的停用字詞預先定義清單。 無法同時設定這個屬性和 stopwords 屬性。 預設值為英文。

Suggester

定義建議 API 應如何套用至索引中的欄位群組。

名稱 類型 Description
name

string

建議工具的名稱。

searchMode

SuggesterSearchMode

值,指出建議工具的功能。

sourceFields

string[]

建議工具要套用的域名清單。 每個欄位都必須可供搜尋。

SuggesterSearchMode

值,指出建議工具的功能。

名稱 類型 Description
analyzingInfixMatching

string

比對欄位中連續的整個詞彙和前置詞。 例如,對於欄位 '最快速的棕色狐狸',查詢 'fast' 和 'fastest brow' 兩者都會相符。

SynonymTokenFilter

比對令牌數據流中的單字或多字同義字。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

指定令牌篩選類型的 URI 片段。

expand

boolean

True

值,指出同義字清單中的所有字組(如果未使用 => 表示法),是否會彼此對應。 如果為 true,則同義字清單中的所有字組(如果未使用 => 表示法),則會彼此對應。 下列清單:不可思議、難以置信、神話般的、驚人的相當於:不可思議、難以置信、不可思議、神奇 => 不可思議、不可思議、神話般的、驚人的。 如果為 false,下列清單:令人難以置信的,令人難以置信的,神話般的,驚人的將相當於:令人難以置信的,令人難以置信的,令人難以置信的,神話般的,驚人的 => 令人難以置信的。 默認值為 true。

ignoreCase

boolean

False

值,指出是否要折疊輸入大小寫以進行比對。 默認值為 false。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

synonyms

string[]

下列兩種格式之一的同義字清單:1。 不可思議,難以置信,神話般的 => 驚人的 - 所有字詞在 => 符號左邊的所有字詞都將取代為其右側的所有字詞:2. 不可思議,難以置信,神話般的,驚人的 - 逗號分隔的對等字清單。 設定展開選項以變更此列表的解譯方式。

TagScoringFunction

定義函式,此函式會使用符合指定標籤清單的字串值來提升檔的分數。

名稱 類型 Description
boost

number

原始分數的乘數。 必須是不等於 1.0 的正數。

fieldName

string

做為評分函式輸入的功能變數名稱。

interpolation

ScoringFunctionInterpolation

值,指出如何跨檔分數插補提升;預設為 “Linear”。

tag

TagScoringParameters

標記評分函式的參數值。

type string:

tag

表示要使用的函式類型。 有效值包括大小、新鮮度、距離和標籤。 函式類型必須是小寫。

TagScoringParameters

提供標記評分函式的參數值。

名稱 類型 Description
tagsParameter

string

在搜尋查詢中傳遞的參數名稱,指定要與目標字段比較的標記清單。

TextWeights

定義索引欄位的加權,比對應該在搜尋查詢中提升評分。

名稱 類型 Description
weights

object

每個欄位加權的字典,可提升檔評分。 索引鍵是功能變數名稱,而值是每個欄位的權數。

TokenCharacterKind

表示令牌篩選可以運作的字元類別。

名稱 類型 Description
digit

string

將數位保留在令牌中。

letter

string

將字母保留在令牌中。

punctuation

string

將標點符號保留在令牌中。

symbol

string

將符號保留在令牌中。

whitespace

string

將空格元保留在令牌中。

TokenFilterName

定義搜尋引擎所支援之所有令牌篩選的名稱。

名稱 類型 Description
apostrophe

string

在單引號後面去除所有字元(包括單引號本身)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

套用阿拉伯文正規化程式以正規化正寫的標記篩選。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

如果這類對等專案存在,請將前127個ASCII字元中的字母、數位和符號 Unicode 字元轉換成其 ASCII 對等專案。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

形成從標準Tokenizer產生的CJK詞彙 bigram。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

標準化 CJK 寬度差異。 將全角 ASCII 變體折疊成對等的基本拉丁文,並將半角片假名變體折疊成對等的假名。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

拿掉英文擁有者,以及縮略字中的點。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

針對索引編製時經常發生的字詞建構 bigrams。 單一字詞仍然編製索引,並覆蓋了 bigrams。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

從輸入令牌的正面或背面開始,產生指定大小的 n-gram。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

拿掉 elisions。 例如,“l'avion” (平面) 會轉換成 “avion” (plane)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

根據德國2雪球演算法的啟發學習法,將德文字符正規化。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

將印度文中的文字正規化,以移除拼字變化的一些差異。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

以印度語言標準化文字的 Unicode 表示法。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

發出每個傳入令牌兩次,一次作為關鍵詞,一次作為非關鍵詞。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

適用於英文的高效能 kstem 篩選條件。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

拿掉太長或太短的字組。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

在編製索引時限制令牌數目。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

將標記文字正規化為小寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

產生指定大小的 n-gram。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

適用於波斯文的正規化。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

建立注音相符專案的令牌。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

使用 Porter 字幹分析演算法來轉換令牌數據流。 請參閱 http://tartarus.org/~martin/PorterStemmer

reverse

string

反轉令牌字串。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

折迭斯堪的納維亞字元 åÅäääÄÄÄ->a 和 öÖøØ->o. 它還歧視使用雙音音 aa, ae, ao, oe 和 oo, 只留下第一個。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

標準化使用可互換的斯堪的納維亞字元。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

建立令牌的組合做為單一令牌。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

使用 Snowball 產生的字幹分析器來幹詞的篩選。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

標準化 Sorani 文字的 Unicode 表示法。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

語言特定字幹分析篩選器。 請參閱 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

從令牌數據流移除停用字詞。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

修剪標記的前置和尾端空格符。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

將字詞截斷為特定長度。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

篩選出與上一個標記相同的文字標記。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

將標記文字正規化為大寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

將單字分割成子字詞,並在子字詞群組上執行選擇性轉換。

TruncateTokenFilter

將字詞截斷為特定長度。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

指定令牌篩選類型的 URI 片段。

length

integer

300

將截斷字詞的長度。 預設值和最大值為 300。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

UaxUrlEmailTokenizer

將 URL 和電子郵件令牌化為一個令牌。 這個 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

指定 Tokenizer 類型的 URI 片段。

maxTokenLength

integer

255

令牌長度上限。 預設值為 255。 分割長度超過最大長度的令牌。 可以使用的令牌長度上限為 300 個字元。

name

string

Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

UniqueTokenFilter

篩選出與上一個標記相同的文字標記。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

指定令牌篩選類型的 URI 片段。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

onlyOnSamePosition

boolean

False

值,指出是否只移除相同位置的重複專案。 默認值為 false。

VectorEncodingFormat

用於解譯向量欄位內容的編碼格式。

名稱 類型 Description
packedBit

string

編碼格式,表示封裝成較寬數據類型的位。

VectorSearch

包含與向量搜尋相關的組態選項。

名稱 類型 Description
algorithms VectorSearchAlgorithmConfiguration[]:

包含索引或查詢期間所用演算法的特定組態選項。

compressions VectorSearchCompressionConfiguration[]:

包含在編製索引或查詢期間所使用之壓縮方法的特定組態選項。

profiles

VectorSearchProfile[]

定義要與向量搜尋搭配使用的組態組合。

vectorizers VectorSearchVectorizer[]:

包含如何向量化文字向量查詢的組態選項。

VectorSearchAlgorithmKind

用於編製索引和查詢的演算法。

名稱 類型 Description
exhaustiveKnn

string

將執行暴力密碼破解搜尋的詳盡 KNN 演算法。

hnsw

string

HNSW (階層式導覽小型世界),一種近似近鄰演算法。

VectorSearchAlgorithmMetric

用於向量比較的相似度計量。 建議您選擇與定型內嵌模型相同的相似度計量。

名稱 類型 Description
cosine

string

測量向量之間的角度,以量化其相似性,忽略大小。 角度越小,相似度越近。

dotProduct

string

計算專案明智產品的總和,以量測對齊和大小相似度。 愈大愈積極,相似度愈近。

euclidean

string

計算多維度空間中向量之間的直線距離。 距離越小,相似度越近。

hamming

string

僅適用於位封裝的二進位數據類型。 藉由計算二元向量中的不同位置,來判斷不同的差異。 差異越少,相似性越接近。

VectorSearchCompressionKind

用於編製索引和查詢的壓縮方法。

名稱 類型 Description
binaryQuantization

string

二元量化,這是一種壓縮方法。 在二進位量化中,原始向量值會藉由離散化並代表使用二進位值來表示向量的每個元件,藉此壓縮為較窄的二進位類型,藉此減少整體數據大小。

scalarQuantization

string

純量量化,這是一種壓縮方法。 在純量量化中,原始向量值會透過離散化和表示向量的每個元件,使用縮減的量化值集來壓縮成較窄的類型,藉此減少整體數據大小。

VectorSearchCompressionRescoreStorageMethod

用於重新記錄和內部索引作業之原始完整精確度向量的儲存方法。

名稱 類型 Description
discardOriginals

string

此選項會捨棄原始的完整精確度向量。 選擇此選項以節省記憶體上限。 由於此選項不允許重新取樣和過度取樣,因此通常會導致品質稍微降低到中等。

preserveOriginals

string

此選項會保留原始的完整精確度向量。 選擇此選項,以取得壓縮搜尋結果的最大彈性和最高品質。 這會耗用更多記憶體,但允許重新取樣和過度取樣。

VectorSearchCompressionTargetDataType

壓縮向量值的量化數據類型。

名稱 類型 Description
int8

string

VectorSearchProfile

定義要與向量搜尋搭配使用的組態組合。

名稱 類型 Description
algorithm

string

指定演算法和選擇性參數的向量搜尋演算法組態名稱。

compression

string

指定壓縮方法和選擇性參數的壓縮方法組態名稱。

name

string

要與這個特定向量搜尋配置檔產生關聯的名稱。

vectorizer

string

要設定用於向量搜尋的向量化名稱。

VectorSearchVectorizerKind

要用於查詢時間的向量化方法。

名稱 類型 Description
aiServicesVision

string

使用 Azure AI 服務視覺向量化 API,在查詢時產生影像或文字輸入的內嵌。

aml

string

使用在查詢時透過 Azure AI Studio 模型目錄部署的 Azure Machine Learning 端點產生內嵌。

azureOpenAI

string

在查詢時使用 Azure OpenAI 資源產生內嵌。

customWebApi

string

在查詢時使用自定義 Web 端點產生內嵌。

WebApiParameters

指定連接到使用者定義向量化工具的屬性。

名稱 類型 Description
authIdentity SearchIndexerDataIdentity:

用於輸出連線的使用者指派受控識別。 如果提供 authResourceId 且未指定,則會使用系統指派的受控識別。 在索引器更新時,如果未指定身分識別,該值會維持不變。 如果設定為 「none」 則會清除此屬性的值。

authResourceId

string

適用於連線至 Azure 函式中外部程式代碼的自定義端點,或提供轉換的一些其他應用程式。 當函式或應用程式向 Azure Active Directory 註冊時,此值應該是為該函式或應用程式所建立的應用程式識別碼。 指定時,向量化會使用搜尋服務的受控標識碼(系統或使用者指派)和函式或應用程式的存取令牌,使用此值作為建立存取令牌範圍的資源標識符,連接到函式或應用程式的函式或應用程式。

httpHeaders

object

提出 HTTP 要求所需的標頭。

httpMethod

string

HTTP 要求的方法。

timeout

string

要求的所需逾時。 預設值為30秒。

uri

string

提供向量化工具之 Web API 的 URI。

WebApiVectorizer

指定使用者定義的向量化程式,以產生查詢字串的向量內嵌。 外部向量化工具的整合是使用技能集的自定義 Web API 介面來達成。

名稱 類型 Description
customWebApiParameters

WebApiParameters

指定使用者定義向量化工具的屬性。

kind string:

customWebApi

要設定用於向量搜尋的向量化方法類型名稱。

name

string

要與這個特定向量化方法產生關聯的名稱。

WordDelimiterTokenFilter

將單字分割成子字詞,並在子字詞群組上執行選擇性轉換。 此令牌篩選器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

指定令牌篩選類型的 URI 片段。

catenateAll

boolean

False

值,指出是否會將所有子字詞部分都加大。 例如,如果此值設定為 true,“Azure-Search-1” 會變成 “AzureSearch1”。 默認值為 false。

catenateNumbers

boolean

False

值,指出是否將分隔數目部分的最大執行次數。 例如,如果此值設定為 true,“1-2” 會變成 “12”。 默認值為 false。

catenateWords

boolean

False

值,指出文字部分的最大執行是否會被限制。 例如,如果此設定為 true,“Azure-Search” 會變成 “AzureSearch”。 默認值為 false。

generateNumberParts

boolean

True

值,指出是否要產生數位子字詞。 默認值為 true。

generateWordParts

boolean

True

值,指出是否要產生部分字組。 如果設定,則會導致產生部分文字;例如,“AzureSearch” 會變成 “Azure” “Search”。 默認值為 true。

name

string

令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。

preserveOriginal

boolean

False

值,指出是否會保留原始字組並新增至子字詞清單。 默認值為 false。

protectedWords

string[]

要防止分隔的令牌清單。

splitOnCaseChange

boolean

True

值,指出是否要在caseChange上分割單字。 例如,如果此值設定為 true,“AzureSearch” 會變成 “Azure” “Search”。 默認值為 true。

splitOnNumerics

boolean

True

值,指出是否要在數位上分割。 例如,如果此值設定為 true,“Azure1Search” 會變成 “Azure” “1” “Search”。 默認值為 true。

stemEnglishPossessive

boolean

True

值,指出是否要移除每個子字詞的尾端 「s」。。 默認值為 true。