Indexes - Create
建立新的搜尋索引。
POST {endpoint}/indexes?api-version=2024-11-01-preview
URI 參數
名稱 | 位於 | 必要 | 類型 | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
搜尋服務的端點 URL。 |
api-version
|
query | True |
string |
用戶端 API 版本。 |
要求標頭
名稱 | 必要 | 類型 | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
隨要求一起傳送的追蹤標識碼,以協助偵錯。 |
要求本文
名稱 | 必要 | 類型 | Description |
---|---|---|---|
fields | True |
索引的欄位。 |
|
name | True |
string |
索引的名稱。 |
@odata.etag |
string |
索引的 ETag。 |
|
analyzers | LexicalAnalyzer[]: |
索引的分析器。 |
|
charFilters | CharFilter[]: |
索引的字元篩選。 |
|
corsOptions |
控制索引之跨原始來源資源分享 (CORS) 的選項。 |
||
defaultScoringProfile |
string |
如果在查詢中未指定評分配置檔,則為要使用的評分配置檔名稱。 如果未設定此屬性,而且查詢中未指定任何評分配置檔,則會使用預設評分 (tf-idf)。 |
|
encryptionKey |
您在 Azure Key Vault 中建立的加密金鑰描述。 當您想要完整保證,即使沒有Microsoft,也無法解密您的數據時,此密鑰會用來為您的數據提供額外的待用加密層級。 加密數據之後,一律會保持加密狀態。 搜尋服務會忽略將此屬性設定為 null 的嘗試。 如果您想要輪替加密金鑰,您可以視需要變更此屬性;您的數據不會受到影響。 使用客戶管理的金鑰加密不適用於免費搜尋服務,而且僅適用於 2019 年 1 月 1 日或之後建立的付費服務。 |
||
normalizers | LexicalNormalizer[]: |
索引的正規化程式。 |
|
scoringProfiles |
索引的評分配置檔。 |
||
semantic |
定義影響語意功能的搜尋索引參數。 |
||
similarity | Similarity: |
評分和排名符合搜尋查詢的檔時所要使用的相似度演算法類型。 相似度演算法只能在索引建立時定義,而且無法在現有索引上修改。 如果為 null,則會使用 ClassicSimilarity 演算法。 |
|
suggesters |
索引的建議工具。 |
||
tokenFilters |
TokenFilter[]:
|
索引的令牌篩選。 |
|
tokenizers | LexicalTokenizer[]: |
索引的Tokenizers。 |
|
vectorSearch |
包含與向量搜尋相關的組態選項。 |
回應
名稱 | 類型 | Description |
---|---|---|
201 Created | ||
Other Status Codes |
錯誤回應。 |
範例
SearchServiceCreateIndex
範例要求
POST https://previewexampleservice.search.windows.net/indexes?api-version=2024-11-01-preview
{
"name": "temp-preview-test",
"fields": [
{
"name": "id",
"type": "Edm.String",
"key": true,
"sortable": true
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 20,
"vectorSearchProfile": "config1"
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "name",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "description",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "standard.lucene"
},
{
"name": "category",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "ownerId",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"tag": {
"tagsParameter": "categoryTag"
},
"type": "tag",
"fieldName": "category",
"boost": 2
}
]
}
],
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
],
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"normalizers": [],
"semantic": {},
"vectorSearch": {
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"algorithms": [
{
"hnswParameters": {
"metric": "cosine"
},
"name": "cosine",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "euclidean"
},
"name": "euclidean",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "dotProduct"
},
"name": "dotProduct",
"kind": "hnsw"
}
],
"vectorizers": [
{
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com/",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
},
"name": "openai",
"kind": "azureOpenAI"
},
{
"customWebApiParameters": {
"uri": "https://my-custom-endpoint.org/",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"httpMethod": "POST",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
},
"name": "custom-web-api",
"kind": "customWebApi"
},
{
"amlParameters": {
"uri": "https://my-custom-endpoint.org/",
"resourceId": "aml resource id",
"timeout": "PT1M",
"region": "aml region",
"modelName": "OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32"
},
"name": "aml",
"kind": "aml"
}
],
"compressions": [
{
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"name": "mySQ8",
"kind": "scalarQuantization",
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "preserveOriginals"
},
"truncationDimension": 2
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "preserveOriginals"
},
"truncationDimension": 2
}
]
}
}
範例回覆
{
"@odata.etag": "0x1234568AE7E58A1",
"name": "temp-preview-test",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
},
"semantic": {
"configurations": []
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
},
{
"name": "aml",
"kind": "aml",
"amlParameters": {
"resourceId": "aml resource id",
"region": "aml region",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"modelName": "OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "preserveOriginals"
}
}
]
}
}
定義
名稱 | Description |
---|---|
AIServices |
指定用於向量化查詢影像或文字的 AI 服務視覺參數。 |
AIServices |
指定用於向量化查詢影像或文字的 AI 服務視覺參數。 |
AIStudio |
將呼叫的 Azure AI Studio 目錄內嵌模型名稱。 |
AMLParameters |
指定連接到 AML 向量化工具的屬性。 |
AMLVectorizer |
指定透過 Azure AI Studio 模型目錄部署的 Azure Machine Learning 端點,以產生查詢字串的向量內嵌。 |
Ascii |
如果這類對等專案存在,請將前127個ASCII字元中的字母、數位和符號 Unicode 字元轉換成其 ASCII 對等專案。 此令牌篩選器是使用 Apache Lucene 實作。 |
Azure |
為搜尋服務建立之已註冊應用程式的認證,用於對儲存在 Azure Key Vault 中的加密密鑰進行驗證存取。 |
Azure |
可讓您使用 Azure OpenAI 資源為指定的文字輸入產生向量內嵌。 |
Azure |
將呼叫的 Azure Open AI 模型名稱。 |
Azure |
指定連線到 Azure OpenAI 資源的參數。 |
Azure |
指定用來向量化查詢字串的 Azure OpenAI 資源。 |
Binary |
包含二進位量化壓縮方法在編製索引和查詢期間所使用的組態選項。 |
BM25Similarity |
根據 Okapi BM25 相似度演算法的排名函式。 BM25 是類似TF-IDF的演算法,包括長度正規化(由'b' 參數控制)以及詞彙頻率飽和度(由 'k1' 參數控制)。 |
Char |
定義搜尋引擎所支援之所有字元篩選的名稱。 |
Cjk |
形成從標準Tokenizer產生的CJK詞彙 bigram。 此令牌篩選器是使用 Apache Lucene 實作。 |
Cjk |
CjkBigramTokenFilter 可以忽略的腳本。 |
Classic |
舊版相似度演算法,其使用 TF-IDF 的 Lucene TFIDFSimilarity 實作。 這種 TF-IDF 變化引進靜態文件長度正規化,以及協調因只部分符合搜尋查詢的檔而受懲罰的因素。 |
Classic |
適用於處理大部分歐洲語言檔的文法型Tokenizer。 這個 Tokenizer 是使用 Apache Lucene 實作。 |
Common |
針對索引編製時經常發生的字詞建構 bigrams。 單一字詞仍然編製索引,並覆蓋了 bigrams。 此令牌篩選器是使用 Apache Lucene 實作。 |
Cors |
定義選項,以控制索引的跨原始來源資源分享 (CORS)。 |
Custom |
可讓您控制將文字轉換成可編製索引/可搜尋令牌的程式。 它是使用者定義的組態,由單一預先定義的Tokenizer和一或多個篩選所組成。 Tokenizer 負責將文字分成令牌,以及修改 Tokenizer 所發出的令牌的篩選條件。 |
Custom |
可讓您設定可篩選、可排序和多面向字段的正規化,依預設會以嚴格的比對運作。 這是由至少一或多個篩選所組成的使用者定義組態,可修改所儲存的令牌。 |
Dictionary |
分解許多德文語言中發現的複合字組。 此令牌篩選器是使用 Apache Lucene 實作。 |
Distance |
定義根據地理位置距離提升分數的函式。 |
Distance |
提供距離評分函式的參數值。 |
Edge |
從輸入令牌的正面或背面開始,產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 實作。 |
Edge |
指定應該從哪一端產生 n-gram 的輸入端。 |
Edge |
從輸入令牌的正面或背面開始,產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 實作。 |
Edge |
將邊緣的輸入標記化為指定大小的 n-gram。 這個 Tokenizer 是使用 Apache Lucene 實作。 |
Elision |
拿掉 elisions。 例如,“l'avion” (平面) 會轉換成 “avion” (plane)。 此令牌篩選器是使用 Apache Lucene 實作。 |
Error |
資源管理錯誤其他資訊。 |
Error |
錯誤詳細數據。 |
Error |
錯誤回應 |
Exhaustive |
包含完整 KNN 演算法特有的參數。 |
Exhaustive |
包含查詢期間所使用完整 KNN 演算法的特定組態選項,這會在整個向量索引上執行暴力密碼破解搜尋。 |
Freshness |
定義函式,根據日期時間欄位的值來提升分數。 |
Freshness |
提供更新評分函式的參數值。 |
Hnsw |
包含 HNSW 演算法特有的參數。 |
Hnsw |
包含 HNSW 近似近鄰演算法在編制索引和查詢期間所使用的組態選項。 HNSW 演算法提供搜尋速度和精確度之間的無法權衡取捨。 |
Input |
技能的輸入欄位對應。 |
Keep |
令牌篩選條件,只保留包含指定單字清單中的文字標記。 此令牌篩選器是使用 Apache Lucene 實作。 |
Keyword |
將字詞標示為關鍵詞。 此令牌篩選器是使用 Apache Lucene 實作。 |
Keyword |
以單一令牌的形式發出整個輸入。 這個 Tokenizer 是使用 Apache Lucene 實作。 |
Keyword |
以單一令牌的形式發出整個輸入。 這個 Tokenizer 是使用 Apache Lucene 實作。 |
Length |
拿掉太長或太短的字組。 此令牌篩選器是使用 Apache Lucene 實作。 |
Lexical |
定義搜尋引擎所支援之所有文字分析器的名稱。 |
Lexical |
定義搜尋引擎所支援之所有文字正規化程序的名稱。 |
Lexical |
定義搜尋引擎支援的所有 Tokenizer 名稱。 |
Limit |
在編製索引時限制令牌數目。 此令牌篩選器是使用 Apache Lucene 實作。 |
Lucene |
標準 Apache Lucene 分析器;由標準 Tokenizer、小寫篩選和停止篩選所組成。 |
Lucene |
在 Unicode 文字分割規則之後中斷文字。 這個 Tokenizer 是使用 Apache Lucene 實作。 |
Lucene |
在 Unicode 文字分割規則之後中斷文字。 這個 Tokenizer 是使用 Apache Lucene 實作。 |
Magnitude |
定義函式,根據數值欄位的大小來提升分數。 |
Magnitude |
提供量級評分函式的參數值。 |
Mapping |
套用對應選項所定義的對應的字元篩選。 比對是貪婪(在指定點獲勝的時間最長的模式比對)。 允許取代為空字串。 此字元篩選器是使用 Apache Lucene 實作。 |
Microsoft |
使用語言特定規則來分割文字,並將單字縮減為基底形式。 |
Microsoft |
使用語言特定規則來分割文字。 |
Microsoft |
列出Microsoft語言詞幹標記化工具所支持的語言。 |
Microsoft |
列出Microsoft語言令牌化程序支持的語言。 |
NGram |
產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 實作。 |
NGram |
產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 實作。 |
NGram |
將輸入標記化為指定大小的 n-gram。 這個 Tokenizer 是使用 Apache Lucene 實作。 |
Output |
技能的輸出欄位對應。 |
Path |
類似路徑階層的Tokenizer。 這個 Tokenizer 是使用 Apache Lucene 實作。 |
Pattern |
彈性地透過正則表示式模式將文字分隔成字詞。 此分析器是使用 Apache Lucene 實作的。 |
Pattern |
使用 Java regex 來發出多個令牌 - 一個或多個模式中每個擷取群組各一個。 此令牌篩選器是使用 Apache Lucene 實作。 |
Pattern |
字元篩選條件,取代輸入字串中的字元。 它會使用正則表示式來識別要保留的字元序列,以及用來識別要取代的字元的取代模式。 例如,假設輸入文字 “aa bb aa bb”, pattern “(aa)\s+(bb)” 和取代 “$1#$$2”,結果會是 “aa#bb aa#bb”。 此字元篩選器是使用 Apache Lucene 實作。 |
Pattern |
字元篩選條件,取代輸入字串中的字元。 它會使用正則表示式來識別要保留的字元序列,以及用來識別要取代的字元的取代模式。 例如,假設輸入文字 “aa bb aa bb”, pattern “(aa)\s+(bb)” 和取代 “$1#$$2”,結果會是 “aa#bb aa#bb”。 此令牌篩選器是使用 Apache Lucene 實作。 |
Pattern |
使用 regex 模式比對來建構不同令牌的 Tokenizer。 這個 Tokenizer 是使用 Apache Lucene 實作。 |
Phonetic |
識別要與 PhoneticTokenFilter 搭配使用的注音編碼器類型。 |
Phonetic |
建立注音相符專案的令牌。 此令牌篩選器是使用 Apache Lucene 實作。 |
Prioritized |
描述要用於語意排名、標題、醒目提示和答案的標題、內容和關鍵詞欄位。 |
Regex |
定義可以結合的旗標,以控制正則表達式在模式分析器和模式標記化工具中的使用方式。 |
Rescoring |
包含重新記錄的選項。 |
Scalar |
包含純量量化特有的參數。 |
Scalar |
包含索引編製和查詢期間所使用純量量化壓縮方法的特定組態選項。 |
Scoring |
定義聚合函數,用來結合評分配置檔中所有評分函式的結果。 |
Scoring |
定義用來跨一系列檔插補分數提升的函式。 |
Scoring |
定義影響搜尋查詢評分之搜尋索引的參數。 |
Search |
表示索引定義中的欄位,描述欄位的名稱、數據類型和搜尋行為。 |
Search |
定義搜尋索引中欄位的數據類型。 |
Search |
表示搜尋索引定義,描述索引的欄位和搜尋行為。 |
Search |
清除資料源的識別屬性。 |
Search |
指定要使用之數據源的身分識別。 |
Search |
Azure Key Vault 中客戶管理的加密密鑰。 您建立和管理的金鑰可用來加密或解密待用數據,例如索引和同義字對應。 |
Semantic |
定義在語意功能內容中使用的特定組態。 |
Semantic |
做為語意組態一部分的欄位。 |
Semantic |
定義影響語意功能的搜尋索引參數。 |
Shingle |
建立令牌的組合做為單一令牌。 此令牌篩選器是使用 Apache Lucene 實作。 |
Snowball |
使用 Snowball 產生的字幹分析器來幹詞的篩選。 此令牌篩選器是使用 Apache Lucene 實作。 |
Snowball |
用於 Snowball 令牌篩選的語言。 |
Stemmer |
提供使用自定義字典型字幹分析覆寫其他字幹篩選的功能。 任何字典字幹字詞都會標示為關鍵詞,因此它們不會在鏈結中加上字幹分析器。 必須在任何字幹篩選之前放置。 此令牌篩選器是使用 Apache Lucene 實作。 |
Stemmer |
語言特定字幹分析篩選器。 此令牌篩選器是使用 Apache Lucene 實作。 |
Stemmer |
用於字幹分析器令牌篩選的語言。 |
Stop |
將文字分割為非字母;套用小寫和停用字詞標記篩選。 此分析器是使用 Apache Lucene 實作的。 |
Stopwords |
識別預先定義的語言特定停用字詞清單。 |
Stopwords |
從令牌數據流移除停用字詞。 此令牌篩選器是使用 Apache Lucene 實作。 |
Suggester |
定義建議 API 應如何套用至索引中的欄位群組。 |
Suggester |
值,指出建議工具的功能。 |
Synonym |
比對令牌數據流中的單字或多字同義字。 此令牌篩選器是使用 Apache Lucene 實作。 |
Tag |
定義函式,此函式會使用符合指定標籤清單的字串值來提升檔的分數。 |
Tag |
提供標記評分函式的參數值。 |
Text |
定義索引欄位的加權,比對應該在搜尋查詢中提升評分。 |
Token |
表示令牌篩選可以運作的字元類別。 |
Token |
定義搜尋引擎所支援之所有令牌篩選的名稱。 |
Truncate |
將字詞截斷為特定長度。 此令牌篩選器是使用 Apache Lucene 實作。 |
Uax |
將 URL 和電子郵件令牌化為一個令牌。 這個 Tokenizer 是使用 Apache Lucene 實作。 |
Unique |
篩選出與上一個標記相同的文字標記。 此令牌篩選器是使用 Apache Lucene 實作。 |
Vector |
用於解譯向量欄位內容的編碼格式。 |
Vector |
包含與向量搜尋相關的組態選項。 |
Vector |
用於編製索引和查詢的演算法。 |
Vector |
用於向量比較的相似度計量。 建議您選擇與定型內嵌模型相同的相似度計量。 |
Vector |
用於編製索引和查詢的壓縮方法。 |
Vector |
用於重新記錄和內部索引作業之原始完整精確度向量的儲存方法。 |
Vector |
壓縮向量值的量化數據類型。 |
Vector |
定義要與向量搜尋搭配使用的組態組合。 |
Vector |
要用於查詢時間的向量化方法。 |
Web |
指定連接到使用者定義向量化工具的屬性。 |
Web |
指定使用者定義的向量化程式,以產生查詢字串的向量內嵌。 外部向量化工具的整合是使用技能集的自定義 Web API 介面來達成。 |
Word |
將單字分割成子字詞,並在子字詞群組上執行選擇性轉換。 此令牌篩選器是使用 Apache Lucene 實作。 |
AIServicesVisionParameters
指定用於向量化查詢影像或文字的 AI 服務視覺參數。
名稱 | 類型 | Description |
---|---|---|
apiKey |
string |
所指定 AI 服務資源的 API 金鑰。 |
authIdentity | SearchIndexerDataIdentity: |
用於輸出連線的使用者指派受控識別。 如果提供 authResourceId 且未指定,則會使用系統指派的受控識別。 在索引更新時,如果未指定身分識別,值會保持不變。 如果設定為 「none」 則會清除此屬性的值。 |
modelVersion |
string |
呼叫 AI 服務視覺服務時要使用的模型版本。 如果未指定,則會預設為最新的可用。 |
resourceUri |
string |
AI 服務資源的資源 URI。 |
AIServicesVisionVectorizer
指定用於向量化查詢影像或文字的 AI 服務視覺參數。
名稱 | 類型 | Description |
---|---|---|
aiServicesVisionParameters |
包含 AI Services 視覺內嵌向量化的特定參數。 |
|
kind |
string:
ai |
要設定用於向量搜尋的向量化方法類型名稱。 |
name |
string |
要與這個特定向量化方法產生關聯的名稱。 |
AIStudioModelCatalogName
將呼叫的 Azure AI Studio 目錄內嵌模型名稱。
名稱 | 類型 | Description |
---|---|---|
Cohere-embed-v3-english |
string |
|
Cohere-embed-v3-multilingual |
string |
|
Facebook-DinoV2-Image-Embeddings-ViT-Base |
string |
|
Facebook-DinoV2-Image-Embeddings-ViT-Giant |
string |
|
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336 |
string |
|
OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32 |
string |
AMLParameters
指定連接到 AML 向量化工具的屬性。
名稱 | 類型 | Description |
---|---|---|
key |
string |
(金鑰驗證的必要專案)AML 服務的金鑰。 |
modelName |
從部署在所提供端點的 Azure AI Studio 目錄內嵌模型名稱。 |
|
region |
string |
(令牌驗證的選擇性)。 AML 服務所部署的區域。 |
resourceId |
string |
(令牌驗證的必要專案)。 AML 服務的 Azure Resource Manager 資源識別碼。 其格式應為 subscriptions/{guid}/resourceGroups/{resource-group-name}/Microsoft.MachineLearningServices/workspaces/{workspace-name}/services/{service_name}。 |
timeout |
string |
(選擇性)指定時,表示發出 API 呼叫之 HTTP 用戶端的逾時。 |
uri |
string |
( 不需要驗證或金鑰驗證 )將傳送 JSON 承載之 AML 服務的評分 URI。 只允許 HTTPs URI 配置。 |
AMLVectorizer
指定透過 Azure AI Studio 模型目錄部署的 Azure Machine Learning 端點,以產生查詢字串的向量內嵌。
名稱 | 類型 | Description |
---|---|---|
amlParameters |
指定 AML 向量化工具的屬性。 |
|
kind |
string:
aml |
要設定用於向量搜尋的向量化方法類型名稱。 |
name |
string |
要與這個特定向量化方法產生關聯的名稱。 |
AsciiFoldingTokenFilter
如果這類對等專案存在,請將前127個ASCII字元中的字母、數位和符號 Unicode 字元轉換成其 ASCII 對等專案。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
preserveOriginal |
boolean |
False |
值,指出是否要保留原始令牌。 默認值為 false。 |
AzureActiveDirectoryApplicationCredentials
為搜尋服務建立之已註冊應用程式的認證,用於對儲存在 Azure Key Vault 中的加密密鑰進行驗證存取。
名稱 | 類型 | Description |
---|---|---|
applicationId |
string |
AAD 應用程式識別碼,已將待用數據加密時要使用的 Azure Key Vault 所需訪問許可權授與。 應用程式標識碼不應與 AAD 應用程式的物件標識元混淆。 |
applicationSecret |
string |
指定 AAD 應用程式的驗證金鑰。 |
AzureOpenAIEmbeddingSkill
可讓您使用 Azure OpenAI 資源為指定的文字輸入產生向量內嵌。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能類型的 URI 片段。 |
apiKey |
string |
所指定 Azure OpenAI 資源的 API 金鑰。 |
authIdentity | SearchIndexerDataIdentity: |
用於輸出連線的使用者指派受控識別。 |
context |
string |
代表作業發生的層級,例如檔根目錄或文件內容(例如 /document 或 /document/content)。 預設值為 /document。 |
deploymentId |
string |
指定資源上 Azure OpenAI 模型部署的識別碼。 |
description |
string |
描述技能的描述,描述技能的輸入、輸出和使用方式。 |
dimensions |
integer |
產生的輸出內嵌應具有的維度數目。 只有文字內嵌-3 和更新版本的模型才支援。 |
inputs |
技能的輸入可以是源數據集中的數據行,或上游技能的輸出。 |
|
modelName |
在提供的 deploymentId 路徑上部署的內嵌模型名稱。 |
|
name |
string |
技能的名稱,可唯一識別技能集內的技能。 未定義名稱的技能將會在技能數位中指定其以 1 起始索引的預設名稱,前面加上字元 『#』。 |
outputs |
技能的輸出是搜尋索引中的字段,或是另一個技能可作為輸入的值。 |
|
resourceUri |
string |
Azure OpenAI 資源的資源 URI。 |
AzureOpenAIModelName
將呼叫的 Azure Open AI 模型名稱。
名稱 | 類型 | Description |
---|---|---|
text-embedding-3-large |
string |
|
text-embedding-3-small |
string |
|
text-embedding-ada-002 |
string |
AzureOpenAIParameters
指定連線到 Azure OpenAI 資源的參數。
名稱 | 類型 | Description |
---|---|---|
apiKey |
string |
所指定 Azure OpenAI 資源的 API 金鑰。 |
authIdentity | SearchIndexerDataIdentity: |
用於輸出連線的使用者指派受控識別。 |
deploymentId |
string |
指定資源上 Azure OpenAI 模型部署的識別碼。 |
modelName |
在提供的 deploymentId 路徑上部署的內嵌模型名稱。 |
|
resourceUri |
string |
Azure OpenAI 資源的資源 URI。 |
AzureOpenAIVectorizer
指定用來向量化查詢字串的 Azure OpenAI 資源。
名稱 | 類型 | Description |
---|---|---|
azureOpenAIParameters | AzureOpenAIParameters: |
包含 Azure OpenAI 內嵌向量化特有的參數。 |
kind |
string:
azure |
要設定用於向量搜尋的向量化方法類型名稱。 |
name |
string |
要與這個特定向量化方法產生關聯的名稱。 |
BinaryQuantizationVectorSearchCompressionConfiguration
包含二進位量化壓縮方法在編製索引和查詢期間所使用的組態選項。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
defaultOversampling |
number |
默認過度取樣因數。 在初始搜尋中,過度取樣會在內部要求更多檔(由這個乘數指定)。 這會增加從全精確度向量使用重新計算相似度分數來重新產生的結果集。 最小值為 1,表示沒有過度取樣(1 倍)。 只有在 rerankWithOriginalVectors 為 true 時,才能設定此參數。 較高的值會犧牲延遲來改善召回率。 |
|
kind |
string:
binary |
要設定用於向量搜尋之壓縮方法類型的名稱。 |
|
name |
string |
要與此特定組態產生關聯的名稱。 |
|
rerankWithOriginalVectors |
boolean |
True |
如果設定為 true,一旦取得使用壓縮向量計算的已排序結果集之後,就會重新計算完整精確度相似度分數來重新調整結果集。 這會以犧牲延遲為代價來改善召回率。 |
rescoringOptions |
包含重新記錄的選項。 |
||
truncationDimension |
integer |
要截斷向量的維度數目。 截斷向量可減少向量的大小,以及搜尋期間需要傳輸的數據量。 這可以節省記憶體成本,並降低搜尋效能,以犧牲召回率。 它只應該用於內嵌使用 Matryoshka 表示法學習 (MRL) 定型的內嵌,例如 OpenAI 文字內嵌-3-large(小型)。 默認值為 null,這表示不會截斷。 |
BM25Similarity
根據 Okapi BM25 相似度演算法的排名函式。 BM25 是類似TF-IDF的演算法,包括長度正規化(由'b' 參數控制)以及詞彙頻率飽和度(由 'k1' 參數控制)。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
此屬性會控制檔的長度如何影響相關性分數。 根據預設,會使用 0.75 的值。 值為 0.0 表示不會套用任何長度正規化,而值為 1.0 表示分數會完全由文件的長度正規化。 |
k1 |
number |
此屬性會控制每個相符字詞的字詞頻率與文件查詢組最終相關性分數之間的縮放函數。 根據預設,會使用1.2的值。 值為 0.0 表示分數不會隨著詞彙頻率增加而調整。 |
CharFilterName
定義搜尋引擎所支援之所有字元篩選的名稱。
名稱 | 類型 | Description |
---|---|---|
html_strip |
string |
嘗試去除 HTML 建構的字元篩選。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
形成從標準Tokenizer產生的CJK詞彙 bigram。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
ignoreScripts |
要忽略的腳本。 |
||
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
outputUnigrams |
boolean |
False |
值,指出是否要同時輸出 unigram 和 bigrams (如果為 true),或只是 bigrams (如果為 false)。 默認值為 false。 |
CjkBigramTokenFilterScripts
CjkBigramTokenFilter 可以忽略的腳本。
名稱 | 類型 | Description |
---|---|---|
han |
string |
當形成 CJK 字詞的大框架時,請忽略 Han 腳本。 |
hangul |
string |
在形成 CJK 字詞的 bigram 時忽略 Hangul 腳本。 |
hiragana |
string |
在形成 CJK 字詞的 bigram 時忽略平假名腳本。 |
katakana |
string |
當形成 CJK 字詞的大框架時,請忽略片假名腳本。 |
ClassicSimilarity
舊版相似度演算法,其使用 TF-IDF 的 Lucene TFIDFSimilarity 實作。 這種 TF-IDF 變化引進靜態文件長度正規化,以及協調因只部分符合搜尋查詢的檔而受懲罰的因素。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
適用於處理大部分歐洲語言檔的文法型Tokenizer。 這個 Tokenizer 是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
令牌長度上限。 預設值為 255。 分割長度超過最大長度的令牌。 可以使用的令牌長度上限為 300 個字元。 |
name |
string |
Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
CommonGramTokenFilter
針對索引編製時經常發生的字詞建構 bigrams。 單一字詞仍然編製索引,並覆蓋了 bigrams。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
commonWords |
string[] |
一組通用字組。 |
|
ignoreCase |
boolean |
False |
值,指出一般字組比對是否不區分大小寫。 默認值為 false。 |
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
queryMode |
boolean |
False |
值,指出令牌篩選是否處於查詢模式。 在查詢模式中時,令牌篩選會產生 bigrams,然後移除通用單字和單一字詞,後面接著一般單字。 默認值為 false。 |
CorsOptions
定義選項,以控制索引的跨原始來源資源分享 (CORS)。
名稱 | 類型 | Description |
---|---|---|
allowedOrigins |
string[] |
JavaScript 程式代碼將授與索引存取權的來源清單。 可以包含 {protocol}://{fully-qualified-domain-name}[:{port#}] 格式的主機列表,或單一 '*' 允許所有來源(不建議)。 |
maxAgeInSeconds |
integer |
瀏覽器應該快取 CORS 預檢回應的持續時間。 預設為5分鐘。 |
CustomAnalyzer
可讓您控制將文字轉換成可編製索引/可搜尋令牌的程式。 它是使用者定義的組態,由單一預先定義的Tokenizer和一或多個篩選所組成。 Tokenizer 負責將文字分成令牌,以及修改 Tokenizer 所發出的令牌的篩選條件。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器類型的 URI 片段。 |
charFilters |
令牌化程式處理輸入文字之前,用來準備輸入文字的字元篩選清單。 例如,它們可以取代特定字元或符號。 篩選條件會依列出的順序執行。 |
|
name |
string |
分析器的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
tokenFilters |
令牌篩選清單,用來篩選或修改令牌化程式所產生的令牌。 例如,您可以指定將所有字元轉換成小寫的小寫篩選條件。 篩選條件會依列出的順序執行。 |
|
tokenizer |
用來將連續文字分割成標記序列的Tokenizer名稱,例如將句子分成單字。 |
CustomNormalizer
可讓您設定可篩選、可排序和多面向字段的正規化,依預設會以嚴格的比對運作。 這是由至少一或多個篩選所組成的使用者定義組態,可修改所儲存的令牌。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定正規化程序類型的 URI 片段。 |
charFilters |
用來在處理輸入文字之前準備輸入文字的字元篩選清單。 例如,它們可以取代特定字元或符號。 篩選條件會依列出的順序執行。 |
|
name |
string |
正規化程序的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 它不能以 '.microsoft' 或 '.lucene' 結尾,也不能命名為 'asciifolding'、'standard'、'lowercase'、'uppercase' 或 'elision'。 |
tokenFilters |
用來篩選或修改輸入令牌的令牌篩選清單。 例如,您可以指定將所有字元轉換成小寫的小寫篩選條件。 篩選條件會依列出的順序執行。 |
DictionaryDecompounderTokenFilter
分解許多德文語言中發現的複合字組。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
maxSubwordSize |
integer |
15 |
子字詞大小上限。 只輸出比這個短的子字。 預設值為 15。 最大值為300。 |
minSubwordSize |
integer |
2 |
最小子字大小。 輸出的子字詞長度只會超過這個。 預設值為 2。 最大值為300。 |
minWordSize |
integer |
5 |
字型大小下限。 只有比處理此時間更長的字組。 預設值為 5。 最大值為300。 |
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
onlyLongestMatch |
boolean |
False |
值,指出是否只將最長相符的子字詞新增至輸出。 默認值為 false。 |
wordList |
string[] |
要比對的字組清單。 |
DistanceScoringFunction
定義根據地理位置距離提升分數的函式。
名稱 | 類型 | Description |
---|---|---|
boost |
number |
原始分數的乘數。 必須是不等於 1.0 的正數。 |
distance |
距離計分函式的參數值。 |
|
fieldName |
string |
做為評分函式輸入的功能變數名稱。 |
interpolation |
值,指出如何跨檔分數插補提升;預設為 “Linear”。 |
|
type |
string:
distance |
表示要使用的函式類型。 有效值包括大小、新鮮度、距離和標籤。 函式類型必須是小寫。 |
DistanceScoringParameters
提供距離評分函式的參數值。
名稱 | 類型 | Description |
---|---|---|
boostingDistance |
number |
距離提升範圍結束的參考位置以公里為單位的距離。 |
referencePointParameter |
string |
在搜尋查詢中傳遞的參數名稱,以指定參考位置。 |
EdgeNGramTokenFilter
從輸入令牌的正面或背面開始,產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
maxGram |
integer |
2 |
n-gram 長度上限。 預設值為 2。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 必須小於 maxGram的值。 |
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
side | front |
指定應該從哪一端產生 n-gram 的輸入端。 預設值為 「front」。。 |
EdgeNGramTokenFilterSide
指定應該從哪一端產生 n-gram 的輸入端。
名稱 | 類型 | Description |
---|---|---|
back |
string |
指定應該從輸入背面產生 n-gram。 |
front |
string |
指定應該從輸入前端產生 n-gram。 |
EdgeNGramTokenFilterV2
從輸入令牌的正面或背面開始,產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
maxGram |
integer |
2 |
n-gram 長度上限。 預設值為 2。 最大值為300。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。 |
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
side | front |
指定應該從哪一端產生 n-gram 的輸入端。 預設值為 「front」。。 |
EdgeNGramTokenizer
將邊緣的輸入標記化為指定大小的 n-gram。 這個 Tokenizer 是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxGram |
integer |
2 |
n-gram 長度上限。 預設值為 2。 最大值為300。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。 |
name |
string |
Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
tokenChars |
要保留在令牌中的字元類別。 |
ElisionTokenFilter
拿掉 elisions。 例如,“l'avion” (平面) 會轉換成 “avion” (plane)。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
articles |
string[] |
要移除的發行項集。 |
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
ErrorAdditionalInfo
資源管理錯誤其他資訊。
名稱 | 類型 | Description |
---|---|---|
info |
object |
其他資訊。 |
type |
string |
其他信息類型。 |
ErrorDetail
錯誤詳細數據。
名稱 | 類型 | Description |
---|---|---|
additionalInfo |
錯誤其他資訊。 |
|
code |
string |
錯誤碼。 |
details |
錯誤詳細數據。 |
|
message |
string |
錯誤訊息。 |
target |
string |
錯誤目標。 |
ErrorResponse
錯誤回應
名稱 | 類型 | Description |
---|---|---|
error |
error 物件。 |
ExhaustiveKnnParameters
包含完整 KNN 演算法特有的參數。
名稱 | 類型 | Description |
---|---|---|
metric |
用於向量比較的相似度計量。 |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
包含查詢期間所使用完整 KNN 演算法的特定組態選項,這會在整個向量索引上執行暴力密碼破解搜尋。
名稱 | 類型 | Description |
---|---|---|
exhaustiveKnnParameters |
包含完整 KNN 演算法特有的參數。 |
|
kind |
string:
exhaustive |
要設定用於向量搜尋之演算法類型的名稱。 |
name |
string |
要與此特定組態產生關聯的名稱。 |
FreshnessScoringFunction
定義函式,根據日期時間欄位的值來提升分數。
名稱 | 類型 | Description |
---|---|---|
boost |
number |
原始分數的乘數。 必須是不等於 1.0 的正數。 |
fieldName |
string |
做為評分函式輸入的功能變數名稱。 |
freshness |
Freshness 評分函式的參數值。 |
|
interpolation |
值,指出如何跨檔分數插補提升;預設為 “Linear”。 |
|
type |
string:
freshness |
表示要使用的函式類型。 有效值包括大小、新鮮度、距離和標籤。 函式類型必須是小寫。 |
FreshnessScoringParameters
提供更新評分函式的參數值。
名稱 | 類型 | Description |
---|---|---|
boostingDuration |
string |
到期期間之後,特定檔會停止提升。 |
HnswParameters
包含 HNSW 演算法特有的參數。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
efConstruction |
integer |
400 |
動態清單的大小,包含最接近的鄰居,這是在索引時間使用。 增加此參數可能會改善索引品質,但代價是索引編製時間增加。 在特定時間點,增加此參數會導致傳回減少。 |
efSearch |
integer |
500 |
動態清單的大小,其中包含在搜尋期間使用的近鄰。 增加此參數可能會改善搜尋結果,但代價是搜尋速度較慢。 在特定時間點,增加此參數會導致傳回減少。 |
m |
integer |
4 |
建構期間針對每個新元素建立的雙向連結數目。 增加此參數值可改善回收,並減少具有高內建維度之數據集的擷取時間,代價是耗用記憶體耗用量增加和編製索引時間較長。 |
metric |
用於向量比較的相似度計量。 |
HnswVectorSearchAlgorithmConfiguration
包含 HNSW 近似近鄰演算法在編制索引和查詢期間所使用的組態選項。 HNSW 演算法提供搜尋速度和精確度之間的無法權衡取捨。
名稱 | 類型 | Description |
---|---|---|
hnswParameters |
包含 HNSW 演算法特有的參數。 |
|
kind |
string:
hnsw |
要設定用於向量搜尋之演算法類型的名稱。 |
name |
string |
要與此特定組態產生關聯的名稱。 |
InputFieldMappingEntry
技能的輸入欄位對應。
名稱 | 類型 | Description |
---|---|---|
inputs |
建立複雜型別時所使用的遞歸輸入。 |
|
name |
string |
輸入的名稱。 |
source |
string |
輸入的來源。 |
sourceContext |
string |
用於選取遞歸輸入的來源內容。 |
KeepTokenFilter
令牌篩選條件,只保留包含指定單字清單中的文字標記。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
keepWords |
string[] |
要保留的字組清單。 |
|
keepWordsCase |
boolean |
False |
值,指出是否先小寫所有單字。 默認值為 false。 |
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
KeywordMarkerTokenFilter
將字詞標示為關鍵詞。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
ignoreCase |
boolean |
False |
值,指出是否忽略大小寫。 如果為 true,則所有單字都會先轉換成小寫。 默認值為 false。 |
keywords |
string[] |
要標示為關鍵詞的字組清單。 |
|
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
KeywordTokenizer
以單一令牌的形式發出整個輸入。 這個 Tokenizer 是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
bufferSize |
integer |
256 |
以位元組為單位的讀取緩衝區大小。 預設值為 256。 |
name |
string |
Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
KeywordTokenizerV2
以單一令牌的形式發出整個輸入。 這個 Tokenizer 是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxTokenLength |
integer |
256 |
令牌長度上限。 預設值為 256。 分割長度超過最大長度的令牌。 可以使用的令牌長度上限為 300 個字元。 |
name |
string |
Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
LengthTokenFilter
拿掉太長或太短的字組。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
max |
integer |
300 |
字元的最大長度。 預設值和最大值為 300。 |
min |
integer |
0 |
字元的最小長度。 預設值為 0。 最大值為300。 必須小於 max的值。 |
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
LexicalAnalyzerName
定義搜尋引擎所支援之所有文字分析器的名稱。
名稱 | 類型 | Description |
---|---|---|
ar.lucene |
string |
阿拉伯文的 Lucene 分析器。 |
ar.microsoft |
string |
Microsoft阿拉伯文的分析器。 |
bg.lucene |
string |
保加利亞的 Lucene 分析器。 |
bg.microsoft |
string |
保加利亞文Microsoft分析器。 |
bn.microsoft |
string |
班格拉的 Microsoft 分析器。 |
ca.lucene |
string |
加泰隆尼亞的 Lucene 分析器。 |
ca.microsoft |
string |
Microsoft加泰羅尼亞的分析器。 |
cs.lucene |
string |
捷克文的 Lucene 分析器。 |
cs.microsoft |
string |
Microsoft捷克文的分析器。 |
da.lucene |
string |
丹麥文的 Lucene 分析器。 |
da.microsoft |
string |
Microsoft丹麥文的分析器。 |
de.lucene |
string |
適用於德文的 Lucene 分析器。 |
de.microsoft |
string |
Microsoft適用於德文的分析器。 |
el.lucene |
string |
希臘文的 Lucene 分析器。 |
el.microsoft |
string |
適用於希臘文的Microsoft分析器。 |
en.lucene |
string |
適用於英文的 Lucene 分析器。 |
en.microsoft |
string |
Microsoft英文分析器。 |
es.lucene |
string |
適用於西班牙文的 Lucene 分析器。 |
es.microsoft |
string |
Microsoft西班牙文分析器。 |
et.microsoft |
string |
愛沙尼亞Microsoft分析器。 |
eu.lucene |
string |
Basque 的 Lucene 分析器。 |
fa.lucene |
string |
波斯文的 Lucene 分析器。 |
fi.lucene |
string |
芬蘭文的 Lucene 分析器。 |
fi.microsoft |
string |
芬蘭文Microsoft分析器。 |
fr.lucene |
string |
適用於法文的 Lucene 分析器。 |
fr.microsoft |
string |
適用於法文Microsoft分析器。 |
ga.lucene |
string |
愛爾蘭的 Lucene 分析器。 |
gl.lucene |
string |
加利西亞的 Lucene 分析器。 |
gu.microsoft |
string |
Microsoft古吉拉蒂的分析器。 |
he.microsoft |
string |
Microsoft希伯來文的分析器。 |
hi.lucene |
string |
適用於印度文的 Lucene 分析器。 |
hi.microsoft |
string |
適用於印度文Microsoft分析器。 |
hr.microsoft |
string |
克羅埃西亞Microsoft分析器。 |
hu.lucene |
string |
匈牙利文的 Lucene 分析器。 |
hu.microsoft |
string |
匈牙利文Microsoft分析器。 |
hy.lucene |
string |
亞美尼亞文的 Lucene 分析器。 |
id.lucene |
string |
印尼文的 Lucene 分析器。 |
id.microsoft |
string |
Microsoft印尼(巴薩)的分析器。 |
is.microsoft |
string |
冰島Microsoft分析器。 |
it.lucene |
string |
義大利文的 Lucene 分析器。 |
it.microsoft |
string |
義大利文Microsoft分析器。 |
ja.lucene |
string |
日文的 Lucene 分析器。 |
ja.microsoft |
string |
日文Microsoft分析器。 |
keyword |
string |
將欄位的整個內容視為單一標記。 這適用於郵遞區號、標識元和某些產品名稱等數據。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
適用於 Kannada 的Microsoft分析器。 |
ko.lucene |
string |
韓文的 Lucene 分析器。 |
ko.microsoft |
string |
適用於韓文Microsoft分析器。 |
lt.microsoft |
string |
立陶宛Microsoft分析器。 |
lv.lucene |
string |
拉脫維亞的 Lucene 分析器。 |
lv.microsoft |
string |
拉脫維亞Microsoft分析器。 |
ml.microsoft |
string |
馬來亞蘭Microsoft分析器。 |
mr.microsoft |
string |
Microsoft Marathi 的分析器。 |
ms.microsoft |
string |
馬來語(拉丁)的Microsoft分析器。 |
nb.microsoft |
string |
挪威文(博克瑪律)的Microsoft分析器。 |
nl.lucene |
string |
荷蘭文的 Lucene 分析器。 |
nl.microsoft |
string |
Microsoft荷蘭文的分析器。 |
no.lucene |
string |
挪威文的 Lucene 分析器。 |
pa.microsoft |
string |
Microsoft旁遮普的分析器。 |
pattern |
string |
彈性地透過正則表示式模式將文字分隔成字詞。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
波蘭文的 Lucene 分析器。 |
pl.microsoft |
string |
Microsoft波蘭文的分析器。 |
pt-BR.lucene |
string |
葡萄牙文(巴西)的 Lucene 分析器。 |
pt-BR.microsoft |
string |
Microsoft葡萄牙文(巴西)的分析器。 |
pt-PT.lucene |
string |
葡萄牙文(葡萄牙)的 Lucene 分析器。 |
pt-PT.microsoft |
string |
葡萄牙文(葡萄牙)的Microsoft分析器。 |
ro.lucene |
string |
羅馬尼亞文的 Lucene 分析器。 |
ro.microsoft |
string |
Microsoft羅馬尼亞文的分析器。 |
ru.lucene |
string |
適用於俄羅斯的 Lucene 分析器。 |
ru.microsoft |
string |
適用於俄羅斯的Microsoft分析器。 |
simple |
string |
將文字分割成非字母,並將其轉換成小寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
斯洛伐克文Microsoft分析器。 |
sl.microsoft |
string |
斯洛維尼亞Microsoft分析器。 |
sr-cyrillic.microsoft |
string |
塞爾維亞文(斯拉夫)的Microsoft分析器。 |
sr-latin.microsoft |
string |
塞爾維亞文(拉丁文)的Microsoft分析器。 |
standard.lucene |
string |
標準 Lucene 分析器。 |
standardasciifolding.lucene |
string |
標準 ASCII 折疊 Lucene 分析器。 請參閱 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
將文字分割為非字母;套用小寫和停用字詞標記篩選。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
瑞典文的 Lucene 分析器。 |
sv.microsoft |
string |
Microsoft瑞典文的分析器。 |
ta.microsoft |
string |
泰米爾語Microsoft分析器。 |
te.microsoft |
string |
Microsoft Telugu 的分析器。 |
th.lucene |
string |
泰文的 Lucene 分析器。 |
th.microsoft |
string |
適用於泰文Microsoft分析器。 |
tr.lucene |
string |
土耳其文的 Lucene 分析器。 |
tr.microsoft |
string |
Microsoft土耳其文的分析器。 |
uk.microsoft |
string |
烏克蘭文Microsoft分析器。 |
ur.microsoft |
string |
適用於 Urdu 的Microsoft分析器。 |
vi.microsoft |
string |
Microsoft越南語的分析器。 |
whitespace |
string |
使用空格符 Tokenizer 的分析器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
適用於中文的 Lucene 分析器(簡體中文)。 |
zh-Hans.microsoft |
string |
Microsoft中文分析器(簡體中文)。 |
zh-Hant.lucene |
string |
中國(繁體中文)的 Lucene 分析器。 |
zh-Hant.microsoft |
string |
Microsoft中文(繁體中文)分析器。 |
LexicalNormalizerName
定義搜尋引擎所支援之所有文字正規化程序的名稱。
名稱 | 類型 | Description |
---|---|---|
asciifolding |
string |
如果這類對等專案存在,請將前127個ASCII字元中的字母、數位和符號 Unicode 字元轉換成其 ASCII 對等專案。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
elision |
string |
拿掉 elisions。 例如,“l'avion” (平面) 會轉換成 “avion” (plane)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
lowercase |
string |
將標記文字正規化為小寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
standard |
string |
標準正規化程式,由小寫和 asciifolding 組成。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
uppercase |
string |
將標記文字正規化為大寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
定義搜尋引擎支援的所有 Tokenizer 名稱。
LimitTokenFilter
在編製索引時限制令牌數目。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
consumeAllTokens |
boolean |
False |
值,指出是否必須取用輸入中的所有令牌,即使達到 maxTokenCount 也一樣。 默認值為 false。 |
maxTokenCount |
integer |
1 |
要產生的令牌數目上限。 預設值為 1。 |
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
LuceneStandardAnalyzer
標準 Apache Lucene 分析器;由標準 Tokenizer、小寫篩選和停止篩選所組成。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器類型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
令牌長度上限。 預設值為 255。 分割長度超過最大長度的令牌。 可以使用的令牌長度上限為 300 個字元。 |
name |
string |
分析器的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
stopwords |
string[] |
停用字詞清單。 |
LuceneStandardTokenizer
在 Unicode 文字分割規則之後中斷文字。 這個 Tokenizer 是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
令牌長度上限。 預設值為 255。 分割長度超過最大長度的令牌。 |
name |
string |
Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
LuceneStandardTokenizerV2
在 Unicode 文字分割規則之後中斷文字。 這個 Tokenizer 是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
令牌長度上限。 預設值為 255。 分割長度超過最大長度的令牌。 可以使用的令牌長度上限為 300 個字元。 |
name |
string |
Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
MagnitudeScoringFunction
定義函式,根據數值欄位的大小來提升分數。
名稱 | 類型 | Description |
---|---|---|
boost |
number |
原始分數的乘數。 必須是不等於 1.0 的正數。 |
fieldName |
string |
做為評分函式輸入的功能變數名稱。 |
interpolation |
值,指出如何跨檔分數插補提升;預設為 “Linear”。 |
|
magnitude |
大小計分函式的參數值。 |
|
type |
string:
magnitude |
表示要使用的函式類型。 有效值包括大小、新鮮度、距離和標籤。 函式類型必須是小寫。 |
MagnitudeScoringParameters
提供量級評分函式的參數值。
名稱 | 類型 | Description |
---|---|---|
boostingRangeEnd |
number |
提升結束的域值。 |
boostingRangeStart |
number |
啟動提升的域值。 |
constantBoostBeyondRange |
boolean |
值,指出是否對超出範圍結束值的域值套用常數提升;默認值為 false。 |
MappingCharFilter
套用對應選項所定義的對應的字元篩選。 比對是貪婪(在指定點獲勝的時間最長的模式比對)。 允許取代為空字串。 此字元篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定字元篩選類型的 URI 片段。 |
mappings |
string[] |
下列格式的對應清單:“a=>b” (所有出現的字元 “a” 都會取代為字元 “b”。 |
name |
string |
char 篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
MicrosoftLanguageStemmingTokenizer
使用語言特定規則來分割文字,並將單字縮減為基底形式。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
isSearchTokenizer |
boolean |
False |
值,指出如何使用Tokenizer。 如果使用 做為搜尋Tokenizer,請將 設定為 true,如果做為索引標記化工具,則設定為 false。 默認值為 false。 |
language |
要使用的語言。 預設值為英文。 |
||
maxTokenLength |
integer |
255 |
令牌長度上限。 分割長度超過最大長度的令牌。 可以使用的令牌長度上限為 300 個字元。 超過 300 個字元的令牌會先分割成長度為 300 的令牌,然後每個令牌都會根據設定的令牌長度上限來分割。 預設值為 255。 |
name |
string |
Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
MicrosoftLanguageTokenizer
使用語言特定規則來分割文字。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
isSearchTokenizer |
boolean |
False |
值,指出如何使用Tokenizer。 如果使用 做為搜尋Tokenizer,請將 設定為 true,如果做為索引標記化工具,則設定為 false。 默認值為 false。 |
language |
要使用的語言。 預設值為英文。 |
||
maxTokenLength |
integer |
255 |
令牌長度上限。 分割長度超過最大長度的令牌。 可以使用的令牌長度上限為 300 個字元。 超過 300 個字元的令牌會先分割成長度為 300 的令牌,然後每個令牌都會根據設定的令牌長度上限來分割。 預設值為 255。 |
name |
string |
Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
MicrosoftStemmingTokenizerLanguage
列出Microsoft語言詞幹標記化工具所支持的語言。
名稱 | 類型 | Description |
---|---|---|
arabic |
string |
選取阿拉伯文的Microsoft詞干標記化工具。 |
bangla |
string |
選取班格拉的Microsoft詞干標記化工具。 |
bulgarian |
string |
選取保加利亞文的Microsoft詞干標記化工具。 |
catalan |
string |
選取加泰隆尼亞文的Microsoft詞干標記化程式。 |
croatian |
string |
選取克羅埃西亞文的Microsoft詞干標記化工具。 |
czech |
string |
選取捷克文的Microsoft詞幹化工具。 |
danish |
string |
選取丹麥文的Microsoft詞干標記化工具。 |
dutch |
string |
選取荷蘭文的Microsoft詞干標記化工具。 |
english |
string |
選取英文的Microsoft詞干標記化工具。 |
estonian |
string |
選取愛沙尼亞文的Microsoft詞幹化工具。 |
finnish |
string |
選取芬蘭文的Microsoft詞干標記化工具。 |
french |
string |
選取法文的Microsoft詞幹詞標記化工具。 |
german |
string |
選取德文的Microsoft詞干標記化工具。 |
greek |
string |
選取希臘文的Microsoft詞幹化工具。 |
gujarati |
string |
選取 Gujarati 的Microsoft詞幹化標記化程式。 |
hebrew |
string |
選取希伯來文的Microsoft詞干標記化工具。 |
hindi |
string |
選取印度文的Microsoft詞干標記化工具。 |
hungarian |
string |
選取匈牙利文的Microsoft詞干標記化工具。 |
icelandic |
string |
選取冰島的Microsoft詞干標記化工具。 |
indonesian |
string |
選取印尼文的Microsoft詞干標記化工具。 |
italian |
string |
選取義大利文的Microsoft詞干標記化工具。 |
kannada |
string |
選取 Kannada 的Microsoft詞幹標記化工具。 |
latvian |
string |
選取拉脫維亞文的Microsoft詞干標記化工具。 |
lithuanian |
string |
選取立陶宛文的Microsoft詞干標記化工具。 |
malay |
string |
選取馬來文的Microsoft詞干標記化工具。 |
malayalam |
string |
選取馬來亞蘭的Microsoft詞干標記化程式。 |
marathi |
string |
為 Marathi 選取Microsoft詞幹化工具。 |
norwegianBokmaal |
string |
選取挪威文 (Bokmål) 的Microsoft詞幹詞標記化工具。 |
polish |
string |
選取波蘭文的Microsoft詞幹詞標記化工具。 |
portuguese |
string |
選取葡萄牙文的Microsoft詞干標記化工具。 |
portugueseBrazilian |
string |
選取葡萄牙文 (巴西) 的Microsoft詞幹詞標記化工具。 |
punjabi |
string |
選取旁遮普文的Microsoft詞干標記化程式。 |
romanian |
string |
選取羅馬尼亞文的Microsoft詞干標記化工具。 |
russian |
string |
選取適用於俄文的Microsoft詞干標記化工具。 |
serbianCyrillic |
string |
選取塞爾維亞文的Microsoft詞干標記化工具(斯拉夫)。 |
serbianLatin |
string |
選取塞爾維亞文(拉丁文)的Microsoft詞干標記化工具。 |
slovak |
string |
選取斯洛伐克文的Microsoft詞干標記化工具。 |
slovenian |
string |
選取斯洛維尼亞文的Microsoft詞干標記化程式。 |
spanish |
string |
選取西班牙文的Microsoft詞干標記化工具。 |
swedish |
string |
選取瑞典文的Microsoft詞干標記化程式。 |
tamil |
string |
選取泰米爾文的Microsoft詞幹化工具。 |
telugu |
string |
選取 Telugu 的Microsoft詞幹化 Tokenizer。 |
turkish |
string |
選取土耳其文的Microsoft詞干標記化工具。 |
ukrainian |
string |
選取烏克蘭文的Microsoft詞干標記化工具。 |
urdu |
string |
選取 Urdu 的Microsoft詞幹標記化工具。 |
MicrosoftTokenizerLanguage
列出Microsoft語言令牌化程序支持的語言。
名稱 | 類型 | Description |
---|---|---|
bangla |
string |
選取班格拉的Microsoft Tokenizer。 |
bulgarian |
string |
選取保加利亞文的Microsoft Tokenizer。 |
catalan |
string |
選取加泰羅尼亞文的Microsoft Tokenizer。 |
chineseSimplified |
string |
選取中文的Microsoft Tokenizer(簡體中文)。 |
chineseTraditional |
string |
選取中文(繁體中文)的Microsoft Tokenizer。 |
croatian |
string |
選取克羅埃西亞文的Microsoft Tokenizer。 |
czech |
string |
選取捷克文的Microsoft Tokenizer。 |
danish |
string |
選取丹麥文的Microsoft Tokenizer。 |
dutch |
string |
選取荷蘭文的Microsoft Tokenizer。 |
english |
string |
選取英文Microsoft Tokenizer。 |
french |
string |
選取法文Microsoft Tokenizer。 |
german |
string |
選取德文的Microsoft Tokenizer。 |
greek |
string |
選取希臘文的Microsoft Tokenizer。 |
gujarati |
string |
選取 Gujarati 的Microsoft Tokenizer。 |
hindi |
string |
選取印度文的Microsoft Tokenizer。 |
icelandic |
string |
選取冰島的Microsoft Tokenizer。 |
indonesian |
string |
選取印尼文的Microsoft Tokenizer。 |
italian |
string |
選取義大利文的Microsoft Tokenizer。 |
japanese |
string |
選取日文Microsoft Tokenizer。 |
kannada |
string |
選取 Kannada 的Microsoft Tokenizer。 |
korean |
string |
選取韓文的Microsoft Tokenizer。 |
malay |
string |
選取馬來的Microsoft Tokenizer。 |
malayalam |
string |
選取馬來亞蘭的Microsoft Tokenizer。 |
marathi |
string |
選取 Marathi 的Microsoft Tokenizer。 |
norwegianBokmaal |
string |
選取挪威文 (Bokmål) 的Microsoft Tokenizer。 |
polish |
string |
選取波蘭文Microsoft Tokenizer。 |
portuguese |
string |
選取葡萄牙文的Microsoft Tokenizer。 |
portugueseBrazilian |
string |
選取葡萄牙文 (巴西) 的Microsoft Tokenizer。 |
punjabi |
string |
選取旁遮普Microsoft Tokenizer。 |
romanian |
string |
選取羅馬尼亞文的Microsoft Tokenizer。 |
russian |
string |
選取適用於俄文的Microsoft Tokenizer。 |
serbianCyrillic |
string |
選取塞爾維亞文的Microsoft標記化工具(斯拉夫)。 |
serbianLatin |
string |
選取塞爾維亞文(拉丁文)的Microsoft Tokenizer。 |
slovenian |
string |
選取斯洛維尼亞Microsoft Tokenizer。 |
spanish |
string |
選取西班牙文Microsoft Tokenizer。 |
swedish |
string |
選取瑞典文的Microsoft Tokenizer。 |
tamil |
string |
選取泰米爾文的Microsoft Tokenizer。 |
telugu |
string |
選取 Telugu 的Microsoft Tokenizer。 |
thai |
string |
選取泰文Microsoft Tokenizer。 |
ukrainian |
string |
選取烏克蘭文的Microsoft Tokenizer。 |
urdu |
string |
選取 Urdu 的Microsoft Tokenizer。 |
vietnamese |
string |
選取越南文的Microsoft Tokenizer。 |
NGramTokenFilter
產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
maxGram |
integer |
2 |
n-gram 長度上限。 預設值為 2。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 必須小於 maxGram的值。 |
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
NGramTokenFilterV2
產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
maxGram |
integer |
2 |
n-gram 長度上限。 預設值為 2。 最大值為300。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。 |
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
NGramTokenizer
將輸入標記化為指定大小的 n-gram。 這個 Tokenizer 是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxGram |
integer |
2 |
n-gram 長度上限。 預設值為 2。 最大值為300。 |
minGram |
integer |
1 |
最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。 |
name |
string |
Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
tokenChars |
要保留在令牌中的字元類別。 |
OutputFieldMappingEntry
技能的輸出欄位對應。
名稱 | 類型 | Description |
---|---|---|
name |
string |
技能所定義的輸出名稱。 |
targetName |
string |
輸出的目標名稱。 這是選擇性的,預設為 name。 |
PathHierarchyTokenizerV2
類似路徑階層的Tokenizer。 這個 Tokenizer 是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
delimiter |
string |
/ |
要使用的分隔符。 預設值為 “/”。 |
maxTokenLength |
integer |
300 |
令牌長度上限。 預設值和最大值為 300。 |
name |
string |
Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
replacement |
string |
/ |
值,如果設定,則會取代分隔符。 預設值為 “/”。 |
reverse |
boolean |
False |
值,指出是否要以反向順序產生令牌。 默認值為 false。 |
skip |
integer |
0 |
要略過的初始令牌數目。 預設值為 0。 |
PatternAnalyzer
彈性地透過正則表示式模式將文字分隔成字詞。 此分析器是使用 Apache Lucene 實作的。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器類型的 URI 片段。 |
|
flags |
正則表達式旗標。 |
||
lowercase |
boolean |
True |
值,指出字詞是否應該小寫。 默認值為 true。 |
name |
string |
分析器的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
pattern |
string |
\W+ |
符合標記分隔符的正則表達式模式。 預設值是符合一或多個非單字字元的表達式。 |
stopwords |
string[] |
停用字詞清單。 |
PatternCaptureTokenFilter
使用 Java regex 來發出多個令牌 - 一個或多個模式中每個擷取群組各一個。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
patterns |
string[] |
要與每個令牌相符的模式清單。 |
|
preserveOriginal |
boolean |
True |
值,指出是否要傳回原始令牌,即使其中一個模式相符也一樣。 默認值為 true。 |
PatternReplaceCharFilter
字元篩選條件,取代輸入字串中的字元。 它會使用正則表示式來識別要保留的字元序列,以及用來識別要取代的字元的取代模式。 例如,假設輸入文字 “aa bb aa bb”, pattern “(aa)\s+(bb)” 和取代 “$1#$$2”,結果會是 “aa#bb aa#bb”。 此字元篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定字元篩選類型的 URI 片段。 |
name |
string |
char 篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
pattern |
string |
正則表達式模式。 |
replacement |
string |
取代文字。 |
PatternReplaceTokenFilter
字元篩選條件,取代輸入字串中的字元。 它會使用正則表示式來識別要保留的字元序列,以及用來識別要取代的字元的取代模式。 例如,假設輸入文字 “aa bb aa bb”, pattern “(aa)\s+(bb)” 和取代 “$1#$$2”,結果會是 “aa#bb aa#bb”。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
pattern |
string |
正則表達式模式。 |
replacement |
string |
取代文字。 |
PatternTokenizer
使用 regex 模式比對來建構不同令牌的 Tokenizer。 這個 Tokenizer 是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
flags |
正則表達式旗標。 |
||
group |
integer |
-1 |
正則表達式模式中相符群組的以零起始序數,以擷取至標記。 如果您想要使用整個模式將輸入分割成令牌,不論相符群組為何,請使用 -1。 預設值為 -1。 |
name |
string |
Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
pattern |
string |
\W+ |
符合標記分隔符的正則表達式模式。 預設值是符合一或多個非單字字元的表達式。 |
PhoneticEncoder
識別要與 PhoneticTokenFilter 搭配使用的注音編碼器類型。
名稱 | 類型 | Description |
---|---|---|
beiderMorse |
string |
將令牌編碼為 Beider-Morse 值。 |
caverphone1 |
string |
將令牌編碼為 Caverphone 1.0 值。 |
caverphone2 |
string |
將令牌編碼為 Caverphone 2.0 值。 |
cologne |
string |
將令牌編碼為科隆注音值。 |
doubleMetaphone |
string |
將令牌編碼為雙元手機值。 |
haasePhonetik |
string |
使用 Kölner Phonetik 演算法的 Haase 精簡編碼令牌。 |
koelnerPhonetik |
string |
使用 Kölner Phonetik 演演算法編碼令牌。 |
metaphone |
string |
將令牌編碼為 Metaphone 值。 |
nysiis |
string |
將令牌編碼為 NYSIIS 值。 |
refinedSoundex |
string |
將令牌編碼為精簡的 Soundex 值。 |
soundex |
string |
將令牌編碼為 Soundex 值。 |
PhoneticTokenFilter
建立注音相符專案的令牌。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
encoder | metaphone |
要使用的語音編碼器。 預設值為 「metaphone」。。 |
|
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
replace |
boolean |
True |
值,指出編碼令牌是否應該取代原始令牌。 如果為 false,編碼的令牌會新增為同義字。 默認值為 true。 |
PrioritizedFields
描述要用於語意排名、標題、醒目提示和答案的標題、內容和關鍵詞欄位。
名稱 | 類型 | Description |
---|---|---|
prioritizedContentFields |
定義要用於語意排名、標題、醒目提示和答案的內容欄位。 為了獲得最佳結果,選取的字段應該包含自然語言格式的文字。 陣列中欄位的順序代表其優先順序。 如果內容很長,優先順序較低的欄位可能會遭到截斷。 |
|
prioritizedKeywordsFields |
定義要用於語意排名、標題、醒目提示和答案的關鍵詞欄位。 為了獲得最佳結果,選取的字段應該包含關鍵詞清單。 陣列中欄位的順序代表其優先順序。 如果內容很長,優先順序較低的欄位可能會遭到截斷。 |
|
titleField |
定義要用於語意排名、標題、醒目提示和答案的標題字段。 如果您的索引中沒有標題字段,請將此欄位保留空白。 |
RegexFlags
定義可以結合的旗標,以控制正則表達式在模式分析器和模式標記化工具中的使用方式。
名稱 | 類型 | Description |
---|---|---|
CANON_EQ |
string |
啟用標準等價。 |
CASE_INSENSITIVE |
string |
啟用不區分大小寫的比對。 |
COMMENTS |
string |
允許模式中的空格元和批注。 |
DOTALL |
string |
啟用 dotall 模式。 |
LITERAL |
string |
啟用模式的常值剖析。 |
MULTILINE |
string |
啟用多行模式。 |
UNICODE_CASE |
string |
啟用 Unicode 感知大小寫折疊。 |
UNIX_LINES |
string |
啟用 Unix 行模式。 |
RescoringOptions
包含重新記錄的選項。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
defaultOversampling |
number |
默認過度取樣因數。 過度取樣會擷取一組更大的潛在檔,以因量化而抵消解析遺失。 這會增加將在全精確度向量上重新記錄的結果集。 最小值為 1,表示沒有過度取樣(1 倍)。 只有在 'enableRescoring' 為 true 時,才能設定此參數。 較高的值會犧牲延遲來改善召回率。 |
|
enableRescoring |
boolean |
True |
如果設定為 true,在壓縮向量的初始搜尋之後,會使用全精確度向量重新計算相似度分數。 這會以犧牲延遲為代價來改善召回率。 |
rescoreStorageMethod | preserveOriginals |
控制原始向量的儲存方法。 此設定是不可變的。 |
ScalarQuantizationParameters
包含純量量化特有的參數。
名稱 | 類型 | Description |
---|---|---|
quantizedDataType |
壓縮向量值的量化數據類型。 |
ScalarQuantizationVectorSearchCompressionConfiguration
包含索引編製和查詢期間所使用純量量化壓縮方法的特定組態選項。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
defaultOversampling |
number |
默認過度取樣因數。 在初始搜尋中,過度取樣會在內部要求更多檔(由這個乘數指定)。 這會增加從全精確度向量使用重新計算相似度分數來重新產生的結果集。 最小值為 1,表示沒有過度取樣(1 倍)。 只有在 rerankWithOriginalVectors 為 true 時,才能設定此參數。 較高的值會犧牲延遲來改善召回率。 |
|
kind |
string:
scalar |
要設定用於向量搜尋之壓縮方法類型的名稱。 |
|
name |
string |
要與此特定組態產生關聯的名稱。 |
|
rerankWithOriginalVectors |
boolean |
True |
如果設定為 true,一旦取得使用壓縮向量計算的已排序結果集之後,就會重新計算完整精確度相似度分數來重新調整結果集。 這會以犧牲延遲為代價來改善召回率。 |
rescoringOptions |
包含重新記錄的選項。 |
||
scalarQuantizationParameters |
包含純量量化特有的參數。 |
||
truncationDimension |
integer |
要截斷向量的維度數目。 截斷向量可減少向量的大小,以及搜尋期間需要傳輸的數據量。 這可以節省記憶體成本,並降低搜尋效能,以犧牲召回率。 它只應該用於內嵌使用 Matryoshka 表示法學習 (MRL) 定型的內嵌,例如 OpenAI 文字內嵌-3-large(小型)。 默認值為 null,這表示不會截斷。 |
ScoringFunctionAggregation
定義聚合函數,用來結合評分配置檔中所有評分函式的結果。
名稱 | 類型 | Description |
---|---|---|
average |
string |
依所有評分函式結果的平均值來提升分數。 |
firstMatching |
string |
使用評分配置檔中的第一個適用評分函式來提升分數。 |
maximum |
string |
將所有評分函式結果的最大值提升分數。 |
minimum |
string |
將所有評分函式結果的最小值提升分數。 |
sum |
string |
依所有評分函式結果的總和來提升分數。 |
ScoringFunctionInterpolation
定義用來跨一系列檔插補分數提升的函式。
名稱 | 類型 | Description |
---|---|---|
constant |
string |
以常數因素提升分數。 |
linear |
string |
以線性遞減量來提升分數。 這是評分函式的預設插補。 |
logarithmic |
string |
將分數提升為以對數遞減的數量。 提升會快速降低分數,並隨著分數降低而變慢。 標籤評分函式中不允許使用這個插補選項。 |
quadratic |
string |
將分數提升為四次減少的數量。 提升速度會緩慢地降低分數,而且分數降低的速度會更快。 標籤評分函式中不允許使用這個插補選項。 |
ScoringProfile
定義影響搜尋查詢評分之搜尋索引的參數。
名稱 | 類型 | Description |
---|---|---|
functionAggregation |
值,指出應該如何合併個別評分函式的結果。 預設為 「Sum」。 如果沒有評分函式,則會忽略 。 |
|
functions | ScoringFunction[]: |
影響檔評分的函式集合。 |
name |
string |
評分配置檔的名稱。 |
text |
根據特定索引欄位中文字相符專案提升評分的參數。 |
SearchField
表示索引定義中的欄位,描述欄位的名稱、數據類型和搜尋行為。
名稱 | 類型 | Description |
---|---|---|
analyzer |
要用於欄位的分析器名稱。 此選項只能與可搜尋的字段搭配使用,而且無法與 searchAnalyzer 或 indexAnalyzer 一起設定。 選擇分析器之後,就無法變更欄位。 複雜欄位必須為 Null。 |
|
dimensions |
integer |
向量欄位的維度。 |
facetable |
boolean |
值,指出是否要在Facet查詢中參考欄位。 通常用於搜尋結果的呈現中,包括依類別的點擊計數(例如,搜尋數字相機,並查看依品牌點擊、依百萬像素、價格等等)。 複雜欄位的這個屬性必須為 Null。 類型為 Edm.GeographyPoint 或 Collection(Edm.GeographyPoint) 的欄位不可多面向。 所有其他簡單欄位的預設值為 true。 |
fields |
如果這是Edm.ComplexType或Collection(Edm.ComplexType)類型的字段,則為子字段的清單。 簡單欄位必須為 Null 或空白。 |
|
filterable |
boolean |
值,指出是否要在$filter查詢中參考欄位。 filterable 與可搜尋的字串處理方式不同。 可篩選的 Edm.String 或 Collection(Edm.String) 類型的字段不會進行斷詞,因此比較僅適用於完全相符專案。 例如,如果您將這類字段 f 設定為 「sunny day」,$filter=f eq 'sunny' 將找不到相符專案,但$filter=f eq 'sunny day' 將會。 複雜欄位的這個屬性必須為 Null。 簡單欄位的預設值為 true,複雜欄位則為 Null。 |
indexAnalyzer |
用於欄位索引編製時間的分析器名稱。 此選項只能與可搜尋的欄位搭配使用。 它必須與 searchAnalyzer 一起設定,且無法與分析器選項一起設定。 此屬性無法設定為語言分析器的名稱;如果您需要語言分析器,請改用分析器屬性。 選擇分析器之後,就無法變更欄位。 複雜欄位必須為 Null。 |
|
key |
boolean |
值,指出欄位是否唯一識別索引中的檔。 每個索引中只有一個最上層字段必須選擇為索引鍵欄位,而且必須是Edm.String類型。 索引鍵欄位可用來直接查閱檔,並更新或刪除特定檔。 簡單欄位的預設值為 false,複雜欄位為 Null。 |
name |
string |
欄位的名稱,在索引或父字段的 fields 集合中必須是唯一的。 |
normalizer |
要用於欄位的正規化程序名稱。 此選項只能與已啟用可篩選、可排序或可多面向的欄位搭配使用。 選擇正規化程序之後,就無法變更欄位。 複雜欄位必須為 Null。 |
|
retrievable |
boolean |
值,指出是否可以在搜尋結果中傳回欄位。 如果您想要使用欄位(例如 margin)做為篩選、排序或評分機制,但不想讓使用者看到字段,則可以停用此選項。 對於索引鍵字段,此屬性必須為 true,而且複雜字段必須為 Null。 這個屬性可以在現有的欄位上變更。 啟用此屬性不會造成索引記憶體需求增加。 簡單欄位的預設值為 true,向量欄位為 false,複雜欄位則為 null。 |
searchAnalyzer |
在搜尋時用於欄位的分析器名稱。 此選項只能與可搜尋的欄位搭配使用。 它必須與 indexAnalyzer 一起設定,且無法與分析器選項一起設定。 此屬性無法設定為語言分析器的名稱;如果您需要語言分析器,請改用分析器屬性。 您可以在現有的欄位更新此分析器。 複雜欄位必須為 Null。 |
|
searchable |
boolean |
值,指出欄位是否可供全文搜索。 這表示它會在編製索引期間進行斷詞分析。 如果您將可搜尋的字段設定為「晴天」之類的值,則內部會分割成個別標記「陽光明媚」和「日」。 這可啟用全文搜索這些字詞。 默認可搜尋類型為 Edm.String 或 Collection(Edm.String) 的欄位。 對於其他非字串數據類型的簡單欄位,此屬性必須為 false,而且複雜欄位必須為 null。 注意:可搜尋的欄位會耗用索引中的額外空間,以容納全文搜索之域值的其他標記化版本。 如果您想要在索引中節省空間,而且不需要在搜尋中包含字段,請將 [可搜尋] 設定為 false。 |
sortable |
boolean |
值,指出是否要在$orderby運算式中參考字段。 根據預設,搜尋引擎會依分數排序結果,但在許多情況下,使用者會想要依檔中的欄位排序。 只有在單一值時,才能排序簡單字段(在父檔範圍中有單一值)。 簡單集合欄位無法排序,因為它們是多重值。 複雜集合的簡單子欄位也是多重值,因此無法排序。 不論其為即時父欄位或上階字段,都是複雜的集合,都是如此。 複雜欄位無法排序,而且這類欄位的可排序屬性必須為 Null。 單一值簡單欄位的可排序預設值為 true、多重值簡單欄位為 false,而複雜欄位則為 null。 |
stored |
boolean |
不可變的值,指出欄位是否會個別保存在要在搜尋結果中傳回的磁碟上。 如果您不打算在搜尋回應中傳回字段內容,以節省記憶體額外負荷,則可以停用此選項。 這隻能在索引建立期間設定,而且只能在向量字段設定。 現有欄位無法變更此屬性,或針對新欄位設定為 false。 如果此屬性設定為 false,則屬性 『可擷取』 也必須設定為 false。 對於索引鍵欄位、新字段和非向量欄位,此屬性必須為 true 或 unset,而且複雜欄位必須為 Null。 停用此屬性會減少索引記憶體需求。 向量欄位的預設值為 true。 |
synonymMaps |
string[] |
要與此欄位關聯的同義字名稱清單。 此選項只能與可搜尋的欄位搭配使用。 目前每個欄位只支援一個同義字對應。 將同義字對應指派給字段可確保以該欄位為目標的查詢字詞會使用同義字對應中的規則在查詢時間展開。 這個屬性可以在現有的欄位上變更。 複雜欄位的 Null 或空白集合。 |
type |
欄位的數據類型。 |
|
vectorEncoding |
用來解譯欄位內容的編碼格式。 |
|
vectorSearchProfile |
string |
向量搜尋配置檔的名稱,指定搜尋向量字段時要使用的演算法和向量化程式。 |
SearchFieldDataType
定義搜尋索引中欄位的數據類型。
名稱 | 類型 | Description |
---|---|---|
Edm.Boolean |
string |
表示欄位包含布爾值 (true 或 false)。 |
Edm.Byte |
string |
表示欄位包含 8 位無符號整數。 只有在搭配 Collection(Edm.Byte) 使用時才有效。 |
Edm.ComplexType |
string |
表示欄位包含一或多個複雜物件,而該物件接著具有其他類型的子字段。 |
Edm.DateTimeOffset |
string |
表示欄位包含日期/時間值,包括時區資訊。 |
Edm.Double |
string |
表示欄位包含 IEEE 雙精確度浮點數。 |
Edm.GeographyPoint |
string |
表示欄位在經度和緯度方面包含地理位置。 |
Edm.Half |
string |
表示欄位包含半精確度浮點數。 只有在搭配 Collection(Edm.Half) 使用時才有效。 |
Edm.Int16 |
string |
表示欄位包含16位帶正負號的整數。 只有在搭配 Collection(Edm.Int16) 使用時才有效。 |
Edm.Int32 |
string |
表示欄位包含32位帶正負號的整數。 |
Edm.Int64 |
string |
表示欄位包含 64 位帶正負號的整數。 |
Edm.SByte |
string |
表示欄位包含 8 位帶正負號的整數。 只有在搭配 Collection(Edm.SByte) 使用時才有效。 |
Edm.Single |
string |
表示欄位包含單精度浮點數。 只有在搭配 Collection(Edm.Single) 使用時才有效。 |
Edm.String |
string |
表示欄位包含字串。 |
SearchIndex
表示搜尋索引定義,描述索引的欄位和搜尋行為。
名稱 | 類型 | Description |
---|---|---|
@odata.etag |
string |
索引的 ETag。 |
analyzers | LexicalAnalyzer[]: |
索引的分析器。 |
charFilters | CharFilter[]: |
索引的字元篩選。 |
corsOptions |
控制索引之跨原始來源資源分享 (CORS) 的選項。 |
|
defaultScoringProfile |
string |
如果在查詢中未指定評分配置檔,則為要使用的評分配置檔名稱。 如果未設定此屬性,而且查詢中未指定任何評分配置檔,則會使用預設評分 (tf-idf)。 |
encryptionKey |
您在 Azure Key Vault 中建立的加密金鑰描述。 當您想要完整保證,即使沒有Microsoft,也無法解密您的數據時,此密鑰會用來為您的數據提供額外的待用加密層級。 加密數據之後,一律會保持加密狀態。 搜尋服務會忽略將此屬性設定為 null 的嘗試。 如果您想要輪替加密金鑰,您可以視需要變更此屬性;您的數據不會受到影響。 使用客戶管理的金鑰加密不適用於免費搜尋服務,而且僅適用於 2019 年 1 月 1 日或之後建立的付費服務。 |
|
fields |
索引的欄位。 |
|
name |
string |
索引的名稱。 |
normalizers | LexicalNormalizer[]: |
索引的正規化程式。 |
scoringProfiles |
索引的評分配置檔。 |
|
semantic |
定義影響語意功能的搜尋索引參數。 |
|
similarity | Similarity: |
評分和排名符合搜尋查詢的檔時所要使用的相似度演算法類型。 相似度演算法只能在索引建立時定義,而且無法在現有索引上修改。 如果為 null,則會使用 ClassicSimilarity 演算法。 |
suggesters |
索引的建議工具。 |
|
tokenFilters |
TokenFilter[]:
|
索引的令牌篩選。 |
tokenizers | LexicalTokenizer[]: |
索引的Tokenizers。 |
vectorSearch |
包含與向量搜尋相關的組態選項。 |
SearchIndexerDataNoneIdentity
清除資料源的識別屬性。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定身分識別類型的 URI 片段。 |
SearchIndexerDataUserAssignedIdentity
指定要使用之數據源的身分識別。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定身分識別類型的 URI 片段。 |
userAssignedIdentity |
string |
使用者指派受控識別的完整 Azure 資源標識符,通常格式為 “/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId”。 |
SearchResourceEncryptionKey
Azure Key Vault 中客戶管理的加密密鑰。 您建立和管理的金鑰可用來加密或解密待用數據,例如索引和同義字對應。
名稱 | 類型 | Description |
---|---|---|
accessCredentials |
用來存取 Azure Key Vault 的選擇性 Azure Active Directory 認證。 如果改用受控識別,則不需要。 |
|
identity | SearchIndexerDataIdentity: |
要用於此加密金鑰的明確受控識別。 如果未指定,且存取認證屬性為 Null,則會使用系統指派的受控識別。 更新資源時,如果未指定明確識別,則會維持不變。 如果指定了 「none」 ,則會清除此屬性的值。 |
keyVaultKeyName |
string |
要用來加密待用數據的 Azure Key Vault 金鑰名稱。 |
keyVaultKeyVersion |
string |
要用來加密待用數據的 Azure Key Vault 金鑰版本。 |
keyVaultUri |
string |
Azure Key Vault 的 URI,也稱為 DNS 名稱,其中包含用來加密待用數據的密鑰。 範例 URI 可能會 |
SemanticConfiguration
定義在語意功能內容中使用的特定組態。
名稱 | 類型 | Description |
---|---|---|
name |
string |
語意組態的名稱。 |
prioritizedFields |
描述要用於語意排名、標題、醒目提示和答案的標題、內容和關鍵詞欄位。 至少必須設定三個子屬性的其中一個(titleField、優先順序為KeywordsFields 和優先順序的ContentFields)。 |
SemanticField
做為語意組態一部分的欄位。
名稱 | 類型 | Description |
---|---|---|
fieldName |
string |
SemanticSettings
定義影響語意功能的搜尋索引參數。
名稱 | 類型 | Description |
---|---|---|
configurations |
索引的語意組態。 |
|
defaultConfiguration |
string |
可讓您在索引中設定預設語意組態的名稱,讓您選擇每次將它當做查詢參數傳遞。 |
ShingleTokenFilter
建立令牌的組合做為單一令牌。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
filterToken |
string |
_ |
要針對沒有標記之每個位置插入的字串。 默認值為底線 (“_” )。 |
maxShingleSize |
integer |
2 |
閃亮大小上限。 預設值和最小值為 2。 |
minShingleSize |
integer |
2 |
最小閃亮大小。 預設值和最小值為 2。 必須小於 maxShingleSize的值。 |
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
outputUnigrams |
boolean |
True |
值,指出輸出數據流是否會包含輸入標記 (unigrams) 以及隨機顯示。 默認值為 true。 |
outputUnigramsIfNoShingles |
boolean |
False |
值,指出是否要輸出單格,當沒有顯示任何擷取子時。 當 outputUnigrams 設定為 false 時,這個屬性會優先。 默認值為 false。 |
tokenSeparator |
string |
聯結相鄰標記以形成閃亮時所使用的字串。 預設值為單一空格 (“ ” )。 |
SnowballTokenFilter
使用 Snowball 產生的字幹分析器來幹詞的篩選。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
language |
要使用的語言。 |
|
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
SnowballTokenFilterLanguage
用於 Snowball 令牌篩選的語言。
名稱 | 類型 | Description |
---|---|---|
armenian |
string |
選取亞美尼亞文的 Lucene Snowball 字幹標記化程式。 |
basque |
string |
選取巴斯克的 Lucene Snowball 字幹標記化程式。 |
catalan |
string |
選取加泰隆尼亞文的 Lucene Snowball 字幹標記化程式。 |
danish |
string |
選取丹麥文的 Lucene Snowball 字幹標記化程式。 |
dutch |
string |
選取荷蘭文的 Lucene Snowball 字幹標記化程式。 |
english |
string |
選取適用於英文的 Lucene Snowball 詞幹標記化工具。 |
finnish |
string |
選取芬蘭文的 Lucene Snowball 字幹標記化程式。 |
french |
string |
選取法文的 Lucene Snowball 字幹標記化工具。 |
german |
string |
選取德文的 Lucene Snowball 字幹標記化工具。 |
german2 |
string |
選取使用德文變異演算法的 Lucene Snowball 字幹標記化程式。 |
hungarian |
string |
選取匈牙利文的 Lucene Snowball 字幹標記化程式。 |
italian |
string |
選取義大利文的 Lucene Snowball 詞幹標記化工具。 |
kp |
string |
針對使用 Kraaij-Pohlmann 詞幹分析演算法的荷蘭文,選取 Lucene Snowball 字幹詞幹分析標記化程式。 |
lovins |
string |
針對使用 Lovins 字幹分析演算法的英文,選取 Lucene Snowball 字幹分析標記化程式。 |
norwegian |
string |
選取挪威文的 Lucene Snowball 詞幹詞標記化程式。 |
porter |
string |
針對使用 Porter 字幹分析演算法的英文,選取 Lucene Snowball 字幹分析標記化程式。 |
portuguese |
string |
選取葡萄牙文的 Lucene Snowball 字幹標記化程式。 |
romanian |
string |
選取羅馬尼亞文的 Lucene Snowball 字幹標記化程式。 |
russian |
string |
選取適用於俄羅斯的 Lucene Snowball 字幹標記化工具。 |
spanish |
string |
選取西班牙文的 Lucene Snowball 詞幹詞標記化程式。 |
swedish |
string |
選取瑞典文的 Lucene Snowball 詞幹標記化程式。 |
turkish |
string |
選取土耳其文的 Lucene Snowball 字幹標記化工具。 |
StemmerOverrideTokenFilter
提供使用自定義字典型字幹分析覆寫其他字幹篩選的功能。 任何字典字幹字詞都會標示為關鍵詞,因此它們不會在鏈結中加上字幹分析器。 必須在任何字幹篩選之前放置。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
rules |
string[] |
下列格式的字幹規則清單:「word => stem」,例如:「ran => run」。。 |
StemmerTokenFilter
語言特定字幹分析篩選器。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
language |
要使用的語言。 |
|
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
StemmerTokenFilterLanguage
用於字幹分析器令牌篩選的語言。
名稱 | 類型 | Description |
---|---|---|
arabic |
string |
選取阿拉伯文的 Lucene 字幹詞幹化工具。 |
armenian |
string |
選取亞美尼亞文的 Lucene 詞幹詞標記化程式。 |
basque |
string |
選取 Basque 的 Lucene 字幹詞幹化工具。 |
brazilian |
string |
選取葡萄牙文 (巴西) 的 Lucene 字幹標記化工具。 |
bulgarian |
string |
選取保加利亞文的 Lucene 詞幹詞化工具。 |
catalan |
string |
選取加泰隆尼亞文的 Lucene 字幹標記化工具。 |
czech |
string |
選取捷克文的 Lucene 字幹標記化程式。 |
danish |
string |
選取丹麥文的 Lucene 字幹詞幹化工具。 |
dutch |
string |
選取荷蘭文的 Lucene 字幹標記化程式。 |
dutchKp |
string |
針對使用 Kraaij-Pohlmann 字幹分析演算法的荷蘭文,選取 Lucene 字幹分析標記化程式。 |
english |
string |
選取適用於英文的 Lucene 字幹詞幹標記化程式。 |
finnish |
string |
選取芬蘭文的 Lucene 字幹標記化程式。 |
french |
string |
選取法文的 Lucene 字幹詞幹標記化工具。 |
galician |
string |
選取 Galician 的 Lucene 字幹詞幹標記化程式。 |
german |
string |
選取德文的 Lucene 字幹詞幹標記化程式。 |
german2 |
string |
選取使用德文變體演算法的 Lucene 字幹標記化程式。 |
greek |
string |
選取希臘文的 Lucene 字幹標記化程式。 |
hindi |
string |
選取適用於印度文的 Lucene 字幹標記化工具。 |
hungarian |
string |
選取匈牙利文的 Lucene 字幹標記化程式。 |
indonesian |
string |
選取印尼文的 Lucene 字幹標記化程式。 |
irish |
string |
選取愛爾蘭文的 Lucene 字幹標記化程式。 |
italian |
string |
選取義大利文的 Lucene 字幹標記化工具。 |
latvian |
string |
選取拉脫維亞文的 Lucene 字幹詞干標記化程式。 |
lightEnglish |
string |
針對執行光幹分析的英文,選取 Lucene 字幹詞幹化工具。 |
lightFinnish |
string |
針對執行光幹分析的芬蘭文,選取 Lucene 字幹詞幹化工具。 |
lightFrench |
string |
選取法文的 Lucene 字幹詞幹標記化程式,以執行光幹處理。 |
lightGerman |
string |
針對執行光幹分析的德文選取 Lucene 字幹詞幹化工具。 |
lightHungarian |
string |
針對進行光幹分析的匈牙利文,選取 Lucene 字幹詞幹標記化程式。 |
lightItalian |
string |
選取義大利文的 Lucene 字幹詞幹標記化程式,以執行光幹處理。 |
lightNorwegian |
string |
為挪威文 (Bokmål) 選取 Lucene 字幹詞幹標記化程式,以執行光幹分析。 |
lightNynorsk |
string |
為挪威文 (Nynorsk) 選取 Lucene 字幹詞幹化工具,以執行光幹分析。 |
lightPortuguese |
string |
針對執行光幹分析的葡萄牙文,選取 Lucene 字幹詞幹化工具。 |
lightRussian |
string |
針對執行光幹分析的俄文,選取 Lucene 字幹詞幹化工具。 |
lightSpanish |
string |
針對執行光幹分析的西班牙文,選取 Lucene 字幹詞幹化工具。 |
lightSwedish |
string |
針對執行光幹分析的瑞典文,選取 Lucene 字幹詞幹標記化程式。 |
lovins |
string |
針對使用 Lovins 字幹分析演算法的英文,選取 Lucene 字幹分析標記化程式。 |
minimalEnglish |
string |
針對執行最小字幹分析的英文選取 Lucene 字幹詞幹化工具。 |
minimalFrench |
string |
選取法文的 Lucene 字幹詞幹化工具,其會執行最少的詞幹處理。 |
minimalGalician |
string |
針對執行最小字幹分析的 Galician,選取 Lucene 字幹詞幹分析標記化程式。 |
minimalGerman |
string |
選取德文的 Lucene 字幹詞幹分析標記化程式,其會執行最少的字幹分析。 |
minimalNorwegian |
string |
選取挪威文 (Bokmål) 的 Lucene 字幹詞幹標記化程式,其會執行最少的詞幹處理。 |
minimalNynorsk |
string |
選取挪威文 (Nynorsk) 的 Lucene 字幹詞幹化工具,其會執行最少的詞幹處理。 |
minimalPortuguese |
string |
選取葡萄牙文的 Lucene 字幹詞幹標記化程式,其會執行最少的詞幹處理。 |
norwegian |
string |
選取挪威文 (Bokmål) 的 Lucene 字幹詞幹標記化程式。 |
porter2 |
string |
針對使用 Porter2 字幹分析演算法的英文選取 Lucene 字幹分析標記化程式。 |
portuguese |
string |
選取葡萄牙文的 Lucene 字幹詞幹化工具。 |
portugueseRslp |
string |
針對使用 RSLP 字幹分析演算法的葡萄牙文,選取 Lucene 字幹分析 Tokenizer。 |
possessiveEnglish |
string |
針對英文選取 Lucene 字幹標記化工具,以從單字中移除尾端擁有者。 |
romanian |
string |
選取羅馬尼亞文的 Lucene 字幹標記化程式。 |
russian |
string |
選取適用於俄文的 Lucene 字幹標記化程式。 |
sorani |
string |
選取 Sorani 的 Lucene 字幹詞幹化工具。 |
spanish |
string |
選取西班牙文的 Lucene 字幹標記化程式。 |
swedish |
string |
選取瑞典文的 Lucene 字幹標記化程式。 |
turkish |
string |
選取土耳其文的 Lucene 字幹詞幹標記化程式。 |
StopAnalyzer
將文字分割為非字母;套用小寫和停用字詞標記篩選。 此分析器是使用 Apache Lucene 實作的。
名稱 | 類型 | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器類型的 URI 片段。 |
name |
string |
分析器的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
stopwords |
string[] |
停用字詞清單。 |
StopwordsList
識別預先定義的語言特定停用字詞清單。
名稱 | 類型 | Description |
---|---|---|
arabic |
string |
選取阿拉伯文的停用字詞清單。 |
armenian |
string |
選取亞美尼亞文的停用字詞清單。 |
basque |
string |
選取 Basque 的停用字詞清單。 |
brazilian |
string |
選取葡萄牙文 (巴西) 的停用字詞清單。 |
bulgarian |
string |
選取保加利亞文的停用字詞清單。 |
catalan |
string |
選取加泰隆尼亞文的停用字詞清單。 |
czech |
string |
選取捷克文的停用字詞清單。 |
danish |
string |
選取丹麥文的停用字詞清單。 |
dutch |
string |
選取荷蘭文的停用字詞清單。 |
english |
string |
選取英文的停用字詞清單。 |
finnish |
string |
選取芬蘭文的停用字詞清單。 |
french |
string |
選取法文的停用字詞清單。 |
galician |
string |
選取 Galician 的停用字詞清單。 |
german |
string |
選取德文的停用字詞清單。 |
greek |
string |
選取希臘文的停用字詞清單。 |
hindi |
string |
選取印度文的停用字詞清單。 |
hungarian |
string |
選取匈牙利文的停用字詞清單。 |
indonesian |
string |
選取印尼文的停用字詞清單。 |
irish |
string |
選取愛爾蘭文的停用字詞清單。 |
italian |
string |
選取義大利文的停用字詞清單。 |
latvian |
string |
選取拉脫維亞文的停用字詞清單。 |
norwegian |
string |
選取挪威文的停用字詞清單。 |
persian |
string |
選取波斯文的停用字詞清單。 |
portuguese |
string |
選取葡萄牙文的停用字詞清單。 |
romanian |
string |
選取羅馬尼亞文的停用字詞清單。 |
russian |
string |
選取俄文的停用字詞清單。 |
sorani |
string |
選取 Sorani 的停用字詞清單。 |
spanish |
string |
選取西班牙文的停用字詞清單。 |
swedish |
string |
選取瑞典文的停用字詞清單。 |
thai |
string |
選取泰文的停用字詞清單。 |
turkish |
string |
選取土耳其文的停用字詞清單。 |
StopwordsTokenFilter
從令牌數據流移除停用字詞。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
ignoreCase |
boolean |
False |
值,指出是否忽略大小寫。 如果為 true,則所有單字都會先轉換成小寫。 默認值為 false。 |
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
removeTrailing |
boolean |
True |
值,指出是否要忽略最後一個搜尋字詞是否為停用字詞。 默認值為 true。 |
stopwords |
string[] |
停用字詞清單。 無法同時設定此屬性和停用字詞清單屬性。 |
|
stopwordsList | english |
要使用的停用字詞預先定義清單。 無法同時設定這個屬性和 stopwords 屬性。 預設值為英文。 |
Suggester
定義建議 API 應如何套用至索引中的欄位群組。
名稱 | 類型 | Description |
---|---|---|
name |
string |
建議工具的名稱。 |
searchMode |
值,指出建議工具的功能。 |
|
sourceFields |
string[] |
建議工具要套用的域名清單。 每個欄位都必須可供搜尋。 |
SuggesterSearchMode
值,指出建議工具的功能。
名稱 | 類型 | Description |
---|---|---|
analyzingInfixMatching |
string |
比對欄位中連續的整個詞彙和前置詞。 例如,對於欄位 '最快速的棕色狐狸',查詢 'fast' 和 'fastest brow' 兩者都會相符。 |
SynonymTokenFilter
比對令牌數據流中的單字或多字同義字。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
expand |
boolean |
True |
值,指出同義字清單中的所有字組(如果未使用 => 表示法),是否會彼此對應。 如果為 true,則同義字清單中的所有字組(如果未使用 => 表示法),則會彼此對應。 下列清單:不可思議、難以置信、神話般的、驚人的相當於:不可思議、難以置信、不可思議、神奇 => 不可思議、不可思議、神話般的、驚人的。 如果為 false,下列清單:令人難以置信的,令人難以置信的,神話般的,驚人的將相當於:令人難以置信的,令人難以置信的,令人難以置信的,神話般的,驚人的 => 令人難以置信的。 默認值為 true。 |
ignoreCase |
boolean |
False |
值,指出是否要折疊輸入大小寫以進行比對。 默認值為 false。 |
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
synonyms |
string[] |
下列兩種格式之一的同義字清單:1。 不可思議,難以置信,神話般的 => 驚人的 - 所有字詞在 => 符號左邊的所有字詞都將取代為其右側的所有字詞:2. 不可思議,難以置信,神話般的,驚人的 - 逗號分隔的對等字清單。 設定展開選項以變更此列表的解譯方式。 |
TagScoringFunction
定義函式,此函式會使用符合指定標籤清單的字串值來提升檔的分數。
名稱 | 類型 | Description |
---|---|---|
boost |
number |
原始分數的乘數。 必須是不等於 1.0 的正數。 |
fieldName |
string |
做為評分函式輸入的功能變數名稱。 |
interpolation |
值,指出如何跨檔分數插補提升;預設為 “Linear”。 |
|
tag |
標記評分函式的參數值。 |
|
type |
string:
tag |
表示要使用的函式類型。 有效值包括大小、新鮮度、距離和標籤。 函式類型必須是小寫。 |
TagScoringParameters
提供標記評分函式的參數值。
名稱 | 類型 | Description |
---|---|---|
tagsParameter |
string |
在搜尋查詢中傳遞的參數名稱,指定要與目標字段比較的標記清單。 |
TextWeights
定義索引欄位的加權,比對應該在搜尋查詢中提升評分。
名稱 | 類型 | Description |
---|---|---|
weights |
object |
每個欄位加權的字典,可提升檔評分。 索引鍵是功能變數名稱,而值是每個欄位的權數。 |
TokenCharacterKind
表示令牌篩選可以運作的字元類別。
名稱 | 類型 | Description |
---|---|---|
digit |
string |
將數位保留在令牌中。 |
letter |
string |
將字母保留在令牌中。 |
punctuation |
string |
將標點符號保留在令牌中。 |
symbol |
string |
將符號保留在令牌中。 |
whitespace |
string |
將空格元保留在令牌中。 |
TokenFilterName
定義搜尋引擎所支援之所有令牌篩選的名稱。
TruncateTokenFilter
將字詞截斷為特定長度。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
length |
integer |
300 |
將截斷字詞的長度。 預設值和最大值為 300。 |
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
UaxUrlEmailTokenizer
將 URL 和電子郵件令牌化為一個令牌。 這個 Tokenizer 是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 Tokenizer 類型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
令牌長度上限。 預設值為 255。 分割長度超過最大長度的令牌。 可以使用的令牌長度上限為 300 個字元。 |
name |
string |
Tokenizer 的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
UniqueTokenFilter
篩選出與上一個標記相同的文字標記。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
onlyOnSamePosition |
boolean |
False |
值,指出是否只移除相同位置的重複專案。 默認值為 false。 |
VectorEncodingFormat
用於解譯向量欄位內容的編碼格式。
名稱 | 類型 | Description |
---|---|---|
packedBit |
string |
編碼格式,表示封裝成較寬數據類型的位。 |
VectorSearch
包含與向量搜尋相關的組態選項。
名稱 | 類型 | Description |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
包含索引或查詢期間所用演算法的特定組態選項。 |
compressions | VectorSearchCompressionConfiguration[]: |
包含在編製索引或查詢期間所使用之壓縮方法的特定組態選項。 |
profiles |
定義要與向量搜尋搭配使用的組態組合。 |
|
vectorizers | VectorSearchVectorizer[]: |
包含如何向量化文字向量查詢的組態選項。 |
VectorSearchAlgorithmKind
用於編製索引和查詢的演算法。
名稱 | 類型 | Description |
---|---|---|
exhaustiveKnn |
string |
將執行暴力密碼破解搜尋的詳盡 KNN 演算法。 |
hnsw |
string |
HNSW (階層式導覽小型世界),一種近似近鄰演算法。 |
VectorSearchAlgorithmMetric
用於向量比較的相似度計量。 建議您選擇與定型內嵌模型相同的相似度計量。
名稱 | 類型 | Description |
---|---|---|
cosine |
string |
測量向量之間的角度,以量化其相似性,忽略大小。 角度越小,相似度越近。 |
dotProduct |
string |
計算專案明智產品的總和,以量測對齊和大小相似度。 愈大愈積極,相似度愈近。 |
euclidean |
string |
計算多維度空間中向量之間的直線距離。 距離越小,相似度越近。 |
hamming |
string |
僅適用於位封裝的二進位數據類型。 藉由計算二元向量中的不同位置,來判斷不同的差異。 差異越少,相似性越接近。 |
VectorSearchCompressionKind
用於編製索引和查詢的壓縮方法。
名稱 | 類型 | Description |
---|---|---|
binaryQuantization |
string |
二元量化,這是一種壓縮方法。 在二進位量化中,原始向量值會藉由離散化並代表使用二進位值來表示向量的每個元件,藉此壓縮為較窄的二進位類型,藉此減少整體數據大小。 |
scalarQuantization |
string |
純量量化,這是一種壓縮方法。 在純量量化中,原始向量值會透過離散化和表示向量的每個元件,使用縮減的量化值集來壓縮成較窄的類型,藉此減少整體數據大小。 |
VectorSearchCompressionRescoreStorageMethod
用於重新記錄和內部索引作業之原始完整精確度向量的儲存方法。
名稱 | 類型 | Description |
---|---|---|
discardOriginals |
string |
此選項會捨棄原始的完整精確度向量。 選擇此選項以節省記憶體上限。 由於此選項不允許重新取樣和過度取樣,因此通常會導致品質稍微降低到中等。 |
preserveOriginals |
string |
此選項會保留原始的完整精確度向量。 選擇此選項,以取得壓縮搜尋結果的最大彈性和最高品質。 這會耗用更多記憶體,但允許重新取樣和過度取樣。 |
VectorSearchCompressionTargetDataType
壓縮向量值的量化數據類型。
名稱 | 類型 | Description |
---|---|---|
int8 |
string |
VectorSearchProfile
定義要與向量搜尋搭配使用的組態組合。
名稱 | 類型 | Description |
---|---|---|
algorithm |
string |
指定演算法和選擇性參數的向量搜尋演算法組態名稱。 |
compression |
string |
指定壓縮方法和選擇性參數的壓縮方法組態名稱。 |
name |
string |
要與這個特定向量搜尋配置檔產生關聯的名稱。 |
vectorizer |
string |
要設定用於向量搜尋的向量化名稱。 |
VectorSearchVectorizerKind
要用於查詢時間的向量化方法。
名稱 | 類型 | Description |
---|---|---|
aiServicesVision |
string |
使用 Azure AI 服務視覺向量化 API,在查詢時產生影像或文字輸入的內嵌。 |
aml |
string |
使用在查詢時透過 Azure AI Studio 模型目錄部署的 Azure Machine Learning 端點產生內嵌。 |
azureOpenAI |
string |
在查詢時使用 Azure OpenAI 資源產生內嵌。 |
customWebApi |
string |
在查詢時使用自定義 Web 端點產生內嵌。 |
WebApiParameters
指定連接到使用者定義向量化工具的屬性。
名稱 | 類型 | Description |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
用於輸出連線的使用者指派受控識別。 如果提供 authResourceId 且未指定,則會使用系統指派的受控識別。 在索引器更新時,如果未指定身分識別,該值會維持不變。 如果設定為 「none」 則會清除此屬性的值。 |
authResourceId |
string |
適用於連線至 Azure 函式中外部程式代碼的自定義端點,或提供轉換的一些其他應用程式。 當函式或應用程式向 Azure Active Directory 註冊時,此值應該是為該函式或應用程式所建立的應用程式識別碼。 指定時,向量化會使用搜尋服務的受控標識碼(系統或使用者指派)和函式或應用程式的存取令牌,使用此值作為建立存取令牌範圍的資源標識符,連接到函式或應用程式的函式或應用程式。 |
httpHeaders |
object |
提出 HTTP 要求所需的標頭。 |
httpMethod |
string |
HTTP 要求的方法。 |
timeout |
string |
要求的所需逾時。 預設值為30秒。 |
uri |
string |
提供向量化工具之 Web API 的 URI。 |
WebApiVectorizer
指定使用者定義的向量化程式,以產生查詢字串的向量內嵌。 外部向量化工具的整合是使用技能集的自定義 Web API 介面來達成。
名稱 | 類型 | Description |
---|---|---|
customWebApiParameters |
指定使用者定義向量化工具的屬性。 |
|
kind |
string:
custom |
要設定用於向量搜尋的向量化方法類型名稱。 |
name |
string |
要與這個特定向量化方法產生關聯的名稱。 |
WordDelimiterTokenFilter
將單字分割成子字詞,並在子字詞群組上執行選擇性轉換。 此令牌篩選器是使用 Apache Lucene 實作。
名稱 | 類型 | 預設值 | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌篩選類型的 URI 片段。 |
|
catenateAll |
boolean |
False |
值,指出是否會將所有子字詞部分都加大。 例如,如果此值設定為 true,“Azure-Search-1” 會變成 “AzureSearch1”。 默認值為 false。 |
catenateNumbers |
boolean |
False |
值,指出是否將分隔數目部分的最大執行次數。 例如,如果此值設定為 true,“1-2” 會變成 “12”。 默認值為 false。 |
catenateWords |
boolean |
False |
值,指出文字部分的最大執行是否會被限制。 例如,如果此設定為 true,“Azure-Search” 會變成 “AzureSearch”。 默認值為 false。 |
generateNumberParts |
boolean |
True |
值,指出是否要產生數位子字詞。 默認值為 true。 |
generateWordParts |
boolean |
True |
值,指出是否要產生部分字組。 如果設定,則會導致產生部分文字;例如,“AzureSearch” 會變成 “Azure” “Search”。 默認值為 true。 |
name |
string |
令牌篩選的名稱。 它只能包含字母、數位、空格、破折號或底線,只能以英數位元開頭和結尾,而且限制為128個字元。 |
|
preserveOriginal |
boolean |
False |
值,指出是否會保留原始字組並新增至子字詞清單。 默認值為 false。 |
protectedWords |
string[] |
要防止分隔的令牌清單。 |
|
splitOnCaseChange |
boolean |
True |
值,指出是否要在caseChange上分割單字。 例如,如果此值設定為 true,“AzureSearch” 會變成 “Azure” “Search”。 默認值為 true。 |
splitOnNumerics |
boolean |
True |
值,指出是否要在數位上分割。 例如,如果此值設定為 true,“Azure1Search” 會變成 “Azure” “1” “Search”。 默認值為 true。 |
stemEnglishPossessive |
boolean |
True |
值,指出是否要移除每個子字詞的尾端 「s」。。 默認值為 true。 |