Indexes - Create Or Update
Vytvoří nový index vyhledávání nebo aktualizuje index, pokud již existuje.
PUT {endpoint}/indexes('{indexName}')?api-version=2024-05-01-preview
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2024-05-01-preview
Parametry identifikátoru URI
Name | V | Vyžadováno | Typ | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
Adresa URL koncového bodu vyhledávací služby. |
index
|
path | True |
string |
Definice indexu, který se má vytvořit nebo aktualizovat. |
api-version
|
query | True |
string |
Verze rozhraní API klienta. |
allow
|
query |
boolean |
Umožňuje přidat do indexu nové analyzátory, tokenizátory, filtry tokenů nebo filtry znaků tak, že index alespoň na několik sekund přejdou do offline režimu. To dočasně způsobí selhání požadavků na indexování a dotazování. Výkon a dostupnost zápisu indexu může být narušena několik minut po aktualizaci indexu nebo déle u velmi velkých indexů. |
Hlavička požadavku
Name | Vyžadováno | Typ | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
ID sledování odeslané spolu s požadavkem na pomoc s laděním. |
|
If-Match |
string |
Definuje podmínku If-Match. Operace se provede pouze v případě, že značka ETag na serveru odpovídá této hodnotě. |
|
If-None-Match |
string |
Definuje podmínku If-None-Match. Operace se provede pouze v případě, že značka ETag na serveru neodpovídá této hodnotě. |
|
Prefer | True |
string |
V případě požadavků HTTP PUT dává službě pokyn, aby v případě úspěchu vrátila vytvořený nebo aktualizovaný prostředek. |
Text požadavku
Name | Vyžadováno | Typ | Description |
---|---|---|---|
fields | True |
Pole indexu. |
|
name | True |
string |
Název indexu. |
@odata.etag |
string |
Značka ETag indexu. |
|
analyzers | LexicalAnalyzer[]: |
Analyzátory indexu. |
|
charFilters | CharFilter[]: |
Znak filtruje index. |
|
corsOptions |
Možnosti řízení sdílení prostředků mezi zdroji (CORS) pro index |
||
defaultScoringProfile |
string |
Název profilu hodnocení, který se má použít, pokud v dotazu není zadán žádný. Pokud tato vlastnost není nastavená a v dotazu není zadaný žádný profil bodování, použije se výchozí bodování (tf-idf). |
|
encryptionKey |
Popis šifrovacího klíče, který vytvoříte v Azure Key Vault. Tento klíč slouží k zajištění další úrovně šifrování neaktivních uložených dat, pokud chcete mít plnou jistotu, že nikdo, ani Microsoft, nemůže data dešifrovat. Jakmile data zašifrujete, zůstanou vždy zašifrovaná. Vyhledávací služba bude ignorovat pokusy o nastavení této vlastnosti na hodnotu null. Pokud chcete šifrovací klíč obměnit, můžete tuto vlastnost podle potřeby změnit. Na vaše data to nebude mít vliv. Šifrování pomocí klíčů spravovaných zákazníkem není k dispozici pro bezplatné vyhledávací služby a je k dispozici pouze pro placené služby vytvořené 1. ledna 2019 nebo později. |
||
normalizers | LexicalNormalizer[]: |
Normalizátory indexu. |
|
scoringProfiles |
Profily bodování indexu |
||
semantic |
Definuje parametry pro index vyhledávání, které ovlivňují sémantické funkce. |
||
similarity | Similarity: |
Typ algoritmu podobnosti, který se má použít při vyhodnocování a řazení dokumentů odpovídajících vyhledávacímu dotazu. Algoritmus podobnosti lze definovat pouze při vytváření indexu a nelze ho změnit u existujících indexů. Pokud null, použije se algoritmus ClassicSimilarity. |
|
suggesters |
Sugestivníci indexu. |
||
tokenFilters |
TokenFilter[]:
|
Token filtruje index. |
|
tokenizers | LexicalTokenizer[]: |
Tokenizátory indexu. |
|
vectorSearch |
Obsahuje možnosti konfigurace související s vektorové vyhledávání. |
Odpovědi
Name | Typ | Description |
---|---|---|
200 OK | ||
201 Created | ||
Other Status Codes |
Odpověď na chybu. |
Příklady
SearchServiceCreateOrUpdateIndex
Ukázkový požadavek
PUT https://myservice.search.windows.net/indexes('hotels')?allowIndexDowntime=False&api-version=2024-05-01-preview
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile"
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myCompressedHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myCompressedHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi",
"compression": "mySQ8"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine",
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey"
}
}
]
}
}
Ukázková odpověď
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myCompressedHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": null,
"b": null
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myKeyName",
"keyVaultKeyVersion": "myKeyVersion",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"semantic": {
"defaultConfiguration": null,
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myCompressedHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi",
"compression": "mySQ8"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey",
"authIdentity": null
}
}
]
}
}
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myCompressedHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2",
"tokenFilters": []
}
],
"normalizers": [],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"semantic": {
"defaultConfiguration": null,
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myCompressedHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi",
"compression": "mySQ8"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey",
"authIdentity": null
}
}
]
}
}
Definice
Name | Description |
---|---|
AIServices |
Určuje parametry AI Services Vision pro vektorizaci obrázku nebo textu dotazu. |
AIServices |
Určuje parametry AI Services Vision pro vektorizaci obrázku nebo textu dotazu. |
AIStudio |
Název modelu vložení z katalogu Azure AI Studio, který bude volán. |
AMLParameters |
Určuje vlastnosti pro připojení k vektorizátoru AML. |
AMLVectorizer |
Určuje koncový bod služby Azure Machine Learning nasazený prostřednictvím katalogu modelů Azure AI Studio pro vygenerování vložení vektoru řetězce dotazu. |
Ascii |
Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znacích ASCII (blok Unicode "Základní latinka"), na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Azure |
Přihlašovací údaje registrované aplikace vytvořené pro vaši vyhledávací službu, které slouží k ověřenému přístupu k šifrovacím klíčům uloženým v Azure Key Vault. |
Azure |
Umožňuje vygenerovat vektorové vložení pro daný textový vstup pomocí prostředku Azure OpenAI. |
Azure |
Název modelu Azure Open AI, který se bude volat. |
Azure |
Určuje parametry pro připojení k prostředku Azure OpenAI. |
Azure |
Určuje prostředek Azure OpenAI použitý k vektorizaci řetězce dotazu. |
BM25Similarity |
Funkce řazení založená na algoritmu podobnosti Okapi BM25. BM25 je algoritmus podobný TF-IDF, který zahrnuje normalizaci délky (řízenou parametrem "b") a také sytost frekvence termínu (řízená parametrem k1). |
Char |
Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem. |
Cjk |
Forms výrazů CJK, které se generují ze standardního tokenizátoru. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Cjk |
Skripty, které může CjkBigramTokenFilter ignorovat. |
Classic |
Starší algoritmus podobnosti, který používá lucene TFIDFSimilarity implementaci TF-IDF. Tato varianta TF-IDF zavádí normalizaci statické délky dokumentů a také koordinující faktory, které penalizují dokumenty, které pouze částečně odpovídají prohledáným dotazům. |
Classic |
Tokenizátor založený na gramatice, který je vhodný pro zpracování většiny dokumentů v evropském jazyce. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Common |
Sestavte bigramy pro často se vyskytující termíny při indexování. Jednotlivé termíny se stále indexují, překryvné bigramy. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Cors |
Definuje možnosti řízení sdílení prostředků mezi zdroji (CORS) pro index. |
Custom |
Umožňuje převzít kontrolu nad procesem převodu textu na indexovatelné nebo prohledávatelné tokeny. Jedná se o uživatelsky definovanou konfiguraci, která se skládá z jednoho předdefinovaného tokenizátoru a jednoho nebo více filtrů. Tokenizátor zodpovídá za rozdělení textu do tokenů a filtry pro úpravu tokenů vygenerovaných tokenizátorem. |
Custom |
Umožňuje nakonfigurovat normalizaci pro filtrovatelná, řaditelná a facetable pole, která ve výchozím nastavení pracují s striktním párováním. Jedná se o uživatelem definovanou konfiguraci, která se skládá alespoň z jednoho nebo více filtrů, které upravují uložený token. |
Custom |
Určuje vektorizátor definovaný uživatelem pro generování vložení vektoru řetězce dotazu. Integrace externího vektorizátoru se dosahuje pomocí vlastního rozhraní webového rozhraní API sady dovedností. |
Custom |
Určuje vlastnosti pro připojení k vektorizátoru definovanému uživatelem. |
Dictionary |
Rozloží složená slova nalezená v mnoha germánských jazycích. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Distance |
Definuje funkci, která zvyšuje skóre na základě vzdálenosti od zeměpisného umístění. |
Distance |
Poskytuje hodnoty parametrů pro funkci bodování vzdálenosti. |
Edge |
Generuje n-gramů dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Edge |
Určuje, ze které strany vstupu se má vygenerovat n-gram. |
Edge |
Generuje n-gramů dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Edge |
Tokenizuje vstup z hrany na n-gramy dané velikosti. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Elision |
Odebere elisions. Například "l'avion" (letadlo) se převede na "avion" (rovina). Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Error |
Další informace o chybě správy prostředků |
Error |
Podrobnosti o chybě |
Error |
Chybová odpověď |
Exhaustive |
Obsahuje parametry specifické pro vyčerpávající algoritmus KNN. |
Exhaustive |
Obsahuje možnosti konfigurace specifické pro vyčerpávající algoritmus KNN použitý při dotazování, který provede vyhledávání hrubou silou v celém vektorovém indexu. |
Freshness |
Definuje funkci, která zvyšuje skóre na základě hodnoty pole datum a čas. |
Freshness |
Poskytuje hodnoty parametrů pro funkci bodování aktuálnosti. |
Hnsw |
Obsahuje parametry specifické pro algoritmu HNSW. |
Hnsw |
Obsahuje možnosti konfigurace specifické pro algoritmus přibližných nejbližších sousedů HNSW, který se používá při indexování a dotazování. Algoritmus HNSW nabízí přizpůsobitelný kompromis mezi rychlostí vyhledávání a přesností. |
Input |
Mapování vstupních polí pro dovednost |
Keep |
Filtr tokenů, který uchovává pouze tokeny s textem obsaženým v zadaném seznamu slov. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Keyword |
Označí termíny jako klíčová slova. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Keyword |
Vygeneruje celý vstup jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Keyword |
Vygeneruje celý vstup jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Length |
Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Lexical |
Definuje názvy všech analyzátorů textu podporovaných vyhledávacím webem. |
Lexical |
Definuje názvy všech normalizátorů textu podporovaných vyhledávacím webem. |
Lexical |
Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem. |
Limit |
Omezuje počet tokenů při indexování. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Lucene |
Standardní analyzátor Apache Lucene; Skládá se ze standardního tokenizátoru, filtru malých písmen a filtru zastavení. |
Lucene |
Rozdělí text podle pravidel segmentace textu v kódování Unicode. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Lucene |
Rozdělí text podle pravidel segmentace textu v kódování Unicode. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Magnitude |
Definuje funkci, která zvyšuje skóre na základě velikosti číselného pole. |
Magnitude |
Poskytuje hodnoty parametrů pro funkci bodování velikosti. |
Mapping |
Filtr znaků, který používá mapování definovaná pomocí možnosti mapování. Porovnávání je greedy (nejdelší porovnávání vzorů v daném bodě vyhrává). Nahrazení může být prázdný řetězec. Tento filtr znaků se implementuje pomocí Apache Lucene. |
Microsoft |
Rozdělí text pomocí pravidel specifických pro konkrétní jazyk a zmenšuje slova na jejich základní tvary. |
Microsoft |
Rozdělí text pomocí pravidel specifických pro konkrétní jazyk. |
Microsoft |
Seznamy jazyky podporované tokenizátorem jazyka od Microsoftu. |
Microsoft |
Seznamy jazyky podporované tokenizátorem jazyka Microsoftu. |
NGram |
Vygeneruje n-gramů dané velikosti. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
NGram |
Vygeneruje n-gramů dané velikosti. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
NGram |
Tokenizuje vstup na n-gramy dané velikosti. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Output |
Mapování výstupních polí pro dovednost |
Path |
Tokenizátor pro hierarchie podobné cestám. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Pattern |
Pružně rozděluje text na termíny pomocí vzoru regulárního výrazu. Tento analyzátor je implementovaný pomocí Apache Lucene. |
Pattern |
Používá regulární výrazy Jazyka Java k vygenerování více tokenů – jeden pro každou skupinu zachycení v jednom nebo více vzorech. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Pattern |
Filtr znaků, který nahradí znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků, které se mají zachovat, a vzor nahrazení k identifikaci znaků, které se mají nahradit. Například při použití vstupního textu "aa bb aa bb", vzoru "(aa)\s+(bb)" a nahrazení "$1#$2" by výsledek byl "aa#bb aa#bb". Tento filtr znaků se implementuje pomocí Apache Lucene. |
Pattern |
Filtr znaků, který nahradí znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků, které se mají zachovat, a vzor nahrazení k identifikaci znaků, které se mají nahradit. Například při použití vstupního textu "aa bb aa bb", vzoru "(aa)\s+(bb)" a nahrazení "$1#$2" by výsledek byl "aa#bb aa#bb". Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Pattern |
Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Phonetic |
Určuje typ fonetické kodéru pro použití s fonetický filtr. |
Phonetic |
Create tokeny pro fonetické shody. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Prioritized |
Popisuje pole nadpisu, obsahu a klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. |
Regex |
Definuje příznaky, které lze kombinovat a řídit, jak se regulární výrazy používají v analyzátoru vzorů a tokenizátoru vzorů. |
Scalar |
Obsahuje parametry specifické pro skalární kvantování. |
Scalar |
Obsahuje možnosti konfigurace specifické pro metodu komprese skalárního kvantování používanou během indexování a dotazování. |
Scoring |
Definuje agregační funkci, která se používá ke kombinování výsledků všech hodnoticích funkcí v bodovacím profilu. |
Scoring |
Definuje funkci, která se používá k interpolaci zvýšení skóre napříč celou řadou dokumentů. |
Scoring |
Definuje parametry indexu vyhledávání, které ovlivňují bodování ve vyhledávacích dotazech. |
Search |
Představuje pole v definici indexu, která popisuje název, datový typ a chování pole při hledání. |
Search |
Definuje datový typ pole v indexu vyhledávání. |
Search |
Představuje definici indexu vyhledávání, která popisuje pole a chování vyhledávání indexu. |
Search |
Vymaže vlastnost identity zdroje dat. |
Search |
Určuje identitu zdroje dat, který se má použít. |
Search |
Šifrovací klíč spravovaný zákazníkem v Azure Key Vault. Klíče, které vytvoříte a spravujete, můžete použít k šifrování nebo dešifrování neaktivních uložených dat, jako jsou indexy a mapy synonym. |
Semantic |
Definuje konkrétní konfiguraci, která se má použít v kontextu sémantických schopností. |
Semantic |
Pole, které se používá jako součást sémantické konfigurace. |
Semantic |
Definuje parametry indexu vyhledávání, které ovlivňují sémantické schopnosti. |
Shingle |
Vytvoří kombinace tokenů jako jeden token. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Snowball |
Filtr, který vytváří slova pomocí stopky vygenerované snowballem. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Snowball |
Jazyk, který se má použít pro filtr tokenu Snowball. |
Stemmer |
Poskytuje možnost přepsat jiné filtry stemmingu pomocí vlastního slovníkového stemmingu. Všechny termíny se slovníkovou stopou budou označeny jako klíčová slova, takže nebudou označeny stemmers v řetězci. Musí být umístěn před jakékoli filtry stopky. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Stemmer |
Filtr stemmingu pro konkrétní jazyk. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Stemmer |
Jazyk, který se má použít pro filtr tokenů stemmer. |
Stop |
Rozdělí text na jiné než písmena; Použije filtry tokenů malých písmen a dorazových slov. Tento analyzátor je implementovaný pomocí Apache Lucene. |
Stopwords |
Identifikuje předdefinovaný seznam stopwords pro konkrétní jazyk. |
Stopwords |
Odebere slova stop z datového proudu tokenu. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Suggester |
Definuje způsob použití rozhraní API pro návrhy na skupinu polí v indexu. |
Suggester |
Hodnota označující možnosti návrhu. |
Synonym |
Odpovídá jednoslovné nebo víceslovné synonymum ve streamu tokenu. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Tag |
Definuje funkci, která zvyšuje skóre dokumentů pomocí řetězcových hodnot odpovídajících danému seznamu značek. |
Tag |
Poskytuje hodnoty parametrů pro funkci bodování značek. |
Text |
Definuje váhy polí indexu, jejichž shody by měly zvýšit skóre ve vyhledávacích dotazech. |
Token |
Představuje třídy znaků, se kterými může fungovat filtr tokenů. |
Token |
Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem. |
Truncate |
Zkrátí termíny na určitou délku. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Uax |
Tokenizuje adresy URL a e-maily jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene. |
Unique |
Vyfiltruje tokeny se stejným textem jako předchozí token. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
Vector |
Formát kódování pro interpretaci obsahu vektorových polí. |
Vector |
Obsahuje možnosti konfigurace související s vektorovými vyhledáváními. |
Vector |
Algoritmus použitý pro indexování a dotazování. |
Vector |
Metrika podobnosti, která se má použít pro porovnání vektorů. Doporučujeme zvolit stejnou metriku podobnosti, na které byl model vkládání trénován. |
Vector |
Metoda komprese používaná k indexování a dotazování. |
Vector |
Kvantovaný datový typ hodnot komprimovaných vektorů. |
Vector |
Definuje kombinaci konfigurací pro použití s vektorovým vyhledáváním. |
Vector |
Metoda vektorizace, která se má použít během doby dotazu. |
Word |
Rozdělí slova na podsloví a provede volitelné transformace skupin podseloví. Tento filtr tokenů se implementuje pomocí Apache Lucene. |
AIServicesVisionParameters
Určuje parametry AI Services Vision pro vektorizaci obrázku nebo textu dotazu.
Name | Typ | Description |
---|---|---|
apiKey |
string |
Klíč rozhraní API určeného prostředku služby AI. |
authIdentity | SearchIndexerDataIdentity: |
Spravovaná identita přiřazená uživatelem, která se používá pro odchozí připojení. Pokud zadáte authResourceId a nezadáte ho, použije se spravovaná identita přiřazená systémem. Pokud při aktualizaci indexu není identita určená, zůstane hodnota beze změny. Pokud je nastavená hodnota "none", hodnota této vlastnosti se vymaže. |
modelVersion |
string |
Verze modelu, která se má použít při volání služby AI Services Vision. Pokud není zadána, nastaví se výchozí hodnota na nejnovější dostupnou hodnotu. |
resourceUri |
string |
Identifikátor URI prostředku služby AI. |
AIServicesVisionVectorizer
Určuje parametry AI Services Vision pro vektorizaci obrázku nebo textu dotazu.
Name | Typ | Description |
---|---|---|
aiServicesVisionParameters |
Obsahuje parametry specifické pro vektorizaci vkládání ve službě AI Services Vision. |
|
kind |
string:
ai |
Název typu metody vektorizace konfigurované pro použití s vektorovým vyhledáváním. |
name |
string |
Název, který chcete přidružit k této konkrétní metodě vektorizace. |
AIStudioModelCatalogName
Název modelu vložení z katalogu Azure AI Studio, který bude volán.
Name | Typ | Description |
---|---|---|
Cohere-embed-v3-english |
string |
|
Cohere-embed-v3-multilingual |
string |
|
Facebook-DinoV2-Image-Embeddings-ViT-Base |
string |
|
Facebook-DinoV2-Image-Embeddings-ViT-Giant |
string |
|
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336 |
string |
|
OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32 |
string |
AMLParameters
Určuje vlastnosti pro připojení k vektorizátoru AML.
Name | Typ | Description |
---|---|---|
key |
string |
(Vyžaduje se pro ověřování pomocí klíče.) Klíč pro službu AML. |
modelName |
Název modelu vložení z katalogu Azure AI Studio, který je nasazen na zadaném koncovém bodu. |
|
region |
string |
(Volitelné pro ověřování pomocí tokenu). Oblast, ve které je služba AML nasazená. |
resourceId |
string |
(Vyžaduje se pro ověřování pomocí tokenů). Azure Resource Manager ID prostředku služby AML. Měl by být ve formátu subscriptions/{guid}/resourceGroups/{resource-group-name}/Microsoft.MachineLearningServices/workspaces/{název_pracovního_prostoru}/services/{service_name}. |
timeout |
string |
(Volitelné) Pokud je tato hodnota zadána, označuje časový limit pro klienta HTTP, který volá rozhraní API. |
uri |
string |
(Vyžaduje se bez ověřování nebo ověřování pomocí klíče.) Hodnoticí identifikátor URI služby AML, do které se datová část JSON odešle. Je povoleno pouze schéma https URI. |
AMLVectorizer
Určuje koncový bod služby Azure Machine Learning nasazený prostřednictvím katalogu modelů Azure AI Studio pro vygenerování vložení vektoru řetězce dotazu.
Name | Typ | Description |
---|---|---|
amlParameters |
Určuje vlastnosti vektorizátoru AML. |
|
kind |
string:
aml |
Název typu metody vektorizace konfigurované pro použití s vektorovým vyhledáváním. |
name |
string |
Název, který chcete přidružit k této konkrétní metodě vektorizace. |
AsciiFoldingTokenFilter
Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znacích ASCII (blok Unicode "Základní latinka"), na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
preserveOriginal |
boolean |
False |
Hodnota označující, zda bude původní token zachován. Výchozí hodnota je false. |
AzureActiveDirectoryApplicationCredentials
Přihlašovací údaje registrované aplikace vytvořené pro vaši vyhledávací službu, které slouží k ověřenému přístupu k šifrovacím klíčům uloženým v Azure Key Vault.
Name | Typ | Description |
---|---|---|
applicationId |
string |
ID aplikace AAD, kterému byla udělena požadovaná přístupová oprávnění k azure Key Vault, která se mají použít při šifrování neaktivních uložených dat. ID aplikace by se nemělo zaměňovat s ID objektu vaší aplikace AAD. |
applicationSecret |
string |
Ověřovací klíč zadané aplikace AAD. |
AzureOpenAIEmbeddingSkill
Umožňuje vygenerovat vektorové vložení pro daný textový vstup pomocí prostředku Azure OpenAI.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ dovednosti. |
apiKey |
string |
Klíč rozhraní API určeného prostředku Azure OpenAI. |
authIdentity | SearchIndexerDataIdentity: |
Spravovaná identita přiřazená uživatelem používaná pro odchozí připojení |
context |
string |
Představuje úroveň, na které probíhají operace, jako je kořen dokumentu nebo obsah dokumentu (například /document nebo /document/content). Výchozí hodnota je /document. |
deploymentId |
string |
ID nasazení modelu Azure OpenAI v určeném prostředku |
description |
string |
Popis dovednosti, který popisuje vstupy, výstupy a použití dovednosti. |
dimensions |
integer |
Počet dimenzí, které by měly mít výsledné vkládání výstupu. Podporováno pouze v modelech pro vkládání textu 3 a novějších. |
inputs |
Vstupem dovedností může být sloupec ve zdrojové sadě dat nebo výstup nadřazené dovednosti. |
|
modelName |
Název modelu vložení, který je nasazený v zadané cestě deploymentId. |
|
name |
string |
Název dovednosti, která ji v sadě dovedností jednoznačně identifikuje. Dovednost bez definovaného názvu bude mít v poli dovedností předponu znak #, výchozí název jejího indexu založeného na 1. |
outputs |
Výstupem dovednosti je buď pole ve vyhledávacím indexu, nebo hodnota, kterou může použít jako vstup jiná dovednost. |
|
resourceUri |
string |
Identifikátor URI prostředku Azure OpenAI |
AzureOpenAIModelName
Název modelu Azure Open AI, který se bude volat.
Name | Typ | Description |
---|---|---|
experimental |
string |
|
text-embedding-3-large |
string |
|
text-embedding-3-small |
string |
|
text-embedding-ada-002 |
string |
AzureOpenAIParameters
Určuje parametry pro připojení k prostředku Azure OpenAI.
Name | Typ | Description |
---|---|---|
apiKey |
string |
Klíč rozhraní API určeného prostředku Azure OpenAI. |
authIdentity | SearchIndexerDataIdentity: |
Spravovaná identita přiřazená uživatelem, která se používá pro odchozí připojení. |
deploymentId |
string |
ID nasazení modelu Azure OpenAI v určeném prostředku |
modelName |
Název modelu vložení, který je nasazen na zadané cestě deploymentId. |
|
resourceUri |
string |
Identifikátor URI prostředku Azure OpenAI. |
AzureOpenAIVectorizer
Určuje prostředek Azure OpenAI použitý k vektorizaci řetězce dotazu.
Name | Typ | Description |
---|---|---|
azureOpenAIParameters | AzureOpenAIParameters: |
Obsahuje parametry specifické pro vektorizaci vkládání v Azure OpenAI. |
kind |
string:
azure |
Název typu metody vektorizace konfigurované pro použití s vektorovým vyhledáváním. |
name |
string |
Název, který chcete přidružit k této konkrétní metodě vektorizace. |
BM25Similarity
Funkce řazení založená na algoritmu podobnosti Okapi BM25. BM25 je algoritmus podobný TF-IDF, který zahrnuje normalizaci délky (řízenou parametrem "b") a také sytost frekvence termínu (řízená parametrem k1).
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Tato vlastnost určuje, jak délka dokumentu ovlivňuje skóre relevance. Ve výchozím nastavení se používá hodnota 0,75. Hodnota 0,0 znamená, že není použita normalizace délky, zatímco hodnota 1,0 znamená, že skóre je plně normalizováno délkou dokumentu. |
k1 |
number |
Tato vlastnost řídí funkci škálování mezi četností termínů jednotlivých shodných termínů a konečným skóre relevance dvojice dokument-dotaz. Ve výchozím nastavení se používá hodnota 1,2. Hodnota 0,0 znamená, že se skóre nešupí se zvýšenou frekvencí termínu. |
CharFilterName
Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.
Name | Typ | Description |
---|---|---|
html_strip |
string |
Filtr znaků, který se pokouší vysunout konstruktory HTML. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html. |
CjkBigramTokenFilter
Forms výrazů CJK, které se generují ze standardního tokenizátoru. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
ignoreScripts |
Skripty, které se mají ignorovat. |
||
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
outputUnigrams |
boolean |
False |
Hodnota označující, jestli se mají vysílat jak unigramy, tak bigramy (pokud je true) nebo jenom bigramy (pokud false). Výchozí hodnota je false. |
CjkBigramTokenFilterScripts
Skripty, které může CjkBigramTokenFilter ignorovat.
Name | Typ | Description |
---|---|---|
han |
string |
Při vytváření bigramů termínů CJK ignorujte skript Han. |
hangul |
string |
Při vytváření bigramů termínů CJK ignorujte hangul. |
hiragana |
string |
Při vytváření bigramů termínů CJK ignorujte skript Hiragana. |
katakana |
string |
Při vytváření bigramů termínů CJK ignorujte skript Katakana. |
ClassicSimilarity
Starší algoritmus podobnosti, který používá lucene TFIDFSimilarity implementaci TF-IDF. Tato varianta TF-IDF zavádí normalizaci statické délky dokumentů a také koordinující faktory, které penalizují dokumenty, které pouze částečně odpovídají prohledáným dotazům.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenizátor založený na gramatice, který je vhodný pro zpracování většiny dokumentů v evropském jazyce. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
maxTokenLength |
integer |
255 |
Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
CommonGramTokenFilter
Sestavte bigramy pro často se vyskytující termíny při indexování. Jednotlivé termíny se stále indexují, překryvné bigramy. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
commonWords |
string[] |
Sada běžných slov. |
|
ignoreCase |
boolean |
False |
Hodnota označující, jestli se u běžných slov nerozlišují malá a velká písmena. Výchozí hodnota je false. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
queryMode |
boolean |
False |
Hodnota, která označuje, jestli je filtr tokenů v režimu dotazu. V režimu dotazu filtr tokenů vygeneruje bigramy a pak odebere běžná slova a jednotlivé termíny následované společným slovem. Výchozí hodnota je false. |
CorsOptions
Definuje možnosti řízení sdílení prostředků mezi zdroji (CORS) pro index.
Name | Typ | Description |
---|---|---|
allowedOrigins |
string[] |
Seznam původů, ze kterých bude kódu JavaScriptu udělen přístup k vašemu indexu. Může obsahovat seznam hostitelů ve formátu {protocol}://{plně-kvalifikovaný-název_domény}[:{port#}] nebo jeden "*", který povoluje všechny zdroje (nedoporučuje se). |
maxAgeInSeconds |
integer |
Doba, po kterou by měly prohlížeče ukládat předběžné odpovědi CORS do mezipaměti. Výchozí hodnota je 5 minut. |
CustomAnalyzer
Umožňuje převzít kontrolu nad procesem převodu textu na indexovatelné nebo prohledávatelné tokeny. Jedná se o uživatelsky definovanou konfiguraci, která se skládá z jednoho předdefinovaného tokenizátoru a jednoho nebo více filtrů. Tokenizátor zodpovídá za rozdělení textu do tokenů a filtry pro úpravu tokenů vygenerovaných tokenizátorem.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ analyzátoru. |
charFilters |
Seznam filtrů znaků, které se používají k přípravě vstupního textu před jeho zpracováním tokenizátorem. Mohou například nahradit určité znaky nebo symboly. Filtry se spouštějí v pořadí, ve kterém jsou uvedeny. |
|
name |
string |
Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
tokenFilters |
Seznam filtrů tokenů používaných k odfiltrování nebo úpravě tokenů vygenerovaných tokenizátorem. Můžete například zadat filtr malých písmen, který převede všechny znaky na malá písmena. Filtry se spouštějí v pořadí, ve kterém jsou uvedeny. |
|
tokenizer |
Název tokenizátoru, který se má použít k rozdělení souvislého textu na posloupnost tokenů, jako je rozdělení věty na slova. |
CustomNormalizer
Umožňuje nakonfigurovat normalizaci pro filtrovatelná, řaditelná a facetable pole, která ve výchozím nastavení pracují s striktním párováním. Jedná se o uživatelem definovanou konfiguraci, která se skládá alespoň z jednoho nebo více filtrů, které upravují uložený token.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ normalizátoru. |
charFilters |
Seznam filtrů znaků, které se používají k přípravě vstupního textu před jeho zpracováním. Můžou například nahradit určité znaky nebo symboly. Filtry se spouští v pořadí, ve kterém jsou uvedeny. |
|
name |
string |
Název normalizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. Nesmí končit na .microsoft ani .lucene, ani nesmí mít názvy "asciifolding", "standard", "malá písmena", "velká písmena" nebo "elision". |
tokenFilters |
Seznam filtrů tokenů použitých k odfiltrování nebo úpravě vstupního tokenu. Můžete například zadat filtr malých písmen, který převede všechny znaky na malá písmena. Filtry se spouští v pořadí, ve kterém jsou uvedeny. |
CustomVectorizer
Určuje vektorizátor definovaný uživatelem pro generování vložení vektoru řetězce dotazu. Integrace externího vektorizátoru se dosahuje pomocí vlastního rozhraní webového rozhraní API sady dovedností.
Name | Typ | Description |
---|---|---|
customWebApiParameters |
Určuje vlastnosti vektorizátoru definovaného uživatelem. |
|
kind |
string:
custom |
Název typu metody vektorizace konfigurované pro použití s vektorovým vyhledáváním. |
name |
string |
Název, který chcete přidružit k této konkrétní metodě vektorizace. |
CustomWebApiParameters
Určuje vlastnosti pro připojení k vektorizátoru definovanému uživatelem.
Name | Typ | Description |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
Spravovaná identita přiřazená uživatelem, která se používá pro odchozí připojení. Pokud zadáte authResourceId a nezadáte ho, použije se spravovaná identita přiřazená systémem. Pokud při aktualizaci indexeru není identita určená, zůstane hodnota beze změny. Pokud je nastavená hodnota "none", hodnota této vlastnosti se vymaže. |
authResourceId |
string |
Platí pro vlastní koncové body, které se připojují k externímu kódu ve funkci Azure nebo jiné aplikaci, která poskytuje transformace. Tato hodnota by měla být ID aplikace vytvořené pro funkci nebo aplikaci při registraci v Azure Active Directory. Při zadání se vektorizace připojí k funkci nebo aplikaci pomocí spravovaného ID (přiřazeného systémem nebo uživatelem) vyhledávací služby a přístupového tokenu funkce nebo aplikace. Tato hodnota se použije jako ID prostředku pro vytvoření oboru přístupového tokenu. |
httpHeaders |
object |
Hlavičky potřebné k provedení požadavku HTTP. |
httpMethod |
string |
Metoda požadavku HTTP. |
timeout |
string |
Požadovaný časový limit požadavku Výchozí hodnota je 30 sekund. |
uri |
string |
Identifikátor URI webového rozhraní API poskytující vektorizátor. |
DictionaryDecompounderTokenFilter
Rozloží složená slova nalezená v mnoha germánských jazycích. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
maxSubwordSize |
integer |
15 |
Maximální velikost podslovu Výstupem jsou pouze dílčí slova, která jsou kratší. Výchozí hodnota je 15. Maximum je 300. |
minSubwordSize |
integer |
2 |
Minimální velikost podslovu Výstupem jsou pouze dílčí hesla, která jsou delší. Výchozí hodnota je 2. Maximum je 300. |
minWordSize |
integer |
5 |
Minimální velikost slova Zpracují se jenom slova delší než tato. Výchozí hodnota je 5. Maximum je 300. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
onlyLongestMatch |
boolean |
False |
Hodnota označující, zda se má do výstupu přidat pouze nejdelší odpovídající podslovo. Výchozí hodnota je false. |
wordList |
string[] |
Seznam slov, která se mají shodovat. |
DistanceScoringFunction
Definuje funkci, která zvyšuje skóre na základě vzdálenosti od zeměpisného umístění.
Name | Typ | Description |
---|---|---|
boost |
number |
Násobitel nezpracovaného skóre. Musí to být kladné číslo, které se nerovná 1,0. |
distance |
Hodnoty parametrů pro funkci bodování vzdálenosti. |
|
fieldName |
string |
Název pole použitého jako vstup pro hodnoticí funkci. |
interpolation |
Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je Lineární. |
|
type |
string:
distance |
Určuje typ funkce, která se má použít. Mezi platné hodnoty patří velikost, aktuálnost, vzdálenost a značka. Typ funkce musí být malé. |
DistanceScoringParameters
Poskytuje hodnoty parametrů pro funkci bodování vzdálenosti.
Name | Typ | Description |
---|---|---|
boostingDistance |
number |
Vzdálenost v kilometrech od referenčního umístění, kde oblast zesílení končí. |
referencePointParameter |
string |
Název parametru předaného ve vyhledávacích dotazech, který určuje umístění odkazu. |
EdgeNGramTokenFilter
Generuje n-gramů dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maximální délka n-gramu. Výchozí hodnota je 2. |
minGram |
integer |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Musí být menší než hodnota maxGram. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
side | front |
Určuje, ze které strany vstupu se má vygenerovat n-gram. Výchozí hodnota je "přední". |
EdgeNGramTokenFilterSide
Určuje, ze které strany vstupu se má vygenerovat n-gram.
Name | Typ | Description |
---|---|---|
back |
string |
Určuje, že n-gram se má vygenerovat ze zadní části vstupu. |
front |
string |
Určuje, že n-gram se má vygenerovat z přední části vstupu. |
EdgeNGramTokenFilterV2
Generuje n-gramů dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maximální délka n-gramu. Výchozí hodnota je 2. Maximum je 300. |
minGram |
integer |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota maxGram. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
side | front |
Určuje, ze které strany vstupu se má vygenerovat n-gram. Výchozí hodnota je "přední". |
EdgeNGramTokenizer
Tokenizuje vstup z hrany na n-gramy dané velikosti. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
maxGram |
integer |
2 |
Maximální délka n-gramu. Výchozí hodnota je 2. Maximum je 300. |
minGram |
integer |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota maxGram. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
tokenChars |
Třídy znaků, které se mají uchovávat v tokenech. |
ElisionTokenFilter
Odebere elisions. Například "l'avion" (letadlo) se převede na "avion" (rovina). Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
articles |
string[] |
Sada článků, které se mají odebrat. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
ErrorAdditionalInfo
Další informace o chybě správy prostředků
Name | Typ | Description |
---|---|---|
info |
object |
Další informace. |
type |
string |
Typ další informace. |
ErrorDetail
Podrobnosti o chybě
Name | Typ | Description |
---|---|---|
additionalInfo |
Další informace o chybě. |
|
code |
string |
Kód chyby |
details |
Podrobnosti o chybě. |
|
message |
string |
Chybová zpráva |
target |
string |
Cíl chyby. |
ErrorResponse
Chybová odpověď
Name | Typ | Description |
---|---|---|
error |
Objekt chyby. |
ExhaustiveKnnParameters
Obsahuje parametry specifické pro vyčerpávající algoritmus KNN.
Name | Typ | Description |
---|---|---|
metric |
Metrika podobnosti, která se má použít pro vektorové porovnání. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Obsahuje možnosti konfigurace specifické pro vyčerpávající algoritmus KNN použitý při dotazování, který provede vyhledávání hrubou silou v celém vektorovém indexu.
Name | Typ | Description |
---|---|---|
exhaustiveKnnParameters |
Obsahuje parametry specifické pro vyčerpávající algoritmus KNN. |
|
kind |
string:
exhaustive |
Název typu algoritmu konfigurovaného pro použití s vektorovým vyhledáváním. |
name |
string |
Název, který chcete přidružit k této konkrétní konfiguraci. |
FreshnessScoringFunction
Definuje funkci, která zvyšuje skóre na základě hodnoty pole datum a čas.
Name | Typ | Description |
---|---|---|
boost |
number |
Násobitel nezpracovaného skóre. Musí to být kladné číslo, které se nerovná 1,0. |
fieldName |
string |
Název pole použitého jako vstup pro hodnoticí funkci. |
freshness |
Hodnoty parametrů pro funkci bodování aktuálnosti. |
|
interpolation |
Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je Lineární. |
|
type |
string:
freshness |
Určuje typ funkce, která se má použít. Mezi platné hodnoty patří velikost, aktuálnost, vzdálenost a značka. Typ funkce musí být malé. |
FreshnessScoringParameters
Poskytuje hodnoty parametrů pro funkci bodování aktuálnosti.
Name | Typ | Description |
---|---|---|
boostingDuration |
string |
Doba vypršení platnosti, po jejímž uplynutí se zvýšení podpory u určitého dokumentu zastaví. |
HnswParameters
Obsahuje parametry specifické pro algoritmu HNSW.
Name | Typ | Default value | Description |
---|---|---|---|
efConstruction |
integer |
400 |
Velikost dynamického seznamu obsahujícího nejbližší sousedy, který se používá během doby indexování. Zvýšení tohoto parametru může zlepšit kvalitu indexu na úkor delší doby indexování. Zvýšení tohoto parametru v určitém okamžiku vede ke snížení výnosu. |
efSearch |
integer |
500 |
Velikost dynamického seznamu obsahujícího nejbližší sousedy, který se používá během doby hledání. Zvýšení tohoto parametru může zlepšit výsledky hledání na úkor pomalejšího vyhledávání. Zvýšení tohoto parametru v určitém okamžiku vede ke snížení výnosu. |
m |
integer |
4 |
Počet obousměrných propojení vytvořených pro každý nový prvek během výstavby. Zvýšení této hodnoty parametru může zlepšit dobu úplnosti a zkrátit dobu načítání datových sad s vysokou vnitřní dimenzionalitou na úkor zvýšené spotřeby paměti a delší doby indexování. |
metric |
Metrika podobnosti, která se má použít pro vektorové porovnání. |
HnswVectorSearchAlgorithmConfiguration
Obsahuje možnosti konfigurace specifické pro algoritmus přibližných nejbližších sousedů HNSW, který se používá při indexování a dotazování. Algoritmus HNSW nabízí přizpůsobitelný kompromis mezi rychlostí vyhledávání a přesností.
Name | Typ | Description |
---|---|---|
hnswParameters |
Obsahuje parametry specifické pro algoritmus HNSW. |
|
kind |
string:
hnsw |
Název typu algoritmu konfigurovaného pro použití s vektorovým vyhledáváním. |
name |
string |
Název, který chcete přidružit k této konkrétní konfiguraci. |
InputFieldMappingEntry
Mapování vstupních polí pro dovednost
Name | Typ | Description |
---|---|---|
inputs |
Rekurzivní vstupy použité při vytváření komplexního typu. |
|
name |
string |
Název vstupu. |
source |
string |
Zdroj vstupu. |
sourceContext |
string |
Zdrojový kontext použitý pro výběr rekurzivních vstupů. |
KeepTokenFilter
Filtr tokenů, který uchovává pouze tokeny s textem obsaženým v zadaném seznamu slov. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
keepWords |
string[] |
Seznam slov, která se mají zachovat. |
|
keepWordsCase |
boolean |
False |
Hodnota označující, jestli se mají všechna slova nejdřív všechna malá písmena. Výchozí hodnota je false. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
KeywordMarkerTokenFilter
Označí termíny jako klíčová slova. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
ignoreCase |
boolean |
False |
Hodnota označující, zda se mají ignorovat malá a velká písmena. Pokud má hodnotu true, všechna slova se nejprve převedou na malá písmena. Výchozí hodnota je false. |
keywords |
string[] |
Seznam slov, která se mají označit jako klíčová slova. |
|
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
KeywordTokenizer
Vygeneruje celý vstup jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
bufferSize |
integer |
256 |
Velikost vyrovnávací paměti pro čtení v bajtech. Výchozí hodnota je 256. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
KeywordTokenizerV2
Vygeneruje celý vstup jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
maxTokenLength |
integer |
256 |
Maximální délka tokenu. Výchozí hodnota je 256. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
LengthTokenFilter
Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
max |
integer |
300 |
Maximální délka ve zna- Výchozí hodnota a maximum je 300. |
min |
integer |
0 |
Minimální délka znaků. Výchozí hodnota je 0. Maximum je 300. Musí být menší než hodnota max. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
LexicalAnalyzerName
Definuje názvy všech analyzátorů textu podporovaných vyhledávacím webem.
Name | Typ | Description |
---|---|---|
ar.lucene |
string |
Analyzátor Lucene pro arabštinu. |
ar.microsoft |
string |
Microsoft analyzer pro arabštinu. |
bg.lucene |
string |
Analyzátor Lucene pro bulharštinu. |
bg.microsoft |
string |
Microsoft analyzer pro bulharštinu. |
bn.microsoft |
string |
Microsoft analyzer for Bangla. |
ca.lucene |
string |
Analyzátor Lucene pro katalánštinu. |
ca.microsoft |
string |
Microsoft analyzer pro katalánštinu. |
cs.lucene |
string |
Analyzátor Lucene pro češtinu. |
cs.microsoft |
string |
Microsoft analyzer pro češtinu. |
da.lucene |
string |
Analyzátor Lucene pro dánštinu. |
da.microsoft |
string |
Microsoft analyzer pro dánštinu. |
de.lucene |
string |
Analyzátor Lucene pro němčinu. |
de.microsoft |
string |
Microsoft analyzer pro němčinu. |
el.lucene |
string |
Analyzátor Lucene pro řečtinu. |
el.microsoft |
string |
Microsoft analyzer pro řečtinu. |
en.lucene |
string |
Analyzátor Lucene pro angličtinu. |
en.microsoft |
string |
Microsoft analyzer pro angličtinu. |
es.lucene |
string |
Analyzátor Lucene pro španělštinu. |
es.microsoft |
string |
Microsoft analyzer pro španělštinu. |
et.microsoft |
string |
Analyzátor Microsoftu pro estonštinu. |
eu.lucene |
string |
Analyzátor Lucene pro baskicko. |
fa.lucene |
string |
Analyzátor Lucene pro perštinu. |
fi.lucene |
string |
Analyzátor Lucene pro finštinu. |
fi.microsoft |
string |
Microsoft analyzer pro finštinu. |
fr.lucene |
string |
Analyzátor Lucene pro francouzštinu. |
fr.microsoft |
string |
Microsoft analyzer pro francouzštinu. |
ga.lucene |
string |
Analyzátor Lucene pro irštinu. |
gl.lucene |
string |
Analyzátor Lucene pro Galicijštinu. |
gu.microsoft |
string |
Microsoft analyzer for Gudžarátština. |
he.microsoft |
string |
Microsoft analyzer pro hebrejštinu. |
hi.lucene |
string |
Analyzátor Lucene pro hindštinu. |
hi.microsoft |
string |
Microsoft analyzer pro hindštinu. |
hr.microsoft |
string |
Microsoft analyzer pro chorvatštinu. |
hu.lucene |
string |
Analyzátor Lucene pro maďarštinu. |
hu.microsoft |
string |
Microsoft analyzer pro maďarštinu. |
hy.lucene |
string |
Analyzátor Lucene pro arménštinu. |
id.lucene |
string |
Analyzátor Lucene pro indonéštinu. |
id.microsoft |
string |
Microsoft analyzer pro indonéštinu (Bahasa). |
is.microsoft |
string |
Microsoft analyzer pro islandštinu. |
it.lucene |
string |
Analyzátor Lucene pro italštinu. |
it.microsoft |
string |
Microsoft analyzer pro italštinu. |
ja.lucene |
string |
Analyzátor Lucene pro japonštinu. |
ja.microsoft |
string |
Microsoft Analyzer pro japonštinu. |
keyword |
string |
Zachází s celým obsahem pole jako s jedním tokenem. To je užitečné pro data, jako jsou PSČ, ID a některé názvy produktů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html. |
kn.microsoft |
string |
Microsoft analyzer for Kannada. |
ko.lucene |
string |
Analyzátor Lucene pro korejštinu. |
ko.microsoft |
string |
Microsoft analyzer pro korejštinu. |
lt.microsoft |
string |
Microsoft analyzer pro litevštinu. |
lv.lucene |
string |
Analyzátor Lucene pro lotyštinu. |
lv.microsoft |
string |
Microsoft analyzer pro lotyštinu. |
ml.microsoft |
string |
Microsoft analyzer for Malayalam. |
mr.microsoft |
string |
Microsoft analyzer for Marathi. |
ms.microsoft |
string |
Microsoft analyzer for Malay (latinka). |
nb.microsoft |
string |
Microsoft analyzer pro norštinu (Bokmål). |
nl.lucene |
string |
Analyzátor Lucene pro nizozemštinu. |
nl.microsoft |
string |
Microsoft analyzer pro holandštinu. |
no.lucene |
string |
Analyzátor Lucene pro norštinu. |
pa.microsoft |
string |
Microsoft analyzer for Padžábština. |
pattern |
string |
Pružně rozděluje text na termíny pomocí vzoru regulárního výrazu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html. |
pl.lucene |
string |
Analyzátor Lucene pro polštinu. |
pl.microsoft |
string |
Microsoft analyzer pro polštinu. |
pt-BR.lucene |
string |
Analyzátor Lucene pro portugalštinu (Brazílie). |
pt-BR.microsoft |
string |
Microsoft analyzer pro portugalštinu (Brazílie). |
pt-PT.lucene |
string |
Analyzátor Lucene pro portugalštinu (Portugalsko). |
pt-PT.microsoft |
string |
Microsoft analyzer pro portugalštinu (Portugalsko). |
ro.lucene |
string |
Analyzátor Lucene pro rumunštinu. |
ro.microsoft |
string |
Microsoft analyzer pro rumunštinu. |
ru.lucene |
string |
Analyzátor Lucene pro ruštinu. |
ru.microsoft |
string |
Microsoft analyzer pro ruštinu. |
simple |
string |
Rozdělí text na jiné než písmena a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html. |
sk.microsoft |
string |
Microsoft analyzer pro slovenštinu. |
sl.microsoft |
string |
Microsoft analyzer pro slovinštinu. |
sr-cyrillic.microsoft |
string |
Microsoft analyzer pro srbštinu (cyrilice). |
sr-latin.microsoft |
string |
Microsoft analyzer pro srbštinu (latinka). |
standard.lucene |
string |
Standardní analyzátor Lucene. |
standardasciifolding.lucene |
string |
Standard ASCII Folding Lucene analyzer. Viz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers. |
stop |
string |
Rozdělí text na jiné než písmena; Použije filtry tokenů malých písmen a dorazových slov. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html. |
sv.lucene |
string |
Analyzátor Lucene pro švédštinu. |
sv.microsoft |
string |
Microsoft analyzer pro švédštinu. |
ta.microsoft |
string |
Microsoft analyzer for Tamilština. |
te.microsoft |
string |
Microsoft analyzer for Telugu. |
th.lucene |
string |
Analyzátor Lucene pro thajštinu. |
th.microsoft |
string |
Microsoft analyzer pro thajštinu. |
tr.lucene |
string |
Analyzátor Lucene pro turečtinu. |
tr.microsoft |
string |
Microsoft analyzer pro turečtinu. |
uk.microsoft |
string |
Microsoft analyzer pro ukrajinštinu. |
ur.microsoft |
string |
Microsoft analyzer for Urdu. |
vi.microsoft |
string |
Microsoft analyzer pro vietnamštinu. |
whitespace |
string |
Analyzátor, který používá tokenizátor prázdných znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html. |
zh-Hans.lucene |
string |
Analyzátor Lucene pro čínštinu (zjednodušená). |
zh-Hans.microsoft |
string |
Microsoft analyzer pro čínštinu (zjednodušená). |
zh-Hant.lucene |
string |
Analyzátor Lucene pro čínštinu (tradiční). |
zh-Hant.microsoft |
string |
Microsoft analyzer pro čínštinu (tradiční). |
LexicalNormalizerName
Definuje názvy všech normalizátorů textu podporovaných vyhledávacím webem.
Name | Typ | Description |
---|---|---|
asciifolding |
string |
Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 ASCII znaků (blok Unicode "základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html. |
elision |
string |
Odstraní elisions. Například "l'avion" (letadlo) se převede na "avion" (letadlo). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html. |
lowercase |
string |
Normalizuje text tokenu na malá písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html. |
standard |
string |
Standardní normalizátor, který se skládá z malých písmen a asciifolding. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html. |
uppercase |
string |
Normalizuje text tokenu na velká písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html. |
LexicalTokenizerName
Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.
LimitTokenFilter
Omezuje počet tokenů při indexování. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
consumeAllTokens |
boolean |
False |
Hodnota označující, jestli musí být všechny tokeny ze vstupu spotřebovány i v případě dosažení hodnoty maxTokenCount. Výchozí hodnota je false. |
maxTokenCount |
integer |
1 |
Maximální počet tokenů, které se mají vytvořit. Výchozí hodnota je 1. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
LuceneStandardAnalyzer
Standardní analyzátor Apache Lucene; Skládá se ze standardního tokenizátoru, filtru malých písmen a filtru zastavení.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ analyzátoru. |
|
maxTokenLength |
integer |
255 |
Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků. |
name |
string |
Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
stopwords |
string[] |
Seznam dorazů. |
LuceneStandardTokenizer
Rozdělí text podle pravidel segmentace textu v kódování Unicode. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
maxTokenLength |
integer |
255 |
Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka se rozdělí. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
LuceneStandardTokenizerV2
Rozdělí text podle pravidel segmentace textu v kódování Unicode. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
maxTokenLength |
integer |
255 |
Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, který lze použít, je 300 znaků. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
MagnitudeScoringFunction
Definuje funkci, která zvyšuje skóre na základě velikosti číselného pole.
Name | Typ | Description |
---|---|---|
boost |
number |
Násobitel nezpracovaného skóre. Musí to být kladné číslo, které se nerovná 1,0. |
fieldName |
string |
Název pole použitého jako vstup pro hodnoticí funkci. |
interpolation |
Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je Lineární. |
|
magnitude |
Hodnoty parametrů pro funkci bodování velikosti. |
|
type |
string:
magnitude |
Určuje typ funkce, která se má použít. Mezi platné hodnoty patří velikost, aktuálnost, vzdálenost a značka. Typ funkce musí být malé. |
MagnitudeScoringParameters
Poskytuje hodnoty parametrů pro funkci bodování velikosti.
Name | Typ | Description |
---|---|---|
boostingRangeEnd |
number |
Hodnota pole, kterým zvýšení končí. |
boostingRangeStart |
number |
Hodnota pole, od kterého zvýšení začíná. |
constantBoostBeyondRange |
boolean |
Hodnota označující, zda se má použít konstantní zvýšení pro hodnoty pole nad rámec koncové hodnoty rozsahu; výchozí hodnota je false. |
MappingCharFilter
Filtr znaků, který používá mapování definovaná pomocí možnosti mapování. Porovnávání je greedy (nejdelší porovnávání vzorů v daném bodě vyhrává). Nahrazení může být prázdný řetězec. Tento filtr znaků se implementuje pomocí Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru znaků. |
mappings |
string[] |
Seznam mapování v následujícím formátu: "a=>b" (všechny výskyty znaku "a" budou nahrazeny znakem "b"). |
name |
string |
Název filtru znaků. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
MicrosoftLanguageStemmingTokenizer
Rozdělí text pomocí pravidel specifických pro konkrétní jazyk a zmenšuje slova na jejich základní tvary.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
isSearchTokenizer |
boolean |
False |
Hodnota označující způsob použití tokenizátoru. Nastavte na hodnotu true, pokud se použije jako tokenizátor vyhledávání, a na hodnotu false, pokud se použije jako tokenizátor indexování. Výchozí hodnota je false. |
language |
Jazyk, který se má použít. Výchozí hodnota je angličtina. |
||
maxTokenLength |
integer |
255 |
Maximální délka tokenu. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků. Tokeny delší než 300 znaků se nejprve rozdělí na tokeny o délce 300 a pak se každý z těchto tokenů rozdělí na základě nastavené maximální délky tokenu. Výchozí hodnota je 255. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
MicrosoftLanguageTokenizer
Rozdělí text pomocí pravidel specifických pro konkrétní jazyk.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
isSearchTokenizer |
boolean |
False |
Hodnota označující způsob použití tokenizátoru. Nastavte na hodnotu true, pokud se použije jako tokenizátor vyhledávání, a na hodnotu false, pokud se použije jako tokenizátor indexování. Výchozí hodnota je false. |
language |
Jazyk, který se má použít. Výchozí hodnota je angličtina. |
||
maxTokenLength |
integer |
255 |
Maximální délka tokenu. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků. Tokeny delší než 300 znaků se nejprve rozdělí na tokeny o délce 300 a pak se každý z těchto tokenů rozdělí na základě nastavené maximální délky tokenu. Výchozí hodnota je 255. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
MicrosoftStemmingTokenizerLanguage
Seznamy jazyky podporované tokenizátorem jazyka od Microsoftu.
Name | Typ | Description |
---|---|---|
arabic |
string |
Vybere tokenizátor microsoftu pro arabštinu. |
bangla |
string |
Vybere tokenizátor microsoftu stemming pro Bangla. |
bulgarian |
string |
Vybere tokenizátor microsoftu stemming pro bulharštinu. |
catalan |
string |
Vybere tokenizátor od Microsoftu pro katalánštinu. |
croatian |
string |
Vybere tokenizátor microsoftu stemming pro chorvatštinu. |
czech |
string |
Vybere tokenizátor pro češtinu od Microsoftu. |
danish |
string |
Vybere tokenizátor microsoftu stemming pro dánštinu. |
dutch |
string |
Vybere tokenizátor Microsoft stemming pro nizozemštinu. |
english |
string |
Vybere tokenizátor Microsoft stemming pro angličtinu. |
estonian |
string |
Vybere tokenizátor microsoft stemming pro estonštinu. |
finnish |
string |
Vybere tokenizátor microsoftu stemming pro finštinu. |
french |
string |
Vybere tokenizátor Microsoft stemming pro francouzštinu. |
german |
string |
Vybere tokenizátor microsoftu stemming pro němčinu. |
greek |
string |
Vybere tokenizátor Microsoft stemming pro řečtinu. |
gujarati |
string |
Vybere tokenizátor Microsoft stemming pro Gudžaráti. |
hebrew |
string |
Vybere tokenizér Microsoft stemming pro hebrejštinu. |
hindi |
string |
Vybere tokenizátor microsoft stemming pro hindštinu. |
hungarian |
string |
Vybere tokenizátor Microsoft stemming pro maďarštinu. |
icelandic |
string |
Vybere tokenizátor microsoftu stemming pro islandštinu. |
indonesian |
string |
Vybere tokenizátor microsoftu stemming pro indonéštinu. |
italian |
string |
Vybere tokenizátor Microsoft stemming pro italštinu. |
kannada |
string |
Vybere tokenizátor microsoft stemming pro kannadu. |
latvian |
string |
Vybere tokenizátor microsoft stemming pro lotyštinu. |
lithuanian |
string |
Vybere tokenizátor microsoft stemming pro litevštinu. |
malay |
string |
Vybere tokenizátor Microsoft Stemming pro Malay. |
malayalam |
string |
Vybere tokenizátor Microsoft Stemming pro Malayalam. |
marathi |
string |
Vybere tokenizátor Microsoft Stemming pro Marathi. |
norwegianBokmaal |
string |
Vybere tokenizátor microsoftu stemming pro norštinu (Bokmål). |
polish |
string |
Vybere tokenizátor Microsoft stemming pro polštinu. |
portuguese |
string |
Vybere tokenizátor microsoft stemming pro portugalštinu. |
portugueseBrazilian |
string |
Vybere tokenizátor Microsoft stemming pro portugalštinu (Brazílie). |
punjabi |
string |
Vybere tokenizátor Microsoft Stemming pro Pajádžábi. |
romanian |
string |
Vybere tokenizátor microsoft stemming pro rumunštinu. |
russian |
string |
Vybere tokenizátor microsoftu stemming pro ruštinu. |
serbianCyrillic |
string |
Vybere tokenizátor Microsoft stemming pro srbštinu (cyrilice). |
serbianLatin |
string |
Vybere tokenizátor Microsoft stemming pro srbštinu (latinka). |
slovak |
string |
Vybere tokenizátor Microsoft stemming pro slovenštinu. |
slovenian |
string |
Vybere tokenizátor Microsoft stemming pro slovinštinu. |
spanish |
string |
Vybere tokenizátor microsoft stemming pro španělštinu. |
swedish |
string |
Vybere tokenizátor Microsoft stemming pro švédštinu. |
tamil |
string |
Vybere tokenizátor microsoftu stemming pro tamilštinu. |
telugu |
string |
Vybere tokenizátor Microsoft Stemming pro Telugu. |
turkish |
string |
Vybere tokenizátor Microsoft stemming pro turečtinu. |
ukrainian |
string |
Vybere tokenizátor Microsoft stemming pro ukrajinštinu. |
urdu |
string |
Vybere tokenizátor Microsoft Stemming pro Urdu. |
MicrosoftTokenizerLanguage
Seznamy jazyky podporované tokenizátorem jazyka Microsoftu.
Name | Typ | Description |
---|---|---|
bangla |
string |
Vybere tokenizátor Microsoftu pro Bangla. |
bulgarian |
string |
Vybere tokenizátor Microsoftu pro bulharštinu. |
catalan |
string |
Vybere tokenizátor Microsoftu pro katalánštinu. |
chineseSimplified |
string |
Vybere tokenizátor Microsoftu pro čínštinu (zjednodušenou). |
chineseTraditional |
string |
Vybere tokenizátor Microsoftu pro čínštinu (tradiční). |
croatian |
string |
Vybere tokenizátor Microsoftu pro chorvatštinu. |
czech |
string |
Vybere tokenizátor Microsoftu pro češtinu. |
danish |
string |
Vybere tokenizátor Microsoftu pro dánštinu. |
dutch |
string |
Vybere tokenizátor Microsoftu pro nizozemštinu. |
english |
string |
Vybere tokenizátor Microsoftu pro angličtinu. |
french |
string |
Vybere tokenizátor Microsoftu pro francouzštinu. |
german |
string |
Vybere tokenizátor Microsoftu pro němčinu. |
greek |
string |
Vybere tokenizátor Microsoftu pro řečtinu. |
gujarati |
string |
Vybere tokenizátor Microsoftu pro Gujarati. |
hindi |
string |
Vybere tokenizátor Microsoftu pro hindštinu. |
icelandic |
string |
Vybere tokenizátor Microsoftu pro islandštinu. |
indonesian |
string |
Vybere tokenizátor Microsoftu pro indonéštinu. |
italian |
string |
Vybere tokenizátor Microsoftu pro italštinu. |
japanese |
string |
Vybere tokenizátor Microsoftu pro japonštinu. |
kannada |
string |
Vybere tokenizátor Microsoftu pro kannadu. |
korean |
string |
Vybere tokenizátor Microsoftu pro korejštinu. |
malay |
string |
Vybere tokenizátor Microsoftu pro Malajsku. |
malayalam |
string |
Vybere tokenizátor Microsoftu pro Malayalam. |
marathi |
string |
Vybere tokenizátor Microsoftu pro Marathi. |
norwegianBokmaal |
string |
Vybere tokenizátor Microsoftu pro norštinu (Bokmål). |
polish |
string |
Vybere tokenizátor Microsoftu pro polštinu. |
portuguese |
string |
Vybere tokenizátor Microsoftu pro portugalštinu. |
portugueseBrazilian |
string |
Vybere tokenizátor Microsoftu pro portugalštinu (Brazílie). |
punjabi |
string |
Vybere tokenizátor Microsoftu pro Padžábština. |
romanian |
string |
Vybere tokenizátor Microsoftu pro rumunštinu. |
russian |
string |
Vybere tokenizátor Microsoftu pro ruštinu. |
serbianCyrillic |
string |
Vybere tokenizátor Microsoftu pro srbštinu (cyrilice). |
serbianLatin |
string |
Vybere tokenizátor Microsoftu pro srbštinu (latinka). |
slovenian |
string |
Vybere tokenizátor Microsoftu pro slovinštinu. |
spanish |
string |
Vybere tokenizátor Microsoftu pro španělštinu. |
swedish |
string |
Vybere tokenizátor Microsoftu pro švédštinu. |
tamil |
string |
Vybere tokenizátor Microsoftu pro tamilštinu. |
telugu |
string |
Vybere tokenizátor Microsoftu pro Telugu. |
thai |
string |
Vybere tokenizátor Microsoftu pro thajštinu. |
ukrainian |
string |
Vybere tokenizátor Microsoftu pro ukrajinštinu. |
urdu |
string |
Vybere tokenizátor Microsoftu pro Urdu. |
vietnamese |
string |
Vybere tokenizátor Microsoftu pro vietnamštinu. |
NGramTokenFilter
Vygeneruje n-gramů dané velikosti. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maximální délka n-gramu. Výchozí hodnota je 2. |
minGram |
integer |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Musí být menší než hodnota maxGram. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
NGramTokenFilterV2
Vygeneruje n-gramů dané velikosti. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maximální délka n-gramu. Výchozí hodnota je 2. Maximum je 300. |
minGram |
integer |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota maxGram. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
NGramTokenizer
Tokenizuje vstup na n-gramy dané velikosti. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
maxGram |
integer |
2 |
Maximální délka n-gramu. Výchozí hodnota je 2. Maximum je 300. |
minGram |
integer |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota maxGram. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
tokenChars |
Třídy znaků, které se mají uchovávat v tokenech. |
OutputFieldMappingEntry
Mapování výstupních polí pro dovednost
Name | Typ | Description |
---|---|---|
name |
string |
Název výstupu definovaného dovedností. |
targetName |
string |
Cílový název výstupu. Je nepovinný a ve výchozím nastavení je název. |
PathHierarchyTokenizerV2
Tokenizátor pro hierarchie podobné cestám. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
delimiter |
string |
/ |
Znak oddělovače, který se má použít. Výchozí hodnota je "/". |
maxTokenLength |
integer |
300 |
Maximální délka tokenu. Výchozí hodnota a maximum je 300. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
replacement |
string |
/ |
Hodnota, která v případě, že je nastavená, nahradí znak oddělovače. Výchozí hodnota je "/". |
reverse |
boolean |
False |
Hodnota označující, jestli se mají generovat tokeny v obráceném pořadí. Výchozí hodnota je false. |
skip |
integer |
0 |
Počet počátečních tokenů, které se mají přeskočit. Výchozí hodnota je 0. |
PatternAnalyzer
Pružně rozděluje text na termíny pomocí vzoru regulárního výrazu. Tento analyzátor je implementovaný pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ analyzátoru. |
|
flags |
Příznaky regulárních výrazů. |
||
lowercase |
boolean |
True |
Hodnota označující, zda mají být termíny malé. Platí výchozí hodnota. |
name |
string |
Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
pattern |
string |
\W+ |
Vzor regulárního výrazu, který odpovídá oddělovačům tokenů. Výchozí je výraz, který odpovídá jednomu nebo více neslovným znakům. |
stopwords |
string[] |
Seznam dorazů. |
PatternCaptureTokenFilter
Používá regulární výrazy Jazyka Java k vygenerování více tokenů – jeden pro každou skupinu zachycení v jednom nebo více vzorech. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
patterns |
string[] |
Seznam vzorů, které se mají s jednotlivými tokeny shodovat. |
|
preserveOriginal |
boolean |
True |
Hodnota označující, jestli se má vrátit původní token, i když se některý ze vzorů shoduje. Platí výchozí hodnota. |
PatternReplaceCharFilter
Filtr znaků, který nahradí znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků, které se mají zachovat, a vzor nahrazení k identifikaci znaků, které se mají nahradit. Například při použití vstupního textu "aa bb aa bb", vzoru "(aa)\s+(bb)" a nahrazení "$1#$2" by výsledek byl "aa#bb aa#bb". Tento filtr znaků se implementuje pomocí Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru znaků. |
name |
string |
Název filtru znaků. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
pattern |
string |
Vzor regulárního výrazu. |
replacement |
string |
Náhradní text. |
PatternReplaceTokenFilter
Filtr znaků, který nahradí znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků, které se mají zachovat, a vzor nahrazení k identifikaci znaků, které se mají nahradit. Například při použití vstupního textu "aa bb aa bb", vzoru "(aa)\s+(bb)" a nahrazení "$1#$2" by výsledek byl "aa#bb aa#bb". Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
pattern |
string |
Vzor regulárního výrazu. |
replacement |
string |
Náhradní text. |
PatternTokenizer
Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
flags |
Příznaky regulárních výrazů. |
||
group |
integer |
-1 |
Pořadové číslo od nuly odpovídající skupiny ve vzorci regulárního výrazu, které se mají extrahovat do tokenů. Pokud chcete použít celý vzor k rozdělení vstupu na tokeny, bez ohledu na odpovídající skupiny, použijte -1. Výchozí hodnota je -1. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
pattern |
string |
\W+ |
Vzor regulárního výrazu pro shodu s oddělovači tokenů. Výchozí hodnota je výraz, který odpovídá jednomu nebo více neslovným znakům. |
PhoneticEncoder
Určuje typ fonetické kodéru pro použití s fonetický filtr.
Name | Typ | Description |
---|---|---|
beiderMorse |
string |
Zakóduje token do Beider-Morse hodnoty. |
caverphone1 |
string |
Zakóduje token do hodnoty Caverphone 1.0. |
caverphone2 |
string |
Zakóduje token do hodnoty Caverphone 2.0. |
cologne |
string |
Zakóduje token do fonetické hodnoty Kolín nad Rýnem. |
doubleMetaphone |
string |
Zakóduje token do dvojité hodnoty metafonu. |
haasePhonetik |
string |
Kóduje token pomocí upřesnění Haase algoritmu Kölner Phonetik. |
koelnerPhonetik |
string |
Kóduje token pomocí algoritmu Kölner Phonetik. |
metaphone |
string |
Zakóduje token do hodnoty metafonu. |
nysiis |
string |
Zakóduje token do hodnoty NYSIIS. |
refinedSoundex |
string |
Zakóduje token do hodnoty Refined Soundex. |
soundex |
string |
Zakóduje token do hodnoty Soundex. |
PhoneticTokenFilter
Create tokeny pro fonetické shody. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
encoder | metaphone |
Fonetický kodér, který se má použít. Výchozí hodnota je "metafon". |
|
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
replace |
boolean |
True |
Hodnota označující, jestli mají kódované tokeny nahradit původní tokeny. Pokud je false, kódované tokeny se přidají jako synonyma. Platí výchozí hodnota. |
PrioritizedFields
Popisuje pole nadpisu, obsahu a klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi.
Name | Typ | Description |
---|---|---|
prioritizedContentFields |
Definuje pole obsahu, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Pro nejlepší výsledek by vybraná pole měla obsahovat text ve formě přirozeného jazyka. Pořadí polí v poli představuje jejich prioritu. Pole s nižší prioritou se můžou zkrátit, pokud je obsah dlouhý. |
|
prioritizedKeywordsFields |
Definuje pole klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Pro nejlepší výsledek by vybraná pole měla obsahovat seznam klíčových slov. Pořadí polí v poli představuje jejich prioritu. Pole s nižší prioritou se můžou zkrátit, pokud je obsah dlouhý. |
|
titleField |
Definuje pole názvu, které se má použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Pokud v indexu nemáte pole s názvem, nechte toto pole prázdné. |
RegexFlags
Definuje příznaky, které lze kombinovat a řídit, jak se regulární výrazy používají v analyzátoru vzorů a tokenizátoru vzorů.
Name | Typ | Description |
---|---|---|
CANON_EQ |
string |
Povolí kanonickou ekvivalenci. |
CASE_INSENSITIVE |
string |
Povolí porovnávání bez rozlišování velkých a malých písmen. |
COMMENTS |
string |
Povoluje prázdné znaky a komentáře ve vzoru. |
DOTALL |
string |
Povolí režim dotall. |
LITERAL |
string |
Povolí literálovou analýzu vzoru. |
MULTILINE |
string |
Povolí víceřádkový režim. |
UNICODE_CASE |
string |
Umožňuje skládání velkých písmen s kódováním Unicode. |
UNIX_LINES |
string |
Povolí režim čar systému Unix. |
ScalarQuantizationParameters
Obsahuje parametry specifické pro skalární kvantování.
Name | Typ | Description |
---|---|---|
quantizedDataType |
Kvantovaný datový typ hodnot komprimovaných vektorů. |
ScalarQuantizationVectorSearchCompressionConfiguration
Obsahuje možnosti konfigurace specifické pro metodu komprese skalárního kvantování používanou během indexování a dotazování.
Name | Typ | Default value | Description |
---|---|---|---|
defaultOversampling |
number |
Výchozí faktor převzorkování. Převzorkování interně vyžádá více dokumentů (určených tímto násobitelem) při počátečním hledání. Tím se zvýší množina výsledků, které se přeřadí pomocí přepočítané skóre podobnosti z vektorů s plnou přesností. Minimální hodnota je 1, což znamená bez převzorkování (1x). Tento parametr lze nastavit pouze v případě, že má hodnota rerankWithOriginalVectors hodnotu true. Vyšší hodnoty zlepšují úplnost na úkor latence. |
|
kind |
string:
scalar |
Název typu metody komprese konfigurované pro použití s vektorovým vyhledáváním. |
|
name |
string |
Název, který chcete přidružit k této konkrétní konfiguraci. |
|
rerankWithOriginalVectors |
boolean |
True |
Pokud je hodnota nastavena na hodnotu true, po získání seřazené sady výsledků vypočítané pomocí komprimovaných vektorů se jejich pořadí znovu přepočítáním skóre podobnosti s úplnou přesností. To zlepší úplnost na úkor latence. |
scalarQuantizationParameters |
Obsahuje parametry specifické pro skalární kvantování. |
ScoringFunctionAggregation
Definuje agregační funkci, která se používá ke kombinování výsledků všech hodnoticích funkcí v bodovacím profilu.
Name | Typ | Description |
---|---|---|
average |
string |
Zvyšte skóre o průměr všech výsledků bodovací funkce. |
firstMatching |
string |
Zvyšte skóre pomocí první použitelné bodovací funkce v bodovacím profilu. |
maximum |
string |
Zvyšte skóre o maximum ze všech výsledků bodovací funkce. |
minimum |
string |
Zvyšte skóre o minimum ze všech výsledků bodovací funkce. |
sum |
string |
Zvyšte skóre o součet všech výsledků bodovací funkce. |
ScoringFunctionInterpolation
Definuje funkci, která se používá k interpolaci zvýšení skóre napříč celou řadou dokumentů.
Name | Typ | Description |
---|---|---|
constant |
string |
Zvyšuje skóre konstantním faktorem. |
linear |
string |
Zvyšuje skóre o lineárně se zmenšující hodnotu. Toto je výchozí interpolace pro hodnoticí funkce. |
logarithmic |
string |
Zvýší skóre o hodnotu, která logaritmicky snižuje. Zvýšení se rychle snižuje pro vyšší skóre a pomaleji při poklesu skóre. Tato možnost interpolace není povolená ve funkcích vyhodnocování značek. |
quadratic |
string |
Zvyšuje skóre o hodnotu, která se kvadraticky snižuje. Zvýšení se pomalu snižuje pro vyšší skóre a rychleji, když se skóre snižují. Tato možnost interpolace není povolená ve funkcích vyhodnocování značek. |
ScoringProfile
Definuje parametry indexu vyhledávání, které ovlivňují bodování ve vyhledávacích dotazech.
Name | Typ | Description |
---|---|---|
functionAggregation |
Hodnota označující, jak se mají zkombinovat výsledky jednotlivých hodnoticích funkcí. Výchozí hodnota je Součet. Ignorováno, pokud neexistují žádné hodnoticí funkce. |
|
functions | ScoringFunction[]: |
Kolekce funkcí, které ovlivňují vyhodnocování dokumentů. |
name |
string |
Název hodnoticího profilu. |
text |
Parametry, které zvyšují skóre na základě shody textu v určitých polích indexu. |
SearchField
Představuje pole v definici indexu, která popisuje název, datový typ a chování pole při hledání.
Name | Typ | Description |
---|---|---|
analyzer |
Název analyzátoru, který má být použit pro pole. Tato možnost se dá použít jenom u prohledávatelných polí a nedá se nastavit společně s searchAnalyzerem ani indexAnalyzerem. Jakmile je analyzátor vybrán, nelze ho pro pole změnit. U složitých polí musí být hodnota null. |
|
dimensions |
integer |
Dimenzionalita vektorového pole. |
facetable |
boolean |
Hodnota označující, zda se má povolit odkaz na pole v dotazech omezující vlastnosti. Obvykle se používá v prezentaci výsledků hledání, která zahrnuje počet přístupů podle kategorie (například hledání digitálních fotoaparátů a zobrazení výsledků podle značky, podle megapixelů, podle ceny atd.). Tato vlastnost musí mít hodnotu null pro komplexní pole. Pole typu Edm.GeographyPoint nebo Collection(Edm.GeographyPoint) nelze určit jako omezující. Výchozí hodnota platí pro všechna ostatní jednoduchá pole. |
fields |
Seznam dílčích polí, pokud se jedná o pole typu Edm.ComplexType nebo Collection(Edm.ComplexType). Pro jednoduchá pole musí být hodnota null nebo prázdná. |
|
filterable |
boolean |
Hodnota označující, jestli se má povolit odkaz na pole v $filter dotazech. Filterable se liší od prohledávatelného v tom, jak se zpracovávají řetězce. Pole typu Edm.String nebo Collection(Edm.String), která jsou filtrovatelná, neprojdou dělením slov, takže porovnání jsou určena pouze pro přesné shody. Pokud například nastavíte takové pole f na "slunečný den", $filter=f eq 'sunny' nenajde žádné shody, ale $filter=f eq 'slunečný den' ano. Tato vlastnost musí mít hodnotu null pro komplexní pole. Výchozí hodnota je true pro jednoduchá pole a hodnota null pro komplexní pole. |
indexAnalyzer |
Název analyzátoru použitého při indexování pole. Tuto možnost lze použít pouze u prohledávatelných polí. Musí být nastaven společně s parametrem searchAnalyzer a nelze jej nastavit společně s možností analyzátoru. Tuto vlastnost nelze nastavit na název analyzátoru jazyka; Pokud potřebujete analyzátor jazyka, použijte místo toho vlastnost analyzátoru. Jakmile je analyzátor vybrán, nelze ho pro pole změnit. U složitých polí musí být hodnota null. |
|
key |
boolean |
Hodnota označující, zda pole jednoznačně identifikuje dokumenty v indexu. Jako pole s klíčem musí být zvoleno právě jedno pole nejvyšší úrovně v každém indexu a musí být typu Edm.String. Klíčová pole se dají použít k přímému vyhledávání dokumentů a aktualizaci nebo odstranění konkrétních dokumentů. Výchozí hodnota je false pro jednoduchá pole a null pro komplexní pole. |
name |
string |
Název pole, který musí být jedinečný v rámci kolekce polí indexu nebo nadřazeného pole. |
normalizer |
Název normalizátoru, který se má použít pro pole. Tuto možnost je možné použít pouze u polí, která mají povolenou možnost filtrování, řazení nebo kategorizovatelnost. Jakmile je normalizátor vybrán, nelze jej pro pole změnit. U složitých polí musí být hodnota null. |
|
retrievable |
boolean |
Hodnota označující, zda lze pole vrátit ve výsledku hledání. Tuto možnost můžete zakázat, pokud chcete použít pole (například okraj) jako filtr, řazení nebo bodovací mechanismus, ale nechcete, aby bylo pole viditelné pro koncového uživatele. Tato vlastnost musí mít hodnotu true pro klíčová pole a pro komplexní pole musí mít hodnotu null. Tuto vlastnost lze změnit u existujících polí. Povolení této vlastnosti nezpůsobí zvýšení požadavků na úložiště indexů. Výchozí hodnota je true pro jednoduchá pole, false pro vektorová pole a null pro komplexní pole. |
searchAnalyzer |
Název analyzátoru použitého při hledání pole. Tuto možnost lze použít pouze u prohledávatelných polí. Musí být nastaven společně s parametrem indexAnalyzer a nelze ho nastavit společně s možností analyzátoru. Tuto vlastnost nelze nastavit na název analyzátoru jazyka; Pokud potřebujete analyzátor jazyka, použijte místo toho vlastnost analyzátoru. Tento analyzátor lze aktualizovat u existujícího pole. U složitých polí musí být hodnota null. |
|
searchable |
boolean |
Hodnota označující, zda je pole fulltextové prohledávatelné. To znamená, že během indexování projde analýzou, jako je dělení slov. Pokud nastavíte prohledávatelné pole na hodnotu jako „slunečný den“, interně se rozdělí na jednotlivé tokeny „slunečný“ a „den“. To umožňuje fulltextové vyhledávání těchto termínů. Pole typu Edm.String nebo Collection(Edm.String) se ve výchozím nastavení prohledávají. Tato vlastnost musí mít hodnotu false pro jednoduchá pole jiných datových typů, než je řetězec, a pro komplexní pole musí mít hodnotu null. Poznámka: Prohledávatelná pole spotřebovávají v indexu další místo, aby bylo možné pojmout další tokenizované verze hodnoty pole pro fulltextové vyhledávání. Pokud chcete ušetřit místo v indexu a nepotřebujete, aby se pole zahrnulo do hledání, nastavte prohledávatelné na false. |
sortable |
boolean |
Hodnota označující, zda má být na pole odkazováno ve výrazech $orderby. Ve výchozím nastavení vyhledávací web seřadí výsledky podle skóre, ale v mnoha prostředích budou uživatelé chtít řadit podle polí v dokumentech. Jednoduché pole lze seřadit pouze v případě, že má jednu hodnotu (má jednu hodnotu v oboru nadřazeného dokumentu). Jednoduchá pole kolekce nelze seřadit, protože mají více hodnot. Jednoduchá dílčí pole komplexních kolekcí mají také vícehodnotovou hodnotu, a proto je nelze seřadit. To platí bez ohledu na to, jestli se jedná o bezprostředně nadřazené pole nebo nadřazené pole, které je komplexní kolekcí. Složitá pole nelze seřadit a vlastnost sortable musí mít hodnotu null pro taková pole. Výchozí hodnota pro seřaditelná pole je true pro jednoduchá pole s jednou hodnotou, false pro jednoduchá pole s více hodnotami a null pro komplexní pole. |
stored |
boolean |
Neměnná hodnota označující, zda bude pole trvale zachováno na disku, aby se vrátilo ve výsledku hledání. Tuto možnost můžete zakázat, pokud neplánujete vrátit obsah pole v odpovědi hledání, abyste ušetřili režijní náklady na úložiště. To lze nastavit pouze při vytváření indexu a pouze pro vektorová pole. Tuto vlastnost nelze změnit pro existující pole ani nastavit jako false pro nová pole. Pokud je tato vlastnost nastavena jako false, vlastnost 'retrievable' musí být také nastavena na false. Tato vlastnost musí být true nebo unset pro klíčová pole, pro nová pole a pro jiná než vektorová pole a musí mít hodnotu null pro komplexní pole. Zakázáním této vlastnosti snížíte požadavky na úložiště indexů. Výchozí hodnota je true pro vektorová pole. |
synonymMaps |
string[] |
Seznam názvů map synonym, které se mají přidružit k tomuto poli. Tuto možnost lze použít pouze u prohledávatelných polí. V současné době je podporováno pouze jedno mapování synonym pro každé pole. Přiřazení mapování synonym k poli zajistí, že termíny dotazu, které cílí na toto pole, se rozbalí v době dotazu pomocí pravidel v mapě synonym. Tento atribut lze změnit u existujících polí. U složitých polí musí mít hodnotu null nebo prázdnou kolekci. |
type |
Datový typ pole. |
|
vectorEncoding |
Formát kódování pro interpretaci obsahu pole. |
|
vectorSearchProfile |
string |
Název profilu vektorového vyhledávání, který určuje algoritmus a vektorizátor, který se má použít při prohledávání vektorového pole. |
SearchFieldDataType
Definuje datový typ pole v indexu vyhledávání.
Name | Typ | Description |
---|---|---|
Edm.Boolean |
string |
Označuje, že pole obsahuje logickou hodnotu (true nebo false). |
Edm.Byte |
string |
Označuje, že pole obsahuje 8bitové celé číslo bez znaménka. Toto je platné pouze při použití s Kolekcí(Edm.Byte). |
Edm.ComplexType |
string |
Označuje, že pole obsahuje jeden nebo více složitých objektů, které mají dílčí pole jiných typů. |
Edm.DateTimeOffset |
string |
Označuje, že pole obsahuje hodnotu data a času, včetně informací o časovém pásmu. |
Edm.Double |
string |
Označuje, že pole obsahuje číslo IEEE s dvojitou přesností s plovoucí desetinou čárkou. |
Edm.GeographyPoint |
string |
Označuje, že pole obsahuje geografickou polohu z hlediska zeměpisné délky a šířky. |
Edm.Half |
string |
Označuje, že pole obsahuje číslo s plovoucí desetinou čárkou s poloviční přesností. Toto je platné pouze při použití s Kolekcí(Edm.Half). |
Edm.Int16 |
string |
Označuje, že pole obsahuje 16bitové celé číslo se znaménkem. Toto je platné jenom při použití s Kolekcí(Edm.Int16). |
Edm.Int32 |
string |
Označuje, že pole obsahuje 32bitové celé číslo se znaménkem. |
Edm.Int64 |
string |
Označuje, že pole obsahuje 64bitové celé číslo se znaménkem. |
Edm.SByte |
string |
Označuje, že pole obsahuje 8bitové celé číslo se znaménkem. Toto je platné pouze při použití s kolekcí (Edm.SByte). |
Edm.Single |
string |
Označuje, že pole obsahuje číslo s plovoucí desetinou čárkou s jednoduchou přesností. Toto je platné pouze při použití s Collection(Edm.Single). |
Edm.String |
string |
Označuje, že pole obsahuje řetězec. |
SearchIndex
Představuje definici indexu vyhledávání, která popisuje pole a chování vyhledávání indexu.
Name | Typ | Description |
---|---|---|
@odata.etag |
string |
Značka ETag indexu. |
analyzers | LexicalAnalyzer[]: |
Analyzátory pro index. |
charFilters | CharFilter[]: |
Filtry znaků pro index. |
corsOptions |
Možnosti řízení sdílení prostředků mezi zdroji (CORS) indexu |
|
defaultScoringProfile |
string |
Název hodnoticího profilu, který se má použít v případě, že dotaz nezadá žádný profil. Pokud tato vlastnost není nastavená a v dotazu není zadaný žádný profil bodování, použije se výchozí bodování (tf-idf). |
encryptionKey |
Popis šifrovacího klíče, který vytvoříte v Azure Key Vault. Tento klíč se používá k zajištění další úrovně šifrování neaktivních uložených dat, když chcete mít plnou jistotu, že nikdo, dokonce ani Microsoft, nemůže vaše data dešifrovat. Jakmile data zašifrujete, zůstanou vždy zašifrovaná. Vyhledávací služba bude ignorovat pokusy o nastavení této vlastnosti na hodnotu null. Pokud chcete šifrovací klíč obměnit, můžete tuto vlastnost podle potřeby změnit. Na vaše data to nebude mít vliv. Šifrování pomocí klíčů spravovaných zákazníkem není k dispozici pro bezplatné vyhledávací služby a je k dispozici pouze pro placené služby vytvořené 1. ledna 2019 nebo později. |
|
fields |
Pole indexu |
|
name |
string |
Název indexu. |
normalizers | LexicalNormalizer[]: |
Normalizátory indexu. |
scoringProfiles |
Profily bodování indexu. |
|
semantic |
Definuje parametry indexu vyhledávání, které ovlivňují sémantické schopnosti. |
|
similarity | Similarity: |
Typ algoritmu podobnosti, který se má použít při vyhodnocování a hodnocení dokumentů odpovídajících vyhledávacímu dotazu. Algoritmus podobnosti lze definovat pouze při vytváření indexu a nelze ho upravit u existujících indexů. Pokud null, je použit algoritmus ClassicSimilarity. |
suggesters |
Navrhovatelé indexu. |
|
tokenFilters |
TokenFilter[]:
|
Token filtruje index. |
tokenizers | LexicalTokenizer[]: |
Tokenizátory pro index. |
vectorSearch |
Obsahuje možnosti konfigurace související s vektorovými vyhledáváními. |
SearchIndexerDataNoneIdentity
Vymaže vlastnost identity zdroje dat.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ identity. |
SearchIndexerDataUserAssignedIdentity
Určuje identitu zdroje dat, který se má použít.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ identity. |
userAssignedIdentity |
string |
Plně kvalifikované ID prostředku Azure spravované identity přiřazené uživatelem obvykle ve formátu /subscriptions/12345678-1234-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId, které by mělo být přiřazeno vyhledávací službě. |
SearchResourceEncryptionKey
Šifrovací klíč spravovaný zákazníkem v Azure Key Vault. Klíče, které vytvoříte a spravujete, můžete použít k šifrování nebo dešifrování neaktivních uložených dat, jako jsou indexy a mapy synonym.
Name | Typ | Description |
---|---|---|
accessCredentials |
Volitelné přihlašovací údaje Azure Active Directory používané pro přístup k azure Key Vault. Nevyžaduje se, pokud místo toho používáte spravovanou identitu. |
|
identity | SearchIndexerDataIdentity: |
Explicitní spravovaná identita, která se má použít pro tento šifrovací klíč. Pokud není zadaný a vlastnost přihlašovacích údajů přístupu má hodnotu null, použije se spravovaná identita přiřazená systémem. Pokud po aktualizaci prostředku explicitní identita není určená, zůstane beze změny. Pokud je zadána hodnota "none", hodnota této vlastnosti bude vymazána. |
keyVaultKeyName |
string |
Název klíče Azure Key Vault, který se má použít k šifrování neaktivních uložených dat. |
keyVaultKeyVersion |
string |
Verze klíče Azure Key Vault, který se má použít k šifrování neaktivních uložených dat. |
keyVaultUri |
string |
Identifikátor URI vašeho Key Vault Azure, označovaný také jako název DNS, který obsahuje klíč, který se má použít k šifrování neaktivních uložených dat. Příkladem identifikátoru URI může být |
SemanticConfiguration
Definuje konkrétní konfiguraci, která se má použít v kontextu sémantických schopností.
Name | Typ | Description |
---|---|---|
name |
string |
Název sémantické konfigurace. |
prioritizedFields |
Popisuje pole názvu, obsahu a klíčového slova, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Je třeba nastavit alespoň jednu ze tří dílčích vlastností (titleField, priorityizedKeywordsFields a priorityizedContentFields). |
SemanticField
Pole, které se používá jako součást sémantické konfigurace.
Name | Typ | Description |
---|---|---|
fieldName |
string |
SemanticSettings
Definuje parametry indexu vyhledávání, které ovlivňují sémantické schopnosti.
Name | Typ | Description |
---|---|---|
configurations |
Sémantické konfigurace indexu. |
|
defaultConfiguration |
string |
Umožňuje nastavit název výchozí sémantické konfigurace v indexu, takže je volitelné ji předávat jako parametr dotazu. |
ShingleTokenFilter
Vytvoří kombinace tokenů jako jeden token. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
filterToken |
string |
_ |
Řetězec, který se má vložit pro každou pozici, na které není token. Výchozí hodnota je podtržítko ("_"). |
maxShingleSize |
integer |
2 |
Maximální velikost šindele Výchozí a minimální hodnota je 2. |
minShingleSize |
integer |
2 |
Minimální velikost šindele Výchozí a minimální hodnota je 2. Musí být menší než hodnota maxShingleSize. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
outputUnigrams |
boolean |
True |
Hodnota označující, jestli bude výstupní datový proud obsahovat vstupní tokeny (unigramy) i šindele. Platí výchozí hodnota. |
outputUnigramsIfNoShingles |
boolean |
False |
Hodnota označující, zda se mají vydělovat unigramy v době, kdy nejsou k dispozici žádné šindele. Tato vlastnost má přednost, pokud outputUnigrams je nastavena na false. Výchozí hodnota je false. |
tokenSeparator |
string |
Řetězec, který se má použít při spojování sousedních tokenů za účelem vytvoření šindele. Výchozí hodnota je jedna mezera (" "). |
SnowballTokenFilter
Filtr, který vytváří slova pomocí stopky vygenerované snowballem. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
language |
Jazyk, který se má použít. |
|
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
SnowballTokenFilterLanguage
Jazyk, který se má použít pro filtr tokenu Snowball.
Name | Typ | Description |
---|---|---|
armenian |
string |
Vybere tokenizátor stopky sněhové koule Lucene pro arménštinu. |
basque |
string |
Vybere tokenizátor stopky sněhové koule Lucene pro baskicko. |
catalan |
string |
Vybere tokenizátor Lucene Snowball stemming pro katalánštinu. |
danish |
string |
Vybere tokenizátor stopky sněhové koule Lucene pro dánštinu. |
dutch |
string |
Vybere tokenizátor stopky sněhové koule Lucene pro holandštinu. |
english |
string |
Vybere tokenizátor Lucene Snowball stemming pro angličtinu. |
finnish |
string |
Vybere tokenizátor stopky sněhové koule Lucene pro finštinu. |
french |
string |
Vybere tokenizátor lucene Snowball stemming pro francouzštinu. |
german |
string |
Vybere tokenizátor stopky Lucene Snowball pro němčinu. |
german2 |
string |
Vybere tokenizátor stopky Lucene Snowball, který používá algoritmus německé varianty. |
hungarian |
string |
Vybere tokenizátor stopky sněhové koule Lucene pro maďarštinu. |
italian |
string |
Vybere tokenizér lucene snowball stemming pro italštinu. |
kp |
string |
Vybere tokenizátor stopky Lucene Snowball pro holandštinu, který používá algoritmus Kraaij-Pohlmann stemming. |
lovins |
string |
Vybere tokenizátor lucene snowball stemming pro angličtinu, který používá algoritmus lovins stemming. |
norwegian |
string |
Vybere tokenizátor stopky sněhové koule Lucene pro norštinu. |
porter |
string |
Vybere tokenizátor Lucene Snowball stemming pro angličtinu, který používá algoritmus porter stemming. |
portuguese |
string |
Vybere tokenizér lucene Snowball stemming pro portugalštinu. |
romanian |
string |
Vybere tokenizér lucene Snowball stemming pro rumunštinu. |
russian |
string |
Vybere tokenizátor stopky Lucene Snowball pro ruštinu. |
spanish |
string |
Vybere tokenizátor stopky sněhové koule Lucene pro španělštinu. |
swedish |
string |
Vybere tokenizátor stopky sněhové koule Lucene pro švédštinu. |
turkish |
string |
Vybere tokenizátor stopky Lucene Snowball pro turečtinu. |
StemmerOverrideTokenFilter
Poskytuje možnost přepsat jiné filtry stemmingu pomocí vlastního slovníkového stemmingu. Všechny termíny se slovníkovou stopou budou označeny jako klíčová slova, takže nebudou označeny stemmers v řetězci. Musí být umístěn před jakékoli filtry stopky. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
rules |
string[] |
Seznam pravidel stemming v následujícím formátu: "word => stem", například: "ran => run". |
StemmerTokenFilter
Filtr stemmingu pro konkrétní jazyk. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
language |
Jazyk, který se má použít. |
|
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
StemmerTokenFilterLanguage
Jazyk, který se má použít pro filtr tokenů stemmer.
Name | Typ | Description |
---|---|---|
arabic |
string |
Vybere tokenizátor lucene stemming pro arabštinu. |
armenian |
string |
Vybere tokenizátor lucene stemming pro arménštinu. |
basque |
string |
Vybere tokenizátor lucene stemming pro baskiskicko. |
brazilian |
string |
Vybere tokenizátor lucene stemming pro portugalštinu (Brazílie). |
bulgarian |
string |
Vybere tokenizátor Lucene stemming pro bulharštinu. |
catalan |
string |
Vybere tokenizátor lucene stemming pro katalánštinu. |
czech |
string |
Vybere tokenizátor Lucene stemming pro češtinu. |
danish |
string |
Vybere tokenizátor lucene stemming pro dánštinu. |
dutch |
string |
Vybere tokenizátor Lucene stemming pro nizozemštinu. |
dutchKp |
string |
Vybere tokenizátor lucene stemming pro holandštinu, který používá algoritmus Kraaij-Pohlmann stemming. |
english |
string |
Vybere tokenizátor lucene stemming pro angličtinu. |
finnish |
string |
Vybere tokenizátor Lucene stemming pro finštinu. |
french |
string |
Vybere tokenizátor lucene stemming pro francouzštinu. |
galician |
string |
Vybere tokenizátor lucene stemming pro Galicijštinu. |
german |
string |
Vybere tokenizátor lucene stemming pro němčinu. |
german2 |
string |
Vybere tokenizátor lucene stemming, který používá algoritmus německé varianty. |
greek |
string |
Vybere tokenizátor lucene stemming pro řečtinu. |
hindi |
string |
Vybere tokenizátor lucene stemming pro hindštinu. |
hungarian |
string |
Vybere tokenizátor lucene stemming pro maďarštinu. |
indonesian |
string |
Vybere tokenizátor Lucene stemming pro indonéštinu. |
irish |
string |
Vybere tokenizátor lucene stemming pro irštinu. |
italian |
string |
Vybere tokenizátor lucene stemming pro italštinu. |
latvian |
string |
Vybere tokenizátor lucene stemming pro lotyštinu. |
lightEnglish |
string |
Vybere tokenizátor lucene stemming pro angličtinu, který dělá light stemming. |
lightFinnish |
string |
Vybere tokenizátor lucene stemming pro finštinu, který dělá světlo stemming. |
lightFrench |
string |
Vybere tokenizátor lucene stemming pro francouzštinu, který dělá světlo stemming. |
lightGerman |
string |
Vybere tokenizátor lucene stemming pro němčinu, který dělá světlo stemming. |
lightHungarian |
string |
Vybere tokenizátor stopky Lucene pro maďarštinu, který dělá světlo stemming. |
lightItalian |
string |
Vybere tokenizátor lucene stemming pro italštinu, který dělá light stemming. |
lightNorwegian |
string |
Vybere tokenizátor stemming Lucene pro norštinu (Bokmål), který dělá světlo stemming. |
lightNynorsk |
string |
Vybere tokenizátor lucene stemming pro norštinu (Nynorsk), který dělá stopku světla. |
lightPortuguese |
string |
Vybere tokenizátor lucene stemming pro portugalštinu, který dělá světlo stemming. |
lightRussian |
string |
Vybere tokenizátor lucene stemming pro ruštinu, který dělá světlo stemming. |
lightSpanish |
string |
Vybere tokenizátor lucene stemming pro španělštinu, který dělá světlo stemming. |
lightSwedish |
string |
Vybere tokenizátor lucene stemming pro švédštinu, který dělá světlo stemming. |
lovins |
string |
Vybere tokenizátor lucene stemming pro angličtinu, který používá Algoritmus lovinsových pramenů. |
minimalEnglish |
string |
Vybere tokenizátor lucene stemming pro angličtinu, který dělá minimální stemming. |
minimalFrench |
string |
Vybere tokenizátor lucene stemming pro francouzštinu, který dělá minimální stopky. |
minimalGalician |
string |
Vybere tokenizátor stopky Lucene pro galicijštinu, který dělá minimální stopku. |
minimalGerman |
string |
Vybere tokenizátor lucene stemming pro němčinu, který dělá minimální stopování. |
minimalNorwegian |
string |
Vybere tokenizátor stemming Lucene pro norštinu (Bokmål), který dělá minimální stemming. |
minimalNynorsk |
string |
Vybere tokenizátor lucene stemming pro norštinu (Nynorsk), který dělá minimální stemming. |
minimalPortuguese |
string |
Vybere tokenizátor lucene stemming pro portugalštinu, který dělá minimální stopky. |
norwegian |
string |
Vybere tokenizátor lucene stemming pro norštinu (Bokmål). |
porter2 |
string |
Vybere tokenizátor lucene stemming pro angličtinu, který používá algoritmus stemming Porter2. |
portuguese |
string |
Vybere tokenizátor lucene stemming pro portugalštinu. |
portugueseRslp |
string |
Vybere tokenizátor lucene stemming pro portugalštinu, který používá algoritmus rslp stemming. |
possessiveEnglish |
string |
Vybere tokenizátor lucene stemming pro angličtinu, který ze slov odebere koncové přivlastňovací položky. |
romanian |
string |
Vybere tokenizátor Lucene stemming pro rumunštinu. |
russian |
string |
Vybere tokenizátor lucene stemming pro ruštinu. |
sorani |
string |
Vybere tokenizátor lucene stemming pro Sorani. |
spanish |
string |
Vybere tokenizátor lucene stemming pro španělštinu. |
swedish |
string |
Vybere tokenizátor lucene stemming pro švédštinu. |
turkish |
string |
Vybere tokenizátor lucene stemming pro turečtinu. |
StopAnalyzer
Rozdělí text na jiné než písmena; Použije filtry tokenů malých písmen a dorazových slov. Tento analyzátor je implementovaný pomocí Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ analyzátoru. |
name |
string |
Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
stopwords |
string[] |
Seznam dorazů. |
StopwordsList
Identifikuje předdefinovaný seznam stopwords pro konkrétní jazyk.
Name | Typ | Description |
---|---|---|
arabic |
string |
Vybere seznam stopword pro arabštinu. |
armenian |
string |
Vybere seznam stopword pro arménštinu. |
basque |
string |
Vybere seznam stopword pro baskičtina. |
brazilian |
string |
Vybere seznam stopword pro portugalštinu (Brazílie). |
bulgarian |
string |
Vybere seznam stopword pro bulharštinu. |
catalan |
string |
Vybere seznam stopword pro katalánštinu. |
czech |
string |
Vybere seznam stopword pro češtinu. |
danish |
string |
Vybere seznam stopword pro dánštinu. |
dutch |
string |
Vybere seznam stopword pro nizozemštinu. |
english |
string |
Vybere seznam stopword pro angličtinu. |
finnish |
string |
Vybere seznam stopword pro finštinu. |
french |
string |
Vybere seznam stopword pro francouzštinu. |
galician |
string |
Vybere seznam stopword pro galicijštinu. |
german |
string |
Vybere seznam stopword pro němčinu. |
greek |
string |
Vybere seznam stopových slov pro řečtinu. |
hindi |
string |
Vybere seznam stopword pro hindštinu. |
hungarian |
string |
Vybere seznam stopword pro maďarštinu. |
indonesian |
string |
Vybere seznam stopword indonéštiny. |
irish |
string |
Vybere seznam stopword pro irštinu. |
italian |
string |
Vybere seznam stopword pro italštinu. |
latvian |
string |
Vybere seznam stopword pro lotyštinu. |
norwegian |
string |
Vybere seznam stopword pro norštinu. |
persian |
string |
Vybere seznam stopword perštiny. |
portuguese |
string |
Vybere seznam stopword pro portugalštinu. |
romanian |
string |
Vybere seznam stopword pro rumunštinu. |
russian |
string |
Vybere seznam stopword pro ruštinu. |
sorani |
string |
Vybere seznam stopword pro Sorani. |
spanish |
string |
Vybere seznam stopword pro španělštinu. |
swedish |
string |
Vybere seznam stopword pro švédštinu. |
thai |
string |
Vybere seznam stopword pro thajštinu. |
turkish |
string |
Vybere seznam stopword pro turečtinu. |
StopwordsTokenFilter
Odebere slova stop z datového proudu tokenu. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
ignoreCase |
boolean |
False |
Hodnota označující, zda se mají ignorovat malá a velká písmena. Pokud má hodnotu true, všechna slova se nejprve převedou na malá písmena. Výchozí hodnota je false. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
removeTrailing |
boolean |
True |
Hodnota označující, jestli se má poslední hledaný termín ignorovat, pokud se jedná o stop slovo. Platí výchozí hodnota. |
stopwords |
string[] |
Seznam stopwords. Tuto vlastnost i vlastnost seznam stopwords nelze nastavit. |
|
stopwordsList | english |
Předdefinovaný seznam stopwords, která se mají použít. Tuto vlastnost i vlastnost stopwords nelze nastavit. Výchozí hodnota je angličtina. |
Suggester
Definuje způsob použití rozhraní API pro návrhy na skupinu polí v indexu.
Name | Typ | Description |
---|---|---|
name |
string |
Jméno navrhovatele. |
searchMode |
Hodnota označující možnosti navrhovatele. |
|
sourceFields |
string[] |
Seznam názvů polí, na které se navrhovatel vztahuje. Každé pole musí být prohledávatelné. |
SuggesterSearchMode
Hodnota označující možnosti návrhu.
Name | Typ | Description |
---|---|---|
analyzingInfixMatching |
string |
Odpovídá po sobě jdoucím celým termínům a předponám v poli. Například v poli Nejrychlejší liška hnědá by se dotazy "rychle" a "nejrychlejší obočí" shodovaly. |
SynonymTokenFilter
Odpovídá jednoslovné nebo víceslovné synonymum ve streamu tokenu. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
expand |
boolean |
True |
Hodnota označující, jestli se všechna slova v seznamu synonym (pokud se nepoužívá zápis => ) se mapují na sebe navzájem. Pokud je hodnota true, všechna slova v seznamu synonym (pokud se nepoužívá zápis => ) se namapují na sebe navzájem. Následující seznam: neuvěřitelné, neuvěřitelné, báječné, úžasné je ekvivalentem: neuvěřitelné, neuvěřitelné, báječné, úžasné => neuvěřitelné, neuvěřitelné, báječné, úžasné. Pokud je false, následující seznam: neuvěřitelné, neuvěřitelné, báječné, úžasné bude ekvivalentní k: neuvěřitelné, neuvěřitelné, báječné, úžasné => neuvěřitelné. Platí výchozí hodnota. |
ignoreCase |
boolean |
False |
Hodnota označující, zda se mají zadat velká a malá písmena pro porovnávání. Výchozí hodnota je false. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
synonyms |
string[] |
Seznam synonym v jednom ze dvou formátů: 1. neuvěřitelné, neuvěřitelné, báječné => úžasné - všechny termíny na levé straně => symbol budou nahrazeny všemi termíny na pravé straně; 2. neuvěřitelné, neuvěřitelné, báječné, úžasné - čárkami oddělený seznam ekvivalentních slov. Nastavte možnost rozbalení a změňte způsob interpretace tohoto seznamu. |
TagScoringFunction
Definuje funkci, která zvyšuje skóre dokumentů pomocí řetězcových hodnot odpovídajících danému seznamu značek.
Name | Typ | Description |
---|---|---|
boost |
number |
Násobitel nezpracovaného skóre. Musí to být kladné číslo, které se nerovná 1,0. |
fieldName |
string |
Název pole použitého jako vstup pro hodnoticí funkci. |
interpolation |
Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je Lineární. |
|
tag |
Hodnoty parametrů pro funkci bodování značek. |
|
type |
string:
tag |
Určuje typ funkce, která se má použít. Mezi platné hodnoty patří velikost, aktuálnost, vzdálenost a značka. Typ funkce musí být malé. |
TagScoringParameters
Poskytuje hodnoty parametrů pro funkci bodování značek.
Name | Typ | Description |
---|---|---|
tagsParameter |
string |
Název parametru předaného ve vyhledávacích dotazech k určení seznamu značek, které se mají porovnat s cílovým polem. |
TextWeights
Definuje váhy polí indexu, jejichž shody by měly zvýšit skóre ve vyhledávacích dotazech.
Name | Typ | Description |
---|---|---|
weights |
object |
Slovník hmotností pro jednotlivá pole pro zvýšení skóre dokumentu Klíče jsou názvy polí a hodnoty jsou váhy pro každé pole. |
TokenCharacterKind
Představuje třídy znaků, se kterými může fungovat filtr tokenů.
Name | Typ | Description |
---|---|---|
digit |
string |
Uchovává číslice v tokenech. |
letter |
string |
Uchovává písmena v tokenech. |
punctuation |
string |
Udržuje interpunkci v tokenech. |
symbol |
string |
Uchovává symboly v tokenech. |
whitespace |
string |
Zachová prázdné znaky v tokenech. |
TokenFilterName
Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.
TruncateTokenFilter
Zkrátí termíny na určitou délku. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
length |
integer |
300 |
Délka, s jakou budou termíny zkráceny. Výchozí hodnota a maximum je 300. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
UaxUrlEmailTokenizer
Tokenizuje adresy URL a e-maily jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ tokenizátoru. |
|
maxTokenLength |
integer |
255 |
Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, který lze použít, je 300 znaků. |
name |
string |
Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
UniqueTokenFilter
Vyfiltruje tokeny se stejným textem jako předchozí token. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
onlyOnSamePosition |
boolean |
False |
Hodnota označující, zda se mají odebrat duplicity pouze na stejné pozici. Výchozí hodnota je false. |
VectorEncodingFormat
Formát kódování pro interpretaci obsahu vektorových polí.
Name | Typ | Description |
---|---|---|
packedBit |
string |
Formát kódování představující bity zabalené do širšího datového typu. |
VectorSearch
Obsahuje možnosti konfigurace související s vektorovými vyhledáváními.
Name | Typ | Description |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Obsahuje možnosti konfigurace specifické pro algoritmus použitý během indexování nebo dotazování. |
compressions | VectorSearchCompressionConfiguration[]: |
Obsahuje možnosti konfigurace specifické pro metodu komprese použitou během indexování nebo dotazování. |
profiles |
Definuje kombinace konfigurací pro použití s vektorovým vyhledáváním. |
|
vectorizers | VectorSearchVectorizer[]: |
Obsahuje možnosti konfigurace vektorizace dotazů vektorů textu. |
VectorSearchAlgorithmKind
Algoritmus použitý pro indexování a dotazování.
Name | Typ | Description |
---|---|---|
exhaustiveKnn |
string |
Vyčerpávající algoritmus KNN, který bude provádět vyhledávání hrubou silou. |
hnsw |
string |
HNSW (Hierarchical Navigable Small World), typ algoritmu přibližných nejbližších sousedů. |
VectorSearchAlgorithmMetric
Metrika podobnosti, která se má použít pro porovnání vektorů. Doporučujeme zvolit stejnou metriku podobnosti, na které byl model vkládání trénován.
Name | Typ | Description |
---|---|---|
cosine |
string |
Měří úhel mezi vektory a kvantifikuje jejich podobnost bez ohledu na velikost. Čím menší úhel, tím blíže je podobnost. |
dotProduct |
string |
Vypočítá součet prvků součinů pro měření zarovnání a podobnosti velikosti. Čím větší a pozitivnější, tím blíže je podobnost. |
euclidean |
string |
Vypočítá vzdálenost přímky mezi vektory v multidimenzionálním prostoru. Čím menší je vzdálenost, tím blíže podobnost. |
hamming |
string |
Platí pouze pro bitové binární datové typy. Určuje rozdílnost počítáním různých pozic v binárních vektorech. Čím méně rozdílů, tím blíže podobnosti. |
VectorSearchCompressionKind
Metoda komprese používaná k indexování a dotazování.
Name | Typ | Description |
---|---|---|
scalarQuantization |
string |
Skalární kvantování, typ metody komprese. Při skalárním kvantování se hodnoty původních vektorů komprimují na užší typ diskretizací a reprezentací každé komponenty vektoru pomocí redukované sady kvantovaných hodnot, čímž se zmenší celková velikost dat. |
VectorSearchCompressionTargetDataType
Kvantovaný datový typ hodnot komprimovaných vektorů.
Name | Typ | Description |
---|---|---|
int8 |
string |
VectorSearchProfile
Definuje kombinaci konfigurací pro použití s vektorovým vyhledáváním.
Name | Typ | Description |
---|---|---|
algorithm |
string |
Název konfigurace algoritmu vektorového vyhledávání, který určuje algoritmus a volitelné parametry. |
compression |
string |
Název konfigurace metody komprese, která určuje metodu komprese a volitelné parametry. |
name |
string |
Název, který chcete přidružit k tomuto konkrétnímu profilu vektorového vyhledávání. |
vectorizer |
string |
Název typu metody vektorizace konfigurované pro použití s vektorovým vyhledáváním. |
VectorSearchVectorizerKind
Metoda vektorizace, která se má použít během doby dotazu.
Name | Typ | Description |
---|---|---|
aiServicesVision |
string |
Generování vložení obrázku nebo textového vstupu v době dotazu pomocí rozhraní API Vision Vectorize služeb Azure AI. |
aml |
string |
Generování vkládání pomocí koncového bodu služby Azure Machine Learning nasazeného prostřednictvím katalogu modelů Azure AI Studio v době dotazu |
azureOpenAI |
string |
Generování vkládání pomocí prostředku Azure OpenAI v době dotazu |
customWebApi |
string |
Generování vkládání pomocí vlastního webového koncového bodu v době dotazu |
WordDelimiterTokenFilter
Rozdělí slova na podsloví a provede volitelné transformace skupin podseloví. Tento filtr tokenů se implementuje pomocí Apache Lucene.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
catenateAll |
boolean |
False |
Hodnota označující, zda budou všechny části podslovu catenovány. Pokud je například nastavená hodnota true, azure-Search-1 se změní na AzureSearch1. Výchozí hodnota je false. |
catenateNumbers |
boolean |
False |
Hodnota označující, zda bude maximální počet spuštění číselných částí catenován. Pokud je například nastavená hodnota true, hodnota 1-2 se změní na 12. Výchozí hodnota je false. |
catenateWords |
boolean |
False |
Hodnota označující, zda bude maximální počet spuštění slovních částí očekávkován. Pokud je například nastavená hodnota true, azure-Search se změní na AzureSearch. Výchozí hodnota je false. |
generateNumberParts |
boolean |
True |
Hodnota označující, zda se mají generovat číselné podwords. Platí výchozí hodnota. |
generateWordParts |
boolean |
True |
Hodnota označující, zda se mají generovat slova části. Je-li nastaven, způsobí, části slov být generovány; Například "AzureSearch" se změní na "Azure" "Search". Platí výchozí hodnota. |
name |
string |
Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků. |
|
preserveOriginal |
boolean |
False |
Hodnota označující, zda budou původní slova zachována a přidána do seznamu podseznamů. Výchozí hodnota je false. |
protectedWords |
string[] |
Seznam tokenů, které chcete chránit před oddělovači. |
|
splitOnCaseChange |
boolean |
True |
Hodnota označující, zda rozdělit slova na caseChange. Pokud je například nastavená hodnota true, azureSearch se změní na Azure Search. Platí výchozí hodnota. |
splitOnNumerics |
boolean |
True |
Hodnota označující, jestli se má rozdělit podle čísel. Pokud je například nastavená hodnota true, Azure1Search se změní na Azure 1 a Search. Platí výchozí hodnota. |
stemEnglishPossessive |
boolean |
True |
Hodnota označující, jestli se má pro každé podslovo odebrat koncové "'s". Platí výchozí hodnota. |