Indexes - Create Or Update
Skapar ett nytt sökindex eller uppdaterar ett index om det redan finns.
PUT {endpoint}/indexes('{indexName}')?api-version=2023-10-01-Preview
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2023-10-01-Preview
URI-parametrar
Name | I | Obligatorisk | Typ | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
Slutpunkts-URL:en för söktjänsten. |
index
|
path | True |
string |
Definitionen av indexet som ska skapas eller uppdateras. |
api-version
|
query | True |
string |
Klient-API-version. |
allow
|
query |
boolean |
Gör att nya analysverktyg, tokeniserare, tokenfilter eller teckenfilter kan läggas till i ett index genom att indexet kopplas från i minst några sekunder. Detta gör tillfälligt att indexering och frågebegäranden misslyckas. Indexets prestanda- och skrivtillgänglighet kan försämras i flera minuter efter att indexet har uppdaterats eller längre för mycket stora index. |
Begärandehuvud
Name | Obligatorisk | Typ | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Spårnings-ID:t som skickas med begäran för att hjälpa till med felsökning. |
|
If-Match |
string |
Definierar villkoret If-Match. Åtgärden utförs endast om ETag på servern matchar det här värdet. |
|
If-None-Match |
string |
Definierar villkoret If-None-Match. Åtgärden utförs endast om ETag på servern inte matchar det här värdet. |
|
Prefer | True |
string |
För HTTP PUT-begäranden instruerar tjänsten att returnera den skapade/uppdaterade resursen när den lyckas. |
Begärandetext
Name | Obligatorisk | Typ | Description |
---|---|---|---|
fields | True |
Fälten i indexet. |
|
name | True |
string |
Namnet på indexet. |
@odata.etag |
string |
ETag för indexet. |
|
analyzers | LexicalAnalyzer[]: |
Analysverktygen för indexet. |
|
charFilters | CharFilter[]: |
Tecknet filtrerar för indexet. |
|
corsOptions |
Alternativ för att styra resursdelning för korsande ursprung (CORS) för indexet. |
||
defaultScoringProfile |
string |
Namnet på den bedömningsprofil som ska användas om ingen anges i frågan. Om den här egenskapen inte har angetts och ingen bedömningsprofil anges i frågan används standardbedömningen (tf-idf). |
|
encryptionKey |
En beskrivning av en krypteringsnyckel som du skapar i Azure Key Vault. Den här nyckeln används för att ge ytterligare kryptering i vila för dina data när du vill ha fullständig säkerhet om att ingen, inte ens Microsoft, kan dekryptera dina data. När du har krypterat dina data förblir de alltid krypterade. Söktjänsten ignorerar försök att ange den här egenskapen till null. Du kan ändra den här egenskapen efter behov om du vill rotera krypteringsnyckeln. Dina data påverkas inte. Kryptering med kundhanterade nycklar är inte tillgängligt för kostnadsfria söktjänster och är endast tillgängligt för betaltjänster som skapats den 1 januari 2019 eller senare. |
||
normalizers | LexicalNormalizer[]: |
Normalizers för indexet. |
|
scoringProfiles |
Bedömningsprofilerna för indexet. |
||
semantic |
Definierar parametrar för ett sökindex som påverkar semantiska funktioner. |
||
similarity | Similarity: |
Den typ av likhetsalgoritm som ska användas vid bedömning och rangordning av dokument som matchar en sökfråga. Likhetsalgoritmen kan bara definieras när index skapas och kan inte ändras i befintliga index. Om det är null används ClassicSimilarity-algoritmen. |
|
suggesters |
Förslagsarbetarna för indexet. |
||
tokenFilters |
TokenFilter[]:
|
Tokenfiltren för indexet. |
|
tokenizers | LexicalTokenizer[]: |
Tokenizers för indexet. |
|
vectorSearch |
Innehåller konfigurationsalternativ relaterade till vektorsökning. |
Svar
Name | Typ | Description |
---|---|---|
200 OK | ||
201 Created | ||
Other Status Codes |
Felsvar. |
Exempel
SearchServiceCreateOrUpdateIndex
Exempelbegäran
PUT https://myservice.search.windows.net/indexes('hotels')?allowIndexDowntime=False&api-version=2023-10-01-Preview
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine",
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey"
}
}
]
}
}
Exempelsvar
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": null,
"b": null
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myKeyName",
"keyVaultKeyVersion": "myKeyVersion",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"semantic": {
"defaultConfiguration": null,
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey",
"authIdentity": null
}
}
]
}
}
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2",
"tokenFilters": []
}
],
"normalizers": [],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"semantic": {
"defaultConfiguration": null,
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey",
"authIdentity": null
}
}
]
}
}
Definitioner
Name | Description |
---|---|
Ascii |
Konverterar alfabetiska, numeriska och symboliska Unicode-tecken som inte finns i de första 127 ASCII-tecknen (Unicode-blocket "Basic Latin" ) till deras ASCII-motsvarigheter, om sådana motsvarigheter finns. Det här tokenfiltret implementeras med Apache Lucene. |
Azure |
Autentiseringsuppgifter för ett registrerat program som skapats för din söktjänst och som används för autentiserad åtkomst till krypteringsnycklarna som lagras i Azure Key Vault. |
Azure |
Anger parametrarna för att ansluta till Azure OpenAI-resursen. |
Azure |
Anger den Azure OpenAI-resurs som används för att vektorisera en frågesträng. |
BM25Similarity |
Rankningsfunktion baserad på Okapi BM25-likhetsalgoritmen. BM25 är en TF-IDF-liknande algoritm som innehåller längdnormalisering (styrs av parametern b) samt termfrekvensmättnad (styrs av parametern k1). |
Char |
Definierar namnen på alla teckenfilter som stöds av sökmotorn. |
Cjk |
Bildar bigrams av CJK-termer som genereras från standardtokeniseraren. Det här tokenfiltret implementeras med Apache Lucene. |
Cjk |
Skript som kan ignoreras av CjkBigramTokenFilter. |
Classic |
Äldre likhetsalgoritm som använder Lucene TFIDFSimilarity-implementeringen av TF-IDF. Den här varianten av TF-IDF introducerar normalisering av statisk dokumentlängd samt koordineringsfaktorer som straffar dokument som endast delvis matchar de sökta frågorna. |
Classic |
Grammatikbaserad tokeniserare som lämpar sig för bearbetning av de flesta europeiska dokument. Denna tokenizer implementeras med Apache Lucene. |
Common |
Skapa bigrams för ofta förekommande termer vid indexering. Enkla termer indexeras fortfarande också, med bigrams överlagrade. Det här tokenfiltret implementeras med Apache Lucene. |
Cors |
Definierar alternativ för att styra resursdelning för korsande ursprung (CORS) för ett index. |
Custom |
Gör att du kan ta kontroll över processen att konvertera text till indexerbara/sökbara token. Det är en användardefinierad konfiguration som består av en enda fördefinierad tokenizer och ett eller flera filter. Tokenizern ansvarar för att dela upp text i token och filter för att ändra token som genereras av tokenizern. |
Custom |
Gör att du kan konfigurera normalisering för filterbara, sorterbara och fasettbara fält, som som standard fungerar med strikt matchning. Det här är en användardefinierad konfiguration som består av minst ett eller flera filter som ändrar den token som lagras. |
Custom |
Anger en användardefinierad vektoriserare för att generera vektorbäddning av en frågesträng. Integrering av en extern vektoriserare uppnås med hjälp av det anpassade webb-API-gränssnittet för en kompetensuppsättning. |
Custom |
Anger egenskaperna för att ansluta till en användardefinierad vektoriserare. |
Dictionary |
Sönderdelar sammansatta ord som finns på många germanska språk. Det här tokenfiltret implementeras med Apache Lucene. |
Distance |
Definierar en funktion som ökar poängen baserat på avståndet från en geografisk plats. |
Distance |
Ger parametervärden till en avståndsbedömningsfunktion. |
Edge |
Genererar n-gram av de angivna storlekarna med början framifrån eller baksidan av en indatatoken. Det här tokenfiltret implementeras med Apache Lucene. |
Edge |
Anger vilken sida av indata som ett n-gram ska genereras från. |
Edge |
Genererar n-gram av den eller de angivna storlekarna med början framifrån eller baksidan av en indatatoken. Det här tokenfiltret implementeras med Apache Lucene. |
Edge |
Tokeniserar indata från en kant till n-gram av de angivna storlekarna. Denna tokenizer implementeras med Apache Lucene. |
Elision |
Tar bort elisions. Till exempel konverteras "l'avion" (planet) till "avion" (plan). Det här tokenfiltret implementeras med Apache Lucene. |
Exhaustive |
Innehåller parametrarna som är specifika för en fullständig KNN-algoritm. |
Exhaustive |
Innehåller konfigurationsalternativ som är specifika för den fullständiga KNN-algoritmen som används vid frågor, som utför råstyrkesökning i hela vektorindexet. |
Freshness |
Definierar en funktion som ökar poängen baserat på värdet för ett datum/tid-fält. |
Freshness |
Ger parametervärden till en funktion för färskhetsbedömning. |
Hnsw |
Innehåller de parametrar som är specifika för HNSW-algoritmen. |
Hnsw |
Innehåller konfigurationsalternativ som är specifika för den ungefärliga algoritmen för närmaste grannar för HNSW som används vid indexering och frågor. HNSW-algoritmen erbjuder en justerbar kompromiss mellan sökhastighet och noggrannhet. |
Keep |
Ett tokenfilter som endast behåller token med text som finns i en angiven lista med ord. Det här tokenfiltret implementeras med Apache Lucene. |
Keyword |
Markerar termer som nyckelord. Det här tokenfiltret implementeras med Apache Lucene. |
Keyword |
Genererar hela indata som en enda token. Denna tokenizer implementeras med Apache Lucene. |
Keyword |
Genererar hela indata som en enda token. Denna tokenizer implementeras med Apache Lucene. |
Length |
Tar bort ord som är för långa eller för korta. Det här tokenfiltret implementeras med Apache Lucene. |
Lexical |
Definierar namnen på alla textanalysverktyg som stöds av sökmotorn. |
Lexical |
Definierar namnen på alla textnormaliserare som stöds av sökmotorn. |
Lexical |
Definierar namnen på alla tokenizers som stöds av sökmotorn. |
Limit |
Begränsar antalet token vid indexering. Det här tokenfiltret implementeras med Apache Lucene. |
Lucene |
Standard Apache Lucene analyzer; Består av standardtokeniseraren, gemener och stoppfilter. |
Lucene |
Bryter text efter Unicode-reglerna för textsegmentering. Den här tokeniseraren implementeras med Apache Lucene. |
Lucene |
Bryter text efter Unicode-reglerna för textsegmentering. Den här tokeniseraren implementeras med Apache Lucene. |
Magnitude |
Definierar en funktion som ökar poängen baserat på storleken på ett numeriskt fält. |
Magnitude |
Ger parametervärden till en funktion för storleksbedömning. |
Mapping |
Ett teckenfilter som tillämpar mappningar som definierats med mappningsalternativet. Matchningen är girig (den längsta mönstermatchningen vid en viss tidpunkt vinner). Ersättning tillåts vara den tomma strängen. Det här teckenfiltret implementeras med Apache Lucene. |
Microsoft |
Delar upp text med hjälp av språkspecifika regler och minskar ord till sina basformulär. |
Microsoft |
Delar upp text med språkspecifika regler. |
Microsoft |
Listor de språk som stöds av microsofts språk som ordstamstokeniserare. |
Microsoft |
Listor de språk som stöds av Microsofts språktokeniserare. |
NGram |
Genererar n-gram av den eller de angivna storlekarna. Det här tokenfiltret implementeras med Apache Lucene. |
NGram |
Genererar n-gram av den eller de angivna storlekarna. Det här tokenfiltret implementeras med Apache Lucene. |
NGram |
Tokeniserar indata till n-gram av de angivna storlekarna. Denna tokenizer implementeras med Apache Lucene. |
Path |
Tokenizer för sökvägsliknande hierarkier. Denna tokenizer implementeras med Apache Lucene. |
Pattern |
Separerar text flexibelt i termer via ett mönster för reguljära uttryck. Den här analysatorn implementeras med Apache Lucene. |
Pattern |
Använder Java-regex för att generera flera token – en för varje avbildningsgrupp i ett eller flera mönster. Det här tokenfiltret implementeras med Apache Lucene. |
Pattern |
Ett teckenfilter som ersätter tecken i indatasträngen. Det använder ett reguljärt uttryck för att identifiera teckensekvenser för att bevara och ett ersättningsmönster för att identifiera tecken som ska ersättas. Om du till exempel ser indatatexten "aa bb aa bb", mönstret "(aa)\s+(bb)" och ersättningen "$1#$2" blir resultatet "aa#bb aa#bb". Det här teckenfiltret implementeras med Apache Lucene. |
Pattern |
Ett teckenfilter som ersätter tecken i indatasträngen. Det använder ett reguljärt uttryck för att identifiera teckensekvenser för att bevara och ett ersättningsmönster för att identifiera tecken som ska ersättas. Om du till exempel ser indatatexten "aa bb aa bb", mönstret "(aa)\s+(bb)" och ersättningen "$1#$2" blir resultatet "aa#bb aa#bb". Det här tokenfiltret implementeras med Apache Lucene. |
Pattern |
Tokeniserare som använder regex-mönstermatchning för att skapa distinkta token. Den här tokeniseraren implementeras med Apache Lucene. |
Phonetic |
Identifierar typen av fonetikkodare som ska användas med ett PhoneticTokenFilter. |
Phonetic |
Skapa token för fonetiska matchningar. Det här tokenfiltret implementeras med Apache Lucene. |
Prioritized |
Beskriver fälten för rubrik, innehåll och nyckelord som ska användas för semantisk rangordning, undertexter, markeringar och svar. |
Regex |
Definierar flaggor som kan kombineras för att styra hur reguljära uttryck används i mönsteranalys och mönstertokeniserare. |
Scoring |
Definierar den sammansättningsfunktion som används för att kombinera resultaten från alla bedömningsfunktioner i en bedömningsprofil. |
Scoring |
Definierar den funktion som används för att interpolera poänghöjande för en rad olika dokument. |
Scoring |
Definierar parametrar för ett sökindex som påverkar bedömning i sökfrågor. |
Search |
Beskriver ett felvillkor för API:et. |
Search |
Representerar ett fält i en indexdefinition som beskriver namn, datatyp och sökbeteende för ett fält. |
Search |
Definierar datatypen för ett fält i ett sökindex. |
Search |
Representerar en sökindexdefinition som beskriver fälten och sökbeteendet för ett index. |
Search |
Rensar identitetsegenskapen för en datakälla. |
Search |
Anger identiteten för en datakälla som ska användas. |
Search |
En kundhanterad krypteringsnyckel i Azure Key Vault. Nycklar som du skapar och hanterar kan användas för att kryptera eller dekryptera vilande data, till exempel index och synonymmappningar. |
Semantic |
Definierar en specifik konfiguration som ska användas i kontexten för semantiska funktioner. |
Semantic |
Ett fält som används som en del av den semantiska konfigurationen. |
Semantic |
Definierar parametrar för ett sökindex som påverkar semantiska funktioner. |
Shingle |
Skapar kombinationer av token som en enda token. Det här tokenfiltret implementeras med Apache Lucene. |
Snowball |
Ett filter som stjälkar ord med hjälp av en Snowball-genererad stemmer. Det här tokenfiltret implementeras med Apache Lucene. |
Snowball |
Det språk som ska användas för ett Snowball-tokenfilter. |
Stemmer |
Ger möjlighet att åsidosätta andra härdningsfilter med anpassad ordlistebaserad härdning. Ordlisteskaftade termer markeras som nyckelord så att de inte kommer att stoppas med stemmers längre ned i kedjan. Måste placeras före eventuella härdningsfilter. Det här tokenfiltret implementeras med Apache Lucene. |
Stemmer |
Språkspecifikt härdningsfilter. Det här tokenfiltret implementeras med Apache Lucene. |
Stemmer |
Det språk som ska användas för ett stemmer-tokenfilter. |
Stop |
Delar upp text med icke-bokstäver; Använder tokenfiltren med gemener och stoppord. Den här analysatorn implementeras med Apache Lucene. |
Stopwords |
Identifierar en fördefinierad lista över språkspecifika stoppord. |
Stopwords |
Tar bort stoppord från en tokenström. Det här tokenfiltret implementeras med Apache Lucene. |
Suggester |
Definierar hur API:et Föreslå ska tillämpas på en grupp med fält i indexet. |
Suggester |
Ett värde som anger förslagsverktygets funktioner. |
Synonym |
Matchar synonymer med en eller flera ord i en tokenström. Det här tokenfiltret implementeras med Apache Lucene. |
Tag |
Definierar en funktion som ökar poängen med dokument med strängvärden som matchar en viss lista med taggar. |
Tag |
Tillhandahåller parametervärden till en taggbedömningsfunktion. |
Text |
Definierar vikter för indexfält för vilka matchningar ska öka poängsättningen i sökfrågor. |
Token |
Representerar klasser med tecken som ett tokenfilter kan använda. |
Token |
Definierar namnen på alla tokenfilter som stöds av sökmotorn. |
Truncate |
Trunkerar termerna till en viss längd. Det här tokenfiltret implementeras med Apache Lucene. |
Uax |
Tokeniserar URL:ar och e-postmeddelanden som en token. Den här tokeniseraren implementeras med Apache Lucene. |
Unique |
Filtrerar bort token med samma text som föregående token. Det här tokenfiltret implementeras med Apache Lucene. |
Vector |
Innehåller konfigurationsalternativ relaterade till vektorsökning. |
Vector |
Algoritmen som används för indexering och frågor. |
Vector |
Likhetsmåttet som ska användas för vektorjämförelser. |
Vector |
Definierar en kombination av konfigurationer som ska användas med vektorsökning. |
Vector |
Den vektoriseringsmetod som ska användas under frågetiden. |
Word |
Delar upp ord i underord och utför valfria transformeringar i underordsgrupper. Det här tokenfiltret implementeras med Apache Lucene. |
AsciiFoldingTokenFilter
Konverterar alfabetiska, numeriska och symboliska Unicode-tecken som inte finns i de första 127 ASCII-tecknen (Unicode-blocket "Basic Latin" ) till deras ASCII-motsvarigheter, om sådana motsvarigheter finns. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
preserveOriginal |
boolean |
False |
Ett värde som anger om den ursprungliga token ska behållas. Standardvärdet är false. |
AzureActiveDirectoryApplicationCredentials
Autentiseringsuppgifter för ett registrerat program som skapats för din söktjänst och som används för autentiserad åtkomst till krypteringsnycklarna som lagras i Azure Key Vault.
Name | Typ | Description |
---|---|---|
applicationId |
string |
Ett AAD-program-ID som har beviljats nödvändiga åtkomstbehörigheter till Azure-Key Vault som ska användas vid kryptering av vilande data. Program-ID:t ska inte förväxlas med objekt-ID:t för ditt AAD-program. |
applicationSecret |
string |
Autentiseringsnyckeln för det angivna AAD-programmet. |
AzureOpenAIParameters
Anger parametrarna för att ansluta till Azure OpenAI-resursen.
Name | Typ | Description |
---|---|---|
apiKey |
string |
API-nyckeln för den avsedda Azure OpenAI-resursen. |
authIdentity | SearchIndexerDataIdentity: |
Den användartilldelade hanterade identiteten som används för utgående anslutningar. |
deploymentId |
string |
ID för Azure OpenAI-modelldistributionen på den avsedda resursen. |
resourceUri |
string |
Resurs-URI för Azure OpenAI-resursen. |
AzureOpenAIVectorizer
Anger den Azure OpenAI-resurs som används för att vektorisera en frågesträng.
Name | Typ | Description |
---|---|---|
azureOpenAIParameters |
Innehåller de parametrar som är specifika för Azure OpenAI-inbäddningsvektorisering. |
|
kind |
string:
azure |
Namnet på den typ av vektoriseringsmetod som konfigureras för användning med vektorsökning. |
name |
string |
Namnet som ska associeras med den här specifika vektoriseringsmetoden. |
BM25Similarity
Rankningsfunktion baserad på Okapi BM25-likhetsalgoritmen. BM25 är en TF-IDF-liknande algoritm som innehåller längdnormalisering (styrs av parametern b) samt termfrekvensmättnad (styrs av parametern k1).
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Den här egenskapen styr hur längden på ett dokument påverkar relevanspoängen. Som standard används värdet 0,75. Värdet 0,0 innebär att ingen längdnormalisering tillämpas, medan värdet 1,0 innebär att poängen normaliseras helt av dokumentets längd. |
k1 |
number |
Den här egenskapen styr skalningsfunktionen mellan termfrekvensen för varje matchande termer och den slutliga relevanspoängen för ett dokumentfrågepar. Som standard används värdet 1.2. Värdet 0,0 innebär att poängen inte skalas med en ökning av termfrekvensen. |
CharFilterName
Definierar namnen på alla teckenfilter som stöds av sökmotorn.
Name | Typ | Description |
---|---|---|
html_strip |
string |
Ett teckenfilter som försöker ta bort HTML-konstruktioner. Se https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Bildar bigrams av CJK-termer som genereras från standardtokeniseraren. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
ignoreScripts |
Skripten som ska ignoreras. |
||
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
outputUnigrams |
boolean |
False |
Ett värde som anger om du vill mata ut både unigram och bigrams (om det är sant) eller bara bigrams (om falskt). Standardvärdet är false. |
CjkBigramTokenFilterScripts
Skript som kan ignoreras av CjkBigramTokenFilter.
Name | Typ | Description |
---|---|---|
han |
string |
Ignorera Han-skript när du bildar bigrams av CJK-termer. |
hangul |
string |
Ignorera Hangul-skript när du bildar bigrams av CJK-termer. |
hiragana |
string |
Ignorera Hiragana-skript när du bildar bigrams av CJK-termer. |
katakana |
string |
Ignorera Katakana-skript när du bildar bigrams av CJK-termer. |
ClassicSimilarity
Äldre likhetsalgoritm som använder Lucene TFIDFSimilarity-implementeringen av TF-IDF. Den här varianten av TF-IDF introducerar normalisering av statisk dokumentlängd samt koordineringsfaktorer som straffar dokument som endast delvis matchar de sökta frågorna.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Grammatikbaserad tokeniserare som lämpar sig för bearbetning av de flesta europeiska dokument. Denna tokenizer implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenizer. |
|
maxTokenLength |
integer |
255 |
Maximal tokenlängd. Standardvärdet är 255. Token som är längre än den maximala längden delas upp. Den maximala tokenlängden som kan användas är 300 tecken. |
name |
string |
Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
CommonGramTokenFilter
Skapa bigrams för ofta förekommande termer vid indexering. Enkla termer indexeras fortfarande också, med bigrams överlagrade. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
commonWords |
string[] |
Uppsättningen vanliga ord. |
|
ignoreCase |
boolean |
False |
Ett värde som anger om vanliga ord som matchar är skiftlägesokänsliga. Standardvärdet är false. |
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
queryMode |
boolean |
False |
Ett värde som anger om tokenfiltret är i frågeläge. I frågeläge genererar tokenfiltret bigrams och tar sedan bort vanliga ord och enkla termer följt av ett vanligt ord. Standardvärdet är false. |
CorsOptions
Definierar alternativ för att styra resursdelning för korsande ursprung (CORS) för ett index.
Name | Typ | Description |
---|---|---|
allowedOrigins |
string[] |
Listan över ursprung som JavaScript-kod kommer att beviljas åtkomst till ditt index från. Kan innehålla en lista över värdar i formuläret {protocol}://{fully-qualified-domain-name}[:{port#}], eller en enda '*' för att tillåta alla ursprung (rekommenderas inte). |
maxAgeInSeconds |
integer |
Hur länge webbläsare ska cachelagrar CORS-förhandsbelysningssvar. Standardvärdet är 5 minuter. |
CustomAnalyzer
Gör att du kan ta kontroll över processen att konvertera text till indexerbara/sökbara token. Det är en användardefinierad konfiguration som består av en enda fördefinierad tokenizer och ett eller flera filter. Tokenizern ansvarar för att dela upp text i token och filter för att ändra token som genereras av tokenizern.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av analysverktyg. |
charFilters |
En lista över teckenfilter som används för att förbereda indatatext innan den bearbetas av tokenizern. De kan till exempel ersätta vissa tecken eller symboler. Filtren körs i den ordning som de visas. |
|
name |
string |
Namnet på analysatorn. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
tokenFilters |
En lista över tokenfilter som används för att filtrera bort eller ändra de token som genereras av en tokenizer. Du kan till exempel ange ett filter med gemener som konverterar alla tecken till gemener. Filtren körs i den ordning som de visas. |
|
tokenizer |
Namnet på tokenizern som ska användas för att dela upp kontinuerlig text i en sekvens med token, till exempel att dela upp en mening i ord. |
CustomNormalizer
Gör att du kan konfigurera normalisering för filterbara, sorterbara och fasettbara fält, som som standard fungerar med strikt matchning. Det här är en användardefinierad konfiguration som består av minst ett eller flera filter som ändrar den token som lagras.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av normaliserare. |
charFilters |
En lista med teckenfilter som används för att förbereda indatatext innan den bearbetas. De kan till exempel ersätta vissa tecken eller symboler. Filtren körs i den ordning som de visas. |
|
name |
string |
Namnet på normaliseraren. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. Det får inte sluta med ".microsoft" eller ".lucene", och får inte heller heta "asciifolding", "standard", "gemener", "versaler" eller "elision". |
tokenFilters |
En lista över tokenfilter som används för att filtrera bort eller ändra indatatoken. Du kan till exempel ange ett filter med gemener som konverterar alla tecken till gemener. Filtren körs i den ordning som de visas. |
CustomVectorizer
Anger en användardefinierad vektoriserare för att generera vektorbäddning av en frågesträng. Integrering av en extern vektoriserare uppnås med hjälp av det anpassade webb-API-gränssnittet för en kompetensuppsättning.
Name | Typ | Description |
---|---|---|
customWebApiParameters |
Anger egenskaperna för den användardefinierade vektoriseraren. |
|
kind |
string:
custom |
Namnet på den typ av vektoriseringsmetod som konfigureras för användning med vektorsökning. |
name |
string |
Namnet som ska associeras med den här specifika vektoriseringsmetoden. |
CustomWebApiParameters
Anger egenskaperna för att ansluta till en användardefinierad vektoriserare.
Name | Typ | Description |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
Den användartilldelade hanterade identiteten som används för utgående anslutningar. Om ett authResourceId anges och det inte anges används den systemtilldelade hanterade identiteten. Vid uppdateringar av indexeraren, om identiteten är ospecificerad, förblir värdet oförändrat. Om värdet är "none" rensas värdet för den här egenskapen. |
authResourceId |
string |
Gäller för anpassade slutpunkter som ansluter till extern kod i en Azure-funktion eller något annat program som tillhandahåller transformeringarna. Det här värdet ska vara det program-ID som skapades för funktionen eller appen när den registrerades med Azure Active Directory. När detta anges ansluter vektoriseringen till funktionen eller appen med hjälp av ett hanterat ID (antingen system eller användartilldelat) för söktjänsten och åtkomsttoken för funktionen eller appen, med det här värdet som resurs-ID för att skapa åtkomsttokens omfång. |
httpHeaders |
object |
De huvuden som krävs för att göra HTTP-begäran. |
httpMethod |
string |
Metoden för HTTP-begäran. |
timeout |
string |
Önskad tidsgräns för begäran. Standardvärdet är 30 sekunder. |
uri |
string |
URI:n för webb-API:et som tillhandahåller vektoriseraren. |
DictionaryDecompounderTokenFilter
Sönderdelar sammansatta ord som finns på många germanska språk. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
maxSubwordSize |
integer |
15 |
Den maximala underordsstorleken. Endast underord som är kortare än detta matas ut. Standardvärdet är 15. Max är 300. |
minSubwordSize |
integer |
2 |
Minsta underordsstorlek. Endast underord längre än detta matas ut. Standardvärdet är 2. Max är 300. |
minWordSize |
integer |
5 |
Minsta ordstorlek. Endast ord som är längre än detta bearbetas. Standardvärdet är 5. Max är 300. |
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
onlyLongestMatch |
boolean |
False |
Ett värde som anger om du bara vill lägga till det längsta matchande underordet i utdata. Standardvärdet är false. |
wordList |
string[] |
Listan med ord att matcha mot. |
DistanceScoringFunction
Definierar en funktion som ökar poängen baserat på avståndet från en geografisk plats.
Name | Typ | Description |
---|---|---|
boost |
number |
En multiplikator för råpoängen. Måste vara ett positivt tal som inte är lika med 1,0. |
distance |
Parametervärden för funktionen för avståndsbedömning. |
|
fieldName |
string |
Namnet på det fält som används som indata till bedömningsfunktionen. |
interpolation |
Ett värde som anger hur ökning kommer att interpoleras mellan dokumentpoäng; standardvärdet är "Linjär". |
|
type |
string:
distance |
Anger vilken typ av funktion som ska användas. Giltiga värden är bland annat storlek, aktualitet, avstånd och tagg. Funktionstypen måste vara gemen. |
DistanceScoringParameters
Ger parametervärden till en avståndsbedömningsfunktion.
Name | Typ | Description |
---|---|---|
boostingDistance |
number |
Avståndet i kilometer från referensplatsen där ökningsintervallet slutar. |
referencePointParameter |
string |
Namnet på parametern som skickades i sökfrågor för att ange referensplatsen. |
EdgeNGramTokenFilter
Genererar n-gram av de angivna storlekarna med början framifrån eller baksidan av en indatatoken. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
maxGram |
integer |
2 |
Den maximala n-gramlängden. Standardvärdet är 2. |
minGram |
integer |
1 |
Minsta n-gramlängd. Standardvärdet är 1. Måste vara mindre än värdet för maxGram. |
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
side | front |
Anger vilken sida av indata som n-gram ska genereras från. Standardvärdet är "front". |
EdgeNGramTokenFilterSide
Anger vilken sida av indata som ett n-gram ska genereras från.
Name | Typ | Description |
---|---|---|
back |
string |
Anger att n-gram ska genereras från baksidan av indata. |
front |
string |
Anger att n-gram ska genereras framifrån indata. |
EdgeNGramTokenFilterV2
Genererar n-gram av den eller de angivna storlekarna med början framifrån eller baksidan av en indatatoken. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
maxGram |
integer |
2 |
Maximal längd på n-gram. Standardvärdet är 2. Maxvärdet är 300. |
minGram |
integer |
1 |
Minsta längd på n-gram. Standardvärdet är 1. Maxvärdet är 300. Måste vara mindre än värdet för maxGram. |
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
side | front |
Anger vilken sida av indata som n-gram ska genereras från. Standardvärdet är "front". |
EdgeNGramTokenizer
Tokeniserar indata från en kant till n-gram av de angivna storlekarna. Denna tokenizer implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenizer. |
|
maxGram |
integer |
2 |
Maximal längd på n-gram. Standardvärdet är 2. Maxvärdet är 300. |
minGram |
integer |
1 |
Minsta längd på n-gram. Standardvärdet är 1. Maxvärdet är 300. Måste vara mindre än värdet för maxGram. |
name |
string |
Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
tokenChars |
Teckenklasser som ska behållas i token. |
ElisionTokenFilter
Tar bort elisions. Till exempel konverteras "l'avion" (planet) till "avion" (plan). Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
articles |
string[] |
Den uppsättning artiklar som ska tas bort. |
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
ExhaustiveKnnParameters
Innehåller parametrarna som är specifika för en fullständig KNN-algoritm.
Name | Typ | Description |
---|---|---|
metric |
Likhetsmåttet som ska användas för vektorjämförelser. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Innehåller konfigurationsalternativ som är specifika för den fullständiga KNN-algoritmen som används vid frågor, som utför råstyrkesökning i hela vektorindexet.
Name | Typ | Description |
---|---|---|
exhaustiveKnnParameters |
Innehåller parametrarna som är specifika för en fullständig KNN-algoritm. |
|
kind |
string:
exhaustive |
Namnet på den typ av algoritm som konfigureras för användning med vektorsökning. |
name |
string |
Namnet som ska associeras med den här konfigurationen. |
FreshnessScoringFunction
Definierar en funktion som ökar poängen baserat på värdet för ett datum/tid-fält.
Name | Typ | Description |
---|---|---|
boost |
number |
En multiplikator för råpoängen. Måste vara ett positivt tal som inte är lika med 1,0. |
fieldName |
string |
Namnet på det fält som används som indata till bedömningsfunktionen. |
freshness |
Parametervärden för funktionen för färskhetsbedömning. |
|
interpolation |
Ett värde som anger hur ökning kommer att interpoleras mellan dokumentpoäng; standardvärdet är "Linjär". |
|
type |
string:
freshness |
Anger vilken typ av funktion som ska användas. Giltiga värden är bland annat storlek, aktualitet, avstånd och tagg. Funktionstypen måste vara gemen. |
FreshnessScoringParameters
Ger parametervärden till en funktion för färskhetsbedömning.
Name | Typ | Description |
---|---|---|
boostingDuration |
string |
Förfalloperioden efter vilken en ökning kommer att upphöra för ett visst dokument. |
HnswParameters
Innehåller de parametrar som är specifika för HNSW-algoritmen.
Name | Typ | Standardvärde | Description |
---|---|---|---|
efConstruction |
integer |
400 |
Storleken på den dynamiska listan som innehåller närmaste grannar, som används under indextiden. Om du ökar den här parametern kan indexkvaliteten förbättras på bekostnad av den ökade indexeringstiden. Vid en viss tidpunkt leder en ökning av den här parametern till minskande avkastning. |
efSearch |
integer |
500 |
Storleken på den dynamiska listan som innehåller närmaste grannar, som används under söktiden. Om du ökar den här parametern kan sökresultaten förbättras på bekostnad av långsammare sökning. Vid en viss tidpunkt leder en ökning av den här parametern till minskande avkastning. |
m |
integer |
4 |
Antalet dubbelriktade länkar som skapats för varje nytt element under konstruktionen. Om du ökar det här parametervärdet kan du förbättra återkallandet och minska hämtningstiderna för datauppsättningar med hög inbyggd dimension på bekostnad av ökad minnesförbrukning och längre indexeringstid. |
metric |
Likhetsmåttet som ska användas för vektorjämförelser. |
HnswVectorSearchAlgorithmConfiguration
Innehåller konfigurationsalternativ som är specifika för den ungefärliga algoritmen för närmaste grannar för HNSW som används vid indexering och frågor. HNSW-algoritmen erbjuder en justerbar kompromiss mellan sökhastighet och noggrannhet.
Name | Typ | Description |
---|---|---|
hnswParameters |
Innehåller de parametrar som är specifika för HNSW-algoritmen. |
|
kind |
string:
hnsw |
Namnet på den typ av algoritm som konfigureras för användning med vektorsökning. |
name |
string |
Namnet som ska associeras med den här konfigurationen. |
KeepTokenFilter
Ett tokenfilter som endast behåller token med text som finns i en angiven lista med ord. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
keepWords |
string[] |
Listan över ord som ska behållas. |
|
keepWordsCase |
boolean |
False |
Ett värde som anger om alla ord ska sänkas först. Standardvärdet är false. |
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
KeywordMarkerTokenFilter
Markerar termer som nyckelord. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
ignoreCase |
boolean |
False |
Ett värde som anger om skiftläge ska ignoreras. Om det är sant konverteras alla ord till gemener först. Standardvärdet är false. |
keywords |
string[] |
En lista med ord som ska markeras som nyckelord. |
|
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
KeywordTokenizer
Genererar hela indata som en enda token. Denna tokenizer implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenizer. |
|
bufferSize |
integer |
256 |
Läsbuffertens storlek i byte. Standardvärdet är 256. |
name |
string |
Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
KeywordTokenizerV2
Genererar hela indata som en enda token. Denna tokenizer implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenizer. |
|
maxTokenLength |
integer |
256 |
Maximal tokenlängd. Standardvärdet är 256. Token som är längre än den maximala längden delas upp. Den maximala tokenlängden som kan användas är 300 tecken. |
name |
string |
Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
LengthTokenFilter
Tar bort ord som är för långa eller för korta. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
max |
integer |
300 |
Maximal längd i tecken. Standardvärdet och maxvärdet är 300. |
min |
integer |
0 |
Minsta längd i tecken. Standardvärdet är 0. Maxvärdet är 300. Måste vara mindre än värdet för max. |
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
LexicalAnalyzerName
Definierar namnen på alla textanalysverktyg som stöds av sökmotorn.
Name | Typ | Description |
---|---|---|
ar.lucene |
string |
Lucene analyzer för arabiska. |
ar.microsoft |
string |
Microsoft Analyzer för arabiska. |
bg.lucene |
string |
Lucene analyzer för bulgariska. |
bg.microsoft |
string |
Microsoft Analyzer för bulgariska. |
bn.microsoft |
string |
Microsoft Analyzer för Bangla. |
ca.lucene |
string |
Lucene analyzer för katalanska. |
ca.microsoft |
string |
Microsoft Analyzer för Katalanska. |
cs.lucene |
string |
Lucene analyzer för tjeckiska. |
cs.microsoft |
string |
Microsoft Analyzer för tjeckiska. |
da.lucene |
string |
Lucene analyzer för danska. |
da.microsoft |
string |
Microsoft analyzer för danska. |
de.lucene |
string |
Lucene analyzer för tyska. |
de.microsoft |
string |
Microsoft Analyzer för tyska. |
el.lucene |
string |
Lucene analyzer för grekiska. |
el.microsoft |
string |
Microsoft Analyzer för grekiska. |
en.lucene |
string |
Lucene analyzer för engelska. |
en.microsoft |
string |
Microsoft Analyzer för engelska. |
es.lucene |
string |
Lucene analyzer för spanska. |
es.microsoft |
string |
Microsoft Analyzer för spanska. |
et.microsoft |
string |
Microsoft Analyzer för estniska. |
eu.lucene |
string |
Lucene analyzer för baskiska. |
fa.lucene |
string |
Lucene analyzer för persiska. |
fi.lucene |
string |
Lucene analyzer för finska. |
fi.microsoft |
string |
Microsoft Analyzer för finska. |
fr.lucene |
string |
Lucene analyzer för franska. |
fr.microsoft |
string |
Microsoft Analyzer för franska. |
ga.lucene |
string |
Lucene analyzer för iriska. |
gl.lucene |
string |
Lucene analyzer för Galician. |
gu.microsoft |
string |
Microsoft Analyzer för Gujarati. |
he.microsoft |
string |
Microsoft Analyzer för hebreiska. |
hi.lucene |
string |
Lucene analyzer för Hindi. |
hi.microsoft |
string |
Microsoft Analyzer för Hindi. |
hr.microsoft |
string |
Microsoft Analyzer för kroatiska. |
hu.lucene |
string |
Lucene analyzer för ungerska. |
hu.microsoft |
string |
Microsoft Analyzer för ungerska. |
hy.lucene |
string |
Lucene analyzer för armeniska. |
id.lucene |
string |
Lucene analyzer för indonesiska. |
id.microsoft |
string |
Microsoft Analyzer för indonesiska (Bahasa). |
is.microsoft |
string |
Microsoft Analyzer för Isländska. |
it.lucene |
string |
Lucene analyzer för italienska. |
it.microsoft |
string |
Microsoft Analyzer för italienska. |
ja.lucene |
string |
Lucene analyzer för japanska. |
ja.microsoft |
string |
Microsoft Analyzer för japanska. |
keyword |
string |
Behandlar hela innehållet i ett fält som en enda token. Detta är användbart för data som postnummer, ID:t och vissa produktnamn. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Microsoft Analyzer för Kannada. |
ko.lucene |
string |
Lucene analyzer för koreanska. |
ko.microsoft |
string |
Microsoft Analyzer för koreanska. |
lt.microsoft |
string |
Microsoft Analyzer för litauiska. |
lv.lucene |
string |
Lucene analyzer för lettiska. |
lv.microsoft |
string |
Microsoft Analyzer för lettiska. |
ml.microsoft |
string |
Microsoft Analyzer för Malayalam. |
mr.microsoft |
string |
Microsoft Analyzer för Marathi. |
ms.microsoft |
string |
Microsoft analyzer for Malay (Latin). |
nb.microsoft |
string |
Microsoft analyzer för norska (Bokmål). |
nl.lucene |
string |
Lucene analyzer för nederländska. |
nl.microsoft |
string |
Microsoft Analyzer för Nederländska. |
no.lucene |
string |
Lucene analyzer för norska. |
pa.microsoft |
string |
Microsoft Analyzer för Punjabi. |
pattern |
string |
Separerar text flexibelt i termer via ett mönster för reguljära uttryck. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Lucene analyzer för polska. |
pl.microsoft |
string |
Microsoft Analyzer för polska. |
pt-BR.lucene |
string |
Lucene analyzer för portugisiska (Brasilien). |
pt-BR.microsoft |
string |
Microsoft Analyzer för portugisiska (Brasilien). |
pt-PT.lucene |
string |
Lucene analyzer för portugisiska (Portugal). |
pt-PT.microsoft |
string |
Microsoft Analyzer för portugisiska (Portugal). |
ro.lucene |
string |
Lucene analyzer för rumänska. |
ro.microsoft |
string |
Microsoft Analyzer för rumänska. |
ru.lucene |
string |
Lucene analyzer för ryska. |
ru.microsoft |
string |
Microsoft Analyzer för ryska. |
simple |
string |
Delar upp text med icke-bokstäver och konverterar dem till gemener. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Microsoft Analyzer för slovakiska. |
sl.microsoft |
string |
Microsoft Analyzer för slovenska. |
sr-cyrillic.microsoft |
string |
Microsoft analyzer för serbiska (kyrillisk). |
sr-latin.microsoft |
string |
Microsoft analyzer för serbiska (latinsk). |
standard.lucene |
string |
Standard Lucene Analyzer. |
standardasciifolding.lucene |
string |
Standard ASCII Folding Lucene analyzer. Se https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Delar upp text med icke-bokstäver; Använder tokenfiltren med gemener och stoppord. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Lucene analyzer för svenska. |
sv.microsoft |
string |
Microsoft Analyzer för svenska. |
ta.microsoft |
string |
Microsoft Analyzer för Tamil. |
te.microsoft |
string |
Microsoft Analyzer för Telugu. |
th.lucene |
string |
Lucene analyzer för Thai. |
th.microsoft |
string |
Microsoft Analyzer för Thai. |
tr.lucene |
string |
Lucene analyzer för turkiska. |
tr.microsoft |
string |
Microsoft Analyzer för turkiska. |
uk.microsoft |
string |
Microsoft Analyzer för ukrainska. |
ur.microsoft |
string |
Microsoft Analyzer för Urdu. |
vi.microsoft |
string |
Microsoft Analyzer för vietnamesiska. |
whitespace |
string |
En analysator som använder blankstegstokeniseraren. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Lucene analyzer för kinesiska (förenklad). |
zh-Hans.microsoft |
string |
Microsoft Analyzer för kinesiska (förenklad). |
zh-Hant.lucene |
string |
Lucene analyzer för kinesiska (traditionell). |
zh-Hant.microsoft |
string |
Microsoft Analyzer för kinesiska (traditionell). |
LexicalNormalizerName
Definierar namnen på alla textnormaliserare som stöds av sökmotorn.
Name | Typ | Description |
---|---|---|
asciifolding |
string |
Konverterar alfabetiska, numeriska och symboliska Unicode-tecken som inte finns i de första 127 ASCII-tecknen (Unicode-blocket "Basic Latin" till deras ASCII-motsvarigheter, om sådana motsvarigheter finns. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
elision |
string |
Tar bort elisions. Till exempel konverteras "l'avion" (planet) till "avion" (plan). Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
lowercase |
string |
Normaliserar tokentext till gemener. Se https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
standard |
string |
Standardnormaliserare, som består av gemener och asciifolding. Se http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
uppercase |
string |
Normaliserar tokentext till versaler. Se https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
Definierar namnen på alla tokenizers som stöds av sökmotorn.
LimitTokenFilter
Begränsar antalet token vid indexering. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
consumeAllTokens |
boolean |
False |
Ett värde som anger om alla token från indata måste användas även om maxTokenCount har uppnåtts. Standardvärdet är false. |
maxTokenCount |
integer |
1 |
Det maximala antalet token som ska skapas. Standardvärdet är 1. |
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
LuceneStandardAnalyzer
Standard Apache Lucene analyzer; Består av standardtokeniseraren, gemener och stoppfilter.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av analysverktyg. |
|
maxTokenLength |
integer |
255 |
Maximal tokenlängd. Standardvärdet är 255. Token som är längre än den maximala längden delas upp. Den maximala tokenlängden som kan användas är 300 tecken. |
name |
string |
Namnet på analysatorn. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
stopwords |
string[] |
En lista över stoppord. |
LuceneStandardTokenizer
Bryter text efter Unicode-reglerna för textsegmentering. Den här tokeniseraren implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokeniserare. |
|
maxTokenLength |
integer |
255 |
Maximal tokenlängd. Standardvärdet är 255. Token som är längre än den maximala längden delas. |
name |
string |
Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
LuceneStandardTokenizerV2
Bryter text efter Unicode-reglerna för textsegmentering. Den här tokeniseraren implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokeniserare. |
|
maxTokenLength |
integer |
255 |
Maximal tokenlängd. Standardvärdet är 255. Token som är längre än den maximala längden delas. Den maximala tokenlängden som kan användas är 300 tecken. |
name |
string |
Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
MagnitudeScoringFunction
Definierar en funktion som ökar poängen baserat på storleken på ett numeriskt fält.
Name | Typ | Description |
---|---|---|
boost |
number |
En multiplikator för råpoängen. Måste vara ett positivt tal som inte är lika med 1,0. |
fieldName |
string |
Namnet på det fält som används som indata till bedömningsfunktionen. |
interpolation |
Ett värde som anger hur ökning kommer att interpoleras mellan dokumentpoäng; standardvärdet är "Linjär". |
|
magnitude |
Parametervärden för funktionen för storleksbedömning. |
|
type |
string:
magnitude |
Anger vilken typ av funktion som ska användas. Giltiga värden är bland annat storlek, aktualitet, avstånd och tagg. Funktionstypen måste vara gemen. |
MagnitudeScoringParameters
Ger parametervärden till en funktion för storleksbedömning.
Name | Typ | Description |
---|---|---|
boostingRangeEnd |
number |
Det fältvärde där ökning slutar. |
boostingRangeStart |
number |
Fältvärdet där ökning börjar. |
constantBoostBeyondRange |
boolean |
Ett värde som anger om du vill tillämpa en konstant ökning för fältvärden utanför intervallets slutvärde. standardvärdet är false. |
MappingCharFilter
Ett teckenfilter som tillämpar mappningar som definierats med mappningsalternativet. Matchningen är girig (den längsta mönstermatchningen vid en viss tidpunkt vinner). Ersättning tillåts vara den tomma strängen. Det här teckenfiltret implementeras med Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av teckenfilter. |
mappings |
string[] |
En lista över mappningar i följande format: "a=>b" (alla förekomster av tecknet "a" ersätts med tecknet "b"). |
name |
string |
Namnet på teckenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
MicrosoftLanguageStemmingTokenizer
Delar upp text med hjälp av språkspecifika regler och minskar ord till sina basformulär.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenizer. |
|
isSearchTokenizer |
boolean |
False |
Ett värde som anger hur tokenizer används. Ange till true om det används som söktokeniserare och ange false om det används som indexeringstokeniserare. Standardvärdet är false. |
language |
Det språk som ska användas. Standardvärdet är engelska. |
||
maxTokenLength |
integer |
255 |
Maximal tokenlängd. Token som är längre än den maximala längden delas upp. Maximal tokenlängd som kan användas är 300 tecken. Token som är längre än 300 tecken delas först upp i token med längden 300 och sedan delas var och en av dessa token upp baserat på den maximala tokenlängdsuppsättningen. Standardvärdet är 255. |
name |
string |
Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
MicrosoftLanguageTokenizer
Delar upp text med språkspecifika regler.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenizer. |
|
isSearchTokenizer |
boolean |
False |
Ett värde som anger hur tokenizer används. Ange till true om det används som söktokeniserare och ange false om det används som indexeringstokeniserare. Standardvärdet är false. |
language |
Det språk som ska användas. Standardvärdet är engelska. |
||
maxTokenLength |
integer |
255 |
Maximal tokenlängd. Token som är längre än den maximala längden delas upp. Maximal tokenlängd som kan användas är 300 tecken. Token som är längre än 300 tecken delas först upp i token med längden 300 och sedan delas var och en av dessa token upp baserat på den maximala tokenlängdsuppsättningen. Standardvärdet är 255. |
name |
string |
Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
MicrosoftStemmingTokenizerLanguage
Listor de språk som stöds av microsofts språk som ordstamstokeniserare.
Name | Typ | Description |
---|---|---|
arabic |
string |
Väljer Microsofts ordstamstokeniserare för arabiska. |
bangla |
string |
Väljer Microsofts ordstamstokeniserare för Bangla. |
bulgarian |
string |
Väljer Microsofts ordstamstokeniserare för bulgariska. |
catalan |
string |
Väljer Microsofts ordstamstokeniserare för katalanska. |
croatian |
string |
Väljer Microsofts ordstamstokeniserare för kroatiska. |
czech |
string |
Väljer Microsofts ordstamstokeniserare för tjeckiska. |
danish |
string |
Väljer Microsofts ordstamstokeniserare för danska. |
dutch |
string |
Väljer Microsofts ordstamstokeniserare för nederländska. |
english |
string |
Väljer Microsofts ordstamstokeniserare för engelska. |
estonian |
string |
Väljer Microsofts ordstamstokeniserare för estniska. |
finnish |
string |
Väljer Microsofts ordstamstokeniserare för finska. |
french |
string |
Väljer Microsofts ordstamstokeniserare för franska. |
german |
string |
Väljer Microsofts ordstamstokeniserare för tyska. |
greek |
string |
Väljer Microsofts ordstamstokeniserare för grekiska. |
gujarati |
string |
Väljer Microsofts ordstamstokeniserare för Gujarati. |
hebrew |
string |
Väljer Microsofts ordstamstokeniserare för hebreiska. |
hindi |
string |
Väljer Microsofts ordstamstokeniserare för Hindi. |
hungarian |
string |
Väljer Microsofts ordstamstokeniserare för ungerska. |
icelandic |
string |
Väljer Microsofts ordstamstokeniserare för isländska. |
indonesian |
string |
Väljer Microsofts ordstamstokeniserare för indonesiska. |
italian |
string |
Väljer Microsofts ordstamstokeniserare för italienska. |
kannada |
string |
Väljer Microsofts ordstamstokeniserare för Kannada. |
latvian |
string |
Väljer Microsofts ordstamstokeniserare för lettiska. |
lithuanian |
string |
Väljer Microsofts ordstamstokeniserare för litauiska. |
malay |
string |
Väljer Microsofts ordstamstokeniserare för Malay. |
malayalam |
string |
Väljer Microsofts ordstamstokeniserare för Malayalam. |
marathi |
string |
Väljer Microsofts ordstamstokeniserare för Marathi. |
norwegianBokmaal |
string |
Väljer Microsofts ordstamstokeniserare för norska (Bokmål). |
polish |
string |
Väljer Microsofts ordstamstokeniserare för polska. |
portuguese |
string |
Väljer Microsofts ordstamstokeniserare för portugisiska. |
portugueseBrazilian |
string |
Väljer Microsofts ordstamstokeniserare för portugisiska (Brasilien). |
punjabi |
string |
Väljer Microsofts ordstamstokeniserare för Punjabi. |
romanian |
string |
Väljer Microsofts ordstamstokeniserare för rumänska. |
russian |
string |
Väljer Microsofts ordstamstokeniserare för ryska. |
serbianCyrillic |
string |
Väljer Microsofts ordstamstokeniserare för serbiska (kyrillisk). |
serbianLatin |
string |
Väljer Microsofts ordstamstokeniserare för serbiska (latinsk). |
slovak |
string |
Väljer Microsofts ordstamstokeniserare för slovakiska. |
slovenian |
string |
Väljer Microsofts ordstamstokeniserare för slovenska. |
spanish |
string |
Väljer Microsofts ordstamstokeniserare för spanska. |
swedish |
string |
Väljer Microsofts ordstamstokeniserare för svenska. |
tamil |
string |
Väljer Microsofts ordstamstokeniserare för tamil. |
telugu |
string |
Väljer Microsofts ordstamstokeniserare för Telugu. |
turkish |
string |
Väljer Microsofts ordstamstokeniserare för turkiska. |
ukrainian |
string |
Väljer Microsofts ordstamstokeniserare för ukrainska. |
urdu |
string |
Väljer Microsofts ordstamstokeniserare för Urdu. |
MicrosoftTokenizerLanguage
Listor de språk som stöds av Microsofts språktokeniserare.
Name | Typ | Description |
---|---|---|
bangla |
string |
Väljer Microsoft-tokenizer för Bangla. |
bulgarian |
string |
Väljer Microsoft-tokenizer för bulgariska. |
catalan |
string |
Väljer Microsoft-tokeniseraren för katalanska. |
chineseSimplified |
string |
Väljer Microsoft-tokenizer för kinesiska (förenklad). |
chineseTraditional |
string |
Väljer Microsoft-tokenizer för kinesiska (traditionell). |
croatian |
string |
Väljer Microsoft-tokenizer för kroatiska. |
czech |
string |
Väljer Microsoft-tokenizer för tjeckiska. |
danish |
string |
Väljer Microsoft-tokenizer för danska. |
dutch |
string |
Väljer Microsoft-tokeniseraren för nederländska. |
english |
string |
Väljer Microsoft-tokenizer för engelska. |
french |
string |
Väljer Microsoft-tokenizer för franska. |
german |
string |
Väljer Microsoft-tokenizer för tyska. |
greek |
string |
Väljer Microsoft-tokeniseraren för grekiska. |
gujarati |
string |
Väljer Microsoft-tokenizer för Gujarati. |
hindi |
string |
Väljer Microsoft-tokenizer för Hindi. |
icelandic |
string |
Väljer Microsoft-tokeniseraren för isländska. |
indonesian |
string |
Väljer Microsoft-tokenizer för indonesiska. |
italian |
string |
Väljer Microsoft-tokeniseraren för italienska. |
japanese |
string |
Väljer Microsoft-tokenizer för japanska. |
kannada |
string |
Väljer Microsoft-tokenizer för Kannada. |
korean |
string |
Väljer Microsoft-tokenizer för koreanska. |
malay |
string |
Väljer Microsoft-tokenizer för Malay. |
malayalam |
string |
Väljer Microsoft-tokenizer för Malayalam. |
marathi |
string |
Väljer Microsoft-tokeniseraren för Marathi. |
norwegianBokmaal |
string |
Väljer Microsoft-tokenizer för norska (Bokmål). |
polish |
string |
Väljer Microsoft-tokeniseraren för polska. |
portuguese |
string |
Väljer Microsoft-tokenizer för portugisiska. |
portugueseBrazilian |
string |
Väljer Microsoft-tokenizer för portugisiska (Brasilien). |
punjabi |
string |
Väljer Microsoft-tokenizer för Punjabi. |
romanian |
string |
Väljer Microsoft-tokenizer för rumänska. |
russian |
string |
Väljer Microsoft-tokeniseraren för ryska. |
serbianCyrillic |
string |
Väljer Microsoft-tokenizer för serbiska (kyrillisk). |
serbianLatin |
string |
Väljer Microsoft-tokenizer för serbiska (latinsk). |
slovenian |
string |
Väljer Microsoft-tokenizer för slovenska. |
spanish |
string |
Väljer Microsoft-tokenizer för spanska. |
swedish |
string |
Väljer Microsoft-tokenizer för svenska. |
tamil |
string |
Väljer Microsoft-tokenizer för Tamil. |
telugu |
string |
Väljer Microsoft-tokenizer för Telugu. |
thai |
string |
Väljer Microsoft-tokenizer för thailändska. |
ukrainian |
string |
Väljer Microsoft-tokenizer för ukrainska. |
urdu |
string |
Väljer Microsoft-tokenizer för Urdu. |
vietnamese |
string |
Väljer Microsoft-tokenizer för vietnamesiska. |
NGramTokenFilter
Genererar n-gram av den eller de angivna storlekarna. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
maxGram |
integer |
2 |
Maximal längd på n-gram. Standardvärdet är 2. |
minGram |
integer |
1 |
Minsta längd på n-gram. Standardvärdet är 1. Måste vara mindre än värdet för maxGram. |
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
NGramTokenFilterV2
Genererar n-gram av den eller de angivna storlekarna. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
maxGram |
integer |
2 |
Maximal längd på n-gram. Standardvärdet är 2. Maxvärdet är 300. |
minGram |
integer |
1 |
Minsta längd på n-gram. Standardvärdet är 1. Maxvärdet är 300. Måste vara mindre än värdet för maxGram. |
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
NGramTokenizer
Tokeniserar indata till n-gram av de angivna storlekarna. Denna tokenizer implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokenizer. |
|
maxGram |
integer |
2 |
Maximal längd på n-gram. Standardvärdet är 2. Maxvärdet är 300. |
minGram |
integer |
1 |
Minsta längd på n-gram. Standardvärdet är 1. Maxvärdet är 300. Måste vara mindre än värdet för maxGram. |
name |
string |
Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
tokenChars |
Teckenklasser som ska behållas i token. |
PathHierarchyTokenizerV2
Tokenizer för sökvägsliknande hierarkier. Denna tokenizer implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokeniserare. |
|
delimiter |
string |
/ |
Avgränsartecknet som ska användas. Standardvärdet är "/". |
maxTokenLength |
integer |
300 |
Maximal tokenlängd. Standardvärdet och maxvärdet är 300. |
name |
string |
Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
replacement |
string |
/ |
Ett värde som, om det anges, ersätter avgränsartecknet. Standardvärdet är "/". |
reverse |
boolean |
False |
Ett värde som anger om token ska genereras i omvänd ordning. Standardvärdet är false. |
skip |
integer |
0 |
Antalet inledande token som ska hoppa över. Standardvärdet är 0. |
PatternAnalyzer
Separerar text flexibelt i termer via ett mönster för reguljära uttryck. Den här analysatorn implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av analysverktyg. |
|
flags |
Flaggor för reguljära uttryck. |
||
lowercase |
boolean |
True |
Ett värde som anger om termerna ska vara gemener. Standardvärdet är true. |
name |
string |
Namnet på analysatorn. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
pattern |
string |
\W+ |
Ett mönster för reguljära uttryck som matchar tokenavgränsare. Standard är ett uttryck som matchar ett eller flera icke-ordtecken. |
stopwords |
string[] |
En lista över stoppord. |
PatternCaptureTokenFilter
Använder Java-regex för att generera flera token – en för varje avbildningsgrupp i ett eller flera mönster. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
patterns |
string[] |
En lista med mönster som ska matchas mot varje token. |
|
preserveOriginal |
boolean |
True |
Ett värde som anger om den ursprungliga token ska returneras även om något av mönstren matchar. Standardvärdet är true. |
PatternReplaceCharFilter
Ett teckenfilter som ersätter tecken i indatasträngen. Det använder ett reguljärt uttryck för att identifiera teckensekvenser för att bevara och ett ersättningsmönster för att identifiera tecken som ska ersättas. Om du till exempel ser indatatexten "aa bb aa bb", mönstret "(aa)\s+(bb)" och ersättningen "$1#$2" blir resultatet "aa#bb aa#bb". Det här teckenfiltret implementeras med Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av teckenfilter. |
name |
string |
Namnet på teckenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
pattern |
string |
Ett mönster för reguljära uttryck. |
replacement |
string |
Ersättningstexten. |
PatternReplaceTokenFilter
Ett teckenfilter som ersätter tecken i indatasträngen. Det använder ett reguljärt uttryck för att identifiera teckensekvenser för att bevara och ett ersättningsmönster för att identifiera tecken som ska ersättas. Om du till exempel ser indatatexten "aa bb aa bb", mönstret "(aa)\s+(bb)" och ersättningen "$1#$2" blir resultatet "aa#bb aa#bb". Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
pattern |
string |
Ett mönster för reguljära uttryck. |
replacement |
string |
Ersättningstexten. |
PatternTokenizer
Tokeniserare som använder regex-mönstermatchning för att skapa distinkta token. Den här tokeniseraren implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokeniserare. |
|
flags |
Flaggor för reguljära uttryck. |
||
group |
integer |
-1 |
Den nollbaserade ordningstalet för den matchande gruppen i mönstret för reguljära uttryck som ska extraheras till token. Använd -1 om du vill använda hela mönstret för att dela indata i token, oavsett matchande grupper. Standardvärdet är -1. |
name |
string |
Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
pattern |
string |
\W+ |
Ett mönster för reguljära uttryck som matchar tokenavgränsare. Standard är ett uttryck som matchar ett eller flera icke-ordtecken. |
PhoneticEncoder
Identifierar typen av fonetikkodare som ska användas med ett PhoneticTokenFilter.
Name | Typ | Description |
---|---|---|
beiderMorse |
string |
Kodar en token till ett Beider-Morse värde. |
caverphone1 |
string |
Kodar en token till ett Caverphone 1.0-värde. |
caverphone2 |
string |
Kodar en token till ett Caverphone 2.0-värde. |
cologne |
string |
Kodar en token till ett fonetikvärde i Köln. |
doubleMetaphone |
string |
Kodar en token till ett dubbelt metafonvärde. |
haasePhonetik |
string |
Kodar en token med hjälp av Haase-förfining av Kölner Phonetik-algoritmen. |
koelnerPhonetik |
string |
Kodar en token med hjälp av Kölner Phonetik-algoritmen. |
metaphone |
string |
Kodar en token till ett metafonvärde. |
nysiis |
string |
Kodar en token till ett NYSIIS-värde. |
refinedSoundex |
string |
Kodar en token till ett Raffinerat Soundex-värde. |
soundex |
string |
Kodar en token till ett Soundex-värde. |
PhoneticTokenFilter
Skapa token för fonetiska matchningar. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
encoder | metaphone |
Den fonetiska kodare som ska användas. Standardvärdet är "metafon". |
|
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
replace |
boolean |
True |
Ett värde som anger om kodade token ska ersätta ursprungliga token. Om det är falskt läggs kodade token till som synonymer. Standardvärdet är true. |
PrioritizedFields
Beskriver fälten för rubrik, innehåll och nyckelord som ska användas för semantisk rangordning, undertexter, markeringar och svar.
Name | Typ | Description |
---|---|---|
prioritizedContentFields |
Definierar de innehållsfält som ska användas för semantisk rangordning, undertexter, markeringar och svar. För bästa resultat bör de markerade fälten innehålla text i naturligt språk. Ordningen på fälten i matrisen representerar deras prioritet. Fält med lägre prioritet kan trunkeras om innehållet är långt. |
|
prioritizedKeywordsFields |
Definierar de nyckelordsfält som ska användas för semantisk rangordning, undertexter, markeringar och svar. För bästa resultat bör de markerade fälten innehålla en lista med nyckelord. Ordningen på fälten i matrisen representerar deras prioritet. Fält med lägre prioritet kan trunkeras om innehållet är långt. |
|
titleField |
Definierar rubrikfältet som ska användas för semantisk rangordning, undertexter, markeringar och svar. Om du inte har något rubrikfält i indexet lämnar du det tomt. |
RegexFlags
Definierar flaggor som kan kombineras för att styra hur reguljära uttryck används i mönsteranalys och mönstertokeniserare.
Name | Typ | Description |
---|---|---|
CANON_EQ |
string |
Aktiverar kanonisk likvärdighet. |
CASE_INSENSITIVE |
string |
Aktiverar skiftlägesokänslig matchning. |
COMMENTS |
string |
Tillåter tomt utrymme och kommentarer i mönstret. |
DOTALL |
string |
Aktiverar dotall-läge. |
LITERAL |
string |
Aktiverar literal parsning av mönstret. |
MULTILINE |
string |
Aktiverar flerradsläge. |
UNICODE_CASE |
string |
Aktiverar Unicode-medveten skiftlägesdelegering. |
UNIX_LINES |
string |
Aktiverar Unix-linjeläge. |
ScoringFunctionAggregation
Definierar den sammansättningsfunktion som används för att kombinera resultaten från alla bedömningsfunktioner i en bedömningsprofil.
Name | Typ | Description |
---|---|---|
average |
string |
Öka poängen med medelvärdet av alla resultat från bedömningsfunktionen. |
firstMatching |
string |
Öka poäng med hjälp av den första tillämpliga bedömningsfunktionen i bedömningsprofilen. |
maximum |
string |
Öka poängen med maximalt antal resultat för bedömningsfunktionen. |
minimum |
string |
Öka poängen med minst alla resultat från bedömningsfunktionen. |
sum |
string |
Öka poängen med summan av alla resultat från bedömningsfunktionen. |
ScoringFunctionInterpolation
Definierar den funktion som används för att interpolera poänghöjande för en rad olika dokument.
Name | Typ | Description |
---|---|---|
constant |
string |
Ökar poängen med en konstant faktor. |
linear |
string |
Ökar poängen med en linjärt minskande mängd. Detta är standardinterpolationen för bedömningsfunktioner. |
logarithmic |
string |
Ökar poängen med en mängd som minskar logaritmiskt. Ökningar minskar snabbt för högre poäng och långsammare när poängen minskar. Det här interpoleringsalternativet tillåts inte i taggbedömningsfunktioner. |
quadratic |
string |
Ökar poängen med ett belopp som minskar kvadratiskt. Ökningar minskar långsamt för högre poäng och snabbare när poängen minskar. Det här interpoleringsalternativet tillåts inte i taggbedömningsfunktioner. |
ScoringProfile
Definierar parametrar för ett sökindex som påverkar bedömning i sökfrågor.
Name | Typ | Description |
---|---|---|
functionAggregation |
Ett värde som anger hur resultatet av enskilda bedömningsfunktioner ska kombineras. Standardvärdet är "Summa". Ignoreras om det inte finns några bedömningsfunktioner. |
|
functions | ScoringFunction[]: |
En samling funktioner som påverkar bedömning av dokument. |
name |
string |
Namnet på bedömningsprofilen. |
text |
Parametrar som ökar poängsättningen baserat på textmatchningar i vissa indexfält. |
SearchError
Beskriver ett felvillkor för API:et.
Name | Typ | Description |
---|---|---|
code |
string |
En av en serverdefinierad uppsättning felkoder. |
details |
En matris med information om specifika fel som ledde till det rapporterade felet. |
|
message |
string |
En mänsklig läsbar representation av felet. |
SearchField
Representerar ett fält i en indexdefinition som beskriver namn, datatyp och sökbeteende för ett fält.
Name | Typ | Description |
---|---|---|
analyzer |
Namnet på analysatorn som ska användas för fältet. Det här alternativet kan endast användas med sökbara fält och kan inte ställas in tillsammans med antingen searchAnalyzer eller indexAnalyzer. När analysatorn har valts kan den inte ändras för fältet. Måste vara null för komplexa fält. |
|
dimensions |
integer |
Vektorfältets dimensionalitet. |
facetable |
boolean |
Ett värde som anger om fältet ska kunna refereras till i fasetterade frågor. Används vanligtvis i en presentation av sökresultat som innehåller antal träffar per kategori (till exempel söka efter digitalkameror och se träffar efter varumärke, megapixlar, pris och så vidare). Den här egenskapen måste vara null för komplexa fält. Fält av typen Edm.GeographyPoint eller Collection(Edm.GeographyPoint) kan inte vara fasettbara. Standardvärdet är sant för alla andra enkla fält. |
fields |
En lista över underfält om det här är ett fält av typen Edm.ComplexType eller Collection(Edm.ComplexType). Måste vara null eller tomt för enkla fält. |
|
filterable |
boolean |
Ett värde som anger om fältet ska kunna refereras till i $filter frågor. filterable skiljer sig från sökbara i hur strängar hanteras. Fält av typen Edm.String eller Collection(Edm.String) som är filterbara genomgår inte ordbrytning, så jämförelser är endast för exakta matchningar. Om du till exempel ställer in ett sådant fält f på "solig dag" hittar $filter=f eq "soligt" inga matchningar, men $filter=f eq "solig dag" kommer att göra det. Den här egenskapen måste vara null för komplexa fält. Standardvärdet är sant för enkla fält och null för komplexa fält. |
indexAnalyzer |
Namnet på analysatorn som används vid indexeringstiden för fältet. Det här alternativet kan endast användas med sökbara fält. Den måste anges tillsammans med searchAnalyzer och kan inte ställas in tillsammans med analysalternativet. Den här egenskapen kan inte anges till namnet på ett språkanalysverktyg. använd egenskapen analyzer i stället om du behöver ett språkanalysverktyg. När analysatorn har valts kan den inte ändras för fältet. Måste vara null för komplexa fält. |
|
key |
boolean |
Ett värde som anger om fältet unikt identifierar dokument i indexet. Exakt ett fält på den översta nivån i varje index måste väljas som nyckelfält och det måste vara av typen Edm.String. Nyckelfält kan användas för att söka efter dokument direkt och uppdatera eller ta bort specifika dokument. Standardvärdet är falskt för enkla fält och null för komplexa fält. |
name |
string |
Namnet på fältet, som måste vara unikt i fältsamlingen för indexet eller det överordnade fältet. |
normalizer |
Namnet på normaliseraren som ska användas för fältet. Det här alternativet kan endast användas med fält med filtrerbar, sorterbar eller fasettbar aktiverad. När normaliseraren har valts kan den inte ändras för fältet. Måste vara null för komplexa fält. |
|
retrievable |
boolean |
Ett värde som anger om fältet kan returneras i ett sökresultat. Du kan inaktivera det här alternativet om du vill använda ett fält (till exempel marginal) som en filter-, sorterings- eller bedömningsmekanism, men inte vill att fältet ska vara synligt för slutanvändaren. Den här egenskapen måste vara sann för nyckelfält och måste vara null för komplexa fält. Den här egenskapen kan ändras i befintliga fält. Om du aktiverar den här egenskapen ökar inte kraven på indexlagring. Standardvärdet är sant för enkla fält och null för komplexa fält. |
searchAnalyzer |
Namnet på analysatorn som används vid söktillfället för fältet. Det här alternativet kan endast användas med sökbara fält. Den måste anges tillsammans med indexAnalyzer och den kan inte ställas in tillsammans med analysalternativet. Den här egenskapen kan inte anges till namnet på ett språkanalysverktyg. använd egenskapen analyzer i stället om du behöver ett språkanalysverktyg. Den här analysatorn kan uppdateras i ett befintligt fält. Måste vara null för komplexa fält. |
|
searchable |
boolean |
Ett värde som anger om fältet är sökbart i fulltext. Det innebär att den kommer att genomgå en analys, till exempel ordbrytning under indexeringen. Om du anger ett sökbart fält till ett värde som ”solig dag” delas det upp internt i två enskilda token, ”solig” och ”dag”. Detta möjliggör fulltextsökningar för dessa termer. Fält av typen Edm.String eller Collection(Edm.String) är sökbara som standard. Den här egenskapen måste vara false för enkla fält med andra datatyper som inte är strängar och måste vara null för komplexa fält. Obs! Sökbara fält förbrukar extra utrymme i indexet för att hantera ytterligare tokeniserade versioner av fältvärdet för fulltextsökningar. Om du vill spara utrymme i indexet och du inte behöver ett fält som ska inkluderas i sökningar anger du sökbart till falskt. |
sortable |
boolean |
Ett värde som anger om fältet ska kunna refereras till i $orderby uttryck. Som standard sorterar sökmotorn resultat efter poäng, men i många fall vill användarna sortera efter fält i dokumenten. Ett enkelt fält kan bara sorteras om det är envärdesvärde (det har ett enda värde i det överordnade dokumentets omfång). Enkla samlingsfält kan inte sorteras eftersom de är flervärdesfält. Enkla delfält i komplexa samlingar är också flervärdesbaserade och kan därför inte sorteras. Detta gäller oavsett om det är ett omedelbart överordnat fält, eller ett överordnat fält, som är den komplexa samlingen. Komplexa fält kan inte sorteras och den sorterbara egenskapen måste vara null för sådana fält. Standardvärdet för sorterbar är sant för enkla enkelfält med en enda värde, falskt för enkla flervärdesfält och null för komplexa fält. |
synonymMaps |
string[] |
En lista över namnen på synonymmappningar som ska associeras med det här fältet. Det här alternativet kan endast användas med sökbara fält. För närvarande stöds endast en synonymkarta per fält. Genom att tilldela en synonymmappning till ett fält ser du till att frågetermerna för det fältet utökas vid frågetiden med hjälp av reglerna i synonymmappningen. Det här attributet kan ändras i befintliga fält. Måste vara null eller en tom samling för komplexa fält. |
type |
Fältets datatyp. |
|
vectorSearchProfile |
string |
Namnet på den vektorsökningsprofil som anger vilken algoritm och vektoriserare som ska användas vid sökning i vektorfältet. |
SearchFieldDataType
Definierar datatypen för ett fält i ett sökindex.
Name | Typ | Description |
---|---|---|
Edm.Boolean |
string |
Anger att ett fält innehåller ett booleskt värde (sant eller falskt). |
Edm.ComplexType |
string |
Anger att ett fält innehåller ett eller flera komplexa objekt som i sin tur har underfält av andra typer. |
Edm.DateTimeOffset |
string |
Anger att ett fält innehåller ett datum-/tidsvärde, inklusive tidszonsinformation. |
Edm.Double |
string |
Anger att ett fält innehåller ett flyttalsnummer med dubbel precision i IEEE. |
Edm.GeographyPoint |
string |
Anger att ett fält innehåller en geo-plats i termer av longitud och latitud. |
Edm.Int32 |
string |
Anger att ett fält innehåller ett 32-bitars signerat heltal. |
Edm.Int64 |
string |
Anger att ett fält innehåller ett 64-bitars heltal med tecken. |
Edm.Single |
string |
Anger att ett fält innehåller ett flyttal med enkel precision. Detta är endast giltigt när det används med Collection(Edm.Single). |
Edm.String |
string |
Anger att ett fält innehåller en sträng. |
SearchIndex
Representerar en sökindexdefinition som beskriver fälten och sökbeteendet för ett index.
Name | Typ | Description |
---|---|---|
@odata.etag |
string |
ETag för indexet. |
analyzers | LexicalAnalyzer[]: |
Analysverktygen för indexet. |
charFilters | CharFilter[]: |
Tecknet filtrerar för indexet. |
corsOptions |
Alternativ för att styra resursdelning för korsande ursprung (CORS) för indexet. |
|
defaultScoringProfile |
string |
Namnet på den bedömningsprofil som ska användas om ingen anges i frågan. Om den här egenskapen inte har angetts och ingen bedömningsprofil anges i frågan används standardbedömningen (tf-idf). |
encryptionKey |
En beskrivning av en krypteringsnyckel som du skapar i Azure Key Vault. Den här nyckeln används för att ge ytterligare kryptering i vila för dina data när du vill ha fullständig säkerhet om att ingen, inte ens Microsoft, kan dekryptera dina data. När du har krypterat dina data förblir de alltid krypterade. Söktjänsten ignorerar försök att ange den här egenskapen till null. Du kan ändra den här egenskapen efter behov om du vill rotera krypteringsnyckeln. Dina data påverkas inte. Kryptering med kundhanterade nycklar är inte tillgängligt för kostnadsfria söktjänster och är endast tillgängligt för betaltjänster som skapats den 1 januari 2019 eller senare. |
|
fields |
Fälten i indexet. |
|
name |
string |
Namnet på indexet. |
normalizers | LexicalNormalizer[]: |
Normalizers för indexet. |
scoringProfiles |
Bedömningsprofilerna för indexet. |
|
semantic |
Definierar parametrar för ett sökindex som påverkar semantiska funktioner. |
|
similarity | Similarity: |
Den typ av likhetsalgoritm som ska användas vid bedömning och rangordning av dokument som matchar en sökfråga. Likhetsalgoritmen kan bara definieras när index skapas och kan inte ändras i befintliga index. Om det är null används ClassicSimilarity-algoritmen. |
suggesters |
Förslagsarbetarna för indexet. |
|
tokenFilters |
TokenFilter[]:
|
Tokenfiltren för indexet. |
tokenizers | LexicalTokenizer[]: |
Tokenizers för indexet. |
vectorSearch |
Innehåller konfigurationsalternativ relaterade till vektorsökning. |
SearchIndexerDataNoneIdentity
Rensar identitetsegenskapen för en datakälla.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av identitet. |
SearchIndexerDataUserAssignedIdentity
Anger identiteten för en datakälla som ska användas.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av identitet. |
userAssignedIdentity |
string |
Det fullständigt kvalificerade Azure-resurs-ID:t för en användartilldelad hanterad identitet, vanligtvis i formatet "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" som borde ha tilldelats söktjänsten. |
SearchResourceEncryptionKey
En kundhanterad krypteringsnyckel i Azure Key Vault. Nycklar som du skapar och hanterar kan användas för att kryptera eller dekryptera vilande data, till exempel index och synonymmappningar.
Name | Typ | Description |
---|---|---|
accessCredentials |
Valfria Azure Active Directory-autentiseringsuppgifter som används för att komma åt din Azure-Key Vault. Krävs inte om du använder hanterad identitet i stället. |
|
identity | SearchIndexerDataIdentity: |
En explicit hanterad identitet som ska användas för den här krypteringsnyckeln. Om det inte anges och egenskapen för autentiseringsuppgifter för åtkomst är null används den systemtilldelade hanterade identiteten. Om den explicita identiteten är ospecificerad vid uppdatering av resursen förblir den oförändrad. Om "ingen" anges rensas värdet för den här egenskapen. |
keyVaultKeyName |
string |
Namnet på din Azure Key Vault nyckel som ska användas för att kryptera vilande data. |
keyVaultKeyVersion |
string |
Versionen av din Azure Key Vault-nyckel som ska användas för att kryptera dina vilande data. |
keyVaultUri |
string |
URI:n för din Azure-Key Vault, även kallad DNS-namn, som innehåller nyckeln som ska användas för att kryptera vilande data. Ett exempel på en URI kan vara |
SemanticConfiguration
Definierar en specifik konfiguration som ska användas i kontexten för semantiska funktioner.
Name | Typ | Description |
---|---|---|
name |
string |
Namnet på den semantiska konfigurationen. |
prioritizedFields |
Beskriver de rubrik-, innehålls- och nyckelordsfält som ska användas för semantisk rangordning, undertexter, höjdpunkter och svar. Minst en av de tre underegenskaperna (titleField, prioritizedKeywordsFields och prioritizedContentFields) måste anges. |
SemanticField
Ett fält som används som en del av den semantiska konfigurationen.
Name | Typ | Description |
---|---|---|
fieldName |
string |
SemanticSettings
Definierar parametrar för ett sökindex som påverkar semantiska funktioner.
Name | Typ | Description |
---|---|---|
configurations |
Semantiska konfigurationer för indexet. |
|
defaultConfiguration |
string |
Gör att du kan ange namnet på en standardsemantisk konfiguration i ditt index, vilket gör det valfritt att skicka det vidare som en frågeparameter varje gång. |
ShingleTokenFilter
Skapar kombinationer av token som en enda token. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
filterToken |
string |
_ |
Strängen som ska infogas för varje position där det inte finns någon token. Standardvärdet är ett understreck ("_"). |
maxShingleSize |
integer |
2 |
Maximal bältrosstorlek. Standardvärdet och minimivärdet är 2. |
minShingleSize |
integer |
2 |
Minsta bältrosstorlek. Standardvärdet och minimivärdet är 2. Måste vara mindre än värdet för maxShingleSize. |
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
outputUnigrams |
boolean |
True |
Ett värde som anger om utdataströmmen ska innehålla indatatoken (unigram) samt bältros. Standardvärdet är true. |
outputUnigramsIfNoShingles |
boolean |
False |
Ett värde som anger om unigram ska matas ut för de tider då inga bältros är tillgängliga. Den här egenskapen har företräde när outputUnigrams är inställt på false. Standardvärdet är false. |
tokenSeparator |
string |
Strängen som ska användas när du ansluter intilliggande token för att bilda en bältros. Standardvärdet är ett enda blanksteg (" "). |
SnowballTokenFilter
Ett filter som stjälkar ord med hjälp av en Snowball-genererad stemmer. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
language |
Språket som ska användas. |
|
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
SnowballTokenFilterLanguage
Det språk som ska användas för ett Snowball-tokenfilter.
Name | Typ | Description |
---|---|---|
armenian |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för armeniska. |
basque |
string |
Väljer Lucene Snowball som ordstamstokeniserare för baskiska. |
catalan |
string |
Väljer Lucene Snowball-ordstavstokeniseraren för katalanska. |
danish |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för danska. |
dutch |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för nederländska. |
english |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för engelska. |
finnish |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för finska. |
french |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för franska. |
german |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för tyska. |
german2 |
string |
Väljer lucene snowball-ordstamstokeniseraren som använder den tyska variantalgoritmen. |
hungarian |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för ungerska. |
italian |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för italienska. |
kp |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för nederländska som använder Kraaij-Pohlmann ordstamsalgoritm. |
lovins |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för engelska som använder Lovins-ordstamsalgoritmen. |
norwegian |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för norska. |
porter |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för engelska som använder porteringsstamsalgoritmen. |
portuguese |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för portugisiska. |
romanian |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för rumänska. |
russian |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för ryska. |
spanish |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för spanska. |
swedish |
string |
Väljer Lucene Snowball-ordstavstokeniseraren för svenska. |
turkish |
string |
Väljer Lucene Snowball-ordstamstokeniseraren för turkiska. |
StemmerOverrideTokenFilter
Ger möjlighet att åsidosätta andra härdningsfilter med anpassad ordlistebaserad härdning. Ordlisteskaftade termer markeras som nyckelord så att de inte kommer att stoppas med stemmers längre ned i kedjan. Måste placeras före eventuella härdningsfilter. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
rules |
string[] |
En lista över härstamningsregler i följande format: "word => stem", till exempel: "ran => run". |
StemmerTokenFilter
Språkspecifikt härdningsfilter. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
language |
Språket som ska användas. |
|
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
StemmerTokenFilterLanguage
Det språk som ska användas för ett stemmer-tokenfilter.
Name | Typ | Description |
---|---|---|
arabic |
string |
Väljer Lucene-ordstamstokeniseraren för arabiska. |
armenian |
string |
Väljer Lucene-ordstamstokeniseraren för armeniska. |
basque |
string |
Väljer Lucene-ordstamstokeniseraren för baskiska. |
brazilian |
string |
Väljer Lucene-ordstamstokeniseraren för portugisiska (Brasilien). |
bulgarian |
string |
Väljer Lucene-ordstamstokeniseraren för bulgariska. |
catalan |
string |
Väljer Lucene-ordstamstokeniseraren för katalanska. |
czech |
string |
Väljer Lucene-ordstamstokeniseraren för tjeckiska. |
danish |
string |
Väljer Lucene-ordstamstokeniseraren för danska. |
dutch |
string |
Väljer Lucene-ordstamstokeniseraren för nederländska. |
dutchKp |
string |
Väljer Lucene-ordstamstokeniseraren för nederländska som använder Kraaij-Pohlmann ordstamsalgoritm. |
english |
string |
Väljer Lucene-ordstamstokeniseraren för engelska. |
finnish |
string |
Väljer Lucene-ordstamstokeniseraren för finska. |
french |
string |
Väljer Lucene-ordstamstokeniseraren för franska. |
galician |
string |
Väljer Lucene-ordstamstokeniseraren för galiciska. |
german |
string |
Väljer Lucene-ordstamstokeniseraren för tyska. |
german2 |
string |
Väljer lucene-ordstamstokeniseraren som använder den tyska variantalgoritmen. |
greek |
string |
Väljer Lucene-ordstamstokeniseraren för grekiska. |
hindi |
string |
Väljer Lucene-ordstamstokeniseraren för Hindi. |
hungarian |
string |
Väljer Lucene-ordstamstokeniseraren för ungerska. |
indonesian |
string |
Väljer Lucene-ordstamstokeniseraren för indonesiska. |
irish |
string |
Väljer Lucene-ordstamstokeniseraren för iriska. |
italian |
string |
Väljer Lucene-ordstamstokeniseraren för italienska. |
latvian |
string |
Väljer Lucene-ordstamstokeniseraren för lettiska. |
lightEnglish |
string |
Väljer Lucene-ordstamstokeniseraren för engelska som utför lätt ordstamsigenkänning. |
lightFinnish |
string |
Väljer Lucene-ordstamstokeniseraren för finska som utför lätt ordstamsigenkänning. |
lightFrench |
string |
Väljer Lucene-ordstamstokeniseraren för franska som gör lätt ordstamsigenkänning. |
lightGerman |
string |
Väljer Lucene-ordstamstokeniseraren för tyska som utför lätt ordstamsigenkänning. |
lightHungarian |
string |
Väljer Lucene-ordstamstokeniseraren för ungerska som utför lätt ordstamsigenkänning. |
lightItalian |
string |
Väljer Lucene-ordstamstokeniseraren för italienska som utför lätt ordstamsigenkänning. |
lightNorwegian |
string |
Väljer Lucene-ordstamstokeniseraren för norska (Bokmål) som utför lätt ordstamsigenkänning. |
lightNynorsk |
string |
Väljer Lucene-ordstamstokeniseraren för norska (Nynorsk) som utför lätt ordstamsigenkänning. |
lightPortuguese |
string |
Väljer Lucene-ordstamstokeniseraren för portugisiska som utför lätt ordstamsigenkänning. |
lightRussian |
string |
Väljer Lucene-ordstamstokeniseraren för ryska som utför lätt ordstamsigenkänning. |
lightSpanish |
string |
Väljer Lucene-ordstamstokeniseraren för spanska som utför lätt ordstamsigenkänning. |
lightSwedish |
string |
Väljer Lucene-ordstamstokeniseraren för svenska som utför lätt ordstamsigenkänning. |
lovins |
string |
Väljer Lucene-ordstamstokeniseraren för engelska som använder Lovins-ordstamsalgoritmen. |
minimalEnglish |
string |
Väljer Lucene-ordstamstokeniseraren för engelska som gör minimalt med ordstamsigenkänning. |
minimalFrench |
string |
Väljer Lucene-ordstamstokeniseraren för franska som gör minimalt med ordstamsigenkänning. |
minimalGalician |
string |
Väljer Lucene-ordstamstokeniseraren för galiciska som gör minimalt med ordstamsigenkänning. |
minimalGerman |
string |
Väljer Lucene-ordstamstokeniseraren för tyska som gör minimalt med ordstamsigenkänning. |
minimalNorwegian |
string |
Väljer Lucene-ordstamstokeniseraren för norska (Bokmål) som gör minimalt med ordstamsigenkänning. |
minimalNynorsk |
string |
Väljer Lucene-ordstamstokeniseraren för norska (Nynorsk) som gör minimalt med ordstamsigenkänning. |
minimalPortuguese |
string |
Väljer Lucene-ordstamstokeniseraren för portugisiska som gör minimalt med ordstamsigenkänning. |
norwegian |
string |
Väljer Lucene-ordstamstokeniseraren för norska (Bokmål). |
porter2 |
string |
Väljer Lucene-ordstamstokeniseraren för engelska som använder Porter2-ordstamsalgoritmen. |
portuguese |
string |
Väljer Lucene-ordstamstokeniseraren för portugisiska. |
portugueseRslp |
string |
Väljer Lucene-ordstamstokeniseraren för portugisiska som använder RSLP-ordstamsalgoritmen. |
possessiveEnglish |
string |
Väljer Lucene-ordstamstokeniseraren för engelska som tar bort avslutande possessiva ord. |
romanian |
string |
Väljer Lucene-ordstamstokeniseraren för rumänska. |
russian |
string |
Väljer Lucene-ordstamstokeniseraren för ryska. |
sorani |
string |
Väljer Lucene-ordstamstokeniseraren för Sorani. |
spanish |
string |
Väljer Lucene-ordstamstokeniseraren för spanska. |
swedish |
string |
Väljer Lucene-ordstamstokeniseraren för svenska. |
turkish |
string |
Väljer Lucene-ordstamstokeniseraren för turkiska. |
StopAnalyzer
Delar upp text med icke-bokstäver; Använder tokenfiltren med gemener och stoppord. Den här analysatorn implementeras med Apache Lucene.
Name | Typ | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av analysverktyg. |
name |
string |
Namnet på analysatorn. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
stopwords |
string[] |
En lista över stoppord. |
StopwordsList
Identifierar en fördefinierad lista över språkspecifika stoppord.
Name | Typ | Description |
---|---|---|
arabic |
string |
Väljer stoppordslistan för arabiska. |
armenian |
string |
Väljer stoppordslistan för armeniska. |
basque |
string |
Väljer stoppordslistan för Baskiska. |
brazilian |
string |
Väljer stoppordslistan för portugisiska (Brasilien). |
bulgarian |
string |
Väljer stoppordslistan för bulgariska. |
catalan |
string |
Väljer stoppordslistan för katalanska. |
czech |
string |
Väljer stoppordslistan för tjeckiska. |
danish |
string |
Väljer stoppordslistan för danska. |
dutch |
string |
Väljer stoppordslistan för nederländska. |
english |
string |
Väljer stoppordslistan för engelska. |
finnish |
string |
Väljer stoppordslistan för finska. |
french |
string |
Väljer stoppordslistan för franska. |
galician |
string |
Väljer stoppordslistan för galiciska. |
german |
string |
Väljer stoppordslistan för tyska. |
greek |
string |
Väljer stoppordslistan för grekiska. |
hindi |
string |
Väljer stoppordslistan för Hindi. |
hungarian |
string |
Väljer stoppordslistan för ungerska. |
indonesian |
string |
Väljer stoppordslistan för indonesiska. |
irish |
string |
Väljer stoppordslistan för iriska. |
italian |
string |
Väljer stoppordslistan för italienska. |
latvian |
string |
Väljer stoppordslistan för lettiska. |
norwegian |
string |
Väljer stoppordslistan för norska. |
persian |
string |
Väljer stoppordslistan för persiska. |
portuguese |
string |
Väljer stoppordslistan för portugisiska. |
romanian |
string |
Väljer stoppordslistan för rumänska. |
russian |
string |
Väljer stoppordslistan för ryska. |
sorani |
string |
Väljer stoppordslistan för Sorani. |
spanish |
string |
Väljer stoppordslistan för spanska. |
swedish |
string |
Väljer stoppordslistan för svenska. |
thai |
string |
Väljer stoppordslistan för thailändska. |
turkish |
string |
Väljer stoppordslistan för turkiska. |
StopwordsTokenFilter
Tar bort stoppord från en tokenström. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
ignoreCase |
boolean |
False |
Ett värde som anger om skiftläge ska ignoreras. Om det är sant konverteras alla ord till gemener först. Standardvärdet är false. |
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
removeTrailing |
boolean |
True |
Ett värde som anger om den sista söktermen ska ignoreras om det är ett stoppord. Standardvärdet är true. |
stopwords |
string[] |
Listan över stoppord. Både den här egenskapen och egenskapen stopwords list kan inte anges. |
|
stopwordsList | english |
En fördefinierad lista över stoppord som ska användas. Både den här egenskapen och egenskapen stopwords kan inte anges. Standardvärdet är engelska. |
Suggester
Definierar hur API:et Föreslå ska tillämpas på en grupp med fält i indexet.
Name | Typ | Description |
---|---|---|
name |
string |
Namnet på förslagsspelaren. |
searchMode |
Ett värde som anger förslagsverktygets funktioner. |
|
sourceFields |
string[] |
Listan med fältnamn som förslagsväljaren gäller för. Varje fält måste vara sökbart. |
SuggesterSearchMode
Ett värde som anger förslagsverktygets funktioner.
Name | Typ | Description |
---|---|---|
analyzingInfixMatching |
string |
Matchar hela termer och prefix i ett fält i följd. För fältet "Den snabbaste bruna räven" skulle till exempel frågorna "snabb" och "snabbaste panna" båda matcha. |
SynonymTokenFilter
Matchar synonymer med en eller flera ord i en tokenström. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
expand |
boolean |
True |
Ett värde som anger om alla ord i listan över synonymer (om => notation inte används) mappas till varandra. Om det är sant mappas alla ord i listan med synonymer (om => notation inte används) till varandra. Följande lista: otroligt, otroligt, fantastiskt, fantastiskt motsvarar: otroligt, otroligt, fantastiskt, fantastiskt => otroligt, otroligt, fantastiskt, fantastiskt, fantastiskt. Om falskt, följande lista: otroligt, otroligt, fantastiskt, fantastiskt kommer att motsvara: otroligt, otroligt, fantastiskt, fantastiskt => otroligt. Standardvärdet är true. |
ignoreCase |
boolean |
False |
Ett värde som anger om indata ska skiftlägesviktas för matchning. Standardvärdet är false. |
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
synonyms |
string[] |
En lista över synonymer i följande två format: 1. otroligt, otroligt, fantastiskt => fantastiskt - alla termer på vänster sida av => symbolen kommer att ersättas med alla termer på sin högra sida; 2. otroligt, otroligt, fantastiskt, fantastiskt - kommaavgränsad lista över motsvarande ord. Ange alternativet expandera om du vill ändra hur den här listan ska tolkas. |
TagScoringFunction
Definierar en funktion som ökar poängen med dokument med strängvärden som matchar en viss lista med taggar.
Name | Typ | Description |
---|---|---|
boost |
number |
En multiplikator för råpoängen. Måste vara ett positivt tal som inte är lika med 1,0. |
fieldName |
string |
Namnet på fältet som används som indata till bedömningsfunktionen. |
interpolation |
Ett värde som anger hur en ökning kommer att interpoleras mellan dokumentpoäng. standardvärdet "Linjär". |
|
tag |
Parametervärden för taggbedömningsfunktionen. |
|
type |
string:
tag |
Anger vilken typ av funktion som ska användas. Giltiga värden är storlek, färskhet, avstånd och tagg. Funktionstypen måste vara gemen. |
TagScoringParameters
Tillhandahåller parametervärden till en taggbedömningsfunktion.
Name | Typ | Description |
---|---|---|
tagsParameter |
string |
Namnet på parametern som skickas i sökfrågor för att ange listan med taggar som ska jämföras med målfältet. |
TextWeights
Definierar vikter för indexfält för vilka matchningar ska öka poängsättningen i sökfrågor.
Name | Typ | Description |
---|---|---|
weights |
object |
Ordlistan med vikter per fält för att öka dokumentbedömningen. Nycklarna är fältnamn och värdena är vikterna för varje fält. |
TokenCharacterKind
Representerar klasser med tecken som ett tokenfilter kan använda.
Name | Typ | Description |
---|---|---|
digit |
string |
Behåller siffror i token. |
letter |
string |
Behåller bokstäver i token. |
punctuation |
string |
Behåller skiljetecken i token. |
symbol |
string |
Behåller symboler i token. |
whitespace |
string |
Behåller tomt utrymme i token. |
TokenFilterName
Definierar namnen på alla tokenfilter som stöds av sökmotorn.
TruncateTokenFilter
Trunkerar termerna till en viss längd. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
length |
integer |
300 |
Längden på vilka termer kommer att trunkeras. Standard och max är 300. |
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
UaxUrlEmailTokenizer
Tokeniserar URL:ar och e-postmeddelanden som en token. Den här tokeniseraren implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typen av tokeniserare. |
|
maxTokenLength |
integer |
255 |
Maximal tokenlängd. Standardvärdet är 255. Token som är längre än den maximala längden delas. Den maximala tokenlängden som kan användas är 300 tecken. |
name |
string |
Namnet på tokenizern. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
UniqueTokenFilter
Filtrerar bort token med samma text som föregående token. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, kan bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
onlyOnSamePosition |
boolean |
False |
Ett värde som anger om du bara vill ta bort dubbletter på samma position. Standardvärdet är false. |
VectorSearch
Innehåller konfigurationsalternativ relaterade till vektorsökning.
Name | Typ | Description |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Innehåller konfigurationsalternativ som är specifika för algoritmen som används vid indexering eller frågor. |
profiles |
Definierar kombinationer av konfigurationer som ska användas med vektorsökning. |
|
vectorizers | VectorSearchVectorizer[]: |
Innehåller konfigurationsalternativ för hur du vektoriserar textvektorfrågor. |
VectorSearchAlgorithmKind
Algoritmen som används för indexering och frågor.
Name | Typ | Description |
---|---|---|
exhaustiveKnn |
string |
Uttömmande KNN-algoritm som utför brute-force-sökning. |
hnsw |
string |
HNSW (Hierarchical Navigable Small World), en typ av ungefärlig algoritm för närmaste grannar. |
VectorSearchAlgorithmMetric
Likhetsmåttet som ska användas för vektorjämförelser.
Name | Typ | Description |
---|---|---|
cosine |
string |
|
dotProduct |
string |
|
euclidean |
string |
VectorSearchProfile
Definierar en kombination av konfigurationer som ska användas med vektorsökning.
Name | Typ | Description |
---|---|---|
algorithm |
string |
Namnet på vektorsökningsalgoritmens konfiguration som anger algoritmen och valfria parametrar. |
name |
string |
Namnet som ska associeras med den här specifika vektorsökningsprofilen. |
vectorizer |
string |
Namnet på den typ av vektoriseringsmetod som konfigureras för användning med vektorsökning. |
VectorSearchVectorizerKind
Den vektoriseringsmetod som ska användas under frågetiden.
Name | Typ | Description |
---|---|---|
azureOpenAI |
string |
Generera inbäddningar med hjälp av en Azure OpenAI-resurs vid frågetillfället. |
customWebApi |
string |
Generera inbäddningar med hjälp av en anpassad webbslutpunkt vid frågetillfället. |
WordDelimiterTokenFilter
Delar upp ord i underord och utför valfria transformeringar i underordsgrupper. Det här tokenfiltret implementeras med Apache Lucene.
Name | Typ | Standardvärde | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ett URI-fragment som anger typ av tokenfilter. |
|
catenateAll |
boolean |
False |
Ett värde som anger om alla underordsdelar ska kategoriseras. Om detta till exempel är inställt på sant blir "Azure-Search-1" "AzureSearch1". Standardvärdet är false. |
catenateNumbers |
boolean |
False |
Ett värde som anger om maximala körningar av antal delar kommer att catenated. Om detta till exempel är inställt på sant blir "1–2" "12". Standardvärdet är false. |
catenateWords |
boolean |
False |
Ett värde som anger om maximala körningar av orddelar kommer att catenated. Om detta till exempel är inställt på sant blir "Azure-Search" "AzureSearch". Standardvärdet är false. |
generateNumberParts |
boolean |
True |
Ett värde som anger om nummerunderord ska genereras. Standardvärdet är true. |
generateWordParts |
boolean |
True |
Ett värde som anger om delord ska genereras. Om det anges genereras delar av ord. till exempel "AzureSearch" blir "Azure" "Search". Standardvärdet är true. |
name |
string |
Namnet på tokenfiltret. Den får bara innehålla bokstäver, siffror, blanksteg, bindestreck eller understreck, får bara börja och sluta med alfanumeriska tecken och är begränsad till 128 tecken. |
|
preserveOriginal |
boolean |
False |
Ett värde som anger om ursprungliga ord ska bevaras och läggas till i underordslistan. Standardvärdet är false. |
protectedWords |
string[] |
En lista över token som ska skyddas från att avgränsas. |
|
splitOnCaseChange |
boolean |
True |
Ett värde som anger om ord ska delas i caseChange. Om detta till exempel är inställt på sant blir "AzureSearch" "Azure" "Search". Standardvärdet är true. |
splitOnNumerics |
boolean |
True |
Ett värde som anger om tal ska delas upp. Om detta till exempel är inställt på sant blir "Azure1Search" "Azure" "1" "Search". Standardvärdet är true. |
stemEnglishPossessive |
boolean |
True |
Ett värde som anger om du vill ta bort avslutande "'s" för varje underord. Standardvärdet är true. |