Indexes - Create
Hiermee maakt u een nieuwe zoekindex.
POST {endpoint}/indexes?api-version=2024-07-01
URI-parameters
Name | In | Vereist | Type | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
De eindpunt-URL van de zoekservice. |
api-version
|
query | True |
string |
Client-API-versie. |
Aanvraagkoptekst
Name | Vereist | Type | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
De tracerings-id die is verzonden met de aanvraag om hulp te bieden bij foutopsporing. |
Aanvraagbody
Name | Vereist | Type | Description |
---|---|---|---|
fields | True |
De velden van de index. |
|
name | True |
string |
De naam van de index. |
@odata.etag |
string |
De ETag van de index. |
|
analyzers | LexicalAnalyzer[]: |
De analyses voor de index. |
|
charFilters | CharFilter[]: |
Het teken filtert voor de index. |
|
corsOptions |
Opties voor het beheren van CORS (Cross-Origin Resource Sharing) voor de index. |
||
defaultScoringProfile |
string |
De naam van het scoreprofiel dat moet worden gebruikt als er geen is opgegeven in de query. Als deze eigenschap niet is ingesteld en er geen scoreprofiel is opgegeven in de query, wordt standaardscore (tf-idf) gebruikt. |
|
encryptionKey |
Een beschrijving van een versleutelingssleutel die u in Azure Key Vault maakt. Deze sleutel wordt gebruikt om een extra versleutelings-at-rest-niveau voor uw gegevens te bieden wanneer u volledige zekerheid wilt dat niemand, zelfs Microsoft, uw gegevens kan ontsleutelen. Zodra u uw gegevens hebt versleuteld, blijven deze altijd versleuteld. De zoekservice negeert pogingen om deze eigenschap in te stellen op null. U kunt deze eigenschap indien nodig wijzigen als u uw versleutelingssleutel wilt draaien; Uw gegevens worden niet beïnvloed. Versleuteling met door de klant beheerde sleutels is niet beschikbaar voor gratis zoekservices en is alleen beschikbaar voor betaalde services die zijn gemaakt op of na 1 januari 2019. |
||
scoringProfiles |
De scoreprofielen voor de index. |
||
semantic |
Hiermee definieert u parameters voor een zoekindex die van invloed zijn op semantische mogelijkheden. |
||
similarity | Similarity: |
Het type gelijkenis-algoritme dat moet worden gebruikt bij het scoren en rangschiken van de documenten die overeenkomen met een zoekquery. Het gelijkenis-algoritme kan alleen worden gedefinieerd tijdens het maken van de index en kan niet worden gewijzigd in bestaande indexen. Als null is, wordt het algoritme ClassicSimilarity gebruikt. |
|
suggesters |
De suggesties voor de index. |
||
tokenFilters |
TokenFilter[]:
|
Het tokenfiltert voor de index. |
|
tokenizers | LexicalTokenizer[]: |
De tokenizers voor de index. |
|
vectorSearch |
Bevat configuratieopties met betrekking tot vectorzoekopdrachten. |
Antwoorden
Name | Type | Description |
---|---|---|
201 Created | ||
Other Status Codes |
Foutreactie. |
Voorbeelden
SearchServiceCreateIndex
Voorbeeldaanvraag
POST https://myservice.search.windows.net/indexes?api-version=2024-07-01
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile"
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile"
},
{
"name": "descriptionEmbedding_forBQ",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswBQProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "nameEmbedding",
"type": "Collection(Edm.Half)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": "<applicationSecret>"
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myHnswSQProfile",
"algorithm": "myHnsw",
"compression": "mySQ8"
},
{
"name": "myHnswBQProfile",
"algorithm": "myHnsw",
"compression": "myBQ"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine"
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
},
{
"name": "myBQ",
"kind": "binaryQuantization",
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
]
}
}
Voorbeeldrespons
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile",
"synonymMaps": []
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile"
},
{
"name": "descriptionEmbedding_forBQ",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswBQProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "nameEmbedding",
"type": "Collection(Edm.Half)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenFilters": [],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myHnswSQProfile",
"algorithm": "myHnsw",
"compression": "mySQ8"
},
{
"name": "myHnswBQProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi",
"compression": "myBQ"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
},
{
"name": "myBQ",
"kind": "binaryQuantization",
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
]
}
}
Definities
Name | Description |
---|---|
Ascii |
Converteert alfabetische, numerieke en symbolische Unicode-tekens die zich niet in de eerste 127 ASCII-tekens (het Unicode-blok Basis latijns) bevinden in hun ASCII-equivalenten, als dergelijke equivalenten bestaan. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Azure |
Referenties van een geregistreerde toepassing die is gemaakt voor uw zoekservice, die wordt gebruikt voor geverifieerde toegang tot de versleutelingssleutels die zijn opgeslagen in Azure Key Vault. |
Azure |
Hiermee kunt u een vector insluiten voor een bepaalde tekstinvoer genereren met behulp van de Azure OpenAI-resource. |
Azure |
De naam van het Azure Open AI-model die wordt aangeroepen. |
Azure |
Hiermee geeft u de parameters voor het maken van verbinding met de Azure OpenAI-resource. |
Azure |
Hiermee geeft u de Azure OpenAI-resource op die wordt gebruikt om een queryreeks te vectoriseren. |
Binary |
Bevat configuratieopties die specifiek zijn voor de binaire kwantisatiecompressiemethode die wordt gebruikt tijdens het indexeren en uitvoeren van query's. |
BM25Similarity |
Classificatiefunctie op basis van het okapi BM25-gelijkenis-algoritme. BM25 is een TF-IDF-achtig algoritme dat lengtenormalisatie omvat (beheerd door de parameter b) en termfrequentieverzadiging (beheerd door de parameter k1). |
Char |
Hiermee definieert u de namen van alle tekenfilters die worden ondersteund door de zoekmachine. |
Cjk |
Vormt bigrams van CJK-termen die worden gegenereerd op basis van de standaardtokenizer. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Cjk |
Scripts die kunnen worden genegeerd door CjkBigramTokenFilter. |
Classic |
Verouderd gelijkenis-algoritme dat gebruikmaakt van de Lucene TFIDFSimilarity-implementatie van TF-IDF. Deze variatie van TF-IDF introduceert normalisatie van statische documentlengten en coördinatiefactoren die documenten bestraffen die slechts gedeeltelijk overeenkomen met de doorzochte query's. |
Classic |
Op grammatica gebaseerde tokenizer die geschikt is voor het verwerken van de meeste Europese documenten. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene. |
Common |
Bouw bigrams voor veelgebruikte termen tijdens het indexeren. Ook enkele termen worden nog steeds geïndexeerd, waarbij bigrams over elkaar heen worden weergegeven. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Cors |
Hiermee definieert u opties voor het beheren van CORS (Cross-Origin Resource Sharing) voor een index. |
Custom |
Hiermee kunt u de controle overnemen over het proces van het converteren van tekst naar indexeerbare/doorzoekbare tokens. Het is een door de gebruiker gedefinieerde configuratie die bestaat uit één vooraf gedefinieerde tokenizer en een of meer filters. De tokenizer is verantwoordelijk voor het breken van tekst in tokens en de filters voor het wijzigen van tokens die door de tokenizer worden verzonden. |
Dictionary |
Ontleden samengestelde woorden in veel Duitstalige talen. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Distance |
Definieert een functie die scores verhoogt op basis van afstand van een geografische locatie. |
Distance |
Biedt parameterwaarden voor een scorefunctie voor afstand. |
Edge |
Hiermee genereert u n-grammen van de opgegeven grootte(s) vanaf de voor- of achterkant van een invoertoken. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Edge |
Hiermee geeft u aan op welke kant van de invoer een n-gram moet worden gegenereerd. |
Edge |
Hiermee genereert u n-grammen van de opgegeven grootte(s) vanaf de voor- of achterkant van een invoertoken. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Edge |
Hiermee wordt de invoer van een rand omgezet in n-grammen van de opgegeven grootte(en). Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene. |
Elision |
Verwijdert elisions. "l'avion" (het vliegtuig) wordt bijvoorbeeld geconverteerd naar "avion" (vliegtuig). Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Error |
Aanvullende informatie over de resourcebeheerfout. |
Error |
De foutdetails. |
Error |
Foutreactie |
Exhaustive |
Bevat de parameters die specifiek zijn voor een volledig KNN-algoritme. |
Exhaustive |
Bevat configuratieopties die specifiek zijn voor het uitgebreide KNN-algoritme dat wordt gebruikt tijdens het uitvoeren van query's, waarmee brute-force zoekopdrachten worden uitgevoerd in de gehele vectorindex. |
Freshness |
Definieert een functie die scores verhoogt op basis van de waarde van een datum/tijd-veld. |
Freshness |
Biedt parameterwaarden voor een scorefunctie voor nieuwheid. |
Hnsw |
Bevat de parameters die specifiek zijn voor het HNSW-algoritme. |
Hnsw |
Bevat configuratieopties die specifiek zijn voor het HNSW-algoritme bij benadering dichtstbijzijnde buren dat wordt gebruikt tijdens het indexeren en uitvoeren van query's. Het HNSW-algoritme biedt een niet-afwisseling tussen zoeksnelheid en nauwkeurigheid. |
Input |
Invoerveldtoewijzing voor een vaardigheid. |
Keep |
Een tokenfilter dat alleen tokens met tekst in een opgegeven lijst met woorden bewaart. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Keyword |
Hiermee worden termen gemarkeerd als trefwoorden. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Keyword |
Hiermee wordt de volledige invoer als één token verzonden. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene. |
Keyword |
Hiermee wordt de volledige invoer als één token verzonden. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene. |
Length |
Hiermee verwijdert u woorden die te lang of te kort zijn. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Lexical |
Definieert de namen van alle tekstanalyses die worden ondersteund door de zoekmachine. |
Lexical |
Hiermee definieert u de namen van alle tokenizers die worden ondersteund door de zoekmachine. |
Limit |
Beperkt het aantal tokens tijdens het indexeren. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Lucene |
Standard Apache Lucene Analyzer; Samengesteld uit de standaardtokenizer, het filter in kleine letters en het stopfilter. |
Lucene |
Hiermee wordt de tekst onderbreekt volgens de unicode-regels voor tekstsegmentatie. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene. |
Lucene |
Hiermee wordt de tekst onderbreekt volgens de unicode-regels voor tekstsegmentatie. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene. |
Magnitude |
Definieert een functie die scores verhoogt op basis van de grootte van een numeriek veld. |
Magnitude |
Biedt parameterwaarden voor een scorefunctie voor de grootte. |
Mapping |
Een tekenfilter waarmee toewijzingen worden toegepast die zijn gedefinieerd met de optie Toewijzingen. Overeenkomende waarden zijn greedy (langste patroonkoppeling op een bepaald punt wint). Vervanging mag de lege tekenreeks zijn. Dit tekenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Microsoft |
Verdeelt tekst met taalspecifieke regels en vermindert woorden tot de basisformulieren. |
Microsoft |
Verdeelt tekst met taalspecifieke regels. |
Microsoft |
Hier vindt u een lijst met de talen die worden ondersteund door de Microsoft language stemming tokenizer. |
Microsoft |
Geeft een lijst van de talen die worden ondersteund door de Microsoft-taaltokenizer. |
NGram |
Hiermee worden n-grammen van de opgegeven grootte(n) gegenereerd. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
NGram |
Hiermee worden n-grammen van de opgegeven grootte(n) gegenereerd. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
NGram |
Hiermee wordt de invoer in n-grammen van de opgegeven grootte(n) tokenizes. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene. |
Output |
Uitvoerveldtoewijzing voor een vaardigheid. |
Path |
Tokenizer voor padachtige hiërarchieën. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene. |
Pattern |
Scheidt tekst flexibel in termen via een normaal expressiepatroon. Deze analyse wordt geïmplementeerd met behulp van Apache Lucene. |
Pattern |
Gebruikt Java-regexes om meerdere tokens te verzenden: één voor elke capturegroep in een of meer patronen. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Pattern |
Een tekenfilter dat tekens in de invoertekenreeks vervangt. Er wordt een reguliere expressie gebruikt om tekenreeksen te identificeren die moeten worden bewaard en een vervangend patroon om tekens te identificeren die moeten worden vervangen. Als u bijvoorbeeld de invoertekst 'aa bb aa bb bb', patroon '(aa)\s+(bb)' en vervanging '$1#$2' invoert, zou het resultaat 'aa#bb aa#bb' zijn. Dit tekenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Pattern |
Een tekenfilter dat tekens in de invoertekenreeks vervangt. Er wordt een reguliere expressie gebruikt om tekenreeksen te identificeren die moeten worden bewaard en een vervangend patroon om tekens te identificeren die moeten worden vervangen. Als u bijvoorbeeld de invoertekst 'aa bb aa bb bb', patroon '(aa)\s+(bb)' en vervanging '$1#$2' invoert, zou het resultaat 'aa#bb aa#bb' zijn. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Pattern |
Tokenizer die gebruikmaakt van regex-patroon dat overeenkomt met het samenstellen van afzonderlijke tokens. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene. |
Phonetic |
Hiermee wordt het type fonetische encoder geïdentificeerd dat moet worden gebruikt met een FonetischTokenFilter. |
Phonetic |
Tokens maken voor fonetische overeenkomsten. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Prioritized |
Beschrijft de velden titel, inhoud en trefwoorden die moeten worden gebruikt voor semantische rangschikking, bijschriften, hoogtepunten en antwoorden. |
Regex |
Definieert vlaggen die kunnen worden gecombineerd om te bepalen hoe reguliere expressies worden gebruikt in de patroonanalyse en patroontokenizer. |
Scalar |
Bevat de parameters die specifiek zijn voor Scalaire kwantisatie. |
Scalar |
Bevat configuratieopties die specifiek zijn voor de scalaire kwantisatiecompressiemethode die wordt gebruikt tijdens het indexeren en uitvoeren van query's. |
Scoring |
Definieert de aggregatiefunctie die wordt gebruikt om de resultaten van alle scorefuncties in een scoreprofiel te combineren. |
Scoring |
Definieert de functie die wordt gebruikt voor het interpoleren van scoreverhoging in een reeks documenten. |
Scoring |
Definieert parameters voor een zoekindex die van invloed zijn op scoren in zoekquery's. |
Search |
Vertegenwoordigt een veld in een indexdefinitie, waarin de naam, het gegevenstype en het zoekgedrag van een veld worden beschreven. |
Search |
Hiermee definieert u het gegevenstype van een veld in een zoekindex. |
Search |
Vertegenwoordigt een definitie van een zoekindex, waarin de velden en het zoekgedrag van een index worden beschreven. |
Search |
Hiermee wist u de identiteitseigenschap van een gegevensbron. |
Search |
Hiermee geeft u de identiteit op voor een gegevensbron die moet worden gebruikt. |
Search |
Een door de klant beheerde versleutelingssleutel in Azure Key Vault. Sleutels die u maakt en beheert, kunnen worden gebruikt voor het versleutelen of ontsleutelen van data-at-rest, zoals indexen en synoniemenkaarten. |
Semantic |
Definieert een specifieke configuratie die moet worden gebruikt in de context van semantische mogelijkheden. |
Semantic |
Een veld dat wordt gebruikt als onderdeel van de semantische configuratie. |
Semantic |
Hiermee definieert u parameters voor een zoekindex die van invloed zijn op semantische mogelijkheden. |
Shingle |
Hiermee maakt u combinaties van tokens als één token. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Snowball |
Een filter dat woorden stamt met behulp van een door Snowball gegenereerde stemmer. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Snowball |
De taal die moet worden gebruikt voor een Snowball-tokenfilter. |
Stemmer |
Biedt de mogelijkheid om andere stemmingsfilters te overschrijven met aangepaste stemming op basis van woordenlijst. Alle woordenlijstgestemde termen worden gemarkeerd als trefwoorden, zodat ze niet worden afgestemd met stemmers in de keten. Moet vóór stemmingsfilters worden geplaatst. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Stemmer |
Taalspecifiek stemmingsfilter. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Stemmer |
De taal die moet worden gebruikt voor een stemmer-tokenfilter. |
Stop |
Verdeelt tekst bij niet-letters; Hiermee past u de tokenfilters voor kleine letters en stopworden toe. Deze analyse wordt geïmplementeerd met behulp van Apache Lucene. |
Stopwords |
Identificeert een vooraf gedefinieerde lijst met taalspecifieke stopwoorden. |
Stopwords |
Hiermee verwijdert u stopwoorden uit een tokenstroom. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Suggester |
Hiermee definieert u hoe de Suggestie-API moet worden toegepast op een groep velden in de index. |
Suggester |
Een waarde die de mogelijkheden van de suggestie aangeeft. |
Synonym |
Komt overeen met synoniemen met één of meerdere woorden in een tokenstroom. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Tag |
Definieert een functie waarmee scores van documenten worden verhoogd met tekenreekswaarden die overeenkomen met een bepaalde lijst met tags. |
Tag |
Biedt parameterwaarden voor een scorefunctie voor tags. |
Text |
Definieert gewichten voor indexvelden waarvoor overeenkomsten het scoren in zoekquery's moeten verhogen. |
Token |
Vertegenwoordigt klassen van tekens waarop een tokenfilter kan worden gebruikt. |
Token |
Hiermee definieert u de namen van alle tokenfilters die worden ondersteund door de zoekmachine. |
Truncate |
Kapt de voorwaarden af tot een specifieke lengte. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Uax |
Hiermee worden URL's en e-mailberichten als één token gewijzigd. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene. |
Unique |
Hiermee worden tokens gefilterd met dezelfde tekst als het vorige token. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Vector |
De coderingsindeling voor het interpreteren van vectorveldinhoud. |
Vector |
Bevat configuratieopties met betrekking tot vectorzoekopdrachten. |
Vector |
Het algoritme dat wordt gebruikt voor het indexeren en uitvoeren van query's. |
Vector |
De metrische overeenkomstwaarde die moet worden gebruikt voor vectorvergelijkingen. Het wordt aanbevolen om dezelfde overeenkomstwaarde te kiezen als het insluitmodel waarop is getraind. |
Vector |
De compressiemethode die wordt gebruikt voor het indexeren en uitvoeren van query's. |
Vector |
Het gekwantiseerde gegevenstype van gecomprimeerde vectorwaarden. |
Vector |
Definieert een combinatie van configuraties die moeten worden gebruikt met vectorzoekopdrachten. |
Vector |
De vectorisatiemethode die moet worden gebruikt tijdens de querytijd. |
Web |
Hiermee geeft u de eigenschappen voor het maken van verbinding met een door de gebruiker gedefinieerde vectorizer. |
Web |
Hiermee geeft u een door de gebruiker gedefinieerde vectorizer op voor het genereren van de vectorinsluiting van een queryreeks. Integratie van een externe vectorizer wordt bereikt met behulp van de aangepaste web-API-interface van een vaardighedenset. |
Word |
Splitst woorden in subwoorden en voert optionele transformaties uit voor subwoordgroepen. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
AsciiFoldingTokenFilter
Converteert alfabetische, numerieke en symbolische Unicode-tekens die zich niet in de eerste 127 ASCII-tekens (het Unicode-blok Basis latijns) bevinden in hun ASCII-equivalenten, als dergelijke equivalenten bestaan. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
preserveOriginal |
boolean |
False |
Een waarde die aangeeft of het oorspronkelijke token wordt bewaard. De standaardwaarde is onwaar. |
AzureActiveDirectoryApplicationCredentials
Referenties van een geregistreerde toepassing die is gemaakt voor uw zoekservice, die wordt gebruikt voor geverifieerde toegang tot de versleutelingssleutels die zijn opgeslagen in Azure Key Vault.
Name | Type | Description |
---|---|---|
applicationId |
string |
Een AAD-toepassings-id waaraan de vereiste toegangsmachtigingen zijn verleend voor de Azure Key Vault die moet worden gebruikt bij het versleutelen van uw data-at-rest. De toepassings-id mag niet worden verward met de object-id voor uw AAD-toepassing. |
applicationSecret |
string |
De verificatiesleutel van de opgegeven AAD-toepassing. |
AzureOpenAIEmbeddingSkill
Hiermee kunt u een vector insluiten voor een bepaalde tekstinvoer genereren met behulp van de Azure OpenAI-resource.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type vaardigheid aangeeft. |
apiKey |
string |
API-sleutel van de aangewezen Azure OpenAI-resource. |
authIdentity | SearchIndexerDataIdentity: |
De door de gebruiker toegewezen beheerde identiteit die wordt gebruikt voor uitgaande verbindingen. |
context |
string |
Vertegenwoordigt het niveau waarop bewerkingen plaatsvinden, zoals de hoofdmap van het document of de inhoud van het document (bijvoorbeeld /document of /document/inhoud). De standaardwaarde is /document. |
deploymentId |
string |
Id van de implementatie van het Azure OpenAI-model op de aangewezen resource. |
description |
string |
De beschrijving van de vaardigheid die de invoer, uitvoer en het gebruik van de vaardigheid beschrijft. |
dimensions |
integer |
Het aantal dimensies dat de resulterende uitvoer-insluitingen moeten hebben. Alleen ondersteund in modellen met tekst insluiten-3 en hoger. |
inputs |
Invoer van de vaardigheden kan een kolom zijn in de brongegevensset of de uitvoer van een upstream-vaardigheid. |
|
modelName |
De naam van het insluitmodel dat is geïmplementeerd op het opgegeven deploymentId-pad. |
|
name |
string |
De naam van de vaardigheid die deze uniek identificeert in de vaardighedenset. Een vaardigheid zonder gedefinieerde naam krijgt een standaardnaam van de op 1 gebaseerde index in de vaardighedenmatrix, voorafgegaan door het teken '#'. |
outputs |
De uitvoer van een vaardigheid is een veld in een zoekindex of een waarde die kan worden gebruikt als invoer door een andere vaardigheid. |
|
resourceUri |
string |
De resource-URI van de Azure OpenAI-resource. |
AzureOpenAIModelName
De naam van het Azure Open AI-model die wordt aangeroepen.
Name | Type | Description |
---|---|---|
text-embedding-3-large |
string |
|
text-embedding-3-small |
string |
|
text-embedding-ada-002 |
string |
AzureOpenAIParameters
Hiermee geeft u de parameters voor het maken van verbinding met de Azure OpenAI-resource.
Name | Type | Description |
---|---|---|
apiKey |
string |
API-sleutel van de aangewezen Azure OpenAI-resource. |
authIdentity | SearchIndexerDataIdentity: |
De door de gebruiker toegewezen beheerde identiteit die wordt gebruikt voor uitgaande verbindingen. |
deploymentId |
string |
Id van de implementatie van het Azure OpenAI-model op de aangewezen resource. |
modelName |
De naam van het insluitmodel dat is geïmplementeerd op het opgegeven deploymentId-pad. |
|
resourceUri |
string |
De resource-URI van de Azure OpenAI-resource. |
AzureOpenAIVectorizer
Hiermee geeft u de Azure OpenAI-resource op die wordt gebruikt om een queryreeks te vectoriseren.
Name | Type | Description |
---|---|---|
azureOpenAIParameters | AzureOpenAIParameters: |
Bevat de parameters die specifiek zijn voor azure OpenAI-insluitingsvectorisatie. |
kind |
string:
azure |
De naam van het type vectorisatiemethode dat wordt geconfigureerd voor gebruik met vectorzoekopdrachten. |
name |
string |
De naam die moet worden gekoppeld aan deze specifieke vectorisatiemethode. |
BinaryQuantizationVectorSearchCompressionConfiguration
Bevat configuratieopties die specifiek zijn voor de binaire kwantisatiecompressiemethode die wordt gebruikt tijdens het indexeren en uitvoeren van query's.
Name | Type | Default value | Description |
---|---|---|---|
defaultOversampling |
number |
Standaardoversampling-factor. Oversampling vraagt intern meer documenten aan (opgegeven door deze vermenigvuldiger) in de eerste zoekopdracht. Dit verhoogt de reeks resultaten die opnieuw worden geherrankeerd met behulp van opnieuw berekende overeenkomstenscores van volledige precisievectoren. De minimumwaarde is 1, wat betekent dat er geen oversampling (1x) is. Deze parameter kan alleen worden ingesteld wanneer rerankWithOriginalVectors waar is. Hogere waarden verbeteren terughalen ten koste van latentie. |
|
kind |
string:
binary |
De naam van het type compressiemethode dat wordt geconfigureerd voor gebruik met vectorzoekopdrachten. |
|
name |
string |
De naam die moet worden gekoppeld aan deze specifieke configuratie. |
|
rerankWithOriginalVectors |
boolean |
True |
Als deze optie is ingesteld op true, worden de geordende reeks resultaten die worden berekend met behulp van gecomprimeerde vectoren, opnieuw gerangschikt door de scores voor volledige precisie-overeenkomsten opnieuw te berekenen. Hierdoor wordt het intrekken verbeterd ten koste van latentie. |
BM25Similarity
Classificatiefunctie op basis van het okapi BM25-gelijkenis-algoritme. BM25 is een TF-IDF-achtig algoritme dat lengtenormalisatie omvat (beheerd door de parameter b) en termfrequentieverzadiging (beheerd door de parameter k1).
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Met deze eigenschap bepaalt u hoe de lengte van een document van invloed is op de relevantiescore. Standaard wordt een waarde van 0,75 gebruikt. Een waarde van 0,0 betekent dat er geen lengtenormalisatie wordt toegepast, terwijl een waarde van 1,0 betekent dat de score volledig wordt genormaliseerd met de lengte van het document. |
k1 |
number |
Deze eigenschap bepaalt de schaalfunctie tussen de termfrequentie van elke overeenkomende termen en de uiteindelijke relevantiescore van een documentquerypaar. Standaard wordt een waarde van 1,2 gebruikt. Een waarde van 0,0 betekent dat de score niet wordt geschaald met een toename van de termijnfrequentie. |
CharFilterName
Hiermee definieert u de namen van alle tekenfilters die worden ondersteund door de zoekmachine.
Name | Type | Description |
---|---|---|
html_strip |
string |
Een tekenfilter waarmee HTML-constructies worden verwijderd. Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Vormt bigrams van CJK-termen die worden gegenereerd op basis van de standaardtokenizer. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
ignoreScripts |
De scripts die moeten worden genegeerd. |
||
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
outputUnigrams |
boolean |
False |
Een waarde die aangeeft of zowel unigrammen als bigrams (indien waar) moeten worden uitgevoerd of alleen bigrams (indien onwaar). De standaardwaarde is onwaar. |
CjkBigramTokenFilterScripts
Scripts die kunnen worden genegeerd door CjkBigramTokenFilter.
Name | Type | Description |
---|---|---|
han |
string |
Negeer Han-script bij het vormen van bigrams van CJK-termen. |
hangul |
string |
Hangulscript negeren bij het vormen van bigrams van CJK-termen. |
hiragana |
string |
Negeer Hiragana-script bij het vormen van bigrams van CJK-termen. |
katakana |
string |
Negeer Katakana-script bij het vormen van bigrams van CJK-termen. |
ClassicSimilarity
Verouderd gelijkenis-algoritme dat gebruikmaakt van de Lucene TFIDFSimilarity-implementatie van TF-IDF. Deze variatie van TF-IDF introduceert normalisatie van statische documentlengten en coördinatiefactoren die documenten bestraffen die slechts gedeeltelijk overeenkomen met de doorzochte query's.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Op grammatica gebaseerde tokenizer die geschikt is voor het verwerken van de meeste Europese documenten. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarin het type tokenizer wordt opgegeven. |
|
maxTokenLength |
integer |
255 |
De maximale tokenlengte. De standaardwaarde is 255. Tokens die langer zijn dan de maximale lengte, worden gesplitst. De maximale tokenlengte die kan worden gebruikt, is 300 tekens. |
name |
string |
De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
CommonGramTokenFilter
Bouw bigrams voor veelgebruikte termen tijdens het indexeren. Ook enkele termen worden nog steeds geïndexeerd, waarbij bigrams over elkaar heen worden weergegeven. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
commonWords |
string[] |
De set veelgebruikte woorden. |
|
ignoreCase |
boolean |
False |
Een waarde die aangeeft of overeenkomende woorden hoofdlettergevoelig zijn. De standaardwaarde is onwaar. |
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
queryMode |
boolean |
False |
Een waarde die aangeeft of het tokenfilter zich in de querymodus bevindt. In de querymodus genereert het tokenfilter bigrams en worden vervolgens algemene woorden en enkele termen verwijderd, gevolgd door een gemeenschappelijk woord. De standaardwaarde is onwaar. |
CorsOptions
Hiermee definieert u opties voor het beheren van CORS (Cross-Origin Resource Sharing) voor een index.
Name | Type | Description |
---|---|---|
allowedOrigins |
string[] |
De lijst met oorsprongen waaruit JavaScript-code toegang krijgt tot uw index. Kan een lijst met hosts van het formulier {protocol}://{fully-qualified-domain-name}[:{port#}] of één '*' bevatten om alle oorsprongen toe te staan (niet aanbevolen). |
maxAgeInSeconds |
integer |
De duur waarvoor browsers CORS-voorbereidende antwoorden in de cache moeten opslaan. De standaardwaarde is 5 minuten. |
CustomAnalyzer
Hiermee kunt u de controle overnemen over het proces van het converteren van tekst naar indexeerbare/doorzoekbare tokens. Het is een door de gebruiker gedefinieerde configuratie die bestaat uit één vooraf gedefinieerde tokenizer en een of meer filters. De tokenizer is verantwoordelijk voor het breken van tekst in tokens en de filters voor het wijzigen van tokens die door de tokenizer worden verzonden.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type analyse aangeeft. |
charFilters |
Een lijst met tekenfilters die worden gebruikt om invoertekst voor te bereiden voordat deze door de tokenizer wordt verwerkt. Ze kunnen bijvoorbeeld bepaalde tekens of symbolen vervangen. De filters worden uitgevoerd in de volgorde waarin ze worden weergegeven. |
|
name |
string |
De naam van de analyse. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
tokenFilters |
Een lijst met tokenfilters die worden gebruikt voor het filteren of wijzigen van de tokens die zijn gegenereerd door een tokenizer. U kunt bijvoorbeeld een filter in kleine letters opgeven waarmee alle tekens worden geconverteerd naar kleine letters. De filters worden uitgevoerd in de volgorde waarin ze worden weergegeven. |
|
tokenizer |
De naam van de tokenizer die moet worden gebruikt om doorlopende tekst te verdelen in een reeks tokens, zoals het verbreken van een zin in woorden. |
DictionaryDecompounderTokenFilter
Ontleden samengestelde woorden in veel Duitstalige talen. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
maxSubwordSize |
integer |
15 |
De maximale grootte van het subwoord. Alleen subwoorden korter dan deze worden uitgevoerd. De standaardwaarde is 15. Maximum is 300. |
minSubwordSize |
integer |
2 |
De minimale grootte van het subwoord. Alleen subwoorden die langer zijn dan deze worden uitgevoerd. De standaardwaarde is 2. Maximum is 300. |
minWordSize |
integer |
5 |
De minimale woordgrootte. Alleen woorden die langer zijn dan deze worden verwerkt. De standaardwaarde is 5. Maximum is 300. |
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
onlyLongestMatch |
boolean |
False |
Een waarde die aangeeft of alleen het langste overeenkomende subwoord moet worden toegevoegd aan de uitvoer. De standaardwaarde is onwaar. |
wordList |
string[] |
De lijst met woorden die moeten worden vergeleken. |
DistanceScoringFunction
Definieert een functie die scores verhoogt op basis van afstand van een geografische locatie.
Name | Type | Description |
---|---|---|
boost |
number |
Een vermenigvuldiger voor de onbewerkte score. Moet een positief getal zijn dat niet gelijk is aan 1,0. |
distance |
Parameterwaarden voor de scorefunctie voor afstand. |
|
fieldName |
string |
De naam van het veld dat wordt gebruikt als invoer voor de scorefunctie. |
interpolation |
Een waarde die aangeeft hoe het stimuleren wordt geïnterpoleerd in documentscores; wordt standaard ingesteld op Lineair. |
|
type |
string:
distance |
Geeft het type functie aan dat moet worden gebruikt. Geldige waarden zijn grootte, versheid, afstand en tag. Het functietype moet een kleine letter zijn. |
DistanceScoringParameters
Biedt parameterwaarden voor een scorefunctie voor afstand.
Name | Type | Description |
---|---|---|
boostingDistance |
number |
De afstand in kilometers van de referentielocatie waar het stimulerende bereik eindigt. |
referencePointParameter |
string |
De naam van de parameter die is doorgegeven in zoekquery's om de referentielocatie op te geven. |
EdgeNGramTokenFilter
Hiermee genereert u n-grammen van de opgegeven grootte(s) vanaf de voor- of achterkant van een invoertoken. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
maxGram |
integer |
2 |
De maximale lengte n-gram. De standaardwaarde is 2. |
minGram |
integer |
1 |
De minimale lengte n-gram. De standaardwaarde is 1. Moet kleiner zijn dan de waarde van maxGram. |
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
side | front |
Hiermee geeft u aan op welke kant van de invoer de n-gram moet worden gegenereerd. De standaardwaarde is 'front'. |
EdgeNGramTokenFilterSide
Hiermee geeft u aan op welke kant van de invoer een n-gram moet worden gegenereerd.
Name | Type | Description |
---|---|---|
back |
string |
Hiermee geeft u op dat de n-gram moet worden gegenereerd op basis van de achterkant van de invoer. |
front |
string |
Hiermee geeft u op dat de n-gram moet worden gegenereerd op basis van de voorzijde van de invoer. |
EdgeNGramTokenFilterV2
Hiermee genereert u n-grammen van de opgegeven grootte(s) vanaf de voor- of achterkant van een invoertoken. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
maxGram |
integer |
2 |
De maximale lengte n-gram. De standaardwaarde is 2. Maximum is 300. |
minGram |
integer |
1 |
De minimale lengte n-gram. De standaardwaarde is 1. Maximum is 300. Moet kleiner zijn dan de waarde van maxGram. |
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
side | front |
Hiermee geeft u aan op welke kant van de invoer de n-gram moet worden gegenereerd. De standaardwaarde is 'front'. |
EdgeNGramTokenizer
Hiermee wordt de invoer van een rand omgezet in n-grammen van de opgegeven grootte(en). Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarin het type tokenizer wordt opgegeven. |
|
maxGram |
integer |
2 |
De maximale lengte n-gram. De standaardwaarde is 2. Maximum is 300. |
minGram |
integer |
1 |
De minimale lengte n-gram. De standaardwaarde is 1. Maximum is 300. Moet kleiner zijn dan de waarde van maxGram. |
name |
string |
De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
tokenChars |
Tekenklassen om in de tokens te blijven. |
ElisionTokenFilter
Verwijdert elisions. "l'avion" (het vliegtuig) wordt bijvoorbeeld geconverteerd naar "avion" (vliegtuig). Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
articles |
string[] |
De set artikelen die u wilt verwijderen. |
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
ErrorAdditionalInfo
Aanvullende informatie over de resourcebeheerfout.
Name | Type | Description |
---|---|---|
info |
object |
De aanvullende informatie. |
type |
string |
Het extra informatietype. |
ErrorDetail
De foutdetails.
Name | Type | Description |
---|---|---|
additionalInfo |
De fout bevat aanvullende informatie. |
|
code |
string |
De foutcode. |
details |
De foutdetails. |
|
message |
string |
Het foutbericht. |
target |
string |
Het foutdoel. |
ErrorResponse
Foutreactie
Name | Type | Description |
---|---|---|
error |
Het foutobject. |
ExhaustiveKnnParameters
Bevat de parameters die specifiek zijn voor een volledig KNN-algoritme.
Name | Type | Description |
---|---|---|
metric |
De metrische overeenkomstwaarde die moet worden gebruikt voor vectorvergelijkingen. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Bevat configuratieopties die specifiek zijn voor het uitgebreide KNN-algoritme dat wordt gebruikt tijdens het uitvoeren van query's, waarmee brute-force zoekopdrachten worden uitgevoerd in de gehele vectorindex.
Name | Type | Description |
---|---|---|
exhaustiveKnnParameters |
Bevat de parameters die specifiek zijn voor een volledig KNN-algoritme. |
|
kind |
string:
exhaustive |
De naam van het type algoritme dat wordt geconfigureerd voor gebruik met vectorzoekopdrachten. |
name |
string |
De naam die moet worden gekoppeld aan deze specifieke configuratie. |
FreshnessScoringFunction
Definieert een functie die scores verhoogt op basis van de waarde van een datum/tijd-veld.
Name | Type | Description |
---|---|---|
boost |
number |
Een vermenigvuldiger voor de onbewerkte score. Moet een positief getal zijn dat niet gelijk is aan 1,0. |
fieldName |
string |
De naam van het veld dat wordt gebruikt als invoer voor de scorefunctie. |
freshness |
Parameterwaarden voor de scorefunctie voor nieuwheid. |
|
interpolation |
Een waarde die aangeeft hoe het stimuleren wordt geïnterpoleerd in documentscores; wordt standaard ingesteld op Lineair. |
|
type |
string:
freshness |
Geeft het type functie aan dat moet worden gebruikt. Geldige waarden zijn grootte, versheid, afstand en tag. Het functietype moet een kleine letter zijn. |
FreshnessScoringParameters
Biedt parameterwaarden voor een scorefunctie voor nieuwheid.
Name | Type | Description |
---|---|---|
boostingDuration |
string |
De verloopperiode waarna het stimuleren stopt voor een bepaald document. |
HnswParameters
Bevat de parameters die specifiek zijn voor het HNSW-algoritme.
Name | Type | Default value | Description |
---|---|---|---|
efConstruction |
integer |
400 |
De grootte van de dynamische lijst met de dichtstbijzijnde buren, die tijdens de indextijd wordt gebruikt. Het verhogen van deze parameter kan de indexkwaliteit verbeteren, ten koste van een verhoogde indexeringstijd. Op een bepaald moment leidt het verhogen van deze parameter tot afnemende rendementen. |
efSearch |
integer |
500 |
De grootte van de dynamische lijst met de dichtstbijzijnde buren, die tijdens de zoektijd wordt gebruikt. Het verhogen van deze parameter kan de zoekresultaten verbeteren, ten koste van tragere zoekopdrachten. Op een bepaald moment leidt het verhogen van deze parameter tot afnemende rendementen. |
m |
integer |
4 |
Het aantal bidirectionele koppelingen dat tijdens de bouw voor elk nieuw element is gemaakt. Het verhogen van deze parameterwaarde kan het intrekken verbeteren en de ophaaltijden voor gegevenssets met een hoge intrinsieke dimensionaliteit verminderen ten koste van een verhoogd geheugenverbruik en langere indexeringstijd. |
metric |
De metrische overeenkomstwaarde die moet worden gebruikt voor vectorvergelijkingen. |
HnswVectorSearchAlgorithmConfiguration
Bevat configuratieopties die specifiek zijn voor het HNSW-algoritme bij benadering dichtstbijzijnde buren dat wordt gebruikt tijdens het indexeren en uitvoeren van query's. Het HNSW-algoritme biedt een niet-afwisseling tussen zoeksnelheid en nauwkeurigheid.
Name | Type | Description |
---|---|---|
hnswParameters |
Bevat de parameters die specifiek zijn voor het HNSW-algoritme. |
|
kind |
string:
hnsw |
De naam van het type algoritme dat wordt geconfigureerd voor gebruik met vectorzoekopdrachten. |
name |
string |
De naam die moet worden gekoppeld aan deze specifieke configuratie. |
InputFieldMappingEntry
Invoerveldtoewijzing voor een vaardigheid.
Name | Type | Description |
---|---|---|
inputs |
De recursieve invoer die wordt gebruikt bij het maken van een complex type. |
|
name |
string |
De naam van de invoer. |
source |
string |
De bron van de invoer. |
sourceContext |
string |
De broncontext die wordt gebruikt voor het selecteren van recursieve invoer. |
KeepTokenFilter
Een tokenfilter dat alleen tokens met tekst in een opgegeven lijst met woorden bewaart. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
keepWords |
string[] |
De lijst met woorden die moeten worden bewaard. |
|
keepWordsCase |
boolean |
False |
Een waarde die aangeeft of alle woorden eerst in kleine letters moeten worden opgeslagen. De standaardwaarde is onwaar. |
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
KeywordMarkerTokenFilter
Hiermee worden termen gemarkeerd als trefwoorden. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
ignoreCase |
boolean |
False |
Een waarde die aangeeft of hoofdlettergebruik moet worden genegeerd. Indien waar, worden alle woorden eerst geconverteerd naar kleine letters. De standaardwaarde is onwaar. |
keywords |
string[] |
Een lijst met woorden die moeten worden gemarkeerd als trefwoorden. |
|
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
KeywordTokenizer
Hiermee wordt de volledige invoer als één token verzonden. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarin het type tokenizer wordt opgegeven. |
|
bufferSize |
integer |
256 |
De grootte van de leesbuffer in bytes. De standaardwaarde is 256. |
name |
string |
De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
KeywordTokenizerV2
Hiermee wordt de volledige invoer als één token verzonden. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarin het type tokenizer wordt opgegeven. |
|
maxTokenLength |
integer |
256 |
De maximale tokenlengte. De standaardwaarde is 256. Tokens die langer zijn dan de maximale lengte, worden gesplitst. De maximale tokenlengte die kan worden gebruikt, is 300 tekens. |
name |
string |
De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
LengthTokenFilter
Hiermee verwijdert u woorden die te lang of te kort zijn. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
max |
integer |
300 |
De maximale lengte in tekens. Standaard en maximum is 300. |
min |
integer |
0 |
De minimale lengte in tekens. De standaardwaarde is 0. Maximum is 300. Moet kleiner zijn dan de waarde van max. |
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
LexicalAnalyzerName
Definieert de namen van alle tekstanalyses die worden ondersteund door de zoekmachine.
Name | Type | Description |
---|---|---|
ar.lucene |
string |
Lucene analyzer voor Arabisch. |
ar.microsoft |
string |
Microsoft Analyzer voor Arabisch. |
bg.lucene |
string |
Lucene analyzer voor Bulgaars. |
bg.microsoft |
string |
Microsoft Analyzer voor Bulgaars. |
bn.microsoft |
string |
Microsoft Analyzer voor Bangla. |
ca.lucene |
string |
Lucene analyzer voor Catalaans. |
ca.microsoft |
string |
Microsoft Analyzer voor Catalaans. |
cs.lucene |
string |
Lucene Analyzer voor Tsjechisch. |
cs.microsoft |
string |
Microsoft Analyzer voor Tsjechisch. |
da.lucene |
string |
Lucene analyzer voor Deens. |
da.microsoft |
string |
Microsoft Analyzer voor Deens. |
de.lucene |
string |
Lucene analyzer voor Duits. |
de.microsoft |
string |
Microsoft Analyzer voor Duits. |
el.lucene |
string |
Lucene analyzer voor Grieks. |
el.microsoft |
string |
Microsoft Analyzer voor Grieks. |
en.lucene |
string |
Lucene analyzer voor Engels. |
en.microsoft |
string |
Microsoft Analyzer voor Engels. |
es.lucene |
string |
Lucene analyzer voor Spaans. |
es.microsoft |
string |
Microsoft Analyzer voor Spaans. |
et.microsoft |
string |
Microsoft Analyzer voor Ests. |
eu.lucene |
string |
Lucene analyzer voor Baskisch. |
fa.lucene |
string |
Lucene analyzer voor Perzisch. |
fi.lucene |
string |
Lucene analyzer voor Fins. |
fi.microsoft |
string |
Microsoft Analyzer voor Fins. |
fr.lucene |
string |
Lucene Analyzer voor Frans. |
fr.microsoft |
string |
Microsoft Analyzer voor Frans. |
ga.lucene |
string |
Lucene analyzer voor Iers. |
gl.lucene |
string |
Lucene analyzer voor Galicisch. |
gu.microsoft |
string |
Microsoft Analyzer voor Gujarati. |
he.microsoft |
string |
Microsoft Analyzer voor Hebreeuws. |
hi.lucene |
string |
Lucene Analyzer voor Hindi. |
hi.microsoft |
string |
Microsoft Analyzer voor Hindi. |
hr.microsoft |
string |
Microsoft Analyzer voor Kroatisch. |
hu.lucene |
string |
Lucene analyzer voor Hongaars. |
hu.microsoft |
string |
Microsoft Analyzer voor Hongaars. |
hy.lucene |
string |
Lucene analyzer voor Armeens. |
id.lucene |
string |
Lucene analyzer voor Indonesisch. |
id.microsoft |
string |
Microsoft Analyzer voor Indonesisch (Bahasa). |
is.microsoft |
string |
Microsoft Analyzer voor IJslands. |
it.lucene |
string |
Lucene analyzer voor Italiaans. |
it.microsoft |
string |
Microsoft Analyzer voor Italiaans. |
ja.lucene |
string |
Lucene Analyzer voor Japans. |
ja.microsoft |
string |
Microsoft Analyzer voor Japans. |
keyword |
string |
Behandelt de volledige inhoud van een veld als één token. Dit is handig voor gegevens zoals postcodes, id's en sommige productnamen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Microsoft Analyzer voor Kannada. |
ko.lucene |
string |
Lucene analyzer voor Koreaans. |
ko.microsoft |
string |
Microsoft Analyzer voor Koreaans. |
lt.microsoft |
string |
Microsoft Analyzer voor Litouws. |
lv.lucene |
string |
Lucene analyzer voor Letland. |
lv.microsoft |
string |
Microsoft Analyzer voor Lets. |
ml.microsoft |
string |
Microsoft Analyzer voor Malayalam. |
mr.microsoft |
string |
Microsoft Analyzer voor Marathi. |
ms.microsoft |
string |
Microsoft Analyzer voor Maleis (Latijns). |
nb.microsoft |
string |
Microsoft Analyzer voor Noors (Bokmål). |
nl.lucene |
string |
Lucene Analyzer voor Nederlands. |
nl.microsoft |
string |
Microsoft Analyzer voor Nederlands. |
no.lucene |
string |
Lucene analyzer voor Noors. |
pa.microsoft |
string |
Microsoft Analyzer voor Punjabi. |
pattern |
string |
Scheidt tekst flexibel in termen via een normaal expressiepatroon. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Lucene Analyzer voor Pools. |
pl.microsoft |
string |
Microsoft Analyzer voor Pools. |
pt-BR.lucene |
string |
Lucene analyzer voor Portugees (Brazilië). |
pt-BR.microsoft |
string |
Microsoft Analyzer voor Portugees (Brazilië). |
pt-PT.lucene |
string |
Lucene analyzer voor Portugees (Portugal). |
pt-PT.microsoft |
string |
Microsoft Analyzer voor Portugees (Portugal). |
ro.lucene |
string |
Lucene analyzer voor Roemeens. |
ro.microsoft |
string |
Microsoft Analyzer voor Roemeens. |
ru.lucene |
string |
Lucene analyzer voor Russisch. |
ru.microsoft |
string |
Microsoft Analyzer voor Russisch. |
simple |
string |
Verdeelt tekst bij niet-letters en converteert deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Microsoft Analyzer voor Slowaaks. |
sl.microsoft |
string |
Microsoft Analyzer voor Slovenië. |
sr-cyrillic.microsoft |
string |
Microsoft Analyzer voor Servisch (Cyrillisch). |
sr-latin.microsoft |
string |
Microsoft Analyzer voor Servisch (Latijns). |
standard.lucene |
string |
Standaard Lucene Analyzer. |
standardasciifolding.lucene |
string |
Standard ASCII Folding Lucene Analyzer. Zie https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Verdeelt tekst bij niet-letters; Hiermee past u de tokenfilters voor kleine letters en stopworden toe. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Lucene analyzer voor Zweeds. |
sv.microsoft |
string |
Microsoft Analyzer voor Zweeds. |
ta.microsoft |
string |
Microsoft Analyzer voor Tamil. |
te.microsoft |
string |
Microsoft Analyzer voor Telugu. |
th.lucene |
string |
Lucene analyzer voor Thai. |
th.microsoft |
string |
Microsoft Analyzer voor Thai. |
tr.lucene |
string |
Lucene analyzer voor Turks. |
tr.microsoft |
string |
Microsoft Analyzer voor Turks. |
uk.microsoft |
string |
Microsoft Analyzer voor Oekraïens. |
ur.microsoft |
string |
Microsoft Analyzer voor Urdu. |
vi.microsoft |
string |
Microsoft Analyzer voor Vietnamees. |
whitespace |
string |
Een analyse die gebruikmaakt van de whitespace-tokenizer. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Lucene Analyzer voor Chinees (vereenvoudigd). |
zh-Hans.microsoft |
string |
Microsoft Analyzer voor Chinees (vereenvoudigd). |
zh-Hant.lucene |
string |
Lucene analyzer voor Chinees (traditioneel). |
zh-Hant.microsoft |
string |
Microsoft Analyzer voor Chinees (traditioneel). |
LexicalTokenizerName
Hiermee definieert u de namen van alle tokenizers die worden ondersteund door de zoekmachine.
Name | Type | Description |
---|---|---|
classic |
string |
Op grammatica gebaseerde tokenizer die geschikt is voor het verwerken van de meeste Europese documenten. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Hiermee wordt de invoer van een rand omgezet in n-grammen van de opgegeven grootte(en). Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Hiermee wordt de volledige invoer als één token verzonden. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Verdeelt tekst bij niet-letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Verdeelt tekst bij niet-letters en converteert deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Verdeelt tekst met taalspecifieke regels en vermindert woorden tot de basisformulieren. |
microsoft_language_tokenizer |
string |
Verdeelt tekst met taalspecifieke regels. |
nGram |
string |
Hiermee wordt de invoer in n-grammen van de opgegeven grootte(n) tokenizes. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Tokenizer voor padachtige hiërarchieën. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Tokenizer die gebruikmaakt van regex-patroon dat overeenkomt met het samenstellen van afzonderlijke tokens. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Standaard Lucene Analyzer; Samengesteld uit de standaardtokenizer, het filter in kleine letters en het stopfilter. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Hiermee worden URL's en e-mailberichten als één token gewijzigd. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Verdeelt tekst op witruimte. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
LimitTokenFilter
Beperkt het aantal tokens tijdens het indexeren. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
consumeAllTokens |
boolean |
False |
Een waarde die aangeeft of alle tokens uit de invoer moeten worden verbruikt, zelfs als maxTokenCount is bereikt. De standaardwaarde is onwaar. |
maxTokenCount |
integer |
1 |
Het maximum aantal tokens dat moet worden geproduceerd. De standaardwaarde is 1. |
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
LuceneStandardAnalyzer
Standard Apache Lucene Analyzer; Samengesteld uit de standaardtokenizer, het filter in kleine letters en het stopfilter.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type analyse aangeeft. |
|
maxTokenLength |
integer |
255 |
De maximale tokenlengte. De standaardwaarde is 255. Tokens die langer zijn dan de maximale lengte, worden gesplitst. De maximale tokenlengte die kan worden gebruikt, is 300 tekens. |
name |
string |
De naam van de analyse. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
stopwords |
string[] |
Een lijst met stopwoorden. |
LuceneStandardTokenizer
Hiermee wordt de tekst onderbreekt volgens de unicode-regels voor tekstsegmentatie. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarin het type tokenizer wordt opgegeven. |
|
maxTokenLength |
integer |
255 |
De maximale tokenlengte. De standaardwaarde is 255. Tokens die langer zijn dan de maximale lengte, worden gesplitst. |
name |
string |
De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
LuceneStandardTokenizerV2
Hiermee wordt de tekst onderbreekt volgens de unicode-regels voor tekstsegmentatie. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarin het type tokenizer wordt opgegeven. |
|
maxTokenLength |
integer |
255 |
De maximale tokenlengte. De standaardwaarde is 255. Tokens die langer zijn dan de maximale lengte, worden gesplitst. De maximale tokenlengte die kan worden gebruikt, is 300 tekens. |
name |
string |
De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
MagnitudeScoringFunction
Definieert een functie die scores verhoogt op basis van de grootte van een numeriek veld.
Name | Type | Description |
---|---|---|
boost |
number |
Een vermenigvuldiger voor de onbewerkte score. Moet een positief getal zijn dat niet gelijk is aan 1,0. |
fieldName |
string |
De naam van het veld dat wordt gebruikt als invoer voor de scorefunctie. |
interpolation |
Een waarde die aangeeft hoe het stimuleren wordt geïnterpoleerd in documentscores; wordt standaard ingesteld op Lineair. |
|
magnitude |
Parameterwaarden voor de scorefunctie van de grootte. |
|
type |
string:
magnitude |
Geeft het type functie aan dat moet worden gebruikt. Geldige waarden zijn grootte, versheid, afstand en tag. Het functietype moet een kleine letter zijn. |
MagnitudeScoringParameters
Biedt parameterwaarden voor een scorefunctie voor de grootte.
Name | Type | Description |
---|---|---|
boostingRangeEnd |
number |
De veldwaarde waarmee het stimuleren eindigt. |
boostingRangeStart |
number |
De veldwaarde waarmee het stimuleren begint. |
constantBoostBeyondRange |
boolean |
Een waarde die aangeeft of een constante boost moet worden toegepast voor veldwaarden buiten de eindwaarde van het bereik; de standaardwaarde is onwaar. |
MappingCharFilter
Een tekenfilter waarmee toewijzingen worden toegepast die zijn gedefinieerd met de optie Toewijzingen. Overeenkomende waarden zijn greedy (langste patroonkoppeling op een bepaald punt wint). Vervanging mag de lege tekenreeks zijn. Dit tekenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarin het type tekenfilter wordt opgegeven. |
mappings |
string[] |
Een lijst met toewijzingen van de volgende notatie: "a=>b" (alle exemplaren van het teken "a" worden vervangen door teken "b"). |
name |
string |
De naam van het tekenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
MicrosoftLanguageStemmingTokenizer
Verdeelt tekst met taalspecifieke regels en vermindert woorden tot de basisformulieren.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarin het type tokenizer wordt opgegeven. |
|
isSearchTokenizer |
boolean |
False |
Een waarde die aangeeft hoe de tokenizer wordt gebruikt. Ingesteld op true als deze wordt gebruikt als de zoektokenizer, ingesteld op onwaar als deze wordt gebruikt als de indexeringstokenizer. De standaardwaarde is onwaar. |
language |
De taal die moet worden gebruikt. De standaardwaarde is Engels. |
||
maxTokenLength |
integer |
255 |
De maximale tokenlengte. Tokens die langer zijn dan de maximale lengte, worden gesplitst. De maximale tokenlengte die kan worden gebruikt, is 300 tekens. Tokens die langer zijn dan 300 tekens worden eerst gesplitst in tokens van lengte 300 en vervolgens wordt elk van deze tokens gesplitst op basis van de maximale lengte van het token. De standaardwaarde is 255. |
name |
string |
De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
MicrosoftLanguageTokenizer
Verdeelt tekst met taalspecifieke regels.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarin het type tokenizer wordt opgegeven. |
|
isSearchTokenizer |
boolean |
False |
Een waarde die aangeeft hoe de tokenizer wordt gebruikt. Ingesteld op true als deze wordt gebruikt als de zoektokenizer, ingesteld op onwaar als deze wordt gebruikt als de indexeringstokenizer. De standaardwaarde is onwaar. |
language |
De taal die moet worden gebruikt. De standaardwaarde is Engels. |
||
maxTokenLength |
integer |
255 |
De maximale tokenlengte. Tokens die langer zijn dan de maximale lengte, worden gesplitst. De maximale tokenlengte die kan worden gebruikt, is 300 tekens. Tokens die langer zijn dan 300 tekens worden eerst gesplitst in tokens van lengte 300 en vervolgens wordt elk van deze tokens gesplitst op basis van de maximale lengte van het token. De standaardwaarde is 255. |
name |
string |
De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
MicrosoftStemmingTokenizerLanguage
Hier vindt u een lijst met de talen die worden ondersteund door de Microsoft language stemming tokenizer.
Name | Type | Description |
---|---|---|
arabic |
string |
Hiermee selecteert u de Microsoft stemmingstokenizer voor Arabisch. |
bangla |
string |
Selecteert de Microsoft stemmingstokenizer voor Bangla. |
bulgarian |
string |
Selecteert de Microsoft stemmingstokenizer voor Bulgaars. |
catalan |
string |
Selecteert de Microsoft stemmingstokenizer voor Catalaans. |
croatian |
string |
Selecteert de Microsoft stemmingstokenizer voor Kroatisch. |
czech |
string |
Selecteert de Microsoft stemmingstokenizer voor Tsjechisch. |
danish |
string |
Selecteert de Microsoft stemmingstokenizer voor Deens. |
dutch |
string |
Selecteert de Microsoft stemmingstokenizer voor Nederlands. |
english |
string |
Hiermee selecteert u de Microsoft stemmingstokenizer voor Engels. |
estonian |
string |
Selecteert de Microsoft stemmingstokenizer voor Ests. |
finnish |
string |
Selecteert de Microsoft stemmingstokenizer voor Fins. |
french |
string |
Selecteert de Microsoft stemmingstokenizer voor Frans. |
german |
string |
Selecteert de Microsoft stemmingstokenizer voor Duits. |
greek |
string |
Selecteert de Microsoft stemmingstokenizer voor Grieks. |
gujarati |
string |
Selecteert de Microsoft stemmingstokenizer voor Gujarati. |
hebrew |
string |
Hiermee selecteert u de Microsoft stemmingstokenizer voor Hebreeuws. |
hindi |
string |
Hiermee selecteert u de Microsoft stemmingstokenizer voor Hindi. |
hungarian |
string |
Selecteert de Microsoft stemmingstokenizer voor Hongaars. |
icelandic |
string |
Selecteert de Microsoft stemmingstokenizer voor IJslands. |
indonesian |
string |
Selecteert de Microsoft stemmingstokenizer voor Indonesisch. |
italian |
string |
Selecteert de Microsoft stemmingstokenizer voor Italiaans. |
kannada |
string |
Selecteert de Microsoft stemmingstokenizer voor Kannada. |
latvian |
string |
Selecteert de Microsoft stemmingstokenizer voor Lets. |
lithuanian |
string |
Selecteert de Microsoft stemmingstokenizer voor Litouws. |
malay |
string |
Selecteert de Microsoft stemmingstokenizer voor Maleis. |
malayalam |
string |
Selecteert de Microsoft stemmingstokenizer voor Mcachelam. |
marathi |
string |
Hiermee selecteert u de Microsoft stemmingstokenizer voor Marathi. |
norwegianBokmaal |
string |
Selecteert de Microsoft stemmingstokenizer voor Noors (Bokmål). |
polish |
string |
Selecteert de Microsoft stemmingstokenizer voor Pools. |
portuguese |
string |
Selecteert de Microsoft stemmingstokenizer voor Portugees. |
portugueseBrazilian |
string |
Selecteert de Microsoft stemmingstokenizer voor Portugees (Brazilië). |
punjabi |
string |
Selecteert de Microsoft stemmingstokenizer voor Punjabi. |
romanian |
string |
Selecteert de Microsoft stemmingstokenizer voor Roemeens. |
russian |
string |
Selecteert de Microsoft stemmingstokenizer voor Russisch. |
serbianCyrillic |
string |
Selecteert de Microsoft stemmingstokenizer voor Servisch (Cyrillisch). |
serbianLatin |
string |
Hiermee selecteert u de Microsoft stemmingstokenizer voor Servisch (Latijns). |
slovak |
string |
Selecteert de Microsoft-stemtokenizer voor Slowaaks. |
slovenian |
string |
Selecteert de Microsoft stemmingstokenizer voor Slovenië. |
spanish |
string |
Selecteert de Microsoft stemmingstokenizer voor Spaans. |
swedish |
string |
Selecteert de Microsoft stemmingstokenizer voor Zweeds. |
tamil |
string |
Hiermee selecteert u de Microsoft stemmingstokenizer voor Tamil. |
telugu |
string |
Selecteert de Microsoft stemmingstokenizer voor Telugu. |
turkish |
string |
Selecteert de Microsoft stemmingstokenizer voor Turks. |
ukrainian |
string |
Selecteert de Microsoft stemmingstokenizer voor Oekraïens. |
urdu |
string |
Selecteert de Microsoft stemmingstokenizer voor Urdu. |
MicrosoftTokenizerLanguage
Geeft een lijst van de talen die worden ondersteund door de Microsoft-taaltokenizer.
Name | Type | Description |
---|---|---|
bangla |
string |
Selecteert de Microsoft-tokenizer voor Bangla. |
bulgarian |
string |
Selecteert de Microsoft-tokenizer voor Bulgaars. |
catalan |
string |
Selecteert de Microsoft-tokenizer voor Catalaans. |
chineseSimplified |
string |
Hiermee selecteert u de Microsoft-tokenizer voor Chinees (vereenvoudigd). |
chineseTraditional |
string |
Selecteert de Microsoft-tokenizer voor Chinees (traditioneel). |
croatian |
string |
Selecteert de Microsoft-tokenizer voor Kroatisch. |
czech |
string |
Selecteert de Microsoft-tokenizer voor Tsjechisch. |
danish |
string |
Selecteert de Microsoft-tokenizer voor Deens. |
dutch |
string |
Selecteert de Microsoft-tokenizer voor Nederlands. |
english |
string |
Selecteert de Microsoft-tokenizer voor Engels. |
french |
string |
Selecteert de Microsoft-tokenizer voor Frans. |
german |
string |
Selecteert de Microsoft-tokenizer voor Duits. |
greek |
string |
Selecteert de Microsoft-tokenizer voor Grieks. |
gujarati |
string |
Selecteert de Microsoft-tokenizer voor Gujarati. |
hindi |
string |
Hiermee selecteert u de Microsoft-tokenizer voor Hindi. |
icelandic |
string |
Selecteert de Microsoft-tokenizer voor IJslands. |
indonesian |
string |
Selecteert de Microsoft-tokenizer voor Indonesisch. |
italian |
string |
Selecteert de Microsoft-tokenizer voor Italiaans. |
japanese |
string |
Selecteert de Microsoft-tokenizer voor Japans. |
kannada |
string |
Hiermee selecteert u de Microsoft-tokenizer voor Kannada. |
korean |
string |
Selecteert de Microsoft-tokenizer voor Koreaans. |
malay |
string |
Selecteert de Microsoft-tokenizer voor Maleis. |
malayalam |
string |
Selecteert de Microsoft-tokenizer voor Mcachelam. |
marathi |
string |
Hiermee selecteert u de Microsoft-tokenizer voor Marathi. |
norwegianBokmaal |
string |
Selecteert de Microsoft-tokenizer voor Noors (Bokmål). |
polish |
string |
Selecteert de Microsoft-tokenizer voor Pools. |
portuguese |
string |
Selecteert de Microsoft-tokenizer voor Portugees. |
portugueseBrazilian |
string |
Hiermee selecteert u de Microsoft-tokenizer voor Portugees (Brazilië). |
punjabi |
string |
Hiermee selecteert u de Microsoft-tokenizer voor Punjabi. |
romanian |
string |
Selecteert de Microsoft-tokenizer voor Roemeens. |
russian |
string |
Selecteert de Microsoft-tokenizer voor Russisch. |
serbianCyrillic |
string |
Selecteert de Microsoft-tokenizer voor Servisch (Cyrillisch). |
serbianLatin |
string |
Selecteert de Microsoft-tokenizer voor Servisch (Latijns). |
slovenian |
string |
Selecteert de Microsoft-tokenizer voor Slovenië. |
spanish |
string |
Selecteert de Microsoft-tokenizer voor Spaans. |
swedish |
string |
Selecteert de Microsoft-tokenizer voor Zweeds. |
tamil |
string |
Hiermee selecteert u de Microsoft-tokenizer voor Tamil. |
telugu |
string |
Selecteert de Microsoft-tokenizer voor Telugu. |
thai |
string |
Selecteert de Microsoft-tokenizer voor Thais. |
ukrainian |
string |
Selecteert de Microsoft-tokenizer voor Oekraïens. |
urdu |
string |
Selecteert de Microsoft-tokenizer voor Urdu. |
vietnamese |
string |
Selecteert de Microsoft-tokenizer voor Vietnamees. |
NGramTokenFilter
Hiermee worden n-grammen van de opgegeven grootte(n) gegenereerd. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
maxGram |
integer |
2 |
De maximale lengte n-gram. De standaardwaarde is 2. |
minGram |
integer |
1 |
De minimale lengte n-gram. De standaardwaarde is 1. Moet kleiner zijn dan de waarde van maxGram. |
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
NGramTokenFilterV2
Hiermee worden n-grammen van de opgegeven grootte(n) gegenereerd. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
maxGram |
integer |
2 |
De maximale lengte n-gram. De standaardwaarde is 2. Maximum is 300. |
minGram |
integer |
1 |
De minimale lengte n-gram. De standaardwaarde is 1. Maximum is 300. Moet kleiner zijn dan de waarde van maxGram. |
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
NGramTokenizer
Hiermee wordt de invoer in n-grammen van de opgegeven grootte(n) tokenizes. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarin het type tokenizer wordt opgegeven. |
|
maxGram |
integer |
2 |
De maximale lengte n-gram. De standaardwaarde is 2. Maximum is 300. |
minGram |
integer |
1 |
De minimale lengte n-gram. De standaardwaarde is 1. Maximum is 300. Moet kleiner zijn dan de waarde van maxGram. |
name |
string |
De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
tokenChars |
Tekenklassen om in de tokens te blijven. |
OutputFieldMappingEntry
Uitvoerveldtoewijzing voor een vaardigheid.
Name | Type | Description |
---|---|---|
name |
string |
De naam van de uitvoer die is gedefinieerd door de vaardigheid. |
targetName |
string |
De doelnaam van de uitvoer. Dit is optioneel en is standaard ingesteld op naam. |
PathHierarchyTokenizerV2
Tokenizer voor padachtige hiërarchieën. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarin het type tokenizer wordt opgegeven. |
|
delimiter |
string |
/ |
Het scheidingsteken dat moet worden gebruikt. De standaardwaarde is '/'. |
maxTokenLength |
integer |
300 |
De maximale tokenlengte. Standaard en maximum is 300. |
name |
string |
De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
replacement |
string |
/ |
Een waarde die, indien ingesteld, het scheidingsteken vervangt. De standaardwaarde is '/'. |
reverse |
boolean |
False |
Een waarde die aangeeft of tokens in omgekeerde volgorde moeten worden gegenereerd. De standaardwaarde is onwaar. |
skip |
integer |
0 |
Het aantal initiële tokens dat moet worden overgeslagen. De standaardwaarde is 0. |
PatternAnalyzer
Scheidt tekst flexibel in termen via een normaal expressiepatroon. Deze analyse wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type analyse aangeeft. |
|
flags |
Reguliere expressievlagmen. |
||
lowercase |
boolean |
True |
Een waarde die aangeeft of termen in kleine letters moeten worden gebruikt. De standaardwaarde is waar. |
name |
string |
De naam van de analyse. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
pattern |
string |
\W+ |
Een patroon voor reguliere expressies dat overeenkomt met tokenscheidingstekens. Standaard is een expressie die overeenkomt met een of meer niet-woordtekens. |
stopwords |
string[] |
Een lijst met stopwoorden. |
PatternCaptureTokenFilter
Gebruikt Java-regexes om meerdere tokens te verzenden: één voor elke capturegroep in een of meer patronen. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
patterns |
string[] |
Een lijst met patronen die overeenkomen met elk token. |
|
preserveOriginal |
boolean |
True |
Een waarde die aangeeft of het oorspronkelijke token moet worden geretourneerd, zelfs als een van de patronen overeenkomt. De standaardwaarde is waar. |
PatternReplaceCharFilter
Een tekenfilter dat tekens in de invoertekenreeks vervangt. Er wordt een reguliere expressie gebruikt om tekenreeksen te identificeren die moeten worden bewaard en een vervangend patroon om tekens te identificeren die moeten worden vervangen. Als u bijvoorbeeld de invoertekst 'aa bb aa bb bb', patroon '(aa)\s+(bb)' en vervanging '$1#$2' invoert, zou het resultaat 'aa#bb aa#bb' zijn. Dit tekenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarin het type tekenfilter wordt opgegeven. |
name |
string |
De naam van het tekenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
pattern |
string |
Een normaal expressiepatroon. |
replacement |
string |
De vervangende tekst. |
PatternReplaceTokenFilter
Een tekenfilter dat tekens in de invoertekenreeks vervangt. Er wordt een reguliere expressie gebruikt om tekenreeksen te identificeren die moeten worden bewaard en een vervangend patroon om tekens te identificeren die moeten worden vervangen. Als u bijvoorbeeld de invoertekst 'aa bb aa bb bb', patroon '(aa)\s+(bb)' en vervanging '$1#$2' invoert, zou het resultaat 'aa#bb aa#bb' zijn. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
pattern |
string |
Een normaal expressiepatroon. |
replacement |
string |
De vervangende tekst. |
PatternTokenizer
Tokenizer die gebruikmaakt van regex-patroon dat overeenkomt met het samenstellen van afzonderlijke tokens. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarin het type tokenizer wordt opgegeven. |
|
flags |
Reguliere expressievlagmen. |
||
group |
integer |
-1 |
De op nul gebaseerde rangschikking van de overeenkomende groep in het reguliere expressiepatroon om te extraheren in tokens. Gebruik -1 als u het hele patroon wilt gebruiken om de invoer op te splitsen in tokens, ongeacht overeenkomende groepen. De standaardwaarde is -1. |
name |
string |
De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
pattern |
string |
\W+ |
Een patroon voor reguliere expressies dat overeenkomt met tokenscheidingstekens. Standaard is een expressie die overeenkomt met een of meer niet-woordtekens. |
PhoneticEncoder
Hiermee wordt het type fonetische encoder geïdentificeerd dat moet worden gebruikt met een FonetischTokenFilter.
Name | Type | Description |
---|---|---|
beiderMorse |
string |
Codeert een token in een Beider-Morse waarde. |
caverphone1 |
string |
Codeert een token in een Caverphone 1.0-waarde. |
caverphone2 |
string |
Codeert een token in een Caverphone 2.0-waarde. |
cologne |
string |
Codeert een token in een fonetische waarde van Keulen. |
doubleMetaphone |
string |
Codeert een token in een dubbele metaphonewaarde. |
haasePhonetik |
string |
Codeert een token met behulp van de Haase verfijning van het Algoritme Van Keulener Phonetik. |
koelnerPhonetik |
string |
Codeert een token met behulp van het algoritme Van Keulener Phonetik. |
metaphone |
string |
Codeert een token in een Metaphone-waarde. |
nysiis |
string |
Codeert een token in een NYSIIS-waarde. |
refinedSoundex |
string |
Codeert een token in een Verfijnde Soundex-waarde. |
soundex |
string |
Codeert een token in een Soundex-waarde. |
PhoneticTokenFilter
Tokens maken voor fonetische overeenkomsten. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
encoder | metaphone |
De fonetische encoder die moet worden gebruikt. De standaardwaarde is 'metaphone'. |
|
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
replace |
boolean |
True |
Een waarde die aangeeft of gecodeerde tokens oorspronkelijke tokens moeten vervangen. Als dit onwaar is, worden gecodeerde tokens toegevoegd als synoniemen. De standaardwaarde is waar. |
PrioritizedFields
Beschrijft de velden titel, inhoud en trefwoorden die moeten worden gebruikt voor semantische rangschikking, bijschriften, hoogtepunten en antwoorden.
Name | Type | Description |
---|---|---|
prioritizedContentFields |
Definieert de inhoudsvelden die moeten worden gebruikt voor semantische rangschikking, bijschriften, markeringen en antwoorden. Voor het beste resultaat moeten de geselecteerde velden tekst in natuurlijke taal bevatten. De volgorde van de velden in de matrix vertegenwoordigt hun prioriteit. Velden met een lagere prioriteit worden mogelijk afgekapt als de inhoud lang is. |
|
prioritizedKeywordsFields |
Definieert de trefwoordvelden die moeten worden gebruikt voor semantische rangschikking, bijschriften, markeringen en antwoorden. Voor het beste resultaat moeten de geselecteerde velden een lijst met trefwoorden bevatten. De volgorde van de velden in de matrix vertegenwoordigt hun prioriteit. Velden met een lagere prioriteit worden mogelijk afgekapt als de inhoud lang is. |
|
titleField |
Hiermee definieert u het titelveld dat moet worden gebruikt voor semantische rangschikking, bijschriften, markeringen en antwoorden. Als u geen titelveld in uw index hebt, laat u dit veld leeg. |
RegexFlags
Definieert vlaggen die kunnen worden gecombineerd om te bepalen hoe reguliere expressies worden gebruikt in de patroonanalyse en patroontokenizer.
Name | Type | Description |
---|---|---|
CANON_EQ |
string |
Maakt canonieke gelijkwaardigheid mogelijk. |
CASE_INSENSITIVE |
string |
Maakt hoofdlettergevoelige overeenkomsten mogelijk. |
COMMENTS |
string |
Maakt witruimte en opmerkingen in het patroon mogelijk. |
DOTALL |
string |
Hiermee schakelt u de dotall-modus in. |
LITERAL |
string |
Hiermee schakelt u letterlijke parsering van het patroon in. |
MULTILINE |
string |
Hiermee schakelt u de modus met meerdere regels in. |
UNICODE_CASE |
string |
Hiermee schakelt u Unicode-bewuste case folding in. |
UNIX_LINES |
string |
Hiermee schakelt u de Unix-lijnmodus in. |
ScalarQuantizationParameters
Bevat de parameters die specifiek zijn voor Scalaire kwantisatie.
Name | Type | Description |
---|---|---|
quantizedDataType |
Het gekwantiseerde gegevenstype van gecomprimeerde vectorwaarden. |
ScalarQuantizationVectorSearchCompressionConfiguration
Bevat configuratieopties die specifiek zijn voor de scalaire kwantisatiecompressiemethode die wordt gebruikt tijdens het indexeren en uitvoeren van query's.
Name | Type | Default value | Description |
---|---|---|---|
defaultOversampling |
number |
Standaardoversampling-factor. Oversampling vraagt intern meer documenten aan (opgegeven door deze vermenigvuldiger) in de eerste zoekopdracht. Dit verhoogt de reeks resultaten die opnieuw worden geherrankeerd met behulp van opnieuw berekende overeenkomstenscores van volledige precisievectoren. De minimumwaarde is 1, wat betekent dat er geen oversampling (1x) is. Deze parameter kan alleen worden ingesteld wanneer rerankWithOriginalVectors waar is. Hogere waarden verbeteren terughalen ten koste van latentie. |
|
kind |
string:
scalar |
De naam van het type compressiemethode dat wordt geconfigureerd voor gebruik met vectorzoekopdrachten. |
|
name |
string |
De naam die moet worden gekoppeld aan deze specifieke configuratie. |
|
rerankWithOriginalVectors |
boolean |
True |
Als deze optie is ingesteld op true, worden de geordende reeks resultaten die worden berekend met behulp van gecomprimeerde vectoren, opnieuw gerangschikt door de scores voor volledige precisie-overeenkomsten opnieuw te berekenen. Hierdoor wordt het intrekken verbeterd ten koste van latentie. |
scalarQuantizationParameters |
Bevat de parameters die specifiek zijn voor Scalaire kwantisatie. |
ScoringFunctionAggregation
Definieert de aggregatiefunctie die wordt gebruikt om de resultaten van alle scorefuncties in een scoreprofiel te combineren.
Name | Type | Description |
---|---|---|
average |
string |
Verhoog scores op basis van het gemiddelde van alle scorefunctieresultaten. |
firstMatching |
string |
Verhoog scores met behulp van de eerste toepasselijke scorefunctie in het scoreprofiel. |
maximum |
string |
Verhoog scores op het maximum van alle scorefunctieresultaten. |
minimum |
string |
Verhoog scores op basis van het minimum van alle scorefunctieresultaten. |
sum |
string |
Verhoog scores op basis van de som van alle scorefunctieresultaten. |
ScoringFunctionInterpolation
Definieert de functie die wordt gebruikt voor het interpoleren van scoreverhoging in een reeks documenten.
Name | Type | Description |
---|---|---|
constant |
string |
Verhoogt scores met een constante factor. |
linear |
string |
Verhoogt scores met een lineair afnemende hoeveelheid. Dit is de standaardinterpolatie voor scorefuncties. |
logarithmic |
string |
Verhoogt scores met een bedrag dat logaritmisch afneemt. Boosts nemen snel af voor hogere scores en langzamer naarmate de scores afnemen. Deze interpolatieoptie is niet toegestaan in scorefuncties voor tags. |
quadratic |
string |
Verhoogt scores met een bedrag dat kwadratisch afneemt. Boosts nemen langzaam af voor hogere scores en sneller naarmate de scores afnemen. Deze interpolatieoptie is niet toegestaan in scorefuncties voor tags. |
ScoringProfile
Definieert parameters voor een zoekindex die van invloed zijn op scoren in zoekquery's.
Name | Type | Description |
---|---|---|
functionAggregation |
Een waarde die aangeeft hoe de resultaten van afzonderlijke scorefuncties moeten worden gecombineerd. De standaardwaarde is 'Som'. Genegeerd als er geen scorefuncties zijn. |
|
functions | ScoringFunction[]: |
De verzameling functies die invloed hebben op het scoren van documenten. |
name |
string |
De naam van het scoreprofiel. |
text |
Parameters die het scoren verhogen op basis van tekstovereenkomsten in bepaalde indexvelden. |
SearchField
Vertegenwoordigt een veld in een indexdefinitie, waarin de naam, het gegevenstype en het zoekgedrag van een veld worden beschreven.
Name | Type | Description |
---|---|---|
analyzer |
De naam van de analyse die moet worden gebruikt voor het veld. Deze optie kan alleen worden gebruikt met doorzoekbare velden en kan niet samen met searchAnalyzer of indexAnalyzer worden ingesteld. Zodra de analyse is gekozen, kan deze niet meer worden gewijzigd voor het veld. Moet null zijn voor complexe velden. |
|
dimensions |
integer |
De dimensionaliteit van het vectorveld. |
facetable |
boolean |
Een waarde die aangeeft of het veld moet worden verwezen in facetquery's. Meestal gebruikt in een presentatie van zoekresultaten met hit count per categorie (bijvoorbeeld zoeken naar digitale camera's en treffers per merk, per megapixel, prijs, enzovoort). Deze eigenschap moet null zijn voor complexe velden. Velden van het type Edm.GeographyPoint of Collection(Edm.GeographyPoint) kunnen niet worden gezien. De standaardwaarde geldt voor alle andere eenvoudige velden. |
fields |
Een lijst met subvelden als dit een veld is van het type Edm.ComplexType of Collection(Edm.ComplexType). Moet null of leeg zijn voor eenvoudige velden. |
|
filterable |
boolean |
Een waarde die aangeeft of het veld moet worden verwezen in $filter query's. filterbaar verschilt van doorzoekbaar in de manier waarop tekenreeksen worden verwerkt. Velden van het type Edm.String of Collection(Edm.String) die filterbaar zijn, ondergaan geen woordbreking, dus vergelijkingen zijn alleen voor exacte overeenkomsten. Als u een dergelijk veld bijvoorbeeld instelt op 'zonnige dag', vindt $filter=f eq 'sunny' geen overeenkomsten, maar $filter=f eq 'sunny day'. Deze eigenschap moet null zijn voor complexe velden. De standaardwaarde is waar voor eenvoudige velden en null voor complexe velden. |
indexAnalyzer |
De naam van de analyse die wordt gebruikt bij het indexeren van het veld. Deze optie kan alleen worden gebruikt met doorzoekbare velden. Deze moet samen met searchAnalyzer worden ingesteld en kan niet samen met de analyseoptie worden ingesteld. Deze eigenschap kan niet worden ingesteld op de naam van een taalanalyse; gebruik in plaats daarvan de eigenschap Analyzer als u een taalanalyse nodig hebt. Zodra de analyse is gekozen, kan deze niet meer worden gewijzigd voor het veld. Moet null zijn voor complexe velden. |
|
key |
boolean |
Een waarde die aangeeft of het veld documenten in de index uniek identificeert. Precies één veld op het hoogste niveau in elke index moet worden gekozen als het sleutelveld en moet van het type Edm.String zijn. Sleutelvelden kunnen worden gebruikt om documenten rechtstreeks op te zoeken en specifieke documenten bij te werken of te verwijderen. De standaardwaarde is onwaar voor eenvoudige velden en null voor complexe velden. |
name |
string |
De naam van het veld, die uniek moet zijn binnen de veldenverzameling van het index- of bovenliggende veld. |
retrievable |
boolean |
Een waarde die aangeeft of het veld kan worden geretourneerd in een zoekresultaat. U kunt deze optie uitschakelen als u een veld (bijvoorbeeld marge) wilt gebruiken als filter-, sorteer- of scoremechanisme, maar niet wilt dat het veld zichtbaar is voor de eindgebruiker. Deze eigenschap moet waar zijn voor sleutelvelden en moet null zijn voor complexe velden. Deze eigenschap kan worden gewijzigd voor bestaande velden. Als u deze eigenschap inschakelt, neemt de opslagvereisten voor de index niet toe. De standaardwaarde is waar voor eenvoudige velden, onwaar voor vectorvelden en null voor complexe velden. |
searchAnalyzer |
De naam van de analyse die tijdens het zoeken naar het veld wordt gebruikt. Deze optie kan alleen worden gebruikt met doorzoekbare velden. Het moet samen met indexAnalyzer worden ingesteld en kan niet samen met de analyseoptie worden ingesteld. Deze eigenschap kan niet worden ingesteld op de naam van een taalanalyse; gebruik in plaats daarvan de eigenschap Analyzer als u een taalanalyse nodig hebt. Deze analyse kan worden bijgewerkt op een bestaand veld. Moet null zijn voor complexe velden. |
|
searchable |
boolean |
Een waarde die aangeeft of het veld doorzoekbaar is in volledige tekst. Dit betekent dat het een analyse ondergaat, zoals woordbreking tijdens het indexeren. Als u een doorzoekbaar veld instelt op een waarde zoals 'zonnige dag', wordt het intern gesplitst in de afzonderlijke tokens 'zonnig' en 'dag'. Hiermee kunt u zoeken in volledige tekst naar deze termen. Velden van het type Edm.String of Collection(Edm.String) kunnen standaard worden doorzocht. Deze eigenschap moet onwaar zijn voor eenvoudige velden van andere niet-tekenreeksgegevenstypen en moet null zijn voor complexe velden. Opmerking: doorzoekbare velden verbruiken extra ruimte in uw index om te voorzien in extra tokenized versies van de veldwaarde voor zoekopdrachten in volledige tekst. Als u ruimte wilt besparen in uw index en u geen veld nodig hebt om te worden opgenomen in zoekopdrachten, stelt u doorzoekbaar in op onwaar. |
sortable |
boolean |
Een waarde die aangeeft of het veld moet worden verwezen in $orderby expressies. Standaard sorteert de zoekmachine resultaten op score, maar in veel ervaringen willen gebruikers sorteren op velden in de documenten. Een eenvoudig veld kan alleen worden gesorteerd als het één waarde heeft (het heeft één waarde in het bereik van het bovenliggende document). Eenvoudige verzamelingsvelden kunnen niet worden gesorteerd, omdat ze meerdere waarden hebben. Eenvoudige subvelden van complexe verzamelingen zijn ook meerdere waarden en kunnen daarom niet worden gesorteerd. Dit is waar, of het nu een direct bovenliggend veld of een bovenliggend veld is, dat is de complexe verzameling. Complexe velden kunnen niet worden gesorteerd en de sorteerbare eigenschap moet null zijn voor dergelijke velden. De standaardinstelling voor sorteerbaar is waar voor eenvoudige velden met één waarde, onwaar voor eenvoudige velden met meerdere waarden en null voor complexe velden. |
stored |
boolean |
Een onveranderbare waarde die aangeeft of het veld afzonderlijk op de schijf wordt bewaard om in een zoekresultaat te worden geretourneerd. U kunt deze optie uitschakelen als u niet van plan bent om de inhoud van het veld in een zoekantwoord te retourneren om opslagoverhead op te slaan. Dit kan alleen worden ingesteld tijdens het maken van de index en alleen voor vectorvelden. Deze eigenschap kan niet worden gewijzigd voor bestaande velden of ingesteld als onwaar voor nieuwe velden. Als deze eigenschap is ingesteld als onwaar, moet de eigenschap 'ophaalbaar' ook worden ingesteld op onwaar. Deze eigenschap moet true of unset zijn voor sleutelvelden, voor nieuwe velden en voor niet-vectorvelden en moet null zijn voor complexe velden. Als u deze eigenschap uitschakelt, worden de opslagvereisten voor indexen verminderd. De standaardwaarde is waar voor vectorvelden. |
synonymMaps |
string[] |
Een lijst met de namen van synoniemen die aan dit veld moeten worden gekoppeld. Deze optie kan alleen worden gebruikt met doorzoekbare velden. Op dit moment wordt slechts één synoniemenkaart per veld ondersteund. Als u een synoniemtoewijzing toewijst aan een veld, zorgt u ervoor dat querytermen die gericht zijn op dat veld tijdens query's worden uitgebreid met behulp van de regels in de synoniementoewijzing. Dit kenmerk kan worden gewijzigd voor bestaande velden. Moet null of een lege verzameling zijn voor complexe velden. |
type |
Het gegevenstype van het veld. |
|
vectorEncoding |
De coderingsindeling om de inhoud van het veld te interpreteren. |
|
vectorSearchProfile |
string |
De naam van het vectorzoekprofiel dat het algoritme en vectorizer specificeert dat moet worden gebruikt bij het doorzoeken van het vectorveld. |
SearchFieldDataType
Hiermee definieert u het gegevenstype van een veld in een zoekindex.
Name | Type | Description |
---|---|---|
Edm.Boolean |
string |
Geeft aan dat een veld een Booleaanse waarde (waar of onwaar) bevat. |
Edm.Byte |
string |
Geeft aan dat een veld een 8-bits geheel getal zonder teken bevat. Dit is alleen geldig bij gebruik met Collection(Edm.Byte). |
Edm.ComplexType |
string |
Geeft aan dat een veld een of meer complexe objecten bevat die op zijn beurt subvelden van andere typen hebben. |
Edm.DateTimeOffset |
string |
Geeft aan dat een veld een datum/tijd-waarde bevat, inclusief tijdzonegegevens. |
Edm.Double |
string |
Geeft aan dat een veld een IEEE-getal met dubbele precisie bevat. |
Edm.GeographyPoint |
string |
Geeft aan dat een veld een geografische locatie bevat in termen van lengtegraad en breedtegraad. |
Edm.Half |
string |
Geeft aan dat een veld een drijvendekommagetal met halve precisie bevat. Dit is alleen geldig bij gebruik met Collection(Edm.Half). |
Edm.Int16 |
string |
Geeft aan dat een veld een 16-bits geheel getal bevat dat is ondertekend. Dit is alleen geldig wanneer deze wordt gebruikt met Collection(Edm.Int16). |
Edm.Int32 |
string |
Geeft aan dat een veld een 32-bits geheel getal bevat dat is ondertekend. |
Edm.Int64 |
string |
Geeft aan dat een veld een 64-bits geheel getal bevat dat is ondertekend. |
Edm.SByte |
string |
Hiermee wordt aangegeven dat een veld een 8-bits geheel getal bevat. Dit is alleen geldig wanneer deze wordt gebruikt met Collection(Edm.SByte). |
Edm.Single |
string |
Geeft aan dat een veld een drijvendekommagetal met één precisie bevat. Dit is alleen geldig bij gebruik met Collection(Edm.Single). |
Edm.String |
string |
Geeft aan dat een veld een tekenreeks bevat. |
SearchIndex
Vertegenwoordigt een definitie van een zoekindex, waarin de velden en het zoekgedrag van een index worden beschreven.
Name | Type | Description |
---|---|---|
@odata.etag |
string |
De ETag van de index. |
analyzers | LexicalAnalyzer[]: |
De analyses voor de index. |
charFilters | CharFilter[]: |
Het teken filtert voor de index. |
corsOptions |
Opties voor het beheren van CORS (Cross-Origin Resource Sharing) voor de index. |
|
defaultScoringProfile |
string |
De naam van het scoreprofiel dat moet worden gebruikt als er geen is opgegeven in de query. Als deze eigenschap niet is ingesteld en er geen scoreprofiel is opgegeven in de query, wordt standaardscore (tf-idf) gebruikt. |
encryptionKey |
Een beschrijving van een versleutelingssleutel die u in Azure Key Vault maakt. Deze sleutel wordt gebruikt om een extra versleutelings-at-rest-niveau voor uw gegevens te bieden wanneer u volledige zekerheid wilt dat niemand, zelfs Microsoft, uw gegevens kan ontsleutelen. Zodra u uw gegevens hebt versleuteld, blijven deze altijd versleuteld. De zoekservice negeert pogingen om deze eigenschap in te stellen op null. U kunt deze eigenschap indien nodig wijzigen als u uw versleutelingssleutel wilt draaien; Uw gegevens worden niet beïnvloed. Versleuteling met door de klant beheerde sleutels is niet beschikbaar voor gratis zoekservices en is alleen beschikbaar voor betaalde services die zijn gemaakt op of na 1 januari 2019. |
|
fields |
De velden van de index. |
|
name |
string |
De naam van de index. |
scoringProfiles |
De scoreprofielen voor de index. |
|
semantic |
Hiermee definieert u parameters voor een zoekindex die van invloed zijn op semantische mogelijkheden. |
|
similarity | Similarity: |
Het type gelijkenis-algoritme dat moet worden gebruikt bij het scoren en rangschiken van de documenten die overeenkomen met een zoekquery. Het gelijkenis-algoritme kan alleen worden gedefinieerd tijdens het maken van de index en kan niet worden gewijzigd in bestaande indexen. Als null is, wordt het algoritme ClassicSimilarity gebruikt. |
suggesters |
De suggesties voor de index. |
|
tokenFilters |
TokenFilter[]:
|
Het tokenfiltert voor de index. |
tokenizers | LexicalTokenizer[]: |
De tokenizers voor de index. |
vectorSearch |
Bevat configuratieopties met betrekking tot vectorzoekopdrachten. |
SearchIndexerDataNoneIdentity
Hiermee wist u de identiteitseigenschap van een gegevensbron.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type identiteit aangeeft. |
SearchIndexerDataUserAssignedIdentity
Hiermee geeft u de identiteit op voor een gegevensbron die moet worden gebruikt.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type identiteit aangeeft. |
userAssignedIdentity |
string |
De volledig gekwalificeerde Azure-resource-id van een door de gebruiker toegewezen beheerde identiteit, meestal in de vorm '/subscriptions/12345678-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId' die aan de zoekservice moet zijn toegewezen. |
SearchResourceEncryptionKey
Een door de klant beheerde versleutelingssleutel in Azure Key Vault. Sleutels die u maakt en beheert, kunnen worden gebruikt voor het versleutelen of ontsleutelen van data-at-rest, zoals indexen en synoniemenkaarten.
Name | Type | Description |
---|---|---|
accessCredentials |
Optionele Azure Active Directory-referenties die worden gebruikt voor toegang tot uw Azure Key Vault. Niet vereist als u in plaats daarvan beheerde identiteit gebruikt. |
|
keyVaultKeyName |
string |
De naam van uw Azure Key Vault-sleutel die moet worden gebruikt om uw data-at-rest te versleutelen. |
keyVaultKeyVersion |
string |
De versie van uw Azure Key Vault-sleutel die moet worden gebruikt om uw data-at-rest te versleutelen. |
keyVaultUri |
string |
De URI van uw Azure Key Vault, ook wel DNS-naam genoemd, die de sleutel bevat die moet worden gebruikt voor het versleutelen van uw data-at-rest. Een voorbeeld van een URI kan |
SemanticConfiguration
Definieert een specifieke configuratie die moet worden gebruikt in de context van semantische mogelijkheden.
Name | Type | Description |
---|---|---|
name |
string |
De naam van de semantische configuratie. |
prioritizedFields |
Beschrijft de titel-, inhouds- en trefwoordvelden die moeten worden gebruikt voor semantische rangschikking, bijschriften, markeringen en antwoorden. Ten minste één van de drie subeigenschappen (titleField, prioriteerdeKeywordsFields en prioriteerdeContentFields) moet worden ingesteld. |
SemanticField
Een veld dat wordt gebruikt als onderdeel van de semantische configuratie.
Name | Type | Description |
---|---|---|
fieldName |
string |
SemanticSettings
Hiermee definieert u parameters voor een zoekindex die van invloed zijn op semantische mogelijkheden.
Name | Type | Description |
---|---|---|
configurations |
De semantische configuraties voor de index. |
|
defaultConfiguration |
string |
Hiermee kunt u de naam van een standaard-semantische configuratie in uw index instellen, waardoor deze optioneel is om deze telkens als queryparameter door te geven. |
ShingleTokenFilter
Hiermee maakt u combinaties van tokens als één token. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
filterToken |
string |
_ |
De tekenreeks die moet worden ingevoegd voor elke positie waarop er geen token is. De standaardwaarde is een onderstrepingsteken ("_"). |
maxShingleSize |
integer |
2 |
De maximale shingle grootte. De standaard- en minimumwaarde is 2. |
minShingleSize |
integer |
2 |
De minimale shingle grootte. De standaard- en minimumwaarde is 2. Moet kleiner zijn dan de waarde van maxShingleSize. |
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
outputUnigrams |
boolean |
True |
Een waarde die aangeeft of de uitvoerstroom de invoertokens (unigrammen) en shingles bevat. De standaardwaarde is waar. |
outputUnigramsIfNoShingles |
boolean |
False |
Een waarde die aangeeft of unigrammen moeten worden uitgevoerd voor die tijden waarop er geen shingles beschikbaar zijn. Deze eigenschap heeft voorrang wanneer outputUnigrams is ingesteld op false. De standaardwaarde is onwaar. |
tokenSeparator |
string |
De tekenreeks die moet worden gebruikt bij het samenvoegen van aangrenzende tokens om een shingle te vormen. De standaardwaarde is één spatie (" "). |
SnowballTokenFilter
Een filter dat woorden stamt met behulp van een door Snowball gegenereerde stemmer. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
language |
De taal die moet worden gebruikt. |
|
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
SnowballTokenFilterLanguage
De taal die moet worden gebruikt voor een Snowball-tokenfilter.
Name | Type | Description |
---|---|---|
armenian |
string |
Selecteert de Lucene Snowball stem tokenizer voor Armeens. |
basque |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Baskisch. |
catalan |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Catalaans. |
danish |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Deens. |
dutch |
string |
Selecteert de Lucene Snowball stem tokenizer voor Nederlands. |
english |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Engels. |
finnish |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Fins. |
french |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Frans. |
german |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Duits. |
german2 |
string |
Selecteert de Lucene Snowball stemmingstokenizer die gebruikmaakt van het Duitse variantalgoritme. |
hungarian |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Hongaars. |
italian |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Italiaans. |
kp |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Nederlands die gebruikmaakt van het Kraaij-Pohlmann stemmingsalgoritme. |
lovins |
string |
Selecteert de Lucene Snowball-stemtokenizer voor Engels die gebruikmaakt van het Lovins stemmingsalgoritme. |
norwegian |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Noors. |
porter |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Engels die gebruikmaakt van het Porter stemming algoritme. |
portuguese |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Portugees. |
romanian |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Roemeens. |
russian |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Russisch. |
spanish |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Spaans. |
swedish |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Zweeds. |
turkish |
string |
Selecteert de Lucene Snowball stemmingstokenizer voor Turks. |
StemmerOverrideTokenFilter
Biedt de mogelijkheid om andere stemmingsfilters te overschrijven met aangepaste stemming op basis van woordenlijst. Alle woordenlijstgestemde termen worden gemarkeerd als trefwoorden, zodat ze niet worden afgestemd met stemmers in de keten. Moet vóór stemmingsfilters worden geplaatst. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
rules |
string[] |
Een lijst met stemregels in de volgende notatie: "word => stam", bijvoorbeeld: "ran => run". |
StemmerTokenFilter
Taalspecifiek stemmingsfilter. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
language |
De taal die moet worden gebruikt. |
|
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
StemmerTokenFilterLanguage
De taal die moet worden gebruikt voor een stemmer-tokenfilter.
Name | Type | Description |
---|---|---|
arabic |
string |
Selecteert de Lucene stemmingstokenizer voor Arabisch. |
armenian |
string |
Selecteert de Lucene stemmingstokenizer voor Armeens. |
basque |
string |
Selecteert de Lucene stemmingstokenizer voor Baskisch. |
brazilian |
string |
Selecteert de Lucene stemmingstokenizer voor Portugees (Brazilië). |
bulgarian |
string |
Selecteert de Lucene stemmingstokenizer voor Bulgaars. |
catalan |
string |
Selecteert de Lucene stemmingstokenizer voor Catalaans. |
czech |
string |
Selecteert de Lucene stemmingstokenizer voor Tsjechisch. |
danish |
string |
Selecteert de Lucene stemmingstokenizer voor Deens. |
dutch |
string |
Selecteert de Lucene stemmingstokenizer voor Nederlands. |
dutchKp |
string |
Selecteert de Lucene stemmingstokenizer voor Nederlands die gebruikmaakt van het algoritme Kraaij-Pohlmann stemming. |
english |
string |
Selecteert de Lucene stemmingstokenizer voor Engels. |
finnish |
string |
Selecteert de Lucene stemmingstokenizer voor Fins. |
french |
string |
Selecteert de Lucene stemmingstokenizer voor Frans. |
galician |
string |
Selecteert de Lucene stemmingstokenizer voor Galicisch. |
german |
string |
Selecteert de Lucene stemmingstokenizer voor Duits. |
german2 |
string |
Selecteert de Lucene stemmingstokenizer die gebruikmaakt van het Duitse variant-algoritme. |
greek |
string |
Selecteert de Lucene stemmingstokenizer voor Grieks. |
hindi |
string |
Selecteert de Lucene stemmingstokenizer voor Hindi. |
hungarian |
string |
Selecteert de Lucene stemmingstokenizer voor Hongaars. |
indonesian |
string |
Selecteert de Lucene stemmingstokenizer voor Indonesisch. |
irish |
string |
Selecteert de Lucene stemmingstokenizer voor Iers. |
italian |
string |
Selecteert de Lucene stemmingstokenizer voor Italiaans. |
latvian |
string |
Selecteert de Lucene stemmingstokenizer voor Lets. |
lightEnglish |
string |
Selecteert de Lucene stemmingstokenizer voor Engels die licht stemt. |
lightFinnish |
string |
Selecteert de Lucene stamtokenizer voor Fins die licht stemt. |
lightFrench |
string |
Selecteert de Lucene stamtokenizer voor Frans die lichte stemming doet. |
lightGerman |
string |
Selecteert de Lucene stemmingstokenizer voor Duits die licht stemt. |
lightHungarian |
string |
Selecteert de Lucene stemtokenizer voor Hongaars die lichte stemming doet. |
lightItalian |
string |
Selecteert de Lucene stamtokenizer voor Italiaans dat lichte stemming doet. |
lightNorwegian |
string |
Selecteert de Lucene stemmingstokenizer voor Noors (Bokmål) die licht stemt. |
lightNynorsk |
string |
Selecteert de Lucene stemmingstokenizer voor Noors (Nynorsk) die lichte stemming doet. |
lightPortuguese |
string |
Selecteert de Lucene stemtokenizer voor Portugees die lichte stemming doet. |
lightRussian |
string |
Selecteert de Lucene stamtokenizer voor Russisch dat licht stemt. |
lightSpanish |
string |
Selecteert de Lucene stamtokenizer voor Spaans die licht stemt. |
lightSwedish |
string |
Selecteert de Lucene stamtokenizer voor Zweeds die lichte stemming doet. |
lovins |
string |
Selecteert de Lucene stemmingstokenizer voor Engels die gebruikmaakt van het Lovins stemmingsalgoritme. |
minimalEnglish |
string |
Selecteert de Lucene stemmingstokenizer voor Engels die minimaal stamt. |
minimalFrench |
string |
Selecteert de Lucene stemmingstokenizer voor Frans die minimale stemming doet. |
minimalGalician |
string |
Selecteert de Lucene stamtokenizer voor Galicisch die minimale stemming doet. |
minimalGerman |
string |
Selecteert de Lucene stemmingstokenizer voor Duits die minimale stemmingen doet. |
minimalNorwegian |
string |
Hiermee selecteert u de Lucene stemmingstokenizer voor Noors (Bokmål) die minimaal stamt. |
minimalNynorsk |
string |
Selecteert de Lucene stemmingstokenizer voor Noors (Nynorsk) die minimale stemmingen doet. |
minimalPortuguese |
string |
Selecteert de Lucene stemmingstokenizer voor Portugees die minimale stemmingen doet. |
norwegian |
string |
Selecteert de Lucene stemmingstokenizer voor Noors (Bokmål). |
porter2 |
string |
Selecteert de Lucene stemmingstokenizer voor Engels die gebruikmaakt van het Porter2 stemming algoritme. |
portuguese |
string |
Selecteert de Lucene stemmingstokenizer voor Portugees. |
portugueseRslp |
string |
Selecteert de Lucene stemmingstokenizer voor Portugees die gebruikmaakt van het RSLP-stemmingsalgoritmen. |
possessiveEnglish |
string |
Selecteert de Lucene stemmingstokenizer voor Engels die volgende bezitwoorden verwijdert uit woorden. |
romanian |
string |
Selecteert de Lucene stemmingstokenizer voor Roemeens. |
russian |
string |
Selecteert de Lucene stemmingstokenizer voor Russisch. |
sorani |
string |
Selecteert de Lucene stemmingstokenizer voor Sorani. |
spanish |
string |
Selecteert de Lucene stemmingstokenizer voor Spaans. |
swedish |
string |
Selecteert de Lucene stemmingstokenizer voor Zweeds. |
turkish |
string |
Selecteert de Lucene stemmingstokenizer voor Turks. |
StopAnalyzer
Verdeelt tekst bij niet-letters; Hiermee past u de tokenfilters voor kleine letters en stopworden toe. Deze analyse wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type analyse aangeeft. |
name |
string |
De naam van de analyse. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
stopwords |
string[] |
Een lijst met stopwoorden. |
StopwordsList
Identificeert een vooraf gedefinieerde lijst met taalspecifieke stopwoorden.
Name | Type | Description |
---|---|---|
arabic |
string |
Hiermee selecteert u de lijst met stopwoorden voor Arabisch. |
armenian |
string |
Hiermee selecteert u de lijst met stopwoorden voor Armeens. |
basque |
string |
Selecteert de stopwoordlijst voor Baskisch. |
brazilian |
string |
Hiermee selecteert u de stopwoordlijst voor Portugees (Brazilië). |
bulgarian |
string |
Hiermee selecteert u de lijst met stopwoorden voor Bulgaars. |
catalan |
string |
Hiermee selecteert u de lijst met stopwoorden voor Catalaans. |
czech |
string |
Selecteert de lijst met stopwoorden voor Tsjechisch. |
danish |
string |
Selecteert de stopwoordlijst voor Deens. |
dutch |
string |
Selecteert de stopwoordlijst voor Nederlands. |
english |
string |
Hiermee selecteert u de lijst met stopwoorden voor Engels. |
finnish |
string |
Hiermee selecteert u de lijst met stopwoorden voor Fins. |
french |
string |
Hiermee selecteert u de lijst met stopwoorden voor Frans. |
galician |
string |
Selecteert de lijst met stopwoorden voor Galicisch. |
german |
string |
Selecteert de stopwoordlijst voor Duits. |
greek |
string |
Hiermee selecteert u de lijst met stopwoorden voor Grieks. |
hindi |
string |
Hiermee selecteert u de lijst met stopwoorden voor Hindi. |
hungarian |
string |
Hiermee selecteert u de lijst met stopwoorden voor Hongaars. |
indonesian |
string |
Selecteert de lijst met stopwoorden voor Indonesisch. |
irish |
string |
Selecteert de stopword-lijst voor Iers. |
italian |
string |
Selecteert de stopwoordlijst voor Italiaans. |
latvian |
string |
Selecteert de lijst met stopwoorden voor Lets. |
norwegian |
string |
Selecteert de lijst met stopwoorden voor Noors. |
persian |
string |
Selecteert de stopword-lijst voor Perzisch. |
portuguese |
string |
Hiermee selecteert u de lijst met stopwoorden voor Portugees. |
romanian |
string |
Hiermee selecteert u de lijst met stopwoorden voor Roemeens. |
russian |
string |
Hiermee selecteert u de lijst met stopwoorden voor Russisch. |
sorani |
string |
Selecteert de stopwoordlijst voor Sorani. |
spanish |
string |
Hiermee selecteert u de lijst met stopwoorden voor Spaans. |
swedish |
string |
Hiermee selecteert u de lijst met stopwoorden voor Zweeds. |
thai |
string |
Hiermee selecteert u de lijst met stopwoorden voor Thais. |
turkish |
string |
Hiermee selecteert u de stopwoordlijst voor Turks. |
StopwordsTokenFilter
Hiermee verwijdert u stopwoorden uit een tokenstroom. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
ignoreCase |
boolean |
False |
Een waarde die aangeeft of hoofdlettergebruik moet worden genegeerd. Indien waar, worden alle woorden eerst geconverteerd naar kleine letters. De standaardwaarde is onwaar. |
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
removeTrailing |
boolean |
True |
Een waarde die aangeeft of de laatste zoekterm moet worden genegeerd als het een stopwoord is. De standaardwaarde is waar. |
stopwords |
string[] |
De lijst met stopwoorden. Deze eigenschap en de eigenschap stopwords-lijst kunnen niet beide worden ingesteld. |
|
stopwordsList | english |
Een vooraf gedefinieerde lijst met stopwoorden die moeten worden gebruikt. Deze eigenschap en de stopwords-eigenschap kunnen niet beide worden ingesteld. De standaardwaarde is Engels. |
Suggester
Hiermee definieert u hoe de Suggestie-API moet worden toegepast op een groep velden in de index.
Name | Type | Description |
---|---|---|
name |
string |
De naam van de suggestie. |
searchMode |
Een waarde die de mogelijkheden van de suggestie aangeeft. |
|
sourceFields |
string[] |
De lijst met veldnamen waarop de suggestie van toepassing is. Elk veld moet doorzoekbaar zijn. |
SuggesterSearchMode
Een waarde die de mogelijkheden van de suggestie aangeeft.
Name | Type | Description |
---|---|---|
analyzingInfixMatching |
string |
Komt overeen met opeenvolgende hele termen en voorvoegsels in een veld. Voor het veld 'De snelste bruine vos' komen de query's 'snel' en 'snelste wenkbrauw' bijvoorbeeld overeen. |
SynonymTokenFilter
Komt overeen met synoniemen met één of meerdere woorden in een tokenstroom. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
expand |
boolean |
True |
Een waarde die aangeeft of alle woorden in de lijst met synoniemen (als => notatie niet wordt gebruikt) aan elkaar worden toegewezen. Indien waar, worden alle woorden in de lijst met synoniemen (als => notatie niet gebruikt) aan elkaar toegewezen. De volgende lijst: ongelooflijk, ongelooflijk, fantastisch, geweldig is gelijk aan: ongelooflijk, ongelooflijk, fantastisch, geweldig => ongelooflijk, ongelooflijk, fantastisch, geweldig. Als onwaar, de volgende lijst: ongelooflijk, ongelooflijk, fantastisch, geweldig zal gelijk zijn aan: ongelooflijk, ongelooflijk, fantastisch, geweldig => ongelooflijk. De standaardwaarde is waar. |
ignoreCase |
boolean |
False |
Een waarde die aangeeft of invoer in hoofdletters moet worden gevouwen voor overeenkomende waarden. De standaardwaarde is onwaar. |
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
synonyms |
string[] |
Een lijst met synoniemen in de volgende twee indelingen: 1. ongelooflijk, ongelooflijk, fantastisch => geweldig - alle termen aan de linkerkant van => symbool zullen worden vervangen door alle termen aan de rechterkant; 2. ongelooflijk, ongelooflijk, fantastisch, geweldig - door komma's gescheiden lijst met equivalente woorden. Stel de uitvouwoptie in om te wijzigen hoe deze lijst wordt geïnterpreteerd. |
TagScoringFunction
Definieert een functie waarmee scores van documenten worden verhoogd met tekenreekswaarden die overeenkomen met een bepaalde lijst met tags.
Name | Type | Description |
---|---|---|
boost |
number |
Een vermenigvuldiger voor de onbewerkte score. Moet een positief getal zijn dat niet gelijk is aan 1,0. |
fieldName |
string |
De naam van het veld dat wordt gebruikt als invoer voor de scorefunctie. |
interpolation |
Een waarde die aangeeft hoe het stimuleren wordt geïnterpoleerd in documentscores; wordt standaard ingesteld op Lineair. |
|
tag |
Parameterwaarden voor de tagscorefunctie. |
|
type |
string:
tag |
Geeft het type functie aan dat moet worden gebruikt. Geldige waarden zijn grootte, versheid, afstand en tag. Het functietype moet een kleine letter zijn. |
TagScoringParameters
Biedt parameterwaarden voor een scorefunctie voor tags.
Name | Type | Description |
---|---|---|
tagsParameter |
string |
De naam van de parameter die is doorgegeven in zoekquery's om de lijst met tags op te geven die u wilt vergelijken met het doelveld. |
TextWeights
Definieert gewichten voor indexvelden waarvoor overeenkomsten het scoren in zoekquery's moeten verhogen.
Name | Type | Description |
---|---|---|
weights |
object |
De woordenlijst met gewichten per veld om het scoren van documenten te verhogen. De sleutels zijn veldnamen en de waarden zijn de gewichten voor elk veld. |
TokenCharacterKind
Vertegenwoordigt klassen van tekens waarop een tokenfilter kan worden gebruikt.
Name | Type | Description |
---|---|---|
digit |
string |
Houdt cijfers in tokens. |
letter |
string |
Bewaart letters in tokens. |
punctuation |
string |
Houdt interpunctie in tokens. |
symbol |
string |
Houdt symbolen in tokens. |
whitespace |
string |
Houdt witruimte in tokens. |
TokenFilterName
Hiermee definieert u de namen van alle tokenfilters die worden ondersteund door de zoekmachine.
TruncateTokenFilter
Kapt de voorwaarden af tot een specifieke lengte. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
length |
integer |
300 |
De lengte waarmee termen worden afgekapt. Standaard en maximum is 300. |
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
UaxUrlEmailTokenizer
Hiermee worden URL's en e-mailberichten als één token gewijzigd. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarin het type tokenizer wordt opgegeven. |
|
maxTokenLength |
integer |
255 |
De maximale tokenlengte. De standaardwaarde is 255. Tokens die langer zijn dan de maximale lengte, worden gesplitst. De maximale tokenlengte die kan worden gebruikt, is 300 tekens. |
name |
string |
De naam van de tokenizer. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
UniqueTokenFilter
Hiermee worden tokens gefilterd met dezelfde tekst als het vorige token. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
onlyOnSamePosition |
boolean |
False |
Een waarde die aangeeft of duplicaten alleen op dezelfde positie moeten worden verwijderd. De standaardwaarde is onwaar. |
VectorEncodingFormat
De coderingsindeling voor het interpreteren van vectorveldinhoud.
Name | Type | Description |
---|---|---|
packedBit |
string |
Coderingsindeling die bits vertegenwoordigt die zijn verpakt in een breder gegevenstype. |
VectorSearch
Bevat configuratieopties met betrekking tot vectorzoekopdrachten.
Name | Type | Description |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Bevat configuratieopties die specifiek zijn voor het algoritme dat wordt gebruikt tijdens het indexeren of uitvoeren van query's. |
compressions | VectorSearchCompressionConfiguration[]: |
Bevat configuratieopties die specifiek zijn voor de compressiemethode die wordt gebruikt tijdens het indexeren of uitvoeren van query's. |
profiles |
Definieert combinaties van configuraties die moeten worden gebruikt met vectorzoekopdrachten. |
|
vectorizers | VectorSearchVectorizer[]: |
Bevat configuratieopties voor het vectoriseren van tekstvectorquery's. |
VectorSearchAlgorithmKind
Het algoritme dat wordt gebruikt voor het indexeren en uitvoeren van query's.
Name | Type | Description |
---|---|---|
exhaustiveKnn |
string |
Uitgebreid KNN-algoritme dat brute-force zoekopdrachten uitvoert. |
hnsw |
string |
HNSW (Hierarchical Navigable Small World), een type bij benadering dichtstbijzijnde buren algoritme. |
VectorSearchAlgorithmMetric
De metrische overeenkomstwaarde die moet worden gebruikt voor vectorvergelijkingen. Het wordt aanbevolen om dezelfde overeenkomstwaarde te kiezen als het insluitmodel waarop is getraind.
Name | Type | Description |
---|---|---|
cosine |
string |
Meet de hoek tussen vectoren om hun gelijkenis te kwantificeren, waarbij de grootte wordt genegeerd. Hoe kleiner de hoek, hoe dichter de gelijkenis. |
dotProduct |
string |
Berekent de som van elementengewijze producten om de uitlijning en grootte-gelijkenis te meten. Hoe groter en positiever, hoe dichter de gelijkenis. |
euclidean |
string |
Berekent de rechte lijnafstand tussen vectoren in een multidimensionale ruimte. Hoe kleiner de afstand, hoe dichter de gelijkenis. |
hamming |
string |
Alleen van toepassing op binaire gegevenstypen met bitpakketten. Bepaalt ongelijksoortigheid door verschillende posities in binaire vectoren te tellen. Hoe minder verschillen, hoe dichter de gelijkenis. |
VectorSearchCompressionKind
De compressiemethode die wordt gebruikt voor het indexeren en uitvoeren van query's.
Name | Type | Description |
---|---|---|
binaryQuantization |
string |
Binaire kwantisatie, een type compressiemethode. Bij binaire kwantisatie worden de oorspronkelijke vectorwaarden gecomprimeerd tot het smallere binaire type door elk onderdeel van een vector te discretiseren en weer te geven met behulp van binaire waarden, waardoor de totale gegevensgrootte wordt verkleind. |
scalarQuantization |
string |
Scalaire kwantisatie, een type compressiemethode. Bij scalaire kwantisatie worden de oorspronkelijke vectorwaarden gecomprimeerd tot een smaller type door elk onderdeel van een vector te discretiseren en vertegenwoordigen met behulp van een gereduceerde set gekwantiseerde waarden, waardoor de totale gegevensgrootte wordt verkleind. |
VectorSearchCompressionTargetDataType
Het gekwantiseerde gegevenstype van gecomprimeerde vectorwaarden.
Name | Type | Description |
---|---|---|
int8 |
string |
VectorSearchProfile
Definieert een combinatie van configuraties die moeten worden gebruikt met vectorzoekopdrachten.
Name | Type | Description |
---|---|---|
algorithm |
string |
De naam van de configuratie van het vectorzoekalgoritmen waarmee het algoritme en optionele parameters worden opgegeven. |
compression |
string |
De naam van de configuratie van de compressiemethode waarmee de compressiemethode en optionele parameters worden opgegeven. |
name |
string |
De naam die moet worden gekoppeld aan dit specifieke vectorzoekprofiel. |
vectorizer |
string |
De naam van de vectorisatie die wordt geconfigureerd voor gebruik met vectorzoekopdrachten. |
VectorSearchVectorizerKind
De vectorisatiemethode die moet worden gebruikt tijdens de querytijd.
Name | Type | Description |
---|---|---|
azureOpenAI |
string |
Genereer insluitingen met behulp van een Azure OpenAI-resource tijdens het uitvoeren van query's. |
customWebApi |
string |
Genereer insluitingen met behulp van een aangepast webeindpunt tijdens de query. |
WebApiParameters
Hiermee geeft u de eigenschappen voor het maken van verbinding met een door de gebruiker gedefinieerde vectorizer.
Name | Type | Description |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
De door de gebruiker toegewezen beheerde identiteit die wordt gebruikt voor uitgaande verbindingen. Als er een authResourceId is opgegeven en deze niet is opgegeven, wordt de door het systeem toegewezen beheerde identiteit gebruikt. Bij updates van de indexeerfunctie blijft de waarde ongewijzigd als de identiteit niet is opgegeven. Als deze optie is ingesteld op 'none', wordt de waarde van deze eigenschap gewist. |
authResourceId |
string |
Van toepassing op aangepaste eindpunten die verbinding maken met externe code in een Azure-functie of een andere toepassing die de transformaties biedt. Deze waarde moet de toepassings-id zijn die is gemaakt voor de functie of app wanneer deze is geregistreerd bij Azure Active Directory. Wanneer dit is opgegeven, maakt de vectorisatie verbinding met de functie of app met behulp van een beheerde id (systeem of door de gebruiker toegewezen) van de zoekservice en het toegangstoken van de functie of app, waarbij deze waarde wordt gebruikt als de resource-id voor het maken van het bereik van het toegangstoken. |
httpHeaders |
object |
De headers die nodig zijn om de HTTP-aanvraag te maken. |
httpMethod |
string |
De methode voor de HTTP-aanvraag. |
timeout |
string |
De gewenste time-out voor de aanvraag. De standaardwaarde is 30 seconden. |
uri |
string |
De URI van de web-API die de vectorizer levert. |
WebApiVectorizer
Hiermee geeft u een door de gebruiker gedefinieerde vectorizer op voor het genereren van de vectorinsluiting van een queryreeks. Integratie van een externe vectorizer wordt bereikt met behulp van de aangepaste web-API-interface van een vaardighedenset.
Name | Type | Description |
---|---|---|
customWebApiParameters |
Hiermee geeft u de eigenschappen van de door de gebruiker gedefinieerde vectorizer. |
|
kind |
string:
custom |
De naam van het type vectorisatiemethode dat wordt geconfigureerd voor gebruik met vectorzoekopdrachten. |
name |
string |
De naam die moet worden gekoppeld aan deze specifieke vectorisatiemethode. |
WordDelimiterTokenFilter
Splitst woorden in subwoorden en voert optionele transformaties uit voor subwoordgroepen. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment waarmee het type tokenfilter wordt opgegeven. |
|
catenateAll |
boolean |
False |
Een waarde die aangeeft of alle subwoordonderdelen worden gekatoteerd. Als dit bijvoorbeeld is ingesteld op true, wordt 'Azure-Search-1' 'AzureSearch1'. De standaardwaarde is onwaar. |
catenateNumbers |
boolean |
False |
Een waarde die aangeeft of maximale uitvoeringen van aantal delen worden gekataleerd. Als dit bijvoorbeeld is ingesteld op true, wordt '1-2' '12'. De standaardwaarde is onwaar. |
catenateWords |
boolean |
False |
Een waarde die aangeeft of maximale uitvoeringen van woordonderdelen worden getaseerd. Als dit bijvoorbeeld is ingesteld op true, wordt 'Azure-Search' 'AzureSearch'. De standaardwaarde is onwaar. |
generateNumberParts |
boolean |
True |
Een waarde die aangeeft of subwoorden voor getallen moeten worden gegenereerd. De standaardwaarde is waar. |
generateWordParts |
boolean |
True |
Een waarde die aangeeft of deelwoorden moeten worden gegenereerd. Indien ingesteld, worden delen van woorden gegenereerd; bijvoorbeeld 'AzureSearch' wordt 'Azure' 'Search'. De standaardwaarde is waar. |
name |
string |
De naam van het tokenfilter. Deze mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en mag maximaal 128 tekens bevatten. |
|
preserveOriginal |
boolean |
False |
Een waarde die aangeeft of oorspronkelijke woorden behouden blijven en worden toegevoegd aan de subwoordlijst. De standaardwaarde is onwaar. |
protectedWords |
string[] |
Een lijst met tokens die moeten worden beschermd tegen scheidingstekens. |
|
splitOnCaseChange |
boolean |
True |
Een waarde die aangeeft of woorden moeten worden gesplitst in caseChange. Als dit bijvoorbeeld is ingesteld op true, wordt 'AzureSearch' 'Azure' 'Search'. De standaardwaarde is waar. |
splitOnNumerics |
boolean |
True |
Een waarde die aangeeft of u wilt splitsen op getallen. Als dit bijvoorbeeld is ingesteld op true, wordt 'Azure1Search' 'Azure' '1' 'Search'. De standaardwaarde is waar. |
stemEnglishPossessive |
boolean |
True |
Een waarde die aangeeft of u achtervolgende ''s' voor elk subwoord wilt verwijderen. De standaardwaarde is waar. |