Indexes - Get
Récupère une définition d’index.
GET {endpoint}/indexes('{indexName}')?api-version=2023-11-01
Paramètres URI
Nom | Dans | Obligatoire | Type | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
URL du point de terminaison du service de recherche. |
index
|
path | True |
string |
Nom de l’index à récupérer. |
api-version
|
query | True |
string |
Version de l’API cliente. |
En-tête de la demande
Nom | Obligatoire | Type | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
ID de suivi envoyé avec la demande d’aide pour le débogage. |
Réponses
Nom | Type | Description |
---|---|---|
200 OK | ||
Other Status Codes |
Réponse d’erreur. |
Exemples
SearchServiceGetIndex
Exemple de requête
GET https://myservice.search.windows.net/indexes('hotels')?api-version=2023-11-01
Exemple de réponse
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myKeyName",
"keyVaultKeyVersion": "myKeyVersion",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
]
}
}
Définitions
Nom | Description |
---|---|
Ascii |
Convertit les caractères Unicode alphabétiques, numériques et symboliques qui ne figurent pas dans les 127 premiers caractères ASCII (le bloc Unicode « Latin de base ») en leurs équivalents ASCII, s’ils existent. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Azure |
Informations d’identification d’une application inscrite créée pour votre service de recherche, utilisées pour l’accès authentifié aux clés de chiffrement stockées dans Azure Key Vault. |
BM25Similarity |
Fonction de classement basée sur l’algorithme de similarité Okapi BM25. BM25 est un algorithme de type TF-IDF qui inclut la normalisation de la longueur (contrôlée par le paramètre « b ») ainsi que la saturation de la fréquence de terme (contrôlée par le paramètre « k1 »). |
Char |
Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche. |
Cjk |
Forme des bigrams de termes CJK générés à partir du générateur de jetons standard. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Cjk |
Scripts qui peuvent être ignorés par CjkBigramTokenFilter. |
Classic |
Algorithme de similarité hérité qui utilise l’implémentation Lucene TFIDFSimilarity de TF-IDF. Cette variante de TF-IDF introduit la normalisation statique de la longueur des documents ainsi que des facteurs de coordination qui pénalisent les documents qui ne correspondent que partiellement aux requêtes recherchées. |
Classic |
Générateur de jetons basé sur la grammaire adapté au traitement de la plupart des documents en langue européenne. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene. |
Common |
Construit des digrammes pour les termes d’occurrence fréquente lors de l’indexation. Les termes uniques sont néanmoins aussi indexés, avec des digrammes superposés. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Cors |
Définit des options pour contrôler le partage de ressources entre origines (CORS) pour un index. |
Custom |
Vous permet de prendre le contrôle du processus de conversion du texte en jetons indexables/pouvant faire l’objet d’une recherche. Il s’agit d’une configuration définie par l’utilisateur composée d’un générateur de jetons unique prédéfini et d’un ou plusieurs filtres. Le générateur de jetons est responsable de la fractionnement du texte en jetons et des filtres pour la modification des jetons émis par le générateur de jetons. |
Dictionary |
Décompose les mots composés trouvés dans beaucoup de langues germaniques. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Distance |
Définit une fonction qui augmente les scores en fonction de la distance d’un emplacement géographique. |
Distance |
Fournit des valeurs de paramètre à une fonction de scoring de distance. |
Edge |
Génère des n-grammes de la ou des tailles données à partir de l’avant ou de l’arrière d’un jeton d’entrée. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Edge |
Spécifie le côté de l’entrée à partir duquel un n-gramme doit être généré. |
Edge |
Génère des n-grammes de la ou des tailles données à partir de l’avant ou de l’arrière d’un jeton d’entrée. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Edge |
Tokenise l’entrée d’un bord en n-grammes de la ou des tailles données. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene. |
Elision |
Supprime les élisions. Par exemple, « l’avion » sera converti en « avion ». Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Exhaustive |
Contient les paramètres spécifiques à l’algorithme KNN exhaustif. |
Exhaustive |
Contient des options de configuration spécifiques à l’algorithme KNN exhaustif utilisé lors de l’interrogation, qui effectue une recherche en force brute sur l’ensemble de l’index vectoriel. |
Freshness |
Définit une fonction qui augmente les scores en fonction de la valeur d’un champ date-heure. |
Freshness |
Fournit des valeurs de paramètre à une fonction de scoring d’actualisation. |
Hnsw |
Contient les paramètres spécifiques à l’algorithme HNSW. |
Hnsw |
Contient des options de configuration spécifiques à l’algorithme HNSW approximatif le plus proche voisin utilisé lors de l’indexation et de l’interrogation. L’algorithme HNSW offre un compromis paramétrable entre la vitesse de recherche et la précision. |
Keep |
Filtre de jeton qui conserve uniquement les jetons avec du texte contenu dans une liste de mots spécifiée. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Keyword |
Marque les termes comme mots clés. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Keyword |
Génère la totalité de l’entrée sous la forme d’un unique jeton. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene. |
Keyword |
Génère la totalité de l’entrée sous la forme d’un unique jeton. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene. |
Length |
Supprime les mots qui sont trop longs ou trop courts. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Lexical |
Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche. |
Lexical |
Définit les noms de tous les générateurs de jetons pris en charge par le moteur de recherche. |
Limit |
Limite le nombre de jetons lors de l’indexation. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Lucene |
Analyseur Apache Lucene standard ; Composé du générateur de jetons standard, du filtre en minuscules et du filtre d’arrêt. |
Lucene |
Décompose le texte en suivant les règles de segmentation du texte Unicode. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene. |
Lucene |
Décompose le texte en suivant les règles de segmentation du texte Unicode. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene. |
Magnitude |
Définit une fonction qui augmente les scores en fonction de la magnitude d’un champ numérique. |
Magnitude |
Fournit des valeurs de paramètre à une fonction de scoring de magnitude. |
Mapping |
Filtre de caractères qui applique des mappages définis avec l’option mappages. La mise en correspondance est gourmande en ressources (la correspondance du modèle le plus long à un point donné l’emporte). La chaîne vide est autorisée comme remplacement. Ce filtre de caractères est implémenté à l’aide d’Apache Lucene. |
Microsoft |
Divise le texte en utilisant des règles spécifiques à la langue et réduit les mots à leurs formes de base. |
Microsoft |
Divise le texte en utilisant des règles spécifiques à la langue. |
Microsoft |
Listes les langues prises en charge par le générateur de jetons de base de langue Microsoft. |
Microsoft |
Listes les langues prises en charge par le générateur de jetons de langue Microsoft. |
NGram |
Génère des n-grammes de la taille donnée. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
NGram |
Génère des n-grammes de la taille donnée. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
NGram |
Génère des jetons à partir de l’entrée en n-grammes d’une ou plusieurs tailles données. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene. |
Path |
Générateur de jetons pour les hiérarchies de type chemin. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene. |
Pattern |
Sépare le texte de façon flexible en termes via un modèle d’expression régulière. Cet analyseur est implémenté à l’aide d’Apache Lucene. |
Pattern |
Utilise des regex java pour émettre plusieurs jetons, un pour chaque groupe de capture dans un ou plusieurs modèles. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Pattern |
Filtre de caractères qui remplace les caractères de la chaîne d’entrée. Il utilise une expression régulière pour identifier les séquences de caractères à conserver et un modèle de remplacement pour identifier les caractères à remplacer. Par exemple, étant donné le texte d’entrée « aa bb aa bb », le modèle « (aa)\s+(bb) » et le remplacement de « $1#$2 », le résultat serait « aa#bb aa#bb ». Ce filtre de caractères est implémenté à l’aide d’Apache Lucene. |
Pattern |
Filtre de caractères qui remplace les caractères de la chaîne d’entrée. Il utilise une expression régulière pour identifier les séquences de caractères à conserver et un modèle de remplacement pour identifier les caractères à remplacer. Par exemple, étant donné le texte d’entrée « aa bb aa bb », le modèle « (aa)\s+(bb) » et le remplacement de « $1#$2 », le résultat serait « aa#bb aa#bb ». Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Pattern |
Générateur de jetons qui utilise la correspondance de modèle regex pour construire des jetons distincts. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene. |
Phonetic |
Identifie le type d’encodeur phonétique à utiliser avec un PhoneticTokenFilter. |
Phonetic |
Crée des jetons pour les correspondances phonétiques. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Prioritized |
Décrit les champs titre, contenu et mots clés à utiliser pour le classement sémantique, les légendes, les mises en évidence et les réponses. |
Regex |
Définit des indicateurs qui peuvent être combinés pour contrôler la façon dont les expressions régulières sont utilisées dans l’analyseur de modèle et le générateur de jetons de modèle. |
Scoring |
Définit la fonction d’agrégation utilisée pour combiner les résultats de toutes les fonctions de scoring dans un profil de scoring. |
Scoring |
Définit la fonction utilisée pour interpoler l’augmentation du score dans une plage de documents. |
Scoring |
Définit les paramètres d’un index de recherche qui influencent le scoring dans les requêtes de recherche. |
Search |
Décrit une condition d’erreur pour l’API. |
Search |
Représente un champ dans une définition d’index, qui décrit le nom, le type de données et le comportement de recherche d’un champ. |
Search |
Définit le type de données d’un champ dans un index de recherche. |
Search |
Représente une définition d’index de recherche, qui décrit les champs et le comportement de recherche d’un index. |
Search |
Une clé de chiffrement gérée par le client dans Azure Key Vault. Les clés que vous créez et gérez peuvent être utilisées pour chiffrer ou déchiffrer les données au repos sur votre service de recherche, telles que les index et les mappages de synonymes. |
Semantic |
Définit une configuration spécifique à utiliser dans le contexte des fonctionnalités sémantiques. |
Semantic |
Champ utilisé dans le cadre de la configuration sémantique. |
Semantic |
Définit les paramètres d’un index de recherche qui influencent les fonctionnalités sémantiques. |
Shingle |
Crée des combinaisons de jetons sous la forme d’un unique jeton. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Snowball |
Filtre qui permet d’endiguer les mots à l’aide d’un stemmer généré par Snowball. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Snowball |
Langue à utiliser pour un filtre de jeton Snowball. |
Stemmer |
Offre la possibilité de remplacer d’autres filtres de base de données par un suivi basé sur un dictionnaire personnalisé. Tous les termes dérivés d’un dictionnaire seront marqués en tant que mots clés afin qu’ils ne soient pas enserrés avec des stemmers en aval de la chaîne. Doit être placé avant les filtres de recherche de radical. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Stemmer |
Filtre de stemming spécifique au langage. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Stemmer |
Langue à utiliser pour un filtre de jetons de générateur de formes dérivées. |
Stop |
Divise le texte aux lettres non-lettres ; Applique les filtres de jetons minuscules et de mots vides. Cet analyseur est implémenté à l’aide d’Apache Lucene. |
Stopwords |
Identifie une liste prédéfinie de mots vides spécifiques à la langue. |
Stopwords |
Supprime les mots vides d’un flux de jetons. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Suggester |
Définit la façon dont l’API Suggest doit s’appliquer à un groupe de champs dans l’index. |
Suggester |
Valeur indiquant les fonctionnalités du suggesteur. |
Synonym |
Correspond à des synonymes uniques ou à plusieurs mots dans un flux de jetons. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Tag |
Définit une fonction qui augmente les scores de documents avec des valeurs de chaîne correspondant à une liste donnée de balises. |
Tag |
Fournit des valeurs de paramètre à une fonction de scoring d’étiquettes. |
Text |
Définit des pondérations sur les champs d’index pour lesquels les correspondances doivent améliorer le scoring dans les requêtes de recherche. |
Token |
Représente des classes de caractères sur lesquelles un filtre de jeton peut fonctionner. |
Token |
Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche. |
Truncate |
Tronque les termes à une longueur spécifique. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Uax |
Génère des jetons pour des URL et des e-mails sous la forme d’un seul jeton. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene. |
Unique |
Élimine les jetons avec le même texte que le jeton précédent. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
Vector |
Contient des options de configuration liées à la recherche vectorielle. |
Vector |
Algorithme utilisé pour l’indexation et l’interrogation. |
Vector |
Métrique de similarité à utiliser pour les comparaisons de vecteurs. |
Vector |
Définit une combinaison de configurations à utiliser avec la recherche vectorielle. |
Word |
Divise les mots en sous-mots et effectue des transformations facultatives sur les groupes de sous-mots. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene. |
AsciiFoldingTokenFilter
Convertit les caractères Unicode alphabétiques, numériques et symboliques qui ne figurent pas dans les 127 premiers caractères ASCII (le bloc Unicode « Latin de base ») en leurs équivalents ASCII, s’ils existent. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
name |
string |
Nom du filtre de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
preserveOriginal |
boolean |
False |
Valeur indiquant si le jeton d’origine sera conservé. La valeur par défaut est false. |
AzureActiveDirectoryApplicationCredentials
Informations d’identification d’une application inscrite créée pour votre service de recherche, utilisées pour l’accès authentifié aux clés de chiffrement stockées dans Azure Key Vault.
Nom | Type | Description |
---|---|---|
applicationId |
string |
ID d’application AAD qui a obtenu les autorisations d’accès requises au Key Vault Azure à utiliser lors du chiffrement de vos données au repos. L’ID d’application ne doit pas être confondu avec l’ID d’objet de votre application AAD. |
applicationSecret |
string |
Clé d’authentification de l’application AAD spécifiée. |
BM25Similarity
Fonction de classement basée sur l’algorithme de similarité Okapi BM25. BM25 est un algorithme de type TF-IDF qui inclut la normalisation de la longueur (contrôlée par le paramètre « b ») ainsi que la saturation de la fréquence de terme (contrôlée par le paramètre « k1 »).
Nom | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Cette propriété contrôle la façon dont la longueur d’un document affecte le score de pertinence. Par défaut, une valeur de 0,75 est utilisée. Une valeur de 0,0 signifie qu’aucune normalisation de longueur n’est appliquée, tandis qu’une valeur de 1,0 signifie que le score est entièrement normalisé par la longueur du document. |
k1 |
number |
Cette propriété contrôle la fonction de mise à l’échelle entre la fréquence de terme de chaque terme correspondant et le score de pertinence final d’une paire document-requête. Par défaut, la valeur 1.2 est utilisée. Une valeur de 0,0 signifie que le score n’est pas mis à l’échelle avec une augmentation de la fréquence à terme. |
CharFilterName
Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche.
Nom | Type | Description |
---|---|---|
html_strip |
string |
Filtre de caractères qui tente de supprimer les constructions HTML. Voir https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Forme des bigrams de termes CJK générés à partir du générateur de jetons standard. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
ignoreScripts |
Scripts à ignorer. |
||
name |
string |
Nom du filtre de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
outputUnigrams |
boolean |
False |
Valeur indiquant s’il faut générer à la fois des unigrammes et des bigrams (si true) ou simplement des bigrams (si false). La valeur par défaut est false. |
CjkBigramTokenFilterScripts
Scripts qui peuvent être ignorés par CjkBigramTokenFilter.
Nom | Type | Description |
---|---|---|
han |
string |
Ignorez le script Han lors de la formation de bigrams de termes CJK. |
hangul |
string |
Ignorez le script hangûl lors de la formation de bigrams de termes CJK. |
hiragana |
string |
Ignorez le script Hiragana lors de la formation de bigrams de termes CJK. |
katakana |
string |
Ignorez le script Katakana lors de la formation de bigrams de termes CJK. |
ClassicSimilarity
Algorithme de similarité hérité qui utilise l’implémentation Lucene TFIDFSimilarity de TF-IDF. Cette variante de TF-IDF introduit la normalisation statique de la longueur des documents ainsi que des facteurs de coordination qui pénalisent les documents qui ne correspondent que partiellement aux requêtes recherchées.
Nom | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Générateur de jetons basé sur la grammaire adapté au traitement de la plupart des documents en langue européenne. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de générateur de jetons. |
|
maxTokenLength |
integer |
255 |
Longueur maximale du jeton. La valeur par défaut est 255. Les jetons dépassant la longueur maximale sont fractionnés. La longueur maximale du jeton pouvant être utilisée est de 300 caractères. |
name |
string |
Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
CommonGramTokenFilter
Construit des digrammes pour les termes d’occurrence fréquente lors de l’indexation. Les termes uniques sont néanmoins aussi indexés, avec des digrammes superposés. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
commonWords |
string[] |
Ensemble de mots courants. |
|
ignoreCase |
boolean |
False |
Valeur indiquant si les mots communs correspondants ne respectent pas la casse. La valeur par défaut est false. |
name |
string |
Nom du filtre de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
queryMode |
boolean |
False |
Valeur qui indique si le filtre de jeton est en mode requête. En mode requête, le filtre de jeton génère des bigrams, puis supprime les mots courants et les termes uniques suivis d’un mot commun. La valeur par défaut est false. |
CorsOptions
Définit des options pour contrôler le partage de ressources entre origines (CORS) pour un index.
Nom | Type | Description |
---|---|---|
allowedOrigins |
string[] |
Liste des origines à partir desquelles le code JavaScript sera autorisé à accéder à votre index. Peut contenir une liste d’hôtes de la forme {protocol} ://{fully-qualified-domain-name}[ :{port#}], ou un seul |
maxAgeInSeconds |
integer |
Durée pendant laquelle les navigateurs doivent mettre en cache les réponses préalables CORS. La valeur par défaut est de 5 minutes. |
CustomAnalyzer
Vous permet de prendre le contrôle du processus de conversion du texte en jetons indexables/pouvant faire l’objet d’une recherche. Il s’agit d’une configuration définie par l’utilisateur composée d’un générateur de jetons unique prédéfini et d’un ou plusieurs filtres. Le générateur de jetons est responsable de la fractionnement du texte en jetons et des filtres pour la modification des jetons émis par le générateur de jetons.
Nom | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type d’analyseur. |
charFilters |
Liste des filtres de caractères utilisés pour préparer le texte d’entrée avant qu’il ne soit traité par le générateur de jetons. Par exemple, il peut remplacer certains caractères ou certains symboles. Les filtres sont exécutés dans l’ordre dans lequel ils sont répertoriés. |
|
name |
string |
Nom de l’analyseur. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
tokenFilters |
Liste des filtres de jetons utilisés pour filtrer ou modifier les jetons générés par un générateur de jetons. Par exemple, vous pouvez spécifier un filtre lowercase qui convertit tous les caractères en minuscules. Les filtres sont exécutés dans l’ordre dans lequel ils sont répertoriés. |
|
tokenizer |
Nom du générateur de jetons à utiliser pour diviser le texte continu en une séquence de jetons, telle que la division d’une phrase en mots. |
DictionaryDecompounderTokenFilter
Décompose les mots composés trouvés dans beaucoup de langues germaniques. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
maxSubwordSize |
integer |
15 |
Taille maximale des sous-mots. Seuls les sous-mots plus courts sont générés. La valeur par défaut est 15. La valeur maximale est de 300. |
minSubwordSize |
integer |
2 |
Taille minimale du sous-mot. Seuls les sous-mots plus longs sont générés. La valeur par défaut est 2. La valeur maximale est de 300. |
minWordSize |
integer |
5 |
Taille minimale du mot. Seuls les mots plus longs sont traités. La valeur par défaut est 5. La valeur maximale est de 300. |
name |
string |
Nom du filtre de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
onlyLongestMatch |
boolean |
False |
Valeur indiquant s’il faut ajouter uniquement le sous-mot correspondant le plus long à la sortie. La valeur par défaut est false. |
wordList |
string[] |
Liste des mots à mettre en correspondance. |
DistanceScoringFunction
Définit une fonction qui augmente les scores en fonction de la distance d’un emplacement géographique.
Nom | Type | Description |
---|---|---|
boost |
number |
Multiplicateur pour le score brut. Doit être un nombre positif qui n’est pas égal à 1,0. |
distance |
Valeurs de paramètre pour la fonction de scoring de distance. |
|
fieldName |
string |
Nom du champ utilisé comme entrée dans la fonction de scoring. |
interpolation |
Valeur indiquant la façon dont l’augmentation sera interpolée entre les scores de document ; la valeur par défaut est « Linear ». |
|
type |
string:
distance |
Indique le type de fonction à utiliser. Les valeurs autorisées sont magnitude, freshness, distance et tag. Le type de fonction doit être en minuscules. |
DistanceScoringParameters
Fournit des valeurs de paramètre à une fonction de scoring de distance.
Nom | Type | Description |
---|---|---|
boostingDistance |
number |
Distance en kilomètres de l’emplacement de référence où se termine la plage d’augmentation. |
referencePointParameter |
string |
Nom du paramètre passé dans les requêtes de recherche pour spécifier l’emplacement de référence. |
EdgeNGramTokenFilter
Génère des n-grammes de la ou des tailles données à partir de l’avant ou de l’arrière d’un jeton d’entrée. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
maxGram |
integer |
2 |
Longueur maximale de n-grammes. La valeur par défaut est 2. |
minGram |
integer |
1 |
Longueur minimale de n-grammes. 1 constitue la valeur par défaut. Doit être inférieure à la valeur de maxGram. |
name |
string |
Nom du filtre de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
side | front |
Spécifie de quel côté de l’entrée le n-gramme doit être généré. La valeur par défaut est « front ». |
EdgeNGramTokenFilterSide
Spécifie le côté de l’entrée à partir duquel un n-gramme doit être généré.
Nom | Type | Description |
---|---|---|
back |
string |
Spécifie que le n-gramme doit être généré à partir de l’arrière de l’entrée. |
front |
string |
Spécifie que le n-gramme doit être généré à l’avant de l’entrée. |
EdgeNGramTokenFilterV2
Génère des n-grammes de la ou des tailles données à partir de l’avant ou de l’arrière d’un jeton d’entrée. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
maxGram |
integer |
2 |
Longueur maximale de n-grammes. La valeur par défaut est 2. La valeur maximale est de 300. |
minGram |
integer |
1 |
Longueur minimale de n-grammes. 1 constitue la valeur par défaut. La valeur maximale est de 300. Doit être inférieure à la valeur de maxGram. |
name |
string |
Nom du filtre de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
side | front |
Spécifie de quel côté de l’entrée le n-gramme doit être généré. La valeur par défaut est « front ». |
EdgeNGramTokenizer
Tokenise l’entrée d’un bord en n-grammes de la ou des tailles données. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de générateur de jetons. |
|
maxGram |
integer |
2 |
Longueur maximale de n-grammes. La valeur par défaut est 2. La valeur maximale est de 300. |
minGram |
integer |
1 |
Longueur minimale de n-grammes. 1 constitue la valeur par défaut. La valeur maximale est de 300. Doit être inférieure à la valeur de maxGram. |
name |
string |
Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
tokenChars |
Classes de caractères à conserver dans les jetons. |
ElisionTokenFilter
Supprime les élisions. Par exemple, « l’avion » sera converti en « avion ». Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
articles |
string[] |
Ensemble d’articles à supprimer. |
name |
string |
Nom du filtre de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
ExhaustiveKnnParameters
Contient les paramètres spécifiques à l’algorithme KNN exhaustif.
Nom | Type | Description |
---|---|---|
metric |
Métrique de similarité à utiliser pour les comparaisons de vecteurs. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Contient des options de configuration spécifiques à l’algorithme KNN exhaustif utilisé lors de l’interrogation, qui effectue une recherche en force brute sur l’ensemble de l’index vectoriel.
Nom | Type | Description |
---|---|---|
exhaustiveKnnParameters |
Contient les paramètres spécifiques à l’algorithme KNN exhaustif. |
|
kind |
string:
exhaustive |
Nom du type d’algorithme configuré pour une utilisation avec la recherche vectorielle. |
name |
string |
Nom à associer à cette configuration particulière. |
FreshnessScoringFunction
Définit une fonction qui augmente les scores en fonction de la valeur d’un champ date-heure.
Nom | Type | Description |
---|---|---|
boost |
number |
Multiplicateur pour le score brut. Doit être un nombre positif qui n’est pas égal à 1,0. |
fieldName |
string |
Nom du champ utilisé comme entrée dans la fonction de scoring. |
freshness |
Valeurs de paramètre pour la fonction de scoring d’actualisation. |
|
interpolation |
Valeur indiquant la façon dont l’augmentation sera interpolée entre les scores de document ; la valeur par défaut est « Linear ». |
|
type |
string:
freshness |
Indique le type de fonction à utiliser. Les valeurs autorisées sont magnitude, freshness, distance et tag. Le type de fonction doit être en minuscules. |
FreshnessScoringParameters
Fournit des valeurs de paramètre à une fonction de scoring d’actualisation.
Nom | Type | Description |
---|---|---|
boostingDuration |
string |
Période d’expiration après laquelle l’augmentation s’arrête pour un document particulier. |
HnswParameters
Contient les paramètres spécifiques à l’algorithme HNSW.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
efConstruction |
integer |
400 |
Taille de la liste dynamique contenant les voisins les plus proches, qui est utilisée pendant l’heure d’index. L’augmentation de ce paramètre peut améliorer la qualité de l’index, au détriment de l’augmentation du temps d’indexation. À un moment donné, l’augmentation de ce paramètre entraîne une diminution des rendements. |
efSearch |
integer |
500 |
Taille de la liste dynamique contenant les voisins les plus proches, qui est utilisée pendant le temps de recherche. L’augmentation de ce paramètre peut améliorer les résultats de recherche, au détriment d’une recherche plus lente. À un moment donné, l’augmentation de ce paramètre entraîne une diminution des rendements. |
m |
integer |
4 |
Nombre de liens bidirectionnels créés pour chaque nouvel élément pendant la construction. L’augmentation de cette valeur de paramètre peut améliorer le rappel et réduire les temps de récupération des jeux de données à dimensionnalité intrinsèque élevée, au détriment d’une consommation de mémoire accrue et d’un temps d’indexation plus long. |
metric |
Métrique de similarité à utiliser pour les comparaisons de vecteurs. |
HnswVectorSearchAlgorithmConfiguration
Contient des options de configuration spécifiques à l’algorithme HNSW approximatif le plus proche voisin utilisé lors de l’indexation et de l’interrogation. L’algorithme HNSW offre un compromis paramétrable entre la vitesse de recherche et la précision.
Nom | Type | Description |
---|---|---|
hnswParameters |
Contient les paramètres spécifiques à l’algorithme HNSW. |
|
kind |
string:
hnsw |
Nom du type d’algorithme configuré pour une utilisation avec la recherche vectorielle. |
name |
string |
Nom à associer à cette configuration particulière. |
KeepTokenFilter
Filtre de jeton qui conserve uniquement les jetons avec du texte contenu dans une liste de mots spécifiée. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
keepWords |
string[] |
Liste des mots à conserver. |
|
keepWordsCase |
boolean |
False |
Valeur indiquant s’il faut d’abord mettre en minuscules tous les mots. La valeur par défaut est false. |
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
KeywordMarkerTokenFilter
Marque les termes comme mots clés. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
ignoreCase |
boolean |
False |
Valeur indiquant s’il faut ignorer la casse. Si la valeur est true, tous les mots sont d’abord convertis en minuscules. La valeur par défaut est false. |
keywords |
string[] |
Liste de mots à marquer comme mots clés. |
|
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
KeywordTokenizer
Génère la totalité de l’entrée sous la forme d’un unique jeton. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de générateur de jetons. |
|
bufferSize |
integer |
256 |
Taille de la mémoire tampon de lecture en octets. La valeur par défaut est 256. |
name |
string |
Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
KeywordTokenizerV2
Génère la totalité de l’entrée sous la forme d’un unique jeton. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de générateur de jetons. |
|
maxTokenLength |
integer |
256 |
Longueur maximale du jeton. La valeur par défaut est 256. Les jetons dépassant la longueur maximale sont fractionnés. La longueur maximale du jeton pouvant être utilisée est de 300 caractères. |
name |
string |
Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
LengthTokenFilter
Supprime les mots qui sont trop longs ou trop courts. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
max |
integer |
300 |
Longueur maximale en caractères. La valeur par défaut et la valeur maximale sont 300. |
min |
integer |
0 |
Longueur minimale en caractères. La valeur par défaut est 0. Le maximum est de 300. Doit être inférieur à la valeur de max. |
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
LexicalAnalyzerName
Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche.
Nom | Type | Description |
---|---|---|
ar.lucene |
string |
Analyseur Lucene pour l’arabe. |
ar.microsoft |
string |
Analyseur Microsoft pour l’arabe. |
bg.lucene |
string |
Analyseur Lucene pour bulgare. |
bg.microsoft |
string |
Analyseur Microsoft pour bulgare. |
bn.microsoft |
string |
Analyseur Microsoft pour Bangla. |
ca.lucene |
string |
Analyseur Lucene pour catalan. |
ca.microsoft |
string |
Analyseur Microsoft pour catalan. |
cs.lucene |
string |
Analyseur Lucene pour tchèque. |
cs.microsoft |
string |
Analyseur Microsoft pour tchèque. |
da.lucene |
string |
Analyseur Lucene pour danois. |
da.microsoft |
string |
Analyseur Microsoft pour danois. |
de.lucene |
string |
Analyseur Lucene pour l’allemand. |
de.microsoft |
string |
Analyseur Microsoft pour l’allemand. |
el.lucene |
string |
Analyseur Lucene pour grec. |
el.microsoft |
string |
Analyseur Microsoft pour grec. |
en.lucene |
string |
Analyseur Lucene pour l’anglais. |
en.microsoft |
string |
Analyseur Microsoft pour l’anglais. |
es.lucene |
string |
Analyseur Lucene pour l’espagnol. |
es.microsoft |
string |
Analyseur Microsoft pour l’espagnol. |
et.microsoft |
string |
Analyseur Microsoft pour l’estonien. |
eu.lucene |
string |
Analyseur Lucene pour basque. |
fa.lucene |
string |
Analyseur Lucene pour persan. |
fi.lucene |
string |
Analyseur Lucene pour finnois. |
fi.microsoft |
string |
Analyseur Microsoft pour finnois. |
fr.lucene |
string |
Analyseur Lucene pour Français. |
fr.microsoft |
string |
Analyseur Microsoft pour Français. |
ga.lucene |
string |
Analyseur Lucene pour l’irlandais. |
gl.lucene |
string |
Analyseur Lucene pour galicien. |
gu.microsoft |
string |
Analyseur Microsoft pour Gujarati. |
he.microsoft |
string |
Analyseur Microsoft pour hébreu. |
hi.lucene |
string |
Analyseur Lucene pour hindi. |
hi.microsoft |
string |
Analyseur Microsoft pour hindi. |
hr.microsoft |
string |
Analyseur Microsoft pour croate. |
hu.lucene |
string |
Analyseur Lucene pour hongrois. |
hu.microsoft |
string |
Analyseur Microsoft pour le hongrois. |
hy.lucene |
string |
Analyseur Lucene pour arménien. |
id.lucene |
string |
Analyseur Lucene pour indonésien. |
id.microsoft |
string |
Analyseur Microsoft pour indonésien (Bahasa). |
is.microsoft |
string |
Analyseur Microsoft pour l’islandais. |
it.lucene |
string |
Analyseur Lucene pour italien. |
it.microsoft |
string |
Analyseur Microsoft pour italien. |
ja.lucene |
string |
Analyseur Lucene pour japonais. |
ja.microsoft |
string |
Analyseur Microsoft pour japonais. |
keyword |
string |
Traite l’intégralité du contenu d’un champ comme un seul jeton. Cela est utile pour les données telles que les codes postaux, les numéros d’identification et certains noms de produit. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Analyseur Microsoft pour Kannada. |
ko.lucene |
string |
Analyseur Lucene pour coréen. |
ko.microsoft |
string |
Analyseur Microsoft pour le coréen. |
lt.microsoft |
string |
Analyseur Microsoft pour lituanien. |
lv.lucene |
string |
Analyseur Lucene pour letton. |
lv.microsoft |
string |
Analyseur Microsoft pour letton. |
ml.microsoft |
string |
Analyseur Microsoft pour Malayalam. |
mr.microsoft |
string |
Analyseur Microsoft pour Marathi. |
ms.microsoft |
string |
Analyseur Microsoft pour malais (latin). |
nb.microsoft |
string |
Analyseur Microsoft pour norvégien (Bokmål). |
nl.lucene |
string |
Analyseur Lucene pour néerlandais. |
nl.microsoft |
string |
Analyseur Microsoft pour néerlandais. |
no.lucene |
string |
Analyseur Lucene pour norvégien. |
pa.microsoft |
string |
Microsoft analyzer for Punjabi. |
pattern |
string |
Sépare le texte de façon flexible en termes via un modèle d’expression régulière. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Analyseur Lucene pour polonais. |
pl.microsoft |
string |
Analyseur Microsoft pour polonais. |
pt-BR.lucene |
string |
Analyseur Lucene pour portugais (Brésil). |
pt-BR.microsoft |
string |
Analyseur Microsoft pour portugais (Brésil). |
pt-PT.lucene |
string |
Analyseur Lucene pour le portugais (Portugal). |
pt-PT.microsoft |
string |
Analyseur Microsoft pour le portugais (Portugal). |
ro.lucene |
string |
Analyseur Lucene pour le roumain. |
ro.microsoft |
string |
Analyseur Microsoft pour le roumain. |
ru.lucene |
string |
Analyseur Lucene pour le russe. |
ru.microsoft |
string |
Analyseur Microsoft pour le russe. |
simple |
string |
Divise le texte à l’endroit des caractères qui ne sont pas des lettres et le convertit en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Analyseur Microsoft pour slovaque. |
sl.microsoft |
string |
Microsoft Analyzer pour le slovène. |
sr-cyrillic.microsoft |
string |
Analyseur Microsoft pour le serbe (cyrillique). |
sr-latin.microsoft |
string |
Analyseur Microsoft pour le serbe (latin). |
standard.lucene |
string |
Analyseur Lucene standard. |
standardasciifolding.lucene |
string |
Analyseur Lucene de pliage ASCII standard. Voir https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Divise le texte aux lettres non-lettres ; Applique les filtres de jetons minuscules et de mots vides. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Analyseur Lucene pour suédois. |
sv.microsoft |
string |
Analyseur Microsoft pour le suédois. |
ta.microsoft |
string |
Analyseur Microsoft pour le tamoul. |
te.microsoft |
string |
Analyseur Microsoft pour Telugu. |
th.lucene |
string |
Analyseur Lucene pour le thaï. |
th.microsoft |
string |
Analyseur Microsoft pour le thaï. |
tr.lucene |
string |
Analyseur Lucene pour le turc. |
tr.microsoft |
string |
Analyseur Microsoft pour le turc. |
uk.microsoft |
string |
Analyseur Microsoft pour l’ukrainien. |
ur.microsoft |
string |
Analyseur Microsoft pour l’ourdou. |
vi.microsoft |
string |
Analyseur Microsoft pour le vietnamien. |
whitespace |
string |
Un analyseur qui utilise le générateur de jetons whitespace. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Analyseur Lucene pour le chinois (simplifié). |
zh-Hans.microsoft |
string |
Analyseur Microsoft pour le chinois (simplifié). |
zh-Hant.lucene |
string |
Analyseur Lucene pour le chinois (traditionnel). |
zh-Hant.microsoft |
string |
Analyseur Microsoft pour le chinois (traditionnel). |
LexicalTokenizerName
Définit les noms de tous les générateurs de jetons pris en charge par le moteur de recherche.
Nom | Type | Description |
---|---|---|
classic |
string |
Générateur de jetons basé sur la grammaire qui convient pour le traitement de la plupart des documents en langue européenne. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Jetonse l’entrée d’un bord en n grammes de la ou des tailles données. Voir https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Génère la totalité de l’entrée sous la forme d’un unique jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Divise un texte à l’endroit des caractères qui ne sont pas des lettres. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Divise le texte à l’endroit des caractères qui ne sont pas des lettres et le convertit en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Divise le texte en utilisant des règles spécifiques à la langue et réduit les mots à leurs formes de base. |
microsoft_language_tokenizer |
string |
Divise le texte en utilisant des règles spécifiques à la langue. |
nGram |
string |
Génère des jetons à partir de l’entrée en n-grammes d’une ou plusieurs tailles données. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Générateur de jetons pour les hiérarchies de type chemin. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Tokenizer qui utilise la correspondance de modèle regex pour construire des jetons distincts. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Analyseur Lucene standard ; Composé du générateur de jetons standard, du filtre en minuscules et du filtre d’arrêt. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Génère des jetons pour des URL et des e-mails sous la forme d’un seul jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Divise le texte au niveau des espaces. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
LimitTokenFilter
Limite le nombre de jetons lors de l’indexation. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
consumeAllTokens |
boolean |
False |
Valeur indiquant si tous les jetons de l’entrée doivent être consommés même si maxTokenCount est atteint. La valeur par défaut est false. |
maxTokenCount |
integer |
1 |
Nombre maximal de jetons à produire. 1 constitue la valeur par défaut. |
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
LuceneStandardAnalyzer
Analyseur Apache Lucene standard ; Composé du générateur de jetons standard, du filtre en minuscules et du filtre d’arrêt.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type d’analyseur. |
|
maxTokenLength |
integer |
255 |
Longueur maximale du jeton. La valeur par défaut est 255. Les jetons dépassant la longueur maximale sont fractionnés. La longueur maximale du jeton pouvant être utilisée est de 300 caractères. |
name |
string |
Nom de l’analyseur. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
stopwords |
string[] |
Liste de mots vides. |
LuceneStandardTokenizer
Décompose le texte en suivant les règles de segmentation du texte Unicode. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de générateur de jetons. |
|
maxTokenLength |
integer |
255 |
Longueur maximale du jeton. La valeur par défaut est 255. Les jetons dépassant la longueur maximale sont fractionnés. |
name |
string |
Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
LuceneStandardTokenizerV2
Décompose le texte en suivant les règles de segmentation du texte Unicode. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de générateur de jetons. |
|
maxTokenLength |
integer |
255 |
Longueur maximale du jeton. La valeur par défaut est 255. Les jetons dépassant la longueur maximale sont fractionnés. La longueur maximale du jeton pouvant être utilisée est de 300 caractères. |
name |
string |
Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
MagnitudeScoringFunction
Définit une fonction qui augmente les scores en fonction de la magnitude d’un champ numérique.
Nom | Type | Description |
---|---|---|
boost |
number |
Multiplicateur pour le score brut. Doit être un nombre positif qui n’est pas égal à 1,0. |
fieldName |
string |
Nom du champ utilisé comme entrée dans la fonction de scoring. |
interpolation |
Valeur indiquant la façon dont l’augmentation sera interpolée entre les scores de document ; la valeur par défaut est « Linear ». |
|
magnitude |
Valeurs de paramètre pour la fonction de scoring de magnitude. |
|
type |
string:
magnitude |
Indique le type de fonction à utiliser. Les valeurs autorisées sont magnitude, freshness, distance et tag. Le type de fonction doit être en minuscules. |
MagnitudeScoringParameters
Fournit des valeurs de paramètre à une fonction de scoring de magnitude.
Nom | Type | Description |
---|---|---|
boostingRangeEnd |
number |
Valeur de champ à laquelle l’augmentation se termine. |
boostingRangeStart |
number |
Valeur de champ à laquelle l’augmentation commence. |
constantBoostBeyondRange |
boolean |
Valeur indiquant s’il faut appliquer une augmentation constante pour les valeurs de champ au-delà de la valeur de fin de plage ; la valeur par défaut est false. |
MappingCharFilter
Filtre de caractères qui applique des mappages définis avec l’option mappages. La mise en correspondance est gourmande en ressources (la correspondance du modèle le plus long à un point donné l’emporte). La chaîne vide est autorisée comme remplacement. Ce filtre de caractères est implémenté à l’aide d’Apache Lucene.
Nom | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre char. |
mappings |
string[] |
Liste de mappages au format suivant : « a=>b » (toutes les occurrences du caractère « a » seront remplacées par le caractère « b »). |
name |
string |
Nom du filtre char. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
MicrosoftLanguageStemmingTokenizer
Divise le texte en utilisant des règles spécifiques à la langue et réduit les mots à leurs formes de base.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de générateur de jetons. |
|
isSearchTokenizer |
boolean |
False |
Valeur indiquant comment le générateur de jetons est utilisé. Affectez la valeur true si elle est utilisée comme générateur de jetons de recherche, false si elle est utilisée comme générateur de jetons d’indexation. La valeur par défaut est false. |
language |
Langue à utiliser. La valeur par défaut est l’anglais. |
||
maxTokenLength |
integer |
255 |
Longueur maximale du jeton. Les jetons dépassant la longueur maximale sont fractionnés. La longueur maximale des jetons qui peut être utilisée est de 300 caractères. Les jetons de plus de 300 caractères sont d’abord divisés en jetons de longueur 300, puis chacun de ces jetons est fractionné en fonction de la longueur maximale définie. La valeur par défaut est 255. |
name |
string |
Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
MicrosoftLanguageTokenizer
Divise le texte en utilisant des règles spécifiques à la langue.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de générateur de jetons. |
|
isSearchTokenizer |
boolean |
False |
Valeur indiquant comment le générateur de jetons est utilisé. Affectez la valeur true si elle est utilisée comme générateur de jetons de recherche, false si elle est utilisée comme générateur de jetons d’indexation. La valeur par défaut est false. |
language |
Langue à utiliser. La valeur par défaut est l’anglais. |
||
maxTokenLength |
integer |
255 |
Longueur maximale du jeton. Les jetons dépassant la longueur maximale sont fractionnés. La longueur maximale des jetons qui peut être utilisée est de 300 caractères. Les jetons de plus de 300 caractères sont d’abord divisés en jetons de longueur 300, puis chacun de ces jetons est fractionné en fonction de la longueur maximale définie. La valeur par défaut est 255. |
name |
string |
Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
MicrosoftStemmingTokenizerLanguage
Listes les langues prises en charge par le générateur de jetons de base de langue Microsoft.
Nom | Type | Description |
---|---|---|
arabic |
string |
Sélectionne le générateur de jetons de base microsoft pour l’arabe. |
bangla |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour Bangla. |
bulgarian |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le bulgare. |
catalan |
string |
Sélectionne le générateur de jetons à base de données microsoft pour le catalan. |
croatian |
string |
Sélectionne le générateur de jetons microsoft pour le croate. |
czech |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le tchèque. |
danish |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le danois. |
dutch |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le néerlandais. |
english |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour l’anglais. |
estonian |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour estonien. |
finnish |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le finnois. |
french |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour Français. |
german |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour l’allemand. |
greek |
string |
Sélectionne le générateur de jetons à base de données microsoft pour le grec. |
gujarati |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour Gujarati. |
hebrew |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour l’hébreu. |
hindi |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour l’hindi. |
hungarian |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le hongrois. |
icelandic |
string |
Sélectionne le générateur de jetons de base microsoft pour l’islandais. |
indonesian |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour l’indonésien. |
italian |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour l’italien. |
kannada |
string |
Sélectionne le générateur de jetons microsoft pour Kannada. |
latvian |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le letton. |
lithuanian |
string |
Sélectionne le générateur de jetons de base microsoft pour le lituanien. |
malay |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour malais. |
malayalam |
string |
Sélectionne le générateur de jetons microsoft pour malayalam. |
marathi |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour Marathi. |
norwegianBokmaal |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le norvégien (Bokmål). |
polish |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le polonais. |
portuguese |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le portugais. |
portugueseBrazilian |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le portugais (Brésil). |
punjabi |
string |
Sélectionne le générateur de jetons à base de base de données Microsoft pour Punjabi. |
romanian |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le roumain. |
russian |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le russe. |
serbianCyrillic |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le serbe (cyrillique). |
serbianLatin |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le serbe (latin). |
slovak |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour slovaque. |
slovenian |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le slovène. |
spanish |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour l’espagnol. |
swedish |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le suédois. |
tamil |
string |
Sélectionne le générateur de jetons microsoft pour le tamoul. |
telugu |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour Telugu. |
turkish |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour le turc. |
ukrainian |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour l’ukrainien. |
urdu |
string |
Sélectionne le générateur de jetons à base de données Microsoft pour l’ourdou. |
MicrosoftTokenizerLanguage
Listes les langues prises en charge par le générateur de jetons de langue Microsoft.
Nom | Type | Description |
---|---|---|
bangla |
string |
Sélectionne le générateur de jetons Microsoft pour Bangla. |
bulgarian |
string |
Sélectionne le générateur de jetons Microsoft pour le bulgare. |
catalan |
string |
Sélectionne le générateur de jetons Microsoft pour le catalan. |
chineseSimplified |
string |
Sélectionne le générateur de jetons Microsoft pour le chinois (simplifié). |
chineseTraditional |
string |
Sélectionne le générateur de jetons Microsoft pour le chinois (traditionnel). |
croatian |
string |
Sélectionne le générateur de jetons Microsoft pour le croate. |
czech |
string |
Sélectionne le générateur de jetons Microsoft pour le tchèque. |
danish |
string |
Sélectionne le générateur de jetons Microsoft pour le danois. |
dutch |
string |
Sélectionne le générateur de jetons Microsoft pour le néerlandais. |
english |
string |
Sélectionne le générateur de jetons Microsoft pour l’anglais. |
french |
string |
Sélectionne le générateur de jetons Microsoft pour Français. |
german |
string |
Sélectionne le générateur de jetons Microsoft pour l’allemand. |
greek |
string |
Sélectionne le générateur de jetons Microsoft pour le grec. |
gujarati |
string |
Sélectionne le générateur de jetons Microsoft pour Gujarati. |
hindi |
string |
Sélectionne le générateur de jetons Microsoft pour l’hindi. |
icelandic |
string |
Sélectionne le générateur de jetons Microsoft pour l’islande. |
indonesian |
string |
Sélectionne le générateur de jetons Microsoft pour l’indonésien. |
italian |
string |
Sélectionne le générateur de jetons Microsoft pour l’italien. |
japanese |
string |
Sélectionne le générateur de jetons Microsoft pour le japonais. |
kannada |
string |
Sélectionne le générateur de jetons Microsoft pour Kannada. |
korean |
string |
Sélectionne le générateur de jetons Microsoft pour le coréen. |
malay |
string |
Sélectionne le générateur de jetons Microsoft pour malais. |
malayalam |
string |
Sélectionne le générateur de jetons Microsoft pour Malayalam. |
marathi |
string |
Sélectionne le générateur de jetons Microsoft pour Marathi. |
norwegianBokmaal |
string |
Sélectionne le générateur de jetons Microsoft pour le norvégien (Bokmål). |
polish |
string |
Sélectionne le générateur de jetons Microsoft pour le polonais. |
portuguese |
string |
Sélectionne le générateur de jetons Microsoft pour le portugais. |
portugueseBrazilian |
string |
Sélectionne le générateur de jetons Microsoft pour le portugais (Brésil). |
punjabi |
string |
Sélectionne le générateur de jetons Microsoft pour Punjabi. |
romanian |
string |
Sélectionne le générateur de jetons Microsoft pour le roumain. |
russian |
string |
Sélectionne le générateur de jetons Microsoft pour le russe. |
serbianCyrillic |
string |
Sélectionne le générateur de jetons Microsoft pour le serbe (cyrillique). |
serbianLatin |
string |
Sélectionne le générateur de jetons Microsoft pour le serbe (latin). |
slovenian |
string |
Sélectionne le générateur de jetons Microsoft pour le slovène. |
spanish |
string |
Sélectionne le générateur de jetons Microsoft pour l’espagnol. |
swedish |
string |
Sélectionne le générateur de jetons Microsoft pour le suédois. |
tamil |
string |
Sélectionne le générateur de jetons Microsoft pour le tamoul. |
telugu |
string |
Sélectionne le générateur de jetons Microsoft pour Telugu. |
thai |
string |
Sélectionne le générateur de jetons Microsoft pour le thaï. |
ukrainian |
string |
Sélectionne le générateur de jetons Microsoft pour l’ukrainien. |
urdu |
string |
Sélectionne le générateur de jetons Microsoft pour l’ourdou. |
vietnamese |
string |
Sélectionne le générateur de jetons Microsoft pour le vietnamien. |
NGramTokenFilter
Génère des n-grammes de la taille donnée. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
maxGram |
integer |
2 |
Longueur maximale de n grammes. La valeur par défaut est 2. |
minGram |
integer |
1 |
Longueur minimale de n grammes. 1 constitue la valeur par défaut. Doit être inférieur à la valeur de maxGram. |
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
NGramTokenFilterV2
Génère des n-grammes de la taille donnée. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
maxGram |
integer |
2 |
Longueur maximale de n grammes. La valeur par défaut est 2. Le maximum est de 300. |
minGram |
integer |
1 |
Longueur minimale de n grammes. 1 constitue la valeur par défaut. Le maximum est de 300. Doit être inférieur à la valeur de maxGram. |
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
NGramTokenizer
Génère des jetons à partir de l’entrée en n-grammes d’une ou plusieurs tailles données. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de générateur de jetons. |
|
maxGram |
integer |
2 |
Longueur maximale de n-grammes. La valeur par défaut est 2. La valeur maximale est de 300. |
minGram |
integer |
1 |
Longueur minimale de n-grammes. 1 constitue la valeur par défaut. La valeur maximale est de 300. Doit être inférieure à la valeur de maxGram. |
name |
string |
Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
tokenChars |
Classes de caractères à conserver dans les jetons. |
PathHierarchyTokenizerV2
Générateur de jetons pour les hiérarchies de type chemin. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de générateur de jetons. |
|
delimiter |
string |
/ |
Caractère délimiteur à utiliser. La valeur par défaut est « / ». |
maxTokenLength |
integer |
300 |
Longueur maximale du jeton. La valeur par défaut et la valeur maximale sont 300. |
name |
string |
Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
replacement |
string |
/ |
Valeur qui, si elle est définie, remplace le caractère délimiteur. La valeur par défaut est « / ». |
reverse |
boolean |
False |
Valeur indiquant s’il faut générer des jetons dans l’ordre inverse. La valeur par défaut est false. |
skip |
integer |
0 |
Nombre de jetons initiaux à ignorer. La valeur par défaut est 0. |
PatternAnalyzer
Sépare le texte de façon flexible en termes via un modèle d’expression régulière. Cet analyseur est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type d’analyseur. |
|
flags |
Indicateurs d’expression régulière. |
||
lowercase |
boolean |
True |
Valeur indiquant si les termes doivent être à casse inférieure. La valeur par défaut est true. |
name |
string |
Nom de l’analyseur. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
pattern |
string |
\W+ |
Modèle d’expression régulière pour faire correspondre les séparateurs de jetons. La valeur par défaut est une expression qui correspond à un ou plusieurs caractères autres que les mots. |
stopwords |
string[] |
Liste de mots vides. |
PatternCaptureTokenFilter
Utilise des regex java pour émettre plusieurs jetons, un pour chaque groupe de capture dans un ou plusieurs modèles. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
patterns |
string[] |
Liste de modèles à mettre en correspondance par rapport à chaque jeton. |
|
preserveOriginal |
boolean |
True |
Valeur indiquant s’il faut retourner le jeton d’origine même si l’un des modèles correspond. La valeur par défaut est true. |
PatternReplaceCharFilter
Filtre de caractères qui remplace les caractères de la chaîne d’entrée. Il utilise une expression régulière pour identifier les séquences de caractères à conserver et un modèle de remplacement pour identifier les caractères à remplacer. Par exemple, étant donné le texte d’entrée « aa bb aa bb », le modèle « (aa)\s+(bb) » et le remplacement de « $1#$2 », le résultat serait « aa#bb aa#bb ». Ce filtre de caractères est implémenté à l’aide d’Apache Lucene.
Nom | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre char. |
name |
string |
Nom du filtre char. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
pattern |
string |
Modèle d’expression régulière. |
replacement |
string |
Texte de remplacement. |
PatternReplaceTokenFilter
Filtre de caractères qui remplace les caractères de la chaîne d’entrée. Il utilise une expression régulière pour identifier les séquences de caractères à conserver et un modèle de remplacement pour identifier les caractères à remplacer. Par exemple, étant donné le texte d’entrée « aa bb aa bb », le modèle « (aa)\s+(bb) » et le remplacement de « $1#$2 », le résultat serait « aa#bb aa#bb ». Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
pattern |
string |
Modèle d’expression régulière. |
replacement |
string |
Texte de remplacement. |
PatternTokenizer
Générateur de jetons qui utilise la correspondance de modèle regex pour construire des jetons distincts. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de générateur de jetons. |
|
flags |
Indicateurs d’expression régulière. |
||
group |
integer |
-1 |
Ordinal de base zéro du groupe correspondant dans le modèle d’expression régulière à extraire en jetons. Utilisez -1 si vous souhaitez utiliser l’ensemble du modèle pour fractionner l’entrée en jetons, quels que soient les groupes correspondants. La valeur par défaut est -1. |
name |
string |
Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
pattern |
string |
\W+ |
Modèle d’expression régulière pour faire correspondre les séparateurs de jetons. La valeur par défaut est une expression qui correspond à un ou plusieurs caractères autres que les mots. |
PhoneticEncoder
Identifie le type d’encodeur phonétique à utiliser avec un PhoneticTokenFilter.
Nom | Type | Description |
---|---|---|
beiderMorse |
string |
Encode un jeton dans une valeur Beider-Morse. |
caverphone1 |
string |
Encode un jeton dans une valeur Caverphone 1.0. |
caverphone2 |
string |
Encode un jeton dans une valeur Caverphone 2.0. |
cologne |
string |
Encode un jeton dans une valeur phonétique de Cologne. |
doubleMetaphone |
string |
Encode un jeton dans une valeur de métaphone double. |
haasePhonetik |
string |
Encode un jeton à l’aide de l’affinement Haase de l’algorithme Kölner Phonetik. |
koelnerPhonetik |
string |
Encode un jeton à l’aide de l’algorithme Kölner Phonetik. |
metaphone |
string |
Encode un jeton dans une valeur metaphone. |
nysiis |
string |
Encode un jeton dans une valeur NYSIIS. |
refinedSoundex |
string |
Encode un jeton dans une valeur Soundex affinée. |
soundex |
string |
Encode un jeton dans une valeur Soundex. |
PhoneticTokenFilter
Crée des jetons pour les correspondances phonétiques. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
encoder | metaphone |
Encodeur phonétique à utiliser. La valeur par défaut est « metaphone ». |
|
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
replace |
boolean |
True |
Valeur indiquant si les jetons encodés doivent remplacer les jetons d’origine. Si la valeur est false, les jetons encodés sont ajoutés en tant que synonymes. La valeur par défaut est true. |
PrioritizedFields
Décrit les champs titre, contenu et mots clés à utiliser pour le classement sémantique, les légendes, les mises en évidence et les réponses.
Nom | Type | Description |
---|---|---|
prioritizedContentFields |
Définit les champs de contenu à utiliser pour le classement sémantique, les légendes, les surbrillances et les réponses. Pour obtenir le meilleur résultat, les champs sélectionnés doivent contenir du texte au format en langage naturel. L’ordre des champs dans le tableau représente leur priorité. Les champs dont la priorité est inférieure peuvent être tronqués si le contenu est long. |
|
prioritizedKeywordsFields |
Définit les champs mot clé à utiliser pour le classement sémantique, les légendes, les surbrillances et les réponses. Pour obtenir le meilleur résultat, les champs sélectionnés doivent contenir une liste de mots clés. L’ordre des champs dans le tableau représente leur priorité. Les champs dont la priorité est inférieure peuvent être tronqués si le contenu est long. |
|
titleField |
Définit le champ de titre à utiliser pour le classement sémantique, les légendes, les surbrillances et les réponses. Si vous n’avez pas de champ de titre dans votre index, laissez ce champ vide. |
RegexFlags
Définit des indicateurs qui peuvent être combinés pour contrôler la façon dont les expressions régulières sont utilisées dans l’analyseur de modèle et le générateur de jetons de modèle.
Nom | Type | Description |
---|---|---|
CANON_EQ |
string |
Active l’équivalence canonique. |
CASE_INSENSITIVE |
string |
Active la correspondance qui ne respecte pas la casse. |
COMMENTS |
string |
Autorise les espaces blancs et les commentaires dans le modèle. |
DOTALL |
string |
Active le mode dotall. |
LITERAL |
string |
Active l’analyse littérale du modèle. |
MULTILINE |
string |
Active le mode multiligne. |
UNICODE_CASE |
string |
Active le pliage de casse prenant en charge Unicode. |
UNIX_LINES |
string |
Active le mode lignes Unix. |
ScoringFunctionAggregation
Définit la fonction d’agrégation utilisée pour combiner les résultats de toutes les fonctions de scoring dans un profil de scoring.
Nom | Type | Description |
---|---|---|
average |
string |
Augmentez les scores par la moyenne de tous les résultats de la fonction de scoring. |
firstMatching |
string |
Améliorez les scores à l’aide de la première fonction de scoring applicable dans le profil de scoring. |
maximum |
string |
Augmentez les scores par le maximum de tous les résultats de la fonction de scoring. |
minimum |
string |
Augmentez les scores par le minimum de tous les résultats de la fonction de scoring. |
sum |
string |
Augmentez les scores par la somme de tous les résultats de la fonction de scoring. |
ScoringFunctionInterpolation
Définit la fonction utilisée pour interpoler l’augmentation du score dans une plage de documents.
Nom | Type | Description |
---|---|---|
constant |
string |
Augmente les scores par un facteur constant. |
linear |
string |
Augmente les scores d’une quantité linéairement décroissante. Il s’agit de l’interpolation par défaut pour les fonctions de scoring. |
logarithmic |
string |
Augmente les scores d’une quantité qui diminue logarithmiquement. Les boosts diminuent rapidement pour les scores plus élevés, et plus lentement à mesure que les scores diminuent. Cette option d'interpolation n'est pas autorisée dans les fonctions de calcul de score de balises. |
quadratic |
string |
Augmente les scores d’un montant qui diminue quadratiquement. Les boosts diminuent lentement pour les scores plus élevés, et plus rapidement à mesure que les scores diminuent. Cette option d'interpolation n'est pas autorisée dans les fonctions de calcul de score de balises. |
ScoringProfile
Définit les paramètres d’un index de recherche qui influencent le scoring dans les requêtes de recherche.
Nom | Type | Description |
---|---|---|
functionAggregation |
Valeur indiquant comment combiner les résultats des fonctions de scoring individuelles. La valeur par défaut est « Somme ». Ignoré s’il n’existe aucune fonction de scoring. |
|
functions | ScoringFunction[]: |
Collection de fonctions qui influencent le scoring des documents. |
name |
string |
Nom du profil de scoring. |
text |
Paramètres qui augmentent le scoring en fonction des correspondances de texte dans certains champs d’index. |
SearchError
Décrit une condition d’erreur pour l’API.
Nom | Type | Description |
---|---|---|
code |
string |
Un des ensembles de codes d’erreur définis par le serveur. |
details |
Tableau de détails sur les erreurs spécifiques qui ont conduit à cette erreur signalée. |
|
message |
string |
Représentation lisible de l’erreur. |
SearchField
Représente un champ dans une définition d’index, qui décrit le nom, le type de données et le comportement de recherche d’un champ.
Nom | Type | Description |
---|---|---|
analyzer |
Nom de l’analyseur à utiliser pour le champ. Cette option n’est utilisable qu’avec les champs pouvant faire l’objet d’une recherche ; elle ne peut être associée ni à searchAnalyzer ni à indexAnalyzer. Une fois l'analyseur choisi, il ne peut pas être modifié pour le champ. Doit être null pour les champs complexes. |
|
dimensions |
integer |
Dimensionnalité du champ vectoriel. |
facetable |
boolean |
Valeur indiquant s’il faut activer le champ à référencer dans les requêtes à facettes. Généralement utilisé dans une présentation des résultats de recherche qui inclut le nombre d’accès par catégorie (par exemple, rechercher des appareils photo numériques et voir les résultats par marque, par mégapixels, par prix, etc.). Cette propriété doit être null pour les champs complexes. Les champs de type Edm.GeographyPoint ou Collection(Edm.GeographyPoint) ne peuvent pas être facetables. La valeur par défaut est true pour tous les autres champs simples. |
fields |
Liste de sous-champs s’il s’agit d’un champ de type Edm.ComplexType ou Collection(Edm.ComplexType). Doit être null ou vide pour les champs simples. |
|
filterable |
boolean |
Valeur indiquant si le champ doit être référencé dans $filter requêtes. filterable diffère de l’objet de recherche dans la façon dont les chaînes sont gérées. Les champs de type Edm.String ou Collection(Edm.String) qui sont filtrables ne sont pas filtrés, de sorte que les comparaisons sont destinées à des correspondances exactes uniquement. Par exemple, si vous définissez un champ f sur « jour ensoleillé », $filter=f eq 'sunny' ne trouvera aucune correspondance, mais $filter=f eq 'sunny day' le fera. Cette propriété doit être null pour les champs complexes. La valeur par défaut est true pour les champs simples et null pour les champs complexes. |
indexAnalyzer |
Nom de l’analyseur utilisé au moment de l’indexation pour le champ. Cette option peut être utilisée uniquement avec les champs pouvant faire l’objet d’une recherche. Il doit être défini avec searchAnalyzer et ne peut pas être défini avec l’option d’analyseur. Cette propriété ne peut pas être définie sur le nom d’un analyseur de langage ; utilisez plutôt la propriété analyzer si vous avez besoin d’un analyseur de langage. Une fois l'analyseur choisi, il ne peut pas être modifié pour le champ. Doit être null pour les champs complexes. |
|
key |
boolean |
Valeur indiquant si le champ identifie de manière unique les documents dans l’index. Exactement un champ de niveau supérieur dans chaque index doit être choisi comme champ clé et il doit être de type Edm.String. Les champs clés peuvent être utilisés pour rechercher directement des documents et mettre à jour ou supprimer des documents spécifiques. La valeur par défaut est false pour les champs simples et null pour les champs complexes. |
name |
string |
Nom du champ, qui doit être unique dans la collection fields du champ d’index ou du champ parent. |
retrievable |
boolean |
Valeur indiquant si le champ peut être retourné dans un résultat de recherche. Vous pouvez désactiver cette option si vous souhaitez utiliser un champ (par exemple, la marge) comme mécanisme de filtre, de tri ou de scoring, mais que vous ne souhaitez pas que le champ soit visible pour l’utilisateur final. Cette propriété doit être true pour les champs clés, et elle doit être null pour les champs complexes. Cette propriété peut être modifiée sur les champs existants. L’activation de cette propriété n’entraîne aucune augmentation des exigences de stockage d’index. La valeur par défaut est true pour les champs simples et null pour les champs complexes. |
searchAnalyzer |
Nom de l’analyseur utilisé au moment de la recherche pour le champ. Cette option peut être utilisée uniquement avec les champs pouvant faire l’objet d’une recherche. Il doit être défini avec indexAnalyzer et ne peut pas être défini avec l’option d’analyseur. Cette propriété ne peut pas être définie sur le nom d’un analyseur de langage ; utilisez plutôt la propriété analyzer si vous avez besoin d’un analyseur de langage. Cet analyseur peut être mis à jour sur un champ existant. Doit être null pour les champs complexes. |
|
searchable |
boolean |
Valeur indiquant si le champ peut faire l’objet d’une recherche en texte intégral. Cela signifie qu'il fera l'objet d'une analyse, par exemple lexicale, lors de l'indexation. Si vous définissez un champ avec possibilité de recherche sur une valeur comme « journée ensoleillée », cette valeur est fractionnée au niveau interne en jetons individuels « journée » et « ensoleillée ». Cela permet d'effectuer des recherches en texte intégral de ces termes. Les champs de type Edm.String ou Collection(Edm.String) peuvent faire l’objet d’une recherche par défaut. Cette propriété doit avoir la valeur false pour les champs simples d’autres types de données autres que les chaînes, et elle doit être null pour les champs complexes. Remarque : les champs pouvant faire l’objet d’une recherche consomment de l’espace supplémentaire dans votre index pour prendre en charge des versions supplémentaires avec jetons de la valeur de champ pour les recherches en texte intégral. Si vous souhaitez économiser de l’espace dans votre index et que vous n’avez pas besoin d’inclure un champ dans les recherches, définissez rechercheable sur false. |
sortable |
boolean |
Valeur indiquant si le champ doit être référencé dans $orderby expressions. Par défaut, le moteur de recherche trie les résultats par score, mais dans de nombreuses expériences, les utilisateurs souhaitent trier par champs dans les documents. Un champ simple ne peut être triable que s’il a une valeur unique (il a une valeur unique dans l’étendue du document parent). Les champs de collection simples ne peuvent pas être triables, car ils sont à valeurs multiples. Les sous-champs simples des collections complexes sont également à valeurs multiples et ne peuvent donc pas être triables. Cela est vrai, qu’il s’agisse d’un champ parent immédiat ou d’un champ ancêtre, il s’agit de la collection complexe. Les champs complexes ne peuvent pas être triables et la propriété triable doit avoir la valeur Null pour ces champs. La valeur par défaut pour triable est true pour les champs simples à valeur unique, false pour les champs simples à valeurs multiples et null pour les champs complexes. |
synonymMaps |
string[] |
Liste des noms des mappages de synonymes à associer à ce champ. Cette option peut être utilisée uniquement avec les champs pouvant faire l’objet d’une recherche. Actuellement, une seule carte de synonymes par champ est prise en charge. L’affectation d’un mappage de synonymes à un champ garantit que les termes de requête ciblant ce champ sont développés au moment de la requête à l’aide des règles du mappage de synonymes. Cet attribut peut être modifié sur les champs existants. Doit être null ou une collection vide pour les champs complexes. |
type |
Type de données du champ. |
|
vectorSearchProfile |
string |
Nom du profil de recherche vectorielle qui spécifie l’algorithme à utiliser lors de la recherche dans le champ vectoriel. |
SearchFieldDataType
Définit le type de données d’un champ dans un index de recherche.
Nom | Type | Description |
---|---|---|
Edm.Boolean |
string |
Indique qu’un champ contient une valeur booléenne (true ou false). |
Edm.ComplexType |
string |
Indique qu’un champ contient un ou plusieurs objets complexes qui à leur tour ont des sous-champs d’autres types. |
Edm.DateTimeOffset |
string |
Indique qu’un champ contient une valeur date/heure, y compris des informations de fuseau horaire. |
Edm.Double |
string |
Indique qu’un champ contient un nombre à virgule flottante à double précision IEEE. |
Edm.GeographyPoint |
string |
Indique qu’un champ contient un emplacement géographique en termes de longitude et de latitude. |
Edm.Int32 |
string |
Indique qu’un champ contient un entier signé 32 bits. |
Edm.Int64 |
string |
Indique qu’un champ contient un entier signé 64 bits. |
Edm.Single |
string |
Indique qu’un champ contient un nombre à virgule flottante simple précision. Cette option est valide uniquement lorsqu’elle est utilisée avec Collection(Edm.Single). |
Edm.String |
string |
Indique qu’un champ contient une chaîne. |
SearchIndex
Représente une définition d’index de recherche, qui décrit les champs et le comportement de recherche d’un index.
Nom | Type | Description |
---|---|---|
@odata.etag |
string |
ETag de l’index. |
analyzers | LexicalAnalyzer[]: |
Analyseurs pour l’index. |
charFilters | CharFilter[]: |
Filtres de caractères pour l’index. |
corsOptions |
Options permettant de contrôler le partage de ressources cross-origin (CORS) pour l’index. |
|
defaultScoringProfile |
string |
Nom du profil de scoring à utiliser si aucun n’est spécifié dans la requête. Si cette propriété n’est pas définie et qu’aucun profil de scoring n’est spécifié dans la requête, le scoring par défaut (tf-idf) est utilisé. |
encryptionKey |
Description d’une clé de chiffrement que vous créez dans Azure Key Vault. Cette clé est utilisée pour fournir un niveau supplémentaire de chiffrement au repos pour vos données lorsque vous souhaitez avoir l’assurance que personne, pas même Microsoft, ne peut déchiffrer vos données. Une fois que vous avez chiffré vos données, elles restent toujours chiffrées. Le service de recherche ignore les tentatives de définition de cette propriété sur null. Vous pouvez modifier cette propriété si nécessaire si vous souhaitez faire pivoter votre clé de chiffrement ; Vos données ne seront pas affectées. Le chiffrement avec des clés gérées par le client n’est pas disponible pour les services de recherche gratuits et est uniquement disponible pour les services payants créés à partir du 1er janvier 2019. |
|
fields |
Champs de l’index. |
|
name |
string |
Nom de l’index. |
scoringProfiles |
Profils de scoring pour l’index. |
|
semantic |
Définit les paramètres d’un index de recherche qui influencent les fonctionnalités sémantiques. |
|
similarity | Similarity: |
Type d’algorithme de similarité à utiliser lors du scoring et du classement des documents correspondant à une requête de recherche. L’algorithme de similarité ne peut être défini qu’au moment de la création de l’index et ne peut pas être modifié sur les index existants. Si la valeur est null, l’algorithme ClassicSimilarity est utilisé. |
suggesters |
Suggesteurs pour l’index. |
|
tokenFilters |
TokenFilter[]:
|
Le jeton filtre l’index. |
tokenizers | LexicalTokenizer[]: |
Générateurs de jetons pour l’index. |
vectorSearch |
Contient des options de configuration liées à la recherche vectorielle. |
SearchResourceEncryptionKey
Une clé de chiffrement gérée par le client dans Azure Key Vault. Les clés que vous créez et gérez peuvent être utilisées pour chiffrer ou déchiffrer les données au repos sur votre service de recherche, telles que les index et les mappages de synonymes.
Nom | Type | Description |
---|---|---|
accessCredentials |
Informations d’identification Azure Active Directory facultatives utilisées pour accéder à votre Key Vault Azure. Non obligatoire si vous utilisez une identité managée à la place. |
|
keyVaultKeyName |
string |
Nom de votre clé Azure Key Vault à utiliser pour chiffrer vos données au repos. |
keyVaultKeyVersion |
string |
La version de votre clé Azure Key Vault à utiliser pour chiffrer vos données au repos. |
keyVaultUri |
string |
URI de votre Key Vault Azure, également appelé nom DNS, qui contient la clé à utiliser pour chiffrer vos données au repos. Un exemple d’URI pourrait être |
SemanticConfiguration
Définit une configuration spécifique à utiliser dans le contexte des fonctionnalités sémantiques.
Nom | Type | Description |
---|---|---|
name |
string |
Nom de la configuration sémantique. |
prioritizedFields |
Décrit le titre, le contenu et les champs mot clé à utiliser pour le classement sémantique, les légendes, les surbrillances et les réponses. Au moins l’une des trois sous-propriétés (titleField, priordKeywordsFields et priordContentFields) doit être définie. |
SemanticField
Champ utilisé dans le cadre de la configuration sémantique.
Nom | Type | Description |
---|---|---|
fieldName |
string |
SemanticSettings
Définit les paramètres d’un index de recherche qui influencent les fonctionnalités sémantiques.
Nom | Type | Description |
---|---|---|
configurations |
Configurations sémantiques de l’index. |
|
defaultConfiguration |
string |
Vous permet de définir le nom d’une configuration sémantique par défaut dans votre index, ce qui rend facultatif sa transmission en tant que paramètre de requête à chaque fois. |
ShingleTokenFilter
Crée des combinaisons de jetons sous la forme d’un unique jeton. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
filterToken |
string |
_ |
Chaîne à insérer pour chaque position à laquelle il n’y a pas de jeton. La valeur par défaut est un trait de soulignement (« _ »). |
maxShingleSize |
integer |
2 |
Taille maximale du bardeau. La valeur par défaut et minimale est 2. |
minShingleSize |
integer |
2 |
Taille minimale du bardeau. La valeur par défaut et minimale est 2. Doit être inférieur à la valeur de maxShingleSize. |
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
outputUnigrams |
boolean |
True |
Valeur indiquant si le flux de sortie contiendra les jetons d’entrée (unigrammes) ainsi que les bardeaux. La valeur par défaut est true. |
outputUnigramsIfNoShingles |
boolean |
False |
Valeur indiquant s’il faut générer des unigrammes pour les moments où aucun bardeau n’est disponible. Cette propriété est prioritaire lorsque outputUnigrams est défini sur false. La valeur par défaut est false. |
tokenSeparator |
string |
Chaîne à utiliser lors de la jointure de jetons adjacents pour former un bardeau. La valeur par défaut est un espace unique ( » « ). |
SnowballTokenFilter
Filtre qui permet d’endiguer les mots à l’aide d’un stemmer généré par Snowball. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
language |
Langue à utiliser. |
|
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
SnowballTokenFilterLanguage
Langue à utiliser pour un filtre de jeton Snowball.
Nom | Type | Description |
---|---|---|
armenian |
string |
Sélectionne le générateur de jetons lucene Snowball pour l’arménien. |
basque |
string |
Sélectionne le générateur de jetons lucene Snowball pour le basque. |
catalan |
string |
Sélectionne le générateur de jetons Lucene Snowball pour le catalan. |
danish |
string |
Sélectionne le générateur de jetons lucene Snowball pour le danois. |
dutch |
string |
Sélectionne le générateur de jetons Lucene Snowball pour le néerlandais. |
english |
string |
Sélectionne le générateur de jetons Lucene Snowball pour l’anglais. |
finnish |
string |
Sélectionne le générateur de jetons Lucene Snowball pour le finnois. |
french |
string |
Sélectionne le générateur de jetons lucene Snowball pour Français. |
german |
string |
Sélectionne le générateur de jetons Lucene Snowball pour l’allemand. |
german2 |
string |
Sélectionne le générateur de jetons lucene Snowball qui utilise l’algorithme de variante allemand. |
hungarian |
string |
Sélectionne le générateur de jetons lucene Snowball pour le hongrois. |
italian |
string |
Sélectionne le générateur de jetons lucene Snowball pour l’italien. |
kp |
string |
Sélectionne le générateur de jetons lucene Snowball pour le néerlandais qui utilise l’algorithme de recherche de Kraaij-Pohlmann. |
lovins |
string |
Sélectionne le générateur de jetons lucene Snowball pour l’anglais qui utilise l’algorithme lovins. |
norwegian |
string |
Sélectionne le générateur de jetons lucene Snowball pour norvégien. |
porter |
string |
Sélectionne le générateur de jetons lucene Snowball pour l’anglais qui utilise l’algorithme de suivi porter. |
portuguese |
string |
Sélectionne le générateur de jetons lucene Snowball pour le portugais. |
romanian |
string |
Sélectionne le générateur de jetons lucene Snowball pour le roumain. |
russian |
string |
Sélectionne le générateur de jetons lucene Snowball pour le russe. |
spanish |
string |
Sélectionne le générateur de jetons lucene Snowball pour l’espagnol. |
swedish |
string |
Sélectionne le générateur de jetons lucene Snowball pour le suédois. |
turkish |
string |
Sélectionne le générateur de jetons lucene Snowball pour le turc. |
StemmerOverrideTokenFilter
Offre la possibilité de remplacer d’autres filtres de base de données par un suivi basé sur un dictionnaire personnalisé. Tous les termes dérivés d’un dictionnaire seront marqués en tant que mots clés afin qu’ils ne soient pas enserrés avec des stemmers en aval de la chaîne. Doit être placé avant les filtres de recherche de radical. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
rules |
string[] |
Liste de règles de base au format suivant : « word => stem », par exemple : « ran => run ». |
StemmerTokenFilter
Filtre de stemming spécifique au langage. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
language |
Langue à utiliser. |
|
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
StemmerTokenFilterLanguage
Langue à utiliser pour un filtre de jetons de générateur de formes dérivées.
Nom | Type | Description |
---|---|---|
arabic |
string |
Sélectionne le générateur de jetons Lucene pour l’arabe. |
armenian |
string |
Sélectionne le générateur de jetons lucene pour l’arménien. |
basque |
string |
Sélectionne le générateur de jetons à la racine Lucene pour le basque. |
brazilian |
string |
Sélectionne le générateur de jetons lucene pour le portugais (Brésil). |
bulgarian |
string |
Sélectionne le générateur de jetons lucene pour le bulgare. |
catalan |
string |
Sélectionne le générateur de jetons lucene pour le catalan. |
czech |
string |
Sélectionne le générateur de jetons lucene pour le tchèque. |
danish |
string |
Sélectionne le générateur de jetons lucene pour le danois. |
dutch |
string |
Sélectionne le générateur de jetons lucene pour le néerlandais. |
dutchKp |
string |
Sélectionne le générateur de jetons lucene à base de données pour le néerlandais qui utilise l’algorithme de recherche de Kraaij-Pohlmann. |
english |
string |
Sélectionne le générateur de jetons lucene pour l’anglais. |
finnish |
string |
Sélectionne le générateur de jetons lucene pour le finnois. |
french |
string |
Sélectionne le générateur de jetons lucene pour Français. |
galician |
string |
Sélectionne le générateur de jetons lucene pour galicien. |
german |
string |
Sélectionne le générateur de jetons lucene pour l’allemand. |
german2 |
string |
Sélectionne le générateur de jetons lucene qui utilise l’algorithme de variante allemand. |
greek |
string |
Sélectionne le générateur de jetons lucene pour le grec. |
hindi |
string |
Sélectionne le générateur de jetons lucene pour l’hindi. |
hungarian |
string |
Sélectionne le générateur de jetons lucene pour le hongrois. |
indonesian |
string |
Sélectionne le générateur de jetons lucene pour l’indonésien. |
irish |
string |
Sélectionne le générateur de jetons lucene pour l’irlandais. |
italian |
string |
Sélectionne le générateur de jetons lucene pour l’italien. |
latvian |
string |
Sélectionne le générateur de jetons lucene pour le letton. |
lightEnglish |
string |
Sélectionne le générateur de jetons lucene pour l’anglais qui effectue un suivi léger. |
lightFinnish |
string |
Sélectionne le générateur de jetons lucene pour le finnois qui effectue un suivi léger. |
lightFrench |
string |
Sélectionne le générateur de jetons lucene pour Français qui effectue un suivi léger. |
lightGerman |
string |
Sélectionne le générateur de jetons lucene pour l’allemand qui effectue un suivi léger. |
lightHungarian |
string |
Sélectionne le générateur de jetons lucene pour le hongrois qui effectue le suivi de la lumière. |
lightItalian |
string |
Sélectionne le générateur de jetons lucene pour l’italien qui effectue un suivi léger. |
lightNorwegian |
string |
Sélectionne le générateur de jetons lucene pour le norvégien (Bokmål) qui effectue le suivi de la lumière. |
lightNynorsk |
string |
Sélectionne le générateur de jetons lucene pour le norvégien (Nynorsk) qui effectue le suivi de la lumière. |
lightPortuguese |
string |
Sélectionne le générateur de jetons lucene pour le portugais qui effectue un suivi léger. |
lightRussian |
string |
Sélectionne le générateur de jetons à racine Lucene pour le russe qui effectue un suivi de la lumière. |
lightSpanish |
string |
Sélectionne le générateur de jetons lucene pour l’espagnol qui effectue le suivi de la lumière. |
lightSwedish |
string |
Sélectionne le générateur de jetons à racine Lucene pour le suédois qui effectue un suivi léger. |
lovins |
string |
Sélectionne le générateur de jetons lucene pour l’anglais qui utilise l’algorithme de suivi lovins. |
minimalEnglish |
string |
Sélectionne le générateur de jetons lucene pour l’anglais qui effectue un suivi minimal. |
minimalFrench |
string |
Sélectionne le générateur de jetons lucene pour Français qui effectue un suivi minimal. |
minimalGalician |
string |
Sélectionne le générateur de jetons à racine Lucene pour le galicien qui effectue un suivi minimal. |
minimalGerman |
string |
Sélectionne le générateur de jetons lucene pour l’allemand qui effectue un suivi minimal. |
minimalNorwegian |
string |
Sélectionne le générateur de jetons à racine Lucene pour le norvégien (Bokmål) qui effectue un suivi minimal. |
minimalNynorsk |
string |
Sélectionne le générateur de jetons lucene pour le norvégien (Nynorsk) qui effectue un suivi minimal. |
minimalPortuguese |
string |
Sélectionne le générateur de jetons lucene pour le portugais qui effectue un suivi minimal. |
norwegian |
string |
Sélectionne le générateur de jetons lucene pour le norvégien (Bokmål). |
porter2 |
string |
Sélectionne le générateur de jetons lucene à base de données pour l’anglais qui utilise l’algorithme de suivi porter2. |
portuguese |
string |
Sélectionne le générateur de jetons lucene pour le portugais. |
portugueseRslp |
string |
Sélectionne le générateur de jetons lucene à base de données pour le portugais qui utilise l’algorithme de recherche de base de données RSLP. |
possessiveEnglish |
string |
Sélectionne le générateur de jetons lucene pour l’anglais qui supprime les possessifs de fin des mots. |
romanian |
string |
Sélectionne le générateur de jetons lucene pour le roumain. |
russian |
string |
Sélectionne le générateur de jetons à racine Lucene pour le russe. |
sorani |
string |
Sélectionne le générateur de jetons lucene pour Sorani. |
spanish |
string |
Sélectionne le générateur de jetons lucene pour l’espagnol. |
swedish |
string |
Sélectionne le générateur de jetons lucene pour le suédois. |
turkish |
string |
Sélectionne le générateur de jetons lucene pour le turc. |
StopAnalyzer
Divise le texte aux lettres non-lettres ; Applique les filtres de jetons minuscules et de mots vides. Cet analyseur est implémenté à l’aide d’Apache Lucene.
Nom | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type d’analyseur. |
name |
string |
Nom de l’analyseur. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
stopwords |
string[] |
Liste de mots vides. |
StopwordsList
Identifie une liste prédéfinie de mots vides spécifiques à la langue.
Nom | Type | Description |
---|---|---|
arabic |
string |
Sélectionne la liste de mots vides pour l’arabe. |
armenian |
string |
Sélectionne la liste des mots vides pour l’arménien. |
basque |
string |
Sélectionne la liste de mots vides pour le basque. |
brazilian |
string |
Sélectionne la liste de mots vides pour le portugais (Brésil). |
bulgarian |
string |
Sélectionne la liste de mots vides pour le bulgare. |
catalan |
string |
Sélectionne la liste de mots vides pour le catalan. |
czech |
string |
Sélectionne la liste de mots vides pour le tchèque. |
danish |
string |
Sélectionne la liste de mots vides pour le danois. |
dutch |
string |
Sélectionne la liste de mots vides pour le néerlandais. |
english |
string |
Sélectionne la liste de mots vides pour l’anglais. |
finnish |
string |
Sélectionne la liste des mots vides pour le finnois. |
french |
string |
Sélectionne la liste des mots vides pour Français. |
galician |
string |
Sélectionne la liste des mots vides pour le galicien. |
german |
string |
Sélectionne la liste de mots vides pour l’allemand. |
greek |
string |
Sélectionne la liste de mots vides pour le grec. |
hindi |
string |
Sélectionne la liste de mots vides pour l’hindi. |
hungarian |
string |
Sélectionne la liste des mots vides pour le hongrois. |
indonesian |
string |
Sélectionne la liste des mots vides pour l’indonésien. |
irish |
string |
Sélectionne la liste de mots vides pour l’irlandais. |
italian |
string |
Sélectionne la liste des mots vides pour l’italien. |
latvian |
string |
Sélectionne la liste de mots vides pour le letton. |
norwegian |
string |
Sélectionne la liste de mots vides pour le norvégien. |
persian |
string |
Sélectionne la liste des mots vides pour persan. |
portuguese |
string |
Sélectionne la liste de mots vides pour le portugais. |
romanian |
string |
Sélectionne la liste de mots vides pour le roumain. |
russian |
string |
Sélectionne la liste de mots vides pour le russe. |
sorani |
string |
Sélectionne la liste de mots vides pour Sorani. |
spanish |
string |
Sélectionne la liste de mots vides pour l’espagnol. |
swedish |
string |
Sélectionne la liste de mots vides pour le suédois. |
thai |
string |
Sélectionne la liste de mots vides pour Thaï. |
turkish |
string |
Sélectionne la liste de mots vides pour le turc. |
StopwordsTokenFilter
Supprime les mots vides d’un flux de jetons. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
ignoreCase |
boolean |
False |
Valeur indiquant s’il faut ignorer la casse. Si la valeur est true, tous les mots sont d’abord convertis en minuscules. La valeur par défaut est false. |
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
removeTrailing |
boolean |
True |
Valeur indiquant s’il faut ignorer le dernier terme de recherche s’il s’agit d’un mot stop. La valeur par défaut est true. |
stopwords |
string[] |
Liste des mots vides. Cette propriété et la propriété de liste stopwords ne peuvent pas être définies. |
|
stopwordsList | english |
Liste prédéfinie de mots vides à utiliser. Cette propriété et la propriété stopwords ne peuvent pas être définies. La valeur par défaut est l’anglais. |
Suggester
Définit la façon dont l’API Suggest doit s’appliquer à un groupe de champs dans l’index.
Nom | Type | Description |
---|---|---|
name |
string |
Nom du suggesteur. |
searchMode |
Valeur indiquant les fonctionnalités du suggesteur. |
|
sourceFields |
string[] |
Liste des noms de champs auxquels le suggesteur s’applique. Chaque champ doit faire l’objet d’une recherche. |
SuggesterSearchMode
Valeur indiquant les fonctionnalités du suggesteur.
Nom | Type | Description |
---|---|---|
analyzingInfixMatching |
string |
Correspond à des termes et préfixes entiers consécutifs dans un champ. Par exemple, pour le champ « Le renard brun le plus rapide », les requêtes « fast » et « le front le plus rapide » correspondent toutes deux. |
SynonymTokenFilter
Correspond à des synonymes uniques ou à plusieurs mots dans un flux de jetons. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
expand |
boolean |
True |
Valeur indiquant si tous les mots de la liste de synonymes (si => notation n’est pas utilisée) sont mappés les uns aux autres. Si la valeur est true, tous les mots de la liste des synonymes (si => notation n’est pas utilisée) seront mappés les uns aux autres. La liste suivante : incroyable, incroyable, fabuleux, incroyable équivaut à : incroyable, incroyable, fabuleux, amazing => incroyable, incroyable, fabuleux, incroyable. Si c’est faux, la liste suivante : incroyable, incroyable, fabuleux, étonnant sera équivalente à : incroyable, incroyable, fabuleux, incroyable => incroyable. La valeur par défaut est true. |
ignoreCase |
boolean |
False |
Valeur indiquant si l’entrée de pliage de casse doit être effectuée pour la correspondance. La valeur par défaut est false. |
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
synonyms |
string[] |
Liste de synonymes dans l’un des deux formats suivants : 1. incroyable, incroyable, fabuleux => incroyable - tous les termes sur le côté gauche de => symbole seront remplacés par tous les termes sur son côté droit ; 2. incroyable, incroyable, fabuleux, incroyable - liste séparée par des virgules de mots équivalents. Définissez l’option expand pour changer la façon dont cette liste est interprétée. |
TagScoringFunction
Définit une fonction qui augmente les scores de documents avec des valeurs de chaîne correspondant à une liste donnée de balises.
Nom | Type | Description |
---|---|---|
boost |
number |
Multiplicateur pour le score brut. Doit être un nombre positif qui n’est pas égal à 1,0. |
fieldName |
string |
Nom du champ utilisé comme entrée dans la fonction de scoring. |
interpolation |
Valeur indiquant la façon dont l’augmentation sera interpolée entre les scores de document ; la valeur par défaut est « Linear ». |
|
tag |
Valeurs de paramètre pour la fonction de scoring d’étiquettes. |
|
type |
string:
tag |
Indique le type de fonction à utiliser. Les valeurs autorisées sont magnitude, freshness, distance et tag. Le type de fonction doit être en minuscules. |
TagScoringParameters
Fournit des valeurs de paramètre à une fonction de scoring d’étiquettes.
Nom | Type | Description |
---|---|---|
tagsParameter |
string |
Nom du paramètre transmis dans les requêtes de recherche pour spécifier la liste des balises à comparer au champ cible. |
TextWeights
Définit des pondérations sur les champs d’index pour lesquels les correspondances doivent améliorer le scoring dans les requêtes de recherche.
Nom | Type | Description |
---|---|---|
weights |
object |
Dictionnaire de pondérations par champ pour améliorer le scoring des documents. Les clés sont des noms de champs et les valeurs sont les pondérations de chaque champ. |
TokenCharacterKind
Représente des classes de caractères sur lesquelles un filtre de jeton peut fonctionner.
Nom | Type | Description |
---|---|---|
digit |
string |
Conserve les chiffres dans les jetons. |
letter |
string |
Conserve les lettres dans les jetons. |
punctuation |
string |
Conserve la ponctuation dans les jetons. |
symbol |
string |
Conserve les symboles dans les jetons. |
whitespace |
string |
Conserve l’espace blanc dans les jetons. |
TokenFilterName
Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche.
Nom | Type | Description |
---|---|---|
apostrophe |
string |
Supprime tous les caractères suivant une apostrophe (y compris l’apostrophe elle-même). Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html |
arabic_normalization |
string |
Un filtre de jetons qui applique le normaliseur arabe pour normaliser l’orthographe. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html |
asciifolding |
string |
Convertit les caractères Unicode alphabétiques, numériques et symboliques qui ne figurent pas dans les 127 premiers caractères ASCII (le bloc Unicode « Latin de base ») en leurs équivalents ASCII, s’ils existent. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
cjk_bigram |
string |
Forme des bigrams de termes CJK générés à partir du générateur de jetons standard. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html |
cjk_width |
string |
Normalise les différences de largeur de CJC. Plie les variantes ASCII de pleine chasse dans le latin de base équivalent et les variantes katakana de demi-largeur dans le Kana équivalent. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html |
classic |
string |
Supprime les possessifs en anglais et les points des acronymes. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html |
common_grams |
string |
Construit des digrammes pour les termes d’occurrence fréquente lors de l’indexation. Les termes uniques sont néanmoins aussi indexés, avec des digrammes superposés. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html |
edgeNGram_v2 |
string |
Génère des n-grammes de la ou des tailles données à partir de l’avant ou de l’arrière d’un jeton d’entrée. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html |
elision |
string |
Supprime les élisions. Par exemple, « l’avion » sera converti en « avion ». Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
german_normalization |
string |
Normalise les caractères allemands en fonction de l’heuristique de l’algorithme de boule de neige German2. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html |
hindi_normalization |
string |
Normalise le texte dans Hindi de façon à supprimer des différences dans les variations orthographiques. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html |
indic_normalization |
string |
Normalise la représentation Unicode du texte dans les langues indiennes. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html |
keyword_repeat |
string |
Émet chaque jeton entrant deux fois, une fois en tant que mot clé et une fois en tant que jeton non mot clé. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html |
kstem |
string |
Un filtre kstem à hautes performances pour l’anglais. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html |
length |
string |
Supprime les mots qui sont trop longs ou trop courts. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html |
limit |
string |
Limite le nombre de jetons lors de l’indexation. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html |
lowercase |
string |
Normalise le texte des jetons en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm |
nGram_v2 |
string |
Génère des n-grammes de la taille donnée. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html |
persian_normalization |
string |
Applique la normalisation pour le persan. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html |
phonetic |
string |
Crée des jetons pour les correspondances phonétiques. Voir https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html |
porter_stem |
string |
Utilise l’algorithme de suivi porter pour transformer le flux de jetons. Voir http://tartarus.org/~martin/PorterStemmer |
reverse |
string |
Inverse la chaîne des jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
scandinavian_folding |
string |
Convertit les caractères scandinaves åÅäæÄÆ->a et öÖøØ->o. Il identifie aussi l’utilisation des voyelles doubles aa, ae, ao, oe et oo, et conserve seulement la première voyelle. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html |
scandinavian_normalization |
string |
Normalise l’utilisation des caractères scandinaves interchangeables. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html |
shingle |
string |
Crée des combinaisons de jetons sous la forme d’un unique jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html |
snowball |
string |
Filtre qui dérive les mots à l’aide d’un générateur de formes dérivées généré par Snowball. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html |
sorani_normalization |
string |
Normalise la représentation Unicode du texte en sorani. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html |
stemmer |
string |
Filtre de recherche de contenu spécifique à la langue. Voir https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters |
stopwords |
string |
Supprime les mots vides d’un flux de jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html |
trim |
string |
Supprime les espaces de début et de fin des jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html |
truncate |
string |
Tronque les termes à une longueur spécifique. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html |
unique |
string |
Élimine les jetons avec le même texte que le jeton précédent. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html |
uppercase |
string |
Normalise le texte des jetons en majuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
word_delimiter |
string |
Divise les mots en sous-mots et effectue des transformations facultatives sur les groupes de sous-mots. |
TruncateTokenFilter
Tronque les termes à une longueur spécifique. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
length |
integer |
300 |
Longueur à laquelle les termes seront tronqués. La valeur par défaut et la valeur maximale sont 300. |
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
UaxUrlEmailTokenizer
Génère des jetons pour des URL et des e-mails sous la forme d’un seul jeton. Ce générateur de jetons est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de générateur de jetons. |
|
maxTokenLength |
integer |
255 |
Longueur maximale du jeton. La valeur par défaut est 255. Les jetons dépassant la longueur maximale sont fractionnés. La longueur maximale du jeton pouvant être utilisée est de 300 caractères. |
name |
string |
Nom du générateur de jetons. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
UniqueTokenFilter
Élimine les jetons avec le même texte que le jeton précédent. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
onlyOnSamePosition |
boolean |
False |
Valeur indiquant s’il faut supprimer les doublons uniquement à la même position. La valeur par défaut est false. |
VectorSearch
Contient des options de configuration liées à la recherche vectorielle.
Nom | Type | Description |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Contient des options de configuration spécifiques à l’algorithme utilisé lors de l’indexation ou de l’interrogation. |
profiles |
Définit des combinaisons de configurations à utiliser avec la recherche vectorielle. |
VectorSearchAlgorithmKind
Algorithme utilisé pour l’indexation et l’interrogation.
Nom | Type | Description |
---|---|---|
exhaustiveKnn |
string |
Algorithme KNN exhaustif qui effectuera une recherche par force brute. |
hnsw |
string |
HNSW (Hierarchical Navigable Small World), un type d’algorithme de voisin le plus proche approximatif. |
VectorSearchAlgorithmMetric
Métrique de similarité à utiliser pour les comparaisons de vecteurs.
Nom | Type | Description |
---|---|---|
cosine |
string |
|
dotProduct |
string |
|
euclidean |
string |
VectorSearchProfile
Définit une combinaison de configurations à utiliser avec la recherche vectorielle.
Nom | Type | Description |
---|---|---|
algorithm |
string |
Nom de la configuration de l’algorithme de recherche vectorielle qui spécifie l’algorithme et les paramètres facultatifs. |
name |
string |
Nom à associer à ce profil de recherche vectorielle particulier. |
WordDelimiterTokenFilter
Divise les mots en sous-mots et effectue des transformations facultatives sur les groupes de sous-mots. Ce filtre de jeton est implémenté à l’aide d’Apache Lucene.
Nom | Type | Valeur par défaut | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment d’URI spécifiant le type de filtre de jeton. |
|
catenateAll |
boolean |
False |
Valeur indiquant si toutes les parties de sous-mots seront catenées. Par exemple, si cette valeur est définie sur true, « Azure-Search-1 » devient « AzureSearch1 ». La valeur par défaut est false. |
catenateNumbers |
boolean |
False |
Valeur indiquant si le nombre maximal d’exécutions de pièces de nombre sera catené. Par exemple, si cette valeur est définie sur true, « 1-2 » devient « 12 ». La valeur par défaut est false. |
catenateWords |
boolean |
False |
Valeur indiquant si le nombre maximal d’exécutions de parties de mots sera catené. Par exemple, si cette valeur est définie sur true, « Azure-Search » devient « AzureSearch ». La valeur par défaut est false. |
generateNumberParts |
boolean |
True |
Valeur indiquant s’il faut générer des sous-mots numériques. La valeur par défaut est true. |
generateWordParts |
boolean |
True |
Valeur indiquant s’il faut générer des mots de partie. Si la valeur est définie, entraîne la génération de parties de mots ; par exemple , « AzureSearch » devient « Azure » « Search ». La valeur par défaut est true. |
name |
string |
Nom du filtre de jeton. Il doit contenir uniquement des lettres, des chiffres, des espaces, des tirets ou des traits de soulignement. Il doit commencer et se terminer uniquement par des caractères alphanumériques, et ne doit pas dépasser 128 caractères. |
|
preserveOriginal |
boolean |
False |
Valeur indiquant si les mots d’origine seront conservés et ajoutés à la liste des sous-mots. La valeur par défaut est false. |
protectedWords |
string[] |
Liste de jetons à protéger contre la délimitation. |
|
splitOnCaseChange |
boolean |
True |
Valeur indiquant s’il faut fractionner des mots sur caseChange. Par exemple, si cette valeur est définie sur true, « AzureSearch » devient « Azure » « Search ». La valeur par défaut est true. |
splitOnNumerics |
boolean |
True |
Valeur indiquant s’il faut fractionner sur des nombres. Par exemple, si cette valeur est définie sur true, « Azure1Search » devient « Azure » « 1 » « Search ». La valeur par défaut est true. |
stemEnglishPossessive |
boolean |
True |
Valeur indiquant s’il faut supprimer la fin de « 's » pour chaque sous-mot. La valeur par défaut est true. |