Indexes - Get
Ruft eine Indexdefinition ab.
GET {endpoint}/indexes('{indexName}')?api-version=2023-10-01-Preview
URI-Parameter
Name | In | Erforderlich | Typ | Beschreibung |
---|---|---|---|---|
endpoint
|
path | True |
string |
Die Endpunkt-URL des Suchdiensts. |
index
|
path | True |
string |
Der Name des abzurufenden Indexes. |
api-version
|
query | True |
string |
Client-API-Version. |
Anforderungsheader
Name | Erforderlich | Typ | Beschreibung |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Die Tracking-ID, die mit der Anforderung gesendet wurde, beim Debuggen zu helfen. |
Antworten
Name | Typ | Beschreibung |
---|---|---|
200 OK | ||
Other Status Codes |
Fehlerantwort. |
Beispiele
SearchServiceGetIndex
Beispielanforderung
GET https://myservice.search.windows.net/indexes('hotels')?api-version=2023-10-01-Preview
Beispiel für eine Antwort
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": null,
"b": null
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myKeyName",
"keyVaultKeyVersion": "myKeyVersion",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"semantic": {
"defaultConfiguration": null,
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey",
"authIdentity": null
}
}
]
}
}
Definitionen
Name | Beschreibung |
---|---|
Ascii |
Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, wenn solche Entsprechungen vorhanden sind. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert. |
Azure |
Anmeldeinformationen einer registrierten Anwendung, die für Ihren Suchdienst erstellt wurde und für den authentifizierten Zugriff auf die in Azure Key Vault gespeicherten Verschlüsselungsschlüssel verwendet wird. |
Azure |
Gibt die Parameter für die Verbindung mit der Azure OpenAI-Ressource an. |
Azure |
Gibt die Azure OpenAI-Ressource an, die zum Vektorisieren einer Abfragezeichenfolge verwendet wird. |
BM25Similarity |
Rangfolgefunktion basierend auf dem Okapi BM25-Ähnlichkeitsalgorithmus. BM25 ist ein TF-IDF-ähnlicher Algorithmus, der die Längennormalisierung (gesteuert durch den Parameter "b") sowie die Begriffsfrequenzsättigung (gesteuert durch den Parameter "k1") umfasst. |
Char |
Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden. |
Cjk |
Bildet Bigrams von CJK-Begriffen, die aus dem Standardtokenizer generiert werden. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert. |
Cjk |
Skripts, die von CjkBigramTokenFilter ignoriert werden können. |
Classic |
Legacy-Ähnlichkeitsalgorithmus, der die Lucene TFIDFSimilarity-Implementierung von TF-IDF verwendet. Diese Variante von TF-IDF führt eine Normalisierung der statischen Dokumentlänge ein sowie koordinierende Faktoren, die Dokumente bestrafen, die nur teilweise mit den durchsuchten Abfragen übereinstimmen. |
Classic |
Grammatikbasiertes Tokenizer, das sich für die Verarbeitung der meisten dokumente in europäischer Sprache eignet. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert. |
Common |
Konstruiert Bigramme für häufig vorkommende Begriffe während der Indexierung. Einzelne Begriffe werden ebenfalls indexiert und mit Bigrammen überlagert. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert. |
Cors |
Definiert Optionen zum Steuern der ressourcenübergreifenden Ressourcenfreigabe (Cross-Origin Resource Sharing, CORS) für einen Index. |
Custom |
Ermöglicht Es Ihnen, die Kontrolle über den Prozess der Konvertierung von Text in indizierbare/durchsuchbare Token zu übernehmen. Es handelt sich um eine benutzerdefinierte Konfiguration, die aus einem einzelnen vordefinierten Tokenizer und einem oder mehreren Filtern besteht. Der Tokenizer ist für das Aufteilen von Text in Token und die Filter zum Ändern von Token verantwortlich, die vom Tokenizer ausgegeben werden. |
Custom |
Ermöglicht Ihnen das Konfigurieren der Normalisierung für filterbare, sortierbare und facetable-Felder, die standardmäßig mit strikter Übereinstimmung arbeiten. Dies ist eine benutzerdefinierte Konfiguration, die aus mindestens einem Filter besteht, der das gespeicherte Token ändert. |
Custom |
Gibt einen benutzerdefinierten Vektorisierer zum Generieren der Vektoreinbettung einer Abfragezeichenfolge an. Die Integration eines externen Vektorisierers erfolgt über die benutzerdefinierte Web-API-Schnittstelle eines Skillsets. |
Custom |
Gibt die Eigenschaften für die Verbindung mit einem benutzerdefinierten Vektorisierer an. |
Dictionary |
Zerlegt zusammengesetzte Wörter, die in vielen germanischen Sprachen vorkommen. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert. |
Distance |
Definiert eine Funktion, die die Bewertungen basierend auf der Entfernung von einem geografischen Standort erhöht. |
Distance |
Stellt Parameterwerte für eine Entfernungsbewertungsfunktion bereit. |
Edge |
Generiert n Gramm der angegebenen Größe(en) ausgehend von der Vorder- oder Rückseite eines Eingabetokens. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert. |
Edge |
Gibt an, von welcher Seite der Eingabe ein n-Gramm generiert werden soll. |
Edge |
Generiert n Gramm der angegebenen Größe(en) ausgehend von der Vorder- oder Rückseite eines Eingabetokens. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert. |
Edge |
Tokenisiert die Eingabe von einer Kante in n Gramm der angegebenen Größe(n). Dieser Tokenizer wird mithilfe von Apache Lucene implementiert. |
Elision |
Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert. |
Exhaustive |
Enthält die Parameter, die für den vollständigen KNN-Algorithmus spezifisch sind. |
Exhaustive |
Enthält Konfigurationsoptionen, die für den vollständigen KNN-Algorithmus spezifisch sind, der während der Abfrage verwendet wird, der brute-force-Suche für den gesamten Vektorindex ausführt. |
Freshness |
Definiert eine Funktion, die die Bewertungen basierend auf dem Wert eines Datums-Uhrzeit-Felds erhöht. |
Freshness |
Stellt Parameterwerte für eine Frischebewertungsfunktion bereit. |
Hnsw |
Enthält die spezifischen Parameter für den HNSW-Algorithmus. |
Hnsw |
Enthält Konfigurationsoptionen, die für den HNSW-Algorithmus mit näheren Nachbarn spezifisch sind, der während der Indizierung und Abfrage verwendet wird. Der HNSW-Algorithmus bietet einen abstimmbaren Kompromiss zwischen Suchgeschwindigkeit und Genauigkeit. |
Keep |
Ein Tokenfilter, der nur Token mit Text in einer angegebenen Liste von Wörtern speichert. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert. |
Keyword |
Begriffe werden als Schlüsselwörter gekennzeichnet. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert. |
Keyword |
Gibt die gesamte Eingabe als ein einzelnes Token aus. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert. |
Keyword |
Gibt die gesamte Eingabe als ein einzelnes Token aus. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert. |
Length |
Entfernt die Wörter, die zu lang oder zu kurz sind. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert. |
Lexical |
Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden. |
Lexical |
Definiert die Namen aller Von der Suchmaschine unterstützten Textnormalisierer. |
Lexical |
Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden. |
Limit |
Beschränkt die Anzahl der Token während der Indizierung. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert. |
Lucene |
Apache Lucene-Standardanalyse; Besteht aus dem Standardtokenizer, Kleinbuchstabenfilter und Stoppfilter. |
Lucene |
Teilt Text gemäß den Regeln für Unicode-Textsegmentierung auf. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert. |
Lucene |
Teilt Text gemäß den Regeln für Unicode-Textsegmentierung auf. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert. |
Magnitude |
Definiert eine Funktion, die die Bewertungen basierend auf der Größe eines numerischen Felds erhöht. |
Magnitude |
Stellt Parameterwerte für eine Magnitudenbewertungsfunktion bereit. |
Mapping |
Ein Zeichenfilter, der zuordnungsdefinierte Zuordnungen anwendet, die mit der Zuordnungsoption definiert sind. Der Abgleich ist umfangreich (der längste Musterabgleich an einem bestimmten Punkt wird verwendet). Eine Ersetzung kann eine leere Zeichenfolge sein. Dieser Zeichenfilter wird mit Apache Lucene implementiert. |
Microsoft |
Teilt Text nach sprachspezifischen Regeln auf und reduziert Wörter auf deren Grundformen. |
Microsoft |
Teilt Text mit sprachspezifische Regeln auf. |
Microsoft |
Listen die Sprachen, die vom Microsoft Language Stemming-Tokenizer unterstützt werden. |
Microsoft |
Listen die Sprachen, die vom Microsoft-Sprachtokenizer unterstützt werden. |
NGram |
Generiert N-Gramme einer festgelegten Größe. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert. |
NGram |
Generiert N-Gramme einer festgelegten Größe. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert. |
NGram |
Tokenisiert die Eingabe in N-Gramme einer festgelegten Größe. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert. |
Path |
Tokenizer für pfadähnliche Hierarchien. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert. |
Pattern |
Trennt Text flexibel über ein reguläres Ausdrucksmuster in Begriffe. Dieses Analysetool wird mit Apache Lucene implementiert. |
Pattern |
Verwendet Java-Regexes zum Ausgeben mehrerer Token – eines für jede Erfassungsgruppe in einem oder mehreren Mustern. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert. |
Pattern |
Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Er verwendet einen regulären Ausdruck, um zu erhaltende Zeichenfolgen zu identifizieren, und ein Ersatzmuster, um zu ersetzende Zeichen zu identifizieren. Angesichts des Eingabetexts "aa bb aa bb", des Musters "(aa)\s+(bb)" und des Ersatzes "$1#$2" wäre das Ergebnis beispielsweise "aa#bb aa#bb". Dieser Zeichenfilter wird mit Apache Lucene implementiert. |
Pattern |
Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Er verwendet einen regulären Ausdruck, um zu erhaltende Zeichenfolgen zu identifizieren, und ein Ersatzmuster, um zu ersetzende Zeichen zu identifizieren. Wenn sie beispielsweise den Eingabetext "aa bb aa bb", das Muster "(aa)\s+(bb)" und den Ersatz "$1#$2" verwenden, würde das Ergebnis "aa#bb aa#bb". Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert. |
Pattern |
Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert. |
Phonetic |
Gibt den Typ des phonetischen Encoders an, der mit einem PhoneticTokenFilter verwendet werden soll. |
Phonetic |
Erstellt Token für phonetische Übereinstimmungen. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert. |
Prioritized |
Beschreibt die Felder Titel, Inhalt und Schlüsselwörter, die für semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen. |
Regex |
Definiert Flags, die kombiniert werden können, um zu steuern, wie reguläre Ausdrücke im Musteranalyse- und Mustertokenprogramm verwendet werden. |
Scoring |
Definiert die Aggregationsfunktion, die verwendet wird, um die Ergebnisse aller Bewertungsfunktionen in einem Bewertungsprofil zu kombinieren. |
Scoring |
Definiert die Funktion, die zum Interpolieren der Bewertungsverhebung für eine Reihe von Dokumenten verwendet wird. |
Scoring |
Definiert Parameter für einen Suchindex, die die Bewertung in Suchabfragen beeinflussen. |
Search |
Beschreibt eine Fehlerbedingung für die API. |
Search |
Stellt ein Feld in einer Indexdefinition dar, das den Namen, den Datentyp und das Suchverhalten eines Felds beschreibt. |
Search |
Definiert den Datentyp eines Felds in einem Suchindex. |
Search |
Stellt eine Suchindexdefinition dar, die die Felder und das Suchverhalten eines Indexes beschreibt. |
Search |
Löscht die Identitätseigenschaft einer Datenquelle. |
Search |
Gibt die Identität für eine zu verwendende Datenquelle an. |
Search |
Ein kundenseitig verwalteter Verschlüsselungsschlüssel in Azure Key Vault. Schlüssel, die Sie erstellen und verwalten, können zum Verschlüsseln oder Entschlüsseln ruhender Daten verwendet werden, z. B. Indizes und Synonymzuordnungen. |
Semantic |
Definiert eine bestimmte Konfiguration, die im Kontext semantischer Funktionen verwendet werden soll. |
Semantic |
Ein Feld, das als Teil der semantischen Konfiguration verwendet wird. |
Semantic |
Definiert Parameter für einen Suchindex, die semantische Funktionen beeinflussen. |
Shingle |
Kombiniert Token zu einem einzelnen Token. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Snowball |
Ein Filter, der Wörter mithilfe eines von Snowball generierten Stemmers vorgibt. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Snowball |
Die Sprache, die für einen Snowball-Tokenfilter verwendet werden soll. |
Stemmer |
Bietet die Möglichkeit, andere Stemmingfilter mit benutzerwörterbuchbasiertem Stemming zu überschreiben. Alle wörterstammigen Begriffe werden als Schlüsselwörter markiert, sodass sie nicht mit Stemmeren in der Kette eingestammt werden. Muss vor dem Filter für die Wortstammerkennung platziert werden. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Stemmer |
Sprachspezifischer Stammfilter. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Stemmer |
Die Sprache, die für einen Stemmertokenfilter verwendet werden soll. |
Stop |
Dividiert Text nicht in Buchstaben; Wendet die Kleinbuchstaben- und Stoppworttokenfilter an. Dieses Analysetool wird mit Apache Lucene implementiert. |
Stopwords |
Identifiziert eine vordefinierte Liste sprachspezifischer Stoppwörter. |
Stopwords |
Entfernt Stoppwörter aus einem Tokenstream. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Suggester |
Definiert, wie die Vorschlags-API auf eine Gruppe von Feldern im Index angewendet werden soll. |
Suggester |
Ein Wert, der die Funktionen des Vorschlags angibt. |
Synonym |
Entspricht Synonymen mit einzelnen oder mehreren Wörtern in einem Tokenstream. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Tag |
Definiert eine Funktion, die die Bewertungen von Dokumenten mit Zeichenfolgenwerten erhöht, die einer angegebenen Liste von Tags entsprechen. |
Tag |
Stellt Parameterwerte für eine Tagbewertungsfunktion bereit. |
Text |
Definiert Gewichtungen für Indexfelder, für die Übereinstimmungen die Bewertung in Suchabfragen erhöhen sollen. |
Token |
Stellt Klassen von Zeichen dar, für die ein Tokenfilter verwendet werden kann. |
Token |
Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden. |
Truncate |
Schneidet die Begriffe auf eine bestimmte Länge ab. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Uax |
Tokenisiert URLs und E-Mails als ein Token. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert. |
Unique |
Filtert Token mit dem gleichen Text wie das vorherige Token heraus. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Vector |
Enthält Konfigurationsoptionen im Zusammenhang mit der Vektorsuche. |
Vector |
Der Algorithmus, der für die Indizierung und Abfrage verwendet wird. |
Vector |
Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll. |
Vector |
Definiert eine Kombination von Konfigurationen, die mit der Vektorsuche verwendet werden sollen. |
Vector |
Die Vektorisierungsmethode, die während der Abfragezeit verwendet werden soll. |
Word |
Unterteilt Wörter in Teilwörter und führt optionale Transformationen in Teilwortgruppen durch. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
AsciiFoldingTokenFilter
Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, wenn solche Entsprechungen vorhanden sind. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
preserveOriginal |
boolean |
False |
Ein Wert, der angibt, ob das ursprüngliche Token beibehalten wird. Der Standardwert ist "false". |
AzureActiveDirectoryApplicationCredentials
Anmeldeinformationen einer registrierten Anwendung, die für Ihren Suchdienst erstellt wurde und für den authentifizierten Zugriff auf die in Azure Key Vault gespeicherten Verschlüsselungsschlüssel verwendet wird.
Name | Typ | Beschreibung |
---|---|---|
applicationId |
string |
Eine AAD-Anwendungs-ID, der die erforderlichen Zugriffsberechtigungen für die Azure-Key Vault erteilt wurden, die beim Verschlüsseln ruhender Daten verwendet werden sollen. Die Anwendungs-ID sollte nicht mit der Objekt-ID für Ihre AAD-Anwendung verwechselt werden. |
applicationSecret |
string |
Der Authentifizierungsschlüssel der angegebenen AAD-Anwendung. |
AzureOpenAIParameters
Gibt die Parameter für die Verbindung mit der Azure OpenAI-Ressource an.
Name | Typ | Beschreibung |
---|---|---|
apiKey |
string |
API-Schlüssel der angegebenen Azure OpenAI-Ressource. |
authIdentity | SearchIndexerDataIdentity: |
Die benutzerseitig zugewiesene verwaltete Identität, die für ausgehende Verbindungen verwendet wird. |
deploymentId |
string |
ID der Azure OpenAI-Modellbereitstellung für die angegebene Ressource. |
resourceUri |
string |
Der Ressourcen-URI der Azure OpenAI-Ressource. |
AzureOpenAIVectorizer
Gibt die Azure OpenAI-Ressource an, die zum Vektorisieren einer Abfragezeichenfolge verwendet wird.
Name | Typ | Beschreibung |
---|---|---|
azureOpenAIParameters |
Enthält die spezifischen Parameter für die Azure OpenAI-Einbettungsvektorisierung. |
|
kind |
string:
azure |
Der Name der Art der Vektorisierungsmethode, die für die Verwendung mit der Vektorsuche konfiguriert wird. |
name |
string |
Der Name, der dieser bestimmten Vektorisierungsmethode zugeordnet werden soll. |
BM25Similarity
Rangfolgefunktion basierend auf dem Okapi BM25-Ähnlichkeitsalgorithmus. BM25 ist ein TF-IDF-ähnlicher Algorithmus, der die Längennormalisierung (gesteuert durch den Parameter "b") sowie die Begriffsfrequenzsättigung (gesteuert durch den Parameter "k1") umfasst.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Diese Eigenschaft steuert, wie sich die Länge eines Dokuments auf die Relevanzbewertung auswirkt. Standardmäßig wird der Wert 0,75 verwendet. Ein Wert von 0,0 bedeutet, dass keine Längennormalisierung angewendet wird, während der Wert 1,0 bedeutet, dass die Bewertung vollständig durch die Länge des Dokuments normalisiert wird. |
k1 |
number |
Diese Eigenschaft steuert die Skalierungsfunktion zwischen der Begriffshäufigkeit der einzelnen übereinstimmenden Begriffe und der endgültigen Relevanzbewertung eines Dokument-Abfrage-Paars. Standardmäßig wird der Wert 1,2 verwendet. Ein Wert von 0,0 bedeutet, dass die Bewertung nicht mit einer Erhöhung der Laufzeithäufigkeit skaliert wird. |
CharFilterName
Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
html_strip |
string |
Ein Zeichenfilter, der versucht, HTML-Konstrukte zu entfernen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html. |
CjkBigramTokenFilter
Bildet Bigrams von CJK-Begriffen, die aus dem Standardtokenizer generiert werden. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
ignoreScripts |
Die zu ignorierenden Skripts. |
||
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
outputUnigrams |
boolean |
False |
Ein Wert, der angibt, ob sowohl Unigramme als auch Bigrams (wenn true) oder nur Bigrams (wenn false) ausgegeben werden sollen. Der Standardwert ist "false". |
CjkBigramTokenFilterScripts
Skripts, die von CjkBigramTokenFilter ignoriert werden können.
Name | Typ | Beschreibung |
---|---|---|
han |
string |
Ignorieren Sie das Han-Skript beim Erstellen von Bigrams von CJK-Begriffen. |
hangul |
string |
Ignorieren Sie Das Hangul-Skript beim Erstellen von Bigrams von CJK-Begriffen. |
hiragana |
string |
Ignorieren Sie das Hiragana-Skript beim Erstellen von Bigrams von CJK-Begriffen. |
katakana |
string |
Ignorieren Sie das Katakana-Skript beim Erstellen von Bigrams von CJK-Begriffen. |
ClassicSimilarity
Legacy-Ähnlichkeitsalgorithmus, der die Lucene TFIDFSimilarity-Implementierung von TF-IDF verwendet. Diese Variante von TF-IDF führt eine Normalisierung der statischen Dokumentlänge ein sowie koordinierende Faktoren, die Dokumente bestrafen, die nur teilweise mit den durchsuchten Abfragen übereinstimmen.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Grammatikbasiertes Tokenizer, das sich für die Verarbeitung der meisten dokumente in europäischer Sprache eignet. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
maxTokenLength |
integer |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die die maximale Länge überschreiten, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
CommonGramTokenFilter
Konstruiert Bigramme für häufig vorkommende Begriffe während der Indexierung. Einzelne Begriffe werden ebenfalls indexiert und mit Bigrammen überlagert. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
commonWords |
string[] |
Der Satz allgemeiner Wörter. |
|
ignoreCase |
boolean |
False |
Ein Wert, der angibt, ob bei allgemeinen Wörtern die Groß-/Kleinschreibung nicht beachtet wird. Der Standardwert ist "false". |
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
queryMode |
boolean |
False |
Ein Wert, der angibt, ob sich der Tokenfilter im Abfragemodus befindet. Im Abfragemodus generiert der Tokenfilter Bigrams und entfernt dann allgemeine Wörter und einzelne Begriffe, gefolgt von einem gemeinsamen Wort. Der Standardwert ist "false". |
CorsOptions
Definiert Optionen zum Steuern der ressourcenübergreifenden Ressourcenfreigabe (Cross-Origin Resource Sharing, CORS) für einen Index.
Name | Typ | Beschreibung |
---|---|---|
allowedOrigins |
string[] |
Die Liste der Ursprünge, aus denen JavaScript-Code Zugriff auf Ihren Index erhält. Kann eine Liste von Hosts im Format {protocol}://{fully-qualified-domain-name}[:{port#}] oder ein einzelnes "*" enthalten, um alle Ursprünge zuzulassen (nicht empfohlen). |
maxAgeInSeconds |
integer |
Die Dauer, für die Browser CORS-Preflightantworten zwischenspeichern sollen. Der Standardwert ist 5 Minuten. |
CustomAnalyzer
Ermöglicht Es Ihnen, die Kontrolle über den Prozess der Konvertierung von Text in indizierbare/durchsuchbare Token zu übernehmen. Es handelt sich um eine benutzerdefinierte Konfiguration, die aus einem einzelnen vordefinierten Tokenizer und einem oder mehreren Filtern besteht. Der Tokenizer ist für das Aufteilen von Text in Token und die Filter zum Ändern von Token verantwortlich, die vom Tokenizer ausgegeben werden.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Analysetools angibt. |
charFilters |
Eine Liste von Zeichenfiltern, die zum Vorbereiten von Eingabetext verwendet werden, bevor er vom Tokenizer verarbeitet wird. Beispielsweise kann er bestimmte Zeichen oder Symbole ersetzen. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet sind. |
|
name |
string |
Der Name des Analysetools. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
tokenFilters |
Eine Liste von Tokenfiltern, die zum Herausfiltern oder Ändern der von einem Tokenizer generierten Token verwendet werden. Sie können beispielsweise einen Filter für Kleinbuchstaben angeben, mit dem alle Zeichen in Kleinbuchstaben konvertiert werden. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet sind. |
|
tokenizer |
Der Name des Tokenizers, der verwendet werden soll, um fortlaufenden Text in eine Sequenz von Token zu unterteilen, z. B. einen Satz in Wörter aufzuteilen. |
CustomNormalizer
Ermöglicht Ihnen das Konfigurieren der Normalisierung für filterbare, sortierbare und facetable-Felder, die standardmäßig mit strikter Übereinstimmung arbeiten. Dies ist eine benutzerdefinierte Konfiguration, die aus mindestens einem Filter besteht, der das gespeicherte Token ändert.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Normalisierers angibt. |
charFilters |
Eine Liste von Zeichenfiltern, die zum Vorbereiten von Eingabetext verwendet werden, bevor er verarbeitet wird. Beispielsweise kann er bestimmte Zeichen oder Symbole ersetzen. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet sind. |
|
name |
string |
Der Name des Normalisierers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. Sie kann nicht auf ".microsoft" oder ".lucene" enden oder "asciifolding", "standard", "lowercase", "uppercase" oder "elision" heißen. |
tokenFilters |
Eine Liste von Tokenfiltern, die zum Herausfiltern oder Ändern des Eingabetokens verwendet werden. Sie können beispielsweise einen Filter für Kleinbuchstaben angeben, mit dem alle Zeichen in Kleinbuchstaben konvertiert werden. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet sind. |
CustomVectorizer
Gibt einen benutzerdefinierten Vektorisierer zum Generieren der Vektoreinbettung einer Abfragezeichenfolge an. Die Integration eines externen Vektorisierers erfolgt über die benutzerdefinierte Web-API-Schnittstelle eines Skillsets.
Name | Typ | Beschreibung |
---|---|---|
customWebApiParameters |
Gibt die Eigenschaften des benutzerdefinierten Vektorisierers an. |
|
kind |
string:
custom |
Der Name der Art der Vektorisierungsmethode, die für die Verwendung mit der Vektorsuche konfiguriert wird. |
name |
string |
Der Name, der dieser bestimmten Vektorisierungsmethode zugeordnet werden soll. |
CustomWebApiParameters
Gibt die Eigenschaften für die Verbindung mit einem benutzerdefinierten Vektorisierer an.
Name | Typ | Beschreibung |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
Die benutzerseitig zugewiesene verwaltete Identität, die für ausgehende Verbindungen verwendet wird. Wenn eine authResourceId angegeben und nicht angegeben wird, wird die vom System zugewiesene verwaltete Identität verwendet. Wenn die Identität bei Aktualisierungen des Indexers nicht angegeben ist, bleibt der Wert unverändert. Wenn auf "none" festgelegt ist, wird der Wert dieser Eigenschaft gelöscht. |
authResourceId |
string |
Gilt für benutzerdefinierte Endpunkte, die eine Verbindung mit externem Code in einer Azure-Funktion oder einer anderen Anwendung herstellen, die die Transformationen bereitstellt. Dieser Wert sollte die Anwendungs-ID sein, die für die Funktion oder App erstellt wurde, als sie bei Azure Active Directory registriert wurde. Wenn angegeben, stellt die Vektorisierung eine Verbindung mit der Funktion oder App mithilfe einer verwalteten ID (entweder systemseitig oder benutzerseitig zugewiesen) des Suchdiensts und dem Zugriffstoken der Funktion oder App her, wobei dieser Wert als Ressourcen-ID zum Erstellen des Bereichs des Zugriffstokens verwendet wird. |
httpHeaders |
object |
Die Header, die für die HTTP-Anforderung erforderlich sind. |
httpMethod |
string |
Die Methode für die HTTP-Anforderung. |
timeout |
string |
Das gewünschte Timeout für die Anforderung. Der Standardwert ist „30 Sekunden“. |
uri |
string |
Der URI der Web-API, die den Vektorisierer bereitstellt. |
DictionaryDecompounderTokenFilter
Zerlegt zusammengesetzte Wörter, die in vielen germanischen Sprachen vorkommen. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
maxSubwordSize |
integer |
15 |
Die maximale Unterwortgröße. Es werden nur Unterwörter ausgegeben, die kürzer sind. Der Standardwert ist 15. Maximum ist 300. |
minSubwordSize |
integer |
2 |
Die minimale Unterwortgröße. Es werden nur Unterwörter ausgegeben, die länger sind. Standard ist 2. Maximum ist 300. |
minWordSize |
integer |
5 |
Die minimale Wortgröße. Nur Wörter, die länger als diese sind, werden verarbeitet. Der Standardwert ist 5. Maximum ist 300. |
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
onlyLongestMatch |
boolean |
False |
Ein Wert, der angibt, ob der Ausgabe nur das längste übereinstimmende Unterwort hinzugefügt werden soll. Der Standardwert ist "false". |
wordList |
string[] |
Die Liste der Wörter, mit der abgeglichen werden soll. |
DistanceScoringFunction
Definiert eine Funktion, die die Bewertungen basierend auf der Entfernung von einem geografischen Standort erhöht.
Name | Typ | Beschreibung |
---|---|---|
boost |
number |
Ein Multiplikator für die Rohbewertung. Muss eine positive Zahl sein, die nicht gleich 1,0 ist. |
distance |
Parameterwerte für die Entfernungsbewertungsfunktion. |
|
fieldName |
string |
Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird. |
interpolation |
Ein Wert, der angibt, wie die Verstärkung über Dokumentbewertungen hinweg interpoliert wird; wird standardmäßig auf "Linear" festgelegt. |
|
type |
string:
distance |
Gibt den Typ der zu verwendenden Funktion an. Gültige Werte sind „magnitude“, „freshness“, „distance“ und „tag“. Der Funktionstyp muss klein geschrieben werden. |
DistanceScoringParameters
Stellt Parameterwerte für eine Entfernungsbewertungsfunktion bereit.
Name | Typ | Beschreibung |
---|---|---|
boostingDistance |
number |
Die Entfernung in Kilometern vom Referenzstandort, an dem die Verstärkungsreichweite endet. |
referencePointParameter |
string |
Der Name des Parameters, der in Suchabfragen übergeben wird, um den Verweisspeicherort anzugeben. |
EdgeNGramTokenFilter
Generiert n Gramm der angegebenen Größe(en) ausgehend von der Vorder- oder Rückseite eines Eingabetokens. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
maxGram |
integer |
2 |
Die maximale Länge von n Gramm. Standard ist 2. |
minGram |
integer |
1 |
Die Mindestlänge von n-Gramm. Der Standardwert ist 1. Muss kleiner als der Wert von maxGram sein. |
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
side | front |
Gibt an, von welcher Seite der Eingabe das n-Gramm generiert werden soll. Der Standardwert ist "front". |
EdgeNGramTokenFilterSide
Gibt an, von welcher Seite der Eingabe ein n-Gramm generiert werden soll.
Name | Typ | Beschreibung |
---|---|---|
back |
string |
Gibt an, dass das n-Gramm von der Rückseite der Eingabe generiert werden soll. |
front |
string |
Gibt an, dass das n-Gramm an der Vorderseite der Eingabe generiert werden soll. |
EdgeNGramTokenFilterV2
Generiert n Gramm der angegebenen Größe(en) ausgehend von der Vorder- oder Rückseite eines Eingabetokens. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
maxGram |
integer |
2 |
Die maximale Länge von n Gramm. Standard ist 2. Maximum ist 300. |
minGram |
integer |
1 |
Die Mindestlänge von n-Gramm. Der Standardwert ist 1. Maximum ist 300. Muss kleiner als der Wert von maxGram sein. |
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
side | front |
Gibt an, von welcher Seite der Eingabe das n-Gramm generiert werden soll. Der Standardwert ist "front". |
EdgeNGramTokenizer
Tokenisiert die Eingabe von einer Kante in n Gramm der angegebenen Größe(n). Dieser Tokenizer wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
maxGram |
integer |
2 |
Die maximale Länge von n Gramm. Standard ist 2. Der Höchstwert ist 300. |
minGram |
integer |
1 |
Die mindeste n-Gramm-Länge. Der Standardwert ist 1. Der Höchstwert ist 300. Muss kleiner als der Wert von maxGram sein. |
name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
tokenChars |
Zeichenklassen, die in den Token beibehalten werden sollen. |
ElisionTokenFilter
Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
articles |
string[] |
Die Gruppe der zu entfernenden Artikel. |
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
ExhaustiveKnnParameters
Enthält die Parameter, die für den vollständigen KNN-Algorithmus spezifisch sind.
Name | Typ | Beschreibung |
---|---|---|
metric |
Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Enthält Konfigurationsoptionen, die für den vollständigen KNN-Algorithmus spezifisch sind, der während der Abfrage verwendet wird, der brute-force-Suche für den gesamten Vektorindex ausführt.
Name | Typ | Beschreibung |
---|---|---|
exhaustiveKnnParameters |
Enthält die Parameter, die für den vollständigen KNN-Algorithmus spezifisch sind. |
|
kind |
string:
exhaustive |
Der Name des Algorithmustyps, der für die Verwendung mit der Vektorsuche konfiguriert wird. |
name |
string |
Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll. |
FreshnessScoringFunction
Definiert eine Funktion, die die Bewertungen basierend auf dem Wert eines Datums-Uhrzeit-Felds erhöht.
Name | Typ | Beschreibung |
---|---|---|
boost |
number |
Ein Multiplikator für die Rohbewertung. Muss eine positive Zahl sein, die nicht gleich 1,0 ist. |
fieldName |
string |
Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird. |
freshness |
Parameterwerte für die Freshness-Bewertungsfunktion. |
|
interpolation |
Ein Wert, der angibt, wie die Verstärkung über Dokumentbewertungen hinweg interpoliert wird; wird standardmäßig auf "Linear" festgelegt. |
|
type |
string:
freshness |
Gibt den Typ der zu verwendenden Funktion an. Gültige Werte sind „magnitude“, „freshness“, „distance“ und „tag“. Der Funktionstyp muss klein geschrieben werden. |
FreshnessScoringParameters
Stellt Parameterwerte für eine Frischebewertungsfunktion bereit.
Name | Typ | Beschreibung |
---|---|---|
boostingDuration |
string |
Der Ablaufzeitraum, nach dem das Boosten für ein bestimmtes Dokument beendet wird. |
HnswParameters
Enthält die spezifischen Parameter für den HNSW-Algorithmus.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
efConstruction |
integer |
400 |
Die Größe der dynamischen Liste mit den nächsten Nachbarn, die während der Indexzeit verwendet wird. Das Erhöhen dieses Parameters kann die Indexqualität auf Kosten einer erhöhten Indizierungszeit verbessern. Ab einem bestimmten Punkt führt das Erhöhen dieses Parameters zu weniger Rückgaben. |
efSearch |
integer |
500 |
Die Größe der dynamischen Liste mit den nächsten Nachbarn, die während der Suchzeit verwendet wird. Das Erhöhen dieses Parameters kann die Suchergebnisse verbessern, was zu Lasten der langsameren Suche geht. Ab einem bestimmten Punkt führt das Erhöhen dieses Parameters zu weniger Rückgaben. |
m |
integer |
4 |
Die Anzahl bidirektionaler Verknüpfungen, die während des Aufbaus für jedes neue Element erstellt werden. Das Erhöhen dieses Parameterwerts kann den Rückruf verbessern und die Abrufzeiten für Datasets mit hoher intrinsischer Dimensionalität reduzieren, was zu Lasten eines erhöhten Arbeitsspeicherverbrauchs und einer längeren Indizierungszeit führen kann. |
metric |
Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll. |
HnswVectorSearchAlgorithmConfiguration
Enthält Konfigurationsoptionen, die für den HNSW-Algorithmus mit näheren Nachbarn spezifisch sind, der während der Indizierung und Abfrage verwendet wird. Der HNSW-Algorithmus bietet einen abstimmbaren Kompromiss zwischen Suchgeschwindigkeit und Genauigkeit.
Name | Typ | Beschreibung |
---|---|---|
hnswParameters |
Enthält die spezifischen Parameter für den HNSW-Algorithmus. |
|
kind |
string:
hnsw |
Der Name des Algorithmustyps, der für die Verwendung mit der Vektorsuche konfiguriert wird. |
name |
string |
Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll. |
KeepTokenFilter
Ein Tokenfilter, der nur Token mit Text in einer angegebenen Liste von Wörtern speichert. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
keepWords |
string[] |
Die Liste der wörter, die beibehalten werden sollen. |
|
keepWordsCase |
boolean |
False |
Ein Wert, der angibt, ob alle Wörter zuerst kleingeschrieben werden sollen. Der Standardwert ist "false". |
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
KeywordMarkerTokenFilter
Begriffe werden als Schlüsselwörter gekennzeichnet. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
ignoreCase |
boolean |
False |
Ein Wert, der angibt, ob die Groß- und Kleinschreibung ignoriert werden soll. Wenn true, werden alle Wörter zuerst in Kleinbuchstaben konvertiert. Der Standardwert ist "false". |
keywords |
string[] |
Eine Liste von Wörtern, die als Schlüsselwörter gekennzeichnet werden sollen. |
|
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
KeywordTokenizer
Gibt die gesamte Eingabe als ein einzelnes Token aus. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
bufferSize |
integer |
256 |
Die Lesepuffergröße in Byte. Der Standardwert ist 256. |
name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
KeywordTokenizerV2
Gibt die gesamte Eingabe als ein einzelnes Token aus. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
maxTokenLength |
integer |
256 |
Die maximale Tokenlänge. Der Standardwert ist 256. Token, die die maximale Länge überschreiten, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
LengthTokenFilter
Entfernt die Wörter, die zu lang oder zu kurz sind. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
max |
integer |
300 |
Die maximale Länge in Zeichen. Standard und Maximum ist 300. |
min |
integer |
0 |
Die Mindestlänge in Zeichen. Standard ist "0". Maximum ist 300. Muss kleiner als der Wert von max sein. |
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
LexicalAnalyzerName
Definiert die Namen aller Textanalysetools, die von der Suchmaschine unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
ar.lucene |
string |
Lucene-Analysetool für Arabisch. |
ar.microsoft |
string |
Microsoft Analyzer für Arabisch. |
bg.lucene |
string |
Lucene Analysetool für Bulgarisch. |
bg.microsoft |
string |
Microsoft Analyzer für Bulgarisch. |
bn.microsoft |
string |
Microsoft Analyzer für Bangla. |
ca.lucene |
string |
Lucene Analyzer für Katalanisch. |
ca.microsoft |
string |
Microsoft Analyzer für Katalanisch. |
cs.lucene |
string |
Lucene Analysetool für Tschechisch. |
cs.microsoft |
string |
Microsoft-Analysetool für Tschechisch. |
da.lucene |
string |
Lucene-Analysetool für Dänisch. |
da.microsoft |
string |
Microsoft-Analysetool für Dänisch. |
de.lucene |
string |
Lucene Analysetool für Deutsch. |
de.microsoft |
string |
Microsoft Analyzer für Deutsch. |
el.lucene |
string |
Lucene-Analysetool für Griechisch. |
el.microsoft |
string |
Microsoft-Analysetool für Griechisch. |
en.lucene |
string |
Lucene Analyzer für Englisch. |
en.microsoft |
string |
Microsoft Analyzer für Englisch. |
es.lucene |
string |
Lucene Analyzer für Spanisch. |
es.microsoft |
string |
Microsoft Analyzer für Spanisch. |
et.microsoft |
string |
Microsoft-Analysetool für Estnisch. |
eu.lucene |
string |
Lucene Analysetool für Baskisch. |
fa.lucene |
string |
Lucene Analyzer für Persisch. |
fi.lucene |
string |
Lucene-Analysetool für Finnisch. |
fi.microsoft |
string |
Microsoft-Analysetool für Finnisch. |
fr.lucene |
string |
Lucene-Analysetool für Französisch. |
fr.microsoft |
string |
Microsoft Analyzer für Französisch. |
ga.lucene |
string |
Lucene Analysetool für Irisch. |
gl.lucene |
string |
Lucene-Analysetool für Galizisch. |
gu.microsoft |
string |
Microsoft Analyzer für Gujarati. |
he.microsoft |
string |
Microsoft-Analysetool für Hebräisch. |
hi.lucene |
string |
Lucene-Analysetool für Hindi. |
hi.microsoft |
string |
Microsoft-Analysetool für Hindi. |
hr.microsoft |
string |
Microsoft Analyzer für Kroatisch. |
hu.lucene |
string |
Lucene Analysetool für Ungarisch. |
hu.microsoft |
string |
Microsoft Analyzer für Ungarisch. |
hy.lucene |
string |
Lucene Analysetool für Armenisch. |
id.lucene |
string |
Lucene-Analysetool für Indonesisch. |
id.microsoft |
string |
Microsoft-Analysetool für Indonesisch (Bahasa). |
is.microsoft |
string |
Microsoft-Analysetool für Isländisch. |
it.lucene |
string |
Lucene Analysetool für Italienisch. |
it.microsoft |
string |
Microsoft Analyzer für Italienisch. |
ja.lucene |
string |
Lucene-Analysetool für Japanisch. |
ja.microsoft |
string |
Microsoft Analyzer für Japanisch. |
keyword |
string |
Behandelt den gesamten Inhalt eines Felds als ein einzelnes Token. Dies ist nützlich für Daten wie Postleitzahlen, IDs und einige Produktnamen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html. |
kn.microsoft |
string |
Microsoft-Analysetool für Kannada. |
ko.lucene |
string |
Lucene Analyzer für Koreanisch. |
ko.microsoft |
string |
Microsoft Analyzer für Koreanisch. |
lt.microsoft |
string |
Microsoft-Analysetool für Litauisch. |
lv.lucene |
string |
Lucene Analysetool für Lettisch. |
lv.microsoft |
string |
Microsoft Analyzer für Lettisch. |
ml.microsoft |
string |
Microsoft Analyzer für Malayalam. |
mr.microsoft |
string |
Microsoft Analyzer für Marathi. |
ms.microsoft |
string |
Microsoft Analyzer für Malaiisch (Lateinisch). |
nb.microsoft |
string |
Microsoft Analyzer für Norwegisch (Bokmål). |
nl.lucene |
string |
Lucene Analysetool für Niederländisch. |
nl.microsoft |
string |
Microsoft Analyzer für Niederländisch. |
no.lucene |
string |
Lucene Analyzer für Norwegisch. |
pa.microsoft |
string |
Microsoft Analyzer für Punjabi. |
pattern |
string |
Trennt Text flexibel über ein reguläres Ausdrucksmuster in Begriffe. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html. |
pl.lucene |
string |
Lucene Analyzer für Polnisch. |
pl.microsoft |
string |
Microsoft Analyzer für Polnisch. |
pt-BR.lucene |
string |
Lucene Analyzer für Portugiesisch (Brasilien). |
pt-BR.microsoft |
string |
Microsoft Analyzer für Portugiesisch (Brasilien). |
pt-PT.lucene |
string |
Lucene Analyzer für Portugiesisch (Portugal). |
pt-PT.microsoft |
string |
Microsoft Analyzer für Portugiesisch (Portugal). |
ro.lucene |
string |
Lucene Analyzer für Rumänisch. |
ro.microsoft |
string |
Microsoft Analyzer für Rumänisch. |
ru.lucene |
string |
Lucene Analyzer für Russisch. |
ru.microsoft |
string |
Microsoft Analyzer für Russisch. |
simple |
string |
Teilt Text an Nicht-Buchstaben und konvertiert ihn in Kleinbuchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html. |
sk.microsoft |
string |
Microsoft Analyzer für Slowakisch. |
sl.microsoft |
string |
Microsoft Analyzer für Slowenisch. |
sr-cyrillic.microsoft |
string |
Microsoft Analyzer für Serbisch (Kyrillisch). |
sr-latin.microsoft |
string |
Microsoft Analyzer für Serbisch (Lateinisch). |
standard.lucene |
string |
Standard-Lucene-Analysegerät. |
standardasciifolding.lucene |
string |
Standard ASCII Folding Lucene Analyzer. Siehe https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers. |
stop |
string |
Unterteilt Text in Nicht-Buchstaben; Wendet die Kleinbuchstaben- und Stoppworttokenfilter an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html. |
sv.lucene |
string |
Lucene Analyzer für Schwedisch. |
sv.microsoft |
string |
Microsoft Analyzer für Schwedisch. |
ta.microsoft |
string |
Microsoft Analyzer für Tamil. |
te.microsoft |
string |
Microsoft Analyzer für Telugu. |
th.lucene |
string |
Lucene Analyzer für Thai. |
th.microsoft |
string |
Microsoft Analyzer für Thai. |
tr.lucene |
string |
Lucene Analyzer für Türkisch. |
tr.microsoft |
string |
Microsoft Analyzer für Türkisch. |
uk.microsoft |
string |
Microsoft Analyzer für Ukrainisch. |
ur.microsoft |
string |
Microsoft Analyzer für Urdu. |
vi.microsoft |
string |
Microsoft Analyzer für Vietnamesisch. |
whitespace |
string |
Ein Analysetool, das den Whitespace-Tokenizer verwendet. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html. |
zh-Hans.lucene |
string |
Lucene-Analysetool für Chinesisch (vereinfacht). |
zh-Hans.microsoft |
string |
Microsoft Analyzer für Chinesisch (vereinfacht). |
zh-Hant.lucene |
string |
Lucene-Analysetool für Chinesisch (traditionell). |
zh-Hant.microsoft |
string |
Microsoft-Analysetool für Chinesisch (traditionell). |
LexicalNormalizerName
Definiert die Namen aller Von der Suchmaschine unterstützten Textnormalisierer.
Name | Typ | Beschreibung |
---|---|---|
asciifolding |
string |
Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, wenn solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html. |
elision |
string |
Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html. |
lowercase |
string |
Normalisiert Tokentext in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html. |
standard |
string |
Standardnormalisierer, der aus Kleinbuchstaben und Asciifolding besteht. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html. |
uppercase |
string |
Normalisiert Tokentext in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html. |
LexicalTokenizerName
Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
classic |
string |
Grammatikbasiertes Tokenizer, das sich für die Verarbeitung der meisten dokumente in europäischer Sprache eignet. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html. |
edgeNGram |
string |
Tokenisiert die Eingabe von einer Kante in n Gramm der angegebenen Größe(n). Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html. |
keyword_v2 |
string |
Gibt die gesamte Eingabe als ein einzelnes Token aus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html. |
letter |
string |
Teilt Text in nicht-Buchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html. |
lowercase |
string |
Teilt Text an Nicht-Buchstaben und konvertiert ihn in Kleinbuchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html. |
microsoft_language_stemming_tokenizer |
string |
Teilt Text nach sprachspezifischen Regeln auf und reduziert Wörter auf deren Grundformen. |
microsoft_language_tokenizer |
string |
Teilt Text mit sprachspezifische Regeln auf. |
nGram |
string |
Tokenisiert die Eingabe in N-Gramme einer festgelegten Größe. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html. |
path_hierarchy_v2 |
string |
Tokenizer für pfadähnliche Hierarchien. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html. |
pattern |
string |
Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html. |
standard_v2 |
string |
Standard-Lucene-Analysetool; Besteht aus dem Standardtokenizer, dem Kleinbuchstabenfilter und dem Stoppfilter. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html. |
uax_url_email |
string |
Tokenisiert URLs und E-Mails als ein Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html. |
whitespace |
string |
Teilt Text an den Leerzeichen auf. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html. |
LimitTokenFilter
Beschränkt die Anzahl der Token während der Indizierung. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
consumeAllTokens |
boolean |
False |
Ein Wert, der angibt, ob alle Token aus der Eingabe verwendet werden müssen, auch wenn maxTokenCount erreicht ist. Der Standardwert ist "false". |
maxTokenCount |
integer |
1 |
Die maximale Anzahl der zu erzeugenden Token. Der Standardwert ist 1. |
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
LuceneStandardAnalyzer
Apache Lucene-Standardanalyse; Besteht aus dem Standardtokenizer, Kleinbuchstabenfilter und Stoppfilter.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Analysetools angibt. |
|
maxTokenLength |
integer |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die die maximale Länge überschreiten, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
name |
string |
Der Name des Analysetools. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
stopwords |
string[] |
Eine Liste von Stoppwörtern. |
LuceneStandardTokenizer
Teilt Text gemäß den Regeln für Unicode-Textsegmentierung auf. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Tokenizertyp angibt. |
|
maxTokenLength |
integer |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die die maximale Länge überschreiten, werden geteilt. |
name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
LuceneStandardTokenizerV2
Teilt Text gemäß den Regeln für Unicode-Textsegmentierung auf. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Tokenizertyp angibt. |
|
maxTokenLength |
integer |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die die maximale Länge überschreiten, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
MagnitudeScoringFunction
Definiert eine Funktion, die die Bewertungen basierend auf der Größe eines numerischen Felds erhöht.
Name | Typ | Beschreibung |
---|---|---|
boost |
number |
Ein Multiplikator für die Rohbewertung. Muss eine positive Zahl sein, die nicht gleich 1,0 ist. |
fieldName |
string |
Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird. |
interpolation |
Ein Wert, der angibt, wie die Verstärkung über Dokumentbewertungen hinweg interpoliert wird; wird standardmäßig auf "Linear" festgelegt. |
|
magnitude |
Parameterwerte für die Größenbewertungsfunktion. |
|
type |
string:
magnitude |
Gibt den Typ der zu verwendenden Funktion an. Gültige Werte sind „magnitude“, „freshness“, „distance“ und „tag“. Der Funktionstyp muss klein geschrieben werden. |
MagnitudeScoringParameters
Stellt Parameterwerte für eine Magnitudenbewertungsfunktion bereit.
Name | Typ | Beschreibung |
---|---|---|
boostingRangeEnd |
number |
Der Feldwert, bei dem das Boosten endet. |
boostingRangeStart |
number |
Der Feldwert, bei dem das Boosten beginnt. |
constantBoostBeyondRange |
boolean |
Ein Wert, der angibt, ob eine konstante Verstärkung für Feldwerte außerhalb des Bereichsendwerts angewendet werden soll; default ist false. |
MappingCharFilter
Ein Zeichenfilter, der zuordnungsdefinierte Zuordnungen anwendet, die mit der Zuordnungsoption definiert sind. Der Abgleich ist umfangreich (der längste Musterabgleich an einem bestimmten Punkt wird verwendet). Eine Ersetzung kann eine leere Zeichenfolge sein. Dieser Zeichenfilter wird mit Apache Lucene implementiert.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Zeichenfilters angibt. |
mappings |
string[] |
Eine Liste der Zuordnungen im folgenden Format: "a=>b" (alle Vorkommen des Zeichens "a" werden durch das Zeichen "b") ersetzt. |
name |
string |
Der Name des Zeichenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
MicrosoftLanguageStemmingTokenizer
Teilt Text nach sprachspezifischen Regeln auf und reduziert Wörter auf deren Grundformen.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
isSearchTokenizer |
boolean |
False |
Ein -Wert, der angibt, wie der Tokenizer verwendet wird. Legen Sie bei Verwendung als Suchtokenizer auf TRUE fest, und legen Sie auf false fest, wenn sie als Indizierungstokenizer verwendet wird. Der Standardwert ist "false". |
language |
Die zu verwendende Sprache. Der Standardwert ist Englisch. |
||
maxTokenLength |
integer |
255 |
Die maximale Tokenlänge. Token, die die maximale Länge überschreiten, werden geteilt. Ein Token darf maximal 300 Zeichen lang sein. Token, die länger als 300 Zeichen sind, werden zunächst in Token mit der Länge 300 aufgeteilt, und dann wird jedes dieser Token basierend auf der maximalen Tokenlänge aufgeteilt. Der Standardwert ist 255. |
name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
MicrosoftLanguageTokenizer
Teilt Text mit sprachspezifische Regeln auf.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
isSearchTokenizer |
boolean |
False |
Ein -Wert, der angibt, wie der Tokenizer verwendet wird. Legen Sie bei Verwendung als Suchtokenizer auf TRUE fest, und legen Sie auf false fest, wenn sie als Indizierungstokenizer verwendet wird. Der Standardwert ist "false". |
language |
Die zu verwendende Sprache. Der Standardwert ist Englisch. |
||
maxTokenLength |
integer |
255 |
Die maximale Tokenlänge. Token, die die maximale Länge überschreiten, werden geteilt. Ein Token darf maximal 300 Zeichen lang sein. Token, die länger als 300 Zeichen sind, werden zunächst in Token mit der Länge 300 aufgeteilt, und dann wird jedes dieser Token basierend auf der maximalen Tokenlänge aufgeteilt. Der Standardwert ist 255. |
name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
MicrosoftStemmingTokenizerLanguage
Listen die Sprachen, die vom Microsoft Language Stemming-Tokenizer unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
arabic |
string |
Wählt den Microsoft-Stemmingtokenisierer für Arabisch aus. |
bangla |
string |
Wählt den Microsoft-Stemmingtokenizer für Bangla aus. |
bulgarian |
string |
Wählt den Microsoft-Stemmingtokenisierer für Bulgarisch aus. |
catalan |
string |
Wählt den Microsoft-Stemmingtokenisierer für Katalanisch aus. |
croatian |
string |
Wählt das Microsoft-Stemmingtoken für Kroatisch aus. |
czech |
string |
Wählt den Microsoft-Stemmingtokenisierer für Tschechisch aus. |
danish |
string |
Wählt den Microsoft-Stemmingtokenisierer für Dänisch aus. |
dutch |
string |
Wählt den Microsoft-Stemmingtokenisierer für Niederländisch aus. |
english |
string |
Wählt den Microsoft-Stemmingtokenisierer für Englisch aus. |
estonian |
string |
Wählt den Microsoft-Stemmingtokenisierer für Estnisch aus. |
finnish |
string |
Wählt den Microsoft-Stemmingtokenisierer für Finnisch aus. |
french |
string |
Wählt den Microsoft-Stemmingtokenisierer für Französisch aus. |
german |
string |
Wählt den Microsoft-Stemmingtokenisierer für Deutsch aus. |
greek |
string |
Wählt den Microsoft-Stemmingtokenisierer für Griechisch aus. |
gujarati |
string |
Wählt den Microsoft-Stemmingtokenisierer für Gujarati aus. |
hebrew |
string |
Wählt den Microsoft-Stemmingtokenisierer für Hebräisch aus. |
hindi |
string |
Wählt den Microsoft-Stemmingtokenisierer für Hindi aus. |
hungarian |
string |
Wählt den Microsoft-Stemmingtokenisierer für Ungarisch aus. |
icelandic |
string |
Wählt den Microsoft-Stemmingtokenisierer für Isländisch aus. |
indonesian |
string |
Wählt den Microsoft-Stemmingtokenisierer für Indonesisch aus. |
italian |
string |
Wählt den Microsoft-Stemmingtokenisierer für Italienisch aus. |
kannada |
string |
Wählt den Microsoft-Stemmingtokenisierer für Kannada aus. |
latvian |
string |
Wählt das Microsoft-Stemmingtoken für Lettisch aus. |
lithuanian |
string |
Wählt den Microsoft-Stemmingtokenisierer für Litauisch aus. |
malay |
string |
Wählt den Microsoft-Stemmingtokenisierer für Malay aus. |
malayalam |
string |
Wählt den Microsoft-Stemmingtokenisierer für Malayalam aus. |
marathi |
string |
Wählt den Microsoft-Stemmingtokenisierer für Marathi aus. |
norwegianBokmaal |
string |
Wählt den Microsoft-Stemmingtokenisierer für Norwegisch (Bokmål) aus. |
polish |
string |
Wählt den Microsoft-Stemmingtokenisierer für Polnisch aus. |
portuguese |
string |
Wählt den Microsoft-Stemmingtokenisierer für Portugiesisch aus. |
portugueseBrazilian |
string |
Wählt den Microsoft-Stemmingtokenisierer für Portugiesisch (Brasilien) aus. |
punjabi |
string |
Wählt den Microsoft-Stemmingtokenisierer für Punjabi aus. |
romanian |
string |
Wählt den Microsoft-Stemmingtokenisierer für Rumänisch aus. |
russian |
string |
Wählt den Microsoft-Stemmingtokenisierer für Russisch aus. |
serbianCyrillic |
string |
Wählt den Microsoft-Stemming-Tokenizer für Serbisch (Kyrillisch) aus. |
serbianLatin |
string |
Wählt den Microsoft-Stemming-Tokenizer für Serbisch (Lateinisch) aus. |
slovak |
string |
Wählt den Microsoft-Stemmingtokenisierer für Slowakisch aus. |
slovenian |
string |
Wählt den Microsoft-Stemmingtokenisierer für Slowenisch aus. |
spanish |
string |
Wählt den Microsoft-Stemmingtokenizer für Spanisch aus. |
swedish |
string |
Wählt den Microsoft-Stemming-Tokenizer für Schwedisch aus. |
tamil |
string |
Wählt den Microsoft-Stemming-Tokenizer für Tamil aus. |
telugu |
string |
Wählt den Microsoft-Stemming-Tokenizer für Telugu aus. |
turkish |
string |
Wählt den Microsoft-Stemming-Tokenizer für Türkisch aus. |
ukrainian |
string |
Wählt den Microsoft-Stemmingtokenisierer für Ukrainisch aus. |
urdu |
string |
Wählt den Microsoft-Stemmingtokenizer für Urdu aus. |
MicrosoftTokenizerLanguage
Listen die Sprachen, die vom Microsoft-Sprachtokenizer unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
bangla |
string |
Wählt den Microsoft-Tokenizer für Bangla aus. |
bulgarian |
string |
Wählt den Microsoft-Tokenizer für Bulgarisch aus. |
catalan |
string |
Wählt den Microsoft-Tokenizer für Katalanisch aus. |
chineseSimplified |
string |
Wählt den Microsoft-Tokenizer für Chinesisch (vereinfacht) aus. |
chineseTraditional |
string |
Wählt den Microsoft-Tokenizer für Chinesisch (traditionell) aus. |
croatian |
string |
Wählt den Microsoft-Tokenizer für Kroatisch aus. |
czech |
string |
Wählt den Microsoft-Tokenizer für Tschechisch aus. |
danish |
string |
Wählt den Microsoft-Tokenizer für Dänisch aus. |
dutch |
string |
Wählt den Microsoft-Tokenizer für Niederländisch aus. |
english |
string |
Wählt den Microsoft-Tokenizer für Englisch aus. |
french |
string |
Wählt den Microsoft-Tokenizer für Französisch aus. |
german |
string |
Wählt den Microsoft-Tokenizer für Deutsch aus. |
greek |
string |
Wählt den Microsoft-Tokenizer für Griechisch aus. |
gujarati |
string |
Wählt den Microsoft-Tokenizer für Gujarati aus. |
hindi |
string |
Wählt den Microsoft-Tokenizer für Hindi aus. |
icelandic |
string |
Wählt den Microsoft-Tokenizer für Isländisch aus. |
indonesian |
string |
Wählt den Microsoft-Tokenizer für Indonesisch aus. |
italian |
string |
Wählt den Microsoft-Tokenizer für Italienisch aus. |
japanese |
string |
Wählt den Microsoft-Tokenizer für Japanisch aus. |
kannada |
string |
Wählt den Microsoft-Tokenizer für Kannada aus. |
korean |
string |
Wählt den Microsoft-Tokenizer für Koreanisch aus. |
malay |
string |
Wählt den Microsoft-Tokenizer für Malay aus. |
malayalam |
string |
Wählt den Microsoft-Tokenizer für Malayalam aus. |
marathi |
string |
Wählt den Microsoft-Tokenizer für Marathi aus. |
norwegianBokmaal |
string |
Wählt den Microsoft-Tokenizer für Norwegisch (Bokmål) aus. |
polish |
string |
Wählt den Microsoft-Tokenizer für Polnisch aus. |
portuguese |
string |
Wählt den Microsoft-Tokenizer für Portugiesisch aus. |
portugueseBrazilian |
string |
Wählt den Microsoft-Tokenizer für Portugiesisch (Brasilien) aus. |
punjabi |
string |
Wählt den Microsoft-Tokenizer für Punjabi aus. |
romanian |
string |
Wählt den Microsoft-Tokenizer für Rumänisch aus. |
russian |
string |
Wählt den Microsoft-Tokenizer für Russisch aus. |
serbianCyrillic |
string |
Wählt den Microsoft-Tokenizer für Serbisch (Kyrillisch) aus. |
serbianLatin |
string |
Wählt das Microsoft-Tokenizer für Serbisch (Lateinisch) aus. |
slovenian |
string |
Wählt den Microsoft-Tokenizer für Slowenisch aus. |
spanish |
string |
Wählt den Microsoft-Tokenizer für Spanisch aus. |
swedish |
string |
Wählt den Microsoft-Tokenizer für Schwedisch aus. |
tamil |
string |
Wählt den Microsoft-Tokenizer für Tamil aus. |
telugu |
string |
Wählt den Microsoft-Tokenizer für Telugu aus. |
thai |
string |
Wählt den Microsoft-Tokenizer für Thai aus. |
ukrainian |
string |
Wählt den Microsoft-Tokenizer für Ukrainisch aus. |
urdu |
string |
Wählt den Microsoft-Tokenizer für Urdu aus. |
vietnamese |
string |
Wählt den Microsoft-Tokenizer für Vietnamesisch aus. |
NGramTokenFilter
Generiert N-Gramme einer festgelegten Größe. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
maxGram |
integer |
2 |
Die maximale Länge von n Gramm. Standard ist 2. |
minGram |
integer |
1 |
Die Mindestlänge von n-Gramm. Der Standardwert ist 1. Muss kleiner als der Wert von maxGram sein. |
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
NGramTokenFilterV2
Generiert N-Gramme einer festgelegten Größe. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
maxGram |
integer |
2 |
Die maximale Länge von n Gramm. Standard ist 2. Maximum ist 300. |
minGram |
integer |
1 |
Die Mindestlänge von n-Gramm. Der Standardwert ist 1. Maximum ist 300. Muss kleiner als der Wert von maxGram sein. |
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
NGramTokenizer
Tokenisiert die Eingabe in N-Gramme einer festgelegten Größe. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenizers angibt. |
|
maxGram |
integer |
2 |
Die maximale Länge von n Gramm. Standard ist 2. Der Höchstwert ist 300. |
minGram |
integer |
1 |
Die mindeste n-Gramm-Länge. Der Standardwert ist 1. Der Höchstwert ist 300. Muss kleiner als der Wert von maxGram sein. |
name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
tokenChars |
Zeichenklassen, die in den Token beibehalten werden sollen. |
PathHierarchyTokenizerV2
Tokenizer für pfadähnliche Hierarchien. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Tokenizertyp angibt. |
|
delimiter |
string |
/ |
Das zu verwendende Trennzeichen. Der Standardwert ist "/". |
maxTokenLength |
integer |
300 |
Die maximale Tokenlänge. Standard und Maximum ist 300. |
name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
replacement |
string |
/ |
Ein -Wert, der das Trennzeichen ersetzt, sofern festgelegt. Der Standardwert ist "/". |
reverse |
boolean |
False |
Ein Wert, der angibt, ob Token in umgekehrter Reihenfolge generiert werden sollen. Der Standardwert ist "false". |
skip |
integer |
0 |
Die Anzahl der zu überspringenden Anfangstoken. Standard ist "0". |
PatternAnalyzer
Trennt Text flexibel über ein reguläres Ausdrucksmuster in Begriffe. Dieses Analysetool wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Analysetools angibt. |
|
flags |
Flags für reguläre Ausdrücke. |
||
lowercase |
boolean |
True |
Ein Wert, der angibt, ob Begriffe klein geschrieben werden sollen. Der Standardwert ist "true". |
name |
string |
Der Name des Analysetools. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
pattern |
string |
\W+ |
Ein Muster für reguläre Ausdrücke, um Tokentrennzeichen zu entsprechen. Standard ist ein Ausdruck, der einem oder mehreren Nichtwortzeichen entspricht. |
stopwords |
string[] |
Eine Liste von Stoppwörtern. |
PatternCaptureTokenFilter
Verwendet Java-Regexes zum Ausgeben mehrerer Token – eines für jede Erfassungsgruppe in einem oder mehreren Mustern. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
patterns |
string[] |
Eine Liste von Mustern, die mit den einzelnen Token übereinstimmen sollen. |
|
preserveOriginal |
boolean |
True |
Ein Wert, der angibt, ob das ursprüngliche Token zurückgegeben werden soll, auch wenn eines der Muster übereinstimmt. Der Standardwert ist "true". |
PatternReplaceCharFilter
Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Er verwendet einen regulären Ausdruck, um zu erhaltende Zeichenfolgen zu identifizieren, und ein Ersatzmuster, um zu ersetzende Zeichen zu identifizieren. Angesichts des Eingabetexts "aa bb aa bb", des Musters "(aa)\s+(bb)" und des Ersatzes "$1#$2" wäre das Ergebnis beispielsweise "aa#bb aa#bb". Dieser Zeichenfilter wird mit Apache Lucene implementiert.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Zeichenfilters angibt. |
name |
string |
Der Name des Zeichenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
pattern |
string |
Ein Muster für reguläre Ausdrücke. |
replacement |
string |
Der Ersatztext. |
PatternReplaceTokenFilter
Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Er verwendet einen regulären Ausdruck, um zu erhaltende Zeichenfolgen zu identifizieren, und ein Ersatzmuster, um zu ersetzende Zeichen zu identifizieren. Wenn sie beispielsweise den Eingabetext "aa bb aa bb", das Muster "(aa)\s+(bb)" und den Ersatz "$1#$2" verwenden, würde das Ergebnis "aa#bb aa#bb". Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
pattern |
string |
Ein Muster für reguläre Ausdrücke. |
replacement |
string |
Der Ersatztext. |
PatternTokenizer
Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Tokenizertyp angibt. |
|
flags |
Flags für reguläre Ausdrücke. |
||
group |
integer |
-1 |
Die nullbasierte Ordnungszahl der übereinstimmenden Gruppe im Regulären Ausdrucksmuster, die in Token extrahiert werden soll. Verwenden Sie -1, wenn Sie das gesamte Muster verwenden möchten, um die Eingabe unabhängig von übereinstimmenden Gruppen in Token aufzuteilen. Der Standardwert ist -1. |
name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
pattern |
string |
\W+ |
Ein Muster für reguläre Ausdrücke, um Tokentrennzeichen zu entsprechen. Standard ist ein Ausdruck, der einem oder mehreren Nichtwortzeichen entspricht. |
PhoneticEncoder
Gibt den Typ des phonetischen Encoders an, der mit einem PhoneticTokenFilter verwendet werden soll.
Name | Typ | Beschreibung |
---|---|---|
beiderMorse |
string |
Codiert ein Token in einen Beider-Morse Wert. |
caverphone1 |
string |
Codiert ein Token in einen Caverphone 1.0-Wert. |
caverphone2 |
string |
Codiert ein Token in einen Caverphone 2.0-Wert. |
cologne |
string |
Codiert ein Token in einen Kölner phonetischen Wert. |
doubleMetaphone |
string |
Codiert ein Token in einen Doppelten Metaphone-Wert. |
haasePhonetik |
string |
Codiert ein Token mithilfe der Haase-Verfeinerung des Kölner Phonetik-Algorithmus. |
koelnerPhonetik |
string |
Codiert ein Token mit dem Kölner Phonetik-Algorithmus. |
metaphone |
string |
Codiert ein Token in einen Metaphone-Wert. |
nysiis |
string |
Codiert ein Token in einen NYSIIS-Wert. |
refinedSoundex |
string |
Codiert ein Token in einen refined Soundex-Wert. |
soundex |
string |
Codiert ein Token in einen Soundex-Wert. |
PhoneticTokenFilter
Erstellt Token für phonetische Übereinstimmungen. Dieser Tokenfilter wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
encoder | metaphone |
Der zu verwendende phonetische Encoder. Der Standardwert ist "metaphone". |
|
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
replace |
boolean |
True |
Ein Wert, der angibt, ob codierte Token ursprüngliche Token ersetzen sollen. Wenn false, werden codierte Token als Synonyme hinzugefügt. Der Standardwert ist "true". |
PrioritizedFields
Beschreibt die Felder Titel, Inhalt und Schlüsselwörter, die für semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen.
Name | Typ | Beschreibung |
---|---|---|
prioritizedContentFields |
Definiert die Inhaltsfelder, die für semantische Rangfolgen, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen. Um das beste Ergebnis zu erzielen, sollten die ausgewählten Felder Text in natürlicher Sprache enthalten. Die Reihenfolge der Felder im Array stellt ihre Priorität dar. Felder mit niedrigerer Priorität können abgeschnitten werden, wenn der Inhalt lang ist. |
|
prioritizedKeywordsFields |
Definiert die Schlüsselwort (keyword) Felder, die für semantische Rangfolgen, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen. Um das beste Ergebnis zu erzielen, sollten die ausgewählten Felder eine Liste mit Schlüsselwörtern enthalten. Die Reihenfolge der Felder im Array stellt ihre Priorität dar. Felder mit niedrigerer Priorität können abgeschnitten werden, wenn der Inhalt lang ist. |
|
titleField |
Definiert das Titelfeld, das für semantische Rangfolgen, Beschriftungen, Hervorhebungen und Antworten verwendet werden soll. Wenn Sie kein Titelfeld in Ihrem Index haben, lassen Sie es leer. |
RegexFlags
Definiert Flags, die kombiniert werden können, um zu steuern, wie reguläre Ausdrücke im Musteranalyse- und Mustertokenprogramm verwendet werden.
Name | Typ | Beschreibung |
---|---|---|
CANON_EQ |
string |
Aktiviert die kanonische Äquivalenz. |
CASE_INSENSITIVE |
string |
Ermöglicht den Abgleich ohne Berücksichtigung der Groß-/Kleinschreibung. |
COMMENTS |
string |
Lässt Leerzeichen und Kommentare im Muster zu. |
DOTALL |
string |
Aktiviert den Dotall-Modus. |
LITERAL |
string |
Aktiviert die Literalanalyse des Musters. |
MULTILINE |
string |
Aktiviert den Mehrzeilenmodus. |
UNICODE_CASE |
string |
Ermöglicht die Unicode-fähige Groß-/Kleinschreibungsfaltung. |
UNIX_LINES |
string |
Aktiviert den Unix-Linienmodus. |
ScoringFunctionAggregation
Definiert die Aggregationsfunktion, die verwendet wird, um die Ergebnisse aller Bewertungsfunktionen in einem Bewertungsprofil zu kombinieren.
Name | Typ | Beschreibung |
---|---|---|
average |
string |
Erhöhen Sie die Bewertungen um den Durchschnitt aller Ergebnisse der Bewertungsfunktion. |
firstMatching |
string |
Erhöhen Sie die Bewertungen mithilfe der ersten anwendbaren Bewertungsfunktion im Bewertungsprofil. |
maximum |
string |
Erhöhen Sie die Bewertungen um das Maximum aller Ergebnisse der Bewertungsfunktion. |
minimum |
string |
Erhöhen Sie die Bewertungen um das Minimum aller Ergebnisse der Bewertungsfunktion. |
sum |
string |
Erhöhen Sie die Bewertungen um die Summe aller Ergebnisse der Bewertungsfunktion. |
ScoringFunctionInterpolation
Definiert die Funktion, die zum Interpolieren der Bewertungsverhebung für eine Reihe von Dokumenten verwendet wird.
Name | Typ | Beschreibung |
---|---|---|
constant |
string |
Erhöht die Bewertungen um einen konstanten Faktor. |
linear |
string |
Erhöht die Bewertungen um einen linear abnehmenden Betrag. Dies ist die Standardinterpolation für Bewertungsfunktionen. |
logarithmic |
string |
Erhöht die Bewertungen um einen Wert, der logarithmisch abnimmt. Boosts nehmen für höhere Bewertungen schnell ab, und langsamer, wenn die Bewertungen sinken. Diese Interpolationsoption ist in Tag-Bewertungsfunktionen nicht zulässig. |
quadratic |
string |
Erhöht die Bewertungen um einen Betrag, der quadratisch abnimmt. Boosts verringern sich langsam für höhere Bewertungen und schneller, wenn die Bewertungen sinken. Diese Interpolationsoption ist in Tag-Bewertungsfunktionen nicht zulässig. |
ScoringProfile
Definiert Parameter für einen Suchindex, die die Bewertung in Suchabfragen beeinflussen.
Name | Typ | Beschreibung |
---|---|---|
functionAggregation |
Ein Wert, der angibt, wie die Ergebnisse einzelner Bewertungsfunktionen kombiniert werden sollen. Der Standardwert ist "Sum". Wird ignoriert, wenn keine Bewertungsfunktionen vorhanden sind. |
|
functions | ScoringFunction[]: |
Die Auflistung von Funktionen, die die Bewertung von Dokumenten beeinflussen. |
name |
string |
Der Name des Bewertungsprofils. |
text |
Parameter, die die Bewertung basierend auf Text-Übereinstimmungen in bestimmten Indexfeldern erhöhen. |
SearchError
Beschreibt eine Fehlerbedingung für die API.
Name | Typ | Beschreibung |
---|---|---|
code |
string |
Einer von einem serverdefiniertem Satz von Fehlercodes. |
details |
Ein Array von Details zu bestimmten Fehlern, die zu diesem gemeldeten Fehler geführt haben. |
|
message |
string |
Eine lesbare Darstellung des Fehlers. |
SearchField
Stellt ein Feld in einer Indexdefinition dar, das den Namen, den Datentyp und das Suchverhalten eines Felds beschreibt.
Name | Typ | Beschreibung |
---|---|---|
analyzer |
Der Name des Analysetools, das für das Feld verwendet werden soll. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden und weder zusammen mit searchAnalyzer noch mit indexAnalyzer festgelegt werden. Eine einmal für ein Feld gewählte Analysemethode kann nicht mehr geändert werden. Muss für komplexe Felder NULL sein. |
|
dimensions |
integer |
Die Dimensionalität des Vektorfelds. |
facetable |
boolean |
Ein Wert, der angibt, ob in Facetabfragen auf das Feld verwiesen werden soll. Wird in der Regel in einer Präsentation von Suchergebnissen verwendet, die die Trefferanzahl nach Kategorie enthält (z. B. suchen Sie nach Digitalkameras und sehen Sie Treffer nach Marke, nach Megapixeln, nach Preis usw.). Diese Eigenschaft muss für komplexe Felder NULL sein. Felder vom Typ Edm.GeographyPoint oder Collection(Edm.GeographyPoint) können nicht facetable sein. Der Standardwert ist true für alle anderen einfachen Felder. |
fields |
Eine Liste von Unterfeldern, wenn dies ein Feld vom Typ Edm.ComplexType oder Collection(Edm.ComplexType) ist. Muss für einfache Felder NULL oder leer sein. |
|
filterable |
boolean |
Ein Wert, der angibt, ob in $filter Abfragen auf das Feld verwiesen werden soll. filterbar unterscheidet sich von durchsuchbar in der Behandlung von Zeichenfolgen. Felder vom Typ Edm.String oder Collection(Edm.String), die gefiltert werden können, unterliegen keine Worttrennung, sodass Vergleiche nur für genaue Übereinstimmungen gelten. Wenn Sie z. B. ein solches Feld f auf "sonniger Tag" festlegen, findet $filter=f eq 'sunny' keine Übereinstimmungen, aber $filter=f eq 'sonniger Tag' findet dies. Diese Eigenschaft muss für komplexe Felder NULL sein. Der Standardwert ist true für einfache Felder und NULL für komplexe Felder. |
indexAnalyzer |
Der Name des Analysetools, das zum Indizierungszeitpunkt für das Feld verwendet wird. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden. Er muss zusammen mit searchAnalyzer festgelegt werden und kann nicht zusammen mit der Analyseoption festgelegt werden. Diese Eigenschaft kann nicht auf den Namen eines Sprachanalysetools festgelegt werden. Verwenden Sie stattdessen die Analyzer-Eigenschaft, wenn Sie ein Sprachanalysetool benötigen. Eine einmal für ein Feld gewählte Analysemethode kann nicht mehr geändert werden. Muss für komplexe Felder NULL sein. |
|
key |
boolean |
Ein Wert, der angibt, ob das Feld Dokumente im Index eindeutig identifiziert. Es muss genau ein Feld der obersten Ebene in jedem Index als Schlüsselfeld ausgewählt werden, und es muss vom Typ Edm.String sein. Schlüsselfelder können verwendet werden, um Dokumente direkt nachzuschlagen und bestimmte Dokumente zu aktualisieren oder zu löschen. Der Standardwert ist false für einfache Felder und NULL für komplexe Felder. |
name |
string |
Der Name des Felds, das innerhalb der Fields-Auflistung des Index- oder übergeordneten Felds eindeutig sein muss. |
normalizer |
Der Name des Normalisierers, der für das Feld verwendet werden soll. Diese Option kann nur mit Feldern verwendet werden, für die filterbar, sortierbar oder facetable aktiviert sind. Nachdem der Normalisierer ausgewählt wurde, kann er für das Feld nicht mehr geändert werden. Muss für komplexe Felder NULL sein. |
|
retrievable |
boolean |
Ein Wert, der angibt, ob das Feld in einem Suchergebnis zurückgegeben werden kann. Sie können diese Option deaktivieren, wenn Sie ein Feld (z. B. Rand) als Filter-, Sortier- oder Bewertungsmechanismus verwenden möchten, das Feld jedoch nicht für den Endbenutzer sichtbar sein soll. Diese Eigenschaft muss für Schlüsselfelder true und für komplexe Felder NULL sein. Diese Eigenschaft kann für vorhandene Felder geändert werden. Das Aktivieren dieser Eigenschaft führt nicht zu einer Erhöhung der Indexspeicheranforderungen. Der Standardwert ist true für einfache Felder und NULL für komplexe Felder. |
searchAnalyzer |
Der Name des Analysetools, das zur Suchzeit für das Feld verwendet wurde. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden. Er muss zusammen mit indexAnalyzer festgelegt werden und kann nicht zusammen mit der Analyseoption festgelegt werden. Diese Eigenschaft kann nicht auf den Namen eines Sprachanalysetools festgelegt werden. Verwenden Sie stattdessen die Analyzer-Eigenschaft, wenn Sie ein Sprachanalysetool benötigen. Dieses Analyseprogramm kann für ein vorhandenes Feld aktualisiert werden. Muss für komplexe Felder NULL sein. |
|
searchable |
boolean |
Ein Wert, der angibt, ob das Feld volltextsuchbar ist. Es wird während der Indizierung somit Analysen wie etwa der Worttrennung unterzogen. Wenn Sie ein durchsuchbares Feld auf einen Wert wie „sunny day“ festlegen, wird es intern in die einzelnen Token „sunny“ und „day“ unterteilt. Dies ermöglicht die Volltextsuche nach diesen Begriffen. Felder vom Typ Edm.String oder Collection(Edm.String) sind standardmäßig durchsuchbar. Diese Eigenschaft muss für einfache Felder anderer Nicht-Zeichenfolgen-Datentypen false und für komplexe Felder NULL sein. Hinweis: Durchsuchbare Felder verbrauchen zusätzlichen Speicherplatz in Ihrem Index, um zusätzliche tokenisierte Versionen des Feldwerts für Volltextsuchen aufzunehmen. Wenn Sie Speicherplatz in Ihrem Index sparen möchten und kein Feld in Suchvorgänge einbezogen werden muss, legen Sie durchsuchbar auf false fest. |
sortable |
boolean |
Ein Wert, der angibt, ob in $orderby Ausdrücken auf das Feld verwiesen werden soll. Standardmäßig sortiert die Suchmaschine ergebnisse nach Bewertung, aber in vielen Umgebungen möchten Benutzer in den Dokumenten nach Feldern sortieren. Ein einfaches Feld kann nur sortiert werden, wenn es einwertig ist (es hat einen einzelnen Wert im Bereich des übergeordneten Dokuments). Einfache Sammlungsfelder können nicht sortiert werden, da sie mehrwertig sind. Einfache Unterfelder komplexer Sammlungen sind ebenfalls mehrwertig und können daher nicht sortiert werden. Dies gilt unabhängig davon, ob es sich um ein unmittelbares übergeordnetes Feld oder ein Vorgängerfeld handelt, das die komplexe Auflistung ist. Komplexe Felder können nicht sortierbar sein, und die sortierbare Eigenschaft muss null für solche Felder sein. Die Standardeinstellung für sortierbar ist true für einwertige einfache Felder, false für mehrwertige einfache Felder und NULL für komplexe Felder. |
synonymMaps |
string[] |
Eine Liste der Namen von Synonymzuordnungen, die diesem Feld zugeordnet werden sollen. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden. Derzeit wird nur eine Synonymzuordnung pro Feld unterstützt. Durch das Zuweisen einer Synonymzuordnung zu einem Feld wird sichergestellt, dass Abfragebegriffe, die auf dieses Feld abzielen, zur Abfragezeit mithilfe der Regeln in der Synonymzuordnung erweitert werden. Dieses Attribut kann für vorhandene Felder geändert werden. Muss NULL oder eine leere Auflistung für komplexe Felder sein. |
type |
Der Datentyp des Felds. |
|
vectorSearchProfile |
string |
Der Name des Vektorsuchprofils, das den Algorithmus und den Vektorisierer angibt, der beim Durchsuchen des Vektorfelds verwendet werden soll. |
SearchFieldDataType
Definiert den Datentyp eines Felds in einem Suchindex.
Name | Typ | Beschreibung |
---|---|---|
Edm.Boolean |
string |
Gibt an, dass ein Feld einen booleschen Wert (true oder false) enthält. |
Edm.ComplexType |
string |
Gibt an, dass ein Feld ein oder mehrere komplexe Objekte enthält, die wiederum Unterfelder anderer Typen aufweisen. |
Edm.DateTimeOffset |
string |
Gibt an, dass ein Feld einen Datums-/Uhrzeitwert enthält, einschließlich Zeitzoneninformationen. |
Edm.Double |
string |
Gibt an, dass ein Feld eine IEEE-Gleitkommazahl mit doppelter Genauigkeit enthält. |
Edm.GeographyPoint |
string |
Gibt an, dass ein Feld einen geografischen Standort in Bezug auf Längen- und Breitengrad enthält. |
Edm.Int32 |
string |
Gibt an, dass ein Feld eine 32-Bit-Ganzzahl mit Vorzeichen enthält. |
Edm.Int64 |
string |
Gibt an, dass ein Feld eine 64-Bit-Ganzzahl mit Vorzeichen enthält. |
Edm.Single |
string |
Gibt an, dass ein Feld eine Gleitkommazahl mit einfacher Genauigkeit enthält. Dies ist nur gültig, wenn sie mit Collection(Edm.Single) verwendet wird. |
Edm.String |
string |
Gibt an, dass ein Feld eine Zeichenfolge enthält. |
SearchIndex
Stellt eine Suchindexdefinition dar, die die Felder und das Suchverhalten eines Indexes beschreibt.
Name | Typ | Beschreibung |
---|---|---|
@odata.etag |
string |
Das ETag des Indexes. |
analyzers | LexicalAnalyzer[]: |
Die Analysetools für den Index. |
charFilters | CharFilter[]: |
Das Zeichen filtert nach dem Index. |
corsOptions |
Optionen zum Steuern der ressourcenübergreifenden Ressourcenfreigabe (Cross-Origin Resource Sharing, CORS) für den Index. |
|
defaultScoringProfile |
string |
Der Name des Bewertungsprofils, das verwendet werden soll, wenn in der Abfrage keiner angegeben ist. Wenn diese Eigenschaft nicht festgelegt ist und kein Bewertungsprofil in der Abfrage angegeben ist, wird die Standardbewertung (tf-idf) verwendet. |
encryptionKey |
Eine Beschreibung eines Verschlüsselungsschlüssels, den Sie in Azure Key Vault erstellen. Dieser Schlüssel wird verwendet, um eine zusätzliche Ebene der Verschlüsselung ruhender Daten bereitzustellen, wenn Sie die volle Gewissheit haben möchten, dass niemand, nicht einmal Microsoft, Ihre Daten entschlüsseln kann. Sobald Sie Ihre Daten verschlüsselt haben, bleiben sie immer verschlüsselt. Der Suchdienst ignoriert Versuche, diese Eigenschaft auf NULL festzulegen. Sie können diese Eigenschaft bei Bedarf ändern, wenn Sie Ihren Verschlüsselungsschlüssel rotieren möchten. Ihre Daten bleiben unberührt. Die Verschlüsselung mit kundenseitig verwalteten Schlüsseln ist für kostenlose Suchdienste nicht verfügbar und nur für kostenpflichtige Dienste verfügbar, die am oder nach dem 1. Januar 2019 erstellt wurden. |
|
fields |
Die Felder des Indexes. |
|
name |
string |
Der Name des Index. |
normalizers | LexicalNormalizer[]: |
Die Normalisierer für den Index. |
scoringProfiles |
Die Bewertungsprofile für den Index. |
|
semantic |
Definiert Parameter für einen Suchindex, die semantische Funktionen beeinflussen. |
|
similarity | Similarity: |
Der Typ des Ähnlichkeitsalgorithmus, der bei der Bewertung und Rangfolge der Dokumente verwendet werden soll, die einer Suchabfrage entsprechen. Der Ähnlichkeitsalgorithmus kann nur zum Zeitpunkt der Indexerstellung definiert werden und kann nicht für vorhandene Indizes geändert werden. Bei NULL wird der ClassicSimilarity-Algorithmus verwendet. |
suggesters |
Die Vorschlagsfunktion für den Index. |
|
tokenFilters |
TokenFilter[]:
|
Das Token filtert nach dem Index. |
tokenizers | LexicalTokenizer[]: |
Die Tokenizer für den Index. |
vectorSearch |
Enthält Konfigurationsoptionen im Zusammenhang mit der Vektorsuche. |
SearchIndexerDataNoneIdentity
Löscht die Identitätseigenschaft einer Datenquelle.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Identitätstyp angibt. |
SearchIndexerDataUserAssignedIdentity
Gibt die Identität für eine zu verwendende Datenquelle an.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Identitätstyp angibt. |
userAssignedIdentity |
string |
Die vollqualifizierte Azure-Ressourcen-ID einer benutzerseitig zugewiesenen verwalteten Identität in der Regel im Format "/subscriptions/12345678-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId", die dem Suchdienst zugewiesen worden sein sollte. |
SearchResourceEncryptionKey
Ein kundenseitig verwalteter Verschlüsselungsschlüssel in Azure Key Vault. Schlüssel, die Sie erstellen und verwalten, können zum Verschlüsseln oder Entschlüsseln ruhender Daten verwendet werden, z. B. Indizes und Synonymzuordnungen.
Name | Typ | Beschreibung |
---|---|---|
accessCredentials |
Optionale Azure Active Directory-Anmeldeinformationen, die für den Zugriff auf Ihre Azure Key Vault verwendet werden. Nicht erforderlich, wenn stattdessen eine verwaltete Identität verwendet wird. |
|
identity | SearchIndexerDataIdentity: |
Eine explizite verwaltete Identität, die für diesen Verschlüsselungsschlüssel verwendet werden soll. Wenn nicht angegeben und die Zugriffsanmeldeinformationen-Eigenschaft NULL ist, wird die systemseitig zugewiesene verwaltete Identität verwendet. Wenn die explizite Identität beim Aktualisieren der Ressource nicht angegeben ist, bleibt sie unverändert. Wenn "none" angegeben ist, wird der Wert dieser Eigenschaft gelöscht. |
keyVaultKeyName |
string |
Der Name Ihres Azure Key Vault Schlüssel, der zum Verschlüsseln ruhender Daten verwendet werden soll. |
keyVaultKeyVersion |
string |
Die Version Ihres Azure Key Vault Schlüssels, der zum Verschlüsseln ruhender Daten verwendet werden soll. |
keyVaultUri |
string |
Der URI Ihres Azure-Key Vault, auch als DNS-Name bezeichnet, der den Schlüssel enthält, der zum Verschlüsseln ruhender Daten verwendet werden soll. Ein Beispiel-URI kann sein |
SemanticConfiguration
Definiert eine bestimmte Konfiguration, die im Kontext semantischer Funktionen verwendet werden soll.
Name | Typ | Beschreibung |
---|---|---|
name |
string |
Der Name der semantischen Konfiguration. |
prioritizedFields |
Beschreibt den Titel, den Inhalt und die Schlüsselwort (keyword) Felder, die für semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen. Es muss mindestens eine der drei Untereigenschaften (titleField, priorisiertKeywordsFields und priorisiertContentFields) festgelegt werden. |
SemanticField
Ein Feld, das als Teil der semantischen Konfiguration verwendet wird.
Name | Typ | Beschreibung |
---|---|---|
fieldName |
string |
SemanticSettings
Definiert Parameter für einen Suchindex, die semantische Funktionen beeinflussen.
Name | Typ | Beschreibung |
---|---|---|
configurations |
Die semantischen Konfigurationen für den Index. |
|
defaultConfiguration |
string |
Ermöglicht es Ihnen, den Namen einer standardmäßigen semantischen Konfiguration in Ihrem Index festzulegen, sodass sie optional ist, sie jedes Mal als Abfrageparameter zu übergeben. |
ShingleTokenFilter
Kombiniert Token zu einem einzelnen Token. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
filterToken |
string |
_ |
Die einzufügende Zeichenfolge für jede Position, an der kein Token vorhanden ist. Der Standardwert ist ein Unterstrich ("_"). |
maxShingleSize |
integer |
2 |
Die maximale Shinglegröße. Der Standardwert und der Mindestwert ist 2. |
minShingleSize |
integer |
2 |
Die minimale Shinglegröße. Der Standardwert und der Mindestwert ist 2. Muss kleiner als der Wert von maxShingleSize sein. |
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
outputUnigrams |
boolean |
True |
Ein Wert, der angibt, ob der Ausgabestream die Eingabetoken (Unigramme) sowie Schindeln enthält. Der Standardwert ist "true". |
outputUnigramsIfNoShingles |
boolean |
False |
Ein Wert, der angibt, ob Unigramme ausgegeben werden sollen, wenn keine Schindeln verfügbar sind. Diese Eigenschaft hat Vorrang, wenn outputUnigrams auf false festgelegt ist. Der Standardwert ist "false". |
tokenSeparator |
string |
Die Zeichenfolge, die beim Verknüpfen benachbarter Token verwendet werden soll, um einen Shingle zu bilden. Der Standardwert ist ein einzelnes Leerzeichen (" "). |
SnowballTokenFilter
Ein Filter, der Wörter mithilfe eines von Snowball generierten Stemmers vorgibt. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
language |
Die zu verwendende Sprache. |
|
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
SnowballTokenFilterLanguage
Die Sprache, die für einen Snowball-Tokenfilter verwendet werden soll.
Name | Typ | Beschreibung |
---|---|---|
armenian |
string |
Wählt den Lucene Snowball Stemming Tokenizer für Armenisch aus. |
basque |
string |
Wählt den Lucene Snowball Stemming Tokenizer für Baskisch aus. |
catalan |
string |
Wählt den Lucene Snowball-Stemming-Tokenizer für Catalan aus. |
danish |
string |
Wählt den Lucene Snowball Stemming Tokenizer für Dänisch aus. |
dutch |
string |
Wählt den Lucene Snowball Stemming Tokenizer für Niederländisch aus. |
english |
string |
Wählt den Lucene Snowball Stemming Tokenizer für Englisch aus. |
finnish |
string |
Wählt den Lucene Snowball Stemming Tokenizer für Finnisch aus. |
french |
string |
Wählt den Lucene Snowball-Stemming-Tokenizer für Französisch aus. |
german |
string |
Wählt den Lucene Snowball Stemming Tokenizer für Deutsch aus. |
german2 |
string |
Wählt den Lucene Snowball-Stemming-Tokenizer aus, der den deutschen Variantenalgorithmus verwendet. |
hungarian |
string |
Wählt den Lucene Snowball Stemming Tokenizer für Ungarisch aus. |
italian |
string |
Wählt den Lucene Snowball Stemming Tokenizer für Italienisch aus. |
kp |
string |
Wählt den Lucene Snowball Stemming-Tokenizer für Niederländisch aus, der den Kraaij-Pohlmann Stemmingalgorithmus verwendet. |
lovins |
string |
Wählt den Lucene Snowball-Stemming-Tokenizer für Englisch aus, der den Lovins-Stemmingalgorithmus verwendet. |
norwegian |
string |
Wählt den Lucene Snowball Stemming Tokenizer für Norwegisch aus. |
porter |
string |
Wählt den Lucene Snowball-Stemming-Tokenizer für Englisch aus, der den Porter-Stemmingalgorithmus verwendet. |
portuguese |
string |
Wählt den Lucene Snowball-Stemming-Tokenizer für Portugiesisch aus. |
romanian |
string |
Wählt den Lucene Snowball Stemming Tokenizer für Rumänisch aus. |
russian |
string |
Wählt den Lucene Snowball Stemming Tokenizer für Russisch aus. |
spanish |
string |
Wählt den Lucene Snowball-Stemming-Tokenizer für Spanisch aus. |
swedish |
string |
Wählt den Lucene Snowball Stemming Tokenizer für Schwedisch aus. |
turkish |
string |
Wählt den Lucene Snowball Stemming Tokenizer für Türkisch aus. |
StemmerOverrideTokenFilter
Bietet die Möglichkeit, andere Stemmingfilter mit benutzerwörterbuchbasiertem Stemming zu überschreiben. Alle wörterstammigen Begriffe werden als Schlüsselwörter markiert, sodass sie nicht mit Stemmeren in der Kette eingestammt werden. Muss vor dem Filter für die Wortstammerkennung platziert werden. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
rules |
string[] |
Eine Liste von Stammregeln im folgenden Format: "word => stem", z. B. "ran => run". |
StemmerTokenFilter
Sprachspezifischer Stammfilter. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
language |
Die zu verwendende Sprache. |
|
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
StemmerTokenFilterLanguage
Die Sprache, die für einen Stemmertokenfilter verwendet werden soll.
Name | Typ | Beschreibung |
---|---|---|
arabic |
string |
Wählt den Lucene-Stemming-Tokenizer für Arabisch aus. |
armenian |
string |
Wählt den Lucene-Stemming-Tokenizer für Armenisch aus. |
basque |
string |
Wählt den Lucene Stemming-Tokenizer für Baskisch aus. |
brazilian |
string |
Wählt den Lucene-Stemming-Tokenizer für Portugiesisch (Brasilien) aus. |
bulgarian |
string |
Wählt den Lucene-Stemming-Tokenizer für Bulgarisch aus. |
catalan |
string |
Wählt den Lucene-Stemming-Tokenizer für Catalan aus. |
czech |
string |
Wählt den Lucene-Stemming-Tokenizer für Tschechisch aus. |
danish |
string |
Wählt den Lucene Stemming-Tokenizer für Dänisch aus. |
dutch |
string |
Wählt den Lucene-Stemming-Tokenizer für Niederländisch aus. |
dutchKp |
string |
Wählt den Lucene Stemming-Tokenizer für Niederländisch aus, der den Kraaij-Pohlmann Stammmingalgorithmus verwendet. |
english |
string |
Wählt den Lucene-Stemming-Tokenizer für Englisch aus. |
finnish |
string |
Wählt den Lucene-Stemming-Tokenizer für Finnisch aus. |
french |
string |
Wählt den Lucene-Stemming-Tokenizer für Französisch aus. |
galician |
string |
Wählt den Lucene-Stemming-Tokenizer für Galizisch aus. |
german |
string |
Wählt den Lucene-Stemming-Tokenizer für Deutsch aus. |
german2 |
string |
Wählt den Lucene-Stemming-Tokenizer aus, der den deutschen Variantenalgorithmus verwendet. |
greek |
string |
Wählt den Lucene-Stemming-Tokenizer für Griechisch aus. |
hindi |
string |
Wählt den Lucene-Stemming-Tokenizer für Hindi aus. |
hungarian |
string |
Wählt den Lucene-Stemming-Tokenizer für Ungarisch aus. |
indonesian |
string |
Wählt den Lucene-Stemming-Tokenizer für Indonesisch aus. |
irish |
string |
Wählt den Lucene-Stemming-Tokenizer für Irisch aus. |
italian |
string |
Wählt den Lucene-Stemming-Tokenizer für Italienisch aus. |
latvian |
string |
Wählt den Lucene-Stemming-Tokenizer für Lettisch aus. |
lightEnglish |
string |
Wählt den Lucene-Stemming-Tokenizer für Englisch aus, der Lichtstieling ausführt. |
lightFinnish |
string |
Wählt den Lucene-Stemming-Tokenizer für Finnisch aus, der leichte Stängelvorgänge ausführt. |
lightFrench |
string |
Wählt den Lucene-Stemming-Tokenizer für Französisch aus, der lichte Stängelvorgänge durchführt. |
lightGerman |
string |
Wählt den Lucene-Stemming-Tokenizer für Deutsch aus, der leichte Stängelvorgänge ausführt. |
lightHungarian |
string |
Wählt den Lucene-Stemming-Tokenizer für Ungarisch aus, der leichte Stängelvorgänge ausführt. |
lightItalian |
string |
Wählt den Lucene-Stemming-Tokenizer für Italienisch aus, der Lichtstieling ausführt. |
lightNorwegian |
string |
Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Bokmål) aus, der Lichtstamming ausführt. |
lightNynorsk |
string |
Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Nynorsk) aus, der Lichtstamming ausführt. |
lightPortuguese |
string |
Wählt den Lucene-Stemming-Tokenizer für Portugiesisch aus, der Lichtstieling ausführt. |
lightRussian |
string |
Wählt den Lucene-Stemming-Tokenizer für Russisch aus, der Lichtstieling ausführt. |
lightSpanish |
string |
Wählt den Lucene-Stemming-Tokenizer für Spanisch aus, der leichte Stängelvorgänge durchführt. |
lightSwedish |
string |
Wählt den Lucene-Stemming-Tokenizer für Schwedisch aus, der Lichtstieling ausführt. |
lovins |
string |
Wählt den Lucene-Stemming-Tokenizer für Englisch aus, der den Lovins-Stammmingalgorithmus verwendet. |
minimalEnglish |
string |
Wählt den Lucene-Stemming-Tokenizer für Englisch aus, der minimale Stammdatensätze ausführt. |
minimalFrench |
string |
Wählt den Lucene-Stemming-Tokenizer für Französisch aus, der minimale Stemmingvorgänge ausführt. |
minimalGalician |
string |
Wählt den Lucene-Stemming-Tokenizer für Galizisch aus, der minimale Stängelvorgänge ausführt. |
minimalGerman |
string |
Wählt den Lucene-Stemming-Tokenizer für Deutsch aus, der minimale Stammdatensätze ausführt. |
minimalNorwegian |
string |
Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Bokmål) aus, der minimale Stammming ausführt. |
minimalNynorsk |
string |
Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Nynorsk) aus, der minimale Stammming ausführt. |
minimalPortuguese |
string |
Wählt den Lucene-Stemming-Tokenizer für Portugiesisch aus, der minimale Stammdatensätze ausführt. |
norwegian |
string |
Wählt den Lucene-Stemming-Tokenizer für Norwegisch (Bokmål) aus. |
porter2 |
string |
Wählt den Lucene Stemming-Tokenizer für Englisch aus, der den Porter2-Stemmingalgorithmus verwendet. |
portuguese |
string |
Wählt den Lucene-Stemming-Tokenizer für Portugiesisch aus. |
portugueseRslp |
string |
Wählt den Lucene-Stemming-Tokenizer für Portugiesisch aus, der den RSLP-Stammmingalgorithmus verwendet. |
possessiveEnglish |
string |
Wählt den Lucene-Stemming-Tokenizer für Englisch aus, der nachfolgende Possessive aus Wörtern entfernt. |
romanian |
string |
Wählt den Lucene-Stemming-Tokenizer für Rumänisch aus. |
russian |
string |
Wählt den Lucene-Stemming-Tokenizer für Russisch aus. |
sorani |
string |
Wählt den Lucene-Stemming-Tokenizer für Sorani aus. |
spanish |
string |
Wählt den Lucene-Stemming-Tokenizer für Spanisch aus. |
swedish |
string |
Wählt den Lucene-Stemming-Tokenizer für Schwedisch aus. |
turkish |
string |
Wählt den Lucene-Stemming-Tokenizer für Türkisch aus. |
StopAnalyzer
Dividiert Text nicht in Buchstaben; Wendet die Kleinbuchstaben- und Stoppworttokenfilter an. Dieses Analysetool wird mit Apache Lucene implementiert.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Analysetools angibt. |
name |
string |
Der Name des Analysetools. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
stopwords |
string[] |
Eine Liste von Stoppwörtern. |
StopwordsList
Identifiziert eine vordefinierte Liste sprachspezifischer Stoppwörter.
Name | Typ | Beschreibung |
---|---|---|
arabic |
string |
Wählt die Stoppwortliste für Arabisch aus. |
armenian |
string |
Wählt die Stoppwortliste für Armenisch aus. |
basque |
string |
Wählt die Stoppwortliste für Baskisch aus. |
brazilian |
string |
Wählt die Stoppwortliste für Portugiesisch (Brasilien) aus. |
bulgarian |
string |
Wählt die Stoppwortliste für Bulgarisch aus. |
catalan |
string |
Wählt die Stoppwortliste für Katalanisch aus. |
czech |
string |
Wählt die Stoppwortliste für Tschechisch aus. |
danish |
string |
Wählt die Stoppwortliste für Dänisch aus. |
dutch |
string |
Wählt die Stoppwortliste für Niederländisch aus. |
english |
string |
Wählt die Stoppwortliste für Englisch aus. |
finnish |
string |
Wählt die Stoppwortliste für Finnisch aus. |
french |
string |
Wählt die Stoppwortliste für Französisch aus. |
galician |
string |
Wählt die Stoppwortliste für Galizisch aus. |
german |
string |
Wählt die Stoppwortliste für Deutsch aus. |
greek |
string |
Wählt die Stoppwortliste für Griechisch aus. |
hindi |
string |
Wählt die Stoppwortliste für Hindi aus. |
hungarian |
string |
Wählt die Stoppwortliste für Ungarisch aus. |
indonesian |
string |
Wählt die Stoppwortliste für Indonesisch aus. |
irish |
string |
Wählt die Stoppwortliste für Irisch aus. |
italian |
string |
Wählt die Stoppwortliste für Italienisch aus. |
latvian |
string |
Wählt die Stoppwortliste für Lettisch aus. |
norwegian |
string |
Wählt die Stoppwortliste für Norwegisch aus. |
persian |
string |
Wählt die Stoppwortliste für Persisch aus. |
portuguese |
string |
Wählt die Stoppwortliste für Portugiesisch aus. |
romanian |
string |
Wählt die Stoppwortliste für Rumänisch aus. |
russian |
string |
Wählt die Stoppwortliste für Russisch aus. |
sorani |
string |
Wählt die Stoppwortliste für Sorani aus. |
spanish |
string |
Wählt die Stoppwortliste für Spanisch aus. |
swedish |
string |
Wählt die Stoppwortliste für Schwedisch aus. |
thai |
string |
Wählt die Stoppwortliste für Thai aus. |
turkish |
string |
Wählt die Stoppwortliste für Türkisch aus. |
StopwordsTokenFilter
Entfernt Stoppwörter aus einem Tokenstream. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
ignoreCase |
boolean |
False |
Ein Wert, der angibt, ob die Groß-/Kleinschreibung ignoriert werden soll. Wenn true, werden alle Wörter zuerst in Kleinbuchstaben konvertiert. Der Standardwert ist "false". |
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
removeTrailing |
boolean |
True |
Ein Wert, der angibt, ob der letzte Suchbegriff ignoriert werden soll, wenn es sich um ein Stoppwort handelt. Der Standardwert ist "true". |
stopwords |
string[] |
Die Liste der Stoppwörter. Diese Eigenschaft und die stopwords list-Eigenschaft können nicht beide festgelegt werden. |
|
stopwordsList | english |
Eine vordefinierte Liste der zu verwendenden Stoppwörter. Diese Eigenschaft und die stopwords-Eigenschaft können nicht beide festgelegt werden. Der Standardwert ist Englisch. |
Suggester
Definiert, wie die Vorschlags-API auf eine Gruppe von Feldern im Index angewendet werden soll.
Name | Typ | Beschreibung |
---|---|---|
name |
string |
Der Name der Vorschlagsfunktion. |
searchMode |
Ein -Wert, der die Funktionen der Vorschlagsfunktion angibt. |
|
sourceFields |
string[] |
Die Liste der Feldnamen, auf die die Vorschlagsfunktion angewendet wird. Jedes Feld muss durchsuchbar sein. |
SuggesterSearchMode
Ein Wert, der die Funktionen des Vorschlags angibt.
Name | Typ | Beschreibung |
---|---|---|
analyzingInfixMatching |
string |
Gleicht aufeinanderfolgende ganze Begriffe und Präfixe in einem Feld ab. Für das Feld "Der schnellste braune Fuchs" würden beispielsweise die Abfragen "schnell" und "schnellste Stirn" übereinstimmen. |
SynonymTokenFilter
Entspricht Synonymen mit einzelnen oder mehreren Wörtern in einem Tokenstream. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
expand |
boolean |
True |
Ein -Wert, der angibt, ob alle Wörter in der Liste der Synonyme (wenn => Notation nicht verwendet wird) einander zugeordnet werden. Wenn true, werden alle Wörter in der Liste der Synonyme (wenn => Notation nicht verwendet wird) einander zugeordnet. Die folgende Liste: incredible, incrediblee, fabulous, amazing ist gleichbedeutend mit: incredible, incrediblee, fabulous, amazing => incredible, incrediblee, fabulous, amazing. Wenn falsch, die folgende Liste: unglaublich, unglaublich, fabelhaft, erstaunlich ist gleichbedeutend mit: incredible, incrediblee, fabulous, amazing => incredible. Der Standardwert ist "true". |
ignoreCase |
boolean |
False |
Ein -Wert, der angibt, ob die Eingabe für den Abgleich mit Groß-/Kleinschreibung gefaltet werden soll. Der Standardwert ist "false". |
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
synonyms |
string[] |
Eine Liste von Synonymen in einem von zwei Formaten: 1. incredible, incrediblee, fabulous => amazing - alle Begriffe auf der linken Seite von => Symbol werden durch alle Begriffe auf der rechten Seite ersetzt; 2. unglaublich, unglaublich, fabelhaft, erstaunlich - durch Trennzeichen getrennte Liste der äquivalenten Wörter. Legen Sie die expand-Option fest, um zu ändern, wie diese Liste interpretiert wird. |
TagScoringFunction
Definiert eine Funktion, die die Bewertungen von Dokumenten mit Zeichenfolgenwerten erhöht, die einer angegebenen Liste von Tags entsprechen.
Name | Typ | Beschreibung |
---|---|---|
boost |
number |
Ein Multiplikator für die Rohbewertung. Muss eine positive Zahl sein, die nicht gleich 1,0 ist. |
fieldName |
string |
Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird. |
interpolation |
Ein Wert, der angibt, wie die Verstärkung über Dokumentbewertungen hinweg interpoliert wird; wird standardmäßig auf "Linear" festgelegt. |
|
tag |
Parameterwerte für die Tagbewertungsfunktion. |
|
type |
string:
tag |
Gibt den Typ der zu verwendenden Funktion an. Gültige Werte sind „magnitude“, „freshness“, „distance“ und „tag“. Der Funktionstyp muss klein geschrieben werden. |
TagScoringParameters
Stellt Parameterwerte für eine Tagbewertungsfunktion bereit.
Name | Typ | Beschreibung |
---|---|---|
tagsParameter |
string |
Der Name des Parameters, der in Suchabfragen übergeben wird, um die Liste der Tags anzugeben, die mit dem Zielfeld verglichen werden sollen. |
TextWeights
Definiert Gewichtungen für Indexfelder, für die Übereinstimmungen die Bewertung in Suchabfragen erhöhen sollen.
Name | Typ | Beschreibung |
---|---|---|
weights |
object |
Das Wörterbuch der Feldgewichtungen, um die Dokumentbewertung zu erhöhen. Die Schlüssel sind Feldnamen, und die Werte sind die Gewichtungen für jedes Feld. |
TokenCharacterKind
Stellt Klassen von Zeichen dar, für die ein Tokenfilter verwendet werden kann.
Name | Typ | Beschreibung |
---|---|---|
digit |
string |
Behält Ziffern in Token bei. |
letter |
string |
Behält Buchstaben in Token bei. |
punctuation |
string |
Behält interpunktion in Token bei. |
symbol |
string |
Behält Symbole in Token bei. |
whitespace |
string |
Behält Leerzeichen in Token bei. |
TokenFilterName
Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
apostrophe |
string |
Entfernt alle Zeichen nach einem Apostroph (einschließlich des Apostrophs). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html. |
arabic_normalization |
string |
Ein Tokenfilter, der den Normalisierer für arabische Sprachen anwendet, um die Orthographie zu normalisieren. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html. |
asciifolding |
string |
Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, sofern solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html. |
cjk_bigram |
string |
Bildet bigrams von CJK-Begriffen, die aus dem Standardtokenizer generiert werden. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html. |
cjk_width |
string |
Normalisiert CJK-Breitenabweichungen. Faltet fullwidth ASCII-Varianten in die äquivalenten Basis-Latin- und halbbreiten Katakana-Varianten in die äquivalente Kana. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html. |
classic |
string |
Entfernt englische Possessive und Punkte aus Akronymen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html. |
common_grams |
string |
Konstruiert Bigramme für häufig vorkommende Begriffe während der Indexierung. Einzelne Begriffe werden ebenfalls indexiert und mit Bigrammen überlagert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html. |
edgeNGram_v2 |
string |
Generiert n-Gramm der angegebenen Größe(n), beginnend von der Vorder- oder Rückseite eines Eingabetokens. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html. |
elision |
string |
Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html. |
german_normalization |
string |
Normalisiert deutsche Zeichen gemäß der Heuristik des German2-Schneeballalgorithmus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html. |
hindi_normalization |
string |
Normalisiert Text in Hindi, um einige Unterschiede in der Schreibweise zu beseitigen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html. |
indic_normalization |
string |
Normalisiert die Unicode-Darstellung von Text in indischen Sprachen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html. |
keyword_repeat |
string |
Gibt jedes eingehende Token zweimal aus, einmal als Schlüsselwort (keyword) und einmal als nicht Schlüsselwort (keyword). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html. |
kstem |
string |
Ein Hochleistungs-Kstem-Filter für Englisch. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html. |
length |
string |
Entfernt die Wörter, die zu lang oder zu kurz sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html. |
limit |
string |
Beschränkt die Anzahl der Token während der Indizierung. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html. |
lowercase |
string |
Normalisiert den Tokentext in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html. |
nGram_v2 |
string |
Generiert N-Gramme einer festgelegten Größe. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html. |
persian_normalization |
string |
Wendet die Normalisierung für Persisch an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html. |
phonetic |
string |
Erstellt Token für phonetische Übereinstimmungen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html. |
porter_stem |
string |
Verwendet den Porter-Stemmingalgorithmus, um den Tokenstream zu transformieren. Siehe http://tartarus.org/~martin/PorterStemmer. |
reverse |
string |
Kehrt die Tokenzeichenfolge um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html. |
scandinavian_folding |
string |
Faltet skandinavische Zeichen åÅäæÄÆ->a und öÖøØ->o. Es unterscheidet auch die Verwendung von doppelten Vokalen aa, ae, ae, ao, ao, oe und oo, wobei nur der erste übrig bleibt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html. |
scandinavian_normalization |
string |
Normalisiert die Verwendung der austauschbar skandinavische Zeichen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html. |
shingle |
string |
Kombiniert Token zu einem einzelnen Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html. |
snowball |
string |
Ein Filter, der Wörter mithilfe eines von Snowball generierten Stemmers vorgibt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html. |
sorani_normalization |
string |
Normalisiert die Unicode-Darstellung von Text in Sorani. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html. |
stemmer |
string |
Sprachspezifischer Stammfilter. Siehe https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters. |
stopwords |
string |
Entfernt Stoppwörter aus einem Tokenstream. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html. |
trim |
string |
Entfernt führende und nachfolgende Leerzeichen aus Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html. |
truncate |
string |
Schneidet die Begriffe auf eine bestimmte Länge ab. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html. |
unique |
string |
Filtert Token mit dem gleichen Text wie das vorherige Token heraus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html. |
uppercase |
string |
Normalisiert Tokentext in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html. |
word_delimiter |
string |
Unterteilt Wörter in Teilwörter und führt optionale Transformationen in Teilwortgruppen durch. |
TruncateTokenFilter
Schneidet die Begriffe auf eine bestimmte Länge ab. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
length |
integer |
300 |
Die Länge, in der Begriffe abgeschnitten werden. Standard und Maximum ist 300. |
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
UaxUrlEmailTokenizer
Tokenisiert URLs und E-Mails als ein Token. Dieser Tokenizer wird mithilfe von Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Tokenizertyp angibt. |
|
maxTokenLength |
integer |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die die maximale Länge überschreiten, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
name |
string |
Der Name des Tokenizers. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
UniqueTokenFilter
Filtert Token mit dem gleichen Text wie das vorherige Token heraus. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
onlyOnSamePosition |
boolean |
False |
Ein Wert, der angibt, ob Duplikate nur an derselben Position entfernt werden sollen. Der Standardwert ist "false". |
VectorSearch
Enthält Konfigurationsoptionen im Zusammenhang mit der Vektorsuche.
Name | Typ | Beschreibung |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Enthält Spezifische Konfigurationsoptionen für den Algorithmus, der während der Indizierung oder Abfrage verwendet wird. |
profiles |
Definiert Kombinationen von Konfigurationen, die mit der Vektorsuche verwendet werden sollen. |
|
vectorizers | VectorSearchVectorizer[]: |
Enthält Konfigurationsoptionen zum Vektorisieren von Textvektorabfragen. |
VectorSearchAlgorithmKind
Der Algorithmus, der für die Indizierung und Abfrage verwendet wird.
Name | Typ | Beschreibung |
---|---|---|
exhaustiveKnn |
string |
Umfassender KNN-Algorithmus, der Brute-Force-Suche ausführt. |
hnsw |
string |
HNSW (Hierarchisch navigable Small World), eine Art ungefährer Nachbaralgorithmus |
VectorSearchAlgorithmMetric
Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll.
Name | Typ | Beschreibung |
---|---|---|
cosine |
string |
|
dotProduct |
string |
|
euclidean |
string |
VectorSearchProfile
Definiert eine Kombination von Konfigurationen, die mit der Vektorsuche verwendet werden sollen.
Name | Typ | Beschreibung |
---|---|---|
algorithm |
string |
Der Name der Konfiguration des Vektorsuchalgorithmus, die den Algorithmus und optionale Parameter angibt. |
name |
string |
Der Name, der diesem bestimmten Vektorsuchprofil zugeordnet werden soll. |
vectorizer |
string |
Der Name der Art der Vektorisierungsmethode, die für die Verwendung mit der Vektorsuche konfiguriert wird. |
VectorSearchVectorizerKind
Die Vektorisierungsmethode, die während der Abfragezeit verwendet werden soll.
Name | Typ | Beschreibung |
---|---|---|
azureOpenAI |
string |
Generieren Sie Einbettungen mithilfe einer Azure OpenAI-Ressource zur Abfragezeit. |
customWebApi |
string |
Generieren Sie Einbettungen mithilfe eines benutzerdefinierten Webendpunkts zur Abfragezeit. |
WordDelimiterTokenFilter
Unterteilt Wörter in Teilwörter und führt optionale Transformationen in Teilwortgruppen durch. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
catenateAll |
boolean |
False |
Ein -Wert, der angibt, ob alle Teilwortteile kategorisiert werden. Wenn dies beispielsweise auf true festgelegt ist, wird "Azure-Search-1" zu "AzureSearch1". Der Standardwert ist "false". |
catenateNumbers |
boolean |
False |
Ein -Wert, der angibt, ob maximale Ausführungen von Zahlenteilen kategorisiert werden. Wenn dies beispielsweise auf TRUE festgelegt ist, wird "1-2" zu "12". Der Standardwert ist "false". |
catenateWords |
boolean |
False |
Ein -Wert, der angibt, ob maximale Ausführungen von Wortteilen kategorisiert werden. Wenn dies beispielsweise auf true festgelegt ist, wird "Azure-Search" zu "AzureSearch". Der Standardwert ist "false". |
generateNumberParts |
boolean |
True |
Ein -Wert, der angibt, ob Zahlenunterwörter generiert werden sollen. Der Standardwert ist "true". |
generateWordParts |
boolean |
True |
Ein -Wert, der angibt, ob Teilwörter generiert werden sollen. Wenn festgelegt, werden Teile von Wörtern generiert; beispielsweise wird "AzureSearch" zu "Azure" "Search". Der Standardwert ist "true". |
name |
string |
Der Name des Tokenfilters. Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein. |
|
preserveOriginal |
boolean |
False |
Ein -Wert, der angibt, ob ursprüngliche Wörter beibehalten und der Unterwortliste hinzugefügt werden. Der Standardwert ist "false". |
protectedWords |
string[] |
Eine Liste der Token, die vor dem Trennen geschützt werden sollen. |
|
splitOnCaseChange |
boolean |
True |
Ein -Wert, der angibt, ob Wörter in caseChange aufgeteilt werden sollen. Wenn dies beispielsweise auf TRUE festgelegt ist, wird "AzureSearch" zu "Azure" "Search". Der Standardwert ist "true". |
splitOnNumerics |
boolean |
True |
Ein Wert, der angibt, ob auf Zahlen aufgeteilt werden soll. Wenn dies beispielsweise auf true festgelegt ist, wird "Azure1Search" zu "Azure" "1" "Search". Der Standardwert ist "true". |
stemEnglishPossessive |
boolean |
True |
Ein Wert, der angibt, ob nachfolgende "'s" für jedes Unterwort entfernt werden sollen. Der Standardwert ist "true". |