Indexes - Create
Crea un nuovo indice di ricerca.
POST {endpoint}/indexes?api-version=2024-05-01-preview
Parametri dell'URI
Nome | In | Necessario | Tipo | Descrizione |
---|---|---|---|---|
endpoint
|
path | True |
string |
URL dell'endpoint del servizio di ricerca. |
api-version
|
query | True |
string |
Versione api client. |
Intestazione della richiesta
Nome | Necessario | Tipo | Descrizione |
---|---|---|---|
x-ms-client-request-id |
string uuid |
ID di rilevamento inviato con la richiesta di assistenza per il debug. |
Corpo della richiesta
Nome | Necessario | Tipo | Descrizione |
---|---|---|---|
fields | True |
Campi dell'indice. |
|
name | True |
string |
Nome dell'indice. |
@odata.etag |
string |
ETag dell'indice. |
|
analyzers | LexicalAnalyzer[]: |
Analizzatori per l'indice. |
|
charFilters | CharFilter[]: |
I filtri di caratteri per l'indice. |
|
corsOptions |
Opzioni per controllare la condivisione di risorse tra le origini (CORS) per l'indice. |
||
defaultScoringProfile |
string |
Nome del profilo di punteggio da usare se non è specificato alcuno nella query. Se questa proprietà non è impostata e nella query non viene specificato alcun profilo di punteggio, verrà usato il punteggio predefinito (tf-idf). |
|
encryptionKey |
Descrizione di una chiave di crittografia creata in Azure Key Vault. Questa chiave viene usata per fornire un livello aggiuntivo di crittografia dei dati inattivi quando si vuole garantire che nessuno, nemmeno Microsoft, possa decrittografare i dati. Dopo aver crittografato i dati, i dati rimarranno sempre crittografati. Il servizio di ricerca ignorerà i tentativi di impostare questa proprietà su Null. È possibile modificare questa proprietà in base alle esigenze se si vuole ruotare la chiave di crittografia; I dati non saranno interessati. La crittografia con chiavi gestite dal cliente non è disponibile per i servizi di ricerca gratuiti ed è disponibile solo per i servizi a pagamento creati il 1° gennaio 2019. |
||
normalizers | LexicalNormalizer[]: |
Normalizzatori per l'indice. |
|
scoringProfiles |
Profili di punteggio per l'indice. |
||
semantic |
Definisce i parametri per un indice di ricerca che influiscono sulle funzionalità semantiche. |
||
similarity | Similarity: |
Tipo di algoritmo di somiglianza da usare per l'assegnazione dei punteggi e la classificazione dei documenti corrispondenti a una query di ricerca. L'algoritmo di somiglianza può essere definito solo in fase di creazione dell'indice e non può essere modificato negli indici esistenti. Se null, viene usato l'algoritmo ClassicSimilarity. |
|
suggesters |
Suggerimenti per l'indice. |
||
tokenFilters |
TokenFilter[]:
|
Il token filtra l'indice. |
|
tokenizers | LexicalTokenizer[]: |
Tokenizer per l'indice. |
|
vectorSearch |
Contiene le opzioni di configurazione correlate alla ricerca vettoriale. |
Risposte
Nome | Tipo | Descrizione |
---|---|---|
201 Created | ||
Other Status Codes |
Risposta di errore. |
Esempio
SearchServiceCreateIndex
Esempio di richiesta
POST https://myservice.search.windows.net/indexes?api-version=2024-05-01-preview
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myCompressedHnswProfile"
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myCompressedHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "nameEmbedding",
"type": "Collection(Edm.Half)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": "<applicationSecret>"
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myCompressedHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi",
"compression": "mySQ8"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine",
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey"
}
}
]
}
}
Risposta di esempio
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myCompressedHnswProfile",
"synonymMaps": []
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myCompressedHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "nameEmbedding",
"type": "Collection(Edm.Half)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2",
"tokenFilters": []
}
],
"tokenizers": [],
"normalizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"defaultConfiguration": null,
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myCompressedHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi",
"compression": "mySQ8"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey",
"authIdentity": null
}
}
]
}
}
Definizioni
Nome | Descrizione |
---|---|
AIServices |
Specifica i parametri di Visione di AI Services per la vettorizzazione di un'immagine o di un testo di query. |
AIServices |
Specifica i parametri di Visione di AI Services per la vettorizzazione di un'immagine o di un testo di query. |
AIStudio |
Nome del modello di incorporamento dal catalogo Studio AI della piattaforma Azure che verrà chiamato. |
AMLParameters |
Specifica le proprietà per la connessione a un vettore AML. |
AMLVectorizer |
Specifica un endpoint di Azure Machine Learning distribuito tramite il catalogo dei modelli di Studio AI della piattaforma Azure per generare l'incorporamento vettoriale di una stringa di query. |
Ascii |
Converte caratteri Unicode alfabetici, numerici e simbolici che non sono nei primi 127 caratteri ASCII (il blocco Unicode "Basic Latin" ) nei relativi equivalenti ASCII, se tali equivalenti esistono. Questo filtro token viene implementato usando Apache Lucene. |
Azure |
Credenziali di un'applicazione registrata creata per il servizio di ricerca, usata per l'accesso autenticato alle chiavi di crittografia archiviate in Azure Key Vault. |
Azure |
Consente di generare un incorporamento vettoriale per un determinato input di testo usando la risorsa Azure OpenAI. |
Azure |
Nome del modello di Azure Open AI che verrà chiamato. |
Azure |
Specifica i parametri per la connessione alla risorsa OpenAI di Azure. |
Azure |
Specifica la risorsa OpenAI di Azure usata per vettorizzare una stringa di query. |
BM25Similarity |
Funzione di classificazione basata sull'algoritmo di somiglianza okapi BM25. BM25 è un algoritmo simile a TF-IDF che include la normalizzazione della lunghezza (controllata dal parametro 'b') e la saturazione della frequenza dei termini (controllata dal parametro 'k1'). |
Char |
Definisce i nomi di tutti i filtri di caratteri supportati dal motore di ricerca. |
Cjk |
Forms bigram dei termini CJK generati dal tokenizer standard. Questo filtro token viene implementato usando Apache Lucene. |
Cjk |
Script che possono essere ignorati da CjkBigramTokenFilter. |
Classic |
Algoritmo di somiglianza legacy che usa l'implementazione di TFIDFSimilarity lucene di TF-IDF. Questa variante di TF-IDF introduce la normalizzazione della lunghezza dei documenti statici e il coordinamento dei fattori che penalizzano i documenti che corrispondono solo parzialmente alle query di ricerca. |
Classic |
Tokenizzatore basato su grammatica adatto per l'elaborazione della maggior parte dei documenti in lingua europea. Questo tokenizzatore viene implementato usando Apache Lucene. |
Common |
Costruisce digrammi per i termini frequenti durante l'indicizzazione. Anche i termini singoli continuano a essere indicizzati, con i digrammi sovrapposti. Questo filtro token viene implementato usando Apache Lucene. |
Cors |
Definisce le opzioni per controllare la condivisione di risorse tra le origini (CORS) per un indice. |
Custom |
Consente di controllare il processo di conversione del testo in token indicizzati/ricercabili. Si tratta di una configurazione definita dall'utente costituita da un singolo tokenizzatore predefinito e uno o più filtri. Il tokenizer è responsabile dell'interruzione del testo nei token e dei filtri per la modifica dei token generati dal tokenizer. |
Custom |
Consente di configurare la normalizzazione per i campi filtrabili, ordinabili e visobili, che per impostazione predefinita operano con corrispondenza rigorosa. Si tratta di una configurazione definita dall'utente costituita da almeno uno o più filtri, che modificano il token archiviato. |
Custom |
Specifica un vettore definito dall'utente per generare l'incorporamento del vettore di una stringa di query. L'integrazione di un vettore esterno viene ottenuta usando l'interfaccia api Web personalizzata di un set di competenze. |
Custom |
Specifica le proprietà per la connessione a un vettore definito dall'utente. |
Dictionary |
Scompone le parole composte presenti in molte lingue germaniche. Questo filtro token viene implementato usando Apache Lucene. |
Distance |
Definisce una funzione che aumenta i punteggi in base alla distanza da una posizione geografica. |
Distance |
Fornisce i valori dei parametri a una funzione di assegnazione dei punteggi per la distanza. |
Edge |
Genera n-grammi delle dimensioni specificate a partire dalla parte anteriore o posteriore di un token di input. Questo filtro di token viene implementato usando Apache Lucene. |
Edge |
Specifica il lato dell'input da cui deve essere generato un n-gram. |
Edge |
Genera n-grammi delle dimensioni specificate a partire dalla parte anteriore o posteriore di un token di input. Questo filtro di token viene implementato usando Apache Lucene. |
Edge |
Tokenzza l'input da un bordo in n-grammi delle dimensioni specificate. Questo tokenizzatore viene implementato usando Apache Lucene. |
Elision |
Rimuove le elisioni. Ad esempio, "l'avion" (piano) verrà convertito in "avion" (piano). Questo filtro di token viene implementato usando Apache Lucene. |
Error |
Informazioni aggiuntive sull'errore di gestione delle risorse. |
Error |
Dettagli dell'errore. |
Error |
Risposta di errore |
Exhaustive |
Contiene i parametri specifici dell'algoritmo KNN completo. |
Exhaustive |
Contiene opzioni di configurazione specifiche dell'algoritmo KNN completo usato durante l'esecuzione di query, che eseguirà la ricerca di forza bruta nell'intero indice vettore. |
Freshness |
Definisce una funzione che aumenta i punteggi in base al valore di un campo data-ora. |
Freshness |
Fornisce i valori dei parametri a una funzione di assegnazione dei punteggi di aggiornamento. |
Hnsw |
Contiene i parametri specifici dell'algoritmo HNSW. |
Hnsw |
Contiene opzioni di configurazione specifiche per l'algoritmo HNSW approssimativo più vicino usato durante l'indicizzazione e la query. L'algoritmo HNSW offre un compromesso tra velocità di ricerca e accuratezza. |
Input |
Mapping dei campi di input per una competenza. |
Keep |
Filtro token che mantiene solo i token con testo contenuto in un elenco specificato di parole. Questo filtro di token viene implementato usando Apache Lucene. |
Keyword |
Contrassegna i termini come parole chiave. Questo filtro di token viene implementato usando Apache Lucene. |
Keyword |
Genera l'intero input come token singolo. Questo tokenizzatore viene implementato usando Apache Lucene. |
Keyword |
Genera l'intero input come token singolo. Questo tokenizzatore viene implementato usando Apache Lucene. |
Length |
Rimuove le parole troppo lunghe o troppo corte. Questo filtro di token viene implementato usando Apache Lucene. |
Lexical |
Definisce i nomi di tutti gli analizzatori di testo supportati dal motore di ricerca. |
Lexical |
Definisce i nomi di tutti i normalizzatori di testo supportati dal motore di ricerca. |
Lexical |
Definisce i nomi di tutti i tokenizzatori supportati dal motore di ricerca. |
Limit |
Limita il numero di token durante l'indicizzazione. Questo filtro di token viene implementato usando Apache Lucene. |
Lucene |
Analizzatore Apache Lucene standard; Composto dal tokenizer standard, dal filtro minuscolo e dal filtro di arresto. |
Lucene |
Suddivide il testo in base alle regole di segmentazione del testo Unicode. Questo tokenizzatore viene implementato usando Apache Lucene. |
Lucene |
Suddivide il testo in base alle regole di segmentazione del testo Unicode. Questo tokenizzatore viene implementato usando Apache Lucene. |
Magnitude |
Definisce una funzione che aumenta i punteggi in base alla grandezza di un campo numerico. |
Magnitude |
Fornisce i valori dei parametri a una funzione di assegnazione dei punteggi di grandezza. |
Mapping |
Filtro di caratteri che applica mapping definiti con l'opzione mapping. La corrispondenza è greedy. I criteri di ricerca più lunghi in un determinato punto hanno la precedenza. È consentita la sostituzione con una stringa vuota. Questo filtro di caratteri viene implementato usando Apache Lucene. |
Microsoft |
Divide il testo usando regole specifiche della lingua e riduce le parole alle relative forme di base. |
Microsoft |
Divide il testo usando le regole specifiche della lingua. |
Microsoft |
Elenchi le lingue supportate dal tokenizer di stemming della lingua Microsoft. |
Microsoft |
Elenchi le lingue supportate dal tokenizzatore di lingua Microsoft. |
NGram |
Genera n-grammi delle dimensioni specificate. Questo filtro di token viene implementato usando Apache Lucene. |
NGram |
Genera n-grammi delle dimensioni specificate. Questo filtro di token viene implementato usando Apache Lucene. |
NGram |
Suddivide in token l'input in n-grammi di determinate dimensioni. Questo tokenizzatore viene implementato usando Apache Lucene. |
Output |
Mapping dei campi di output per una competenza. |
Path |
Tokenizer per le gerarchie di tipo percorso. Questo tokenizzatore viene implementato usando Apache Lucene. |
Pattern |
Separa in modo flessibile il testo in termini tramite un modello di espressione regolare. Questo analizzatore viene implementato usando Apache Lucene. |
Pattern |
Usa le espressioni regolari Java per generare più token, uno per ogni gruppo di acquisizione in uno o più modelli. Questo filtro token viene implementato usando Apache Lucene. |
Pattern |
Filtro di caratteri che sostituisce i caratteri nella stringa di input. Usa un'espressione regolare per identificare le sequenze di caratteri da conservare e un criterio di sostituzione per identificare i caratteri da sostituire. Ad esempio, dato il testo di input "aa bb aa bb", pattern "(aa)\s+(bb)" e sostituzione "$1#$2", il risultato sarà "aa#bb aa#bb aa#bb". Questo filtro di caratteri viene implementato usando Apache Lucene. |
Pattern |
Filtro di caratteri che sostituisce i caratteri nella stringa di input. Usa un'espressione regolare per identificare le sequenze di caratteri da conservare e un criterio di sostituzione per identificare i caratteri da sostituire. Ad esempio, dato il testo di input "aa bb aa bb", pattern "(aa)\s+(bb)" e sostituzione "$1#$2", il risultato sarà "aa#bb aa#bb aa#bb". Questo filtro token viene implementato usando Apache Lucene. |
Pattern |
Tokenizer che usa il modello regex corrispondente per costruire token distinti. Questo tokenizzatore viene implementato usando Apache Lucene. |
Phonetic |
Identifica il tipo di codificatore fonetico da usare con phoneticTokenFilter. |
Phonetic |
Crea i token per le corrispondenze fonetiche. Questo filtro token viene implementato usando Apache Lucene. |
Prioritized |
Descrive i campi titolo, contenuto e parole chiave da usare per la classificazione semantica, le didascalie, le evidenziazioni e le risposte. |
Regex |
Definisce i flag che possono essere combinati per controllare la modalità di utilizzo delle espressioni regolari nell'analizzatore dei criteri e nel tokenizer di criteri. |
Scalar |
Contiene i parametri specifici della quantizzazione scalare. |
Scalar |
Contiene opzioni di configurazione specifiche del metodo di compressione della quantizzazione scalare utilizzato durante l'indicizzazione e l'esecuzione di query. |
Scoring |
Definisce la funzione di aggregazione usata per combinare i risultati di tutte le funzioni di assegnazione dei punteggi in un profilo di assegnazione dei punteggi. |
Scoring |
Definisce la funzione usata per interpolare il boosting dei punteggi in un intervallo di documenti. |
Scoring |
Definisce i parametri per un indice di ricerca che influisce sul punteggio nelle query di ricerca. |
Search |
Rappresenta un campo in una definizione di indice, che descrive il nome, il tipo di dati e il comportamento di ricerca di un campo. |
Search |
Definisce il tipo di dati di un campo in un indice di ricerca. |
Search |
Rappresenta una definizione dell'indice di ricerca, che descrive i campi e il comportamento di ricerca di un indice. |
Search |
Cancella la proprietà identity di un'origine dati. |
Search |
Specifica l'identità da usare per un'origine dati. |
Search |
Una chiave di crittografia gestita dal cliente in Azure Key Vault. Le chiavi create e gestite possono essere usate per crittografare o decrittografare i dati inattivi, ad esempio indici e mappe sinonimi. |
Semantic |
Definisce una configurazione specifica da usare nel contesto delle funzionalità semantiche. |
Semantic |
Campo utilizzato come parte della configurazione semantica. |
Semantic |
Definisce i parametri per un indice di ricerca che influiscono sulle funzionalità semantiche. |
Shingle |
Crea combinazioni di token come token singolo. Questo filtro token viene implementato usando Apache Lucene. |
Snowball |
Filtro che deriva le parole usando uno stemmer generato da Snowball. Questo filtro token viene implementato usando Apache Lucene. |
Snowball |
Lingua da usare per un filtro di token Snowball. |
Stemmer |
Consente di eseguire l'override di altri filtri di stemming con stemmi personalizzati basati su dizionario. Tutti i termini con stemmi del dizionario verranno contrassegnati come parole chiave in modo che non vengano stemmati con stemmer lungo la catena. Da inserire prima dei filtri di stemming. Questo filtro token viene implementato usando Apache Lucene. |
Stemmer |
Filtro di stemming specifico della lingua. Questo filtro token viene implementato usando Apache Lucene. |
Stemmer |
Lingua da usare per un filtro token stemmer. |
Stop |
Divide il testo in lettere non lettere; Applica i filtri token minuscoli e stopword. Questo analizzatore viene implementato usando Apache Lucene. |
Stopwords |
Identifica un elenco predefinito di parole non significative specifiche della lingua. |
Stopwords |
Rimuove le parole non significative da un flusso di token. Questo filtro token viene implementato usando Apache Lucene. |
Suggester |
Definisce il modo in cui l'API Suggerisci deve essere applicata a un gruppo di campi nell'indice. |
Suggester |
Valore che indica le funzionalità del suggeritore. |
Synonym |
Corrisponde a sinonimi singoli o multi word in un flusso di token. Questo filtro token viene implementato usando Apache Lucene. |
Tag |
Definisce una funzione che aumenta i punteggi dei documenti con valori stringa corrispondenti a un determinato elenco di tag. |
Tag |
Fornisce i valori dei parametri a una funzione di assegnazione dei punteggi di tag. |
Text |
Definisce i pesi sui campi di indice per i quali le corrispondenze dovrebbero aumentare il punteggio nelle query di ricerca. |
Token |
Rappresenta le classi di caratteri in cui può funzionare un filtro token. |
Token |
Definisce i nomi di tutti i filtri token supportati dal motore di ricerca. |
Truncate |
Tronca i termini a una lunghezza specifica. Questo filtro token viene implementato usando Apache Lucene. |
Uax |
Suddivide in token gli URL e gli indirizzi di posta elettronica come un unico token. Questo tokenizzatore viene implementato usando Apache Lucene. |
Unique |
Filtra i token con lo stesso testo del token precedente. Questo filtro token viene implementato usando Apache Lucene. |
Vector |
Formato di codifica per interpretare il contenuto del campo vettore. |
Vector |
Contiene opzioni di configurazione correlate alla ricerca vettoriale. |
Vector |
Algoritmo utilizzato per l'indicizzazione e l'esecuzione di query. |
Vector |
Metrica di somiglianza da usare per i confronti tra vettori. È consigliabile scegliere la stessa metrica di somiglianza del modello di incorporamento su cui è stato eseguito il training. |
Vector |
Metodo di compressione utilizzato per l'indicizzazione e l'esecuzione di query. |
Vector |
Tipo di dati quantizzato di valori vettoriali compressi. |
Vector |
Definisce una combinazione di configurazioni da usare con la ricerca vettoriale. |
Vector |
Metodo di vettorizzazione da utilizzare durante il tempo di query. |
Word |
Suddivide le parole in sottoparole ed esegue trasformazioni facoltative sui gruppi di sottoparole. Questo filtro token viene implementato usando Apache Lucene. |
AIServicesVisionParameters
Specifica i parametri di Visione di AI Services per la vettorizzazione di un'immagine o di un testo di query.
Nome | Tipo | Descrizione |
---|---|---|
apiKey |
string |
Chiave API della risorsa di Servizi di intelligenza artificiale designata. |
authIdentity | SearchIndexerDataIdentity: |
Identità gestita assegnata dall'utente usata per le connessioni in uscita. Se viene specificato un authResourceId e non viene specificato, viene usata l'identità gestita assegnata dal sistema. Negli aggiornamenti all'indice, se l'identità non è specificata, il valore rimane invariato. Se impostato su "none", il valore di questa proprietà viene cancellato. |
modelVersion |
string |
Versione del modello da usare quando si chiama il servizio Visione artificiale di Servizi di intelligenza artificiale. L'impostazione predefinita sarà la versione più recente disponibile quando non è specificata. |
resourceUri |
string |
URI della risorsa servizi di intelligenza artificiale. |
AIServicesVisionVectorizer
Specifica i parametri di Visione di AI Services per la vettorizzazione di un'immagine o di un testo di query.
Nome | Tipo | Descrizione |
---|---|---|
aiServicesVisionParameters |
Contiene i parametri specifici per la vettorizzazione incorporamento di Visione di AI Services. |
|
kind |
string:
ai |
Nome del tipo di metodo di vettorializzazione configurato per l'uso con la ricerca vettoriale. |
name |
string |
Nome da associare a questo particolare metodo di vettorizzazione. |
AIStudioModelCatalogName
Nome del modello di incorporamento dal catalogo Studio AI della piattaforma Azure che verrà chiamato.
Nome | Tipo | Descrizione |
---|---|---|
Cohere-embed-v3-english |
string |
|
Cohere-embed-v3-multilingual |
string |
|
Facebook-DinoV2-Image-Embeddings-ViT-Base |
string |
|
Facebook-DinoV2-Image-Embeddings-ViT-Giant |
string |
|
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336 |
string |
|
OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32 |
string |
AMLParameters
Specifica le proprietà per la connessione a un vettore AML.
Nome | Tipo | Descrizione |
---|---|---|
key |
string |
(Obbligatorio per l'autenticazione della chiave) Chiave per il servizio AML. |
modelName |
Nome del modello di incorporamento dal catalogo Studio AI della piattaforma Azure distribuito nell'endpoint specificato. |
|
region |
string |
(Facoltativo per l'autenticazione token). L'area in cui viene distribuito il servizio AML. |
resourceId |
string |
(Obbligatorio per l'autenticazione token). ID risorsa di Azure Resource Manager del servizio AML. Deve essere nel formato sottoscrizioni/{guid}/resourceGroups/{resource-group-name}/Microsoft.MachineLearningServices/workspaces/{workspace-name}/services/{service_name}. |
timeout |
string |
(facoltativo) Se specificato, indica il timeout per il client HTTP che effettua la chiamata API. |
uri |
string |
(Obbligatorio per nessuna autenticazione o autenticazione della chiave) URI di assegnazione dei punteggi del servizio AML a cui verrà inviato il payload JSON. È consentito solo lo schema URI https. |
AMLVectorizer
Specifica un endpoint di Azure Machine Learning distribuito tramite il catalogo dei modelli di Studio AI della piattaforma Azure per generare l'incorporamento vettoriale di una stringa di query.
Nome | Tipo | Descrizione |
---|---|---|
amlParameters |
Specifica le proprietà del vettore AML. |
|
kind |
string:
aml |
Nome del tipo di metodo di vettorializzazione configurato per l'uso con la ricerca vettoriale. |
name |
string |
Nome da associare a questo particolare metodo di vettorizzazione. |
AsciiFoldingTokenFilter
Converte caratteri Unicode alfabetici, numerici e simbolici che non sono nei primi 127 caratteri ASCII (il blocco Unicode "Basic Latin" ) nei relativi equivalenti ASCII, se tali equivalenti esistono. Questo filtro token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di filtro del token. |
|
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
preserveOriginal |
boolean |
False |
Valore che indica se il token originale verrà mantenuto. L'impostazione predefinita è false. |
AzureActiveDirectoryApplicationCredentials
Credenziali di un'applicazione registrata creata per il servizio di ricerca, usata per l'accesso autenticato alle chiavi di crittografia archiviate in Azure Key Vault.
Nome | Tipo | Descrizione |
---|---|---|
applicationId |
string |
ID applicazione AAD che ha concesso le autorizzazioni di accesso necessarie all'Key Vault di Azure da usare durante la crittografia dei dati inattivi. L'ID applicazione non deve essere confuso con l'ID oggetto per l'applicazione AAD. |
applicationSecret |
string |
Chiave di autenticazione dell'applicazione AAD specificata. |
AzureOpenAIEmbeddingSkill
Consente di generare un incorporamento vettoriale per un determinato input di testo usando la risorsa Azure OpenAI.
Nome | Tipo | Descrizione |
---|---|---|
@odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di competenza. |
apiKey |
string |
Chiave API della risorsa OpenAI di Azure designata. |
authIdentity | SearchIndexerDataIdentity: |
Identità gestita assegnata dall'utente usata per le connessioni in uscita. |
context |
string |
Rappresenta il livello in cui vengono eseguite le operazioni, ad esempio la radice del documento o il contenuto del documento, ad esempio /document o /document/content. Il valore predefinito è /document. |
deploymentId |
string |
ID della distribuzione del modello OpenAI di Azure nella risorsa designata. |
description |
string |
Descrizione della competenza che descrive gli input, gli output e l'utilizzo della competenza. |
dimensions |
integer |
Numero di dimensioni che devono essere presenti negli incorporamenti di output risultanti. Supportato solo nei modelli text-embedding-3 e versioni successive. |
inputs |
Gli input delle competenze possono essere una colonna nel set di dati di origine o l'output di una competenza upstream. |
|
modelName |
Nome del modello di incorporamento distribuito nel percorso deploymentId specificato. |
|
name |
string |
Nome della competenza che lo identifica in modo univoco all'interno del set di competenze. A una competenza senza nome definito verrà assegnato un nome predefinito del relativo indice basato su 1 nella matrice di competenze, preceduto dal carattere '#'. |
outputs |
L'output di una competenza è un campo in un indice di ricerca o un valore che può essere utilizzato come input da un'altra competenza. |
|
resourceUri |
string |
URI della risorsa OpenAI di Azure. |
AzureOpenAIModelName
Nome del modello di Azure Open AI che verrà chiamato.
Nome | Tipo | Descrizione |
---|---|---|
experimental |
string |
|
text-embedding-3-large |
string |
|
text-embedding-3-small |
string |
|
text-embedding-ada-002 |
string |
AzureOpenAIParameters
Specifica i parametri per la connessione alla risorsa OpenAI di Azure.
Nome | Tipo | Descrizione |
---|---|---|
apiKey |
string |
Chiave API della risorsa OpenAI di Azure designata. |
authIdentity | SearchIndexerDataIdentity: |
Identità gestita assegnata dall'utente usata per le connessioni in uscita. |
deploymentId |
string |
ID della distribuzione del modello OpenAI di Azure nella risorsa designata. |
modelName |
Nome del modello di incorporamento distribuito nel percorso deploymentId specificato. |
|
resourceUri |
string |
URI della risorsa OpenAI di Azure. |
AzureOpenAIVectorizer
Specifica la risorsa OpenAI di Azure usata per vettorizzare una stringa di query.
Nome | Tipo | Descrizione |
---|---|---|
azureOpenAIParameters | AzureOpenAIParameters: |
Contiene i parametri specifici per l'incorporamento di Azure OpenAI. |
kind |
string:
azure |
Nome del tipo di metodo di vettorializzazione configurato per l'uso con la ricerca vettoriale. |
name |
string |
Nome da associare a questo particolare metodo di vettorializzazione. |
BM25Similarity
Funzione di classificazione basata sull'algoritmo di somiglianza okapi BM25. BM25 è un algoritmo simile a TF-IDF che include la normalizzazione della lunghezza (controllata dal parametro 'b') e la saturazione della frequenza dei termini (controllata dal parametro 'k1').
Nome | Tipo | Descrizione |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Questa proprietà controlla il modo in cui la lunghezza di un documento influisce sul punteggio di pertinenza. Per impostazione predefinita, viene usato un valore pari a 0,75. Un valore pari a 0,0 indica che non viene applicata alcuna normalizzazione della lunghezza, mentre un valore pari a 1,0 indica che il punteggio è completamente normalizzato per la lunghezza del documento. |
k1 |
number |
Questa proprietà controlla la funzione di ridimensionamento tra la frequenza del termine di ogni termini corrispondenti e il punteggio di pertinenza finale di una coppia di query documento. Per impostazione predefinita, viene usato un valore 1.2. Un valore pari a 0,0 indica che il punteggio non viene ridimensionato con un aumento della frequenza del termine. |
CharFilterName
Definisce i nomi di tutti i filtri di caratteri supportati dal motore di ricerca.
Nome | Tipo | Descrizione |
---|---|---|
html_strip |
string |
Filtro di caratteri che tenta di rimuovere i costrutti HTML. Vedere https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Forms bigram dei termini CJK generati dal tokenizer standard. Questo filtro token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di filtro del token. |
|
ignoreScripts |
Script da ignorare. |
||
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
outputUnigrams |
boolean |
False |
Valore che indica se restituire sia unigrammi che bigrams (se true) o solo bigrams (se false). L'impostazione predefinita è false. |
CjkBigramTokenFilterScripts
Script che possono essere ignorati da CjkBigramTokenFilter.
Nome | Tipo | Descrizione |
---|---|---|
han |
string |
Ignorare lo script Han durante la creazione di bigram dei termini CJK. |
hangul |
string |
Ignorare lo script Hangul durante la creazione di bigram dei termini CJK. |
hiragana |
string |
Ignorare lo script Hiragana durante la creazione di bigram dei termini CJK. |
katakana |
string |
Ignorare lo script Katakana durante la creazione di bigram dei termini CJK. |
ClassicSimilarity
Algoritmo di somiglianza legacy che usa l'implementazione di TFIDFSimilarity lucene di TF-IDF. Questa variante di TF-IDF introduce la normalizzazione della lunghezza dei documenti statici e il coordinamento dei fattori che penalizzano i documenti che corrispondono solo parzialmente alle query di ricerca.
Nome | Tipo | Descrizione |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenizzatore basato su grammatica adatto per l'elaborazione della maggior parte dei documenti in lingua europea. Questo tokenizzatore viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di tokenizer. |
|
maxTokenLength |
integer |
255 |
Lunghezza massima del token. Il valore predefinito è 255. I token con lunghezza superiore a quella massima vengono suddivisi. La lunghezza massima del token che può essere usata è di 300 caratteri. |
name |
string |
Nome del tokenizer. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
CommonGramTokenFilter
Costruisce digrammi per i termini frequenti durante l'indicizzazione. Anche i termini singoli continuano a essere indicizzati, con i digrammi sovrapposti. Questo filtro token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di filtro del token. |
|
commonWords |
string[] |
Set di parole comuni. |
|
ignoreCase |
boolean |
False |
Valore che indica se le parole comuni corrispondenti saranno insensibili. L'impostazione predefinita è false. |
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
queryMode |
boolean |
False |
Valore che indica se il filtro del token è in modalità query. Quando in modalità query, il filtro token genera bigrams e quindi rimuove parole comuni e singoli termini seguiti da una parola comune. L'impostazione predefinita è false. |
CorsOptions
Definisce le opzioni per controllare la condivisione di risorse tra le origini (CORS) per un indice.
Nome | Tipo | Descrizione |
---|---|---|
allowedOrigins |
string[] |
Elenco di origini da cui al codice JavaScript verrà concesso l'accesso all'indice. Può contenere un elenco di host del modulo {protocol}://{fully-qualified-domain-name}[:{port#}], o un singolo '*' per consentire tutte le origini (scelta non consigliata). |
maxAgeInSeconds |
integer |
Durata per cui i browser devono memorizzare nella cache le risposte preliminari CORS. Il valore predefinito è 5 minuti. |
CustomAnalyzer
Consente di controllare il processo di conversione del testo in token indicizzati/ricercabili. Si tratta di una configurazione definita dall'utente costituita da un singolo tokenizzatore predefinito e uno o più filtri. Il tokenizer è responsabile dell'interruzione del testo nei token e dei filtri per la modifica dei token generati dal tokenizer.
Nome | Tipo | Descrizione |
---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di analizzatore. |
charFilters |
Elenco di filtri di caratteri usati per preparare il testo di input prima che venga elaborato dal tokenizer. ad esempio per sostituire determinati caratteri o simboli. I filtri vengono eseguiti nell'ordine in cui sono elencati. |
|
name |
string |
Nome dell'analizzatore. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
tokenFilters |
Elenco di filtri token usati per filtrare o modificare i token generati da un tokenizer. È possibile, ad esempio, specificare un filtro lowercase che converte tutti i caratteri in lettere minuscole. I filtri vengono eseguiti nell'ordine in cui sono elencati. |
|
tokenizer |
Nome del tokenizzatore da usare per dividere il testo continuo in una sequenza di token, ad esempio l'interruzione di una frase in parole. |
CustomNormalizer
Consente di configurare la normalizzazione per i campi filtrabili, ordinabili e visobili, che per impostazione predefinita operano con corrispondenza rigorosa. Si tratta di una configurazione definita dall'utente costituita da almeno uno o più filtri, che modificano il token archiviato.
Nome | Tipo | Descrizione |
---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di normalizzatore. |
charFilters |
Elenco di filtri di caratteri usati per preparare il testo di input prima dell'elaborazione. ad esempio per sostituire determinati caratteri o simboli. I filtri vengono eseguiti nell'ordine in cui sono elencati. |
|
name |
string |
Nome del normalizzatore. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. Non può terminare in '.microsoft' né '.lucene', né essere denominato 'asciifolding', 'standard', 'minuscolo', 'maiuscolo', 'elisione'. |
tokenFilters |
Elenco di filtri token usati per filtrare o modificare il token di input. È possibile, ad esempio, specificare un filtro lowercase che converte tutti i caratteri in lettere minuscole. I filtri vengono eseguiti nell'ordine in cui sono elencati. |
CustomVectorizer
Specifica un vettore definito dall'utente per generare l'incorporamento del vettore di una stringa di query. L'integrazione di un vettore esterno viene ottenuta usando l'interfaccia api Web personalizzata di un set di competenze.
Nome | Tipo | Descrizione |
---|---|---|
customWebApiParameters |
Specifica le proprietà del vettore definito dall'utente. |
|
kind |
string:
custom |
Nome del tipo di metodo di vettorializzazione configurato per l'uso con la ricerca vettoriale. |
name |
string |
Nome da associare a questo particolare metodo di vettorizzazione. |
CustomWebApiParameters
Specifica le proprietà per la connessione a un vettore definito dall'utente.
Nome | Tipo | Descrizione |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
Identità gestita assegnata dall'utente usata per le connessioni in uscita. Se viene specificato un authResourceId e non viene specificato, viene usata l'identità gestita assegnata dal sistema. Negli aggiornamenti all'indicizzatore, se l'identità non è specificata, il valore rimane invariato. Se impostato su "none", il valore di questa proprietà viene cancellato. |
authResourceId |
string |
Si applica agli endpoint personalizzati che si connettono a codice esterno in una funzione di Azure o a un'altra applicazione che fornisce le trasformazioni. Questo valore deve essere l'ID applicazione creato per la funzione o l'app quando è stato registrato con Azure Active Directory. Se specificata, la vettorizzazione si connette alla funzione o all'app usando un ID gestito (sistema o assegnato dall'utente) del servizio di ricerca e il token di accesso della funzione o dell'app, usando questo valore come ID risorsa per la creazione dell'ambito del token di accesso. |
httpHeaders |
object |
Intestazioni necessarie per effettuare la richiesta HTTP. |
httpMethod |
string |
Metodo per la richiesta HTTP. |
timeout |
string |
Timeout desiderato per la richiesta. Il valore predefinito è 30 secondi. |
uri |
string |
URI dell'API Web che fornisce il vettore. |
DictionaryDecompounderTokenFilter
Scompone le parole composte presenti in molte lingue germaniche. Questo filtro token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro del token. |
|
maxSubwordSize |
integer |
15 |
Dimensione massima della sottoword. Vengono restituite solo le parole secondarie più brevi di questa operazione. L'impostazione predefinita è 15. Il valore massimo è 300. |
minSubwordSize |
integer |
2 |
Dimensione minima della sottoword. Vengono restituite solo parole secondarie più lunghe di questa. Il valore predefinito è 2. Il massimo è 300. |
minWordSize |
integer |
5 |
Dimensione minima delle parole. Solo parole più lunghe di questa elaborazione. Il valore predefinito è 5. Il massimo è 300. |
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
onlyLongestMatch |
boolean |
False |
Valore che indica se aggiungere all'output solo la sottoword corrispondente più lunga. L'impostazione predefinita è false. |
wordList |
string[] |
Elenco di parole da associare. |
DistanceScoringFunction
Definisce una funzione che aumenta i punteggi in base alla distanza da una posizione geografica.
Nome | Tipo | Descrizione |
---|---|---|
boost |
number |
Moltiplicatore per il punteggio non elaborato. Deve essere un numero positivo non uguale a 1,0. |
distance |
Valori dei parametri per la funzione di assegnazione dei punteggi della distanza. |
|
fieldName |
string |
Nome del campo usato come input per la funzione di assegnazione dei punteggi. |
interpolation |
Valore che indica la modalità di interpolazione tra i punteggi dei documenti; impostazione predefinita "Lineare". |
|
type |
string:
distance |
Indica il tipo di funzione da usare. I valori validi includono magnitude, freshness, distance e tag. Il tipo di funzione deve essere minuscolo. |
DistanceScoringParameters
Fornisce i valori dei parametri a una funzione di assegnazione dei punteggi per la distanza.
Nome | Tipo | Descrizione |
---|---|---|
boostingDistance |
number |
Distanza in chilometri dalla posizione di riferimento in cui termina l'intervallo di boosting. |
referencePointParameter |
string |
Nome del parametro passato nelle query di ricerca per specificare il percorso di riferimento. |
EdgeNGramTokenFilter
Genera n-grammi delle dimensioni specificate a partire dalla parte anteriore o posteriore di un token di input. Questo filtro di token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro del token. |
|
maxGram |
integer |
2 |
Lunghezza massima di n grammi. Il valore predefinito è 2. |
minGram |
integer |
1 |
Lunghezza minima di n grammi. Il valore predefinito è 1. Deve essere minore del valore di maxGram. |
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
side | front |
Specifica il lato dell'input da cui deve essere generato il n-gram. Il valore predefinito è "front". |
EdgeNGramTokenFilterSide
Specifica il lato dell'input da cui deve essere generato un n-gram.
Nome | Tipo | Descrizione |
---|---|---|
back |
string |
Specifica che il n-gram deve essere generato dalla parte posteriore dell'input. |
front |
string |
Specifica che il n-gram deve essere generato dalla parte anteriore dell'input. |
EdgeNGramTokenFilterV2
Genera n-grammi delle dimensioni specificate a partire dalla parte anteriore o posteriore di un token di input. Questo filtro di token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro del token. |
|
maxGram |
integer |
2 |
Lunghezza massima di n grammi. Il valore predefinito è 2. Il valore massimo è 300. |
minGram |
integer |
1 |
Lunghezza minima di n grammi. Il valore predefinito è 1. Il valore massimo è 300. Deve essere minore del valore di maxGram. |
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
side | front |
Specifica il lato dell'input da cui deve essere generato il n-gram. Il valore predefinito è "front". |
EdgeNGramTokenizer
Tokenzza l'input da un bordo in n-grammi delle dimensioni specificate. Questo tokenizzatore viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di tokenizer. |
|
maxGram |
integer |
2 |
Lunghezza massima n-gram. Il valore predefinito è 2. Il massimo è 300. |
minGram |
integer |
1 |
Lunghezza minima n-gram. Il valore predefinito è 1. Il massimo è 300. Deve essere minore del valore di maxGram. |
name |
string |
Nome del tokenizer. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
tokenChars |
Classi di caratteri da mantenere nei token. |
ElisionTokenFilter
Rimuove le elisioni. Ad esempio, "l'avion" (piano) verrà convertito in "avion" (piano). Questo filtro di token viene implementato usando Apache Lucene.
Nome | Tipo | Descrizione |
---|---|---|
@odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro del token. |
articles |
string[] |
Set di articoli da rimuovere. |
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
ErrorAdditionalInfo
Informazioni aggiuntive sull'errore di gestione delle risorse.
Nome | Tipo | Descrizione |
---|---|---|
info |
object |
Informazioni aggiuntive. |
type |
string |
Tipo di informazioni aggiuntive. |
ErrorDetail
Dettagli dell'errore.
Nome | Tipo | Descrizione |
---|---|---|
additionalInfo |
Informazioni aggiuntive sull'errore. |
|
code |
string |
Codice di errore. |
details |
Dettagli dell'errore. |
|
message |
string |
Messaggio di errore. |
target |
string |
Destinazione dell'errore. |
ErrorResponse
Risposta di errore
Nome | Tipo | Descrizione |
---|---|---|
error |
Oggetto error. |
ExhaustiveKnnParameters
Contiene i parametri specifici dell'algoritmo KNN completo.
Nome | Tipo | Descrizione |
---|---|---|
metric |
Metrica di somiglianza da usare per i confronti tra vettori. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Contiene opzioni di configurazione specifiche dell'algoritmo KNN completo usato durante l'esecuzione di query, che eseguirà la ricerca di forza bruta nell'intero indice vettore.
Nome | Tipo | Descrizione |
---|---|---|
exhaustiveKnnParameters |
Contiene i parametri specifici dell'algoritmo KNN completo. |
|
kind |
string:
exhaustive |
Nome del tipo di algoritmo configurato per l'uso con la ricerca vettoriale. |
name |
string |
Nome da associare a questa specifica configurazione. |
FreshnessScoringFunction
Definisce una funzione che aumenta i punteggi in base al valore di un campo data-ora.
Nome | Tipo | Descrizione |
---|---|---|
boost |
number |
Moltiplicatore per il punteggio non elaborato. Deve essere un numero positivo non uguale a 1,0. |
fieldName |
string |
Nome del campo usato come input per la funzione di assegnazione dei punteggi. |
freshness |
Valori dei parametri per la funzione di assegnazione dei punteggi di freschezza. |
|
interpolation |
Valore che indica la modalità di interpolazione tra i punteggi dei documenti; impostazione predefinita "Lineare". |
|
type |
string:
freshness |
Indica il tipo di funzione da usare. I valori validi includono magnitude, freshness, distance e tag. Il tipo di funzione deve essere minuscolo. |
FreshnessScoringParameters
Fornisce i valori dei parametri a una funzione di assegnazione dei punteggi di aggiornamento.
Nome | Tipo | Descrizione |
---|---|---|
boostingDuration |
string |
Periodo di scadenza dopo il quale l'aumento della priorità verrà interrotto per un documento specifico. |
HnswParameters
Contiene i parametri specifici dell'algoritmo HNSW.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
efConstruction |
integer |
400 |
Dimensioni dell'elenco dinamico contenente i vicini più vicini, che vengono utilizzati durante il periodo di indicizzazione. L'aumento di questo parametro può migliorare la qualità dell'indice, a scapito dell'aumento del tempo di indicizzazione. A un certo punto, l'aumento di questo parametro comporta una diminuzione dei rendimenti. |
efSearch |
integer |
500 |
Dimensioni dell'elenco dinamico contenente i vicini più vicini, utilizzati durante il tempo di ricerca. L'aumento di questo parametro può migliorare i risultati della ricerca, a scapito di una ricerca più lenta. A un certo punto, l'aumento di questo parametro comporta una diminuzione dei rendimenti. |
m |
integer |
4 |
Numero di collegamenti bidirezionali creati per ogni nuovo elemento durante la costruzione. L'aumento di questo valore di parametro può migliorare il richiamo e ridurre i tempi di recupero per i set di dati con un'elevata dimensionalità intrinseca a scapito dell'aumento del consumo di memoria e del tempo di indicizzazione più lungo. |
metric |
Metrica di somiglianza da usare per i confronti tra vettori. |
HnswVectorSearchAlgorithmConfiguration
Contiene opzioni di configurazione specifiche per l'algoritmo HNSW approssimativo più vicino usato durante l'indicizzazione e la query. L'algoritmo HNSW offre un compromesso tra velocità di ricerca e accuratezza.
Nome | Tipo | Descrizione |
---|---|---|
hnswParameters |
Contiene i parametri specifici dell'algoritmo HNSW. |
|
kind |
string:
hnsw |
Nome del tipo di algoritmo configurato per l'uso con la ricerca vettoriale. |
name |
string |
Nome da associare a questa specifica configurazione. |
InputFieldMappingEntry
Mapping dei campi di input per una competenza.
Nome | Tipo | Descrizione |
---|---|---|
inputs |
Input ricorsivi utilizzati durante la creazione di un tipo complesso. |
|
name |
string |
Nome dell'input. |
source |
string |
Origine dell'input. |
sourceContext |
string |
Contesto di origine usato per la selezione di input ricorsivi. |
KeepTokenFilter
Filtro token che mantiene solo i token con testo contenuto in un elenco specificato di parole. Questo filtro di token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro del token. |
|
keepWords |
string[] |
Elenco di parole da mantenere. |
|
keepWordsCase |
boolean |
False |
Valore che indica se in lettere minuscole tutte le parole vengono prima di tutto. L'impostazione predefinita è false. |
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
KeywordMarkerTokenFilter
Contrassegna i termini come parole chiave. Questo filtro di token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro del token. |
|
ignoreCase |
boolean |
False |
Valore che indica se ignorare la distinzione tra maiuscole e minuscole. Se true, tutte le parole vengono convertite in lettere minuscole per prime. L'impostazione predefinita è false. |
keywords |
string[] |
Elenco di parole da contrassegnare come parole chiave. |
|
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
KeywordTokenizer
Genera l'intero input come token singolo. Questo tokenizzatore viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di tokenizer. |
|
bufferSize |
integer |
256 |
Dimensioni del buffer di lettura in byte. Il valore predefinito è 256. |
name |
string |
Nome del tokenizer. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
KeywordTokenizerV2
Genera l'intero input come token singolo. Questo tokenizzatore viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di tokenizer. |
|
maxTokenLength |
integer |
256 |
Lunghezza massima del token. Il valore predefinito è 256. I token con lunghezza superiore a quella massima vengono suddivisi. La lunghezza massima del token che può essere usata è di 300 caratteri. |
name |
string |
Nome del tokenizer. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
LengthTokenFilter
Rimuove le parole troppo lunghe o troppo corte. Questo filtro di token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro del token. |
|
max |
integer |
300 |
Lunghezza massima in caratteri. Il valore predefinito e massimo è 300. |
min |
integer |
0 |
Lunghezza minima in caratteri. Il valore predefinito è 0. Il valore massimo è 300. Deve essere minore del valore massimo. |
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
LexicalAnalyzerName
Definisce i nomi di tutti gli analizzatori di testo supportati dal motore di ricerca.
Nome | Tipo | Descrizione |
---|---|---|
ar.lucene |
string |
Analizzatore Lucene per arabo. |
ar.microsoft |
string |
Analizzatore Microsoft per arabo. |
bg.lucene |
string |
Analizzatore Lucene per bulgaro. |
bg.microsoft |
string |
Analizzatore Microsoft per bulgaro. |
bn.microsoft |
string |
Analizzatore Microsoft per Bangla. |
ca.lucene |
string |
Analizzatore Lucene per Catalano. |
ca.microsoft |
string |
Analizzatore Microsoft per catalano. |
cs.lucene |
string |
Analizzatore Lucene per il Ceco. |
cs.microsoft |
string |
Analizzatore Microsoft per ceco. |
da.lucene |
string |
Analizzatore Lucene per danese. |
da.microsoft |
string |
Analizzatore Microsoft per danese. |
de.lucene |
string |
Analizzatore Lucene per tedesco. |
de.microsoft |
string |
Analizzatore Microsoft per tedesco. |
el.lucene |
string |
Analizzatore Lucene per greco. |
el.microsoft |
string |
Analizzatore Microsoft per greco. |
en.lucene |
string |
Analizzatore Lucene per l'inglese. |
en.microsoft |
string |
Analizzatore Microsoft per l'inglese. |
es.lucene |
string |
Analizzatore Lucene per spagnolo. |
es.microsoft |
string |
Analizzatore Microsoft per spagnolo. |
et.microsoft |
string |
Analizzatore Microsoft per Estonian. |
eu.lucene |
string |
Analizzatore Lucene per basco. |
fa.lucene |
string |
Analizzatore Lucene per Persiano. |
fi.lucene |
string |
Analizzatore Lucene per finlandese. |
fi.microsoft |
string |
Analizzatore Microsoft per finlandese. |
fr.lucene |
string |
Analizzatore Lucene per francese. |
fr.microsoft |
string |
Analizzatore Microsoft per francese. |
ga.lucene |
string |
Analizzatore Lucene per irlandese. |
gl.lucene |
string |
Analizzatore Lucene per La Galizia. |
gu.microsoft |
string |
Analizzatore Microsoft per Gujarati. |
he.microsoft |
string |
Analizzatore Microsoft per ebraico. |
hi.lucene |
string |
Analizzatore Lucene per Hindi. |
hi.microsoft |
string |
Analizzatore Microsoft per Hindi. |
hr.microsoft |
string |
Analizzatore Microsoft per la Croazia. |
hu.lucene |
string |
Analizzatore Lucene per ungherese. |
hu.microsoft |
string |
Analizzatore Microsoft per ungherese. |
hy.lucene |
string |
Analizzatore Lucene per Armena. |
id.lucene |
string |
Analizzatore Lucene per indonesiano. |
id.microsoft |
string |
Analizzatore Microsoft per Indonesiano (Bahasa). |
is.microsoft |
string |
Analizzatore Microsoft per Islanda. |
it.lucene |
string |
Analizzatore Lucene per italiano. |
it.microsoft |
string |
Analizzatore Microsoft per italiano. |
ja.lucene |
string |
Analizzatore Lucene per il giapponese. |
ja.microsoft |
string |
Analizzatore Microsoft per il giapponese. |
keyword |
string |
Considera l'intero contenuto di un campo come token singolo. Ciò è utile per i dati come i codici postali, ID e alcuni nomi di prodotto. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Analizzatore Microsoft per Kannada. |
ko.lucene |
string |
Analizzatore Lucene per coreano. |
ko.microsoft |
string |
Analizzatore Microsoft per coreano. |
lt.microsoft |
string |
Analizzatore Microsoft per la Lituania. |
lv.lucene |
string |
Analizzatore Lucene per lettone. |
lv.microsoft |
string |
Analizzatore Microsoft per lettone. |
ml.microsoft |
string |
Analizzatore Microsoft per Malayalam. |
mr.microsoft |
string |
Analizzatore Microsoft per Marathi. |
ms.microsoft |
string |
Analizzatore Microsoft per Malay (latino). |
nb.microsoft |
string |
Analizzatore Microsoft per Norvegese (Bokmål). |
nl.lucene |
string |
Analizzatore Lucene per olandese. |
nl.microsoft |
string |
Analizzatore Microsoft per olandese. |
no.lucene |
string |
Analizzatore Lucene per Norvegese. |
pa.microsoft |
string |
Analizzatore Microsoft per Punjabi. |
pattern |
string |
Separa in modo flessibile il testo in termini tramite un modello di espressione regolare. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Analizzatore Lucene per polacco. |
pl.microsoft |
string |
Analizzatore Microsoft per polacco. |
pt-BR.lucene |
string |
Analizzatore Lucene per portoghese (Brasile). |
pt-BR.microsoft |
string |
Analizzatore Microsoft per portoghese (Brasile). |
pt-PT.lucene |
string |
Analizzatore Lucene per portoghese (Portogallo). |
pt-PT.microsoft |
string |
Analizzatore Microsoft per portoghese (Portogallo). |
ro.lucene |
string |
Analizzatore Lucene per romeno. |
ro.microsoft |
string |
Analizzatore Microsoft per romania. |
ru.lucene |
string |
Analizzatore Lucene per russo. |
ru.microsoft |
string |
Analizzatore Microsoft per russo. |
simple |
string |
Divide il testo in corrispondenza di elementi diversi da lettere e li converte in lettere minuscole. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Analizzatore Microsoft per slovacco. |
sl.microsoft |
string |
Analizzatore Microsoft per sloveno. |
sr-cyrillic.microsoft |
string |
Analizzatore Microsoft per serbo (cirillico). |
sr-latin.microsoft |
string |
Analizzatore Microsoft per serbo (latino). |
standard.lucene |
string |
Analizzatore Lucene standard. |
standardasciifolding.lucene |
string |
Analizzatore lucene di riduzione ASCII standard. Vedere https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Divide il testo in lettere non lettere; Applica i filtri token minuscoli e stopword. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Analizzatore Lucene per svedese. |
sv.microsoft |
string |
Analizzatore Microsoft per svedese. |
ta.microsoft |
string |
Analizzatore Microsoft per Tamil. |
te.microsoft |
string |
Analizzatore Microsoft per Telugu. |
th.lucene |
string |
Analizzatore Lucene per Thai. |
th.microsoft |
string |
Analizzatore Microsoft per Thai. |
tr.lucene |
string |
Analizzatore Lucene per turco. |
tr.microsoft |
string |
Analizzatore Microsoft per turco. |
uk.microsoft |
string |
Analizzatore Microsoft per ucraino. |
ur.microsoft |
string |
Analizzatore Microsoft per Urdu. |
vi.microsoft |
string |
Analizzatore Microsoft per i vietnamiti. |
whitespace |
string |
Analizzatore che usa il tokenizer whitespace. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Analizzatore Lucene per cinese (semplificato). |
zh-Hans.microsoft |
string |
Analizzatore Microsoft per cinese (semplificato). |
zh-Hant.lucene |
string |
Analizzatore Lucene per cinese (tradizionale). |
zh-Hant.microsoft |
string |
Analizzatore Microsoft per cinese (tradizionale). |
LexicalNormalizerName
Definisce i nomi di tutti i normalizzatori di testo supportati dal motore di ricerca.
Nome | Tipo | Descrizione |
---|---|---|
asciifolding |
string |
Converte caratteri Unicode alfabetici, numerici e simbolici che non sono nei primi 127 caratteri ASCII (il blocco Unicode "Basic Latin" ) nei relativi equivalenti ASCII, se tali equivalenti esistono. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
elision |
string |
Rimuove le elisioni. Ad esempio, "l'avion" (il piano) verrà convertito in "avion" (piano). Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
lowercase |
string |
Normalizzare il testo del token in minuscolo. Vedere https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
standard |
string |
Normalizzatore standard, costituito da minuscole e asciifolding. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
uppercase |
string |
Normalizzare il testo del token in maiuscolo. Vedere https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
Definisce i nomi di tutti i tokenizzatori supportati dal motore di ricerca.
Nome | Tipo | Descrizione |
---|---|---|
classic |
string |
Tokenizzatore basato su grammatica adatto per l'elaborazione della maggior parte dei documenti in lingua europea. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Tokenzza l'input da un bordo in n-grammi delle dimensioni specificate. Vedere https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Genera l'intero input come token singolo. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Divide il testo in corrispondenza di elementi diversi da lettere. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Divide il testo in corrispondenza di elementi diversi da lettere e li converte in lettere minuscole. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Divide il testo usando regole specifiche della lingua e riduce le parole alle relative forme di base. |
microsoft_language_tokenizer |
string |
Divide il testo usando le regole specifiche della lingua. |
nGram |
string |
Suddivide in token l'input in n-grammi di determinate dimensioni. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Tokenizer per le gerarchie di tipo percorso. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Tokenizer che usa il modello regex corrispondente per costruire token distinti. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Analizzatore Lucene standard; Composto dal tokenizer standard, dal filtro minuscolo e dal filtro di arresto. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Suddivide in token gli URL e gli indirizzi di posta elettronica come un unico token. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Divide il testo in corrispondenza degli spazi vuoti. Vedere http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
LimitTokenFilter
Limita il numero di token durante l'indicizzazione. Questo filtro di token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro del token. |
|
consumeAllTokens |
boolean |
False |
Valore che indica se tutti i token dall'input devono essere utilizzati anche se viene raggiunto maxTokenCount. L'impostazione predefinita è false. |
maxTokenCount |
integer |
1 |
Numero massimo di token da produrre. Il valore predefinito è 1. |
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
LuceneStandardAnalyzer
Analizzatore Apache Lucene standard; Composto dal tokenizer standard, dal filtro minuscolo e dal filtro di arresto.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di analizzatore. |
|
maxTokenLength |
integer |
255 |
Lunghezza massima del token. Il valore predefinito è 255. I token con lunghezza superiore a quella massima vengono suddivisi. La lunghezza massima del token che può essere usata è di 300 caratteri. |
name |
string |
Nome dell'analizzatore. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
stopwords |
string[] |
Elenco di parole non significative. |
LuceneStandardTokenizer
Suddivide il testo in base alle regole di segmentazione del testo Unicode. Questo tokenizzatore viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di tokenizer. |
|
maxTokenLength |
integer |
255 |
Lunghezza massima del token. Il valore predefinito è 255. I token con lunghezza superiore a quella massima vengono suddivisi. |
name |
string |
Nome del tokenizer. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
LuceneStandardTokenizerV2
Suddivide il testo in base alle regole di segmentazione del testo Unicode. Questo tokenizzatore viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di tokenizer. |
|
maxTokenLength |
integer |
255 |
Lunghezza massima del token. Il valore predefinito è 255. I token con lunghezza superiore a quella massima vengono suddivisi. La lunghezza massima del token che può essere usata è di 300 caratteri. |
name |
string |
Nome del tokenizer. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
MagnitudeScoringFunction
Definisce una funzione che aumenta i punteggi in base alla grandezza di un campo numerico.
Nome | Tipo | Descrizione |
---|---|---|
boost |
number |
Moltiplicatore per il punteggio non elaborato. Deve essere un numero positivo non uguale a 1,0. |
fieldName |
string |
Nome del campo usato come input per la funzione di assegnazione dei punteggi. |
interpolation |
Valore che indica la modalità di interpolazione tra i punteggi dei documenti; impostazione predefinita "Lineare". |
|
magnitude |
Valori dei parametri per la funzione di assegnazione dei punteggi di grandezza. |
|
type |
string:
magnitude |
Indica il tipo di funzione da usare. I valori validi includono magnitude, freshness, distance e tag. Il tipo di funzione deve essere minuscolo. |
MagnitudeScoringParameters
Fornisce i valori dei parametri a una funzione di assegnazione dei punteggi di grandezza.
Nome | Tipo | Descrizione |
---|---|---|
boostingRangeEnd |
number |
Valore del campo in corrispondenza del quale termina il boosting. |
boostingRangeStart |
number |
Valore del campo in corrispondenza del quale inizia il boosting. |
constantBoostBeyondRange |
boolean |
Valore che indica se applicare un incremento costante per i valori di campo oltre il valore finale dell'intervallo; il valore predefinito è false. |
MappingCharFilter
Filtro di caratteri che applica mapping definiti con l'opzione mapping. La corrispondenza è greedy. I criteri di ricerca più lunghi in un determinato punto hanno la precedenza. È consentita la sostituzione con una stringa vuota. Questo filtro di caratteri viene implementato usando Apache Lucene.
Nome | Tipo | Descrizione |
---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di filtro char. |
mappings |
string[] |
Elenco dei mapping del formato seguente: "a=>b" (tutte le occorrenze del carattere "a" verranno sostituite con il carattere "b"). |
name |
string |
Nome del filtro char. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
MicrosoftLanguageStemmingTokenizer
Divide il testo usando regole specifiche della lingua e riduce le parole alle relative forme di base.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di tokenizer. |
|
isSearchTokenizer |
boolean |
False |
Valore che indica come viene usato il tokenizer. Impostare su true se usato come tokenizer di ricerca, impostare su false se usato come tokenizzatore di indicizzazione. L'impostazione predefinita è false. |
language |
Lingua da usare. Il valore predefinito è inglese. |
||
maxTokenLength |
integer |
255 |
Lunghezza massima del token. I token con lunghezza superiore a quella massima vengono suddivisi. Lunghezza massima del token che può essere usata è di 300 caratteri. I token più lunghi di 300 caratteri vengono prima suddivisi in token di lunghezza 300 e quindi ognuno di questi token viene suddiviso in base al set di lunghezza massima del token. Il valore predefinito è 255. |
name |
string |
Nome del tokenizer. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
MicrosoftLanguageTokenizer
Divide il testo usando le regole specifiche della lingua.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di tokenizer. |
|
isSearchTokenizer |
boolean |
False |
Valore che indica come viene usato il tokenizer. Impostare su true se usato come tokenizer di ricerca, impostare su false se usato come tokenizzatore di indicizzazione. L'impostazione predefinita è false. |
language |
Lingua da usare. Il valore predefinito è inglese. |
||
maxTokenLength |
integer |
255 |
Lunghezza massima del token. I token con lunghezza superiore a quella massima vengono suddivisi. Lunghezza massima del token che può essere usata è di 300 caratteri. I token più lunghi di 300 caratteri vengono prima suddivisi in token di lunghezza 300 e quindi ognuno di questi token viene suddiviso in base al set di lunghezza massima del token. Il valore predefinito è 255. |
name |
string |
Nome del tokenizer. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
MicrosoftStemmingTokenizerLanguage
Elenchi le lingue supportate dal tokenizer di stemming della lingua Microsoft.
Nome | Tipo | Descrizione |
---|---|---|
arabic |
string |
Seleziona il tokenizer di stemming Microsoft per l'arabo. |
bangla |
string |
Seleziona il tokenizer di stemming Microsoft per Bangla. |
bulgarian |
string |
Seleziona il tokenizer di stemming Microsoft per bulgaro. |
catalan |
string |
Seleziona il tokenizer di stemming Microsoft per catalano. |
croatian |
string |
Seleziona il tokenizzatore di stemming Microsoft per croato. |
czech |
string |
Seleziona il tokenizer di stemming Microsoft per ceco. |
danish |
string |
Seleziona il tokenizer di stemming Microsoft per danese. |
dutch |
string |
Seleziona il tokenizer di stemming Microsoft per olandese. |
english |
string |
Seleziona il tokenizer di stemming Microsoft per l'inglese. |
estonian |
string |
Seleziona il tokenizer di stemming Microsoft per Estonian. |
finnish |
string |
Seleziona il tokenizer di stemming Microsoft per finlandese. |
french |
string |
Seleziona il tokenizer di stemming Microsoft per francese. |
german |
string |
Seleziona il tokenizer di stemming Microsoft per il tedesco. |
greek |
string |
Seleziona il tokenizer di stemming Microsoft per greco. |
gujarati |
string |
Seleziona il tokenizer di stemming Microsoft per Gujarati. |
hebrew |
string |
Seleziona il tokenizer di stemming Microsoft per l'ebraico. |
hindi |
string |
Seleziona il tokenizer di stemming Microsoft per Hindi. |
hungarian |
string |
Seleziona il tokenizer di stemming Microsoft per ungherese. |
icelandic |
string |
Seleziona il tokenizer di stemming Microsoft per islandese. |
indonesian |
string |
Seleziona il tokenizer di stemming Microsoft per indonesiano. |
italian |
string |
Seleziona il tokenizer di stemming Microsoft per italiano. |
kannada |
string |
Seleziona il tokenizer di stemming Microsoft per Kannada. |
latvian |
string |
Seleziona il tokenizer di stemming Microsoft per lettonia. |
lithuanian |
string |
Seleziona il tokenizer di stemming Microsoft per lituano. |
malay |
string |
Seleziona il tokenizer di stemming Microsoft per La malay. |
malayalam |
string |
Seleziona il tokenizer di stemming Microsoft per Malayalam. |
marathi |
string |
Seleziona il tokenizer di stemming Microsoft per Marathi. |
norwegianBokmaal |
string |
Seleziona il tokenizer di stemming Microsoft per Norvegese (Bokmål). |
polish |
string |
Seleziona il tokenizzatore di stemming Microsoft per polacco. |
portuguese |
string |
Seleziona il tokenizer di stemming Microsoft per il portoghese. |
portugueseBrazilian |
string |
Seleziona il tokenizer di stemming Microsoft per portoghese (Brasile). |
punjabi |
string |
Seleziona il tokenizer di stemming Microsoft per Punjabi. |
romanian |
string |
Seleziona il tokenizzatore di stemming Microsoft per romeno. |
russian |
string |
Seleziona il tokenizer di stemming Microsoft per russo. |
serbianCyrillic |
string |
Seleziona il tokenizzatore di stemming Microsoft per serbo (cirillico). |
serbianLatin |
string |
Seleziona il tokenizer di stemming Microsoft per serbo (alfabeto latino). |
slovak |
string |
Seleziona il tokenizer di stemming Microsoft per slovacco. |
slovenian |
string |
Seleziona il tokenizer di stemming Microsoft per sloveno. |
spanish |
string |
Seleziona il tokenizer di stemming Microsoft per spagnolo. |
swedish |
string |
Seleziona il tokenizer di stemming Microsoft per svedese. |
tamil |
string |
Seleziona il tokenizer di stemming Microsoft per Tamil. |
telugu |
string |
Seleziona il tokenizer di stemming Microsoft per Telugu. |
turkish |
string |
Seleziona il tokenizer di stemming Microsoft per turco. |
ukrainian |
string |
Seleziona il tokenizer di stemming Microsoft per ucraino. |
urdu |
string |
Seleziona il tokenizer di stemming Microsoft per Urdu. |
MicrosoftTokenizerLanguage
Elenchi le lingue supportate dal tokenizzatore di lingua Microsoft.
Nome | Tipo | Descrizione |
---|---|---|
bangla |
string |
Seleziona il tokenizer Microsoft per Bangla. |
bulgarian |
string |
Seleziona il tokenizer Microsoft per bulgaro. |
catalan |
string |
Seleziona il tokenizer Microsoft per catalano. |
chineseSimplified |
string |
Seleziona il tokenizer Microsoft per cinese (semplificato). |
chineseTraditional |
string |
Seleziona il tokenizer Microsoft per cinese (tradizionale). |
croatian |
string |
Seleziona il tokenizer Microsoft per croato. |
czech |
string |
Seleziona il tokenizer Microsoft per ceco. |
danish |
string |
Seleziona il tokenizer Microsoft per danese. |
dutch |
string |
Seleziona il tokenizer Microsoft per olandese. |
english |
string |
Seleziona il tokenizer Microsoft per la lingua inglese. |
french |
string |
Seleziona il tokenizer Microsoft per francese. |
german |
string |
Seleziona il tokenizer Microsoft per tedesco. |
greek |
string |
Seleziona il tokenizer Microsoft per greco. |
gujarati |
string |
Seleziona il tokenizer Microsoft per Gujarati. |
hindi |
string |
Seleziona il tokenizer Microsoft per Hindi. |
icelandic |
string |
Seleziona il tokenizer Microsoft per Islanda. |
indonesian |
string |
Seleziona il tokenizer Microsoft per indonesiano. |
italian |
string |
Seleziona il tokenizer Microsoft per italiano. |
japanese |
string |
Seleziona il tokenizer Microsoft per il giapponese. |
kannada |
string |
Seleziona il tokenizer Microsoft per Kannada. |
korean |
string |
Seleziona il tokenizer Microsoft per coreano. |
malay |
string |
Seleziona il tokenizer Microsoft per La malay. |
malayalam |
string |
Seleziona il tokenizer Microsoft per Malayalam. |
marathi |
string |
Seleziona il tokenizer Microsoft per Marathi. |
norwegianBokmaal |
string |
Seleziona il tokenizer Microsoft per Norvegese (Bokmål). |
polish |
string |
Seleziona il tokenizer Microsoft per polacco. |
portuguese |
string |
Seleziona il tokenizer Microsoft per portoghese. |
portugueseBrazilian |
string |
Seleziona il tokenizer Microsoft per portoghese (Brasile). |
punjabi |
string |
Seleziona il tokenizer Microsoft per Punjabi. |
romanian |
string |
Seleziona il tokenizer Microsoft per romeno. |
russian |
string |
Seleziona il tokenizer Microsoft per russo. |
serbianCyrillic |
string |
Seleziona il tokenizer Microsoft per serbo (cirillico). |
serbianLatin |
string |
Seleziona il tokenizer Microsoft per serbo (alfabeto latino). |
slovenian |
string |
Seleziona il tokenizer Microsoft per sloveno. |
spanish |
string |
Seleziona il tokenizer Microsoft per spagnolo. |
swedish |
string |
Seleziona il tokenizer Microsoft per svedese. |
tamil |
string |
Seleziona il tokenizer Microsoft per Tamil. |
telugu |
string |
Seleziona il tokenizer Microsoft per Telugu. |
thai |
string |
Seleziona il tokenizer Microsoft per Thai. |
ukrainian |
string |
Seleziona il tokenizer Microsoft per ucraino. |
urdu |
string |
Seleziona il tokenizer Microsoft per Urdu. |
vietnamese |
string |
Seleziona il tokenizer Microsoft per vietnamita. |
NGramTokenFilter
Genera n-grammi delle dimensioni specificate. Questo filtro di token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro del token. |
|
maxGram |
integer |
2 |
Lunghezza massima di n grammi. Il valore predefinito è 2. |
minGram |
integer |
1 |
Lunghezza minima di n grammi. Il valore predefinito è 1. Deve essere minore del valore di maxGram. |
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
NGramTokenFilterV2
Genera n-grammi delle dimensioni specificate. Questo filtro di token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro del token. |
|
maxGram |
integer |
2 |
Lunghezza massima di n grammi. Il valore predefinito è 2. Il valore massimo è 300. |
minGram |
integer |
1 |
Lunghezza minima di n grammi. Il valore predefinito è 1. Il valore massimo è 300. Deve essere minore del valore di maxGram. |
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
NGramTokenizer
Suddivide in token l'input in n-grammi di determinate dimensioni. Questo tokenizzatore viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di tokenizer. |
|
maxGram |
integer |
2 |
Lunghezza massima n-gram. Il valore predefinito è 2. Il massimo è 300. |
minGram |
integer |
1 |
Lunghezza minima n-gram. Il valore predefinito è 1. Il massimo è 300. Deve essere minore del valore di maxGram. |
name |
string |
Nome del tokenizer. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
tokenChars |
Classi di caratteri da mantenere nei token. |
OutputFieldMappingEntry
Mapping dei campi di output per una competenza.
Nome | Tipo | Descrizione |
---|---|---|
name |
string |
Nome dell'output definito dalla competenza. |
targetName |
string |
Nome di destinazione dell'output. È facoltativo e il nome predefinito è . |
PathHierarchyTokenizerV2
Tokenizer per le gerarchie di tipo percorso. Questo tokenizzatore viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di tokenizer. |
|
delimiter |
string |
/ |
Carattere delimitatore da usare. Il valore predefinito è "/". |
maxTokenLength |
integer |
300 |
Lunghezza massima del token. Il valore predefinito e massimo è 300. |
name |
string |
Nome del tokenizer. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
replacement |
string |
/ |
Valore che, se impostato, sostituisce il carattere delimitatore. Il valore predefinito è "/". |
reverse |
boolean |
False |
Valore che indica se generare token in ordine inverso. L'impostazione predefinita è false. |
skip |
integer |
0 |
Numero di token iniziali da ignorare. Il valore predefinito è 0. |
PatternAnalyzer
Separa in modo flessibile il testo in termini tramite un modello di espressione regolare. Questo analizzatore viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di analizzatore. |
|
flags |
Flag di espressioni regolari. |
||
lowercase |
boolean |
True |
Valore che indica se i termini devono essere minuscoli. Il valore predefinito è true. |
name |
string |
Nome dell'analizzatore. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
pattern |
string |
\W+ |
Modello di espressione regolare per corrispondere ai separatori di token. Il valore predefinito è un'espressione che corrisponde a uno o più caratteri non di parola. |
stopwords |
string[] |
Elenco di parole non significative. |
PatternCaptureTokenFilter
Usa le espressioni regolari Java per generare più token, uno per ogni gruppo di acquisizione in uno o più modelli. Questo filtro token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di filtro del token. |
|
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
patterns |
string[] |
Elenco di modelli da associare a ogni token. |
|
preserveOriginal |
boolean |
True |
Valore che indica se restituire il token originale anche se uno dei modelli corrisponde. Il valore predefinito è true. |
PatternReplaceCharFilter
Filtro di caratteri che sostituisce i caratteri nella stringa di input. Usa un'espressione regolare per identificare le sequenze di caratteri da conservare e un criterio di sostituzione per identificare i caratteri da sostituire. Ad esempio, dato il testo di input "aa bb aa bb", pattern "(aa)\s+(bb)" e sostituzione "$1#$2", il risultato sarà "aa#bb aa#bb aa#bb". Questo filtro di caratteri viene implementato usando Apache Lucene.
Nome | Tipo | Descrizione |
---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di filtro char. |
name |
string |
Nome del filtro char. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
pattern |
string |
Modello di espressione regolare. |
replacement |
string |
Testo di sostituzione. |
PatternReplaceTokenFilter
Filtro di caratteri che sostituisce i caratteri nella stringa di input. Usa un'espressione regolare per identificare le sequenze di caratteri da conservare e un criterio di sostituzione per identificare i caratteri da sostituire. Ad esempio, dato il testo di input "aa bb aa bb", pattern "(aa)\s+(bb)" e sostituzione "$1#$2", il risultato sarà "aa#bb aa#bb aa#bb". Questo filtro token viene implementato usando Apache Lucene.
Nome | Tipo | Descrizione |
---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di filtro del token. |
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
pattern |
string |
Modello di espressione regolare. |
replacement |
string |
Testo di sostituzione. |
PatternTokenizer
Tokenizer che usa il modello regex corrispondente per costruire token distinti. Questo tokenizzatore viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di tokenizer. |
|
flags |
Flag di espressioni regolari. |
||
group |
integer |
-1 |
Ordinale in base zero del gruppo di corrispondenza nel modello di espressione regolare da estrarre in token. Usare -1 se si vuole usare l'intero modello per suddividere l'input in token, indipendentemente dai gruppi corrispondenti. Il valore predefinito è -1. |
name |
string |
Nome del tokenizer. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
pattern |
string |
\W+ |
Modello di espressione regolare per corrispondere ai separatori di token. Il valore predefinito è un'espressione che corrisponde a uno o più caratteri non di parola. |
PhoneticEncoder
Identifica il tipo di codificatore fonetico da usare con phoneticTokenFilter.
Nome | Tipo | Descrizione |
---|---|---|
beiderMorse |
string |
Codifica un token in un valore Beider-Morse. |
caverphone1 |
string |
Codifica un token in un valore Caverphone 1.0. |
caverphone2 |
string |
Codifica un token in un valore Caverphone 2.0. |
cologne |
string |
Codifica un token in un valore fonetico di Colonia. |
doubleMetaphone |
string |
Codifica un token in un valore metaphone doppio. |
haasePhonetik |
string |
Codifica un token usando il perfezionamento di Haase dell'algoritmo Kölner Phonetik. |
koelnerPhonetik |
string |
Codifica un token usando l'algoritmo Kölner Phonetik. |
metaphone |
string |
Codifica un token in un valore Metaphone. |
nysiis |
string |
Codifica un token in un valore NYSIIS. |
refinedSoundex |
string |
Codifica un token in un valore Soundex raffinato. |
soundex |
string |
Codifica un token in un valore Soundex. |
PhoneticTokenFilter
Crea i token per le corrispondenze fonetiche. Questo filtro token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di filtro del token. |
|
encoder | metaphone |
Codificatore fonetico da usare. Il valore predefinito è "metaphone". |
|
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
replace |
boolean |
True |
Valore che indica se i token codificati devono sostituire i token originali. Se false, i token codificati vengono aggiunti come sinonimi. Il valore predefinito è true. |
PrioritizedFields
Descrive i campi titolo, contenuto e parole chiave da usare per la classificazione semantica, le didascalie, le evidenziazioni e le risposte.
Nome | Tipo | Descrizione |
---|---|---|
prioritizedContentFields |
Definisce i campi di contenuto da usare per classificazione semantica, didascalie, evidenziazioni e risposte. Per ottenere il risultato migliore, i campi selezionati devono contenere testo nel formato del linguaggio naturale. L'ordine dei campi nella matrice rappresenta la priorità. I campi con priorità inferiore possono essere troncati se il contenuto è lungo. |
|
prioritizedKeywordsFields |
Definisce i campi delle parole chiave da usare per la classificazione semantica, le didascalie, le evidenziazioni e le risposte. Per il risultato migliore, i campi selezionati devono contenere un elenco di parole chiave. L'ordine dei campi nella matrice rappresenta la priorità. I campi con priorità inferiore possono essere troncati se il contenuto è lungo. |
|
titleField |
Definisce il campo titolo da usare per la classificazione semantica, le didascalie, le evidenziazioni e le risposte. Se non si dispone di un campo titolo nell'indice, lasciare vuoto questo campo. |
RegexFlags
Definisce i flag che possono essere combinati per controllare la modalità di utilizzo delle espressioni regolari nell'analizzatore dei criteri e nel tokenizer di criteri.
Nome | Tipo | Descrizione |
---|---|---|
CANON_EQ |
string |
Abilita l'equivalenza canonica. |
CASE_INSENSITIVE |
string |
Abilita la corrispondenza senza distinzione tra maiuscole e minuscole. |
COMMENTS |
string |
Consente spazi vuoti e commenti nel modello. |
DOTALL |
string |
Abilita la modalità dotall. |
LITERAL |
string |
Abilita l'analisi letterale del criterio. |
MULTILINE |
string |
Abilita la modalità multilinea. |
UNICODE_CASE |
string |
Abilita la riduzione del case compatibile con Unicode. |
UNIX_LINES |
string |
Abilita la modalità righe Unix. |
ScalarQuantizationParameters
Contiene i parametri specifici della quantizzazione scalare.
Nome | Tipo | Descrizione |
---|---|---|
quantizedDataType |
Tipo di dati quantizzato di valori vettoriali compressi. |
ScalarQuantizationVectorSearchCompressionConfiguration
Contiene opzioni di configurazione specifiche del metodo di compressione della quantizzazione scalare utilizzato durante l'indicizzazione e l'esecuzione di query.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
defaultOversampling |
number |
Fattore di sovracampionamento predefinito. L'overcampionamento richiederà internamente più documenti (specificati da questo moltiplicatore) nella ricerca iniziale. In questo modo si aumenta il set di risultati che verranno classificati di nuovo usando punteggi di somiglianza ricalcolata da vettori con precisione completa. Il valore minimo è 1, ovvero nessun sovracampionamento (1x). Questo parametro può essere impostato solo quando rerankWithOriginalVectors è true. I valori più elevati migliorano il richiamo a scapito della latenza. |
|
kind |
string:
scalar |
Nome del tipo di metodo di compressione da configurare per l'uso con la ricerca vettoriale. |
|
name |
string |
Nome da associare a questa specifica configurazione. |
|
rerankWithOriginalVectors |
boolean |
True |
Se impostato su true, una volta ottenuto il set ordinato di risultati calcolati usando vettori compressi, verranno ricalcolati ricalcolando i punteggi di somiglianza con precisione completa. Ciò migliorerà il richiamo a scapito della latenza. |
scalarQuantizationParameters |
Contiene i parametri specifici della quantizzazione scalare. |
ScoringFunctionAggregation
Definisce la funzione di aggregazione usata per combinare i risultati di tutte le funzioni di assegnazione dei punteggi in un profilo di assegnazione dei punteggi.
Nome | Tipo | Descrizione |
---|---|---|
average |
string |
Aumentare i punteggi per la media di tutti i risultati della funzione di assegnazione dei punteggi. |
firstMatching |
string |
Aumentare i punteggi usando la prima funzione di assegnazione dei punteggi applicabile nel profilo di assegnazione dei punteggi. |
maximum |
string |
Aumentare i punteggi per il massimo di tutti i risultati della funzione di assegnazione dei punteggi. |
minimum |
string |
Aumentare i punteggi per il minimo di tutti i risultati della funzione di assegnazione dei punteggi. |
sum |
string |
Aumentare i punteggi in base alla somma di tutti i risultati della funzione di assegnazione dei punteggi. |
ScoringFunctionInterpolation
Definisce la funzione usata per interpolare il boosting dei punteggi in un intervallo di documenti.
Nome | Tipo | Descrizione |
---|---|---|
constant |
string |
Aumenta i punteggi in base a un fattore costante. |
linear |
string |
Aumenta i punteggi in base a una quantità che diminuisce in modo lineare. Si tratta dell'interpolazione predefinita per le funzioni di assegnazione dei punteggi. |
logarithmic |
string |
Aumenta i punteggi di un importo che diminuisce logaritmicamente. Gli boost diminuiscono rapidamente per i punteggi più elevati e più lentamente man mano che i punteggi diminuiscono. Questa opzione di interpolazione non è consentita nelle funzioni di assegnazione di punteggio in base a tag. |
quadratic |
string |
Aumenta i punteggi di un importo che diminuisce quadraticamente. Gli boost diminuiscono lentamente per i punteggi più alti e più rapidamente man mano che i punteggi diminuiscono. Questa opzione di interpolazione non è consentita nelle funzioni di assegnazione di punteggio in base a tag. |
ScoringProfile
Definisce i parametri per un indice di ricerca che influisce sul punteggio nelle query di ricerca.
Nome | Tipo | Descrizione |
---|---|---|
functionAggregation |
Valore che indica come combinare i risultati delle singole funzioni di assegnazione dei punteggi. Il valore predefinito è "Sum". Ignorato se non sono presenti funzioni di assegnazione dei punteggi. |
|
functions | ScoringFunction[]: |
Raccolta di funzioni che influiscono sull'assegnazione dei punteggi dei documenti. |
name |
string |
Nome del profilo di punteggio. |
text |
Parametri che aumentano il punteggio in base alle corrispondenze di testo in determinati campi di indice. |
SearchField
Rappresenta un campo in una definizione di indice, che descrive il nome, il tipo di dati e il comportamento di ricerca di un campo.
Nome | Tipo | Descrizione |
---|---|---|
analyzer |
Nome dell'analizzatore da utilizzare per il campo. Questa opzione può essere usata solo con campi ricercabili e non può essere impostata con searchAnalyzer o indexAnalyzer. Una volta scelto, l'analizzatore non può essere cambiato per il campo. Deve essere Null per i campi complessi. |
|
dimensions |
integer |
Dimensionalità del campo vettore. |
facetable |
boolean |
Valore che indica se abilitare il riferimento al campo nelle query facet. In genere usato in una presentazione dei risultati della ricerca che include il numero di riscontri per categoria (ad esempio, cercare fotocamere digitali e vedere i riscontri per marchio, per impostazione predefinita, per prezzo e così via). Questa proprietà deve essere Null per i campi complessi. I campi di tipo Edm.GeographyPoint o Collection(Edm.GeographyPoint) non possono essere visibili. Il valore predefinito è true per tutti gli altri campi semplici. |
fields |
Elenco di sottocampi se si tratta di un campo di tipo Edm.ComplexType o Collection(Edm.ComplexType). Deve essere null o vuoto per i campi semplici. |
|
filterable |
boolean |
Valore che indica se abilitare il riferimento al campo nelle query $filter. filtrabile differisce da ricercabile in quanto vengono gestite le stringhe. I campi di tipo Edm.String o Collection(Edm.String) che sono filtrabili non subiscono un'interruzione delle parole, quindi i confronti sono solo per corrispondenze esatte. Ad esempio, se si imposta tale campo f su "sunny day", $filter=f eq 'sunny' non troverà corrispondenze, ma $filter=f eq 'sunny day' will. Questa proprietà deve essere Null per i campi complessi. Il valore predefinito è true per i campi semplici e Null per i campi complessi. |
indexAnalyzer |
Nome dell'analizzatore utilizzato in fase di indicizzazione per il campo. Questa opzione può essere usata solo con i campi ricercabili. Deve essere impostato insieme a searchAnalyzer e non può essere impostato insieme all'opzione analizzatore. Questa proprietà non può essere impostata sul nome di un analizzatore del linguaggio; usare invece la proprietà analyzer se è necessario un analizzatore del linguaggio. Una volta scelto, l'analizzatore non può essere cambiato per il campo. Deve essere Null per i campi complessi. |
|
key |
boolean |
Valore che indica se il campo identifica in modo univoco i documenti nell'indice. È necessario scegliere esattamente un campo di primo livello in ogni indice come campo chiave e deve essere di tipo Edm.String. I campi chiave possono essere usati per cercare direttamente i documenti e aggiornarli o eliminarli. Il valore predefinito è false per i campi semplici e Null per i campi complessi. |
name |
string |
Nome del campo, che deve essere univoco all'interno dell'insieme fields dell'indice o del campo padre. |
normalizer |
Nome del normalizzatore da utilizzare per il campo. Questa opzione può essere usata solo con i campi con campi filtrabili, ordinabili o con tabella visibile abilitata. Dopo aver scelto il normalizzatore, non può essere modificato per il campo. Deve essere Null per i campi complessi. |
|
retrievable |
boolean |
Valore che indica se il campo può essere restituito in un risultato della ricerca. È possibile disabilitare questa opzione se si vuole usare un campo (ad esempio, margine) come filtro, ordinamento o meccanismo di assegnazione dei punteggi, ma non si vuole che il campo sia visibile all'utente finale. Questa proprietà deve essere true per i campi chiave e deve essere Null per i campi complessi. Questa proprietà può essere modificata nei campi esistenti. L'abilitazione di questa proprietà non comporta alcun aumento dei requisiti di archiviazione dell'indice. Il valore predefinito è true per i campi semplici, false per i campi vettoriali e Null per i campi complessi. |
searchAnalyzer |
Nome dell'analizzatore utilizzato in fase di ricerca per il campo. Questa opzione può essere usata solo con i campi ricercabili. Deve essere impostato insieme a indexAnalyzer e non può essere impostato insieme all'opzione analizzatore. Questa proprietà non può essere impostata sul nome di un analizzatore del linguaggio; usare invece la proprietà analyzer se è necessario un analizzatore del linguaggio. Questo analizzatore può essere aggiornato per un campo esistente. Deve essere Null per i campi complessi. |
|
searchable |
boolean |
Valore che indica se il campo è ricercabile full-text. Ciò significa che verrà sottoposto ad analisi, ad esempio la suddivisione in parole durante l'indicizzazione. Se si imposta un campo ricercabile su un valore come "sunny day", questo viene suddiviso internamente nei singoli token "sunny" e "day". È così possibile eseguire ricerche full-text di questi termini. I campi di tipo Edm.String o Collection(Edm.String) sono ricercabili per impostazione predefinita. Questa proprietà deve essere false per i campi semplici di altri tipi di dati non stringa e deve essere Null per i campi complessi. Nota: i campi ricercabili utilizzano spazio aggiuntivo nell'indice per supportare versioni tokenizzate aggiuntive del valore del campo per le ricerche full-text. Se si vuole risparmiare spazio nell'indice e non è necessario includere un campo nelle ricerche, impostare searchable su false. |
sortable |
boolean |
Valore che indica se abilitare il riferimento al campo nelle espressioni $orderby. Per impostazione predefinita, il motore di ricerca ordina i risultati in base al punteggio, ma in molte esperienze gli utenti vogliono ordinare in base ai campi nei documenti. Un campo semplice può essere ordinato solo se è a valore singolo (ha un singolo valore nell'ambito del documento padre). I campi di raccolta semplici non possono essere ordinabili, perché sono multivalore. I campi secondari semplici delle raccolte complesse sono anche multivalore e pertanto non possono essere ordinabili. Questo vale se si tratta di un campo padre immediato o di un campo predecessore, che è la raccolta complessa. I campi complessi non possono essere ordinabili e la proprietà ordinabile deve essere Null per tali campi. Il valore predefinito per ordinabile è true per i campi semplici con valori singoli, false per i campi semplici multivalore e Null per i campi complessi. |
stored |
boolean |
Valore non modificabile che indica se il campo verrà salvato separatamente su disco da restituire in un risultato di ricerca. È possibile disabilitare questa opzione se non si prevede di restituire il contenuto del campo in una risposta di ricerca per risparmiare sul sovraccarico di archiviazione. Questa impostazione può essere impostata solo durante la creazione dell'indice e solo per i campi vettoriali. Questa proprietà non può essere modificata per i campi esistenti o impostata su false per i nuovi campi. Se questa proprietà è impostata su false, anche la proprietà 'recuperabile' deve essere impostata su false. Questa proprietà deve essere true o non impostata per i campi chiave, per i nuovi campi e per i campi non vettoriali e deve essere Null per i campi complessi. La disabilitazione di questa proprietà ridurrà i requisiti di archiviazione dell'indice. Il valore predefinito è true per i campi vettoriali. |
synonymMaps |
string[] |
Elenco dei nomi delle mappe di sinonimi da associare a questo campo. Questa opzione può essere usata solo con i campi ricercabili. Attualmente è supportata una sola mappa sinonimia per campo. L'assegnazione di una mappa sinonimo a un campo garantisce che i termini di query destinati a tale campo vengano espansi in fase di query usando le regole nella mappa dei sinonimi. Questo attributo può essere modificato nei campi esistenti. Deve essere Null o una raccolta vuota per i campi complessi. |
type |
Tipo di dati del campo. |
|
vectorEncoding |
Formato di codifica per interpretare il contenuto del campo. |
|
vectorSearchProfile |
string |
Nome del profilo di ricerca vettoriale che specifica l'algoritmo e il vettore da usare durante la ricerca nel campo del vettore. |
SearchFieldDataType
Definisce il tipo di dati di un campo in un indice di ricerca.
Nome | Tipo | Descrizione |
---|---|---|
Edm.Boolean |
string |
Indica che un campo contiene un valore booleano (true o false). |
Edm.Byte |
string |
Indica che un campo contiene un intero senza segno a 8 bit. Questa operazione è valida solo quando viene usata con Collection(Edm.Byte). |
Edm.ComplexType |
string |
Indica che un campo contiene uno o più oggetti complessi che a sua volta hanno campi secondari di altri tipi. |
Edm.DateTimeOffset |
string |
Indica che un campo contiene un valore di data/ora, incluse le informazioni sul fuso orario. |
Edm.Double |
string |
Indica che un campo contiene un numero a virgola mobile con precisione doppia IEEE. |
Edm.GeographyPoint |
string |
Indica che un campo contiene una posizione geografica in termini di longitudine e latitudine. |
Edm.Half |
string |
Indica che un campo contiene un numero a virgola mobile a metà precisione. Questa operazione è valida solo quando viene usata con Collection(Edm.Half). |
Edm.Int16 |
string |
Indica che un campo contiene un intero con segno a 16 bit. Questa opzione è valida solo quando viene usata con Collection(Edm.Int16). |
Edm.Int32 |
string |
Indica che un campo contiene un intero con segno a 32 bit. |
Edm.Int64 |
string |
Indica che un campo contiene un intero con segno a 64 bit. |
Edm.SByte |
string |
Indica che un campo contiene un intero con segno a 8 bit. Questa operazione è valida solo quando viene usata con Collection(Edm.SByte). |
Edm.Single |
string |
Indica che un campo contiene un numero a virgola mobile a precisione singola. Questa operazione è valida solo quando viene usata con Collection(Edm.Single). |
Edm.String |
string |
Indica che un campo contiene una stringa. |
SearchIndex
Rappresenta una definizione dell'indice di ricerca, che descrive i campi e il comportamento di ricerca di un indice.
Nome | Tipo | Descrizione |
---|---|---|
@odata.etag |
string |
ETag dell'indice. |
analyzers | LexicalAnalyzer[]: |
Analizzatori per l'indice. |
charFilters | CharFilter[]: |
Filtri di carattere per l'indice. |
corsOptions |
Opzioni per controllare la condivisione delle risorse tra origini (CORS) per l'indice. |
|
defaultScoringProfile |
string |
Nome del profilo di assegnazione dei punteggi da usare se non è specificato nessuno nella query. Se questa proprietà non è impostata e non viene specificato alcun profilo di assegnazione dei punteggi nella query, verrà usato il punteggio predefinito (tf-idf). |
encryptionKey |
Descrizione di una chiave di crittografia creata in Azure Key Vault. Questa chiave viene usata per fornire un livello aggiuntivo di crittografia inattivi per i dati quando si vuole garantire che nessuno, non anche Microsoft, possa decrittografare i dati. Dopo aver crittografato i dati, rimarrà sempre crittografato. Il servizio di ricerca ignora i tentativi di impostare questa proprietà su Null. È possibile modificare questa proprietà in base alle esigenze se si vuole ruotare la chiave di crittografia; I dati non saranno interessati. La crittografia con chiavi gestite dal cliente non è disponibile per i servizi di ricerca gratuiti ed è disponibile solo per i servizi a pagamento creati o dopo il 1° gennaio 2019. |
|
fields |
Campi dell'indice. |
|
name |
string |
Nome dell'indice. |
normalizers | LexicalNormalizer[]: |
Normalizzatori per l'indice. |
scoringProfiles |
Profili di assegnazione dei punteggi per l'indice. |
|
semantic |
Definisce i parametri per un indice di ricerca che influiscono sulle funzionalità semantiche. |
|
similarity | Similarity: |
Tipo di algoritmo di somiglianza da usare durante l'assegnazione dei punteggi e la classificazione dei documenti corrispondenti a una query di ricerca. L'algoritmo di somiglianza può essere definito solo in fase di creazione dell'indice e non può essere modificato negli indici esistenti. Se null, viene usato l'algoritmo ClassicSimilarity. |
suggesters |
I suggeritori per l'indice. |
|
tokenFilters |
TokenFilter[]:
|
Filtri token per l'indice. |
tokenizers | LexicalTokenizer[]: |
Tokenizer per l'indice. |
vectorSearch |
Contiene opzioni di configurazione correlate alla ricerca vettoriale. |
SearchIndexerDataNoneIdentity
Cancella la proprietà identity di un'origine dati.
Nome | Tipo | Descrizione |
---|---|---|
@odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di identità. |
SearchIndexerDataUserAssignedIdentity
Specifica l'identità da usare per un'origine dati.
Nome | Tipo | Descrizione |
---|---|---|
@odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di identità. |
userAssignedIdentity |
string |
ID risorsa di Azure completo di un'identità gestita assegnata dall'utente in genere nel formato "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" che deve essere stato assegnato al servizio di ricerca. |
SearchResourceEncryptionKey
Una chiave di crittografia gestita dal cliente in Azure Key Vault. Le chiavi create e gestite possono essere usate per crittografare o decrittografare i dati inattivi, ad esempio indici e mappe sinonimi.
Nome | Tipo | Descrizione |
---|---|---|
accessCredentials |
Credenziali facoltative di Azure Active Directory usate per accedere all'Key Vault di Azure. Non richiesto se si usa invece l'identità gestita. |
|
identity | SearchIndexerDataIdentity: |
Identità gestita esplicita da usare per questa chiave di crittografia. Se non specificato e la proprietà delle credenziali di accesso è Null, viene usata l'identità gestita assegnata dal sistema. Se l'identità esplicita non è specificata, l'aggiornamento alla risorsa rimane invariato. Se viene specificato "nessuno", il valore di questa proprietà viene cancellato. |
keyVaultKeyName |
string |
Nome della chiave Key Vault di Azure da usare per crittografare i dati inattivi. |
keyVaultKeyVersion |
string |
Versione della chiave di Key Vault di Azure da usare per crittografare i dati inattivi. |
keyVaultUri |
string |
URI dell'Key Vault di Azure, noto anche come nome DNS, che contiene la chiave da usare per crittografare i dati inattivi. Un URI di esempio potrebbe essere |
SemanticConfiguration
Definisce una configurazione specifica da usare nel contesto delle funzionalità semantiche.
Nome | Tipo | Descrizione |
---|---|---|
name |
string |
Nome della configurazione semantica. |
prioritizedFields |
Descrive i campi titolo, contenuto e parola chiave da usare per classificazione semantica, didascalie, evidenziazioni e risposte. È necessario impostare almeno una delle tre sotto proprietà (titleField, prioritizedKeywordsFields e prioritizedContentFields). |
SemanticField
Campo utilizzato come parte della configurazione semantica.
Nome | Tipo | Descrizione |
---|---|---|
fieldName |
string |
SemanticSettings
Definisce i parametri per un indice di ricerca che influiscono sulle funzionalità semantiche.
Nome | Tipo | Descrizione |
---|---|---|
configurations |
Configurazioni semantiche per l'indice. |
|
defaultConfiguration |
string |
Consente di impostare il nome di una configurazione semantica predefinita nell'indice, rendendo facoltativo passarlo come parametro di query ogni volta. |
ShingleTokenFilter
Crea combinazioni di token come token singolo. Questo filtro token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di filtro del token. |
|
filterToken |
string |
_ |
Stringa da inserire per ogni posizione in cui non è presente alcun token. Il valore predefinito è un carattere di sottolineatura ("_"). |
maxShingleSize |
integer |
2 |
Dimensione massima dello shingle. Il valore predefinito e minimo è 2. |
minShingleSize |
integer |
2 |
Dimensioni minime dello shingle. Il valore predefinito e minimo è 2. Deve essere minore del valore di maxShingleSize. |
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
outputUnigrams |
boolean |
True |
Valore che indica se il flusso di output conterrà i token di input (unigrammi) e gli shingles. Il valore predefinito è true. |
outputUnigramsIfNoShingles |
boolean |
False |
Valore che indica se restituire unigrammi per quei tempi in cui non sono disponibili shingles. Questa proprietà ha la precedenza quando outputUnigrams è impostato su false. L'impostazione predefinita è false. |
tokenSeparator |
string |
Stringa da usare quando si uniscono i token adiacenti per formare uno shingle. Il valore predefinito è un singolo spazio (" "). |
SnowballTokenFilter
Filtro che deriva le parole usando uno stemmer generato da Snowball. Questo filtro token viene implementato usando Apache Lucene.
Nome | Tipo | Descrizione |
---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di filtro del token. |
language |
Lingua da usare. |
|
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
SnowballTokenFilterLanguage
Lingua da usare per un filtro di token Snowball.
Nome | Tipo | Descrizione |
---|---|---|
armenian |
string |
Seleziona il tokenizer di stemming Lucene Snowball per Armeno. |
basque |
string |
Seleziona il tokenizzatore di stemming Lucene Snowball per basco. |
catalan |
string |
Seleziona il tokenizer di stemming Lucene Snowball per catalano. |
danish |
string |
Seleziona il tokenizzatore di stemming Lucene Snowball per danese. |
dutch |
string |
Seleziona il tokenizer di stemming Lucene Snowball per olandese. |
english |
string |
Seleziona il tokenizer di stemming Lucene Snowball per l'inglese. |
finnish |
string |
Seleziona il tokenizer di stemming Lucene Snowball per finlandese. |
french |
string |
Seleziona il tokenizer di stemming Lucene Snowball per francese. |
german |
string |
Seleziona il tokenizer di stemming Lucene Snowball per il tedesco. |
german2 |
string |
Seleziona il tokenizer di stemming Lucene Snowball che usa l'algoritmo variant tedesco. |
hungarian |
string |
Seleziona il tokenizer di stemming Lucene Snowball per ungherese. |
italian |
string |
Seleziona il tokenizer di stemming Lucene Snowball per l'italiano. |
kp |
string |
Seleziona il tokenizer di stemming Lucene Snowball per olandese che usa l'algoritmo di stemming Kraaij-Pohlmann. |
lovins |
string |
Seleziona il tokenizer di stemming Lucene Snowball per l'inglese che usa l'algoritmo di stemming Lovins. |
norwegian |
string |
Seleziona il tokenizer di stemming Lucene Snowball per Norvegese. |
porter |
string |
Seleziona il tokenizer di stemming Lucene Snowball per l'inglese che usa l'algoritmo di stemming Porter. |
portuguese |
string |
Seleziona il tokenizzatore di stemming Lucene Snowball per portoghese. |
romanian |
string |
Seleziona il tokenizer di stemming Lucene Snowball per romeno. |
russian |
string |
Seleziona il tokenizzatore di stemming Lucene Snowball per russo. |
spanish |
string |
Seleziona il tokenizer di stemming Lucene Snowball per spagnolo. |
swedish |
string |
Seleziona il tokenizer di stemming Lucene Snowball per svedese. |
turkish |
string |
Seleziona il tokenizer di stemming Lucene Snowball per turco. |
StemmerOverrideTokenFilter
Consente di eseguire l'override di altri filtri di stemming con stemmi personalizzati basati su dizionario. Tutti i termini con stemmi del dizionario verranno contrassegnati come parole chiave in modo che non vengano stemmati con stemmer lungo la catena. Da inserire prima dei filtri di stemming. Questo filtro token viene implementato usando Apache Lucene.
Nome | Tipo | Descrizione |
---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di filtro del token. |
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
rules |
string[] |
Elenco di regole di stemming nel formato seguente: "word => stem", ad esempio: "run => run". |
StemmerTokenFilter
Filtro di stemming specifico della lingua. Questo filtro token viene implementato usando Apache Lucene.
Nome | Tipo | Descrizione |
---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di filtro del token. |
language |
Lingua da usare. |
|
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
StemmerTokenFilterLanguage
Lingua da usare per un filtro token stemmer.
Nome | Tipo | Descrizione |
---|---|---|
arabic |
string |
Seleziona il tokenizer di stemming Lucene per l'arabo. |
armenian |
string |
Seleziona il tokenizzatore di stemming Lucene per armeno. |
basque |
string |
Seleziona il tokenizzatore di stemming Lucene per basco. |
brazilian |
string |
Seleziona il tokenizzatore di stemming Lucene per portoghese (Brasile). |
bulgarian |
string |
Seleziona il tokenizzatore di stemming Lucene per bulgaro. |
catalan |
string |
Seleziona il tokenizer di stemming Lucene per catalano. |
czech |
string |
Seleziona il tokenizzatore di stemming Lucene per ceco. |
danish |
string |
Seleziona il tokenizzatore di stemming Lucene per danese. |
dutch |
string |
Seleziona il tokenizer di stemming Lucene per olandese. |
dutchKp |
string |
Seleziona il tokenizer di stemming Lucene per olandese che usa l'algoritmo di stemming Kraaij-Pohlmann. |
english |
string |
Seleziona il tokenizer di stemming Lucene per l'inglese. |
finnish |
string |
Seleziona il tokenizzatore di stemming Lucene per finlandese. |
french |
string |
Seleziona il tokenizzatore di stemming Lucene per francese. |
galician |
string |
Seleziona il tokenizzatore di stemma Lucene per la Galiziano. |
german |
string |
Seleziona il tokenizzatore di stemming Lucene per tedesco. |
german2 |
string |
Seleziona il tokenizzatore di stemming Lucene che usa l'algoritmo variant tedesco. |
greek |
string |
Seleziona il tokenizzatore di stemming Lucene per greco. |
hindi |
string |
Seleziona il tokenizzatore di stemming Lucene per Hindi. |
hungarian |
string |
Seleziona il tokenizzatore di stemming Lucene per l'ungherese. |
indonesian |
string |
Seleziona il tokenizzatore di stemming Lucene per indonesiano. |
irish |
string |
Seleziona il tokenizzatore di stemma Lucene per l'irlandese. |
italian |
string |
Seleziona il tokenizzatore di stemming Lucene per l'italiano. |
latvian |
string |
Seleziona il tokenizzatore di stemming Lucene per lettone. |
lightEnglish |
string |
Seleziona il tokenizzatore di stemming Lucene per l'inglese che esegue lo stemming chiaro. |
lightFinnish |
string |
Seleziona il tokenizzatore di stemming Lucene per finlandese che esegue lo stemming chiaro. |
lightFrench |
string |
Seleziona il tokenizzatore di stemming Lucene per francese che esegue lo stemming chiaro. |
lightGerman |
string |
Seleziona il tokenizzatore di stemma Lucene per tedesco che esegue lo stemming chiaro. |
lightHungarian |
string |
Seleziona il tokenizzatore di stemming Lucene per l'ungherese che esegue lo stemming chiaro. |
lightItalian |
string |
Seleziona il tokenizzatore di stemma Lucene per italiano che esegue lo stemming chiaro. |
lightNorwegian |
string |
Seleziona il tokenizzatore di stemming Lucene per Norvegese (Bokmål) che esegue lo stemming chiaro. |
lightNynorsk |
string |
Seleziona il tokenizzatore di stemma Lucene per Norvegese (Nynorsk) che esegue lo stemming chiaro. |
lightPortuguese |
string |
Seleziona il tokenizzatore di stemming Lucene per portoghese che esegue lo stemming chiaro. |
lightRussian |
string |
Seleziona il tokenizzatore di stemming Lucene per russo che esegue lo stemming chiaro. |
lightSpanish |
string |
Seleziona il tokenizzatore di stemma Lucene per spagnolo che esegue lo stemming chiaro. |
lightSwedish |
string |
Seleziona il tokenizzatore di stemma Lucene per svedese che esegue lo stemming chiaro. |
lovins |
string |
Seleziona il tokenizer di stemming Lucene per l'inglese che usa l'algoritmo di stemming Lovins. |
minimalEnglish |
string |
Seleziona il tokenizer di stemming Lucene per l'inglese che esegue lo stemming minimo. |
minimalFrench |
string |
Seleziona il tokenizzatore di stemming Lucene per francese che esegue lo stemming minimo. |
minimalGalician |
string |
Seleziona il tokenizzatore di stemma Lucene per la Galiziano che esegue lo stemming minimo. |
minimalGerman |
string |
Seleziona il tokenizzatore di stemming Lucene per tedesco che esegue lo stemming minimo. |
minimalNorwegian |
string |
Seleziona il tokenizzatore di stemming Lucene per Norvegese (Bokmål) che esegue lo stemming minimo. |
minimalNynorsk |
string |
Seleziona il tokenizzatore di stemming Lucene per Norvegese (Nynorsk) che esegue lo stemming minimo. |
minimalPortuguese |
string |
Seleziona il tokenizzatore di stemming Lucene per portoghese che esegue lo stemming minimo. |
norwegian |
string |
Seleziona il tokenizzatore di stemming Lucene per Norvegese (Bokmål). |
porter2 |
string |
Seleziona il tokenizer di stemming Lucene per l'inglese che usa l'algoritmo stemming Porter2. |
portuguese |
string |
Seleziona il tokenizzatore di stemming Lucene per portoghese. |
portugueseRslp |
string |
Seleziona il tokenizzatore di stemming Lucene per portoghese che usa l'algoritmo di stemming RSLP. |
possessiveEnglish |
string |
Seleziona il tokenizer di stemming Lucene per l'inglese che rimuove i possessivi finali dalle parole. |
romanian |
string |
Seleziona il tokenizzatore di stemming Lucene per il romeno. |
russian |
string |
Seleziona il tokenizzatore di stemming Lucene per russo. |
sorani |
string |
Seleziona il tokenizzatore di stemming Lucene per Sorani. |
spanish |
string |
Seleziona il tokenizzatore di stemming Lucene per spagnolo. |
swedish |
string |
Seleziona il tokenizzatore di stemming Lucene per svedese. |
turkish |
string |
Seleziona il tokenizzatore di stemming Lucene per turco. |
StopAnalyzer
Divide il testo in lettere non lettere; Applica i filtri token minuscoli e stopword. Questo analizzatore viene implementato usando Apache Lucene.
Nome | Tipo | Descrizione |
---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di analizzatore. |
name |
string |
Nome dell'analizzatore. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
stopwords |
string[] |
Elenco di parole non significative. |
StopwordsList
Identifica un elenco predefinito di parole non significative specifiche della lingua.
Nome | Tipo | Descrizione |
---|---|---|
arabic |
string |
Seleziona l'elenco di parole di arresto per l'arabo. |
armenian |
string |
Seleziona l'elenco di parole di arresto per Armena. |
basque |
string |
Seleziona l'elenco di parole di arresto per basco. |
brazilian |
string |
Seleziona l'elenco di parole di arresto per portoghese (Brasile). |
bulgarian |
string |
Seleziona l'elenco di parole di arresto per bulgaro. |
catalan |
string |
Seleziona l'elenco di parole di arresto per Catalano. |
czech |
string |
Seleziona l'elenco di parole di arresto per il ceco. |
danish |
string |
Seleziona l'elenco di parole di arresto per danese. |
dutch |
string |
Seleziona l'elenco di parole di arresto per olandese. |
english |
string |
Seleziona l'elenco di parole di arresto per l'inglese. |
finnish |
string |
Seleziona l'elenco di parole di arresto per finlandese. |
french |
string |
Seleziona l'elenco di parole di arresto per francese. |
galician |
string |
Seleziona l'elenco di parole di arresto per La Galiziano. |
german |
string |
Seleziona l'elenco di parole di arresto per tedesco. |
greek |
string |
Seleziona l'elenco di parole di arresto per greco. |
hindi |
string |
Seleziona l'elenco di parole di arresto per Hindi. |
hungarian |
string |
Seleziona l'elenco di parole di arresto per ungherese. |
indonesian |
string |
Seleziona l'elenco di parole di arresto per Indonesiano. |
irish |
string |
Seleziona l'elenco di parole di arresto per l'irlandese. |
italian |
string |
Seleziona l'elenco di parole di arresto per l'italiano. |
latvian |
string |
Seleziona l'elenco di parole di arresto per lettone. |
norwegian |
string |
Seleziona l'elenco di parole di arresto per Norvegese. |
persian |
string |
Seleziona l'elenco di parole di arresto per persiano. |
portuguese |
string |
Seleziona l'elenco di parole di arresto per portoghese. |
romanian |
string |
Seleziona l'elenco di parole di arresto per il romeno. |
russian |
string |
Seleziona l'elenco di parole di arresto per russo. |
sorani |
string |
Seleziona l'elenco stopword per Sorani. |
spanish |
string |
Seleziona l'elenco di parole di arresto per spagnolo. |
swedish |
string |
Seleziona l'elenco di parole di arresto per svedese. |
thai |
string |
Seleziona l'elenco stopword per Thai. |
turkish |
string |
Seleziona l'elenco di parole di arresto per turco. |
StopwordsTokenFilter
Rimuove le parole non significative da un flusso di token. Questo filtro token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di filtro del token. |
|
ignoreCase |
boolean |
False |
Valore che indica se ignorare il caso. Se true, tutte le parole vengono convertite prima in minuscolo. L'impostazione predefinita è false. |
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
removeTrailing |
boolean |
True |
Valore che indica se ignorare l'ultimo termine di ricerca se è una parola di arresto. Il valore predefinito è true. |
stopwords |
string[] |
Elenco di parole non significative. Questa proprietà e la proprietà elenco parole non possono essere impostate. |
|
stopwordsList | english |
Elenco predefinito di parole non significative da usare. Questa proprietà e la proprietà stopwords non possono essere impostate entrambe. Il valore predefinito è inglese. |
Suggester
Definisce il modo in cui l'API Suggerisci deve essere applicata a un gruppo di campi nell'indice.
Nome | Tipo | Descrizione |
---|---|---|
name |
string |
Nome dello strumento suggerimenti. |
searchMode |
Valore che indica le funzionalità del suggerimento. |
|
sourceFields |
string[] |
Elenco di nomi di campo a cui si applica il suggerimento. Ogni campo deve essere ricercabile. |
SuggesterSearchMode
Valore che indica le funzionalità del suggeritore.
Nome | Tipo | Descrizione |
---|---|---|
analyzingInfixMatching |
string |
Corrisponde a termini e prefissi interi consecutivi in un campo. Ad esempio, per il campo "La fox marrone più veloce", le query "fast" e "fastest brow" corrispondono entrambe. |
SynonymTokenFilter
Corrisponde a sinonimi singoli o multi word in un flusso di token. Questo filtro token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di filtro del token. |
|
expand |
boolean |
True |
Valore che indica se tutte le parole nell'elenco dei sinonimi (se => non viene usata) verranno mappate tra loro. Se true, tutte le parole nell'elenco dei sinonimi (se => notazione non vengono usate) verranno mappate tra loro. L'elenco seguente: incredibile, incredibile, favoloso, incredibile => incredibile, incredibile, favoloso, incredibile. Se false, l'elenco seguente: incredibile, incredibile, favoloso, incredibile, incredibile sarà equivalente a: incredibile, incredibile, incredibile, incredibile => incredibile. Il valore predefinito è true. |
ignoreCase |
boolean |
False |
Valore che indica se inserire in maiuscole e minuscole l'input per la corrispondenza. L'impostazione predefinita è false. |
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
synonyms |
string[] |
Elenco di sinonimi in uno dei due formati seguenti: 1. incredibile, incredibile, favoloso => incredibile - tutti i termini sul lato sinistro di => simbolo verrà sostituito con tutti i termini sul suo lato destro; 2. incredibile, incredibile, favoloso, incredibile - elenco delimitato da virgole di parole equivalenti. Impostare l'opzione expand per modificare la modalità di interpretazione di questo elenco. |
TagScoringFunction
Definisce una funzione che aumenta i punteggi dei documenti con valori stringa corrispondenti a un determinato elenco di tag.
Nome | Tipo | Descrizione |
---|---|---|
boost |
number |
Moltiplicatore per il punteggio non elaborato. Deve essere un numero positivo non uguale a 1,0. |
fieldName |
string |
Nome del campo usato come input per la funzione di assegnazione dei punteggi. |
interpolation |
Valore che indica la modalità di interpolazione tra i punteggi dei documenti; impostazione predefinita "Lineare". |
|
tag |
Valori dei parametri per la funzione di assegnazione dei punteggi tag. |
|
type |
string:
tag |
Indica il tipo di funzione da usare. I valori validi includono magnitude, freshness, distance e tag. Il tipo di funzione deve essere minuscolo. |
TagScoringParameters
Fornisce i valori dei parametri a una funzione di assegnazione dei punteggi di tag.
Nome | Tipo | Descrizione |
---|---|---|
tagsParameter |
string |
Nome del parametro passato nelle query di ricerca per specificare l'elenco di tag da confrontare con il campo di destinazione. |
TextWeights
Definisce i pesi sui campi di indice per i quali le corrispondenze dovrebbero aumentare il punteggio nelle query di ricerca.
Nome | Tipo | Descrizione |
---|---|---|
weights |
object |
Dizionario di pesi per campo per aumentare il punteggio del documento. Le chiavi sono nomi di campo e i valori sono i pesi per ogni campo. |
TokenCharacterKind
Rappresenta le classi di caratteri in cui può funzionare un filtro token.
Nome | Tipo | Descrizione |
---|---|---|
digit |
string |
Mantiene le cifre nei token. |
letter |
string |
Mantiene le lettere nei token. |
punctuation |
string |
Mantiene la punteggiatura nei token. |
symbol |
string |
Mantiene i simboli nei token. |
whitespace |
string |
Mantiene gli spazi vuoti nei token. |
TokenFilterName
Definisce i nomi di tutti i filtri token supportati dal motore di ricerca.
TruncateTokenFilter
Tronca i termini a una lunghezza specifica. Questo filtro token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di filtro del token. |
|
length |
integer |
300 |
Lunghezza a cui verranno troncati i termini. Il valore predefinito e massimo è 300. |
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
UaxUrlEmailTokenizer
Suddivide in token gli URL e gli indirizzi di posta elettronica come un unico token. Questo tokenizzatore viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di tokenizer. |
|
maxTokenLength |
integer |
255 |
Lunghezza massima del token. Il valore predefinito è 255. I token con lunghezza superiore a quella massima vengono suddivisi. La lunghezza massima del token che può essere usata è di 300 caratteri. |
name |
string |
Nome del tokenizer. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
UniqueTokenFilter
Filtra i token con lo stesso testo del token precedente. Questo filtro token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di filtro del token. |
|
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
onlyOnSamePosition |
boolean |
False |
Valore che indica se rimuovere duplicati solo nella stessa posizione. L'impostazione predefinita è false. |
VectorEncodingFormat
Formato di codifica per interpretare il contenuto del campo vettore.
Nome | Tipo | Descrizione |
---|---|---|
packedBit |
string |
Formato di codifica che rappresenta bit compressi in un tipo di dati più ampio. |
VectorSearch
Contiene opzioni di configurazione correlate alla ricerca vettoriale.
Nome | Tipo | Descrizione |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Contiene opzioni di configurazione specifiche dell'algoritmo usato durante l'indicizzazione o l'esecuzione di query. |
compressions | VectorSearchCompressionConfiguration[]: |
Contiene opzioni di configurazione specifiche del metodo di compressione usato durante l'indicizzazione o l'esecuzione di query. |
profiles |
Definisce le combinazioni di configurazioni da usare con la ricerca vettoriale. |
|
vectorizers | VectorSearchVectorizer[]: |
Contiene opzioni di configurazione su come vettorializzare le query del vettore di testo. |
VectorSearchAlgorithmKind
Algoritmo utilizzato per l'indicizzazione e l'esecuzione di query.
Nome | Tipo | Descrizione |
---|---|---|
exhaustiveKnn |
string |
Algoritmo KNN completo che eseguirà la ricerca di forza bruta. |
hnsw |
string |
HNSW (Gerarchica Navigable Small World), un tipo di algoritmo di prossimità più vicino approssimativo. |
VectorSearchAlgorithmMetric
Metrica di somiglianza da usare per i confronti tra vettori. È consigliabile scegliere la stessa metrica di somiglianza del modello di incorporamento su cui è stato eseguito il training.
Nome | Tipo | Descrizione |
---|---|---|
cosine |
string |
Misura l'angolo tra vettori per quantificare la loro somiglianza, ignorando la grandezza. Più piccolo è l'angolo, più vicino alla somiglianza. |
dotProduct |
string |
Calcola la somma dei prodotti a livello di elemento per misurare la somiglianza tra allineamento e grandezza. Più grande e più positivo, più vicino alla somiglianza. |
euclidean |
string |
Calcola la distanza di linea retta tra vettori in uno spazio multidimensionale. Minore è la distanza, più vicina è la somiglianza. |
hamming |
string |
Applicabile solo ai tipi di dati binari compressi a bit. Determina la differenza contando posizioni diverse nei vettori binari. Il minor numero di differenze, più vicino è la somiglianza. |
VectorSearchCompressionKind
Metodo di compressione utilizzato per l'indicizzazione e l'esecuzione di query.
Nome | Tipo | Descrizione |
---|---|---|
scalarQuantization |
string |
Quantizzazione scalare, un tipo di metodo di compressione. Nella quantizzazione scalare, i valori dei vettori originali vengono compressi in un tipo più stretto discretizzando e rappresentando ogni componente di un vettore usando un set ridotto di valori quantizzati, riducendo così le dimensioni complessive dei dati. |
VectorSearchCompressionTargetDataType
Tipo di dati quantizzato di valori vettoriali compressi.
Nome | Tipo | Descrizione |
---|---|---|
int8 |
string |
VectorSearchProfile
Definisce una combinazione di configurazioni da usare con la ricerca vettoriale.
Nome | Tipo | Descrizione |
---|---|---|
algorithm |
string |
Nome della configurazione dell'algoritmo di ricerca vettore che specifica l'algoritmo e i parametri facoltativi. |
compression |
string |
Nome della configurazione del metodo di compressione che specifica il metodo di compressione e i parametri facoltativi. |
name |
string |
Nome da associare a questo particolare profilo di ricerca vettore. |
vectorizer |
string |
Nome del tipo di metodo di vettorializzazione configurato per l'uso con la ricerca vettoriale. |
VectorSearchVectorizerKind
Metodo di vettorizzazione da utilizzare durante il tempo di query.
Nome | Tipo | Descrizione |
---|---|---|
aiServicesVision |
string |
Generare incorporamenti per un'immagine o un input di testo in fase di query usando l'API Vision Vectorize di Servizi intelligenza artificiale di Azure. |
aml |
string |
Generare incorporamenti usando un endpoint di Azure Machine Learning distribuito tramite il catalogo modelli Studio AI della piattaforma Azure in fase di query. |
azureOpenAI |
string |
Generare incorporamenti usando una risorsa OpenAI di Azure in fase di query. |
customWebApi |
string |
Generare incorporamenti usando un endpoint Web personalizzato in fase di query. |
WordDelimiterTokenFilter
Suddivide le parole in sottoparole ed esegue trasformazioni facoltative sui gruppi di sottoparole. Questo filtro token viene implementato usando Apache Lucene.
Nome | Tipo | Valore predefinito | Descrizione |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Un frammento URI che specifica il tipo di filtro del token. |
|
catenateAll |
boolean |
False |
Valore che indica se tutte le parti di sottoword verranno catenate. Ad esempio, se questa opzione è impostata su true, "Azure-Search-1" diventa "AzureSearch1". L'impostazione predefinita è false. |
catenateNumbers |
boolean |
False |
Valore che indica se le esecuzioni massime delle parti numerice verranno catenate. Ad esempio, se questa opzione è impostata su true, "1-2" diventa "12". L'impostazione predefinita è false. |
catenateWords |
boolean |
False |
Valore che indica se le esecuzioni massime delle parti di parole verranno catenate. Ad esempio, se questa opzione è impostata su true, "Azure-Search" diventa "AzureSearch". L'impostazione predefinita è false. |
generateNumberParts |
boolean |
True |
Valore che indica se generare parole secondarie numerice. Il valore predefinito è true. |
generateWordParts |
boolean |
True |
Valore che indica se generare parole di parte. Se impostato, causa la generazione di parti di parole; ad esempio "AzureSearch" diventa "Azure" "Search". Il valore predefinito è true. |
name |
string |
Nome del filtro del token. Può contenere solo lettere, numeri, spazi, trattini o caratteri di sottolineatura, deve iniziare e terminare con caratteri alfanumerici e non può contenere più di 128 caratteri. |
|
preserveOriginal |
boolean |
False |
Valore che indica se le parole originali verranno mantenute e aggiunte all'elenco di sottoword. L'impostazione predefinita è false. |
protectedWords |
string[] |
Elenco di token da proteggere da essere delimitato. |
|
splitOnCaseChange |
boolean |
True |
Valore che indica se suddividere le parole in caseChange. Ad esempio, se questa opzione è impostata su true, "AzureSearch" diventa "Azure" "Search". Il valore predefinito è true. |
splitOnNumerics |
boolean |
True |
Valore che indica se suddividere i numeri. Ad esempio, se questa opzione è impostata su true, "Azure1Search" diventa "Azure" "1" "Search". Il valore predefinito è true. |
stemEnglishPossessive |
boolean |
True |
Valore che indica se rimuovere "'s" finale per ogni sottoword. Il valore predefinito è true. |