Indexes - Create Or Update
Cria um novo índice de pesquisa ou atualiza um índice se já existir.
PUT {endpoint}/indexes('{indexName}')?api-version=2023-10-01-Preview
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2023-10-01-Preview
Parâmetros do URI
Name | Em | Necessário | Tipo | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
O URL do ponto final do serviço de pesquisa. |
index
|
path | True |
string |
A definição do índice para criar ou atualizar. |
api-version
|
query | True |
string |
Versão da API de Cliente. |
allow
|
query |
boolean |
Permite que novos analisadores, tokens, filtros de tokens ou filtros de caráter sejam adicionados a um índice ao colocar o índice offline durante, pelo menos, alguns segundos. Isto faz com que os pedidos de indexação e consulta falhem temporariamente. O desempenho e a disponibilidade de escrita do índice podem ser prejudicados durante vários minutos após a atualização do índice ou durante mais tempo para índices muito grandes. |
Cabeçalho do Pedido
Name | Necessário | Tipo | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
O ID de controlo enviado com o pedido para ajudar na depuração. |
|
If-Match |
string |
Define a condição If-Match. A operação só será efetuada se o ETag no servidor corresponder a este valor. |
|
If-None-Match |
string |
Define a condição If-None-Match. A operação só será efetuada se o ETag no servidor não corresponder a este valor. |
|
Prefer | True |
string |
Para pedidos HTTP PUT, instrui o serviço a devolver o recurso criado/atualizado com êxito. |
Corpo do Pedido
Name | Necessário | Tipo | Description |
---|---|---|---|
fields | True |
Os campos do índice. |
|
name | True |
string |
O nome do índice. |
@odata.etag |
string |
O ETag do índice. |
|
analyzers | LexicalAnalyzer[]: |
Os analisadores do índice. |
|
charFilters | CharFilter[]: |
O caráter filtra para o índice. |
|
corsOptions |
Opções para controlar a Partilha de Recursos Entre Origens (CORS) para o índice. |
||
defaultScoringProfile |
string |
O nome do perfil de classificação a utilizar se não for especificado nenhum na consulta. Se esta propriedade não estiver definida e não for especificado nenhum perfil de classificação na consulta, será utilizada a classificação predefinida (tf-idf). |
|
encryptionKey |
Uma descrição de uma chave de encriptação que cria no Azure Key Vault. Esta chave é utilizada para fornecer um nível adicional de encriptação inativa para os seus dados quando quiser ter a garantia total de que ninguém, nem mesmo a Microsoft, pode desencriptar os seus dados. Depois de encriptar os seus dados, estes permanecerão sempre encriptados. O serviço de pesquisa irá ignorar as tentativas de definir esta propriedade como nula. Pode alterar esta propriedade conforme necessário se quiser rodar a chave de encriptação; Os seus dados não serão afetados. A encriptação com chaves geridas pelo cliente não está disponível para serviços de pesquisa gratuita e só está disponível para serviços pagos criados em ou depois de 1 de janeiro de 2019. |
||
normalizers | LexicalNormalizer[]: |
Os normalizadores do índice. |
|
scoringProfiles |
Os perfis de classificação do índice. |
||
semantic |
Define parâmetros para um índice de pesquisa que influencia as capacidades semânticas. |
||
similarity | Similarity: |
O tipo de algoritmo de semelhança a ser utilizado ao classificar e classificar os documentos correspondentes a uma consulta de pesquisa. O algoritmo de semelhança só pode ser definido no momento da criação do índice e não pode ser modificado em índices existentes. Se for nulo, é utilizado o algoritmo ClassicSimilarity. |
|
suggesters |
Os sugestores do índice. |
||
tokenFilters |
TokenFilter[]:
|
O token filtra o índice. |
|
tokenizers | LexicalTokenizer[]: |
Os tokenizers do índice. |
|
vectorSearch |
Contém opções de configuração relacionadas com a pesquisa de vetores. |
Respostas
Name | Tipo | Description |
---|---|---|
200 OK | ||
201 Created | ||
Other Status Codes |
Resposta de erro. |
Exemplos
SearchServiceCreateOrUpdateIndex
Pedido de amostra
PUT https://myservice.search.windows.net/indexes('hotels')?allowIndexDowntime=False&api-version=2023-10-01-Preview
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine",
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey"
}
}
]
}
}
Resposta da amostra
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": null,
"b": null
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myKeyName",
"keyVaultKeyVersion": "myKeyVersion",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"semantic": {
"defaultConfiguration": null,
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey",
"authIdentity": null
}
}
]
}
}
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2",
"tokenFilters": []
}
],
"normalizers": [],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"semantic": {
"defaultConfiguration": null,
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey",
"authIdentity": null
}
}
]
}
}
Definições
Name | Description |
---|---|
Ascii |
Converte carateres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 carateres ASCII (o bloco Unicode "Latim Básico") nos respetivos equivalentes ASCII, se existirem esses equivalentes. Este filtro de token é implementado com o Apache Lucene. |
Azure |
Credenciais de uma aplicação registada criada para o seu serviço de pesquisa, utilizada para acesso autenticado às chaves de encriptação armazenadas no Azure Key Vault. |
Azure |
Especifica os parâmetros para ligar ao recurso openAI do Azure. |
Azure |
Especifica o recurso Azure OpenAI utilizado para vetorizar uma cadeia de consulta. |
BM25Similarity |
Função ranking baseada no algoritmo de semelhança Okapi BM25. BM25 é um algoritmo semelhante a TF-IDF que inclui a normalização do comprimento (controlada pelo parâmetro "b") bem como a saturação da frequência do termo (controlada pelo parâmetro "k1"). |
Char |
Define os nomes de todos os filtros de carateres suportados pelo motor de busca. |
Cjk |
Forma bigrams de termos CJK gerados a partir do tokenizador padrão. Este filtro de token é implementado com o Apache Lucene. |
Cjk |
Scripts que podem ser ignorados por CjkBigramTokenFilter. |
Classic |
Algoritmo de semelhança legado que utiliza a implementação Lucene TFIDFSimilarity do TF-IDF. Esta variação do TF-IDF introduz a normalização do comprimento do documento estático, bem como fatores coordenados que penalizam documentos que apenas correspondem parcialmente às consultas pesquisadas. |
Classic |
Tokenizador baseado em gramática adequado para processar a maioria dos documentos de idioma europeu. Este tokenizador é implementado com o Apache Lucene. |
Common |
Construa bigrams para termos que ocorrem frequentemente durante a indexação. Os termos únicos também são indexados, com bigrams sobrepostos. Este filtro de token é implementado com o Apache Lucene. |
Cors |
Define opções para controlar a Partilha de Recursos De Várias Origens (CORS) para um índice. |
Custom |
Permite-lhe assumir o controlo sobre o processo de conversão de texto em tokens indexáveis/pesquisáveis. É uma configuração definida pelo utilizador que consiste num tokenizador predefinido único e num ou mais filtros. O tokenizer é responsável por dividir o texto em tokens e os filtros para modificar tokens emitidos pelo tokenizador. |
Custom |
Permite-lhe configurar a normalização para campos filtráveis, ordenáveis e facetáveis, que, por predefinição, funcionam com correspondência estrita. Esta é uma configuração definida pelo utilizador que consiste em, pelo menos, um ou mais filtros, que modificam o token armazenado. |
Custom |
Especifica um vetorizador definido pelo utilizador para gerar a incorporação de vetor de uma cadeia de consulta. A integração de um vetor externo é obtida com a interface personalizada da API Web de um conjunto de competências. |
Custom |
Especifica as propriedades para ligar a um vetor definido pelo utilizador. |
Dictionary |
Decompõe palavras compostas encontradas em muitas línguas germânicas. Este filtro de token é implementado com o Apache Lucene. |
Distance |
Define uma função que aumenta as pontuações com base na distância de uma localização geográfica. |
Distance |
Fornece valores de parâmetros para uma função de classificação de distância. |
Edge |
Gera n-gramas dos tamanhos especificados a partir da frente ou na parte traseira de um token de entrada. Este filtro de token é implementado com o Apache Lucene. |
Edge |
Especifica a partir de que lado da entrada deve ser gerado um n-grama. |
Edge |
Gera n-gramas do(s) tamanho(s) especificado(s) a partir da parte frontal ou traseira de um token de entrada. Este filtro de token é implementado com o Apache Lucene. |
Edge |
Tokens the input from an edge into n-grams of the given size(s). Este tokenizador é implementado com o Apache Lucene. |
Elision |
Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (plano). Este filtro de token é implementado com o Apache Lucene. |
Exhaustive |
Contém os parâmetros específicos do algoritmo KNN exaustivo. |
Exhaustive |
Contém opções de configuração específicas do algoritmo KNN exaustivo utilizado durante a consulta, que irá realizar pesquisas de força bruta em todo o índice de vetor. |
Freshness |
Define uma função que aumenta as pontuações com base no valor de um campo de data/hora. |
Freshness |
Fornece valores de parâmetros para uma função de classificação de atualização. |
Hnsw |
Contém os parâmetros específicos do algoritmo HNSW. |
Hnsw |
Contém opções de configuração específicas do algoritmo de vizinhos mais próximos do HNSW utilizado durante a indexação e consulta. O algoritmo HNSW oferece uma troca atumável entre a velocidade de pesquisa e a precisão. |
Keep |
Um filtro de token que mantém apenas tokens com texto contido numa lista de palavras especificada. Este filtro de token é implementado com o Apache Lucene. |
Keyword |
Marca os termos como palavras-chave. Este filtro de token é implementado com o Apache Lucene. |
Keyword |
Emite toda a entrada como um único token. Este tokenizador é implementado com o Apache Lucene. |
Keyword |
Emite toda a entrada como um único token. Este tokenizador é implementado com o Apache Lucene. |
Length |
Remove palavras demasiado longas ou demasiado curtas. Este filtro de token é implementado com o Apache Lucene. |
Lexical |
Define os nomes de todos os analisadores de texto suportados pelo motor de busca. |
Lexical |
Define os nomes de todos os normalizadores de texto suportados pelo motor de busca. |
Lexical |
Define os nomes de todos os tokenizers suportados pelo motor de busca. |
Limit |
Limita o número de tokens durante a indexação. Este filtro de token é implementado com o Apache Lucene. |
Lucene |
Analisador Standard do Apache Lucene; Composto pelo tokenizador padrão, filtro em minúsculas e filtro de paragem. |
Lucene |
Quebra o texto ao seguir as regras de Segmentação de Texto Unicode. Este tokenizador é implementado com o Apache Lucene. |
Lucene |
Quebra o texto ao seguir as regras de Segmentação de Texto Unicode. Este tokenizador é implementado com o Apache Lucene. |
Magnitude |
Define uma função que aumenta as pontuações com base na magnitude de um campo numérico. |
Magnitude |
Fornece valores de parâmetros para uma função de classificação de magnitude. |
Mapping |
Um filtro de carateres que aplica mapeamentos definidos com a opção de mapeamentos. A correspondência é gananciosa (o padrão mais longo correspondente a um determinado ponto ganha). A substituição pode ser a cadeia vazia. Este filtro de carateres é implementado com o Apache Lucene. |
Microsoft |
Divide o texto através de regras específicas do idioma e reduz as palavras aos respetivos formulários base. |
Microsoft |
Divide o texto através de regras específicas do idioma. |
Microsoft |
Listas os idiomas suportados pelo tokenizer de idioma da Microsoft. |
Microsoft |
Listas os idiomas suportados pelo tokenizador de idioma da Microsoft. |
NGram |
Gera n-gramas dos tamanhos especificados. Este filtro de token é implementado com o Apache Lucene. |
NGram |
Gera n-gramas dos tamanhos especificados. Este filtro de token é implementado com o Apache Lucene. |
NGram |
Tokens the input into n-grams of the given size(s). Este tokenizador é implementado com o Apache Lucene. |
Path |
Tokenizer para hierarquias semelhantes a caminho. Este tokenizador é implementado com o Apache Lucene. |
Pattern |
Separa flexívelmente o texto em termos através de um padrão de expressão normal. Este analisador é implementado com o Apache Lucene. |
Pattern |
Utiliza regexes Java para emitir vários tokens – um para cada grupo de captura num ou mais padrões. Este filtro de token é implementado com o Apache Lucene. |
Pattern |
Um filtro de carateres que substitui carateres na cadeia de entrada. Utiliza uma expressão regular para identificar sequências de carateres a preservar e um padrão de substituição para identificar carateres a substituir. Por exemplo, tendo em conta o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Este filtro de carateres é implementado com o Apache Lucene. |
Pattern |
Um filtro de carateres que substitui carateres na cadeia de entrada. Utiliza uma expressão regular para identificar sequências de carateres a preservar e um padrão de substituição para identificar carateres a substituir. Por exemplo, tendo em conta o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Este filtro de token é implementado com o Apache Lucene. |
Pattern |
Tokenizer que utiliza a correspondência de padrões regex para construir tokens distintos. Este tokenizador é implementado com o Apache Lucene. |
Phonetic |
Identifica o tipo de codificador fonético a utilizar com um PhoneticTokenFilter. |
Phonetic |
Criar tokens para correspondências fonéticas. Este filtro de token é implementado com o Apache Lucene. |
Prioritized |
Descreve os campos de título, conteúdo e palavras-chave a utilizar para classificação semântica, legendas, destaques e respostas. |
Regex |
Define sinalizadores que podem ser combinados para controlar a forma como as expressões normais são utilizadas no analisador de padrões e no tokenizador de padrões. |
Scoring |
Define a função de agregação utilizada para combinar os resultados de todas as funções de classificação num perfil de classificação. |
Scoring |
Define a função utilizada para interpolar o aumento da classificação num intervalo de documentos. |
Scoring |
Define parâmetros para um índice de pesquisa que influencia a classificação em consultas de pesquisa. |
Search |
Descreve uma condição de erro para a API. |
Search |
Representa um campo numa definição de índice, que descreve o nome, o tipo de dados e o comportamento de pesquisa de um campo. |
Search |
Define o tipo de dados de um campo num índice de pesquisa. |
Search |
Representa uma definição de índice de pesquisa, que descreve os campos e o comportamento de pesquisa de um índice. |
Search |
Limpa a propriedade de identidade de uma origem de dados. |
Search |
Especifica a identidade de uma origem de dados a utilizar. |
Search |
Uma chave de encriptação gerida pelo cliente no Azure Key Vault. As chaves que cria e gere podem ser utilizadas para encriptar ou desencriptar dados inativos, como índices e mapas de sinónimos. |
Semantic |
Define uma configuração específica a ser utilizada no contexto das capacidades semânticas. |
Semantic |
Um campo que é utilizado como parte da configuração semântica. |
Semantic |
Define parâmetros para um índice de pesquisa que influencia as capacidades semânticas. |
Shingle |
Cria combinações de tokens como um único token. Este filtro de token é implementado com o Apache Lucene. |
Snowball |
Um filtro que escorria palavras utilizando um stemer gerado por bola de neve. Este filtro de token é implementado com o Apache Lucene. |
Snowball |
O idioma a utilizar para um filtro de token bola de neve. |
Stemmer |
Fornece a capacidade de substituir outros filtros de detenção por descrições personalizadas baseadas em dicionários. Quaisquer termos sem dicionário serão marcados como palavras-chave para que não sejam gerados com os stemmers na cadeia. Tem de ser colocado antes de quaisquer filtros de deteção. Este filtro de token é implementado com o Apache Lucene. |
Stemmer |
Filtro de decorrido específico da linguagem. Este filtro de token é implementado com o Apache Lucene. |
Stemmer |
O idioma a utilizar para um filtro de token de stemmer. |
Stop |
Divide o texto em não letras; Aplica os filtros de token em minúsculas e de palavra-passe. Este analisador é implementado com o Apache Lucene. |
Stopwords |
Identifica uma lista predefinida de palavras-passe específicas do idioma. |
Stopwords |
Remove palavras paradas de um fluxo de tokens. Este filtro de token é implementado com o Apache Lucene. |
Suggester |
Define como a API Suggest deve ser aplicada a um grupo de campos no índice. |
Suggester |
Um valor que indica as capacidades do sugeridor. |
Synonym |
Corresponde a sinónimos de uma ou várias palavras num fluxo de tokens. Este filtro de token é implementado com o Apache Lucene. |
Tag |
Define uma função que aumenta as pontuações de documentos com valores de cadeia que correspondem a uma determinada lista de etiquetas. |
Tag |
Fornece valores de parâmetros para uma função de classificação de etiquetas. |
Text |
Define os pesos nos campos de índice para os quais as correspondências devem aumentar a classificação nas consultas de pesquisa. |
Token |
Representa classes de carateres nos quais um filtro de token pode funcionar. |
Token |
Define os nomes de todos os filtros de token suportados pelo motor de busca. |
Truncate |
Trunca os termos para um comprimento específico. Este filtro de token é implementado com o Apache Lucene. |
Uax |
Tokenize urls e e-mails como um token. Este tokenizador é implementado com o Apache Lucene. |
Unique |
Filtra tokens com o mesmo texto que o token anterior. Este filtro de token é implementado com o Apache Lucene. |
Vector |
Contém opções de configuração relacionadas com a pesquisa de vetores. |
Vector |
O algoritmo utilizado para indexar e consultar. |
Vector |
A métrica de semelhança a utilizar para comparações de vetores. |
Vector |
Define uma combinação de configurações a utilizar com a pesquisa de vetores. |
Vector |
O método de vetorização a utilizar durante o tempo de consulta. |
Word |
Divide palavras em sub-palavras e efetua transformações opcionais em grupos de sub-palavras. Este filtro de token é implementado com o Apache Lucene. |
AsciiFoldingTokenFilter
Converte carateres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 carateres ASCII (o bloco Unicode "Latim Básico") nos respetivos equivalentes ASCII, se existirem esses equivalentes. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
preserveOriginal |
boolean |
False |
Um valor que indica se o token original será mantido. A predefinição é falso. |
AzureActiveDirectoryApplicationCredentials
Credenciais de uma aplicação registada criada para o seu serviço de pesquisa, utilizada para acesso autenticado às chaves de encriptação armazenadas no Azure Key Vault.
Name | Tipo | Description |
---|---|---|
applicationId |
string |
Um ID da Aplicação do AAD ao qual foram concedidas as permissões de acesso necessárias ao Azure Key Vault que deve ser utilizado ao encriptar os seus dados inativos. O ID da Aplicação não deve ser confundido com o ID de Objeto da sua Aplicação do AAD. |
applicationSecret |
string |
A chave de autenticação da aplicação do AAD especificada. |
AzureOpenAIParameters
Especifica os parâmetros para ligar ao recurso openAI do Azure.
Name | Tipo | Description |
---|---|---|
apiKey |
string |
Chave de API do recurso do Azure OpenAI designado. |
authIdentity | SearchIndexerDataIdentity: |
A identidade gerida atribuída pelo utilizador utilizada para ligações de saída. |
deploymentId |
string |
ID da implementação do modelo Azure OpenAI no recurso designado. |
resourceUri |
string |
O URI de recurso do recurso do Azure OpenAI. |
AzureOpenAIVectorizer
Especifica o recurso Azure OpenAI utilizado para vetorizar uma cadeia de consulta.
Name | Tipo | Description |
---|---|---|
azureOpenAIParameters |
Contém os parâmetros específicos da vetorização de incorporação do Azure OpenAI. |
|
kind |
string:
azure |
O nome do tipo de método de vetorização que está a ser configurado para utilização com a pesquisa de vetores. |
name |
string |
O nome a associar a este método de vetorização específico. |
BM25Similarity
Função ranking baseada no algoritmo de semelhança Okapi BM25. BM25 é um algoritmo semelhante a TF-IDF que inclui a normalização do comprimento (controlada pelo parâmetro "b") bem como a saturação da frequência do termo (controlada pelo parâmetro "k1").
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Esta propriedade controla como o comprimento de um documento afeta a classificação de relevância. Por predefinição, é utilizado um valor de 0,75. Um valor de 0,0 significa que não é aplicada normalização de comprimento, enquanto um valor de 1,0 significa que a classificação é totalmente normalizada pelo comprimento do documento. |
k1 |
number |
Esta propriedade controla a função de dimensionamento entre o termo frequência de cada termos correspondentes e a classificação de relevância final de um par de consulta-documento. Por predefinição, é utilizado um valor de 1,2. Um valor de 0,0 significa que a classificação não é dimensionada com um aumento na frequência de termos. |
CharFilterName
Define os nomes de todos os filtros de carateres suportados pelo motor de busca.
Name | Tipo | Description |
---|---|---|
html_strip |
string |
Um filtro de carateres que tenta remover construções HTML. Veja https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Forma bigrams de termos CJK gerados a partir do tokenizador padrão. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
ignoreScripts |
Os scripts a ignorar. |
||
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
outputUnigrams |
boolean |
False |
Um valor que indica se quer produzir unigramas e bigrams (se for verdade) ou apenas bigrams (se falso). A predefinição é falso. |
CjkBigramTokenFilterScripts
Scripts que podem ser ignorados por CjkBigramTokenFilter.
Name | Tipo | Description |
---|---|---|
han |
string |
Ignore o script Han ao formar bigrams de termos CJK. |
hangul |
string |
Ignore o script Hangul ao formar bigrams de termos CJK. |
hiragana |
string |
Ignore o script hiragana ao formar bigrams de termos CJK. |
katakana |
string |
Ignore o script katakana ao formar bigrams de termos CJK. |
ClassicSimilarity
Algoritmo de semelhança legado que utiliza a implementação Lucene TFIDFSimilarity do TF-IDF. Esta variação do TF-IDF introduz a normalização do comprimento do documento estático, bem como fatores coordenados que penalizam documentos que apenas correspondem parcialmente às consultas pesquisadas.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenizador baseado em gramática adequado para processar a maioria dos documentos de idioma europeu. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxTokenLength |
integer |
255 |
O comprimento máximo do token. A predefinição é 255. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
CommonGramTokenFilter
Construa bigrams para termos que ocorrem frequentemente durante a indexação. Os termos únicos também são indexados, com bigrams sobrepostos. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
commonWords |
string[] |
O conjunto de palavras comuns. |
|
ignoreCase |
boolean |
False |
Um valor que indica se a correspondência de palavras comuns não será sensível a maiúsculas e minúsculas. A predefinição é falso. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
queryMode |
boolean |
False |
Um valor que indica se o filtro de token está no modo de consulta. Quando está no modo de consulta, o filtro de token gera bigrams e, em seguida, remove palavras comuns e termos únicos seguidos de uma palavra comum. A predefinição é falso. |
CorsOptions
Define opções para controlar a Partilha de Recursos De Várias Origens (CORS) para um índice.
Name | Tipo | Description |
---|---|---|
allowedOrigins |
string[] |
A lista de origens a partir das quais será concedido acesso ao código JavaScript ao seu índice. Pode conter uma lista de anfitriões do formulário {protocol}://{fully-qualified-domain-name}[:{port#}], ou um único '*' para permitir todas as origens (não recomendado). |
maxAgeInSeconds |
integer |
A duração para a qual os browsers devem colocar em cache as respostas de verificação prévia CORS. A predefinição é 5 minutos. |
CustomAnalyzer
Permite-lhe assumir o controlo sobre o processo de conversão de texto em tokens indexáveis/pesquisáveis. É uma configuração definida pelo utilizador que consiste num tokenizador predefinido único e num ou mais filtros. O tokenizer é responsável por dividir o texto em tokens e os filtros para modificar tokens emitidos pelo tokenizador.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de analisador. |
charFilters |
Uma lista de filtros de carateres utilizados para preparar texto de entrada antes de ser processado pelo tokenizador. Por exemplo, podem substituir determinados carateres ou símbolos. Os filtros são executados pela ordem em que estão listados. |
|
name |
string |
O nome do analisador. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
tokenFilters |
Uma lista de filtros de tokens utilizados para filtrar ou modificar os tokens gerados por um tokenizador. Por exemplo, pode especificar um filtro em minúsculas que converte todos os carateres em minúsculas. Os filtros são executados pela ordem em que estão listados. |
|
tokenizer |
O nome do tokenizer a utilizar para dividir o texto contínuo numa sequência de tokens, como dividir uma frase em palavras. |
CustomNormalizer
Permite-lhe configurar a normalização para campos filtráveis, ordenáveis e facetáveis, que, por predefinição, funcionam com correspondência estrita. Esta é uma configuração definida pelo utilizador que consiste em, pelo menos, um ou mais filtros, que modificam o token armazenado.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de normalizador. |
charFilters |
Uma lista de filtros de carateres utilizados para preparar o texto de entrada antes de ser processado. Por exemplo, podem substituir determinados carateres ou símbolos. Os filtros são executados pela ordem em que estão listados. |
|
name |
string |
O nome do normalizador. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. Não pode terminar em ".microsoft" nem ".lucene", nem ser chamado de "asciifolding", "standard", "minúscula", "maiúscula" ou "elisão". |
tokenFilters |
Uma lista de filtros de tokens utilizados para filtrar ou modificar o token de entrada. Por exemplo, pode especificar um filtro em minúsculas que converte todos os carateres em minúsculas. Os filtros são executados pela ordem em que estão listados. |
CustomVectorizer
Especifica um vetorizador definido pelo utilizador para gerar a incorporação de vetor de uma cadeia de consulta. A integração de um vetor externo é obtida com a interface personalizada da API Web de um conjunto de competências.
Name | Tipo | Description |
---|---|---|
customWebApiParameters |
Especifica as propriedades do vetor definido pelo utilizador. |
|
kind |
string:
custom |
O nome do tipo de método de vetorização que está a ser configurado para utilização com a pesquisa de vetores. |
name |
string |
O nome a associar a este método de vetorização específico. |
CustomWebApiParameters
Especifica as propriedades para ligar a um vetor definido pelo utilizador.
Name | Tipo | Description |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
A identidade gerida atribuída pelo utilizador utilizada para ligações de saída. Se for fornecido um authResourceId e não for especificado, é utilizada a identidade gerida atribuída pelo sistema. Nas atualizações ao indexador, se a identidade não for especificada, o valor permanece inalterado. Se estiver definido como "nenhum", o valor desta propriedade é limpo. |
authResourceId |
string |
Aplica-se a pontos finais personalizados que se ligam ao código externo numa função do Azure ou a outra aplicação que fornece as transformações. Este valor deve ser o ID da aplicação criado para a função ou aplicação quando foi registado no Azure Active Directory. Quando especificado, a vetorização liga-se à função ou aplicação com um ID gerido (atribuído pelo sistema ou pelo utilizador) do serviço de pesquisa e o token de acesso da função ou aplicação, utilizando este valor como o ID de recurso para criar o âmbito do token de acesso. |
httpHeaders |
object |
Os cabeçalhos necessários para fazer o pedido HTTP. |
httpMethod |
string |
O método para o pedido HTTP. |
timeout |
string |
O tempo limite pretendido para o pedido. A predefinição é de 30 segundos. |
uri |
string |
O URI da API Web que fornece o vetor. |
DictionaryDecompounderTokenFilter
Decompõe palavras compostas encontradas em muitas línguas germânicas. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
maxSubwordSize |
integer |
15 |
O tamanho máximo da palavra-passe. Apenas as sub-palavras mais curtas do que estas são saídas. A predefinição é 15. O máximo é 300. |
minSubwordSize |
integer |
2 |
O tamanho mínimo da palavra-passe. Só são saídas subfáginas mais longas do que estas. A predefinição é 2. O máximo é 300. |
minWordSize |
integer |
5 |
O tamanho mínimo da palavra. Apenas as palavras mais longas do que estas são processadas. A predefinição é 5. O máximo é 300. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
onlyLongestMatch |
boolean |
False |
Um valor que indica se deve adicionar apenas a sub-palavra correspondente mais longa à saída. A predefinição é falso. |
wordList |
string[] |
A lista de palavras a corresponder. |
DistanceScoringFunction
Define uma função que aumenta as pontuações com base na distância de uma localização geográfica.
Name | Tipo | Description |
---|---|---|
boost |
number |
Um multiplicador para a pontuação não processada. Tem de ser um número positivo diferente de 1,0. |
distance |
Valores de parâmetros para a função de classificação de distância. |
|
fieldName |
string |
O nome do campo utilizado como entrada para a função de classificação. |
interpolation |
Um valor que indica como o aumento será interpolado entre as pontuações dos documentos; a predefinição é "Linear". |
|
type |
string:
distance |
Indica o tipo de função a utilizar. Os valores válidos incluem magnitude, frescura, distância e etiqueta. O tipo de função tem de ser minúsculo. |
DistanceScoringParameters
Fornece valores de parâmetros para uma função de classificação de distância.
Name | Tipo | Description |
---|---|---|
boostingDistance |
number |
A distância em quilómetros da localização de referência onde termina o intervalo de reforço. |
referencePointParameter |
string |
O nome do parâmetro transmitido nas consultas de pesquisa para especificar a localização de referência. |
EdgeNGramTokenFilter
Gera n-gramas dos tamanhos especificados a partir da frente ou na parte traseira de um token de entrada. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
maxGram |
integer |
2 |
O comprimento máximo de n gramas. A predefinição é 2. |
minGram |
integer |
1 |
O comprimento mínimo de n gramas. A predefinição é 1. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
side | front |
Especifica a partir do lado da entrada a partir da qual o n-grama deve ser gerado. A predefinição é "front". |
EdgeNGramTokenFilterSide
Especifica a partir de que lado da entrada deve ser gerado um n-grama.
Name | Tipo | Description |
---|---|---|
back |
string |
Especifica que o n-gram deve ser gerado a partir da parte de trás da entrada. |
front |
string |
Especifica que o n-gram deve ser gerado a partir da parte frontal da entrada. |
EdgeNGramTokenFilterV2
Gera n-gramas do(s) tamanho(s) especificado(s) a partir da parte frontal ou traseira de um token de entrada. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
maxGram |
integer |
2 |
O comprimento máximo de n-gramas. A predefinição é 2. O máximo é 300. |
minGram |
integer |
1 |
O comprimento mínimo de n-gramas. A predefinição é 1. O máximo é 300. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
side | front |
Especifica a partir do lado da entrada a partir da qual o n-grama deve ser gerado. A predefinição é "front". |
EdgeNGramTokenizer
Tokens the input from an edge into n-grams of the given size(s). Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxGram |
integer |
2 |
O comprimento máximo de n-gramas. A predefinição é 2. O máximo é 300. |
minGram |
integer |
1 |
O comprimento mínimo de n-gramas. A predefinição é 1. O máximo é 300. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
tokenChars |
Classes de carateres a manter nos tokens. |
ElisionTokenFilter
Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (plano). Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
articles |
string[] |
O conjunto de artigos a remover. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
ExhaustiveKnnParameters
Contém os parâmetros específicos do algoritmo KNN exaustivo.
Name | Tipo | Description |
---|---|---|
metric |
A métrica de semelhança a utilizar para comparações de vetores. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Contém opções de configuração específicas do algoritmo KNN exaustivo utilizado durante a consulta, que irá realizar pesquisas de força bruta em todo o índice de vetor.
Name | Tipo | Description |
---|---|---|
exhaustiveKnnParameters |
Contém os parâmetros específicos do algoritmo KNN exaustivo. |
|
kind |
string:
exhaustive |
O nome do tipo de algoritmo que está a ser configurado para utilização com a pesquisa de vetores. |
name |
string |
O nome a associar a esta configuração específica. |
FreshnessScoringFunction
Define uma função que aumenta as pontuações com base no valor de um campo de data/hora.
Name | Tipo | Description |
---|---|---|
boost |
number |
Um multiplicador para a pontuação não processada. Tem de ser um número positivo diferente de 1,0. |
fieldName |
string |
O nome do campo utilizado como entrada para a função de classificação. |
freshness |
Valores de parâmetros para a função de classificação de atualização. |
|
interpolation |
Um valor que indica como o aumento será interpolado entre as pontuações dos documentos; a predefinição é "Linear". |
|
type |
string:
freshness |
Indica o tipo de função a utilizar. Os valores válidos incluem magnitude, frescura, distância e etiqueta. O tipo de função tem de ser minúsculo. |
FreshnessScoringParameters
Fornece valores de parâmetros para uma função de classificação de atualização.
Name | Tipo | Description |
---|---|---|
boostingDuration |
string |
O período de expiração após o qual o aumento irá parar para um determinado documento. |
HnswParameters
Contém os parâmetros específicos do algoritmo HNSW.
Name | Tipo | Default value | Description |
---|---|---|---|
efConstruction |
integer |
400 |
O tamanho da lista dinâmica que contém os vizinhos mais próximos, que é utilizado durante o tempo de índice. Aumentar este parâmetro pode melhorar a qualidade do índice, em detrimento do aumento do tempo de indexação. A certa altura, o aumento deste parâmetro leva à diminuição dos retornos. |
efSearch |
integer |
500 |
O tamanho da lista dinâmica que contém os vizinhos mais próximos, que é utilizado durante o tempo de pesquisa. Aumentar este parâmetro pode melhorar os resultados da pesquisa, em detrimento de uma pesquisa mais lenta. A certa altura, o aumento deste parâmetro leva à diminuição dos retornos. |
m |
integer |
4 |
O número de ligações bidirecionais criadas para cada novo elemento durante a construção. Aumentar este valor de parâmetro pode melhorar a recuperação e reduzir os tempos de obtenção de conjuntos de dados com elevada dimensionalidade intrínseca em detrimento do aumento do consumo de memória e do tempo de indexação mais longo. |
metric |
A métrica de semelhança a utilizar para comparações de vetores. |
HnswVectorSearchAlgorithmConfiguration
Contém opções de configuração específicas do algoritmo de vizinhos mais próximos do HNSW utilizado durante a indexação e consulta. O algoritmo HNSW oferece uma troca atumável entre a velocidade de pesquisa e a precisão.
Name | Tipo | Description |
---|---|---|
hnswParameters |
Contém os parâmetros específicos do algoritmo HNSW. |
|
kind |
string:
hnsw |
O nome do tipo de algoritmo que está a ser configurado para utilização com a pesquisa de vetores. |
name |
string |
O nome a associar a esta configuração específica. |
KeepTokenFilter
Um filtro de token que mantém apenas tokens com texto contido numa lista de palavras especificada. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
keepWords |
string[] |
A lista de palavras a manter. |
|
keepWordsCase |
boolean |
False |
Um valor que indica se deve reduzir as maiúsculas e minúsculas de todas as palavras primeiro. A predefinição é falso. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
KeywordMarkerTokenFilter
Marca os termos como palavras-chave. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
ignoreCase |
boolean |
False |
Um valor que indica se deve ignorar maiúsculas e minúsculas. Se for verdadeiro, todas as palavras são convertidas em minúsculas primeiro. A predefinição é falso. |
keywords |
string[] |
Uma lista de palavras para marcar como palavras-chave. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
KeywordTokenizer
Emite toda a entrada como um único token. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
bufferSize |
integer |
256 |
O tamanho da memória intermédia de leitura em bytes. A predefinição é 256. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
KeywordTokenizerV2
Emite toda a entrada como um único token. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxTokenLength |
integer |
256 |
O comprimento máximo do token. A predefinição é 256. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
LengthTokenFilter
Remove palavras demasiado longas ou demasiado curtas. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
max |
integer |
300 |
O comprimento máximo em carateres. A predefinição e o máximo é 300. |
min |
integer |
0 |
O comprimento mínimo em carateres. A predefinição é 0. O máximo é 300. Tem de ser inferior ao valor máximo. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
LexicalAnalyzerName
Define os nomes de todos os analisadores de texto suportados pelo motor de busca.
Name | Tipo | Description |
---|---|---|
ar.lucene |
string |
Analisador lucene para árabe. |
ar.microsoft |
string |
Analisador da Microsoft para árabe. |
bg.lucene |
string |
Lucene analisador para búlgaro. |
bg.microsoft |
string |
Analisador da Microsoft para búlgaro. |
bn.microsoft |
string |
Analisador da Microsoft para Bangla. |
ca.lucene |
string |
Lucene analyzer para catalão. |
ca.microsoft |
string |
Analisador da Microsoft para catalão. |
cs.lucene |
string |
Analisador lucene para checo. |
cs.microsoft |
string |
Analisador da Microsoft para checo. |
da.lucene |
string |
Lucene analyzer para dinamarquês. |
da.microsoft |
string |
Analisador da Microsoft para dinamarquês. |
de.lucene |
string |
Lucene analyzer para alemão. |
de.microsoft |
string |
Analisador da Microsoft para alemão. |
el.lucene |
string |
Lucene analyzer para grego. |
el.microsoft |
string |
Analisador da Microsoft para grego. |
en.lucene |
string |
Analisador lucene para inglês. |
en.microsoft |
string |
Analisador da Microsoft para inglês. |
es.lucene |
string |
Analisador lucene para espanhol. |
es.microsoft |
string |
Analisador da Microsoft para espanhol. |
et.microsoft |
string |
Analisador da Microsoft para estónio. |
eu.lucene |
string |
Lucene analisador para basco. |
fa.lucene |
string |
Lucene analyzer para persa. |
fi.lucene |
string |
Lucene analyzer para finlandês. |
fi.microsoft |
string |
Analisador da Microsoft para finlandês. |
fr.lucene |
string |
Lucene analyzer para francês. |
fr.microsoft |
string |
Analisador da Microsoft para francês. |
ga.lucene |
string |
Lucene analyzer para irlandês. |
gl.lucene |
string |
Lucene analyzer for Galician. |
gu.microsoft |
string |
Analisador da Microsoft para Gujarati. |
he.microsoft |
string |
Analisador da Microsoft para hebraico. |
hi.lucene |
string |
Analisador lucene para Hindi. |
hi.microsoft |
string |
Analisador da Microsoft para Hindi. |
hr.microsoft |
string |
Analisador da Microsoft para croata. |
hu.lucene |
string |
Lucene analyzer para húngaro. |
hu.microsoft |
string |
Analisador da Microsoft para húngaro. |
hy.lucene |
string |
Lucene analisador para arménio. |
id.lucene |
string |
Analisador lucene para indonésio. |
id.microsoft |
string |
Analisador da Microsoft para indonésio (Bahasa). |
is.microsoft |
string |
Analisador da Microsoft para islandês. |
it.lucene |
string |
Lucene analyzer para italiano. |
it.microsoft |
string |
Analisador da Microsoft para italiano. |
ja.lucene |
string |
Analisador lucene para japonês. |
ja.microsoft |
string |
Analisador da Microsoft para japonês. |
keyword |
string |
Trata todo o conteúdo de um campo como um único token. Isto é útil para dados como códigos postais, IDs e alguns nomes de produtos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Analisador da Microsoft para Kannada. |
ko.lucene |
string |
Lucene analyzer para coreano. |
ko.microsoft |
string |
Analisador da Microsoft para coreano. |
lt.microsoft |
string |
Analisador da Microsoft para lituano. |
lv.lucene |
string |
Lucene analyzer para letão. |
lv.microsoft |
string |
Analisador da Microsoft para letão. |
ml.microsoft |
string |
Analisador da Microsoft para Malayalam. |
mr.microsoft |
string |
Analisador da Microsoft para Marathi. |
ms.microsoft |
string |
Analisador da Microsoft para Malaio (Latim). |
nb.microsoft |
string |
Analisador da Microsoft para norueguês (Bokmål). |
nl.lucene |
string |
Lucene analyzer para neerlandês. |
nl.microsoft |
string |
Analisador da Microsoft para neerlandês. |
no.lucene |
string |
Lucene analyzer para norueguês. |
pa.microsoft |
string |
Analisador da Microsoft para Punjabi. |
pattern |
string |
Separa flexívelmente o texto em termos através de um padrão de expressão normal. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Lucene analyzer para polaco. |
pl.microsoft |
string |
Analisador da Microsoft para polaco. |
pt-BR.lucene |
string |
Analisador lucene para português (Brasil). |
pt-BR.microsoft |
string |
Analisador da Microsoft para português (Brasil). |
pt-PT.lucene |
string |
Analisador lucene para português (Portugal). |
pt-PT.microsoft |
string |
Analisador da Microsoft para Português (Portugal). |
ro.lucene |
string |
Lucene analyzer para romeno. |
ro.microsoft |
string |
Analisador da Microsoft para romeno. |
ru.lucene |
string |
Analisador lucene para russo. |
ru.microsoft |
string |
Analisador da Microsoft para russo. |
simple |
string |
Divide o texto em não letras e converte-o em minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Analisador da Microsoft para Eslovaco. |
sl.microsoft |
string |
Analisador da Microsoft para esloveno. |
sr-cyrillic.microsoft |
string |
Analisador da Microsoft para sérvio (cirílico). |
sr-latin.microsoft |
string |
Analisador da Microsoft para sérvio (latim). |
standard.lucene |
string |
Analisador Lucene Padrão. |
standardasciifolding.lucene |
string |
Analisador Lucene de Dobragem ASCII Padrão. Veja https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Divide texto em não letras; Aplica os filtros de token de palavras-passe e minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Lucene analyzer para sueco. |
sv.microsoft |
string |
Analisador da Microsoft para sueco. |
ta.microsoft |
string |
Analisador da Microsoft para Tamil. |
te.microsoft |
string |
Analisador da Microsoft para Telugu. |
th.lucene |
string |
Lucene analyzer para tailandês. |
th.microsoft |
string |
Analisador da Microsoft para tailandês. |
tr.lucene |
string |
Lucene analyzer para turco. |
tr.microsoft |
string |
Analisador da Microsoft para turco. |
uk.microsoft |
string |
Analisador da Microsoft para ucraniano. |
ur.microsoft |
string |
Analisador da Microsoft para Urdu. |
vi.microsoft |
string |
Analisador da Microsoft para vietnamitas. |
whitespace |
string |
Um analisador que utiliza o tokenizador do espaço em branco. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Analisador lucene para chinês (Simplificado). |
zh-Hans.microsoft |
string |
Analisador da Microsoft para chinês (Simplificado). |
zh-Hant.lucene |
string |
Analisador lucene para chinês (tradicional). |
zh-Hant.microsoft |
string |
Analisador da Microsoft para chinês (tradicional). |
LexicalNormalizerName
Define os nomes de todos os normalizadores de texto suportados pelo motor de busca.
Name | Tipo | Description |
---|---|---|
asciifolding |
string |
Converte carateres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 carateres ASCII (o bloco Unicode "Latim Básico") nos respetivos equivalentes ASCII, se existirem esses equivalentes. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
elision |
string |
Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (plano). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
lowercase |
string |
Normaliza o texto do token em minúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
standard |
string |
Normalizador padrão, que consiste em minúsculas e asciifolding. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
uppercase |
string |
Normaliza o texto do token em maiúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
Define os nomes de todos os tokenizers suportados pelo motor de busca.
LimitTokenFilter
Limita o número de tokens durante a indexação. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
consumeAllTokens |
boolean |
False |
Um valor que indica se todos os tokens da entrada têm de ser consumidos mesmo que maxTokenCount seja atingido. A predefinição é falso. |
maxTokenCount |
integer |
1 |
O número máximo de tokens a produzir. A predefinição é 1. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
LuceneStandardAnalyzer
Analisador Standard do Apache Lucene; Composto pelo tokenizador padrão, filtro em minúsculas e filtro de paragem.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de analisador. |
|
maxTokenLength |
integer |
255 |
O comprimento máximo do token. A predefinição é 255. Os tokens com mais comprimento do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. |
name |
string |
O nome do analisador. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
stopwords |
string[] |
Uma lista de palavras-passe. |
LuceneStandardTokenizer
Quebra o texto ao seguir as regras de Segmentação de Texto Unicode. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxTokenLength |
integer |
255 |
O comprimento máximo do token. A predefinição é 255. Os tokens com mais comprimento do que o comprimento máximo são divididos. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
LuceneStandardTokenizerV2
Quebra o texto ao seguir as regras de Segmentação de Texto Unicode. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxTokenLength |
integer |
255 |
O comprimento máximo do token. A predefinição é 255. Os tokens com mais comprimento do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
MagnitudeScoringFunction
Define uma função que aumenta as pontuações com base na magnitude de um campo numérico.
Name | Tipo | Description |
---|---|---|
boost |
number |
Um multiplicador para a pontuação não processada. Tem de ser um número positivo diferente de 1,0. |
fieldName |
string |
O nome do campo utilizado como entrada para a função de classificação. |
interpolation |
Um valor que indica como o aumento será interpolado entre as pontuações dos documentos; a predefinição é "Linear". |
|
magnitude |
Valores de parâmetros para a função de classificação de magnitude. |
|
type |
string:
magnitude |
Indica o tipo de função a utilizar. Os valores válidos incluem magnitude, frescura, distância e etiqueta. O tipo de função tem de ser minúsculo. |
MagnitudeScoringParameters
Fornece valores de parâmetros para uma função de classificação de magnitude.
Name | Tipo | Description |
---|---|---|
boostingRangeEnd |
number |
O valor do campo no qual o reforço termina. |
boostingRangeStart |
number |
O valor do campo em que o reforço é iniciado. |
constantBoostBeyondRange |
boolean |
Um valor que indica se deve aplicar um aumento constante para valores de campo para além do valor final do intervalo; predefinição é falso. |
MappingCharFilter
Um filtro de carateres que aplica mapeamentos definidos com a opção de mapeamentos. A correspondência é gananciosa (o padrão mais longo correspondente a um determinado ponto ganha). A substituição pode ser a cadeia vazia. Este filtro de carateres é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de caráter. |
mappings |
string[] |
Uma lista de mapeamentos do seguinte formato: "a=>b" (todas as ocorrências do caráter "a" serão substituídas pelo caráter "b"). |
name |
string |
O nome do filtro de caráter. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
MicrosoftLanguageStemmingTokenizer
Divide o texto através de regras específicas do idioma e reduz as palavras aos respetivos formulários base.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
isSearchTokenizer |
boolean |
False |
Um valor que indica como o tokenizer é utilizado. Defina como verdadeiro se for utilizado como o tokenizer de pesquisa, defina como falso se for utilizado como o tokenizador de indexação. A predefinição é falso. |
language |
O idioma a utilizar. A predefinição é inglês. |
||
maxTokenLength |
integer |
255 |
O comprimento máximo do token. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. Os tokens com mais de 300 carateres são divididos em tokens de comprimento 300 e, em seguida, cada um desses tokens é dividido com base no conjunto de comprimento máximo do token. A predefinição é 255. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
MicrosoftLanguageTokenizer
Divide o texto através de regras específicas do idioma.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
isSearchTokenizer |
boolean |
False |
Um valor que indica como o tokenizer é utilizado. Defina como verdadeiro se for utilizado como o tokenizer de pesquisa, defina como falso se for utilizado como o tokenizador de indexação. A predefinição é falso. |
language |
O idioma a utilizar. A predefinição é inglês. |
||
maxTokenLength |
integer |
255 |
O comprimento máximo do token. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. Os tokens com mais de 300 carateres são divididos em tokens de comprimento 300 e, em seguida, cada um desses tokens é dividido com base no conjunto de comprimento máximo do token. A predefinição é 255. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
MicrosoftStemmingTokenizerLanguage
Listas os idiomas suportados pelo tokenizer de idioma da Microsoft.
Name | Tipo | Description |
---|---|---|
arabic |
string |
Seleciona o tokenizador de deteção da Microsoft para árabe. |
bangla |
string |
Seleciona o tokenizador de deteção da Microsoft para Bangla. |
bulgarian |
string |
Seleciona o tokenizador de deteção da Microsoft para búlgaro. |
catalan |
string |
Seleciona o tokenizador de deteção da Microsoft para catalão. |
croatian |
string |
Seleciona o tokenizador de deteção da Microsoft para croata. |
czech |
string |
Seleciona o tokenizador de deteção da Microsoft para checo. |
danish |
string |
Seleciona o tokenizador de deteção da Microsoft para dinamarquês. |
dutch |
string |
Seleciona o tokenizador de deteção da Microsoft para neerlandês. |
english |
string |
Seleciona o tokenizador de deteção da Microsoft para inglês. |
estonian |
string |
Seleciona o tokenizador de deteção da Microsoft para estónio. |
finnish |
string |
Seleciona o tokenizador de deteção da Microsoft para finlandês. |
french |
string |
Seleciona o tokenizer de deteção da Microsoft para francês. |
german |
string |
Seleciona o tokenizador de deteção da Microsoft para alemão. |
greek |
string |
Seleciona o tokenizador de deteção da Microsoft para grego. |
gujarati |
string |
Seleciona o tokenizador de deteção da Microsoft para Gujarati. |
hebrew |
string |
Seleciona o tokenizador de deteção da Microsoft para hebraico. |
hindi |
string |
Seleciona o tokenizador de deteção da Microsoft para Hindi. |
hungarian |
string |
Seleciona o tokenizador de deteção da Microsoft para húngaro. |
icelandic |
string |
Seleciona o tokenizador de deteção da Microsoft para islandês. |
indonesian |
string |
Seleciona o tokenizador de deteção da Microsoft para indonésio. |
italian |
string |
Seleciona o tokenizador de deteção da Microsoft para italiano. |
kannada |
string |
Seleciona o tokenizador de deteção da Microsoft para Kannada. |
latvian |
string |
Seleciona o tokenizador de deteção da Microsoft para letão. |
lithuanian |
string |
Seleciona o tokenizador de deteção da Microsoft para lituano. |
malay |
string |
Seleciona o tokenizador de deteção da Microsoft para Malaio. |
malayalam |
string |
Seleciona o tokenizer de deteção da Microsoft para Malayalam. |
marathi |
string |
Seleciona o tokenizer de deteção da Microsoft para o Marathi. |
norwegianBokmaal |
string |
Seleciona o tokenizador microsoft stemming para norueguês (Bokmål). |
polish |
string |
Seleciona o tokenizador de deteção da Microsoft para polaco. |
portuguese |
string |
Seleciona o tokenizador de deteção da Microsoft para português. |
portugueseBrazilian |
string |
Seleciona o tokenizador microsoft stemming para português (Brasil). |
punjabi |
string |
Seleciona o tokenizer de deteção da Microsoft para Punjabi. |
romanian |
string |
Seleciona o tokenizador de deteção da Microsoft para romeno. |
russian |
string |
Seleciona o tokenizador de deteção da Microsoft para russo. |
serbianCyrillic |
string |
Seleciona o tokenizador de deteção da Microsoft para sérvio (cirílico). |
serbianLatin |
string |
Seleciona o tokenizador de deteção da Microsoft para sérvio (latim). |
slovak |
string |
Seleciona o tokenizer de deteção da Microsoft para eslovaco. |
slovenian |
string |
Seleciona o tokenizador de deteção da Microsoft para esloveno. |
spanish |
string |
Seleciona o tokenizador de deteção da Microsoft para espanhol. |
swedish |
string |
Seleciona o tokenizador de deteção da Microsoft para sueco. |
tamil |
string |
Seleciona o tokenizador de deteção da Microsoft para Tamil. |
telugu |
string |
Seleciona o tokenizador de deteção da Microsoft para Telugu. |
turkish |
string |
Seleciona o tokenizador de deteção da Microsoft para turco. |
ukrainian |
string |
Seleciona o tokenizador de deteção da Microsoft para ucraniano. |
urdu |
string |
Seleciona o tokenizador de deteção da Microsoft para Urdu. |
MicrosoftTokenizerLanguage
Listas os idiomas suportados pelo tokenizador de idioma da Microsoft.
Name | Tipo | Description |
---|---|---|
bangla |
string |
Seleciona o tokenizer da Microsoft para Bangla. |
bulgarian |
string |
Seleciona o tokenizer da Microsoft para búlgaro. |
catalan |
string |
Seleciona o tokenizer da Microsoft para catalão. |
chineseSimplified |
string |
Seleciona o tokenizer da Microsoft para chinês (Simplificado). |
chineseTraditional |
string |
Seleciona o tokenizador da Microsoft para chinês (Tradicional). |
croatian |
string |
Seleciona o tokenizer da Microsoft para croata. |
czech |
string |
Seleciona o tokenizador da Microsoft para checo. |
danish |
string |
Seleciona o tokenizer da Microsoft para dinamarquês. |
dutch |
string |
Seleciona o tokenizer da Microsoft para neerlandês. |
english |
string |
Seleciona o tokenizer da Microsoft para inglês. |
french |
string |
Seleciona o tokenizer da Microsoft para francês. |
german |
string |
Seleciona o tokenizer da Microsoft para alemão. |
greek |
string |
Seleciona o tokenizer da Microsoft para grego. |
gujarati |
string |
Seleciona o tokenizer da Microsoft para Gujarati. |
hindi |
string |
Seleciona o tokenizer da Microsoft para Hindi. |
icelandic |
string |
Seleciona o tokenizer da Microsoft para islandês. |
indonesian |
string |
Seleciona o tokenizador da Microsoft para indonésio. |
italian |
string |
Seleciona o tokenizador da Microsoft para italiano. |
japanese |
string |
Seleciona o tokenizador da Microsoft para japonês. |
kannada |
string |
Seleciona o tokenizer da Microsoft para Kannada. |
korean |
string |
Seleciona o tokenizer da Microsoft para coreano. |
malay |
string |
Seleciona o tokenizer da Microsoft para Malaio. |
malayalam |
string |
Seleciona o tokenizer da Microsoft para Malayalam. |
marathi |
string |
Seleciona o tokenizer da Microsoft para Marathi. |
norwegianBokmaal |
string |
Seleciona o tokenizer da Microsoft para norueguês (Bokmål). |
polish |
string |
Seleciona o tokenizer da Microsoft para polaco. |
portuguese |
string |
Seleciona o tokenizer da Microsoft para português. |
portugueseBrazilian |
string |
Seleciona o tokenizador da Microsoft para português (Brasil). |
punjabi |
string |
Seleciona o tokenizer da Microsoft para Punjabi. |
romanian |
string |
Seleciona o tokenizador da Microsoft para romeno. |
russian |
string |
Seleciona o tokenizer da Microsoft para russo. |
serbianCyrillic |
string |
Seleciona o tokenizador da Microsoft para sérvio (cirílico). |
serbianLatin |
string |
Seleciona o tokenizador da Microsoft para sérvio (latim). |
slovenian |
string |
Seleciona o tokenizer da Microsoft para esloveno. |
spanish |
string |
Seleciona o tokenizer da Microsoft para espanhol. |
swedish |
string |
Seleciona o tokenizer da Microsoft para sueco. |
tamil |
string |
Seleciona o tokenizer da Microsoft para Tamil. |
telugu |
string |
Seleciona o tokenizer da Microsoft para Telugu. |
thai |
string |
Seleciona o tokenizer da Microsoft para tailandês. |
ukrainian |
string |
Seleciona o tokenizer da Microsoft para ucraniano. |
urdu |
string |
Seleciona o tokenizer da Microsoft para Urdu. |
vietnamese |
string |
Seleciona o tokenizer da Microsoft para vietnamitas. |
NGramTokenFilter
Gera n-gramas dos tamanhos especificados. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
maxGram |
integer |
2 |
O comprimento máximo de n-gramas. A predefinição é 2. |
minGram |
integer |
1 |
O comprimento mínimo de n-gramas. A predefinição é 1. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
NGramTokenFilterV2
Gera n-gramas dos tamanhos especificados. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
maxGram |
integer |
2 |
O comprimento máximo de n-gramas. A predefinição é 2. O máximo é 300. |
minGram |
integer |
1 |
O comprimento mínimo de n-gramas. A predefinição é 1. O máximo é 300. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
NGramTokenizer
Tokens the input into n-grams of the given size(s). Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxGram |
integer |
2 |
O comprimento máximo de n-gramas. A predefinição é 2. O máximo é 300. |
minGram |
integer |
1 |
O comprimento mínimo de n-gramas. A predefinição é 1. O máximo é 300. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
tokenChars |
Classes de carateres a manter nos tokens. |
PathHierarchyTokenizerV2
Tokenizer para hierarquias semelhantes a caminho. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
delimiter |
string |
/ |
O caráter delimitador a utilizar. A predefinição é "/". |
maxTokenLength |
integer |
300 |
O comprimento máximo do token. A predefinição e o máximo é 300. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
replacement |
string |
/ |
Um valor que, se definido, substitui o caráter delimitador. A predefinição é "/". |
reverse |
boolean |
False |
Um valor que indica se pretende gerar tokens por ordem inversa. A predefinição é falso. |
skip |
integer |
0 |
O número de tokens iniciais a ignorar. A predefinição é 0. |
PatternAnalyzer
Separa flexívelmente o texto em termos através de um padrão de expressão normal. Este analisador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de analisador. |
|
flags |
Sinalizadores de expressão regulares. |
||
lowercase |
boolean |
True |
Um valor que indica se os termos devem ser minúsculas. A predefinição é verdadeiro. |
name |
string |
O nome do analisador. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
pattern |
string |
\W+ |
Um padrão de expressão regular para corresponder aos separadores de tokens. A predefinição é uma expressão que corresponde a um ou mais carateres sem palavra. |
stopwords |
string[] |
Uma lista de palavras-passe. |
PatternCaptureTokenFilter
Utiliza regexes Java para emitir vários tokens – um para cada grupo de captura num ou mais padrões. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
patterns |
string[] |
Uma lista de padrões para corresponder a cada token. |
|
preserveOriginal |
boolean |
True |
Um valor que indica se deve devolver o token original, mesmo que um dos padrões corresponda. A predefinição é verdadeiro. |
PatternReplaceCharFilter
Um filtro de carateres que substitui carateres na cadeia de entrada. Utiliza uma expressão regular para identificar sequências de carateres a preservar e um padrão de substituição para identificar carateres a substituir. Por exemplo, tendo em conta o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Este filtro de carateres é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de caráter. |
name |
string |
O nome do filtro de caráter. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
pattern |
string |
Um padrão de expressão regular. |
replacement |
string |
O texto de substituição. |
PatternReplaceTokenFilter
Um filtro de carateres que substitui carateres na cadeia de entrada. Utiliza uma expressão regular para identificar sequências de carateres a preservar e um padrão de substituição para identificar carateres a substituir. Por exemplo, tendo em conta o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
pattern |
string |
Um padrão de expressão regular. |
replacement |
string |
O texto de substituição. |
PatternTokenizer
Tokenizer que utiliza a correspondência de padrões regex para construir tokens distintos. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
flags |
Sinalizadores de expressão regulares. |
||
group |
integer |
-1 |
O ordinal baseado em zero do grupo correspondente no padrão de expressão regular para extrair em tokens. Utilize -1 se quiser utilizar todo o padrão para dividir a entrada em tokens, independentemente dos grupos correspondentes. A predefinição é -1. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
pattern |
string |
\W+ |
Um padrão de expressão regular para corresponder aos separadores de tokens. A predefinição é uma expressão que corresponde a um ou mais carateres sem palavra. |
PhoneticEncoder
Identifica o tipo de codificador fonético a utilizar com um PhoneticTokenFilter.
Name | Tipo | Description |
---|---|---|
beiderMorse |
string |
Codifica um token num valor de Beider-Morse. |
caverphone1 |
string |
Codifica um token num valor Caverphone 1.0. |
caverphone2 |
string |
Codifica um token num valor Caverphone 2.0. |
cologne |
string |
Codifica um token num valor Fonético de Colónia. |
doubleMetaphone |
string |
Codifica um token num valor de metafone duplo. |
haasePhonetik |
string |
Codifica um token com o refinamento Haase do algoritmo Kölner Phonetik. |
koelnerPhonetik |
string |
Codifica um token com o algoritmo Kölner Phonetik. |
metaphone |
string |
Codifica um token num valor metafone. |
nysiis |
string |
Codifica um token num valor NYSIIS. |
refinedSoundex |
string |
Codifica um token num valor Soundex Refinado. |
soundex |
string |
Codifica um token num valor Soundex. |
PhoneticTokenFilter
Criar tokens para correspondências fonéticas. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
encoder | metaphone |
O codificador fonético a utilizar. A predefinição é "metafone". |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
replace |
boolean |
True |
Um valor que indica se os tokens codificados devem substituir os tokens originais. Se for falso, os tokens codificados são adicionados como sinónimos. A predefinição é verdadeiro. |
PrioritizedFields
Descreve os campos de título, conteúdo e palavras-chave a utilizar para classificação semântica, legendas, destaques e respostas.
Name | Tipo | Description |
---|---|---|
prioritizedContentFields |
Define os campos de conteúdo a utilizar para classificação semântica, legendas, destaques e respostas. Para obter o melhor resultado, os campos selecionados devem conter texto em formato de linguagem natural. A ordem dos campos na matriz representa a sua prioridade. Os campos com prioridade inferior podem ficar truncados se o conteúdo for longo. |
|
prioritizedKeywordsFields |
Define os campos de palavra-chave a utilizar para classificação semântica, legendas, destaques e respostas. Para obter o melhor resultado, os campos selecionados devem conter uma lista de palavras-chave. A ordem dos campos na matriz representa a sua prioridade. Os campos com prioridade inferior podem ficar truncados se o conteúdo for longo. |
|
titleField |
Define o campo de título a utilizar para classificação semântica, legendas, destaques e respostas. Se não tiver um campo de título no índice, deixe este campo em branco. |
RegexFlags
Define sinalizadores que podem ser combinados para controlar a forma como as expressões normais são utilizadas no analisador de padrões e no tokenizador de padrões.
Name | Tipo | Description |
---|---|---|
CANON_EQ |
string |
Ativa a equivalência canónica. |
CASE_INSENSITIVE |
string |
Ativa a correspondência não sensível a maiúsculas e minúsculas. |
COMMENTS |
string |
Permite espaços em branco e comentários no padrão. |
DOTALL |
string |
Ativa o modo dotall. |
LITERAL |
string |
Ativa a análise literal do padrão. |
MULTILINE |
string |
Ativa o modo multiline. |
UNICODE_CASE |
string |
Ativa a dobragem de casos com deteção unicode. |
UNIX_LINES |
string |
Ativa o modo de linhas Unix. |
ScoringFunctionAggregation
Define a função de agregação utilizada para combinar os resultados de todas as funções de classificação num perfil de classificação.
Name | Tipo | Description |
---|---|---|
average |
string |
Aumente as pontuações pela média de todos os resultados da função de classificação. |
firstMatching |
string |
Aumente as pontuações com a primeira função de classificação aplicável no perfil de classificação. |
maximum |
string |
Aumente as pontuações pelo máximo de todos os resultados da função de classificação. |
minimum |
string |
Aumente as pontuações pelo mínimo de todos os resultados da função de classificação. |
sum |
string |
Aumente as pontuações pela soma de todos os resultados da função de classificação. |
ScoringFunctionInterpolation
Define a função utilizada para interpolar o aumento da classificação num intervalo de documentos.
Name | Tipo | Description |
---|---|---|
constant |
string |
Aumenta as pontuações por um fator constante. |
linear |
string |
Aumenta as classificações por uma quantidade linearmente decrescente. Esta é a interpolação predefinida para funções de classificação. |
logarithmic |
string |
Aumenta as pontuações em uma quantidade que diminui logaritmoticamente. Aumenta a diminuição rapidamente para pontuações mais altas e mais lentamente à medida que as pontuações diminuem. Esta opção de interpolação não é permitida nas funções de classificação de etiquetas. |
quadratic |
string |
Aumenta as pontuações em uma quantidade que diminui quadráticamente. Aumenta a diminuição lentamente para pontuações mais altas e mais rapidamente à medida que as pontuações diminuem. Esta opção de interpolação não é permitida nas funções de classificação de etiquetas. |
ScoringProfile
Define parâmetros para um índice de pesquisa que influencia a classificação em consultas de pesquisa.
Name | Tipo | Description |
---|---|---|
functionAggregation |
Um valor que indica como os resultados das funções de classificação individuais devem ser combinados. A predefinição é "Soma". Ignorado se não existirem funções de classificação. |
|
functions | ScoringFunction[]: |
A coleção de funções que influenciam a classificação de documentos. |
name |
string |
O nome do perfil de classificação. |
text |
Parâmetros que aumentam a classificação com base em correspondências de texto em determinados campos de índice. |
SearchError
Descreve uma condição de erro para a API.
Name | Tipo | Description |
---|---|---|
code |
string |
Um dos conjuntos de códigos de erro definidos pelo servidor. |
details |
Uma matriz de detalhes sobre erros específicos que levaram a este erro reportado. |
|
message |
string |
Uma representação legível por humanos do erro. |
SearchField
Representa um campo numa definição de índice, que descreve o nome, o tipo de dados e o comportamento de pesquisa de um campo.
Name | Tipo | Description |
---|---|---|
analyzer |
O nome do analisador a utilizar para o campo. Esta opção só pode ser utilizada com campos pesquisáveis e não pode ser definida em conjunto com searchAnalyzer ou indexAnalyzer. Depois de o analisador ser escolhido, não pode ser alterado para o campo. Tem de ser nulo para campos complexos. |
|
dimensions |
integer |
A dimensionalidade do campo de vetor. |
facetable |
boolean |
Um valor que indica se o campo deve ser referenciado em consultas de facetas. Normalmente utilizado numa apresentação de resultados de pesquisa que inclui a contagem de resultados por categoria (por exemplo, procure câmaras digitais e veja acessos por marca, por megapixéis, por preço, etc.). Esta propriedade tem de ser nula para campos complexos. Os campos do tipo Edm.GeographyPoint ou Collection(Edm.GeographyPoint) não podem ser facetáveis. A predefinição é verdadeira para todos os outros campos simples. |
fields |
Uma lista de subdomínios se este for um campo do tipo Edm.ComplexType ou Collection(Edm.ComplexType). Tem de ser nulo ou estar vazio para campos simples. |
|
filterable |
boolean |
Um valor que indica se o campo deve ser referenciado em consultas $filter. filtráveis difere do pesquisável na forma como as cadeias são processadas. Os campos do tipo Edm.String ou Collection(Edm.String) que são filtráveis não são submetidos a quebras de palavras, pelo que as comparações destinam-se apenas a correspondências exatas. Por exemplo, se definir tal campo f como "dia ensolarado", $filter=f eq "ensolarado" não encontrará correspondências, mas $filter=f eq "dia ensolarado" irá. Esta propriedade tem de ser nula para campos complexos. A predefinição é verdadeira para campos simples e nulo para campos complexos. |
indexAnalyzer |
O nome do analisador utilizado no momento da indexação do campo. Esta opção só pode ser utilizada com campos pesquisáveis. Tem de ser definido em conjunto com searchAnalyzer e não pode ser definido em conjunto com a opção analisador. Esta propriedade não pode ser definida como o nome de um analisador de idiomas; utilize a propriedade analyzer se precisar de um analisador de idiomas. Depois de o analisador ser escolhido, não pode ser alterado para o campo. Tem de ser nulo para campos complexos. |
|
key |
boolean |
Um valor que indica se o campo identifica exclusivamente documentos no índice. Exatamente um campo de nível superior em cada índice tem de ser escolhido como o campo de chave e tem de ser do tipo Edm.String. Os campos de chave podem ser utilizados para procurar documentos diretamente e atualizar ou eliminar documentos específicos. A predefinição é falso para campos simples e nulo para campos complexos. |
name |
string |
O nome do campo, que tem de ser exclusivo na coleção de campos do campo principal ou índice. |
normalizer |
O nome do normalizador a utilizar para o campo. Esta opção só pode ser utilizada com campos com filtragem, ordenável ou facetável ativada. Uma vez escolhido o normalizador, não pode ser alterado para o campo. Tem de ser nulo para campos complexos. |
|
retrievable |
boolean |
Um valor que indica se o campo pode ser devolvido num resultado de pesquisa. Pode desativar esta opção se quiser utilizar um campo (por exemplo, margem) como um filtro, ordenação ou mecanismo de classificação, mas não quiser que o campo seja visível para o utilizador final. Esta propriedade tem de ser verdadeira para campos de chave e tem de ser nula para campos complexos. Esta propriedade pode ser alterada em campos existentes. Ativar esta propriedade não causa qualquer aumento nos requisitos de armazenamento de índices. A predefinição é verdadeira para campos simples e nulo para campos complexos. |
searchAnalyzer |
O nome do analisador utilizado no momento da pesquisa do campo. Esta opção só pode ser utilizada com campos pesquisáveis. Tem de ser definido em conjunto com o indexAnalyzer e não pode ser definido em conjunto com a opção analisador. Esta propriedade não pode ser definida como o nome de um analisador de idiomas; utilize a propriedade analyzer se precisar de um analisador de idiomas. Este analisador pode ser atualizado num campo existente. Tem de ser nulo para campos complexos. |
|
searchable |
boolean |
Um valor que indica se o campo é pesquisável em texto completo. Isto significa que será submetido a uma análise, como quebra de palavras durante a indexação. Se definir um campo pesquisável para um valor como "sunny day", será dividido internamente nos tokens individuais "sunny" e "day". Isto permite pesquisas em texto completo para estes termos. Os campos do tipo Edm.String ou Collection(Edm.String) são pesquisáveis por predefinição. Esta propriedade tem de ser falsa para campos simples de outros tipos de dados sem cadeia e tem de ser nula para campos complexos. Nota: os campos pesquisáveis consomem espaço adicional no índice para acomodar versões token adicionais do valor do campo para pesquisas de texto completo. Se quiser poupar espaço no índice e não precisar que um campo seja incluído nas pesquisas, defina pesquisável como falso. |
sortable |
boolean |
Um valor que indica se o campo deve ser referenciado em expressões $orderby. Por predefinição, o motor de busca ordena os resultados por classificação, mas em muitas experiências os utilizadores vão querer ordenar por campos nos documentos. Um campo simples só pode ser ordenado se for de valor único (tem um único valor no âmbito do documento principal). Os campos de coleção simples não podem ser ordenados, uma vez que são de valores múltiplos. Os subdomissões simples de coleções complexas também têm valores múltiplos e, por conseguinte, não podem ser ordenados. Isto é verdade, quer se trate de um campo principal imediato, ou de um campo predecessor, que é a coleção complexa. Os campos complexos não podem ser ordenados e a propriedade ordenável tem de ser nula para esses campos. A predefinição para ordenável é verdadeira para campos simples de valor único, falso para campos simples de valores múltiplos e nulo para campos complexos. |
synonymMaps |
string[] |
Uma lista dos nomes dos mapas de sinónimos a associar a este campo. Esta opção só pode ser utilizada com campos pesquisáveis. Atualmente, só é suportado um mapa de sinónimos por campo. A atribuição de um mapa de sinónimos a um campo garante que os termos de consulta destinados a esse campo são expandidos no momento da consulta através das regras no mapa de sinónimos. Este atributo pode ser alterado em campos existentes. Tem de ser nulo ou uma coleção vazia para campos complexos. |
type |
O tipo de dados do campo. |
|
vectorSearchProfile |
string |
O nome do perfil de pesquisa de vetores que especifica o algoritmo e vetor a utilizar ao procurar no campo de vetor. |
SearchFieldDataType
Define o tipo de dados de um campo num índice de pesquisa.
Name | Tipo | Description |
---|---|---|
Edm.Boolean |
string |
Indica que um campo contém um valor booleano (verdadeiro ou falso). |
Edm.ComplexType |
string |
Indica que um campo contém um ou mais objetos complexos que, por sua vez, têm sub-campos de outros tipos. |
Edm.DateTimeOffset |
string |
Indica que um campo contém um valor de data/hora, incluindo informações de fuso horário. |
Edm.Double |
string |
Indica que um campo contém um número de vírgula flutuante de precisão dupla IEEE. |
Edm.GeographyPoint |
string |
Indica que um campo contém uma localização geográfica em termos de longitude e latitude. |
Edm.Int32 |
string |
Indica que um campo contém um número inteiro assinado de 32 bits. |
Edm.Int64 |
string |
Indica que um campo contém um número inteiro assinado de 64 bits. |
Edm.Single |
string |
Indica que um campo contém um número de vírgula flutuante de precisão única. Isto só é válido quando utilizado com Collection(Edm.Single). |
Edm.String |
string |
Indica que um campo contém uma cadeia. |
SearchIndex
Representa uma definição de índice de pesquisa, que descreve os campos e o comportamento de pesquisa de um índice.
Name | Tipo | Description |
---|---|---|
@odata.etag |
string |
O ETag do índice. |
analyzers | LexicalAnalyzer[]: |
Os analisadores do índice. |
charFilters | CharFilter[]: |
O caráter filtra para o índice. |
corsOptions |
Opções para controlar a Partilha de Recursos Entre Origens (CORS) para o índice. |
|
defaultScoringProfile |
string |
O nome do perfil de classificação a utilizar se não for especificado nenhum na consulta. Se esta propriedade não estiver definida e não for especificado nenhum perfil de classificação na consulta, será utilizada a classificação predefinida (tf-idf). |
encryptionKey |
Uma descrição de uma chave de encriptação que cria no Azure Key Vault. Esta chave é utilizada para fornecer um nível adicional de encriptação inativa para os seus dados quando quiser ter a garantia total de que ninguém, nem mesmo a Microsoft, pode desencriptar os seus dados. Depois de encriptar os seus dados, estes permanecerão sempre encriptados. O serviço de pesquisa irá ignorar as tentativas de definir esta propriedade como nula. Pode alterar esta propriedade conforme necessário se quiser rodar a chave de encriptação; Os seus dados não serão afetados. A encriptação com chaves geridas pelo cliente não está disponível para serviços de pesquisa gratuita e só está disponível para serviços pagos criados em ou depois de 1 de janeiro de 2019. |
|
fields |
Os campos do índice. |
|
name |
string |
O nome do índice. |
normalizers | LexicalNormalizer[]: |
Os normalizadores do índice. |
scoringProfiles |
Os perfis de classificação do índice. |
|
semantic |
Define parâmetros para um índice de pesquisa que influencia as capacidades semânticas. |
|
similarity | Similarity: |
O tipo de algoritmo de semelhança a ser utilizado ao classificar e classificar os documentos correspondentes a uma consulta de pesquisa. O algoritmo de semelhança só pode ser definido no momento da criação do índice e não pode ser modificado em índices existentes. Se for nulo, é utilizado o algoritmo ClassicSimilarity. |
suggesters |
Os sugestores do índice. |
|
tokenFilters |
TokenFilter[]:
|
O token filtra o índice. |
tokenizers | LexicalTokenizer[]: |
Os tokenizers do índice. |
vectorSearch |
Contém opções de configuração relacionadas com a pesquisa de vetores. |
SearchIndexerDataNoneIdentity
Limpa a propriedade de identidade de uma origem de dados.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de identidade. |
SearchIndexerDataUserAssignedIdentity
Especifica a identidade de uma origem de dados a utilizar.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de identidade. |
userAssignedIdentity |
string |
O ID de recurso completamente qualificado do Azure de uma identidade gerida atribuída pelo utilizador normalmente no formulário "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" que deveria ter sido atribuído ao serviço de pesquisa. |
SearchResourceEncryptionKey
Uma chave de encriptação gerida pelo cliente no Azure Key Vault. As chaves que cria e gere podem ser utilizadas para encriptar ou desencriptar dados inativos, como índices e mapas de sinónimos.
Name | Tipo | Description |
---|---|---|
accessCredentials |
Credenciais opcionais do Azure Active Directory utilizadas para aceder ao seu Key Vault do Azure. Em vez disso, não é necessário utilizar a identidade gerida. |
|
identity | SearchIndexerDataIdentity: |
Uma identidade gerida explícita a utilizar para esta chave de encriptação. Se não for especificado e a propriedade de credenciais de acesso for nula, é utilizada a identidade gerida atribuída pelo sistema. Ao atualizar para o recurso, se a identidade explícita não for especificada, permanecerá inalterada. Se "nenhum" for especificado, o valor desta propriedade é limpo. |
keyVaultKeyName |
string |
O nome da chave de Key Vault do Azure a ser utilizada para encriptar os seus dados inativos. |
keyVaultKeyVersion |
string |
A versão da chave de Key Vault do Azure a ser utilizada para encriptar os seus dados inativos. |
keyVaultUri |
string |
O URI do seu Key Vault do Azure, também conhecido como nome DNS, que contém a chave a ser utilizada para encriptar os seus dados inativos. Um URI de exemplo pode ser |
SemanticConfiguration
Define uma configuração específica a ser utilizada no contexto das capacidades semânticas.
Name | Tipo | Description |
---|---|---|
name |
string |
O nome da configuração semântica. |
prioritizedFields |
Descreve os campos de título, conteúdo e palavra-chave a utilizar para classificação semântica, legendas, destaques e respostas. Pelo menos uma das três sub propriedades (titleField, prioritizedKeywordsFields e prioritizedContentFields) tem de ser definida. |
SemanticField
Um campo que é utilizado como parte da configuração semântica.
Name | Tipo | Description |
---|---|---|
fieldName |
string |
SemanticSettings
Define parâmetros para um índice de pesquisa que influencia as capacidades semânticas.
Name | Tipo | Description |
---|---|---|
configurations |
As configurações semânticas do índice. |
|
defaultConfiguration |
string |
Permite-lhe definir o nome de uma configuração semântica predefinida no índice, tornando-a opcional para transmiti-la sempre como um parâmetro de consulta. |
ShingleTokenFilter
Cria combinações de tokens como um único token. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
filterToken |
string |
_ |
A cadeia a inserir para cada posição na qual não existe nenhum token. A predefinição é um caráter de sublinhado ("_"). |
maxShingleSize |
integer |
2 |
O tamanho máximo da telha. O valor predefinido e mínimo é 2. |
minShingleSize |
integer |
2 |
O tamanho mínimo da telha. O valor predefinido e mínimo é 2. Tem de ser inferior ao valor de maxShingleSize. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
outputUnigrams |
boolean |
True |
Um valor que indica se o fluxo de saída irá conter os tokens de entrada (unigramas), bem como as telhas. A predefinição é verdadeiro. |
outputUnigramsIfNoShingles |
boolean |
False |
Um valor que indica se os unigramas são exportados para as horas em que não existem telhas disponíveis. Esta propriedade tem precedência quando outputUnigrams está definido como falso. A predefinição é falso. |
tokenSeparator |
string |
A cadeia a utilizar ao associar tokens adjacentes para formar uma telha. A predefinição é um único espaço (" "). |
SnowballTokenFilter
Um filtro que escorria palavras utilizando um stemer gerado por bola de neve. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
language |
O idioma a utilizar. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
SnowballTokenFilterLanguage
O idioma a utilizar para um filtro de token bola de neve.
Name | Tipo | Description |
---|---|---|
armenian |
string |
Seleciona o tokenizador lucene snowball stemming para arménio. |
basque |
string |
Seleciona o tokenizador Lucene Snowball para basco. |
catalan |
string |
Seleciona o tokenizer Lucene Snowball para catalão. |
danish |
string |
Seleciona o tokenizador Lucene Snowball para dinamarquês. |
dutch |
string |
Seleciona o tokenizer Lucene Snowball stemming para neerlandês. |
english |
string |
Seleciona o tokenizer Lucene Snowball stemming para inglês. |
finnish |
string |
Seleciona o tokenizador Lucene Snowball stemming para finlandês. |
french |
string |
Seleciona o tokenizer Lucene Snowball stemming para francês. |
german |
string |
Seleciona o tokenizador Lucene Snowball stemming para alemão. |
german2 |
string |
Seleciona o tokenizador Lucene Snowball que utiliza o algoritmo de variante alemã. |
hungarian |
string |
Seleciona o tokenizador Lucene Snowball para húngaro. |
italian |
string |
Seleciona o tokenizador Lucene Snowball stemming para italiano. |
kp |
string |
Seleciona o tokenizer Lucene Snowball stemming para neerlandês que utiliza o algoritmo de deteção de Kraaij-Pohlmann. |
lovins |
string |
Seleciona o tokenizador Lucene Snowball stemming para inglês que utiliza o algoritmo lovins stemming. |
norwegian |
string |
Seleciona o tokenizer Lucene Snowball stemming para norueguês. |
porter |
string |
Seleciona o tokenizador Lucene Snowball stemming para inglês que utiliza o algoritmo porter stemming. |
portuguese |
string |
Seleciona o tokenizador Lucene Snowball stemming para português. |
romanian |
string |
Seleciona o tokenizador lucene snowball stemming para romeno. |
russian |
string |
Seleciona o tokenizador Lucene Snowball para russo. |
spanish |
string |
Seleciona o tokenizador Lucene Snowball stemming para espanhol. |
swedish |
string |
Seleciona o tokenizador Lucene Snowball para sueco. |
turkish |
string |
Seleciona o tokenizador Lucene Snowball stemming para turco. |
StemmerOverrideTokenFilter
Fornece a capacidade de substituir outros filtros de detenção por descrições personalizadas baseadas em dicionários. Quaisquer termos sem dicionário serão marcados como palavras-chave para que não sejam gerados com os stemmers na cadeia. Tem de ser colocado antes de quaisquer filtros de deteção. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
rules |
string[] |
Uma lista de regras de detenção no seguinte formato: "word => stem", por exemplo: "run => run". |
StemmerTokenFilter
Filtro de decorrido específico da linguagem. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
language |
O idioma a utilizar. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
StemmerTokenFilterLanguage
O idioma a utilizar para um filtro de token de stemmer.
Name | Tipo | Description |
---|---|---|
arabic |
string |
Seleciona o tokenizador Lucene stemming para árabe. |
armenian |
string |
Seleciona o tokenizador Lucene stemming para arménio. |
basque |
string |
Seleciona o tokenizador Lucene stemming para basco. |
brazilian |
string |
Seleciona o tokenizador Lucene stemming para português (Brasil). |
bulgarian |
string |
Seleciona o tokenizador Lucene stemming para búlgaro. |
catalan |
string |
Seleciona o tokenizador Lucene stemming para catalão. |
czech |
string |
Seleciona o tokenizador Lucene stemming para checo. |
danish |
string |
Seleciona o tokenizador Lucene stemming para dinamarquês. |
dutch |
string |
Seleciona o tokenizador Lucene stemming para neerlandês. |
dutchKp |
string |
Seleciona o tokenizador Lucene stemming para neerlandês que utiliza o algoritmo de deteção de Kraaij-Pohlmann. |
english |
string |
Seleciona o tokenizador Lucene stemming para inglês. |
finnish |
string |
Seleciona o tokenizador Lucene stemming para finlandês. |
french |
string |
Seleciona o tokenizador Lucene stemming para francês. |
galician |
string |
Seleciona o tokenizador Lucene stemming para Galego. |
german |
string |
Seleciona o tokenizador Lucene stemming para alemão. |
german2 |
string |
Seleciona o tokenizador lucene que utiliza o algoritmo de variante alemã. |
greek |
string |
Seleciona o tokenizador Lucene stemming para grego. |
hindi |
string |
Seleciona o tokenizador Lucene stemming para Hindi. |
hungarian |
string |
Seleciona o tokenizador Lucene stemming para húngaro. |
indonesian |
string |
Seleciona o tokenizador Lucene stemming para indonésio. |
irish |
string |
Seleciona o tokenizador Lucene stemming para irlandês. |
italian |
string |
Seleciona o tokenizador Lucene stemming para italiano. |
latvian |
string |
Seleciona o tokenizador Lucene stemming para letão. |
lightEnglish |
string |
Seleciona o tokenizador Lucene stemming para inglês que faz luz. |
lightFinnish |
string |
Seleciona o tokenizador Lucene stemming para finlandês que faz luz. |
lightFrench |
string |
Seleciona o tokenizador Lucene stemming para francês que faz luz. |
lightGerman |
string |
Seleciona o tokenizador Lucene stemming para alemão que faz luz. |
lightHungarian |
string |
Seleciona o tokenizador Lucene stemming para húngaro que faz luz. |
lightItalian |
string |
Seleciona o tokenizador Lucene stemming para italiano que faz luz. |
lightNorwegian |
string |
Seleciona o tokenizador Lucene stemming para norueguês (Bokmål) que faz luz. |
lightNynorsk |
string |
Seleciona o tokenizador Lucene stemming para norueguês (Nynorsk) que faz luz. |
lightPortuguese |
string |
Seleciona o tokenizador lucene stemming para português que faz luz decorrido. |
lightRussian |
string |
Seleciona o tokenizador lucene stemming para russo que faz o deteção de luz. |
lightSpanish |
string |
Seleciona o tokenizador lucene stemming para espanhol que faz a deteção de luz. |
lightSwedish |
string |
Seleciona o tokenizador lucene stemming para sueco que faz o light stemming. |
lovins |
string |
Seleciona o tokenizador Lucene stemming para inglês que utiliza o algoritmo lovins stemming. |
minimalEnglish |
string |
Seleciona o tokenizador Lucene stemming para inglês que faz um mínimo de descrições. |
minimalFrench |
string |
Seleciona o tokenizador Lucene stemming para francês que faz um mínimo de descrições. |
minimalGalician |
string |
Seleciona o tokenizador Lucene stemming para galego que faz um mínimo de desacortar. |
minimalGerman |
string |
Seleciona o tokenizador Lucene stemming para alemão que faz um mínimo de descrições. |
minimalNorwegian |
string |
Seleciona o tokenizador Lucene stemming para norueguês (Bokmål) que faz um mínimo de descrições. |
minimalNynorsk |
string |
Seleciona o tokenizador Lucene stemming para norueguês (Nynorsk) que faz um mínimo de descrições. |
minimalPortuguese |
string |
Seleciona o tokenizador lucene stemming para português que faz um mínimo de detenção. |
norwegian |
string |
Seleciona o tokenizador lucene stemming para norueguês (Bokmål). |
porter2 |
string |
Seleciona o tokenizador Lucene stemming para inglês que utiliza o algoritmo porter2 stemming. |
portuguese |
string |
Seleciona o tokenizador Lucene stemming para português. |
portugueseRslp |
string |
Seleciona o tokenizador lucene stemming para português que utiliza o algoritmo de criação de RSLP. |
possessiveEnglish |
string |
Seleciona o tokenizador Lucene stemming para inglês que remove possessivos à direita das palavras. |
romanian |
string |
Seleciona o tokenizador lucene stemming para romeno. |
russian |
string |
Seleciona o tokenizador lucene stemming para russo. |
sorani |
string |
Seleciona o tokenizador Lucene stemming para Sorani. |
spanish |
string |
Seleciona o tokenizador lucene stemming para espanhol. |
swedish |
string |
Seleciona o tokenizador lucene stemming para sueco. |
turkish |
string |
Seleciona o tokenizador lucene stemming para turco. |
StopAnalyzer
Divide o texto em não letras; Aplica os filtros de token em minúsculas e de palavra-passe. Este analisador é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de analisador. |
name |
string |
O nome do analisador. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
stopwords |
string[] |
Uma lista de palavras-passe. |
StopwordsList
Identifica uma lista predefinida de palavras-passe específicas do idioma.
Name | Tipo | Description |
---|---|---|
arabic |
string |
Seleciona a lista de palavras-passe para árabe. |
armenian |
string |
Seleciona a lista de palavras-passe para Arménio. |
basque |
string |
Seleciona a lista de palavras-passe para Basco. |
brazilian |
string |
Seleciona a lista de palavras-passe para português (Brasil). |
bulgarian |
string |
Seleciona a lista de palavras-passe para búlgaro. |
catalan |
string |
Seleciona a lista de palavras-passe para catalão. |
czech |
string |
Seleciona a lista de palavras-passe para checo. |
danish |
string |
Seleciona a lista de palavras-passe para dinamarquês. |
dutch |
string |
Seleciona a lista de palavras-passe para neerlandês. |
english |
string |
Seleciona a lista de palavras-passe para inglês. |
finnish |
string |
Seleciona a lista de palavras-passe para finlandês. |
french |
string |
Seleciona a lista de palavras-passe para francês. |
galician |
string |
Seleciona a lista de palavras-passe para Galego. |
german |
string |
Seleciona a lista de palavras-passe para alemão. |
greek |
string |
Seleciona a lista de palavras-passe para grego. |
hindi |
string |
Seleciona a lista de palavras-passe para Hindi. |
hungarian |
string |
Seleciona a lista de palavras-passe para húngaro. |
indonesian |
string |
Seleciona a lista de palavras-passe para indonésio. |
irish |
string |
Seleciona a lista de palavras-passe para irlandês. |
italian |
string |
Seleciona a lista de palavras-passe para italiano. |
latvian |
string |
Seleciona a lista de palavras-passe para letão. |
norwegian |
string |
Seleciona a lista de palavras-passe para norueguês. |
persian |
string |
Seleciona a lista de palavras-passe para persa. |
portuguese |
string |
Seleciona a lista de palavras-passe para português. |
romanian |
string |
Seleciona a lista de palavras-passe para romeno. |
russian |
string |
Seleciona a lista de palavras-passe para russo. |
sorani |
string |
Seleciona a lista de palavras-passe para Sorani. |
spanish |
string |
Seleciona a lista de palavras-passe para espanhol. |
swedish |
string |
Seleciona a lista de palavras-passe para sueco. |
thai |
string |
Seleciona a lista de palavras-passe para tailandês. |
turkish |
string |
Seleciona a lista de palavras-passe para turco. |
StopwordsTokenFilter
Remove palavras paradas de um fluxo de tokens. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
ignoreCase |
boolean |
False |
Um valor que indica se deve ignorar maiúsculas e minúsculas. Se for verdadeiro, todas as palavras são convertidas em minúsculas primeiro. A predefinição é falso. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
removeTrailing |
boolean |
True |
Um valor que indica se deve ignorar o último termo de pesquisa se for uma palavra de paragem. A predefinição é verdadeiro. |
stopwords |
string[] |
A lista de palavras-passe. Esta propriedade e a propriedade da lista de palavras-passe não podem ser definidas. |
|
stopwordsList | english |
Uma lista predefinida de palavras-passe a utilizar. Esta propriedade e a propriedade de palavras-de-fim não podem ser definidas. A predefinição é inglês. |
Suggester
Define como a API Suggest deve ser aplicada a um grupo de campos no índice.
Name | Tipo | Description |
---|---|---|
name |
string |
O nome do sugeridor. |
searchMode |
Um valor que indica as capacidades do sugeridor. |
|
sourceFields |
string[] |
A lista de nomes de campos aos quais o sugeridor se aplica. Cada campo tem de ser pesquisável. |
SuggesterSearchMode
Um valor que indica as capacidades do sugeridor.
Name | Tipo | Description |
---|---|---|
analyzingInfixMatching |
string |
Corresponde a termos e prefixos inteiros consecutivos num campo. Por exemplo, para o campo "A raposa castanha mais rápida", as consultas "rápida" e "navegação mais rápida" corresponderiam. |
SynonymTokenFilter
Corresponde a sinónimos de uma ou várias palavras num fluxo de tokens. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
expand |
boolean |
True |
Um valor que indica se todas as palavras na lista de sinónimos (se => notação não são utilizadas) serão mapeados entre si. Se for verdadeiro, todas as palavras na lista de sinónimos (se => notação não forem utilizadas) serão mapeados entre si. A seguinte lista: incrível, inacreditável, fabuloso, incrível é equivalente a: incrível, inacreditável, fabuloso, incrível => incrível, inacreditável, fabuloso, incrível. Se for falso, a seguinte lista: incrível, inacreditável, fabuloso, incrível será equivalente a: incrível, inacreditável, fabuloso, incrível => incrível. A predefinição é verdadeiro. |
ignoreCase |
boolean |
False |
Um valor que indica se deve dobrar as maiúsculas e minúsculas para a correspondência. A predefinição é falso. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
synonyms |
string[] |
Uma lista de sinónimos nos seguintes dois formatos: 1. incrível, inacreditável, fabuloso => incrível - todos os termos no lado esquerdo de => símbolo serão substituídos por todos os termos no lado direito; 2. incrível, inacreditável, fabuloso, incrível - lista separada por vírgulas de palavras equivalentes. Defina a opção expandir para alterar a forma como esta lista é interpretada. |
TagScoringFunction
Define uma função que aumenta as pontuações de documentos com valores de cadeia que correspondem a uma determinada lista de etiquetas.
Name | Tipo | Description |
---|---|---|
boost |
number |
Um multiplicador para a pontuação não processada. Tem de ser um número positivo diferente de 1,0. |
fieldName |
string |
O nome do campo utilizado como entrada para a função de classificação. |
interpolation |
Um valor que indica como o aumento será interpolado entre as pontuações dos documentos; a predefinição é "Linear". |
|
tag |
Valores de parâmetros para a função de classificação de etiquetas. |
|
type |
string:
tag |
Indica o tipo de função a utilizar. Os valores válidos incluem magnitude, frescura, distância e etiqueta. O tipo de função tem de ser minúsculo. |
TagScoringParameters
Fornece valores de parâmetros para uma função de classificação de etiquetas.
Name | Tipo | Description |
---|---|---|
tagsParameter |
string |
O nome do parâmetro transmitido nas consultas de pesquisa para especificar a lista de etiquetas a comparar com o campo de destino. |
TextWeights
Define os pesos nos campos de índice para os quais as correspondências devem aumentar a classificação nas consultas de pesquisa.
Name | Tipo | Description |
---|---|---|
weights |
object |
O dicionário de pesos por campo para aumentar a classificação de documentos. As chaves são nomes de campo e os valores são os pesos de cada campo. |
TokenCharacterKind
Representa classes de carateres nos quais um filtro de token pode funcionar.
Name | Tipo | Description |
---|---|---|
digit |
string |
Mantém os dígitos em tokens. |
letter |
string |
Mantém as letras em tokens. |
punctuation |
string |
Mantém a pontuação em tokens. |
symbol |
string |
Mantém símbolos em tokens. |
whitespace |
string |
Mantém o espaço em branco em tokens. |
TokenFilterName
Define os nomes de todos os filtros de token suportados pelo motor de busca.
TruncateTokenFilter
Trunca os termos para um comprimento específico. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
length |
integer |
300 |
O comprimento a que os termos serão truncados. A predefinição e o máximo é 300. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
UaxUrlEmailTokenizer
Tokenize urls e e-mails como um token. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxTokenLength |
integer |
255 |
O comprimento máximo do token. A predefinição é 255. Os tokens com mais comprimento do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
UniqueTokenFilter
Filtra tokens com o mesmo texto que o token anterior. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
onlyOnSamePosition |
boolean |
False |
Um valor que indica se pretende remover duplicados apenas na mesma posição. A predefinição é falso. |
VectorSearch
Contém opções de configuração relacionadas com a pesquisa de vetores.
Name | Tipo | Description |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Contém opções de configuração específicas do algoritmo utilizado durante a indexação ou consulta. |
profiles |
Define combinações de configurações a utilizar com a pesquisa de vetores. |
|
vectorizers | VectorSearchVectorizer[]: |
Contém opções de configuração sobre como vetorizar consultas de vetor de texto. |
VectorSearchAlgorithmKind
O algoritmo utilizado para indexar e consultar.
Name | Tipo | Description |
---|---|---|
exhaustiveKnn |
string |
Algoritmo KNN exaustivo que irá realizar uma pesquisa de força bruta. |
hnsw |
string |
HNSW (Mundo Pequeno Navegável Hierárquico), um tipo de algoritmo de vizinhos mais próximo aproximado. |
VectorSearchAlgorithmMetric
A métrica de semelhança a utilizar para comparações de vetores.
Name | Tipo | Description |
---|---|---|
cosine |
string |
|
dotProduct |
string |
|
euclidean |
string |
VectorSearchProfile
Define uma combinação de configurações a utilizar com a pesquisa de vetores.
Name | Tipo | Description |
---|---|---|
algorithm |
string |
O nome da configuração do algoritmo de pesquisa de vetor que especifica o algoritmo e os parâmetros opcionais. |
name |
string |
O nome a associar a este perfil de pesquisa de vetor específico. |
vectorizer |
string |
O nome do tipo de método de vetorização que está a ser configurado para utilização com a pesquisa de vetores. |
VectorSearchVectorizerKind
O método de vetorização a utilizar durante o tempo de consulta.
Name | Tipo | Description |
---|---|---|
azureOpenAI |
string |
Gerar incorporações com um recurso do Azure OpenAI no momento da consulta. |
customWebApi |
string |
Gerar incorporações com um ponto final Web personalizado no momento da consulta. |
WordDelimiterTokenFilter
Divide palavras em sub-palavras e efetua transformações opcionais em grupos de sub-palavras. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
catenateAll |
boolean |
False |
Um valor que indica se todas as partes da sub-palavra serão catenadas. Por exemplo, se estiver definido como verdadeiro, "Azure-Search-1" torna-se "AzureSearch1". A predefinição é falso. |
catenateNumbers |
boolean |
False |
Um valor que indica se as execuções máximas de partes numeradas serão catenadas. Por exemplo, se estiver definido como verdadeiro, "1-2" torna-se "12". A predefinição é falso. |
catenateWords |
boolean |
False |
Um valor que indica se as execuções máximas de partes de palavras serão catenadas. Por exemplo, se estiver definido como verdadeiro, "Azure-Search" torna-se "AzureSearch". A predefinição é falso. |
generateNumberParts |
boolean |
True |
Um valor que indica se pretende gerar sub-palavras numéricos. A predefinição é verdadeiro. |
generateWordParts |
boolean |
True |
Um valor que indica se pretende gerar palavras em parte. Se estiver definido, faz com que partes das palavras sejam geradas; por exemplo, "AzureSearch" torna-se "Azure" "Pesquisa". A predefinição é verdadeiro. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
preserveOriginal |
boolean |
False |
Um valor que indica se as palavras originais serão preservadas e adicionadas à lista de sub-palavras. A predefinição é falso. |
protectedWords |
string[] |
Uma lista de tokens para proteger contra a delimitação. |
|
splitOnCaseChange |
boolean |
True |
Um valor que indica se pretende dividir palavras em caseChange. Por exemplo, se estiver definido como verdadeiro, "AzureSearch" torna-se "Azure" "Pesquisa". A predefinição é verdadeiro. |
splitOnNumerics |
boolean |
True |
Um valor que indica se pretende dividir em números. Por exemplo, se estiver definido como verdadeiro, "Azure1Search" torna-se "Azure" "1" "Pesquisa". A predefinição é verdadeiro. |
stemEnglishPossessive |
boolean |
True |
Um valor que indica se pretende remover "s" à direita para cada sub-palavra. A predefinição é verdadeiro. |