Indexes - Create
Cria um novo índice de pesquisa.
POST {endpoint}/indexes?api-version=2023-10-01-Preview
Parâmetros do URI
Name | Em | Necessário | Tipo | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
O URL do ponto final do serviço de pesquisa. |
api-version
|
query | True |
string |
Versão da API do Cliente. |
Cabeçalho do Pedido
Name | Necessário | Tipo | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
O ID de controlo enviado com o pedido para ajudar na depuração. |
Corpo do Pedido
Name | Necessário | Tipo | Description |
---|---|---|---|
fields | True |
Os campos do índice. |
|
name | True |
string |
O nome do índice. |
@odata.etag |
string |
A ETag do índice. |
|
analyzers | LexicalAnalyzer[]: |
Os analisadores do índice. |
|
charFilters | CharFilter[]: |
O caráter filtra para o índice. |
|
corsOptions |
Opções para controlar a Partilha de Recursos Transversais à Origem (CORS) para o índice. |
||
defaultScoringProfile |
string |
O nome do perfil de classificação a utilizar se não for especificado nenhum na consulta. Se esta propriedade não estiver definida e não for especificado nenhum perfil de classificação na consulta, será utilizada a classificação predefinida (tf-idf). |
|
encryptionKey |
Uma descrição de uma chave de encriptação que cria no Azure Key Vault. Esta chave é utilizada para fornecer um nível adicional de encriptação inativa para os seus dados quando quiser ter a garantia total de que ninguém, nem mesmo a Microsoft, pode desencriptar os seus dados. Depois de encriptar os seus dados, estes permanecerão sempre encriptados. O serviço de pesquisa irá ignorar as tentativas de definir esta propriedade como nula. Pode alterar esta propriedade conforme necessário se quiser rodar a chave de encriptação; Os seus dados não serão afetados. A encriptação com chaves geridas pelo cliente não está disponível para serviços de pesquisa gratuita e só está disponível para serviços pagos criados a partir de 1 de janeiro de 2019 ou depois de 1 de janeiro de 2019. |
||
normalizers | LexicalNormalizer[]: |
Os normalizadores do índice. |
|
scoringProfiles |
Os perfis de classificação do índice. |
||
semantic |
Define parâmetros para um índice de pesquisa que influenciam as capacidades semânticas. |
||
similarity | Similarity: |
O tipo de algoritmo de semelhança a ser utilizado ao classificar e classificar os documentos correspondentes a uma consulta de pesquisa. O algoritmo de semelhança só pode ser definido no momento da criação do índice e não pode ser modificado em índices existentes. Se for nulo, é utilizado o algoritmo ClassicSimilarity. |
|
suggesters |
Os sugestores do índice. |
||
tokenFilters |
TokenFilter[]:
|
O token filtra o índice. |
|
tokenizers | LexicalTokenizer[]: |
Os tokenizers do índice. |
|
vectorSearch |
Contém opções de configuração relacionadas com a pesquisa de vetores. |
Respostas
Name | Tipo | Description |
---|---|---|
201 Created | ||
Other Status Codes |
Resposta de erro. |
Exemplos
SearchServiceCreateIndex
Pedido de amostra
POST https://myservice.search.windows.net/indexes?api-version=2023-10-01-Preview
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": "<applicationSecret>"
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine",
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey"
}
}
]
}
}
Resposta da amostra
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2",
"tokenFilters": []
}
],
"tokenizers": [],
"normalizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"defaultConfiguration": null,
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey",
"authIdentity": null
}
}
]
}
}
Definições
Name | Description |
---|---|
Ascii |
Converte carateres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 carateres ASCII (o bloco Unicode "Latim Básico") nos respetivos equivalentes ASCII, se existirem esses equivalentes. Este filtro de token é implementado com o Apache Lucene. |
Azure |
Credenciais de uma aplicação registada criada para o seu serviço de pesquisa, utilizada para acesso autenticado às chaves de encriptação armazenadas no Azure Key Vault. |
Azure |
Especifica os parâmetros para ligar ao recurso Azure OpenAI. |
Azure |
Especifica o recurso Azure OpenAI utilizado para vetorizar uma cadeia de consulta. |
BM25Similarity |
Função de classificação com base no algoritmo de semelhança Okapi BM25. BM25 é um algoritmo semelhante a TF-IDF que inclui a normalização do comprimento (controlada pelo parâmetro "b") bem como a saturação de frequência de termos (controlada pelo parâmetro 'k1'). |
Char |
Define os nomes de todos os filtros de carateres suportados pelo motor de busca. |
Cjk |
Forma bigrams de termos CJK que são gerados a partir do tokenizer padrão. Este filtro de token é implementado com o Apache Lucene. |
Cjk |
Scripts que podem ser ignorados por CjkBigramTokenFilter. |
Classic |
Algoritmo de semelhança legado que utiliza a implementação Lucene TFIDFSimilarity do TF-IDF. Esta variação de TF-IDF introduz a normalização do comprimento do documento estático, bem como fatores coordenadores que penalizam documentos que apenas correspondem parcialmente às consultas pesquisadas. |
Classic |
Tokenador baseado em gramática adequado para processar a maioria dos documentos em língua europeia. Este tokenizador é implementado com o Apache Lucene. |
Common |
Construa bigrams para termos que ocorrem frequentemente durante a indexação. Os termos únicos também são indexados, com bigrams sobrepostos. Este filtro de token é implementado com o Apache Lucene. |
Cors |
Define opções para controlar a Partilha de Recursos De Várias Origens (CORS) para um índice. |
Custom |
Permite-lhe assumir o controlo do processo de conversão de texto em tokens indexáveis/pesquisáveis. É uma configuração definida pelo utilizador que consiste num único tokenizador predefinido e um ou mais filtros. O tokenizer é responsável por dividir o texto em tokens e os filtros para modificar tokens emitidos pelo tokenizer. |
Custom |
Permite-lhe configurar a normalização para campos filtráveis, ordenáveis e facetáveis, que por predefinição operam com correspondência estrita. Esta é uma configuração definida pelo utilizador que consiste em, pelo menos, um ou mais filtros, que modificam o token armazenado. |
Custom |
Especifica um vetor definido pelo utilizador para gerar a incorporação de vetor de uma cadeia de consulta. A integração de um vetor externo é obtida com a interface de API Web personalizada de um conjunto de competências. |
Custom |
Especifica as propriedades para ligar a um vetor definido pelo utilizador. |
Dictionary |
Decompõe palavras compostas encontradas em muitos idiomas germânicos. Este filtro de token é implementado com o Apache Lucene. |
Distance |
Define uma função que aumenta as pontuações com base na distância de uma localização geográfica. |
Distance |
Fornece valores de parâmetros para uma função de classificação à distância. |
Edge |
Gera n-gramas do(s) tamanho(s) especificado(s) a partir da parte frontal ou traseira de um token de entrada. Este filtro de token é implementado com o Apache Lucene. |
Edge |
Especifica a partir de que lado da entrada deve ser gerado um n-grama. |
Edge |
Gera n-gramas dos tamanhos especificados a partir da frente ou na parte traseira de um token de entrada. Este filtro de token é implementado com o Apache Lucene. |
Edge |
Tokeniza a entrada de uma extremidade em n-gramas dos tamanhos especificados. Este tokenizador é implementado com o Apache Lucene. |
Elision |
Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (plano). Este filtro de token é implementado com o Apache Lucene. |
Exhaustive |
Contém os parâmetros específicos do algoritmo KNN exaustivo. |
Exhaustive |
Contém opções de configuração específicas do algoritmo KNN exaustivo utilizado durante a consulta, o que irá realizar uma pesquisa de força bruta em todo o índice de vetor. |
Freshness |
Define uma função que aumenta as pontuações com base no valor de um campo de data/hora. |
Freshness |
Fornece valores de parâmetros para uma função de classificação de frescura. |
Hnsw |
Contém os parâmetros específicos do algoritmo HNSW. |
Hnsw |
Contém opções de configuração específicas do algoritmo HNSW aproximado dos vizinhos mais próximos utilizado durante a indexação e consulta. O algoritmo HNSW oferece uma troca atumável entre a velocidade de pesquisa e a precisão. |
Keep |
Um filtro de token que apenas mantém tokens com texto contido numa lista especificada de palavras. Este filtro de token é implementado com o Apache Lucene. |
Keyword |
Marca os termos como palavras-chave. Este filtro de token é implementado com o Apache Lucene. |
Keyword |
Emite toda a entrada como um único token. Este tokenizador é implementado com o Apache Lucene. |
Keyword |
Emite toda a entrada como um único token. Este tokenizador é implementado com o Apache Lucene. |
Length |
Remove palavras demasiado longas ou demasiado curtas. Este filtro de token é implementado com o Apache Lucene. |
Lexical |
Define os nomes de todos os analisadores de texto suportados pelo motor de busca. |
Lexical |
Define os nomes de todos os normalizadores de texto suportados pelo motor de busca. |
Lexical |
Define os nomes de todos os tokenizers suportados pelo motor de busca. |
Limit |
Limita o número de tokens durante a indexação. Este filtro de token é implementado com o Apache Lucene. |
Lucene |
Analisador Padrão do Apache Lucene; Composto pelo tokenizador padrão, filtro em minúsculas e filtro de paragem. |
Lucene |
Quebra o texto ao seguir as regras de Segmentação de Texto Unicode. Este tokenizador é implementado com o Apache Lucene. |
Lucene |
Quebra o texto ao seguir as regras de Segmentação de Texto Unicode. Este tokenizador é implementado com o Apache Lucene. |
Magnitude |
Define uma função que aumenta as pontuações com base na magnitude de um campo numérico. |
Magnitude |
Fornece valores de parâmetros para uma função de classificação de magnitude. |
Mapping |
Um filtro de carateres que aplica mapeamentos definidos com a opção mapeamentos. A correspondência é gananciosa (o padrão mais longo que corresponde a um determinado ponto ganha). A substituição pode ser a cadeia vazia. Este filtro de carateres é implementado com o Apache Lucene. |
Microsoft |
Divide o texto com regras específicas do idioma e reduz as palavras aos formulários base. |
Microsoft |
Divide o texto com regras específicas do idioma. |
Microsoft |
Listas os idiomas suportados pelo tokenizer de idioma da Microsoft. |
Microsoft |
Listas os idiomas suportados pelo tokenizer de idioma da Microsoft. |
NGram |
Gera n-gramas dos tamanhos especificados. Este filtro de token é implementado com o Apache Lucene. |
NGram |
Gera n-gramas dos tamanhos especificados. Este filtro de token é implementado com o Apache Lucene. |
NGram |
Tokeniza a entrada em n-gramas dos tamanhos especificados. Este tokenizador é implementado com o Apache Lucene. |
Path |
Tokenizer para hierarquias semelhantes a caminhos. Este tokenizador é implementado com o Apache Lucene. |
Pattern |
Separa de forma flexível o texto em termos através de um padrão de expressão regular. Este analisador é implementado com o Apache Lucene. |
Pattern |
Utiliza regexes Java para emitir vários tokens - um para cada grupo de captura num ou mais padrões. Este filtro de token é implementado com o Apache Lucene. |
Pattern |
Um filtro de carateres que substitui carateres na cadeia de entrada. Utiliza uma expressão regular para identificar sequências de carateres para preservar e um padrão de substituição para identificar carateres a substituir. Por exemplo, dado o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Este filtro de carateres é implementado com o Apache Lucene. |
Pattern |
Um filtro de carateres que substitui carateres na cadeia de entrada. Utiliza uma expressão regular para identificar sequências de carateres para preservar e um padrão de substituição para identificar carateres a substituir. Por exemplo, dado o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Este filtro de token é implementado com o Apache Lucene. |
Pattern |
Tokenizer que utiliza a correspondência de padrões regex para construir tokens distintos. Este tokenizador é implementado com o Apache Lucene. |
Phonetic |
Identifica o tipo de codificador fonético a utilizar com um PhoneticTokenFilter. |
Phonetic |
Crie tokens para correspondências fonéticas. Este filtro de token é implementado com o Apache Lucene. |
Prioritized |
Descreve os campos de título, conteúdo e palavras-chave a utilizar para classificação semântica, legendas, destaques e respostas. |
Regex |
Define sinalizadores que podem ser combinados para controlar a forma como as expressões regulares são utilizadas no analisador de padrões e no tokenizador de padrões. |
Scoring |
Define a função de agregação utilizada para combinar os resultados de todas as funções de classificação num perfil de classificação. |
Scoring |
Define a função utilizada para interpolar o aumento de pontuação num intervalo de documentos. |
Scoring |
Define parâmetros para um índice de pesquisa que influencia a classificação em consultas de pesquisa. |
Search |
Descreve uma condição de erro para a API. |
Search |
Representa um campo numa definição de índice, que descreve o nome, o tipo de dados e o comportamento de pesquisa de um campo. |
Search |
Define o tipo de dados de um campo num índice de pesquisa. |
Search |
Representa uma definição de índice de pesquisa, que descreve os campos e o comportamento de pesquisa de um índice. |
Search |
Limpa a propriedade de identidade de uma origem de dados. |
Search |
Especifica a identidade de uma origem de dados a utilizar. |
Search |
Uma chave de encriptação gerida pelo cliente no Azure Key Vault. As chaves que cria e gere podem ser utilizadas para encriptar ou desencriptar dados inativos, como índices e mapas de sinónimos. |
Semantic |
Define uma configuração específica a ser utilizada no contexto de capacidades semânticas. |
Semantic |
Um campo que é utilizado como parte da configuração semântica. |
Semantic |
Define parâmetros para um índice de pesquisa que influenciam as capacidades semânticas. |
Shingle |
Cria combinações de tokens como um único token. Este filtro de token é implementado com o Apache Lucene. |
Snowball |
Um filtro que escorria palavras utilizando um stemer gerado por bola de neve. Este filtro de token é implementado com o Apache Lucene. |
Snowball |
O idioma a utilizar para um filtro de token bola de neve. |
Stemmer |
Fornece a capacidade de substituir outros filtros de detenção por descrições personalizadas baseadas em dicionários. Quaisquer termos sem dicionário serão marcados como palavras-chave para que não sejam gerados com os stemmers na cadeia. Tem de ser colocado antes de quaisquer filtros de deteção. Este filtro de token é implementado com o Apache Lucene. |
Stemmer |
Filtro de decorrido específico da linguagem. Este filtro de token é implementado com o Apache Lucene. |
Stemmer |
O idioma a utilizar para um filtro de token de stemmer. |
Stop |
Divide texto em não letras; Aplica os filtros de token de palavras-passe e minúsculas. Este analisador é implementado com o Apache Lucene. |
Stopwords |
Identifica uma lista predefinida de palavras-passe específicas do idioma. |
Stopwords |
Remove palavras paradas de um fluxo de tokens. Este filtro de token é implementado com o Apache Lucene. |
Suggester |
Define como a API Suggest deve ser aplicada a um grupo de campos no índice. |
Suggester |
Um valor que indica as capacidades do sugeridor. |
Synonym |
Corresponde a sinónimos de uma ou várias palavras num fluxo de tokens. Este filtro de token é implementado com o Apache Lucene. |
Tag |
Define uma função que aumenta as pontuações de documentos com valores de cadeia que correspondem a uma determinada lista de etiquetas. |
Tag |
Fornece valores de parâmetros para uma função de classificação de etiquetas. |
Text |
Define os pesos nos campos de índice para os quais as correspondências devem aumentar a classificação nas consultas de pesquisa. |
Token |
Representa classes de carateres em que um filtro de token pode funcionar. |
Token |
Define os nomes de todos os filtros de token suportados pelo motor de busca. |
Truncate |
Trunca os termos para um comprimento específico. Este filtro de token é implementado com o Apache Lucene. |
Uax |
Tokens urls e e-mails como um token. Este tokenizador é implementado com o Apache Lucene. |
Unique |
Filtra tokens com o mesmo texto que o token anterior. Este filtro de token é implementado com o Apache Lucene. |
Vector |
Contém opções de configuração relacionadas com a pesquisa de vetores. |
Vector |
O algoritmo utilizado para indexação e consulta. |
Vector |
A métrica de semelhança a utilizar para comparações de vetores. |
Vector |
Define uma combinação de configurações a utilizar com a pesquisa de vetores. |
Vector |
O método de vetorização a ser utilizado durante o tempo de consulta. |
Word |
Divide palavras em sub-palavras e efetua transformações opcionais em grupos de sub-palavras. Este filtro de token é implementado com o Apache Lucene. |
AsciiFoldingTokenFilter
Converte carateres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 carateres ASCII (o bloco Unicode "Latim Básico") nos respetivos equivalentes ASCII, se existirem esses equivalentes. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
preserveOriginal |
boolean |
False |
Um valor que indica se o token original será mantido. A predefinição é falso. |
AzureActiveDirectoryApplicationCredentials
Credenciais de uma aplicação registada criada para o seu serviço de pesquisa, utilizada para acesso autenticado às chaves de encriptação armazenadas no Azure Key Vault.
Name | Tipo | Description |
---|---|---|
applicationId |
string |
Um ID da Aplicação do AAD a quem foram concedidas as permissões de acesso necessárias para o Azure Key Vault que deve ser utilizado ao encriptar os seus dados inativos. O ID da Aplicação não deve ser confundido com o ID do Objeto da sua Aplicação do AAD. |
applicationSecret |
string |
A chave de autenticação da aplicação do AAD especificada. |
AzureOpenAIParameters
Especifica os parâmetros para ligar ao recurso Azure OpenAI.
Name | Tipo | Description |
---|---|---|
apiKey |
string |
Chave de API do recurso designado do Azure OpenAI. |
authIdentity | SearchIndexerDataIdentity: |
A identidade gerida atribuída pelo utilizador utilizada para ligações de saída. |
deploymentId |
string |
ID da implementação do modelo Azure OpenAI no recurso designado. |
resourceUri |
string |
O URI do recurso do Azure OpenAI. |
AzureOpenAIVectorizer
Especifica o recurso Azure OpenAI utilizado para vetorizar uma cadeia de consulta.
Name | Tipo | Description |
---|---|---|
azureOpenAIParameters |
Contém os parâmetros específicos da vetorização de incorporação do Azure OpenAI. |
|
kind |
string:
azure |
O nome do tipo de método de vetorização que está a ser configurado para utilização com a pesquisa de vetores. |
name |
string |
O nome a associar a este método de vetorização específico. |
BM25Similarity
Função de classificação com base no algoritmo de semelhança Okapi BM25. BM25 é um algoritmo semelhante a TF-IDF que inclui a normalização do comprimento (controlada pelo parâmetro "b") bem como a saturação de frequência de termos (controlada pelo parâmetro 'k1').
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Esta propriedade controla como o comprimento de um documento afeta a classificação de relevância. Por predefinição, é utilizado um valor de 0,75. Um valor de 0,0 significa que não é aplicada normalização de comprimento, enquanto um valor de 1,0 significa que a classificação é totalmente normalizada pelo comprimento do documento. |
k1 |
number |
Esta propriedade controla a função de dimensionamento entre o termo frequência de cada termos correspondentes e a classificação de relevância final de um par de consulta-documento. Por predefinição, é utilizado um valor de 1,2. Um valor de 0,0 significa que a classificação não é dimensionada com um aumento de frequência de termos. |
CharFilterName
Define os nomes de todos os filtros de carateres suportados pelo motor de busca.
Name | Tipo | Description |
---|---|---|
html_strip |
string |
Um filtro de carateres que tenta remover construções HTML. Veja https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Forma bigrams de termos CJK que são gerados a partir do tokenizer padrão. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
ignoreScripts |
Os scripts a ignorar. |
||
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
outputUnigrams |
boolean |
False |
Um valor que indica se quer produzir unigramas e bigrams (se verdadeiro) ou apenas bigrams (se falso). A predefinição é falso. |
CjkBigramTokenFilterScripts
Scripts que podem ser ignorados por CjkBigramTokenFilter.
Name | Tipo | Description |
---|---|---|
han |
string |
Ignore o script Han ao formar bigrams de termos CJK. |
hangul |
string |
Ignore o script Hangul ao formar bigrams de termos CJK. |
hiragana |
string |
Ignore o script hiragana ao formar bigrams de termos CJK. |
katakana |
string |
Ignore o script katakana ao formar bigrams de termos CJK. |
ClassicSimilarity
Algoritmo de semelhança legado que utiliza a implementação Lucene TFIDFSimilarity do TF-IDF. Esta variação de TF-IDF introduz a normalização do comprimento do documento estático, bem como fatores coordenadores que penalizam documentos que apenas correspondem parcialmente às consultas pesquisadas.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenador baseado em gramática adequado para processar a maioria dos documentos em língua europeia. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxTokenLength |
integer |
255 |
O comprimento máximo do token. A predefinição é 255. Os tokens com mais comprimento do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
CommonGramTokenFilter
Construa bigrams para termos que ocorrem frequentemente durante a indexação. Os termos únicos também são indexados, com bigrams sobrepostos. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
commonWords |
string[] |
O conjunto de palavras comuns. |
|
ignoreCase |
boolean |
False |
Um valor que indica se a correspondência de palavras comuns não será sensível a maiúsculas e minúsculas. A predefinição é falso. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
queryMode |
boolean |
False |
Um valor que indica se o filtro de token está no modo de consulta. Quando está no modo de consulta, o filtro de token gera bigrams e, em seguida, remove palavras comuns e termos únicos seguidos de uma palavra comum. A predefinição é falso. |
CorsOptions
Define opções para controlar a Partilha de Recursos De Várias Origens (CORS) para um índice.
Name | Tipo | Description |
---|---|---|
allowedOrigins |
string[] |
A lista de origens a partir das quais será concedido acesso ao código JavaScript ao seu índice. Pode conter uma lista de anfitriões do formulário {protocol}://{fully-qualified-domain-name}[:{port#}], ou um único '*' para permitir todas as origens (não recomendado). |
maxAgeInSeconds |
integer |
A duração para a qual os browsers devem colocar em cache as respostas de verificação prévia CORS. A predefinição é 5 minutos. |
CustomAnalyzer
Permite-lhe assumir o controlo do processo de conversão de texto em tokens indexáveis/pesquisáveis. É uma configuração definida pelo utilizador que consiste num único tokenizador predefinido e um ou mais filtros. O tokenizer é responsável por dividir o texto em tokens e os filtros para modificar tokens emitidos pelo tokenizer.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de analisador. |
charFilters |
Uma lista de filtros de carateres utilizados para preparar o texto de entrada antes de ser processado pelo tokenizador. Por exemplo, podem substituir determinados carateres ou símbolos. Os filtros são executados pela ordem em que estão listados. |
|
name |
string |
O nome do analisador. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
tokenFilters |
Uma lista de filtros de tokens utilizados para filtrar ou modificar os tokens gerados por um token. Por exemplo, pode especificar um filtro em minúsculas que converte todos os carateres em minúsculas. Os filtros são executados pela ordem em que estão listados. |
|
tokenizer |
O nome do tokenizador a utilizar para dividir o texto contínuo numa sequência de tokens, como dividir uma frase em palavras. |
CustomNormalizer
Permite-lhe configurar a normalização para campos filtráveis, ordenáveis e facetáveis, que por predefinição operam com correspondência estrita. Esta é uma configuração definida pelo utilizador que consiste em, pelo menos, um ou mais filtros, que modificam o token armazenado.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de normalizador. |
charFilters |
Uma lista de filtros de carateres utilizados para preparar texto de entrada antes de ser processado. Por exemplo, podem substituir determinados carateres ou símbolos. Os filtros são executados pela ordem em que estão listados. |
|
name |
string |
O nome do normalizador. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. Não pode terminar em ".microsoft" nem ".lucene", nem ser chamado de "asciifolding", "standard", "minúscula", "maiúscula" ou "elisão". |
tokenFilters |
Uma lista de filtros de token utilizados para filtrar ou modificar o token de entrada. Por exemplo, pode especificar um filtro em minúsculas que converte todos os carateres em minúsculas. Os filtros são executados pela ordem em que estão listados. |
CustomVectorizer
Especifica um vetor definido pelo utilizador para gerar a incorporação de vetor de uma cadeia de consulta. A integração de um vetor externo é obtida com a interface de API Web personalizada de um conjunto de competências.
Name | Tipo | Description |
---|---|---|
customWebApiParameters |
Especifica as propriedades do vetor definido pelo utilizador. |
|
kind |
string:
custom |
O nome do tipo de método de vetorização que está a ser configurado para utilização com a pesquisa de vetores. |
name |
string |
O nome a associar a este método de vetorização específico. |
CustomWebApiParameters
Especifica as propriedades para ligar a um vetor definido pelo utilizador.
Name | Tipo | Description |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
A identidade gerida atribuída pelo utilizador utilizada para ligações de saída. Se for fornecido um authResourceId e não for especificado, é utilizada a identidade gerida atribuída pelo sistema. Nas atualizações ao indexador, se a identidade não for especificada, o valor permanece inalterado. Se estiver definido como "nenhum", o valor desta propriedade é limpo. |
authResourceId |
string |
Aplica-se a pontos finais personalizados que se ligam a código externo numa função do Azure ou a outra aplicação que fornece as transformações. Este valor deve ser o ID da aplicação criado para a função ou aplicação quando foi registado no Azure Active Directory. Quando especificado, a vetorização liga-se à função ou aplicação com um ID gerido (atribuído pelo sistema ou pelo utilizador) do serviço de pesquisa e o token de acesso da função ou aplicação, utilizando este valor como id de recurso para criar o âmbito do token de acesso. |
httpHeaders |
object |
Os cabeçalhos necessários para fazer o pedido HTTP. |
httpMethod |
string |
O método para o pedido HTTP. |
timeout |
string |
O tempo limite pretendido para o pedido. A predefinição é 30 segundos. |
uri |
string |
O URI da API Web que fornece o vetor. |
DictionaryDecompounderTokenFilter
Decompõe palavras compostas encontradas em muitos idiomas germânicos. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
maxSubwordSize |
integer |
15 |
O tamanho máximo da sub-palavra. Apenas as sub-palavras mais curtas do que estas são exportadas. A predefinição é 15. O máximo é 300. |
minSubwordSize |
integer |
2 |
O tamanho mínimo da sub-palavra. Apenas as sub-palavras mais longas do que estas são exportadas. A predefinição é 2. O máximo é 300. |
minWordSize |
integer |
5 |
O tamanho mínimo da palavra. Apenas as palavras com mais tempo do que estas são processadas. A predefinição é 5. O máximo é 300. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
onlyLongestMatch |
boolean |
False |
Um valor que indica se deve adicionar apenas a sub-palavra correspondente mais longa à saída. A predefinição é falso. |
wordList |
string[] |
A lista de palavras a corresponder. |
DistanceScoringFunction
Define uma função que aumenta as pontuações com base na distância de uma localização geográfica.
Name | Tipo | Description |
---|---|---|
boost |
number |
Um multiplicador para a classificação não processada. Tem de ser um número positivo que não seja igual a 1,0. |
distance |
Valores de parâmetros para a função de classificação de distância. |
|
fieldName |
string |
O nome do campo utilizado como entrada para a função de classificação. |
interpolation |
Um valor que indica como o aumento será interpolado entre as pontuações dos documentos; a predefinição é "Linear". |
|
type |
string:
distance |
Indica o tipo de função a utilizar. Os valores válidos incluem magnitude, frescura, distância e etiqueta. O tipo de função tem de ser minúscula. |
DistanceScoringParameters
Fornece valores de parâmetros para uma função de classificação à distância.
Name | Tipo | Description |
---|---|---|
boostingDistance |
number |
A distância em quilómetros da localização de referência onde termina o intervalo de aumento. |
referencePointParameter |
string |
O nome do parâmetro transmitido nas consultas de pesquisa para especificar a localização de referência. |
EdgeNGramTokenFilter
Gera n-gramas do(s) tamanho(s) especificado(s) a partir da parte frontal ou traseira de um token de entrada. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
maxGram |
integer |
2 |
O comprimento máximo de n-gramas. A predefinição é 2. |
minGram |
integer |
1 |
O comprimento mínimo de n-gramas. A predefinição é 1. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
side | front |
Especifica a partir do lado da entrada a partir da qual o n-grama deve ser gerado. A predefinição é "front". |
EdgeNGramTokenFilterSide
Especifica a partir de que lado da entrada deve ser gerado um n-grama.
Name | Tipo | Description |
---|---|---|
back |
string |
Especifica que o n-gram deve ser gerado a partir da parte de trás da entrada. |
front |
string |
Especifica que o n-gram deve ser gerado a partir da parte frontal da entrada. |
EdgeNGramTokenFilterV2
Gera n-gramas dos tamanhos especificados a partir da frente ou na parte traseira de um token de entrada. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
maxGram |
integer |
2 |
O comprimento máximo de n gramas. A predefinição é 2. O máximo é 300. |
minGram |
integer |
1 |
O comprimento mínimo de n gramas. A predefinição é 1. O máximo é 300. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
side | front |
Especifica a partir do lado da entrada a partir da qual o n-grama deve ser gerado. A predefinição é "front". |
EdgeNGramTokenizer
Tokeniza a entrada de uma extremidade em n-gramas dos tamanhos especificados. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxGram |
integer |
2 |
O comprimento máximo de n gramas. A predefinição é 2. O máximo é 300. |
minGram |
integer |
1 |
O comprimento mínimo de n gramas. A predefinição é 1. O máximo é 300. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
tokenChars |
Classes de carateres a manter nos tokens. |
ElisionTokenFilter
Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (plano). Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
articles |
string[] |
O conjunto de artigos a remover. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
ExhaustiveKnnParameters
Contém os parâmetros específicos do algoritmo KNN exaustivo.
Name | Tipo | Description |
---|---|---|
metric |
A métrica de semelhança a utilizar para comparações de vetores. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Contém opções de configuração específicas do algoritmo KNN exaustivo utilizado durante a consulta, o que irá realizar uma pesquisa de força bruta em todo o índice de vetor.
Name | Tipo | Description |
---|---|---|
exhaustiveKnnParameters |
Contém os parâmetros específicos do algoritmo KNN exaustivo. |
|
kind |
string:
exhaustive |
O nome do tipo de algoritmo que está a ser configurado para utilização com a pesquisa de vetores. |
name |
string |
O nome a associar a esta configuração específica. |
FreshnessScoringFunction
Define uma função que aumenta as pontuações com base no valor de um campo de data/hora.
Name | Tipo | Description |
---|---|---|
boost |
number |
Um multiplicador para a classificação não processada. Tem de ser um número positivo que não seja igual a 1,0. |
fieldName |
string |
O nome do campo utilizado como entrada para a função de classificação. |
freshness |
Valores de parâmetros para a função de classificação de frescura. |
|
interpolation |
Um valor que indica como o aumento será interpolado entre as pontuações dos documentos; a predefinição é "Linear". |
|
type |
string:
freshness |
Indica o tipo de função a utilizar. Os valores válidos incluem magnitude, frescura, distância e etiqueta. O tipo de função tem de ser minúscula. |
FreshnessScoringParameters
Fornece valores de parâmetros para uma função de classificação de frescura.
Name | Tipo | Description |
---|---|---|
boostingDuration |
string |
O período de expiração após o qual o aumento irá parar para um documento específico. |
HnswParameters
Contém os parâmetros específicos do algoritmo HNSW.
Name | Tipo | Default value | Description |
---|---|---|---|
efConstruction |
integer |
400 |
O tamanho da lista dinâmica que contém os vizinhos mais próximos, que é utilizado durante o tempo de índice. Aumentar este parâmetro pode melhorar a qualidade do índice, em detrimento do aumento do tempo de indexação. A determinada altura, aumentar este parâmetro leva a uma diminuição dos retornos. |
efSearch |
integer |
500 |
O tamanho da lista dinâmica que contém os vizinhos mais próximos, que é utilizado durante o tempo de pesquisa. Aumentar este parâmetro pode melhorar os resultados da pesquisa, em detrimento de uma pesquisa mais lenta. A determinada altura, aumentar este parâmetro leva a uma diminuição dos retornos. |
m |
integer |
4 |
O número de ligações bidirecionais criadas para cada novo elemento durante a construção. Aumentar este valor de parâmetro pode melhorar a recuperação e reduzir os tempos de obtenção dos conjuntos de dados com elevada dimensionalidade intrínseca em detrimento do aumento do consumo de memória e do tempo de indexação mais longo. |
metric |
A métrica de semelhança a utilizar para comparações de vetores. |
HnswVectorSearchAlgorithmConfiguration
Contém opções de configuração específicas do algoritmo HNSW aproximado dos vizinhos mais próximos utilizado durante a indexação e consulta. O algoritmo HNSW oferece uma troca atumável entre a velocidade de pesquisa e a precisão.
Name | Tipo | Description |
---|---|---|
hnswParameters |
Contém os parâmetros específicos do algoritmo HNSW. |
|
kind |
string:
hnsw |
O nome do tipo de algoritmo que está a ser configurado para utilização com a pesquisa de vetores. |
name |
string |
O nome a associar a esta configuração específica. |
KeepTokenFilter
Um filtro de token que apenas mantém tokens com texto contido numa lista especificada de palavras. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
keepWords |
string[] |
A lista de palavras a manter. |
|
keepWordsCase |
boolean |
False |
Um valor que indica se deve reduzir as maiúsculas e minúsculas de todas as palavras primeiro. A predefinição é falso. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
KeywordMarkerTokenFilter
Marca os termos como palavras-chave. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
ignoreCase |
boolean |
False |
Um valor que indica se deve ignorar maiúsculas e minúsculas. Se for verdade, todas as palavras são convertidas em minúsculas primeiro. A predefinição é falso. |
keywords |
string[] |
Uma lista de palavras para marcar como palavras-chave. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
KeywordTokenizer
Emite toda a entrada como um único token. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
bufferSize |
integer |
256 |
O tamanho da memória intermédia de leitura em bytes. A predefinição é 256. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
KeywordTokenizerV2
Emite toda a entrada como um único token. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxTokenLength |
integer |
256 |
O comprimento máximo do token. A predefinição é 256. Os tokens com mais comprimento do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
LengthTokenFilter
Remove palavras demasiado longas ou demasiado curtas. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
max |
integer |
300 |
O comprimento máximo em carateres. Predefinição e máximo é 300. |
min |
integer |
0 |
O comprimento mínimo em carateres. A predefinição é 0. O máximo é 300. Tem de ser inferior ao valor máximo. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
LexicalAnalyzerName
Define os nomes de todos os analisadores de texto suportados pelo motor de busca.
Name | Tipo | Description |
---|---|---|
ar.lucene |
string |
Lucene analyzer para árabe. |
ar.microsoft |
string |
Analisador da Microsoft para árabe. |
bg.lucene |
string |
Analisador lucene para búlgaro. |
bg.microsoft |
string |
Analisador da Microsoft para búlgaro. |
bn.microsoft |
string |
Analisador da Microsoft para Bangla. |
ca.lucene |
string |
Lucene analyzer para catalão. |
ca.microsoft |
string |
Analisador da Microsoft para catalão. |
cs.lucene |
string |
Analisador lucene para checo. |
cs.microsoft |
string |
Analisador da Microsoft para checo. |
da.lucene |
string |
Analisador lucene para dinamarquês. |
da.microsoft |
string |
Analisador da Microsoft para dinamarquês. |
de.lucene |
string |
Lucene analyzer para alemão. |
de.microsoft |
string |
Analisador da Microsoft para alemão. |
el.lucene |
string |
Lucene analyzer para grego. |
el.microsoft |
string |
Analisador da Microsoft para grego. |
en.lucene |
string |
Lucene analyzer para inglês. |
en.microsoft |
string |
Analisador da Microsoft para inglês. |
es.lucene |
string |
Analisador lucene para espanhol. |
es.microsoft |
string |
Analisador da Microsoft para espanhol. |
et.microsoft |
string |
Analisador da Microsoft para estónio. |
eu.lucene |
string |
Analisador lucene para basco. |
fa.lucene |
string |
Analisador lucene para persa. |
fi.lucene |
string |
Analisador lucene para finlandês. |
fi.microsoft |
string |
Analisador da Microsoft para finlandês. |
fr.lucene |
string |
Analisador lucene para francês. |
fr.microsoft |
string |
Analisador da Microsoft para francês. |
ga.lucene |
string |
Lucene analyzer para irlandês. |
gl.lucene |
string |
Analisador lucene para galego. |
gu.microsoft |
string |
Analisador da Microsoft para o Gujarati. |
he.microsoft |
string |
Analisador da Microsoft para hebraico. |
hi.lucene |
string |
Lucene analyzer para Hindi. |
hi.microsoft |
string |
Analisador da Microsoft para Hindi. |
hr.microsoft |
string |
Analisador da Microsoft para croata. |
hu.lucene |
string |
Lucene analyzer para húngaro. |
hu.microsoft |
string |
Analisador da Microsoft para húngaro. |
hy.lucene |
string |
Analisador lucene para arménio. |
id.lucene |
string |
Analisador lucene para indonésio. |
id.microsoft |
string |
Analisador da Microsoft para indonésio (Bahasa). |
is.microsoft |
string |
Analisador da Microsoft para islandês. |
it.lucene |
string |
Lucene analyzer para italiano. |
it.microsoft |
string |
Analisador da Microsoft para italiano. |
ja.lucene |
string |
Analisador lucene para japonês. |
ja.microsoft |
string |
Analisador da Microsoft para japonês. |
keyword |
string |
Trata todo o conteúdo de um campo como um token único. Isto é útil para dados como códigos postais, IDs e alguns nomes de produtos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Analisador da Microsoft para Kannada. |
ko.lucene |
string |
Lucene analyzer para coreano. |
ko.microsoft |
string |
Analisador da Microsoft para coreano. |
lt.microsoft |
string |
Analisador da Microsoft para lituano. |
lv.lucene |
string |
Lucene analyzer para letão. |
lv.microsoft |
string |
Analisador da Microsoft para letão. |
ml.microsoft |
string |
Analisador da Microsoft para Malayalam. |
mr.microsoft |
string |
Analisador da Microsoft para Marathi. |
ms.microsoft |
string |
Analisador da Microsoft para Malaio (Latim). |
nb.microsoft |
string |
Analisador da Microsoft para norueguês (Bokmål). |
nl.lucene |
string |
Lucene analyzer para neerlandês. |
nl.microsoft |
string |
Analisador da Microsoft para neerlandês. |
no.lucene |
string |
Lucene analyzer para norueguês. |
pa.microsoft |
string |
Analisador da Microsoft para Punjabi. |
pattern |
string |
Separa de forma flexível o texto em termos através de um padrão de expressão regular. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Lucene analyzer para polaco. |
pl.microsoft |
string |
Analisador da Microsoft para polaco. |
pt-BR.lucene |
string |
Analisador lucene para português (Brasil). |
pt-BR.microsoft |
string |
Analisador da Microsoft para português (Brasil). |
pt-PT.lucene |
string |
Analisador lucene para português (Portugal). |
pt-PT.microsoft |
string |
Analisador da Microsoft para português (Portugal). |
ro.lucene |
string |
Lucene analyzer para romeno. |
ro.microsoft |
string |
Analisador da Microsoft para romeno. |
ru.lucene |
string |
Analisador lucene para russo. |
ru.microsoft |
string |
Analisador da Microsoft para russo. |
simple |
string |
Divide o texto em não letras e converte-o em minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Analisador da Microsoft para eslovaco. |
sl.microsoft |
string |
Analisador da Microsoft para esloveno. |
sr-cyrillic.microsoft |
string |
Analisador da Microsoft para sérvio (cirílico). |
sr-latin.microsoft |
string |
Analisador da Microsoft para sérvio (latim). |
standard.lucene |
string |
Analisador Lucene Padrão. |
standardasciifolding.lucene |
string |
Analisador Lucene de Dobragem ASCII Padrão. Veja https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Divide o texto em não letras; Aplica os filtros de token em minúsculas e de palavra-passe. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Lucene analyzer para sueco. |
sv.microsoft |
string |
Analisador da Microsoft para sueco. |
ta.microsoft |
string |
Analisador da Microsoft para Tamil. |
te.microsoft |
string |
Microsoft Analyzer para Telugu. |
th.lucene |
string |
Lucene analyzer para tailandês. |
th.microsoft |
string |
Analisador da Microsoft para tailandês. |
tr.lucene |
string |
Analisador lucene para turco. |
tr.microsoft |
string |
Analisador da Microsoft para turco. |
uk.microsoft |
string |
Analisador da Microsoft para ucraniano. |
ur.microsoft |
string |
Microsoft Analyzer para Urdu. |
vi.microsoft |
string |
Analisador da Microsoft para vietnamita. |
whitespace |
string |
Um analisador que utiliza o tokenizer de espaço em branco. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Analisador lucene para chinês (simplificado). |
zh-Hans.microsoft |
string |
Analisador da Microsoft para chinês (simplificado). |
zh-Hant.lucene |
string |
Analisador lucene para chinês (tradicional). |
zh-Hant.microsoft |
string |
Analisador da Microsoft para chinês (tradicional). |
LexicalNormalizerName
Define os nomes de todos os normalizadores de texto suportados pelo motor de busca.
Name | Tipo | Description |
---|---|---|
asciifolding |
string |
Converte carateres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 carateres ASCII (o bloco Unicode "Latim Básico") nos respetivos equivalentes ASCII, se existirem esses equivalentes. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
elision |
string |
Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (plano). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
lowercase |
string |
Normaliza o texto do token para minúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
standard |
string |
Normalizador padrão, que consiste em minúsculas e asciifolding. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
uppercase |
string |
Normaliza o texto do token em maiúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
Define os nomes de todos os tokenizers suportados pelo motor de busca.
LimitTokenFilter
Limita o número de tokens durante a indexação. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
consumeAllTokens |
boolean |
False |
Um valor que indica se todos os tokens da entrada têm de ser consumidos mesmo que maxTokenCount seja atingido. A predefinição é falso. |
maxTokenCount |
integer |
1 |
O número máximo de tokens a produzir. A predefinição é 1. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
LuceneStandardAnalyzer
Analisador Padrão do Apache Lucene; Composto pelo tokenizador padrão, filtro em minúsculas e filtro de paragem.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de analisador. |
|
maxTokenLength |
integer |
255 |
O comprimento máximo do token. A predefinição é 255. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. |
name |
string |
O nome do analisador. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
stopwords |
string[] |
Uma lista de palavras-passe. |
LuceneStandardTokenizer
Quebra o texto ao seguir as regras de Segmentação de Texto Unicode. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxTokenLength |
integer |
255 |
O comprimento máximo do token. A predefinição é 255. Os tokens com mais tempo do que o comprimento máximo são divididos. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
LuceneStandardTokenizerV2
Quebra o texto ao seguir as regras de Segmentação de Texto Unicode. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxTokenLength |
integer |
255 |
O comprimento máximo do token. A predefinição é 255. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
MagnitudeScoringFunction
Define uma função que aumenta as pontuações com base na magnitude de um campo numérico.
Name | Tipo | Description |
---|---|---|
boost |
number |
Um multiplicador para a classificação não processada. Tem de ser um número positivo que não seja igual a 1,0. |
fieldName |
string |
O nome do campo utilizado como entrada para a função de classificação. |
interpolation |
Um valor que indica como o aumento será interpolado entre as pontuações dos documentos; a predefinição é "Linear". |
|
magnitude |
Valores de parâmetros para a função de classificação de magnitude. |
|
type |
string:
magnitude |
Indica o tipo de função a utilizar. Os valores válidos incluem magnitude, frescura, distância e etiqueta. O tipo de função tem de ser minúscula. |
MagnitudeScoringParameters
Fornece valores de parâmetros para uma função de classificação de magnitude.
Name | Tipo | Description |
---|---|---|
boostingRangeEnd |
number |
O valor do campo em que o aumento termina. |
boostingRangeStart |
number |
O valor do campo em que o aumento é iniciado. |
constantBoostBeyondRange |
boolean |
Um valor que indica se deve aplicar um aumento constante para valores de campo para além do valor final do intervalo; predefinição é falso. |
MappingCharFilter
Um filtro de carateres que aplica mapeamentos definidos com a opção mapeamentos. A correspondência é gananciosa (o padrão mais longo que corresponde a um determinado ponto ganha). A substituição pode ser a cadeia vazia. Este filtro de carateres é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de caráter. |
mappings |
string[] |
Uma lista de mapeamentos do seguinte formato: "a=>b" (todas as ocorrências do caráter "a" serão substituídas pelo caráter "b"). |
name |
string |
O nome do filtro char. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
MicrosoftLanguageStemmingTokenizer
Divide o texto com regras específicas do idioma e reduz as palavras aos formulários base.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
isSearchTokenizer |
boolean |
False |
Um valor que indica como o tokenizer é utilizado. Defina como verdadeiro se for utilizado como tokenizador de pesquisa, defina como falso se for utilizado como o tokenizador de indexação. A predefinição é falso. |
language |
O idioma a utilizar. A predefinição é inglês. |
||
maxTokenLength |
integer |
255 |
O comprimento máximo do token. Os tokens com mais comprimento do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. Os tokens com mais de 300 carateres são divididos em tokens de comprimento 300 e, em seguida, cada um desses tokens é dividido com base no conjunto de comprimento máximo do token. A predefinição é 255. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
MicrosoftLanguageTokenizer
Divide o texto com regras específicas do idioma.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
isSearchTokenizer |
boolean |
False |
Um valor que indica como o tokenizer é utilizado. Defina como verdadeiro se for utilizado como tokenizador de pesquisa, defina como falso se for utilizado como o tokenizador de indexação. A predefinição é falso. |
language |
O idioma a utilizar. A predefinição é inglês. |
||
maxTokenLength |
integer |
255 |
O comprimento máximo do token. Os tokens com mais comprimento do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. Os tokens com mais de 300 carateres são divididos em tokens de comprimento 300 e, em seguida, cada um desses tokens é dividido com base no conjunto de comprimento máximo do token. A predefinição é 255. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
MicrosoftStemmingTokenizerLanguage
Listas os idiomas suportados pelo tokenizer de idioma da Microsoft.
Name | Tipo | Description |
---|---|---|
arabic |
string |
Seleciona o tokenizer Decorrido da Microsoft para árabe. |
bangla |
string |
Seleciona o tokenizer Decorrido da Microsoft para Bangla. |
bulgarian |
string |
Seleciona o tokenizer Decorrido pela Microsoft para búlgaro. |
catalan |
string |
Seleciona o tokenizer Decorrido pela Microsoft para catalão. |
croatian |
string |
Seleciona o tokenizer Decorrido pela Microsoft para croata. |
czech |
string |
Seleciona o tokenizer de retenção da Microsoft para checo. |
danish |
string |
Seleciona o tokenizador Decorrido da Microsoft para dinamarquês. |
dutch |
string |
Seleciona o tokenizer Decorrido pela Microsoft para neerlandês. |
english |
string |
Seleciona o tokenizer Decorrido da Microsoft para inglês. |
estonian |
string |
Seleciona o tokenizador de deteção da Microsoft para estónio. |
finnish |
string |
Seleciona o tokenizador de deteção da Microsoft para finlandês. |
french |
string |
Seleciona o tokenizador Decorrido da Microsoft para francês. |
german |
string |
Seleciona o tokenizer Decorrido pela Microsoft para alemão. |
greek |
string |
Seleciona o tokenizer Decorrido pela Microsoft para grego. |
gujarati |
string |
Seleciona o tokenizer Decorrido pela Microsoft para o Gudoso. |
hebrew |
string |
Seleciona o tokenizador de decorrido da Microsoft para hebraico. |
hindi |
string |
Seleciona o tokenizer Decorrido pela Microsoft para Hindi. |
hungarian |
string |
Seleciona o tokenizador de deteção da Microsoft para húngaro. |
icelandic |
string |
Seleciona o tokenizer Decorrido pela Microsoft para islandês. |
indonesian |
string |
Seleciona o tokenizador de deteção da Microsoft para indonésio. |
italian |
string |
Seleciona o tokenizador de decorrido da Microsoft para italiano. |
kannada |
string |
Seleciona o tokenizer Decorrido da Microsoft para Kannada. |
latvian |
string |
Seleciona o tokenizer de retenção da Microsoft para letão. |
lithuanian |
string |
Seleciona o tokenizer Decorrido pela Microsoft para lituano. |
malay |
string |
Seleciona o tokenizer Decorrido pela Microsoft para Malaio. |
malayalam |
string |
Seleciona o tokenizer Decorrido da Microsoft para Malayalam. |
marathi |
string |
Seleciona o tokenizer Decorrido da Microsoft para o Marathi. |
norwegianBokmaal |
string |
Seleciona o tokenizer Decorrido da Microsoft para norueguês (Bokmål). |
polish |
string |
Seleciona o tokenizer Decorrido da Microsoft para polaco. |
portuguese |
string |
Seleciona o tokenizador Decorrido da Microsoft para português. |
portugueseBrazilian |
string |
Seleciona o tokenizador Decorrido da Microsoft para português (Brasil). |
punjabi |
string |
Seleciona o tokenizer Decorrido da Microsoft para Punjabi. |
romanian |
string |
Seleciona o tokenizador de deteção da Microsoft para romeno. |
russian |
string |
Seleciona o tokenizador de deteção da Microsoft para russo. |
serbianCyrillic |
string |
Seleciona o tokenizador de deteção da Microsoft para sérvio (cirílico). |
serbianLatin |
string |
Seleciona o tokenizador de deteção da Microsoft para sérvio (latim). |
slovak |
string |
Seleciona o tokenizer de deteção da Microsoft para eslovaco. |
slovenian |
string |
Seleciona o tokenizador de deteção da Microsoft para esloveno. |
spanish |
string |
Seleciona o tokenizador de deteção da Microsoft para espanhol. |
swedish |
string |
Seleciona o tokenizador de deteção da Microsoft para sueco. |
tamil |
string |
Seleciona o tokenizador de deteção da Microsoft para Tamil. |
telugu |
string |
Seleciona o tokenizador de deteção da Microsoft para Telugu. |
turkish |
string |
Seleciona o tokenizador de deteção da Microsoft para turco. |
ukrainian |
string |
Seleciona o tokenizador de deteção da Microsoft para ucraniano. |
urdu |
string |
Seleciona o tokenizador de deteção da Microsoft para Urdu. |
MicrosoftTokenizerLanguage
Listas os idiomas suportados pelo tokenizer de idioma da Microsoft.
Name | Tipo | Description |
---|---|---|
bangla |
string |
Seleciona o tokenizer da Microsoft para Bangla. |
bulgarian |
string |
Seleciona o tokenizer da Microsoft para búlgaro. |
catalan |
string |
Seleciona o tokenizer da Microsoft para catalão. |
chineseSimplified |
string |
Seleciona o tokenizer da Microsoft para chinês (Simplificado). |
chineseTraditional |
string |
Seleciona o tokenizer da Microsoft para chinês (tradicional). |
croatian |
string |
Seleciona o tokenizer da Microsoft para croata. |
czech |
string |
Seleciona o tokenizer da Microsoft para checo. |
danish |
string |
Seleciona o tokenizer da Microsoft para dinamarquês. |
dutch |
string |
Seleciona o tokenizer da Microsoft para neerlandês. |
english |
string |
Seleciona o tokenizer da Microsoft para inglês. |
french |
string |
Seleciona o tokenizer da Microsoft para francês. |
german |
string |
Seleciona o tokenizer da Microsoft para alemão. |
greek |
string |
Seleciona o tokenizer da Microsoft para grego. |
gujarati |
string |
Seleciona o tokenizer da Microsoft para o Gujarati. |
hindi |
string |
Seleciona o tokenizer da Microsoft para Hindi. |
icelandic |
string |
Seleciona o tokenizer da Microsoft para islandês. |
indonesian |
string |
Seleciona o tokenizer da Microsoft para indonésio. |
italian |
string |
Seleciona o tokenizer da Microsoft para italiano. |
japanese |
string |
Seleciona o tokenizer da Microsoft para japonês. |
kannada |
string |
Seleciona o tokenizer da Microsoft para Kannada. |
korean |
string |
Seleciona o tokenizer da Microsoft para coreano. |
malay |
string |
Seleciona o tokenizer da Microsoft para Malaio. |
malayalam |
string |
Seleciona o tokenizer da Microsoft para Malayalam. |
marathi |
string |
Seleciona o tokenizer da Microsoft para Marathi. |
norwegianBokmaal |
string |
Seleciona o tokenizer da Microsoft para norueguês (Bokmål). |
polish |
string |
Seleciona o tokenizer da Microsoft para polaco. |
portuguese |
string |
Seleciona o tokenizer da Microsoft para português. |
portugueseBrazilian |
string |
Seleciona o tokenizer da Microsoft para português (Brasil). |
punjabi |
string |
Seleciona o tokenizer da Microsoft para Punjabi. |
romanian |
string |
Seleciona o tokenizer da Microsoft para romeno. |
russian |
string |
Seleciona o tokenizer da Microsoft para russo. |
serbianCyrillic |
string |
Seleciona o tokenizer da Microsoft para sérvio (cirílico). |
serbianLatin |
string |
Seleciona o tokenizer da Microsoft para sérvio (latim). |
slovenian |
string |
Seleciona o tokenizer da Microsoft para esloveno. |
spanish |
string |
Seleciona o tokenizer da Microsoft para espanhol. |
swedish |
string |
Seleciona o tokenizer da Microsoft para sueco. |
tamil |
string |
Seleciona o tokenizer da Microsoft para Tamil. |
telugu |
string |
Seleciona o tokenizer da Microsoft para Telugu. |
thai |
string |
Seleciona o tokenizer da Microsoft para tailandês. |
ukrainian |
string |
Seleciona o tokenizer da Microsoft para ucraniano. |
urdu |
string |
Seleciona o tokenizer da Microsoft para Urdu. |
vietnamese |
string |
Seleciona o tokenizer da Microsoft para vietnamitas. |
NGramTokenFilter
Gera n-gramas dos tamanhos especificados. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
maxGram |
integer |
2 |
O comprimento máximo de n gramas. A predefinição é 2. |
minGram |
integer |
1 |
O comprimento mínimo de n gramas. A predefinição é 1. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
NGramTokenFilterV2
Gera n-gramas dos tamanhos especificados. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
maxGram |
integer |
2 |
O comprimento máximo de n gramas. A predefinição é 2. O máximo é 300. |
minGram |
integer |
1 |
O comprimento mínimo de n gramas. A predefinição é 1. O máximo é 300. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
NGramTokenizer
Tokeniza a entrada em n-gramas dos tamanhos especificados. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxGram |
integer |
2 |
O comprimento máximo de n gramas. A predefinição é 2. O máximo é 300. |
minGram |
integer |
1 |
O comprimento mínimo de n gramas. A predefinição é 1. O máximo é 300. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
tokenChars |
Classes de carateres a manter nos tokens. |
PathHierarchyTokenizerV2
Tokenizer para hierarquias semelhantes a caminhos. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
delimiter |
string |
/ |
O caráter delimitador a utilizar. A predefinição é "/". |
maxTokenLength |
integer |
300 |
O comprimento máximo do token. Predefinição e máximo é 300. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
replacement |
string |
/ |
Um valor que, se definido, substitui o caráter delimitador. A predefinição é "/". |
reverse |
boolean |
False |
Um valor que indica se pretende gerar tokens por ordem inversa. A predefinição é falso. |
skip |
integer |
0 |
O número de tokens iniciais a ignorar. A predefinição é 0. |
PatternAnalyzer
Separa de forma flexível o texto em termos através de um padrão de expressão regular. Este analisador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de analisador. |
|
flags |
Sinalizadores de expressão regulares. |
||
lowercase |
boolean |
True |
Um valor que indica se os termos devem ser minúsculos. A predefinição é verdadeiro. |
name |
string |
O nome do analisador. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
pattern |
string |
\W+ |
Um padrão de expressão regular para corresponder aos separadores de tokens. A predefinição é uma expressão que corresponde a um ou mais carateres que não são palavras. |
stopwords |
string[] |
Uma lista de palavras-passe. |
PatternCaptureTokenFilter
Utiliza regexes Java para emitir vários tokens - um para cada grupo de captura num ou mais padrões. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
patterns |
string[] |
Uma lista de padrões que correspondem a cada token. |
|
preserveOriginal |
boolean |
True |
Um valor que indica se deve devolver o token original mesmo que um dos padrões corresponda. A predefinição é verdadeiro. |
PatternReplaceCharFilter
Um filtro de carateres que substitui carateres na cadeia de entrada. Utiliza uma expressão regular para identificar sequências de carateres para preservar e um padrão de substituição para identificar carateres a substituir. Por exemplo, dado o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Este filtro de carateres é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de caráter. |
name |
string |
O nome do filtro char. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
pattern |
string |
Um padrão de expressão normal. |
replacement |
string |
O texto de substituição. |
PatternReplaceTokenFilter
Um filtro de carateres que substitui carateres na cadeia de entrada. Utiliza uma expressão regular para identificar sequências de carateres para preservar e um padrão de substituição para identificar carateres a substituir. Por exemplo, dado o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
pattern |
string |
Um padrão de expressão normal. |
replacement |
string |
O texto de substituição. |
PatternTokenizer
Tokenizer que utiliza a correspondência de padrões regex para construir tokens distintos. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
flags |
Sinalizadores de expressão regulares. |
||
group |
integer |
-1 |
O ordinal baseado em zero do grupo correspondente no padrão de expressão regular para extrair em tokens. Utilize -1 se quiser utilizar todo o padrão para dividir a entrada em tokens, independentemente dos grupos correspondentes. A predefinição é -1. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
pattern |
string |
\W+ |
Um padrão de expressão regular para corresponder aos separadores de tokens. A predefinição é uma expressão que corresponde a um ou mais carateres que não são palavras. |
PhoneticEncoder
Identifica o tipo de codificador fonético a utilizar com um PhoneticTokenFilter.
Name | Tipo | Description |
---|---|---|
beiderMorse |
string |
Codifica um token num valor de Beider-Morse. |
caverphone1 |
string |
Codifica um token num valor Caverphone 1.0. |
caverphone2 |
string |
Codifica um token num valor Caverphone 2.0. |
cologne |
string |
Codifica um token num valor Fonético de Colónia. |
doubleMetaphone |
string |
Codifica um token num valor de metafone duplo. |
haasePhonetik |
string |
Codifica um token com o refinamento Haase do algoritmo Kölner Phonetik. |
koelnerPhonetik |
string |
Codifica um token com o algoritmo Kölner Phonetik. |
metaphone |
string |
Codifica um token num valor metafone. |
nysiis |
string |
Codifica um token num valor NYSIIS. |
refinedSoundex |
string |
Codifica um token num valor Soundex Refinado. |
soundex |
string |
Codifica um token num valor Soundex. |
PhoneticTokenFilter
Crie tokens para correspondências fonéticas. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
encoder | metaphone |
O codificador fonético a utilizar. A predefinição é "metafone". |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
replace |
boolean |
True |
Um valor que indica se os tokens codificados devem substituir os tokens originais. Se for falso, os tokens codificados são adicionados como sinónimos. A predefinição é verdadeiro. |
PrioritizedFields
Descreve os campos de título, conteúdo e palavras-chave a utilizar para classificação semântica, legendas, destaques e respostas.
Name | Tipo | Description |
---|---|---|
prioritizedContentFields |
Define os campos de conteúdo a utilizar para classificação semântica, legendas, destaques e respostas. Para obter o melhor resultado, os campos selecionados devem conter texto na forma de linguagem natural. A ordem dos campos na matriz representa a sua prioridade. Os campos com prioridade inferior podem ficar truncados se o conteúdo for longo. |
|
prioritizedKeywordsFields |
Define os campos de palavra-chave a utilizar para classificação semântica, legendas, destaques e respostas. Para obter o melhor resultado, os campos selecionados devem conter uma lista de palavras-chave. A ordem dos campos na matriz representa a sua prioridade. Os campos com prioridade inferior podem ficar truncados se o conteúdo for longo. |
|
titleField |
Define o campo de título a ser utilizado para classificação semântica, legendas, destaques e respostas. Se não tiver um campo de título no índice, deixe-o em branco. |
RegexFlags
Define sinalizadores que podem ser combinados para controlar a forma como as expressões regulares são utilizadas no analisador de padrões e no tokenizador de padrões.
Name | Tipo | Description |
---|---|---|
CANON_EQ |
string |
Permite equivalência canónica. |
CASE_INSENSITIVE |
string |
Ativa a correspondência não sensível a maiúsculas e minúsculas. |
COMMENTS |
string |
Permite espaços em branco e comentários no padrão. |
DOTALL |
string |
Ativa o modo de dotall. |
LITERAL |
string |
Permite a análise literal do padrão. |
MULTILINE |
string |
Ativa o modo de várias linhas. |
UNICODE_CASE |
string |
Ativa a dobragem de casos com deteção unicode. |
UNIX_LINES |
string |
Ativa o modo de linhas Unix. |
ScoringFunctionAggregation
Define a função de agregação utilizada para combinar os resultados de todas as funções de classificação num perfil de classificação.
Name | Tipo | Description |
---|---|---|
average |
string |
Aumentar as pontuações pela média de todos os resultados da função de classificação. |
firstMatching |
string |
Aumente as pontuações com a primeira função de classificação aplicável no perfil de classificação. |
maximum |
string |
Aumente as pontuações no máximo de todos os resultados da função de classificação. |
minimum |
string |
Aumentar as pontuações pelo mínimo de todos os resultados da função de classificação. |
sum |
string |
Aumente as pontuações pela soma de todos os resultados da função de classificação. |
ScoringFunctionInterpolation
Define a função utilizada para interpolar o aumento de pontuação num intervalo de documentos.
Name | Tipo | Description |
---|---|---|
constant |
string |
Aumenta as pontuações por um fator constante. |
linear |
string |
Aumenta as pontuações por uma quantidade linearmente decrescente. Esta é a interpolação predefinida para funções de classificação. |
logarithmic |
string |
Aumenta as pontuações por uma quantidade que diminui logaritmoticamente. Aumenta a diminuição rapidamente para pontuações mais altas e mais lentamente à medida que as pontuações diminuem. Esta opção de interpolação não é permitida nas funções de classificação de etiquetas. |
quadratic |
string |
Aumenta as pontuações em uma quantidade que diminui quadráticamente. Os aumentos diminuem lentamente para pontuações mais altas e mais rapidamente à medida que as pontuações diminuem. Esta opção de interpolação não é permitida nas funções de classificação de etiquetas. |
ScoringProfile
Define parâmetros para um índice de pesquisa que influencia a classificação em consultas de pesquisa.
Name | Tipo | Description |
---|---|---|
functionAggregation |
Um valor que indica como os resultados das funções de classificação individuais devem ser combinados. A predefinição é "Soma". Ignorado se não existirem funções de classificação. |
|
functions | ScoringFunction[]: |
A coleção de funções que influenciam a classificação de documentos. |
name |
string |
O nome do perfil de classificação. |
text |
Parâmetros que aumentam a classificação com base em correspondências de texto em determinados campos de índice. |
SearchError
Descreve uma condição de erro para a API.
Name | Tipo | Description |
---|---|---|
code |
string |
Um dos conjuntos de códigos de erro definidos pelo servidor. |
details |
Uma série de detalhes sobre erros específicos que levaram a este erro comunicado. |
|
message |
string |
Uma representação legível por humanos do erro. |
SearchField
Representa um campo numa definição de índice, que descreve o nome, o tipo de dados e o comportamento de pesquisa de um campo.
Name | Tipo | Description |
---|---|---|
analyzer |
O nome do analisador a utilizar para o campo. Esta opção só pode ser utilizada com campos pesquisáveis e não pode ser definida em conjunto com searchAnalyzer ou indexAnalyzer. Depois de o analisador ser escolhido, não pode ser alterado para o campo. Tem de ser nulo para campos complexos. |
|
dimensions |
integer |
A dimensionalidade do campo de vetor. |
facetable |
boolean |
Um valor que indica se o campo deve ser referenciado em consultas de facetas. Normalmente utilizado numa apresentação de resultados de pesquisa que inclui a contagem de resultados por categoria (por exemplo, procure câmaras digitais e veja acessos por marca, por megapixéis, por preço, etc.). Esta propriedade tem de ser nula para campos complexos. Os campos do tipo Edm.GeographyPoint ou Collection(Edm.GeographyPoint) não podem ser facetáveis. A predefinição é verdadeira para todos os outros campos simples. |
fields |
Uma lista de subdomínios se este for um campo do tipo Edm.ComplexType ou Collection(Edm.ComplexType). Tem de ser nulo ou estar vazio para campos simples. |
|
filterable |
boolean |
Um valor que indica se o campo deve ser referenciado em consultas $filter. filtráveis difere do pesquisável na forma como as cadeias são processadas. Os campos do tipo Edm.String ou Collection(Edm.String) que são filtráveis não são submetidos a quebras de palavras, pelo que as comparações destinam-se apenas a correspondências exatas. Por exemplo, se definir tal campo f como "dia ensolarado", $filter=f eq "ensolarado" não encontrará correspondências, mas $filter=f eq "dia ensolarado" irá. Esta propriedade tem de ser nula para campos complexos. A predefinição é verdadeira para campos simples e nulo para campos complexos. |
indexAnalyzer |
O nome do analisador utilizado no momento da indexação do campo. Esta opção só pode ser utilizada com campos pesquisáveis. Tem de ser definido em conjunto com searchAnalyzer e não pode ser definido em conjunto com a opção analisador. Esta propriedade não pode ser definida como o nome de um analisador de idiomas; utilize a propriedade analyzer se precisar de um analisador de idiomas. Depois de o analisador ser escolhido, não pode ser alterado para o campo. Tem de ser nulo para campos complexos. |
|
key |
boolean |
Um valor que indica se o campo identifica exclusivamente documentos no índice. Exatamente um campo de nível superior em cada índice tem de ser escolhido como o campo de chave e tem de ser do tipo Edm.String. Os campos de chave podem ser utilizados para procurar documentos diretamente e atualizar ou eliminar documentos específicos. A predefinição é falso para campos simples e nulo para campos complexos. |
name |
string |
O nome do campo, que tem de ser exclusivo na coleção de campos do campo principal ou índice. |
normalizer |
O nome do normalizador a utilizar para o campo. Esta opção só pode ser utilizada com campos com filtragem, ordenável ou facetável ativada. Uma vez escolhido o normalizador, não pode ser alterado para o campo. Tem de ser nulo para campos complexos. |
|
retrievable |
boolean |
Um valor que indica se o campo pode ser devolvido num resultado de pesquisa. Pode desativar esta opção se quiser utilizar um campo (por exemplo, margem) como um filtro, ordenação ou mecanismo de classificação, mas não quiser que o campo seja visível para o utilizador final. Esta propriedade tem de ser verdadeira para campos de chave e tem de ser nula para campos complexos. Esta propriedade pode ser alterada em campos existentes. Ativar esta propriedade não causa qualquer aumento nos requisitos de armazenamento de índices. A predefinição é verdadeira para campos simples e nulo para campos complexos. |
searchAnalyzer |
O nome do analisador utilizado no momento da pesquisa do campo. Esta opção só pode ser utilizada com campos pesquisáveis. Tem de ser definido em conjunto com o indexAnalyzer e não pode ser definido em conjunto com a opção analisador. Esta propriedade não pode ser definida como o nome de um analisador de idiomas; utilize a propriedade analyzer se precisar de um analisador de idiomas. Este analisador pode ser atualizado num campo existente. Tem de ser nulo para campos complexos. |
|
searchable |
boolean |
Um valor que indica se o campo é pesquisável em texto completo. Isto significa que será submetido a uma análise, como quebra de palavras durante a indexação. Se definir um campo pesquisável para um valor como "sunny day", será dividido internamente nos tokens individuais "sunny" e "day". Isto permite pesquisas em texto completo para estes termos. Os campos do tipo Edm.String ou Collection(Edm.String) são pesquisáveis por predefinição. Esta propriedade tem de ser falsa para campos simples de outros tipos de dados sem cadeia e tem de ser nula para campos complexos. Nota: os campos pesquisáveis consomem espaço adicional no índice para acomodar versões token adicionais do valor do campo para pesquisas de texto completo. Se quiser poupar espaço no índice e não precisar que um campo seja incluído nas pesquisas, defina pesquisável como falso. |
sortable |
boolean |
Um valor que indica se o campo deve ser referenciado em expressões $orderby. Por predefinição, o motor de busca ordena os resultados por classificação, mas em muitas experiências os utilizadores vão querer ordenar por campos nos documentos. Um campo simples só pode ser ordenado se for de valor único (tem um único valor no âmbito do documento principal). Os campos de coleção simples não podem ser ordenados, uma vez que são de valores múltiplos. Os subdomissões simples de coleções complexas também têm valores múltiplos e, por conseguinte, não podem ser ordenados. Isto é verdade, quer se trate de um campo principal imediato, ou de um campo predecessor, que é a coleção complexa. Os campos complexos não podem ser ordenados e a propriedade ordenável tem de ser nula para esses campos. A predefinição para ordenável é verdadeira para campos simples de valor único, falso para campos simples de valores múltiplos e nulo para campos complexos. |
synonymMaps |
string[] |
Uma lista dos nomes dos mapas de sinónimos a associar a este campo. Esta opção só pode ser utilizada com campos pesquisáveis. Atualmente, só é suportado um mapa de sinónimos por campo. A atribuição de um mapa de sinónimos a um campo garante que os termos de consulta destinados a esse campo são expandidos no momento da consulta através das regras no mapa de sinónimos. Este atributo pode ser alterado em campos existentes. Tem de ser nulo ou uma coleção vazia para campos complexos. |
type |
O tipo de dados do campo. |
|
vectorSearchProfile |
string |
O nome do perfil de pesquisa de vetores que especifica o algoritmo e vetor a utilizar ao procurar no campo de vetor. |
SearchFieldDataType
Define o tipo de dados de um campo num índice de pesquisa.
Name | Tipo | Description |
---|---|---|
Edm.Boolean |
string |
Indica que um campo contém um valor booleano (verdadeiro ou falso). |
Edm.ComplexType |
string |
Indica que um campo contém um ou mais objetos complexos que, por sua vez, têm subdomissões de outros tipos. |
Edm.DateTimeOffset |
string |
Indica que um campo contém um valor de data/hora, incluindo informações de fuso horário. |
Edm.Double |
string |
Indica que um campo contém um número de vírgula flutuante de precisão dupla IEEE. |
Edm.GeographyPoint |
string |
Indica que um campo contém uma localização geográfica em termos de longitude e latitude. |
Edm.Int32 |
string |
Indica que um campo contém um número inteiro assinado de 32 bits. |
Edm.Int64 |
string |
Indica que um campo contém um número inteiro assinado de 64 bits. |
Edm.Single |
string |
Indica que um campo contém um número de vírgula flutuante de precisão única. Isto só é válido quando utilizado com Collection(Edm.Single). |
Edm.String |
string |
Indica que um campo contém uma cadeia. |
SearchIndex
Representa uma definição de índice de pesquisa, que descreve os campos e o comportamento de pesquisa de um índice.
Name | Tipo | Description |
---|---|---|
@odata.etag |
string |
A ETag do índice. |
analyzers | LexicalAnalyzer[]: |
Os analisadores do índice. |
charFilters | CharFilter[]: |
O caráter filtra para o índice. |
corsOptions |
Opções para controlar a Partilha de Recursos Transversais à Origem (CORS) para o índice. |
|
defaultScoringProfile |
string |
O nome do perfil de classificação a utilizar se não for especificado nenhum na consulta. Se esta propriedade não estiver definida e não for especificado nenhum perfil de classificação na consulta, será utilizada a classificação predefinida (tf-idf). |
encryptionKey |
Uma descrição de uma chave de encriptação que cria no Azure Key Vault. Esta chave é utilizada para fornecer um nível adicional de encriptação inativa para os seus dados quando quiser ter a garantia total de que ninguém, nem mesmo a Microsoft, pode desencriptar os seus dados. Depois de encriptar os seus dados, estes permanecerão sempre encriptados. O serviço de pesquisa irá ignorar as tentativas de definir esta propriedade como nula. Pode alterar esta propriedade conforme necessário se quiser rodar a chave de encriptação; Os seus dados não serão afetados. A encriptação com chaves geridas pelo cliente não está disponível para serviços de pesquisa gratuita e só está disponível para serviços pagos criados a partir de 1 de janeiro de 2019 ou depois de 1 de janeiro de 2019. |
|
fields |
Os campos do índice. |
|
name |
string |
O nome do índice. |
normalizers | LexicalNormalizer[]: |
Os normalizadores do índice. |
scoringProfiles |
Os perfis de classificação do índice. |
|
semantic |
Define parâmetros para um índice de pesquisa que influenciam as capacidades semânticas. |
|
similarity | Similarity: |
O tipo de algoritmo de semelhança a ser utilizado ao classificar e classificar os documentos correspondentes a uma consulta de pesquisa. O algoritmo de semelhança só pode ser definido no momento da criação do índice e não pode ser modificado em índices existentes. Se for nulo, é utilizado o algoritmo ClassicSimilarity. |
suggesters |
Os sugestores do índice. |
|
tokenFilters |
TokenFilter[]:
|
O token filtra o índice. |
tokenizers | LexicalTokenizer[]: |
Os tokenizers do índice. |
vectorSearch |
Contém opções de configuração relacionadas com a pesquisa de vetores. |
SearchIndexerDataNoneIdentity
Limpa a propriedade de identidade de uma origem de dados.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de identidade. |
SearchIndexerDataUserAssignedIdentity
Especifica a identidade de uma origem de dados a utilizar.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de identidade. |
userAssignedIdentity |
string |
O ID de recurso completamente qualificado do Azure de um utilizador atribuído identidade gerida normalmente no formulário "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" que deveria ter sido atribuído ao serviço de pesquisa. |
SearchResourceEncryptionKey
Uma chave de encriptação gerida pelo cliente no Azure Key Vault. As chaves que cria e gere podem ser utilizadas para encriptar ou desencriptar dados inativos, como índices e mapas de sinónimos.
Name | Tipo | Description |
---|---|---|
accessCredentials |
Credenciais opcionais do Azure Active Directory utilizadas para aceder ao seu Key Vault do Azure. Em vez disso, não é necessário utilizar a identidade gerida. |
|
identity | SearchIndexerDataIdentity: |
Uma identidade gerida explícita a utilizar para esta chave de encriptação. Se não for especificado e a propriedade de credenciais de acesso for nula, é utilizada a identidade gerida atribuída pelo sistema. Ao atualizar para o recurso, se a identidade explícita não for especificada, permanecerá inalterada. Se "nenhum" for especificado, o valor desta propriedade é limpo. |
keyVaultKeyName |
string |
O nome da chave de Key Vault do Azure a ser utilizada para encriptar os seus dados inativos. |
keyVaultKeyVersion |
string |
A versão da chave de Key Vault do Azure a ser utilizada para encriptar os seus dados inativos. |
keyVaultUri |
string |
O URI do seu Key Vault do Azure, também conhecido como nome DNS, que contém a chave a ser utilizada para encriptar os seus dados inativos. Um URI de exemplo pode ser |
SemanticConfiguration
Define uma configuração específica a ser utilizada no contexto de capacidades semânticas.
Name | Tipo | Description |
---|---|---|
name |
string |
O nome da configuração semântica. |
prioritizedFields |
Descreve os campos de título, conteúdo e palavra-chave a utilizar para classificação semântica, legendas, destaques e respostas. Pelo menos uma das três sub propriedades (titleField, prioritizedKeywordsFields e prioritizedContentFields) tem de ser definida. |
SemanticField
Um campo que é utilizado como parte da configuração semântica.
Name | Tipo | Description |
---|---|---|
fieldName |
string |
SemanticSettings
Define parâmetros para um índice de pesquisa que influenciam as capacidades semânticas.
Name | Tipo | Description |
---|---|---|
configurations |
As configurações semânticas do índice. |
|
defaultConfiguration |
string |
Permite-lhe definir o nome de uma configuração semântica predefinida no seu índice, tornando-o opcional para transmiti-lo sempre como um parâmetro de consulta. |
ShingleTokenFilter
Cria combinações de tokens como um único token. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
filterToken |
string |
_ |
A cadeia a inserir para cada posição na qual não existe nenhum token. A predefinição é um caráter de sublinhado ("_"). |
maxShingleSize |
integer |
2 |
O tamanho máximo da telha. O valor predefinido e mínimo é 2. |
minShingleSize |
integer |
2 |
O tamanho mínimo da telha. O valor predefinido e mínimo é 2. Tem de ser inferior ao valor de maxShingleSize. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
outputUnigrams |
boolean |
True |
Um valor que indica se o fluxo de saída irá conter os tokens de entrada (unigramas), bem como as telhas. A predefinição é verdadeiro. |
outputUnigramsIfNoShingles |
boolean |
False |
Um valor que indica se os unigramas são exportados para as horas em que não existem telhas disponíveis. Esta propriedade tem precedência quando outputUnigrams está definido como falso. A predefinição é falso. |
tokenSeparator |
string |
A cadeia a utilizar ao associar tokens adjacentes para formar uma telha. A predefinição é um único espaço (" "). |
SnowballTokenFilter
Um filtro que escorria palavras utilizando um stemer gerado por bola de neve. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
language |
O idioma a utilizar. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
SnowballTokenFilterLanguage
O idioma a utilizar para um filtro de token bola de neve.
Name | Tipo | Description |
---|---|---|
armenian |
string |
Seleciona o tokenizador lucene snowball stemming para arménio. |
basque |
string |
Seleciona o tokenizador Lucene Snowball para basco. |
catalan |
string |
Seleciona o tokenizer Lucene Snowball para catalão. |
danish |
string |
Seleciona o tokenizador Lucene Snowball para dinamarquês. |
dutch |
string |
Seleciona o tokenizer Lucene Snowball stemming para neerlandês. |
english |
string |
Seleciona o tokenizer Lucene Snowball stemming para inglês. |
finnish |
string |
Seleciona o tokenizador Lucene Snowball stemming para finlandês. |
french |
string |
Seleciona o tokenizer Lucene Snowball stemming para francês. |
german |
string |
Seleciona o tokenizador Lucene Snowball stemming para alemão. |
german2 |
string |
Seleciona o tokenizador Lucene Snowball que utiliza o algoritmo de variante alemã. |
hungarian |
string |
Seleciona o tokenizador Lucene Snowball para húngaro. |
italian |
string |
Seleciona o tokenizador Lucene Snowball stemming para italiano. |
kp |
string |
Seleciona o tokenizer Lucene Snowball stemming para neerlandês que utiliza o algoritmo de deteção de Kraaij-Pohlmann. |
lovins |
string |
Seleciona o tokenizador Lucene Snowball stemming para inglês que utiliza o algoritmo lovins stemming. |
norwegian |
string |
Seleciona o tokenizer Lucene Snowball stemming para norueguês. |
porter |
string |
Seleciona o tokenizador Lucene Snowball stemming para inglês que utiliza o algoritmo porter stemming. |
portuguese |
string |
Seleciona o tokenizador Lucene Snowball stemming para português. |
romanian |
string |
Seleciona o tokenizador lucene snowball stemming para romeno. |
russian |
string |
Seleciona o tokenizador Lucene Snowball para russo. |
spanish |
string |
Seleciona o tokenizador Lucene Snowball stemming para espanhol. |
swedish |
string |
Seleciona o tokenizador Lucene Snowball para sueco. |
turkish |
string |
Seleciona o tokenizador Lucene Snowball stemming para turco. |
StemmerOverrideTokenFilter
Fornece a capacidade de substituir outros filtros de detenção por descrições personalizadas baseadas em dicionários. Quaisquer termos sem dicionário serão marcados como palavras-chave para que não sejam gerados com os stemmers na cadeia. Tem de ser colocado antes de quaisquer filtros de deteção. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
rules |
string[] |
Uma lista de regras de detenção no seguinte formato: "word => stem", por exemplo: "run => run". |
StemmerTokenFilter
Filtro de decorrido específico da linguagem. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
language |
O idioma a utilizar. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
StemmerTokenFilterLanguage
O idioma a utilizar para um filtro de token de stemmer.
Name | Tipo | Description |
---|---|---|
arabic |
string |
Seleciona o tokenizador Lucene stemming para árabe. |
armenian |
string |
Seleciona o tokenizador Lucene stemming para arménio. |
basque |
string |
Seleciona o tokenizador Lucene stemming para basco. |
brazilian |
string |
Seleciona o tokenizador Lucene stemming para português (Brasil). |
bulgarian |
string |
Seleciona o tokenizador Lucene stemming para búlgaro. |
catalan |
string |
Seleciona o tokenizador Lucene stemming para catalão. |
czech |
string |
Seleciona o tokenizador Lucene stemming para checo. |
danish |
string |
Seleciona o tokenizador Lucene stemming para dinamarquês. |
dutch |
string |
Seleciona o tokenizador Lucene stemming para neerlandês. |
dutchKp |
string |
Seleciona o tokenizador Lucene stemming para neerlandês que utiliza o algoritmo de deteção de Kraaij-Pohlmann. |
english |
string |
Seleciona o tokenizador Lucene stemming para inglês. |
finnish |
string |
Seleciona o tokenizador Lucene stemming para finlandês. |
french |
string |
Seleciona o tokenizador Lucene stemming para francês. |
galician |
string |
Seleciona o tokenizador Lucene stemming para Galego. |
german |
string |
Seleciona o tokenizador Lucene stemming para alemão. |
german2 |
string |
Seleciona o tokenizador lucene que utiliza o algoritmo de variante alemã. |
greek |
string |
Seleciona o tokenizador Lucene stemming para grego. |
hindi |
string |
Seleciona o tokenizador Lucene stemming para Hindi. |
hungarian |
string |
Seleciona o tokenizador Lucene stemming para húngaro. |
indonesian |
string |
Seleciona o tokenizador Lucene stemming para indonésio. |
irish |
string |
Seleciona o tokenizador Lucene stemming para irlandês. |
italian |
string |
Seleciona o tokenizador Lucene stemming para italiano. |
latvian |
string |
Seleciona o tokenizador Lucene stemming para letão. |
lightEnglish |
string |
Seleciona o tokenizador Lucene stemming para inglês que faz luz. |
lightFinnish |
string |
Seleciona o tokenizador Lucene stemming para finlandês que faz luz. |
lightFrench |
string |
Seleciona o tokenizador Lucene stemming para francês que faz luz. |
lightGerman |
string |
Seleciona o tokenizador Lucene stemming para alemão que faz luz. |
lightHungarian |
string |
Seleciona o tokenizador Lucene stemming para húngaro que faz luz. |
lightItalian |
string |
Seleciona o tokenizador Lucene stemming para italiano que faz luz. |
lightNorwegian |
string |
Seleciona o tokenizador Lucene stemming para norueguês (Bokmål) que faz luz. |
lightNynorsk |
string |
Seleciona o tokenizador Lucene stemming para norueguês (Nynorsk) que faz luz. |
lightPortuguese |
string |
Seleciona o tokenizador Lucene stemming para português que faz luz. |
lightRussian |
string |
Seleciona o tokenizador Lucene stemming para russo que faz luz. |
lightSpanish |
string |
Seleciona o tokenizador Lucene stemming para espanhol que faz luz. |
lightSwedish |
string |
Seleciona o tokenizador Lucene stemming para sueco que faz luz. |
lovins |
string |
Seleciona o tokenizador Lucene stemming para inglês que utiliza o algoritmo lovins stemming. |
minimalEnglish |
string |
Seleciona o tokenizador Lucene stemming para inglês que faz um mínimo de descrições. |
minimalFrench |
string |
Seleciona o tokenizador Lucene stemming para francês que faz um mínimo de descrições. |
minimalGalician |
string |
Seleciona o tokenizador Lucene stemming para galego que faz um mínimo de desacortar. |
minimalGerman |
string |
Seleciona o tokenizador Lucene stemming para alemão que faz um mínimo de descrições. |
minimalNorwegian |
string |
Seleciona o tokenizador Lucene stemming para norueguês (Bokmål) que faz um mínimo de descrições. |
minimalNynorsk |
string |
Seleciona o tokenizador Lucene stemming para norueguês (Nynorsk) que faz um mínimo de descrições. |
minimalPortuguese |
string |
Seleciona o tokenizador Lucene stemming para português que faz um mínimo de deteção. |
norwegian |
string |
Seleciona o tokenizador lucene stemming para norueguês (Bokmål). |
porter2 |
string |
Seleciona o tokenizador Lucene stemming para inglês que utiliza o algoritmo porter2 stemming. |
portuguese |
string |
Seleciona o tokenizador Lucene stemming para português. |
portugueseRslp |
string |
Seleciona o tokenizador Lucene stemming para português que utiliza o algoritmo de deteção RSLP. |
possessiveEnglish |
string |
Seleciona o tokenizador Lucene stemming para inglês que remove possessivos à direita das palavras. |
romanian |
string |
Seleciona o tokenizador Lucene stemming para romeno. |
russian |
string |
Seleciona o tokenizador Lucene stemming para russo. |
sorani |
string |
Seleciona o tokenizador Lucene stemming para Sorani. |
spanish |
string |
Seleciona o tokenizador Lucene stemming para espanhol. |
swedish |
string |
Seleciona o tokenizador Lucene stemming para sueco. |
turkish |
string |
Seleciona o tokenizador Lucene stemming para turco. |
StopAnalyzer
Divide texto em não letras; Aplica os filtros de token de palavras-passe e minúsculas. Este analisador é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de analisador. |
name |
string |
O nome do analisador. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
stopwords |
string[] |
Uma lista de palavras-passe. |
StopwordsList
Identifica uma lista predefinida de palavras-passe específicas do idioma.
Name | Tipo | Description |
---|---|---|
arabic |
string |
Seleciona a lista de palavras-passe para árabe. |
armenian |
string |
Seleciona a lista de palavras-passe para arménio. |
basque |
string |
Seleciona a lista de palavras-passe para Basco. |
brazilian |
string |
Seleciona a lista de palavras-passe para português (Brasil). |
bulgarian |
string |
Seleciona a lista de palavras-passe para búlgaro. |
catalan |
string |
Seleciona a lista de palavras-passe do catalão. |
czech |
string |
Seleciona a lista de palavras-passe para checo. |
danish |
string |
Seleciona a lista de palavras-passe para dinamarquês. |
dutch |
string |
Seleciona a lista de palavras-passe para Neerlandês. |
english |
string |
Seleciona a lista de palavras-passe para inglês. |
finnish |
string |
Seleciona a lista de palavras-passe para finlandês. |
french |
string |
Seleciona a lista de palavras-passe para francês. |
galician |
string |
Seleciona a lista de palavras-passe para Galego. |
german |
string |
Seleciona a lista de palavras-passe para alemão. |
greek |
string |
Seleciona a lista de palavras-passe para grego. |
hindi |
string |
Seleciona a lista de palavras-passe para Hindi. |
hungarian |
string |
Seleciona a lista de palavras-passe para húngaro. |
indonesian |
string |
Seleciona a lista de palavras-passe para indonésio. |
irish |
string |
Seleciona a lista de palavras-passe para irlandês. |
italian |
string |
Seleciona a lista de palavras-passe para italiano. |
latvian |
string |
Seleciona a lista de palavras-passe para letão. |
norwegian |
string |
Seleciona a lista de palavras-passe para norueguês. |
persian |
string |
Seleciona a lista de palavras-passe para persa. |
portuguese |
string |
Seleciona a lista de palavras-passe para português. |
romanian |
string |
Seleciona a lista de palavras-passe para romeno. |
russian |
string |
Seleciona a lista de palavras-passe para russo. |
sorani |
string |
Seleciona a lista de palavras-passe para Sorani. |
spanish |
string |
Seleciona a lista de palavras-passe para espanhol. |
swedish |
string |
Seleciona a lista de palavras-passe para sueco. |
thai |
string |
Seleciona a lista de palavras-passe para tailandês. |
turkish |
string |
Seleciona a lista de palavras-passe para turco. |
StopwordsTokenFilter
Remove palavras paradas de um fluxo de tokens. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
ignoreCase |
boolean |
False |
Um valor que indica se deve ignorar maiúsculas e minúsculas. Se for verdadeiro, todas as palavras são convertidas em minúsculas primeiro. A predefinição é falso. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
removeTrailing |
boolean |
True |
Um valor que indica se deve ignorar o último termo de pesquisa se for uma palavra de paragem. A predefinição é verdadeiro. |
stopwords |
string[] |
A lista de palavras-passe. Esta propriedade e a propriedade da lista de palavras-passe não podem ser definidas. |
|
stopwordsList | english |
Uma lista predefinida de palavras-passe a utilizar. Esta propriedade e a propriedade de palavras-de-fim não podem ser definidas. A predefinição é inglês. |
Suggester
Define como a API Suggest deve ser aplicada a um grupo de campos no índice.
Name | Tipo | Description |
---|---|---|
name |
string |
O nome do sugeridor. |
searchMode |
Um valor que indica as capacidades do sugeridor. |
|
sourceFields |
string[] |
A lista de nomes de campos aos quais o sugeridor se aplica. Cada campo tem de ser pesquisável. |
SuggesterSearchMode
Um valor que indica as capacidades do sugeridor.
Name | Tipo | Description |
---|---|---|
analyzingInfixMatching |
string |
Corresponde a termos e prefixos inteiros consecutivos num campo. Por exemplo, para o campo "A raposa-castanha mais rápida", as consultas "rápida" e "navegação mais rápida" corresponderiam. |
SynonymTokenFilter
Corresponde a sinónimos de uma ou várias palavras num fluxo de tokens. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
expand |
boolean |
True |
Um valor que indica se todas as palavras na lista de sinónimos (se => notação não são utilizadas) serão mapeados entre si. Se for verdadeiro, todas as palavras na lista de sinónimos (se => notação não forem utilizadas) serão mapeados entre si. A seguinte lista: incrível, inacreditável, fabuloso, incrível é equivalente a: incrível, inacreditável, fabuloso, incrível => incrível, inacreditável, fabuloso, incrível. Se for falso, a seguinte lista: incrível, inacreditável, fabuloso, incrível será equivalente a: incrível, inacreditável, fabuloso, incrível => incrível. A predefinição é verdadeiro. |
ignoreCase |
boolean |
False |
Um valor que indica se deve dobrar as maiúsculas e minúsculas para a correspondência. A predefinição é falso. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
synonyms |
string[] |
Uma lista de sinónimos nos seguintes dois formatos: 1. incrível, inacreditável, fabuloso => incrível - todos os termos no lado esquerdo de => símbolo serão substituídos por todos os termos no lado direito; 2. incrível, inacreditável, fabuloso, incrível - lista separada por vírgulas de palavras equivalentes. Defina a opção expandir para alterar a forma como esta lista é interpretada. |
TagScoringFunction
Define uma função que aumenta as pontuações de documentos com valores de cadeia que correspondem a uma determinada lista de etiquetas.
Name | Tipo | Description |
---|---|---|
boost |
number |
Um multiplicador para a classificação não processada. Tem de ser um número positivo que não seja igual a 1,0. |
fieldName |
string |
O nome do campo utilizado como entrada para a função de classificação. |
interpolation |
Um valor que indica como o aumento será interpolado entre as pontuações dos documentos; a predefinição é "Linear". |
|
tag |
Valores de parâmetros para a função de classificação de etiquetas. |
|
type |
string:
tag |
Indica o tipo de função a utilizar. Os valores válidos incluem magnitude, frescura, distância e etiqueta. O tipo de função tem de ser minúscula. |
TagScoringParameters
Fornece valores de parâmetros para uma função de classificação de etiquetas.
Name | Tipo | Description |
---|---|---|
tagsParameter |
string |
O nome do parâmetro transmitido nas consultas de pesquisa para especificar a lista de etiquetas a comparar com o campo de destino. |
TextWeights
Define os pesos nos campos de índice para os quais as correspondências devem aumentar a classificação nas consultas de pesquisa.
Name | Tipo | Description |
---|---|---|
weights |
object |
O dicionário de pesos por campo para aumentar a classificação do documento. As chaves são nomes de campo e os valores são os pesos de cada campo. |
TokenCharacterKind
Representa classes de carateres em que um filtro de token pode funcionar.
Name | Tipo | Description |
---|---|---|
digit |
string |
Mantém os dígitos em tokens. |
letter |
string |
Mantém as letras nos tokens. |
punctuation |
string |
Mantém a pontuação em tokens. |
symbol |
string |
Mantém símbolos em tokens. |
whitespace |
string |
Mantém o espaço em branco em tokens. |
TokenFilterName
Define os nomes de todos os filtros de token suportados pelo motor de busca.
TruncateTokenFilter
Trunca os termos para um comprimento específico. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
length |
integer |
300 |
O comprimento a que os termos serão truncados. A predefinição e o máximo é 300. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
UaxUrlEmailTokenizer
Tokens urls e e-mails como um token. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxTokenLength |
integer |
255 |
O comprimento máximo do token. A predefinição é 255. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
UniqueTokenFilter
Filtra tokens com o mesmo texto que o token anterior. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
onlyOnSamePosition |
boolean |
False |
Um valor que indica se pretende remover duplicados apenas na mesma posição. A predefinição é falso. |
VectorSearch
Contém opções de configuração relacionadas com a pesquisa de vetores.
Name | Tipo | Description |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Contém opções de configuração específicas do algoritmo utilizado durante a indexação ou consulta. |
profiles |
Define combinações de configurações a utilizar com a pesquisa de vetores. |
|
vectorizers | VectorSearchVectorizer[]: |
Contém opções de configuração sobre como vetorizar consultas de vetor de texto. |
VectorSearchAlgorithmKind
O algoritmo utilizado para indexação e consulta.
Name | Tipo | Description |
---|---|---|
exhaustiveKnn |
string |
Algoritmo KNN exaustivo que irá efetuar a pesquisa de força bruta. |
hnsw |
string |
HNSW (Mundo Pequeno Navegável Hierárquico), um tipo de algoritmo de vizinhos mais próximo aproximado. |
VectorSearchAlgorithmMetric
A métrica de semelhança a utilizar para comparações de vetores.
Name | Tipo | Description |
---|---|---|
cosine |
string |
|
dotProduct |
string |
|
euclidean |
string |
VectorSearchProfile
Define uma combinação de configurações a utilizar com a pesquisa de vetores.
Name | Tipo | Description |
---|---|---|
algorithm |
string |
O nome da configuração do algoritmo de pesquisa de vetores que especifica o algoritmo e os parâmetros opcionais. |
name |
string |
O nome a associar a este perfil de pesquisa de vetor específico. |
vectorizer |
string |
O nome do tipo de método de vetorização que está a ser configurado para utilização com a pesquisa de vetores. |
VectorSearchVectorizerKind
O método de vetorização a ser utilizado durante o tempo de consulta.
Name | Tipo | Description |
---|---|---|
azureOpenAI |
string |
Gerar incorporações com um recurso do Azure OpenAI no momento da consulta. |
customWebApi |
string |
Gerar incorporações com um ponto final Web personalizado no momento da consulta. |
WordDelimiterTokenFilter
Divide palavras em sub-palavras e efetua transformações opcionais em grupos de sub-palavras. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
catenateAll |
boolean |
False |
Um valor que indica se todas as partes da sub-palavra serão catenadas. Por exemplo, se estiver definido como verdadeiro, "Azure-Search-1" torna-se "AzureSearch1". A predefinição é falso. |
catenateNumbers |
boolean |
False |
Um valor que indica se as execuções máximas de partes numéridas serão catenadas. Por exemplo, se estiver definido como verdadeiro, "1-2" torna-se "12". A predefinição é falso. |
catenateWords |
boolean |
False |
Um valor que indica se as execuções máximas de partes de palavras serão catenadas. Por exemplo, se estiver definido como verdadeiro, "Azure-Search" torna-se "AzureSearch". A predefinição é falso. |
generateNumberParts |
boolean |
True |
Um valor que indica se pretende gerar sub-palavras numéricos. A predefinição é verdadeiro. |
generateWordParts |
boolean |
True |
Um valor que indica se pretende gerar palavras em parte. Se estiver definido, faz com que partes das palavras sejam geradas; por exemplo, "AzureSearch" torna-se "Azure" "Pesquisa". A predefinição é verdadeiro. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
preserveOriginal |
boolean |
False |
Um valor que indica se as palavras originais serão preservadas e adicionadas à lista de sub-palavras. A predefinição é falso. |
protectedWords |
string[] |
Uma lista de tokens para proteger contra a delimitação. |
|
splitOnCaseChange |
boolean |
True |
Um valor que indica se pretende dividir palavras em caseChange. Por exemplo, se estiver definido como verdadeiro, "AzureSearch" torna-se "Azure" "Search". A predefinição é verdadeiro. |
splitOnNumerics |
boolean |
True |
Um valor que indica se pretende dividir em números. Por exemplo, se estiver definido como verdadeiro, "Azure1Search" torna-se "Azure" "1" "Search". A predefinição é verdadeiro. |
stemEnglishPossessive |
boolean |
True |
Um valor que indica se deve remover "s" à direita para cada sub-palavra. A predefinição é verdadeiro. |