Indexes - Create
Cria um novo índice de pesquisa.
POST {endpoint}/indexes?api-version=2024-05-01-preview
Parâmetros do URI
Name | Em | Necessário | Tipo | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
O URL do ponto final do serviço de pesquisa. |
api-version
|
query | True |
string |
Versão da API de Cliente. |
Cabeçalho do Pedido
Name | Necessário | Tipo | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
O ID de controlo enviado com o pedido para ajudar na depuração. |
Corpo do Pedido
Name | Necessário | Tipo | Description |
---|---|---|---|
fields | True |
Os campos do índice. |
|
name | True |
string |
O nome do índice. |
@odata.etag |
string |
O ETag do índice. |
|
analyzers | LexicalAnalyzer[]: |
Os analisadores do índice. |
|
charFilters | CharFilter[]: |
O caráter filtra para o índice. |
|
corsOptions |
Opções para controlar a Partilha de Recursos Entre Origens (CORS) para o índice. |
||
defaultScoringProfile |
string |
O nome do perfil de classificação a utilizar se não for especificado nenhum na consulta. Se esta propriedade não estiver definida e não for especificado nenhum perfil de classificação na consulta, será utilizada a classificação predefinida (tf-idf). |
|
encryptionKey |
Uma descrição de uma chave de encriptação que cria no Azure Key Vault. Esta chave é utilizada para fornecer um nível adicional de encriptação inativa para os seus dados quando quiser ter a garantia total de que ninguém, nem mesmo a Microsoft, pode desencriptar os seus dados. Depois de encriptar os seus dados, estes permanecerão sempre encriptados. O serviço de pesquisa irá ignorar as tentativas de definir esta propriedade como nula. Pode alterar esta propriedade conforme necessário se quiser rodar a chave de encriptação; Os seus dados não serão afetados. A encriptação com chaves geridas pelo cliente não está disponível para serviços de pesquisa gratuita e só está disponível para serviços pagos criados em ou depois de 1 de janeiro de 2019. |
||
normalizers | LexicalNormalizer[]: |
Os normalizadores do índice. |
|
scoringProfiles |
Os perfis de classificação do índice. |
||
semantic |
Define parâmetros para um índice de pesquisa que influencia as capacidades semânticas. |
||
similarity | Similarity: |
O tipo de algoritmo de semelhança a ser utilizado ao classificar e classificar os documentos correspondentes a uma consulta de pesquisa. O algoritmo de semelhança só pode ser definido no momento da criação do índice e não pode ser modificado em índices existentes. Se for nulo, é utilizado o algoritmo ClassicSimilarity. |
|
suggesters |
Os sugestores do índice. |
||
tokenFilters |
TokenFilter[]:
|
O token filtra o índice. |
|
tokenizers | LexicalTokenizer[]: |
Os tokenizers do índice. |
|
vectorSearch |
Contém opções de configuração relacionadas com a pesquisa de vetores. |
Respostas
Name | Tipo | Description |
---|---|---|
201 Created | ||
Other Status Codes |
Resposta de erro. |
Exemplos
SearchServiceCreateIndex
Pedido de amostra
POST https://myservice.search.windows.net/indexes?api-version=2024-05-01-preview
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myCompressedHnswProfile"
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myCompressedHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "nameEmbedding",
"type": "Collection(Edm.Half)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": "<applicationSecret>"
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myCompressedHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi",
"compression": "mySQ8"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine",
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey"
}
}
]
}
}
Resposta da amostra
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myCompressedHnswProfile",
"synonymMaps": []
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myCompressedHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "nameEmbedding",
"type": "Collection(Edm.Half)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2",
"tokenFilters": []
}
],
"tokenizers": [],
"normalizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"defaultConfiguration": null,
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myCompressedHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi",
"compression": "mySQ8"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey",
"authIdentity": null
}
}
]
}
}
Definições
Name | Description |
---|---|
AIServices |
Especifica os parâmetros de Visão dos Serviços de IA para vetorizar uma imagem de consulta ou texto. |
AIServices |
Especifica os parâmetros de Visão dos Serviços de IA para vetorizar uma imagem de consulta ou texto. |
AIStudio |
O nome do modelo de incorporação do Catálogo de Estúdio de IA do Azure que será chamado. |
AMLParameters |
Especifica as propriedades para ligar a um vetor AML. |
AMLVectorizer |
Especifica um ponto final do Azure Machine Learning implementado através do Catálogo de Modelos do Estúdio de IA do Azure para gerar a incorporação de vetor de uma cadeia de consulta. |
Ascii |
Converte carateres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 carateres ASCII (o bloco Unicode "Latim Básico") nos respetivos equivalentes ASCII, se existirem esses equivalentes. Este filtro de token é implementado com o Apache Lucene. |
Azure |
Credenciais de uma aplicação registada criada para o seu serviço de pesquisa, utilizada para acesso autenticado às chaves de encriptação armazenadas no Azure Key Vault. |
Azure |
Permite-lhe gerar uma incorporação de vetor para uma determinada entrada de texto com o recurso Azure OpenAI. |
Azure |
O nome do modelo do Azure Open AI que será chamado. |
Azure |
Especifica os parâmetros para ligar ao recurso openAI do Azure. |
Azure |
Especifica o recurso Azure OpenAI utilizado para vetorizar uma cadeia de consulta. |
BM25Similarity |
Função de classificação com base no algoritmo de semelhança Okapi BM25. BM25 é um algoritmo semelhante a TF-IDF que inclui a normalização do comprimento (controlada pelo parâmetro "b") bem como a saturação de frequência de termos (controlada pelo parâmetro 'k1'). |
Char |
Define os nomes de todos os filtros de carateres suportados pelo motor de busca. |
Cjk |
Forms bigrams de termos CJK gerados a partir do tokenizer padrão. Este filtro de token é implementado com o Apache Lucene. |
Cjk |
Scripts que podem ser ignorados por CjkBigramTokenFilter. |
Classic |
Algoritmo de semelhança legado que utiliza a implementação Lucene TFIDFSimilarity do TF-IDF. Esta variação de TF-IDF introduz a normalização do comprimento do documento estático, bem como fatores coordenadores que penalizam documentos que apenas correspondem parcialmente às consultas pesquisadas. |
Classic |
Tokenizador baseado em gramática adequado para processar a maioria dos documentos de idioma europeu. Este tokenizador é implementado com o Apache Lucene. |
Common |
Construa bigrams para termos que ocorrem frequentemente durante a indexação. Os termos únicos também são indexados, com bigrams sobrepostos. Este filtro de token é implementado com o Apache Lucene. |
Cors |
Define opções para controlar a Partilha de Recursos De Várias Origens (CORS) para um índice. |
Custom |
Permite-lhe assumir o controlo sobre o processo de conversão de texto em tokens indexáveis/pesquisáveis. É uma configuração definida pelo utilizador que consiste num tokenizador predefinido único e num ou mais filtros. O tokenizer é responsável por dividir o texto em tokens e os filtros para modificar tokens emitidos pelo tokenizador. |
Custom |
Permite-lhe configurar a normalização para campos filtráveis, ordenáveis e facetáveis, que por predefinição operam com correspondência estrita. Esta é uma configuração definida pelo utilizador que consiste em, pelo menos, um ou mais filtros, que modificam o token armazenado. |
Custom |
Especifica um vetorizador definido pelo utilizador para gerar a incorporação de vetor de uma cadeia de consulta. A integração de um vetor externo é obtida com a interface personalizada da API Web de um conjunto de competências. |
Custom |
Especifica as propriedades para ligar a um vetor definido pelo utilizador. |
Dictionary |
Decompõe palavras compostas encontradas em muitos idiomas germânicos. Este filtro de token é implementado com o Apache Lucene. |
Distance |
Define uma função que aumenta as pontuações com base na distância de uma localização geográfica. |
Distance |
Fornece valores de parâmetros para uma função de classificação à distância. |
Edge |
Gera n-gramas do(s) tamanho(s) especificado(s) a partir da parte frontal ou traseira de um token de entrada. Este filtro de token é implementado com o Apache Lucene. |
Edge |
Especifica a partir de que lado da entrada deve ser gerado um n-grama. |
Edge |
Gera n-gramas do(s) tamanho(s) especificado(s) a partir da parte frontal ou traseira de um token de entrada. Este filtro de token é implementado com o Apache Lucene. |
Edge |
Tokens the input from an edge into n-grams of the given size(s). Este tokenizador é implementado com o Apache Lucene. |
Elision |
Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (plano). Este filtro de token é implementado com o Apache Lucene. |
Error |
Informações adicionais sobre o erro de gestão de recursos. |
Error |
O detalhe do erro. |
Error |
Resposta a erros |
Exhaustive |
Contém os parâmetros específicos do algoritmo KNN exaustivo. |
Exhaustive |
Contém opções de configuração específicas do algoritmo KNN exaustivo utilizado durante a consulta, que irá realizar pesquisas de força bruta em todo o índice de vetor. |
Freshness |
Define uma função que aumenta as pontuações com base no valor de um campo de data/hora. |
Freshness |
Fornece valores de parâmetros para uma função de classificação de frescura. |
Hnsw |
Contém os parâmetros específicos do algoritmo HNSW. |
Hnsw |
Contém opções de configuração específicas do algoritmo de vizinhos mais próximos do HNSW utilizado durante a indexação e consulta. O algoritmo HNSW oferece uma troca atumável entre a velocidade de pesquisa e a precisão. |
Input |
Mapeamento de campos de entrada para uma competência. |
Keep |
Um filtro de token que mantém apenas tokens com texto contido numa lista de palavras especificada. Este filtro de token é implementado com o Apache Lucene. |
Keyword |
Marca os termos como palavras-chave. Este filtro de token é implementado com o Apache Lucene. |
Keyword |
Emite toda a entrada como um único token. Este tokenizador é implementado com o Apache Lucene. |
Keyword |
Emite toda a entrada como um único token. Este tokenizador é implementado com o Apache Lucene. |
Length |
Remove palavras demasiado longas ou demasiado curtas. Este filtro de token é implementado com o Apache Lucene. |
Lexical |
Define os nomes de todos os analisadores de texto suportados pelo motor de busca. |
Lexical |
Define os nomes de todos os normalizadores de texto suportados pelo motor de busca. |
Lexical |
Define os nomes de todos os tokenizers suportados pelo motor de busca. |
Limit |
Limita o número de tokens durante a indexação. Este filtro de token é implementado com o Apache Lucene. |
Lucene |
Analisador Padrão do Apache Lucene; Composto pelo tokenizador padrão, filtro em minúsculas e filtro de paragem. |
Lucene |
Quebra o texto ao seguir as regras de Segmentação de Texto Unicode. Este tokenizador é implementado com o Apache Lucene. |
Lucene |
Quebra o texto ao seguir as regras de Segmentação de Texto Unicode. Este tokenizador é implementado com o Apache Lucene. |
Magnitude |
Define uma função que aumenta as pontuações com base na magnitude de um campo numérico. |
Magnitude |
Fornece valores de parâmetros para uma função de classificação de magnitude. |
Mapping |
Um filtro de carateres que aplica mapeamentos definidos com a opção mapeamentos. A correspondência é gananciosa (o padrão mais longo que corresponde a um determinado ponto ganha). A substituição pode ser a cadeia vazia. Este filtro de carateres é implementado com o Apache Lucene. |
Microsoft |
Divide o texto através de regras específicas do idioma e reduz as palavras aos respetivos formulários base. |
Microsoft |
Divide o texto através de regras específicas do idioma. |
Microsoft |
Listas os idiomas suportados pelo tokenizer de idioma da Microsoft. |
Microsoft |
Listas os idiomas suportados pelo tokenizer de idioma da Microsoft. |
NGram |
Gera n-gramas dos tamanhos especificados. Este filtro de token é implementado com o Apache Lucene. |
NGram |
Gera n-gramas dos tamanhos especificados. Este filtro de token é implementado com o Apache Lucene. |
NGram |
Tokens the input into n-grams of the given size(s). Este tokenizador é implementado com o Apache Lucene. |
Output |
Mapeamento de campos de saída para uma competência. |
Path |
Tokenizer para hierarquias semelhantes a caminho. Este tokenizador é implementado com o Apache Lucene. |
Pattern |
Separa de forma flexível o texto em termos através de um padrão de expressão regular. Este analisador é implementado com o Apache Lucene. |
Pattern |
Utiliza regexes Java para emitir vários tokens – um para cada grupo de captura num ou mais padrões. Este filtro de token é implementado com o Apache Lucene. |
Pattern |
Um filtro de carateres que substitui carateres na cadeia de entrada. Utiliza uma expressão regular para identificar sequências de carateres para preservar e um padrão de substituição para identificar carateres a substituir. Por exemplo, dado o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Este filtro de carateres é implementado com o Apache Lucene. |
Pattern |
Um filtro de carateres que substitui carateres na cadeia de entrada. Utiliza uma expressão regular para identificar sequências de carateres para preservar e um padrão de substituição para identificar carateres a substituir. Por exemplo, dado o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Este filtro de token é implementado com o Apache Lucene. |
Pattern |
Tokenizer que utiliza a correspondência de padrões regex para construir tokens distintos. Este tokenizador é implementado com o Apache Lucene. |
Phonetic |
Identifica o tipo de codificador fonético a utilizar com um PhoneticTokenFilter. |
Phonetic |
Create tokens para correspondências fonéticas. Este filtro de token é implementado com o Apache Lucene. |
Prioritized |
Descreve os campos de título, conteúdo e palavras-chave a utilizar para classificação semântica, legendas, destaques e respostas. |
Regex |
Define sinalizadores que podem ser combinados para controlar a forma como as expressões regulares são utilizadas no analisador de padrões e no tokenizador de padrões. |
Scalar |
Contém os parâmetros específicos da Quantização Escalar. |
Scalar |
Contém opções de configuração específicas do método de compressão de quantização escalar utilizado durante a indexação e a consulta. |
Scoring |
Define a função de agregação utilizada para combinar os resultados de todas as funções de classificação num perfil de classificação. |
Scoring |
Define a função utilizada para interpolar o aumento de pontuação num intervalo de documentos. |
Scoring |
Define parâmetros para um índice de pesquisa que influencia a classificação em consultas de pesquisa. |
Search |
Representa um campo numa definição de índice, que descreve o nome, o tipo de dados e o comportamento de pesquisa de um campo. |
Search |
Define o tipo de dados de um campo num índice de pesquisa. |
Search |
Representa uma definição de índice de pesquisa, que descreve os campos e o comportamento de pesquisa de um índice. |
Search |
Limpa a propriedade de identidade de uma origem de dados. |
Search |
Especifica a identidade de uma origem de dados a utilizar. |
Search |
Uma chave de encriptação gerida pelo cliente no Azure Key Vault. As chaves que cria e gere podem ser utilizadas para encriptar ou desencriptar dados inativos, como índices e mapas de sinónimos. |
Semantic |
Define uma configuração específica a ser utilizada no contexto de capacidades semânticas. |
Semantic |
Um campo que é utilizado como parte da configuração semântica. |
Semantic |
Define parâmetros para um índice de pesquisa que influencia as capacidades semânticas. |
Shingle |
Cria combinações de tokens como um único token. Este filtro de token é implementado com o Apache Lucene. |
Snowball |
Um filtro que contém palavras com um stemer gerado por bola de neve. Este filtro de token é implementado com o Apache Lucene. |
Snowball |
O idioma a utilizar para um filtro de token snowball. |
Stemmer |
Fornece a capacidade de substituir outros filtros de deteção com descrições personalizadas baseadas em dicionários. Quaisquer termos sem dicionário serão marcados como palavras-chave para que não sejam decorrentes de stemmers na cadeia. Tem de ser colocado antes de quaisquer filtros de deteção. Este filtro de token é implementado com o Apache Lucene. |
Stemmer |
Filtro de deteção específico da linguagem. Este filtro de token é implementado com o Apache Lucene. |
Stemmer |
O idioma a utilizar para um filtro de token de stemmer. |
Stop |
Divide o texto em não letras; Aplica os filtros de token em minúsculas e de palavra-passe. Este analisador é implementado com o Apache Lucene. |
Stopwords |
Identifica uma lista predefinida de palavras-passe específicas do idioma. |
Stopwords |
Remove palavras paradas de um fluxo de tokens. Este filtro de token é implementado com o Apache Lucene. |
Suggester |
Define como a API Suggest deve ser aplicada a um grupo de campos no índice. |
Suggester |
Um valor que indica as capacidades do sugeridor. |
Synonym |
Corresponde a sinónimos de palavras individuais ou múltiplas num fluxo de tokens. Este filtro de token é implementado com o Apache Lucene. |
Tag |
Define uma função que aumenta as pontuações de documentos com valores de cadeia que correspondem a uma determinada lista de etiquetas. |
Tag |
Fornece valores de parâmetros para uma função de classificação de etiquetas. |
Text |
Define os pesos nos campos de índice para os quais as correspondências devem aumentar a classificação nas consultas de pesquisa. |
Token |
Representa classes de carateres em que um filtro de token pode funcionar. |
Token |
Define os nomes de todos os filtros de token suportados pelo motor de busca. |
Truncate |
Trunca os termos para um comprimento específico. Este filtro de token é implementado com o Apache Lucene. |
Uax |
Tokens urls e e-mails como um token. Este tokenizador é implementado com o Apache Lucene. |
Unique |
Filtra tokens com o mesmo texto que o token anterior. Este filtro de token é implementado com o Apache Lucene. |
Vector |
O formato de codificação para interpretar conteúdos de campos de vetor. |
Vector |
Contém opções de configuração relacionadas com a pesquisa de vetores. |
Vector |
O algoritmo utilizado para indexar e consultar. |
Vector |
A métrica de semelhança a utilizar para comparações de vetores. Recomenda-se que escolha a mesma métrica de semelhança em que o modelo de incorporação foi preparado. |
Vector |
O método de compressão utilizado para indexar e consultar. |
Vector |
O tipo de dados quantizado de valores de vetor comprimido. |
Vector |
Define uma combinação de configurações a utilizar com a pesquisa de vetores. |
Vector |
O método de vetorização a utilizar durante o tempo de consulta. |
Word |
Divide palavras em sub-palavras e efetua transformações opcionais em grupos de sub-palavras. Este filtro de token é implementado com o Apache Lucene. |
AIServicesVisionParameters
Especifica os parâmetros de Visão dos Serviços de IA para vetorizar uma imagem de consulta ou texto.
Name | Tipo | Description |
---|---|---|
apiKey |
string |
Chave de API do recurso dos Serviços de IA designado. |
authIdentity | SearchIndexerDataIdentity: |
A identidade gerida atribuída pelo utilizador utilizada para ligações de saída. Se for fornecido um authResourceId e não for especificado, é utilizada a identidade gerida atribuída pelo sistema. Nas atualizações ao índice, se a identidade não for especificada, o valor permanece inalterado. Se estiver definido como "nenhum", o valor desta propriedade é limpo. |
modelVersion |
string |
A versão do modelo a utilizar ao chamar o serviço visão dos Serviços de IA. A predefinição será a mais recente disponível quando não for especificada. |
resourceUri |
string |
O URI de recurso do recurso dos Serviços de IA. |
AIServicesVisionVectorizer
Especifica os parâmetros de Visão dos Serviços de IA para vetorizar uma imagem de consulta ou texto.
Name | Tipo | Description |
---|---|---|
aiServicesVisionParameters |
Contém os parâmetros específicos da vetorização de incorporação de Visão dos Serviços de IA. |
|
kind |
string:
ai |
O nome do tipo de método de vetorização que está a ser configurado para utilização com a pesquisa de vetores. |
name |
string |
O nome a associar a este método de vetorização específico. |
AIStudioModelCatalogName
O nome do modelo de incorporação do Catálogo de Estúdio de IA do Azure que será chamado.
Name | Tipo | Description |
---|---|---|
Cohere-embed-v3-english |
string |
|
Cohere-embed-v3-multilingual |
string |
|
Facebook-DinoV2-Image-Embeddings-ViT-Base |
string |
|
Facebook-DinoV2-Image-Embeddings-ViT-Giant |
string |
|
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336 |
string |
|
OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32 |
string |
AMLParameters
Especifica as propriedades para ligar a um vetor AML.
Name | Tipo | Description |
---|---|---|
key |
string |
(Necessário para autenticação de chaves) A chave para o serviço AML. |
modelName |
O nome do modelo de incorporação do Catálogo de Estúdio de IA do Azure implementado no ponto final fornecido. |
|
region |
string |
(Opcional para autenticação de tokens). A região na qual o serviço AML está implementado. |
resourceId |
string |
(Necessário para autenticação de tokens). O Azure Resource Manager ID de recurso do serviço AML. Deve estar no formato subscrições/{guid}/resourceGroups/{resource-group-name}/Microsoft.MachineLearningServices/workspaces/{workspace-name}/services/{service_name}. |
timeout |
string |
(Opcional) Quando especificado, indica o tempo limite para o cliente http que faz a chamada à API. |
uri |
string |
(Necessário para nenhuma autenticação ou autenticação de chave) O URI de classificação do serviço AML para o qual o payload JSON será enviado. Só é permitido o esquema de URI https. |
AMLVectorizer
Especifica um ponto final do Azure Machine Learning implementado através do Catálogo de Modelos do Estúdio de IA do Azure para gerar a incorporação de vetor de uma cadeia de consulta.
Name | Tipo | Description |
---|---|---|
amlParameters |
Especifica as propriedades do vetor AML. |
|
kind |
string:
aml |
O nome do tipo de método de vetorização que está a ser configurado para utilização com a pesquisa de vetores. |
name |
string |
O nome a associar a este método de vetorização específico. |
AsciiFoldingTokenFilter
Converte carateres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 carateres ASCII (o bloco Unicode "Latim Básico") nos respetivos equivalentes ASCII, se existirem esses equivalentes. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
preserveOriginal |
boolean |
False |
Um valor que indica se o token original será mantido. A predefinição é falso. |
AzureActiveDirectoryApplicationCredentials
Credenciais de uma aplicação registada criada para o seu serviço de pesquisa, utilizada para acesso autenticado às chaves de encriptação armazenadas no Azure Key Vault.
Name | Tipo | Description |
---|---|---|
applicationId |
string |
Um ID da Aplicação do AAD a quem foram concedidas as permissões de acesso necessárias para o Azure Key Vault que deve ser utilizado ao encriptar os seus dados inativos. O ID da Aplicação não deve ser confundido com o ID do Objeto da sua Aplicação do AAD. |
applicationSecret |
string |
A chave de autenticação da aplicação do AAD especificada. |
AzureOpenAIEmbeddingSkill
Permite-lhe gerar uma incorporação de vetor para uma determinada entrada de texto com o recurso Azure OpenAI.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de competência. |
apiKey |
string |
Chave de API do recurso do Azure OpenAI designado. |
authIdentity | SearchIndexerDataIdentity: |
A identidade gerida atribuída pelo utilizador utilizada para ligações de saída. |
context |
string |
Representa o nível em que as operações ocorrem, como a raiz do documento ou o conteúdo do documento (por exemplo, /documento ou /documento/conteúdo). A predefinição é /document. |
deploymentId |
string |
ID da implementação do modelo Azure OpenAI no recurso designado. |
description |
string |
A descrição da competência que descreve as entradas, saídas e utilização da competência. |
dimensions |
integer |
O número de dimensões que as incorporações de saída resultantes devem ter. Apenas suportado em modelos de incorporação de texto 3 e posteriores. |
inputs |
As entradas das competências podem ser uma coluna no conjunto de dados de origem ou a saída de uma competência a montante. |
|
modelName |
O nome do modelo de incorporação que é implementado no caminho deploymentId fornecido. |
|
name |
string |
O nome da competência que a identifica exclusivamente no conjunto de competências. Uma competência sem nome definido receberá um nome predefinido do respetivo índice baseado em 1 na matriz de competências, com o prefixo "#". |
outputs |
A saída de uma competência é um campo num índice de pesquisa ou um valor que pode ser consumido como uma entrada por outra competência. |
|
resourceUri |
string |
O URI de recurso do recurso do Azure OpenAI. |
AzureOpenAIModelName
O nome do modelo do Azure Open AI que será chamado.
Name | Tipo | Description |
---|---|---|
experimental |
string |
|
text-embedding-3-large |
string |
|
text-embedding-3-small |
string |
|
text-embedding-ada-002 |
string |
AzureOpenAIParameters
Especifica os parâmetros para ligar ao recurso openAI do Azure.
Name | Tipo | Description |
---|---|---|
apiKey |
string |
Chave de API do recurso do Azure OpenAI designado. |
authIdentity | SearchIndexerDataIdentity: |
A identidade gerida atribuída pelo utilizador utilizada para ligações de saída. |
deploymentId |
string |
ID da implementação do modelo Azure OpenAI no recurso designado. |
modelName |
O nome do modelo de incorporação que é implementado no caminho deploymentId fornecido. |
|
resourceUri |
string |
O URI de recurso do recurso do Azure OpenAI. |
AzureOpenAIVectorizer
Especifica o recurso Azure OpenAI utilizado para vetorizar uma cadeia de consulta.
Name | Tipo | Description |
---|---|---|
azureOpenAIParameters | AzureOpenAIParameters: |
Contém os parâmetros específicos da vetorização de incorporação do Azure OpenAI. |
kind |
string:
azure |
O nome do tipo de método de vetorização que está a ser configurado para utilização com a pesquisa de vetores. |
name |
string |
O nome a associar a este método de vetorização específico. |
BM25Similarity
Função de classificação com base no algoritmo de semelhança Okapi BM25. BM25 é um algoritmo semelhante a TF-IDF que inclui a normalização do comprimento (controlada pelo parâmetro "b") bem como a saturação de frequência de termos (controlada pelo parâmetro 'k1').
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Esta propriedade controla como o comprimento de um documento afeta a classificação de relevância. Por predefinição, é utilizado um valor de 0,75. Um valor de 0,0 significa que não é aplicada normalização de comprimento, enquanto um valor de 1,0 significa que a classificação é totalmente normalizada pelo comprimento do documento. |
k1 |
number |
Esta propriedade controla a função de dimensionamento entre o termo frequência de cada termos correspondentes e a classificação de relevância final de um par de consulta-documento. Por predefinição, é utilizado um valor de 1,2. Um valor de 0,0 significa que a classificação não é dimensionada com um aumento de frequência de termos. |
CharFilterName
Define os nomes de todos os filtros de carateres suportados pelo motor de busca.
Name | Tipo | Description |
---|---|---|
html_strip |
string |
Um filtro de carateres que tenta remover construções HTML. Veja https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Forms bigrams de termos CJK gerados a partir do tokenizer padrão. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
ignoreScripts |
Os scripts a ignorar. |
||
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
outputUnigrams |
boolean |
False |
Um valor que indica se quer produzir unigramas e bigrams (se verdadeiro) ou apenas bigrams (se falso). A predefinição é falso. |
CjkBigramTokenFilterScripts
Scripts que podem ser ignorados por CjkBigramTokenFilter.
Name | Tipo | Description |
---|---|---|
han |
string |
Ignore o script Han ao formar bigrams de termos CJK. |
hangul |
string |
Ignore o script Hangul ao formar bigrams de termos CJK. |
hiragana |
string |
Ignore o script hiragana ao formar bigrams de termos CJK. |
katakana |
string |
Ignore o script katakana ao formar bigrams de termos CJK. |
ClassicSimilarity
Algoritmo de semelhança legado que utiliza a implementação Lucene TFIDFSimilarity do TF-IDF. Esta variação de TF-IDF introduz a normalização do comprimento do documento estático, bem como fatores coordenadores que penalizam documentos que apenas correspondem parcialmente às consultas pesquisadas.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenizador baseado em gramática adequado para processar a maioria dos documentos de idioma europeu. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxTokenLength |
integer |
255 |
O comprimento máximo do token. A predefinição é 255. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
CommonGramTokenFilter
Construa bigrams para termos que ocorrem frequentemente durante a indexação. Os termos únicos também são indexados, com bigrams sobrepostos. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
commonWords |
string[] |
O conjunto de palavras comuns. |
|
ignoreCase |
boolean |
False |
Um valor que indica se a correspondência de palavras comuns não será sensível a maiúsculas e minúsculas. A predefinição é falso. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
queryMode |
boolean |
False |
Um valor que indica se o filtro de token está no modo de consulta. Quando está no modo de consulta, o filtro de token gera bigrams e, em seguida, remove palavras comuns e termos únicos seguidos de uma palavra comum. A predefinição é falso. |
CorsOptions
Define opções para controlar a Partilha de Recursos De Várias Origens (CORS) para um índice.
Name | Tipo | Description |
---|---|---|
allowedOrigins |
string[] |
A lista de origens a partir das quais será concedido acesso ao código JavaScript ao seu índice. Pode conter uma lista de anfitriões do formulário {protocol}://{fully-qualified-domain-name}[:{port#}], ou um único '*' para permitir todas as origens (não recomendado). |
maxAgeInSeconds |
integer |
A duração para a qual os browsers devem colocar em cache as respostas de verificação prévia CORS. A predefinição é 5 minutos. |
CustomAnalyzer
Permite-lhe assumir o controlo sobre o processo de conversão de texto em tokens indexáveis/pesquisáveis. É uma configuração definida pelo utilizador que consiste num tokenizador predefinido único e num ou mais filtros. O tokenizer é responsável por dividir o texto em tokens e os filtros para modificar tokens emitidos pelo tokenizador.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de analisador. |
charFilters |
Uma lista de filtros de carateres utilizados para preparar texto de entrada antes de ser processado pelo tokenizador. Por exemplo, podem substituir determinados carateres ou símbolos. Os filtros são executados pela ordem em que estão listados. |
|
name |
string |
O nome do analisador. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
tokenFilters |
Uma lista de filtros de tokens utilizados para filtrar ou modificar os tokens gerados por um tokenizador. Por exemplo, pode especificar um filtro em minúsculas que converte todos os carateres em minúsculas. Os filtros são executados pela ordem em que estão listados. |
|
tokenizer |
O nome do tokenizer a utilizar para dividir o texto contínuo numa sequência de tokens, como dividir uma frase em palavras. |
CustomNormalizer
Permite-lhe configurar a normalização para campos filtráveis, ordenáveis e facetáveis, que por predefinição operam com correspondência estrita. Esta é uma configuração definida pelo utilizador que consiste em, pelo menos, um ou mais filtros, que modificam o token armazenado.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de normalizador. |
charFilters |
Uma lista de filtros de carateres utilizados para preparar texto de entrada antes de ser processado. Por exemplo, podem substituir determinados carateres ou símbolos. Os filtros são executados pela ordem em que estão listados. |
|
name |
string |
O nome do normalizador. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. Não pode terminar em ".microsoft" nem ".lucene", nem ser chamado de "asciifolding", "standard", "minúscula", "maiúscula" ou "elisão". |
tokenFilters |
Uma lista de filtros de token utilizados para filtrar ou modificar o token de entrada. Por exemplo, pode especificar um filtro em minúsculas que converte todos os carateres em minúsculas. Os filtros são executados pela ordem em que estão listados. |
CustomVectorizer
Especifica um vetorizador definido pelo utilizador para gerar a incorporação de vetor de uma cadeia de consulta. A integração de um vetor externo é obtida com a interface personalizada da API Web de um conjunto de competências.
Name | Tipo | Description |
---|---|---|
customWebApiParameters |
Especifica as propriedades do vetor definido pelo utilizador. |
|
kind |
string:
custom |
O nome do tipo de método de vetorização que está a ser configurado para utilização com a pesquisa de vetores. |
name |
string |
O nome a associar a este método de vetorização específico. |
CustomWebApiParameters
Especifica as propriedades para ligar a um vetor definido pelo utilizador.
Name | Tipo | Description |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
A identidade gerida atribuída pelo utilizador utilizada para ligações de saída. Se for fornecido um authResourceId e não for especificado, é utilizada a identidade gerida atribuída pelo sistema. Nas atualizações ao indexador, se a identidade não for especificada, o valor permanece inalterado. Se estiver definido como "nenhum", o valor desta propriedade é limpo. |
authResourceId |
string |
Aplica-se a pontos finais personalizados que se ligam ao código externo numa função do Azure ou a outra aplicação que fornece as transformações. Este valor deve ser o ID da aplicação criado para a função ou aplicação quando foi registado no Azure Active Directory. Quando especificado, a vetorização liga-se à função ou aplicação com um ID gerido (atribuído pelo sistema ou pelo utilizador) do serviço de pesquisa e o token de acesso da função ou aplicação, utilizando este valor como o ID de recurso para criar o âmbito do token de acesso. |
httpHeaders |
object |
Os cabeçalhos necessários para fazer o pedido HTTP. |
httpMethod |
string |
O método para o pedido HTTP. |
timeout |
string |
O tempo limite pretendido para o pedido. A predefinição é de 30 segundos. |
uri |
string |
O URI da API Web que fornece o vetor. |
DictionaryDecompounderTokenFilter
Decompõe palavras compostas encontradas em muitos idiomas germânicos. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
maxSubwordSize |
integer |
15 |
O tamanho máximo da sub-palavra. Apenas as sub-palavras mais curtas do que estas são exportadas. A predefinição é 15. O máximo é 300. |
minSubwordSize |
integer |
2 |
O tamanho mínimo da sub-palavra. Apenas as sub-palavras mais longas do que estas são exportadas. A predefinição é 2. O máximo é 300. |
minWordSize |
integer |
5 |
O tamanho mínimo da palavra. Apenas as palavras com mais tempo do que estas são processadas. A predefinição é 5. O máximo é 300. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
onlyLongestMatch |
boolean |
False |
Um valor que indica se deve adicionar apenas a sub-palavra correspondente mais longa à saída. A predefinição é falso. |
wordList |
string[] |
A lista de palavras a corresponder. |
DistanceScoringFunction
Define uma função que aumenta as pontuações com base na distância de uma localização geográfica.
Name | Tipo | Description |
---|---|---|
boost |
number |
Um multiplicador para a pontuação não processada. Tem de ser um número positivo diferente de 1,0. |
distance |
Valores de parâmetros para a função de classificação de distância. |
|
fieldName |
string |
O nome do campo utilizado como entrada para a função de classificação. |
interpolation |
Um valor que indica como o aumento será interpolado entre as pontuações dos documentos; a predefinição é "Linear". |
|
type |
string:
distance |
Indica o tipo de função a utilizar. Os valores válidos incluem magnitude, frescura, distância e etiqueta. O tipo de função tem de ser minúsculo. |
DistanceScoringParameters
Fornece valores de parâmetros para uma função de classificação à distância.
Name | Tipo | Description |
---|---|---|
boostingDistance |
number |
A distância em quilómetros da localização de referência onde termina o intervalo de aumento. |
referencePointParameter |
string |
O nome do parâmetro transmitido nas consultas de pesquisa para especificar a localização de referência. |
EdgeNGramTokenFilter
Gera n-gramas do(s) tamanho(s) especificado(s) a partir da parte frontal ou traseira de um token de entrada. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
maxGram |
integer |
2 |
O comprimento máximo de n-gramas. A predefinição é 2. |
minGram |
integer |
1 |
O comprimento mínimo de n-gramas. A predefinição é 1. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
side | front |
Especifica a partir do lado da entrada a partir da qual o n-grama deve ser gerado. A predefinição é "front". |
EdgeNGramTokenFilterSide
Especifica a partir de que lado da entrada deve ser gerado um n-grama.
Name | Tipo | Description |
---|---|---|
back |
string |
Especifica que o n-gram deve ser gerado a partir da parte de trás da entrada. |
front |
string |
Especifica que o n-gram deve ser gerado a partir da parte frontal da entrada. |
EdgeNGramTokenFilterV2
Gera n-gramas do(s) tamanho(s) especificado(s) a partir da parte frontal ou traseira de um token de entrada. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
maxGram |
integer |
2 |
O comprimento máximo de n-gramas. A predefinição é 2. O máximo é 300. |
minGram |
integer |
1 |
O comprimento mínimo de n-gramas. A predefinição é 1. O máximo é 300. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
side | front |
Especifica a partir do lado da entrada a partir da qual o n-grama deve ser gerado. A predefinição é "front". |
EdgeNGramTokenizer
Tokens the input from an edge into n-grams of the given size(s). Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxGram |
integer |
2 |
O comprimento máximo de n-gramas. A predefinição é 2. O máximo é 300. |
minGram |
integer |
1 |
O comprimento mínimo de n-gramas. A predefinição é 1. O máximo é 300. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
tokenChars |
Classes de carateres a manter nos tokens. |
ElisionTokenFilter
Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (plano). Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
articles |
string[] |
O conjunto de artigos a remover. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
ErrorAdditionalInfo
Informações adicionais sobre o erro de gestão de recursos.
Name | Tipo | Description |
---|---|---|
info |
object |
As informações adicionais. |
type |
string |
O tipo de informação adicional. |
ErrorDetail
O detalhe do erro.
Name | Tipo | Description |
---|---|---|
additionalInfo |
As informações adicionais do erro. |
|
code |
string |
O código de erro. |
details |
Os detalhes do erro. |
|
message |
string |
A mensagem de erro. |
target |
string |
O destino do erro. |
ErrorResponse
Resposta a erros
Name | Tipo | Description |
---|---|---|
error |
O objeto de erro. |
ExhaustiveKnnParameters
Contém os parâmetros específicos do algoritmo KNN exaustivo.
Name | Tipo | Description |
---|---|---|
metric |
A métrica de semelhança a utilizar para comparações de vetores. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Contém opções de configuração específicas do algoritmo KNN exaustivo utilizado durante a consulta, que irá realizar pesquisas de força bruta em todo o índice de vetor.
Name | Tipo | Description |
---|---|---|
exhaustiveKnnParameters |
Contém os parâmetros específicos do algoritmo KNN exaustivo. |
|
kind |
string:
exhaustive |
O nome do tipo de algoritmo que está a ser configurado para utilização com a pesquisa de vetores. |
name |
string |
O nome a associar a esta configuração específica. |
FreshnessScoringFunction
Define uma função que aumenta as pontuações com base no valor de um campo de data/hora.
Name | Tipo | Description |
---|---|---|
boost |
number |
Um multiplicador para a pontuação não processada. Tem de ser um número positivo diferente de 1,0. |
fieldName |
string |
O nome do campo utilizado como entrada para a função de classificação. |
freshness |
Valores de parâmetros para a função de classificação de atualização. |
|
interpolation |
Um valor que indica como o aumento será interpolado entre as pontuações dos documentos; a predefinição é "Linear". |
|
type |
string:
freshness |
Indica o tipo de função a utilizar. Os valores válidos incluem magnitude, frescura, distância e etiqueta. O tipo de função tem de ser minúsculo. |
FreshnessScoringParameters
Fornece valores de parâmetros para uma função de classificação de frescura.
Name | Tipo | Description |
---|---|---|
boostingDuration |
string |
O período de expiração após o qual o aumento irá parar para um documento específico. |
HnswParameters
Contém os parâmetros específicos do algoritmo HNSW.
Name | Tipo | Default value | Description |
---|---|---|---|
efConstruction |
integer |
400 |
O tamanho da lista dinâmica que contém os vizinhos mais próximos, que é utilizado durante o tempo de índice. Aumentar este parâmetro pode melhorar a qualidade do índice, em detrimento do aumento do tempo de indexação. A certa altura, o aumento deste parâmetro leva à diminuição dos retornos. |
efSearch |
integer |
500 |
O tamanho da lista dinâmica que contém os vizinhos mais próximos, que é utilizado durante o tempo de pesquisa. Aumentar este parâmetro pode melhorar os resultados da pesquisa, em detrimento de uma pesquisa mais lenta. A certa altura, o aumento deste parâmetro leva à diminuição dos retornos. |
m |
integer |
4 |
O número de ligações bidirecionais criadas para cada novo elemento durante a construção. Aumentar este valor de parâmetro pode melhorar a recuperação e reduzir os tempos de obtenção de conjuntos de dados com elevada dimensionalidade intrínseca em detrimento do aumento do consumo de memória e do tempo de indexação mais longo. |
metric |
A métrica de semelhança a utilizar para comparações de vetores. |
HnswVectorSearchAlgorithmConfiguration
Contém opções de configuração específicas do algoritmo de vizinhos mais próximos do HNSW utilizado durante a indexação e consulta. O algoritmo HNSW oferece uma troca atumável entre a velocidade de pesquisa e a precisão.
Name | Tipo | Description |
---|---|---|
hnswParameters |
Contém os parâmetros específicos do algoritmo HNSW. |
|
kind |
string:
hnsw |
O nome do tipo de algoritmo que está a ser configurado para utilização com a pesquisa de vetores. |
name |
string |
O nome a associar a esta configuração específica. |
InputFieldMappingEntry
Mapeamento de campos de entrada para uma competência.
Name | Tipo | Description |
---|---|---|
inputs |
As entradas recursivas utilizadas ao criar um tipo complexo. |
|
name |
string |
O nome da entrada. |
source |
string |
A origem da entrada. |
sourceContext |
string |
O contexto de origem utilizado para selecionar entradas recursivas. |
KeepTokenFilter
Um filtro de token que mantém apenas tokens com texto contido numa lista de palavras especificada. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
keepWords |
string[] |
A lista de palavras a manter. |
|
keepWordsCase |
boolean |
False |
Um valor que indica se deve reduzir as maiúsculas e minúsculas de todas as palavras primeiro. A predefinição é falso. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
KeywordMarkerTokenFilter
Marca os termos como palavras-chave. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
ignoreCase |
boolean |
False |
Um valor que indica se deve ignorar maiúsculas e minúsculas. Se for verdadeiro, todas as palavras são convertidas em minúsculas primeiro. A predefinição é falso. |
keywords |
string[] |
Uma lista de palavras para marcar como palavras-chave. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
KeywordTokenizer
Emite toda a entrada como um único token. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
bufferSize |
integer |
256 |
O tamanho da memória intermédia de leitura em bytes. A predefinição é 256. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
KeywordTokenizerV2
Emite toda a entrada como um único token. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxTokenLength |
integer |
256 |
O comprimento máximo do token. A predefinição é 256. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
LengthTokenFilter
Remove palavras demasiado longas ou demasiado curtas. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
max |
integer |
300 |
O comprimento máximo em carateres. A predefinição e o máximo é 300. |
min |
integer |
0 |
O comprimento mínimo em carateres. A predefinição é 0. O máximo é 300. Tem de ser inferior ao valor máximo. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
LexicalAnalyzerName
Define os nomes de todos os analisadores de texto suportados pelo motor de busca.
Name | Tipo | Description |
---|---|---|
ar.lucene |
string |
Analisador lucene para árabe. |
ar.microsoft |
string |
Analisador da Microsoft para árabe. |
bg.lucene |
string |
Lucene analisador para búlgaro. |
bg.microsoft |
string |
Analisador da Microsoft para búlgaro. |
bn.microsoft |
string |
Analisador da Microsoft para Bangla. |
ca.lucene |
string |
Lucene analyzer para catalão. |
ca.microsoft |
string |
Analisador da Microsoft para catalão. |
cs.lucene |
string |
Analisador lucene para checo. |
cs.microsoft |
string |
Analisador da Microsoft para checo. |
da.lucene |
string |
Lucene analyzer para dinamarquês. |
da.microsoft |
string |
Analisador da Microsoft para dinamarquês. |
de.lucene |
string |
Lucene analyzer para alemão. |
de.microsoft |
string |
Analisador da Microsoft para alemão. |
el.lucene |
string |
Lucene analyzer para grego. |
el.microsoft |
string |
Analisador da Microsoft para grego. |
en.lucene |
string |
Analisador lucene para inglês. |
en.microsoft |
string |
Analisador da Microsoft para inglês. |
es.lucene |
string |
Analisador lucene para espanhol. |
es.microsoft |
string |
Analisador da Microsoft para espanhol. |
et.microsoft |
string |
Analisador da Microsoft para estónio. |
eu.lucene |
string |
Lucene analisador para basco. |
fa.lucene |
string |
Lucene analyzer para persa. |
fi.lucene |
string |
Lucene analyzer para finlandês. |
fi.microsoft |
string |
Analisador da Microsoft para finlandês. |
fr.lucene |
string |
Lucene analyzer para francês. |
fr.microsoft |
string |
Analisador da Microsoft para francês. |
ga.lucene |
string |
Lucene analyzer para irlandês. |
gl.lucene |
string |
Lucene analyzer for Galician. |
gu.microsoft |
string |
Analisador da Microsoft para Gujarati. |
he.microsoft |
string |
Analisador da Microsoft para hebraico. |
hi.lucene |
string |
Analisador lucene para Hindi. |
hi.microsoft |
string |
Analisador da Microsoft para Hindi. |
hr.microsoft |
string |
Analisador da Microsoft para croata. |
hu.lucene |
string |
Lucene analyzer para húngaro. |
hu.microsoft |
string |
Analisador da Microsoft para húngaro. |
hy.lucene |
string |
Lucene analisador para arménio. |
id.lucene |
string |
Analisador lucene para indonésio. |
id.microsoft |
string |
Analisador da Microsoft para indonésio (Bahasa). |
is.microsoft |
string |
Analisador da Microsoft para islandês. |
it.lucene |
string |
Lucene analyzer para italiano. |
it.microsoft |
string |
Analisador da Microsoft para italiano. |
ja.lucene |
string |
Analisador lucene para japonês. |
ja.microsoft |
string |
Analisador da Microsoft para japonês. |
keyword |
string |
Trata todo o conteúdo de um campo como um único token. Isto é útil para dados como códigos postais, IDs e alguns nomes de produtos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Analisador da Microsoft para Kannada. |
ko.lucene |
string |
Lucene analyzer para coreano. |
ko.microsoft |
string |
Analisador da Microsoft para coreano. |
lt.microsoft |
string |
Analisador da Microsoft para lituano. |
lv.lucene |
string |
Lucene analyzer para letão. |
lv.microsoft |
string |
Analisador da Microsoft para letão. |
ml.microsoft |
string |
Analisador da Microsoft para Malayalam. |
mr.microsoft |
string |
Analisador da Microsoft para Marathi. |
ms.microsoft |
string |
Analisador da Microsoft para Malaio (Latim). |
nb.microsoft |
string |
Analisador da Microsoft para norueguês (Bokmål). |
nl.lucene |
string |
Lucene analyzer para neerlandês. |
nl.microsoft |
string |
Analisador da Microsoft para neerlandês. |
no.lucene |
string |
Lucene analyzer para norueguês. |
pa.microsoft |
string |
Analisador da Microsoft para Punjabi. |
pattern |
string |
Separa flexívelmente o texto em termos através de um padrão de expressão normal. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Lucene analyzer para polaco. |
pl.microsoft |
string |
Analisador da Microsoft para polaco. |
pt-BR.lucene |
string |
Analisador lucene para português (Brasil). |
pt-BR.microsoft |
string |
Analisador da Microsoft para português (Brasil). |
pt-PT.lucene |
string |
Analisador lucene para português (Portugal). |
pt-PT.microsoft |
string |
Analisador da Microsoft para Português (Portugal). |
ro.lucene |
string |
Lucene analyzer para romeno. |
ro.microsoft |
string |
Analisador da Microsoft para romeno. |
ru.lucene |
string |
Analisador lucene para russo. |
ru.microsoft |
string |
Analisador da Microsoft para russo. |
simple |
string |
Divide o texto em não letras e converte-o em minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Analisador da Microsoft para Eslovaco. |
sl.microsoft |
string |
Analisador da Microsoft para esloveno. |
sr-cyrillic.microsoft |
string |
Analisador da Microsoft para sérvio (cirílico). |
sr-latin.microsoft |
string |
Analisador da Microsoft para sérvio (latim). |
standard.lucene |
string |
Analisador Lucene Padrão. |
standardasciifolding.lucene |
string |
Analisador Lucene de Dobragem ASCII Padrão. Veja https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Divide texto em não letras; Aplica os filtros de token de palavras-passe e minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Lucene analyzer para sueco. |
sv.microsoft |
string |
Analisador da Microsoft para sueco. |
ta.microsoft |
string |
Analisador da Microsoft para Tamil. |
te.microsoft |
string |
Analisador da Microsoft para Telugu. |
th.lucene |
string |
Lucene analyzer para tailandês. |
th.microsoft |
string |
Analisador da Microsoft para tailandês. |
tr.lucene |
string |
Lucene analyzer para turco. |
tr.microsoft |
string |
Analisador da Microsoft para turco. |
uk.microsoft |
string |
Analisador da Microsoft para ucraniano. |
ur.microsoft |
string |
Analisador da Microsoft para Urdu. |
vi.microsoft |
string |
Analisador da Microsoft para vietnamitas. |
whitespace |
string |
Um analisador que utiliza o tokenizador do espaço em branco. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Analisador lucene para chinês (Simplificado). |
zh-Hans.microsoft |
string |
Analisador da Microsoft para chinês (Simplificado). |
zh-Hant.lucene |
string |
Analisador lucene para chinês (tradicional). |
zh-Hant.microsoft |
string |
Analisador da Microsoft para chinês (tradicional). |
LexicalNormalizerName
Define os nomes de todos os normalizadores de texto suportados pelo motor de busca.
Name | Tipo | Description |
---|---|---|
asciifolding |
string |
Converte carateres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 carateres ASCII (o bloco Unicode "Latim Básico") nos respetivos equivalentes ASCII, se existirem esses equivalentes. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
elision |
string |
Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (plano). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
lowercase |
string |
Normaliza o texto do token em minúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
standard |
string |
Normalizador padrão, que consiste em minúsculas e asciifolding. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
uppercase |
string |
Normaliza o texto do token em maiúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
Define os nomes de todos os tokenizers suportados pelo motor de busca.
LimitTokenFilter
Limita o número de tokens durante a indexação. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
consumeAllTokens |
boolean |
False |
Um valor que indica se todos os tokens da entrada têm de ser consumidos mesmo que maxTokenCount seja atingido. A predefinição é falso. |
maxTokenCount |
integer |
1 |
O número máximo de tokens a produzir. A predefinição é 1. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
LuceneStandardAnalyzer
Analisador Padrão do Apache Lucene; Composto pelo tokenizador padrão, filtro em minúsculas e filtro de paragem.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de analisador. |
|
maxTokenLength |
integer |
255 |
O comprimento máximo do token. A predefinição é 255. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. |
name |
string |
O nome do analisador. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
stopwords |
string[] |
Uma lista de palavras-passe. |
LuceneStandardTokenizer
Quebra o texto ao seguir as regras de Segmentação de Texto Unicode. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxTokenLength |
integer |
255 |
O comprimento máximo do token. A predefinição é 255. Os tokens com mais tempo do que o comprimento máximo são divididos. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
LuceneStandardTokenizerV2
Quebra o texto ao seguir as regras de Segmentação de Texto Unicode. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxTokenLength |
integer |
255 |
O comprimento máximo do token. A predefinição é 255. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
MagnitudeScoringFunction
Define uma função que aumenta as pontuações com base na magnitude de um campo numérico.
Name | Tipo | Description |
---|---|---|
boost |
number |
Um multiplicador para a pontuação não processada. Tem de ser um número positivo diferente de 1,0. |
fieldName |
string |
O nome do campo utilizado como entrada para a função de classificação. |
interpolation |
Um valor que indica como o aumento será interpolado entre as pontuações dos documentos; a predefinição é "Linear". |
|
magnitude |
Valores de parâmetros para a função de classificação de magnitude. |
|
type |
string:
magnitude |
Indica o tipo de função a utilizar. Os valores válidos incluem magnitude, frescura, distância e etiqueta. O tipo de função tem de ser minúsculo. |
MagnitudeScoringParameters
Fornece valores de parâmetros para uma função de classificação de magnitude.
Name | Tipo | Description |
---|---|---|
boostingRangeEnd |
number |
O valor do campo em que o aumento termina. |
boostingRangeStart |
number |
O valor do campo em que o aumento é iniciado. |
constantBoostBeyondRange |
boolean |
Um valor que indica se deve aplicar um aumento constante para valores de campo para além do valor final do intervalo; predefinição é falso. |
MappingCharFilter
Um filtro de carateres que aplica mapeamentos definidos com a opção mapeamentos. A correspondência é gananciosa (o padrão mais longo que corresponde a um determinado ponto ganha). A substituição pode ser a cadeia vazia. Este filtro de carateres é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de caráter. |
mappings |
string[] |
Uma lista de mapeamentos do seguinte formato: "a=>b" (todas as ocorrências do caráter "a" serão substituídas pelo caráter "b"). |
name |
string |
O nome do filtro char. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
MicrosoftLanguageStemmingTokenizer
Divide o texto através de regras específicas do idioma e reduz as palavras aos respetivos formulários base.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
isSearchTokenizer |
boolean |
False |
Um valor que indica como o tokenizer é utilizado. Defina como verdadeiro se for utilizado como o tokenizer de pesquisa, defina como falso se for utilizado como o tokenizador de indexação. A predefinição é falso. |
language |
O idioma a utilizar. A predefinição é inglês. |
||
maxTokenLength |
integer |
255 |
O comprimento máximo do token. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. Os tokens com mais de 300 carateres são divididos em tokens de comprimento 300 e, em seguida, cada um desses tokens é dividido com base no conjunto de comprimento máximo do token. A predefinição é 255. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
MicrosoftLanguageTokenizer
Divide o texto através de regras específicas do idioma.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
isSearchTokenizer |
boolean |
False |
Um valor que indica como o tokenizer é utilizado. Defina como verdadeiro se for utilizado como o tokenizer de pesquisa, defina como falso se for utilizado como o tokenizador de indexação. A predefinição é falso. |
language |
O idioma a utilizar. A predefinição é inglês. |
||
maxTokenLength |
integer |
255 |
O comprimento máximo do token. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. Os tokens com mais de 300 carateres são divididos em tokens de comprimento 300 e, em seguida, cada um desses tokens é dividido com base no conjunto de comprimento máximo do token. A predefinição é 255. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
MicrosoftStemmingTokenizerLanguage
Listas os idiomas suportados pelo tokenizer de idioma da Microsoft.
Name | Tipo | Description |
---|---|---|
arabic |
string |
Seleciona o tokenizer Decorrido da Microsoft para árabe. |
bangla |
string |
Seleciona o tokenizer Decorrido da Microsoft para Bangla. |
bulgarian |
string |
Seleciona o tokenizer Decorrido pela Microsoft para búlgaro. |
catalan |
string |
Seleciona o tokenizer Decorrido pela Microsoft para catalão. |
croatian |
string |
Seleciona o tokenizer Decorrido pela Microsoft para croata. |
czech |
string |
Seleciona o tokenizer de retenção da Microsoft para checo. |
danish |
string |
Seleciona o tokenizador Decorrido da Microsoft para dinamarquês. |
dutch |
string |
Seleciona o tokenizer Decorrido pela Microsoft para neerlandês. |
english |
string |
Seleciona o tokenizer Decorrido da Microsoft para inglês. |
estonian |
string |
Seleciona o tokenizador de deteção da Microsoft para estónio. |
finnish |
string |
Seleciona o tokenizador de deteção da Microsoft para finlandês. |
french |
string |
Seleciona o tokenizador Decorrido da Microsoft para francês. |
german |
string |
Seleciona o tokenizer Decorrido pela Microsoft para alemão. |
greek |
string |
Seleciona o tokenizer Decorrido pela Microsoft para grego. |
gujarati |
string |
Seleciona o tokenizer Decorrido pela Microsoft para o Gudoso. |
hebrew |
string |
Seleciona o tokenizador de decorrido da Microsoft para hebraico. |
hindi |
string |
Seleciona o tokenizer Decorrido pela Microsoft para Hindi. |
hungarian |
string |
Seleciona o tokenizador de deteção da Microsoft para húngaro. |
icelandic |
string |
Seleciona o tokenizer Decorrido pela Microsoft para islandês. |
indonesian |
string |
Seleciona o tokenizador de deteção da Microsoft para indonésio. |
italian |
string |
Seleciona o tokenizador de decorrido da Microsoft para italiano. |
kannada |
string |
Seleciona o tokenizer Decorrido da Microsoft para Kannada. |
latvian |
string |
Seleciona o tokenizer de retenção da Microsoft para letão. |
lithuanian |
string |
Seleciona o tokenizer Decorrido pela Microsoft para lituano. |
malay |
string |
Seleciona o tokenizer Decorrido pela Microsoft para Malaio. |
malayalam |
string |
Seleciona o tokenizer Decorrido da Microsoft para Malayalam. |
marathi |
string |
Seleciona o tokenizer Decorrido da Microsoft para o Marathi. |
norwegianBokmaal |
string |
Seleciona o tokenizer Decorrido da Microsoft para norueguês (Bokmål). |
polish |
string |
Seleciona o tokenizer Decorrido da Microsoft para polaco. |
portuguese |
string |
Seleciona o tokenizador Decorrido da Microsoft para português. |
portugueseBrazilian |
string |
Seleciona o tokenizador Decorrido da Microsoft para português (Brasil). |
punjabi |
string |
Seleciona o tokenizer Decorrido da Microsoft para Punjabi. |
romanian |
string |
Seleciona o tokenizer Decorrido da Microsoft para romeno. |
russian |
string |
Seleciona o tokenizer Decorrido pela Microsoft para russo. |
serbianCyrillic |
string |
Seleciona o tokenizador Decorrido pela Microsoft para sérvio (cirílico). |
serbianLatin |
string |
Seleciona o tokenizador de deteção da Microsoft para sérvio (latim). |
slovak |
string |
Seleciona o tokenizer Decorrido da Microsoft para eslovaco. |
slovenian |
string |
Seleciona o tokenizador Decorrido da Microsoft para esloveno. |
spanish |
string |
Seleciona o tokenizer Decorrido pela Microsoft para espanhol. |
swedish |
string |
Seleciona o tokenizador de deteção da Microsoft para sueco. |
tamil |
string |
Seleciona o tokenizer Decorrido da Microsoft para Tamil. |
telugu |
string |
Seleciona o tokenizer Decorrido da Microsoft para Telugu. |
turkish |
string |
Seleciona o tokenizer de deteção da Microsoft para turco. |
ukrainian |
string |
Seleciona o tokenizer Decorrido pela Microsoft para ucraniano. |
urdu |
string |
Seleciona o tokenizer Decorrido pela Microsoft para Urdu. |
MicrosoftTokenizerLanguage
Listas os idiomas suportados pelo tokenizer de idioma da Microsoft.
Name | Tipo | Description |
---|---|---|
bangla |
string |
Seleciona o tokenizer da Microsoft para Bangla. |
bulgarian |
string |
Seleciona o tokenizer da Microsoft para búlgaro. |
catalan |
string |
Seleciona o tokenizer da Microsoft para catalão. |
chineseSimplified |
string |
Seleciona o tokenizer da Microsoft para chinês (Simplificado). |
chineseTraditional |
string |
Seleciona o tokenizer da Microsoft para chinês (tradicional). |
croatian |
string |
Seleciona o tokenizer da Microsoft para croata. |
czech |
string |
Seleciona o tokenizer da Microsoft para checo. |
danish |
string |
Seleciona o tokenizer da Microsoft para dinamarquês. |
dutch |
string |
Seleciona o tokenizer da Microsoft para neerlandês. |
english |
string |
Seleciona o tokenizer da Microsoft para inglês. |
french |
string |
Seleciona o tokenizer da Microsoft para francês. |
german |
string |
Seleciona o tokenizer da Microsoft para alemão. |
greek |
string |
Seleciona o tokenizer da Microsoft para grego. |
gujarati |
string |
Seleciona o tokenizer da Microsoft para o Gujarati. |
hindi |
string |
Seleciona o tokenizer da Microsoft para Hindi. |
icelandic |
string |
Seleciona o tokenizer da Microsoft para islandês. |
indonesian |
string |
Seleciona o tokenizer da Microsoft para indonésio. |
italian |
string |
Seleciona o tokenizer da Microsoft para italiano. |
japanese |
string |
Seleciona o tokenizer da Microsoft para japonês. |
kannada |
string |
Seleciona o tokenizer da Microsoft para Kannada. |
korean |
string |
Seleciona o tokenizer da Microsoft para coreano. |
malay |
string |
Seleciona o tokenizer da Microsoft para Malaio. |
malayalam |
string |
Seleciona o tokenizer da Microsoft para Malayalam. |
marathi |
string |
Seleciona o tokenizer da Microsoft para Marathi. |
norwegianBokmaal |
string |
Seleciona o tokenizer da Microsoft para norueguês (Bokmål). |
polish |
string |
Seleciona o tokenizer da Microsoft para polaco. |
portuguese |
string |
Seleciona o tokenizer da Microsoft para português. |
portugueseBrazilian |
string |
Seleciona o tokenizer da Microsoft para português (Brasil). |
punjabi |
string |
Seleciona o tokenizer da Microsoft para Punjabi. |
romanian |
string |
Seleciona o tokenizer da Microsoft para romeno. |
russian |
string |
Seleciona o tokenizer da Microsoft para russo. |
serbianCyrillic |
string |
Seleciona o tokenizer da Microsoft para sérvio (cirílico). |
serbianLatin |
string |
Seleciona o tokenizer da Microsoft para sérvio (latim). |
slovenian |
string |
Seleciona o tokenizer da Microsoft para esloveno. |
spanish |
string |
Seleciona o tokenizer da Microsoft para espanhol. |
swedish |
string |
Seleciona o tokenizer da Microsoft para sueco. |
tamil |
string |
Seleciona o tokenizer da Microsoft para Tamil. |
telugu |
string |
Seleciona o tokenizer da Microsoft para Telugu. |
thai |
string |
Seleciona o tokenizer da Microsoft para tailandês. |
ukrainian |
string |
Seleciona o tokenizer da Microsoft para ucraniano. |
urdu |
string |
Seleciona o tokenizer da Microsoft para Urdu. |
vietnamese |
string |
Seleciona o tokenizer da Microsoft para vietnamitas. |
NGramTokenFilter
Gera n-gramas dos tamanhos especificados. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
maxGram |
integer |
2 |
O comprimento máximo de n-gramas. A predefinição é 2. |
minGram |
integer |
1 |
O comprimento mínimo de n-gramas. A predefinição é 1. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
NGramTokenFilterV2
Gera n-gramas dos tamanhos especificados. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
maxGram |
integer |
2 |
O comprimento máximo de n-gramas. A predefinição é 2. O máximo é 300. |
minGram |
integer |
1 |
O comprimento mínimo de n-gramas. A predefinição é 1. O máximo é 300. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
NGramTokenizer
Tokens the input into n-grams of the given size(s). Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxGram |
integer |
2 |
O comprimento máximo de n-gramas. A predefinição é 2. O máximo é 300. |
minGram |
integer |
1 |
O comprimento mínimo de n-gramas. A predefinição é 1. O máximo é 300. Tem de ser inferior ao valor de maxGram. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
tokenChars |
Classes de carateres a manter nos tokens. |
OutputFieldMappingEntry
Mapeamento de campos de saída para uma competência.
Name | Tipo | Description |
---|---|---|
name |
string |
O nome da saída definida pela competência. |
targetName |
string |
O nome de destino da saída. É opcional e predefinição para nome. |
PathHierarchyTokenizerV2
Tokenizer para hierarquias semelhantes a caminho. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
delimiter |
string |
/ |
O caráter delimitador a utilizar. A predefinição é "/". |
maxTokenLength |
integer |
300 |
O comprimento máximo do token. A predefinição e o máximo é 300. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
replacement |
string |
/ |
Um valor que, se definido, substitui o caráter delimitador. A predefinição é "/". |
reverse |
boolean |
False |
Um valor que indica se pretende gerar tokens por ordem inversa. A predefinição é falso. |
skip |
integer |
0 |
O número de tokens iniciais a ignorar. A predefinição é 0. |
PatternAnalyzer
Separa de forma flexível o texto em termos através de um padrão de expressão regular. Este analisador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de analisador. |
|
flags |
Sinalizadores de expressão regulares. |
||
lowercase |
boolean |
True |
Um valor que indica se os termos devem ser minúsculos. A predefinição é verdadeiro. |
name |
string |
O nome do analisador. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
pattern |
string |
\W+ |
Um padrão de expressão regular para corresponder aos separadores de tokens. A predefinição é uma expressão que corresponde a um ou mais carateres que não são palavras. |
stopwords |
string[] |
Uma lista de palavras-passe. |
PatternCaptureTokenFilter
Utiliza regexes Java para emitir vários tokens – um para cada grupo de captura num ou mais padrões. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
patterns |
string[] |
Uma lista de padrões que correspondem a cada token. |
|
preserveOriginal |
boolean |
True |
Um valor que indica se deve devolver o token original mesmo que um dos padrões corresponda. A predefinição é verdadeiro. |
PatternReplaceCharFilter
Um filtro de carateres que substitui carateres na cadeia de entrada. Utiliza uma expressão regular para identificar sequências de carateres para preservar e um padrão de substituição para identificar carateres a substituir. Por exemplo, dado o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Este filtro de carateres é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de caráter. |
name |
string |
O nome do filtro char. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
pattern |
string |
Um padrão de expressão normal. |
replacement |
string |
O texto de substituição. |
PatternReplaceTokenFilter
Um filtro de carateres que substitui carateres na cadeia de entrada. Utiliza uma expressão regular para identificar sequências de carateres para preservar e um padrão de substituição para identificar carateres a substituir. Por exemplo, dado o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
pattern |
string |
Um padrão de expressão normal. |
replacement |
string |
O texto de substituição. |
PatternTokenizer
Tokenizer que utiliza a correspondência de padrões regex para construir tokens distintos. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
flags |
Sinalizadores de expressão regulares. |
||
group |
integer |
-1 |
O ordinal baseado em zero do grupo correspondente no padrão de expressão regular para extrair em tokens. Utilize -1 se quiser utilizar todo o padrão para dividir a entrada em tokens, independentemente dos grupos correspondentes. A predefinição é -1. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
pattern |
string |
\W+ |
Um padrão de expressão regular para corresponder aos separadores de tokens. A predefinição é uma expressão que corresponde a um ou mais carateres que não são palavras. |
PhoneticEncoder
Identifica o tipo de codificador fonético a utilizar com um PhoneticTokenFilter.
Name | Tipo | Description |
---|---|---|
beiderMorse |
string |
Codifica um token num valor de Beider-Morse. |
caverphone1 |
string |
Codifica um token num valor Caverphone 1.0. |
caverphone2 |
string |
Codifica um token num valor Caverphone 2.0. |
cologne |
string |
Codifica um token num valor Fonético de Colónia. |
doubleMetaphone |
string |
Codifica um token num valor de metafone duplo. |
haasePhonetik |
string |
Codifica um token com o refinamento haase do algoritmo Kölner Phonetik. |
koelnerPhonetik |
string |
Codifica um token com o algoritmo Kölner Phonetik. |
metaphone |
string |
Codifica um token num valor metafone. |
nysiis |
string |
Codifica um token num valor NYSIIS. |
refinedSoundex |
string |
Codifica um token num valor Soundex Refinado. |
soundex |
string |
Codifica um token num valor Soundex. |
PhoneticTokenFilter
Create tokens para correspondências fonéticas. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
encoder | metaphone |
O codificador fonético a utilizar. A predefinição é "metafone". |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
replace |
boolean |
True |
Um valor que indica se os tokens codificados devem substituir os tokens originais. Se forem falsos, os tokens codificados são adicionados como sinónimos. A predefinição é verdadeiro. |
PrioritizedFields
Descreve os campos de título, conteúdo e palavras-chave a utilizar para classificação semântica, legendas, destaques e respostas.
Name | Tipo | Description |
---|---|---|
prioritizedContentFields |
Define os campos de conteúdo a utilizar para classificação semântica, legendas, destaques e respostas. Para obter o melhor resultado, os campos selecionados devem conter texto em formato de linguagem natural. A ordem dos campos na matriz representa a sua prioridade. Os campos com prioridade inferior podem ficar truncados se o conteúdo for longo. |
|
prioritizedKeywordsFields |
Define os campos de palavra-chave a utilizar para classificação semântica, legendas, destaques e respostas. Para obter o melhor resultado, os campos selecionados devem conter uma lista de palavras-chave. A ordem dos campos na matriz representa a sua prioridade. Os campos com prioridade inferior podem ficar truncados se o conteúdo for longo. |
|
titleField |
Define o campo de título a utilizar para classificação semântica, legendas, destaques e respostas. Se não tiver um campo de título no índice, deixe este campo em branco. |
RegexFlags
Define sinalizadores que podem ser combinados para controlar a forma como as expressões regulares são utilizadas no analisador de padrões e no tokenizador de padrões.
Name | Tipo | Description |
---|---|---|
CANON_EQ |
string |
Permite equivalência canónica. |
CASE_INSENSITIVE |
string |
Ativa a correspondência não sensível a maiúsculas e minúsculas. |
COMMENTS |
string |
Permite espaços em branco e comentários no padrão. |
DOTALL |
string |
Ativa o modo de dotall. |
LITERAL |
string |
Permite a análise literal do padrão. |
MULTILINE |
string |
Ativa o modo de várias linhas. |
UNICODE_CASE |
string |
Ativa a dobragem de casos com deteção unicode. |
UNIX_LINES |
string |
Ativa o modo de linhas Unix. |
ScalarQuantizationParameters
Contém os parâmetros específicos da Quantização Escalar.
Name | Tipo | Description |
---|---|---|
quantizedDataType |
O tipo de dados quantizado de valores de vetor comprimido. |
ScalarQuantizationVectorSearchCompressionConfiguration
Contém opções de configuração específicas do método de compressão de quantização escalar utilizado durante a indexação e a consulta.
Name | Tipo | Default value | Description |
---|---|---|---|
defaultOversampling |
number |
Fator de sobreaplicação predefinido. A sobreaplicação irá pedir internamente mais documentos (especificado por este multiplicador) na pesquisa inicial. Isto aumenta o conjunto de resultados que serão reclassificados com pontuações de semelhança recomputadas de vetores de precisão total. O valor mínimo é 1, o que significa que não existe sobreaplicação (1x). Este parâmetro só pode ser definido quando rerankWithOriginalVectors for true. Os valores mais elevados melhoram a recuperação em detrimento da latência. |
|
kind |
string:
scalar |
O nome do tipo de método de compressão que está a ser configurado para utilização com a pesquisa de vetores. |
|
name |
string |
O nome a associar a esta configuração específica. |
|
rerankWithOriginalVectors |
boolean |
True |
Se for definido como verdadeiro, assim que o conjunto ordenado de resultados calculado com vetores comprimidos for obtido, estes serão novamente reclassificados ao recálculo das pontuações de semelhança de precisão total. Isto melhorará a recuperação em detrimento da latência. |
scalarQuantizationParameters |
Contém os parâmetros específicos da Quantização Escalar. |
ScoringFunctionAggregation
Define a função de agregação utilizada para combinar os resultados de todas as funções de classificação num perfil de classificação.
Name | Tipo | Description |
---|---|---|
average |
string |
Aumente as pontuações pela média de todos os resultados da função de classificação. |
firstMatching |
string |
Aumente as pontuações com a primeira função de classificação aplicável no perfil de classificação. |
maximum |
string |
Aumente as pontuações pelo máximo de todos os resultados da função de classificação. |
minimum |
string |
Aumente as pontuações pelo mínimo de todos os resultados da função de classificação. |
sum |
string |
Aumente as pontuações pela soma de todos os resultados da função de classificação. |
ScoringFunctionInterpolation
Define a função utilizada para interpolar o aumento de pontuação num intervalo de documentos.
Name | Tipo | Description |
---|---|---|
constant |
string |
Aumenta as pontuações por um fator constante. |
linear |
string |
Aumenta as pontuações por uma quantidade linearmente decrescente. Esta é a interpolação predefinida para funções de classificação. |
logarithmic |
string |
Aumenta as pontuações por uma quantidade que diminui logaritmoticamente. Aumenta a diminuição rapidamente para pontuações mais altas e mais lentamente à medida que as pontuações diminuem. Esta opção de interpolação não é permitida nas funções de classificação de etiquetas. |
quadratic |
string |
Aumenta as pontuações em uma quantidade que diminui quadráticamente. Os aumentos diminuem lentamente para pontuações mais altas e mais rapidamente à medida que as pontuações diminuem. Esta opção de interpolação não é permitida nas funções de classificação de etiquetas. |
ScoringProfile
Define parâmetros para um índice de pesquisa que influencia a classificação em consultas de pesquisa.
Name | Tipo | Description |
---|---|---|
functionAggregation |
Um valor que indica como os resultados das funções de classificação individuais devem ser combinados. A predefinição é "Soma". Ignorado se não existirem funções de classificação. |
|
functions | ScoringFunction[]: |
A coleção de funções que influenciam a classificação de documentos. |
name |
string |
O nome do perfil de classificação. |
text |
Parâmetros que aumentam a classificação com base em correspondências de texto em determinados campos de índice. |
SearchField
Representa um campo numa definição de índice, que descreve o nome, o tipo de dados e o comportamento de pesquisa de um campo.
Name | Tipo | Description |
---|---|---|
analyzer |
O nome do analisador a utilizar para o campo. Esta opção só pode ser utilizada com campos pesquisáveis e não pode ser definida em conjunto com searchAnalyzer ou indexAnalyzer. Depois de o analisador ser escolhido, não pode ser alterado para o campo. Tem de ser nulo para campos complexos. |
|
dimensions |
integer |
A dimensionalidade do campo de vetor. |
facetable |
boolean |
Um valor que indica se o campo deve ser referenciado em consultas de facetas. Normalmente utilizado numa apresentação de resultados de pesquisa que inclui a contagem de resultados por categoria (por exemplo, procure câmaras digitais e veja acessos por marca, por megapixéis, por preço, etc.). Esta propriedade tem de ser nula para campos complexos. Os campos do tipo Edm.GeographyPoint ou Collection(Edm.GeographyPoint) não podem ser facetáveis. A predefinição é verdadeira para todos os outros campos simples. |
fields |
Uma lista de subdomínios se este for um campo do tipo Edm.ComplexType ou Collection(Edm.ComplexType). Tem de ser nulo ou estar vazio para campos simples. |
|
filterable |
boolean |
Um valor que indica se o campo deve ser referenciado em consultas $filter. filtráveis difere do pesquisável na forma como as cadeias são processadas. Os campos do tipo Edm.String ou Collection(Edm.String) que são filtráveis não são submetidos a quebras de palavras, pelo que as comparações destinam-se apenas a correspondências exatas. Por exemplo, se definir tal campo f como "dia ensolarado", $filter=f eq "ensolarado" não encontrará correspondências, mas $filter=f eq "dia ensolarado" irá. Esta propriedade tem de ser nula para campos complexos. A predefinição é verdadeira para campos simples e nulo para campos complexos. |
indexAnalyzer |
O nome do analisador utilizado no momento da indexação do campo. Esta opção só pode ser utilizada com campos pesquisáveis. Tem de ser definido em conjunto com searchAnalyzer e não pode ser definido em conjunto com a opção analisador. Esta propriedade não pode ser definida como o nome de um analisador de idiomas; utilize a propriedade analyzer se precisar de um analisador de idiomas. Depois de o analisador ser escolhido, não pode ser alterado para o campo. Tem de ser nulo para campos complexos. |
|
key |
boolean |
Um valor que indica se o campo identifica exclusivamente documentos no índice. Exatamente um campo de nível superior em cada índice tem de ser escolhido como o campo de chave e tem de ser do tipo Edm.String. Os campos de chave podem ser utilizados para procurar documentos diretamente e atualizar ou eliminar documentos específicos. A predefinição é falso para campos simples e nulo para campos complexos. |
name |
string |
O nome do campo, que tem de ser exclusivo na coleção de campos do campo principal ou índice. |
normalizer |
O nome do normalizador a utilizar para o campo. Esta opção só pode ser utilizada com campos com filtragem, ordenável ou facetável ativada. Uma vez escolhido o normalizador, não pode ser alterado para o campo. Tem de ser nulo para campos complexos. |
|
retrievable |
boolean |
Um valor que indica se o campo pode ser devolvido num resultado de pesquisa. Pode desativar esta opção se quiser utilizar um campo (por exemplo, margem) como um filtro, ordenação ou mecanismo de classificação, mas não quiser que o campo seja visível para o utilizador final. Esta propriedade tem de ser verdadeira para campos de chave e tem de ser nula para campos complexos. Esta propriedade pode ser alterada em campos existentes. Ativar esta propriedade não causa qualquer aumento nos requisitos de armazenamento de índices. A predefinição é verdadeira para campos simples, falso para campos de vetor e nulo para campos complexos. |
searchAnalyzer |
O nome do analisador utilizado no momento da pesquisa do campo. Esta opção só pode ser utilizada com campos pesquisáveis. Tem de ser definido em conjunto com o indexAnalyzer e não pode ser definido em conjunto com a opção analisador. Esta propriedade não pode ser definida como o nome de um analisador de idiomas; utilize a propriedade analyzer se precisar de um analisador de idiomas. Este analisador pode ser atualizado num campo existente. Tem de ser nulo para campos complexos. |
|
searchable |
boolean |
Um valor que indica se o campo é pesquisável em texto completo. Isto significa que será submetido a uma análise, como quebra de palavras durante a indexação. Se definir um campo pesquisável para um valor como "sunny day", será dividido internamente nos tokens individuais "sunny" e "day". Isto permite pesquisas em texto completo para estes termos. Os campos do tipo Edm.String ou Collection(Edm.String) são pesquisáveis por predefinição. Esta propriedade tem de ser falsa para campos simples de outros tipos de dados sem cadeia e tem de ser nula para campos complexos. Nota: os campos pesquisáveis consomem espaço adicional no índice para acomodar versões token adicionais do valor do campo para pesquisas de texto completo. Se quiser poupar espaço no índice e não precisar que um campo seja incluído nas pesquisas, defina pesquisável como falso. |
sortable |
boolean |
Um valor que indica se o campo deve ser referenciado em expressões $orderby. Por predefinição, o motor de busca ordena os resultados por classificação, mas em muitas experiências os utilizadores vão querer ordenar por campos nos documentos. Um campo simples só pode ser ordenado se for de valor único (tem um único valor no âmbito do documento principal). Os campos de coleção simples não podem ser ordenados, uma vez que são de valores múltiplos. Os subdomissões simples de coleções complexas também têm valores múltiplos e, por conseguinte, não podem ser ordenados. Isto é verdade, quer se trate de um campo principal imediato, ou de um campo predecessor, que é a coleção complexa. Os campos complexos não podem ser ordenados e a propriedade ordenável tem de ser nula para esses campos. A predefinição para ordenável é verdadeira para campos simples de valor único, falso para campos simples de valores múltiplos e nulo para campos complexos. |
stored |
boolean |
Um valor imutável que indica se o campo será mantido separadamente no disco para ser devolvido num resultado de pesquisa. Pode desativar esta opção se não planear devolver o conteúdo do campo numa resposta de pesquisa para poupar na sobrecarga de armazenamento. Isto só pode ser definido durante a criação do índice e apenas para campos de vetor. Esta propriedade não pode ser alterada para campos existentes ou definida como falsa para novos campos. Se esta propriedade for definida como falsa, a propriedade "recuperável" também tem de ser definida como false. Esta propriedade tem de ser verdadeira ou desativada para campos de chave, para novos campos e para campos não vetores, e tem de ser nula para campos complexos. Desativar esta propriedade reduzirá os requisitos de armazenamento de índices. A predefinição é verdadeira para campos de vetor. |
synonymMaps |
string[] |
Uma lista dos nomes dos mapas de sinónimos a associar a este campo. Esta opção só pode ser utilizada com campos pesquisáveis. Atualmente, só é suportado um mapa de sinónimos por campo. A atribuição de um mapa de sinónimos a um campo garante que os termos de consulta destinados a esse campo são expandidos no momento da consulta através das regras no mapa de sinónimos. Este atributo pode ser alterado em campos existentes. Tem de ser nulo ou uma coleção vazia para campos complexos. |
type |
O tipo de dados do campo. |
|
vectorEncoding |
O formato de codificação para interpretar o conteúdo do campo. |
|
vectorSearchProfile |
string |
O nome do perfil de pesquisa de vetores que especifica o algoritmo e vetor a utilizar ao procurar no campo de vetor. |
SearchFieldDataType
Define o tipo de dados de um campo num índice de pesquisa.
Name | Tipo | Description |
---|---|---|
Edm.Boolean |
string |
Indica que um campo contém um valor booleano (verdadeiro ou falso). |
Edm.Byte |
string |
Indica que um campo contém um número inteiro não assinado de 8 bits. Isto só é válido quando utilizado com Collection(Edm.Byte). |
Edm.ComplexType |
string |
Indica que um campo contém um ou mais objetos complexos que, por sua vez, têm sub-campos de outros tipos. |
Edm.DateTimeOffset |
string |
Indica que um campo contém um valor de data/hora, incluindo informações de fuso horário. |
Edm.Double |
string |
Indica que um campo contém um número de vírgula flutuante de precisão dupla IEEE. |
Edm.GeographyPoint |
string |
Indica que um campo contém uma localização geográfica em termos de longitude e latitude. |
Edm.Half |
string |
Indica que um campo contém um número de vírgula flutuante de meia precisão. Isto só é válido quando utilizado com Coleção(Edm.Half). |
Edm.Int16 |
string |
Indica que um campo contém um número inteiro assinado de 16 bits. Isto só é válido quando utilizado com a Coleção(Edm.Int16). |
Edm.Int32 |
string |
Indica que um campo contém um número inteiro assinado de 32 bits. |
Edm.Int64 |
string |
Indica que um campo contém um número inteiro assinado de 64 bits. |
Edm.SByte |
string |
Indica que um campo contém um número inteiro assinado de 8 bits. Isto só é válido quando utilizado com Collection(Edm.SByte). |
Edm.Single |
string |
Indica que um campo contém um número de vírgula flutuante de precisão única. Isto só é válido quando utilizado com Collection(Edm.Single). |
Edm.String |
string |
Indica que um campo contém uma cadeia. |
SearchIndex
Representa uma definição de índice de pesquisa, que descreve os campos e o comportamento de pesquisa de um índice.
Name | Tipo | Description |
---|---|---|
@odata.etag |
string |
O ETag do índice. |
analyzers | LexicalAnalyzer[]: |
Os analisadores do índice. |
charFilters | CharFilter[]: |
O caráter filtra para o índice. |
corsOptions |
Opções para controlar a Partilha de Recursos Entre Origens (CORS) para o índice. |
|
defaultScoringProfile |
string |
O nome do perfil de classificação a utilizar se não for especificado nenhum na consulta. Se esta propriedade não estiver definida e não for especificado nenhum perfil de classificação na consulta, será utilizada a classificação predefinida (tf-idf). |
encryptionKey |
Uma descrição de uma chave de encriptação que cria no Azure Key Vault. Esta chave é utilizada para fornecer um nível adicional de encriptação inativa para os seus dados quando quiser ter a garantia total de que ninguém, nem mesmo a Microsoft, pode desencriptar os seus dados. Depois de encriptar os seus dados, estes permanecerão sempre encriptados. O serviço de pesquisa irá ignorar as tentativas de definir esta propriedade como nula. Pode alterar esta propriedade conforme necessário se quiser rodar a chave de encriptação; Os seus dados não serão afetados. A encriptação com chaves geridas pelo cliente não está disponível para serviços de pesquisa gratuita e só está disponível para serviços pagos criados em ou depois de 1 de janeiro de 2019. |
|
fields |
Os campos do índice. |
|
name |
string |
O nome do índice. |
normalizers | LexicalNormalizer[]: |
Os normalizadores do índice. |
scoringProfiles |
Os perfis de classificação do índice. |
|
semantic |
Define parâmetros para um índice de pesquisa que influencia as capacidades semânticas. |
|
similarity | Similarity: |
O tipo de algoritmo de semelhança a ser utilizado ao classificar e classificar os documentos correspondentes a uma consulta de pesquisa. O algoritmo de semelhança só pode ser definido no momento da criação do índice e não pode ser modificado em índices existentes. Se for nulo, é utilizado o algoritmo ClassicSimilarity. |
suggesters |
Os sugestores do índice. |
|
tokenFilters |
TokenFilter[]:
|
O token filtra o índice. |
tokenizers | LexicalTokenizer[]: |
Os tokenizers do índice. |
vectorSearch |
Contém opções de configuração relacionadas com a pesquisa de vetores. |
SearchIndexerDataNoneIdentity
Limpa a propriedade de identidade de uma origem de dados.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de identidade. |
SearchIndexerDataUserAssignedIdentity
Especifica a identidade de uma origem de dados a utilizar.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de identidade. |
userAssignedIdentity |
string |
O ID de recurso completamente qualificado do Azure de uma identidade gerida atribuída pelo utilizador normalmente no formulário "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" que deveria ter sido atribuído ao serviço de pesquisa. |
SearchResourceEncryptionKey
Uma chave de encriptação gerida pelo cliente no Azure Key Vault. As chaves que cria e gere podem ser utilizadas para encriptar ou desencriptar dados inativos, como índices e mapas de sinónimos.
Name | Tipo | Description |
---|---|---|
accessCredentials |
Credenciais opcionais do Azure Active Directory utilizadas para aceder ao seu Key Vault do Azure. Em vez disso, não é necessário utilizar a identidade gerida. |
|
identity | SearchIndexerDataIdentity: |
Uma identidade gerida explícita a utilizar para esta chave de encriptação. Se não for especificado e a propriedade de credenciais de acesso for nula, é utilizada a identidade gerida atribuída pelo sistema. Ao atualizar para o recurso, se a identidade explícita não for especificada, permanece inalterada. Se "nenhum" for especificado, o valor desta propriedade será limpo. |
keyVaultKeyName |
string |
O nome da chave de Key Vault do Azure a ser utilizada para encriptar os seus dados inativos. |
keyVaultKeyVersion |
string |
A versão da sua chave de Key Vault do Azure a ser utilizada para encriptar os seus dados inativos. |
keyVaultUri |
string |
O URI do seu Key Vault do Azure, também conhecido como nome DNS, que contém a chave a ser utilizada para encriptar os seus dados inativos. Um URI de exemplo pode ser |
SemanticConfiguration
Define uma configuração específica a ser utilizada no contexto de capacidades semânticas.
Name | Tipo | Description |
---|---|---|
name |
string |
O nome da configuração semântica. |
prioritizedFields |
Descreve os campos de título, conteúdo e palavra-chave a utilizar para classificação semântica, legendas, destaques e respostas. Pelo menos uma das três sub propriedades (titleField, prioritizedKeywordsFields e prioritizedContentFields) tem de ser definida. |
SemanticField
Um campo que é utilizado como parte da configuração semântica.
Name | Tipo | Description |
---|---|---|
fieldName |
string |
SemanticSettings
Define parâmetros para um índice de pesquisa que influencia as capacidades semânticas.
Name | Tipo | Description |
---|---|---|
configurations |
As configurações semânticas do índice. |
|
defaultConfiguration |
string |
Permite-lhe definir o nome de uma configuração semântica predefinida no índice, tornando-a opcional para transmiti-la sempre como um parâmetro de consulta. |
ShingleTokenFilter
Cria combinações de tokens como um único token. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
filterToken |
string |
_ |
A cadeia a inserir para cada posição na qual não existe nenhum token. A predefinição é um sublinhado ("_"). |
maxShingleSize |
integer |
2 |
O tamanho máximo da telha. O valor predefinido e mínimo é 2. |
minShingleSize |
integer |
2 |
O tamanho mínimo da telha. O valor predefinido e mínimo é 2. Tem de ser inferior ao valor de maxShingleSize. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
outputUnigrams |
boolean |
True |
Um valor que indica se o fluxo de saída irá conter os tokens de entrada (unigramas), bem como as telhas. A predefinição é verdadeiro. |
outputUnigramsIfNoShingles |
boolean |
False |
Um valor que indica se os unigramas de saída são apresentados nessas alturas em que não existem telhas disponíveis. Esta propriedade tem precedência quando outputUnigrams está definido como falso. A predefinição é falso. |
tokenSeparator |
string |
A cadeia a utilizar ao associar tokens adjacentes para formar uma telha. A predefinição é um espaço único (" "). |
SnowballTokenFilter
Um filtro que contém palavras com um stemer gerado por bola de neve. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
language |
O idioma a utilizar. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
SnowballTokenFilterLanguage
O idioma a utilizar para um filtro de token snowball.
Name | Tipo | Description |
---|---|---|
armenian |
string |
Seleciona o tokenizador lucene Snowball stemming para arménio. |
basque |
string |
Seleciona o tokenizer Lucene Snowball stemming para basco. |
catalan |
string |
Seleciona o tokenizer Lucene Snowball para catalão. |
danish |
string |
Seleciona o tokenizer Lucene Snowball stemming para dinamarquês. |
dutch |
string |
Seleciona o tokenizer Lucene Snowball stemming para neerlandês. |
english |
string |
Seleciona o tokenizer Lucene Snowball stemming para inglês. |
finnish |
string |
Seleciona o tokenizer Lucene Snowball stemming para finlandês. |
french |
string |
Seleciona o tokenizer Lucene Snowball stemming para francês. |
german |
string |
Seleciona o tokenizer Lucene Snowball stemming para alemão. |
german2 |
string |
Seleciona o tokenizer Lucene Snowball stemming que utiliza o algoritmo de variante alemã. |
hungarian |
string |
Seleciona o tokenizer Lucene Snowball para húngaro. |
italian |
string |
Seleciona o tokenizer Lucene Snowball stemming para italiano. |
kp |
string |
Seleciona o tokenizador lucene Snowball stemming para neerlandês que utiliza o algoritmo de decorrido Kraaij-Pohlmann. |
lovins |
string |
Seleciona o tokenizer Lucene Snowball stemming para inglês que utiliza o algoritmo de decorrido lovins. |
norwegian |
string |
Seleciona o tokenizer Lucene Snowball stemming para norueguês. |
porter |
string |
Seleciona o tokenizer Lucene Snowball stemming para inglês que utiliza o algoritmo de decorrido porter. |
portuguese |
string |
Seleciona o tokenizador Lucene Snowball stemming para português. |
romanian |
string |
Seleciona o tokenizer Lucene Snowball stemming para romeno. |
russian |
string |
Seleciona o tokenizador Lucene Snowball stemming para russo. |
spanish |
string |
Seleciona o tokenizer Lucene Snowball stemming para espanhol. |
swedish |
string |
Seleciona o tokenizer Lucene Snowball stemming para sueco. |
turkish |
string |
Seleciona o tokenizer Lucene Snowball stemming para turco. |
StemmerOverrideTokenFilter
Fornece a capacidade de substituir outros filtros de deteção com descrições personalizadas baseadas em dicionários. Quaisquer termos sem dicionário serão marcados como palavras-chave para que não sejam decorrentes de stemmers na cadeia. Tem de ser colocado antes de quaisquer filtros de deteção. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
rules |
string[] |
Uma lista de regras de deteção no seguinte formato: "word => stem", por exemplo: "ran => run". |
StemmerTokenFilter
Filtro de deteção específico da linguagem. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
language |
O idioma a utilizar. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
StemmerTokenFilterLanguage
O idioma a utilizar para um filtro de token de stemmer.
Name | Tipo | Description |
---|---|---|
arabic |
string |
Seleciona o tokenizador lucene stemming para árabe. |
armenian |
string |
Seleciona o tokenizador lucene stemming para arménio. |
basque |
string |
Seleciona o tokenizador lucene stemming para basco. |
brazilian |
string |
Seleciona o tokenizador lucene stemming para português (Brasil). |
bulgarian |
string |
Seleciona o tokenizador Lucene stemming para búlgaro. |
catalan |
string |
Seleciona o tokenizer Lucene stemming para catalão. |
czech |
string |
Seleciona o tokenizador lucene stemming para checo. |
danish |
string |
Seleciona o tokenizador lucene stemming para dinamarquês. |
dutch |
string |
Seleciona o tokenizador lucene stemming para neerlandês. |
dutchKp |
string |
Seleciona o tokenizador lucene stemming para neerlandês que utiliza o algoritmo de decorrido Kraaij-Pohlmann. |
english |
string |
Seleciona o tokenizer lucene stemming para inglês. |
finnish |
string |
Seleciona o tokenizador lucene stemming para finlandês. |
french |
string |
Seleciona o tokenizador lucene stemming para francês. |
galician |
string |
Seleciona o tokenizador lucene stemming para galego. |
german |
string |
Seleciona o tokenizador lucene stemming para alemão. |
german2 |
string |
Seleciona o tokenizer lucene stemming que utiliza o algoritmo de variante alemã. |
greek |
string |
Seleciona o tokenizador lucene stemming para grego. |
hindi |
string |
Seleciona o tokenizer Lucene stemming para Hindi. |
hungarian |
string |
Seleciona o tokenizer Lucene stemming para húngaro. |
indonesian |
string |
Seleciona o tokenizer Lucene stemming para indonésio. |
irish |
string |
Seleciona o tokenizer Lucene stemming para irlandês. |
italian |
string |
Seleciona o tokenizador lucene stemming para italiano. |
latvian |
string |
Seleciona o tokenizador lucene stemming para letão. |
lightEnglish |
string |
Seleciona o tokenizador lucene stemming para inglês que faz o deteção de luz. |
lightFinnish |
string |
Seleciona o tokenizador lucene stemming para finlandês que faz a deteção de luz. |
lightFrench |
string |
Seleciona o tokenizador lucene stemming para francês que faz o light stemming. |
lightGerman |
string |
Seleciona o tokenizador lucene stemming para alemão que faz light stemming. |
lightHungarian |
string |
Seleciona o tokenizador lucene stemming para húngaro que faz luz decorrido. |
lightItalian |
string |
Seleciona o tokenizador lucene stemming para italiano que faz o light stemming. |
lightNorwegian |
string |
Seleciona o tokenizador lucene stemming para norueguês (Bokmål) que faz luz decorrido. |
lightNynorsk |
string |
Seleciona o tokenizador lucene stemming para norueguês (Nynorsk) que faz a deteção de luz. |
lightPortuguese |
string |
Seleciona o tokenizador lucene stemming para português que faz luz decorrido. |
lightRussian |
string |
Seleciona o tokenizador lucene stemming para russo que faz o deteção de luz. |
lightSpanish |
string |
Seleciona o tokenizador lucene stemming para espanhol que faz a deteção de luz. |
lightSwedish |
string |
Seleciona o tokenizador lucene stemming para sueco que faz o light stemming. |
lovins |
string |
Seleciona o tokenizador lucene stemming para inglês que utiliza o algoritmo de deteção Lovins. |
minimalEnglish |
string |
Seleciona o tokenizador lucene stemming para inglês que faz um mínimo de decorrido. |
minimalFrench |
string |
Seleciona o tokenizador lucene stemming para francês que faz o mínimo de conter. |
minimalGalician |
string |
Seleciona o tokenizador lucene stemming para galego que faz o mínimo de conter. |
minimalGerman |
string |
Seleciona o tokenizador lucene stemming para alemão que faz o mínimo de conter. |
minimalNorwegian |
string |
Seleciona o tokenizador lucene stemming para norueguês (Bokmål) que faz um mínimo de conter. |
minimalNynorsk |
string |
Seleciona o tokenizador lucene stemming para norueguês (Nynorsk) que faz um mínimo de conter. |
minimalPortuguese |
string |
Seleciona o tokenizador lucene stemming para português que faz um mínimo de detenção. |
norwegian |
string |
Seleciona o tokenizer Lucene stemming para norueguês (Bokmål). |
porter2 |
string |
Seleciona o tokenizador lucene stemming para inglês que utiliza o algoritmo de detenção Porter2. |
portuguese |
string |
Seleciona o tokenizador lucene stemming para português. |
portugueseRslp |
string |
Seleciona o tokenizador lucene stemming para português que utiliza o algoritmo de criação de RSLP. |
possessiveEnglish |
string |
Seleciona o tokenizador lucene stemming para inglês que remove possessivos à direita das palavras. |
romanian |
string |
Seleciona o tokenizador lucene stemming para romeno. |
russian |
string |
Seleciona o tokenizador lucene stemming para russo. |
sorani |
string |
Seleciona o tokenizador lucene stemming para Sorani. |
spanish |
string |
Seleciona o tokenizador lucene stemming para espanhol. |
swedish |
string |
Seleciona o tokenizador lucene stemming para sueco. |
turkish |
string |
Seleciona o tokenizador lucene stemming para turco. |
StopAnalyzer
Divide o texto em não letras; Aplica os filtros de token em minúsculas e de palavra-passe. Este analisador é implementado com o Apache Lucene.
Name | Tipo | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de analisador. |
name |
string |
O nome do analisador. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
stopwords |
string[] |
Uma lista de palavras-passe. |
StopwordsList
Identifica uma lista predefinida de palavras-passe específicas do idioma.
Name | Tipo | Description |
---|---|---|
arabic |
string |
Seleciona a lista de palavras-passe para árabe. |
armenian |
string |
Seleciona a lista de palavras-passe para Arménio. |
basque |
string |
Seleciona a lista de palavras-passe para Basco. |
brazilian |
string |
Seleciona a lista de palavras-passe para português (Brasil). |
bulgarian |
string |
Seleciona a lista de palavras-passe para búlgaro. |
catalan |
string |
Seleciona a lista de palavras-passe para catalão. |
czech |
string |
Seleciona a lista de palavras-passe para checo. |
danish |
string |
Seleciona a lista de palavras-passe para dinamarquês. |
dutch |
string |
Seleciona a lista de palavras-passe para neerlandês. |
english |
string |
Seleciona a lista de palavras-passe para inglês. |
finnish |
string |
Seleciona a lista de palavras-passe para finlandês. |
french |
string |
Seleciona a lista de palavras-passe para francês. |
galician |
string |
Seleciona a lista de palavras-passe para Galego. |
german |
string |
Seleciona a lista de palavras-passe para alemão. |
greek |
string |
Seleciona a lista de palavras-passe para grego. |
hindi |
string |
Seleciona a lista de palavras-passe para Hindi. |
hungarian |
string |
Seleciona a lista de palavras-passe para húngaro. |
indonesian |
string |
Seleciona a lista de palavras-passe para indonésio. |
irish |
string |
Seleciona a lista de palavras-passe para irlandês. |
italian |
string |
Seleciona a lista de palavras-passe para italiano. |
latvian |
string |
Seleciona a lista de palavras-passe para letão. |
norwegian |
string |
Seleciona a lista de palavras-passe para norueguês. |
persian |
string |
Seleciona a lista de palavras-passe para persa. |
portuguese |
string |
Seleciona a lista de palavras-passe para português. |
romanian |
string |
Seleciona a lista de palavras-passe para romeno. |
russian |
string |
Seleciona a lista de palavras-passe para russo. |
sorani |
string |
Seleciona a lista de palavras-passe para Sorani. |
spanish |
string |
Seleciona a lista de palavras-passe para espanhol. |
swedish |
string |
Seleciona a lista de palavras-passe para sueco. |
thai |
string |
Seleciona a lista de palavras-passe para tailandês. |
turkish |
string |
Seleciona a lista de palavras-passe para turco. |
StopwordsTokenFilter
Remove palavras paradas de um fluxo de tokens. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
ignoreCase |
boolean |
False |
Um valor que indica se deve ignorar maiúsculas e minúsculas. Se for verdade, todas as palavras são convertidas em minúsculas primeiro. A predefinição é falso. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
removeTrailing |
boolean |
True |
Um valor que indica se deve ignorar o último termo de pesquisa se for uma palavra parada. A predefinição é verdadeiro. |
stopwords |
string[] |
A lista de palavras-passe. Esta propriedade e a propriedade da lista de palavras-passe não podem ser definidas. |
|
stopwordsList | english |
Uma lista predefinida de palavras-passe a utilizar. Esta propriedade e a propriedade stopwords não podem ser definidas. A predefinição é inglês. |
Suggester
Define como a API Suggest deve ser aplicada a um grupo de campos no índice.
Name | Tipo | Description |
---|---|---|
name |
string |
O nome do sugeridor. |
searchMode |
Um valor que indica as capacidades do sugeridor. |
|
sourceFields |
string[] |
A lista de nomes de campos aos quais o sugeridor se aplica. Cada campo tem de ser pesquisável. |
SuggesterSearchMode
Um valor que indica as capacidades do sugeridor.
Name | Tipo | Description |
---|---|---|
analyzingInfixMatching |
string |
Corresponde a termos e prefixos inteiros consecutivos num campo. Por exemplo, para o campo "A raposa castanha mais rápida", as consultas "rápida" e "navegação mais rápida" corresponderiam. |
SynonymTokenFilter
Corresponde a sinónimos de palavras individuais ou múltiplas num fluxo de tokens. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
expand |
boolean |
True |
Um valor que indica se todas as palavras na lista de sinónimos (se => notação não forem utilizadas) serão mapeados entre si. Se for verdade, todas as palavras na lista de sinónimos (se => notação não forem utilizadas) serão mapeados entre si. A seguinte lista: incrível, inacreditável, fabulosa, incrível é equivalente a: incrível, inacreditável, fabuloso, incrível => incrível, inacreditável, fabuloso, incrível, fabuloso, incrível. Se for falso, a seguinte lista: incrível, inacreditável, fabuloso, incrível será equivalente a: incrível, inacreditável, fabuloso, incrível => incrível. A predefinição é verdadeiro. |
ignoreCase |
boolean |
False |
Um valor que indica se deve dobrar as maiúsculas e minúsculas para a correspondência. A predefinição é falso. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
synonyms |
string[] |
Uma lista de sinónimos ao seguir um de dois formatos: 1. incrível, inacreditável, fabuloso => incrível - todos os termos no lado esquerdo de => símbolo serão substituídos por todos os termos no seu lado direito; 2. incrível, inacreditável, fabuloso, incrível - lista separada por vírgulas de palavras equivalentes. Defina a opção expandir para alterar a forma como esta lista é interpretada. |
TagScoringFunction
Define uma função que aumenta as pontuações de documentos com valores de cadeia que correspondem a uma determinada lista de etiquetas.
Name | Tipo | Description |
---|---|---|
boost |
number |
Um multiplicador para a pontuação não processada. Tem de ser um número positivo diferente de 1,0. |
fieldName |
string |
O nome do campo utilizado como entrada para a função de classificação. |
interpolation |
Um valor que indica como o aumento será interpolado entre as pontuações dos documentos; a predefinição é "Linear". |
|
tag |
Valores de parâmetros para a função de classificação de etiquetas. |
|
type |
string:
tag |
Indica o tipo de função a utilizar. Os valores válidos incluem magnitude, frescura, distância e etiqueta. O tipo de função tem de ser minúsculo. |
TagScoringParameters
Fornece valores de parâmetros para uma função de classificação de etiquetas.
Name | Tipo | Description |
---|---|---|
tagsParameter |
string |
O nome do parâmetro transmitido nas consultas de pesquisa para especificar a lista de etiquetas a comparar com o campo de destino. |
TextWeights
Define os pesos nos campos de índice para os quais as correspondências devem aumentar a classificação nas consultas de pesquisa.
Name | Tipo | Description |
---|---|---|
weights |
object |
O dicionário de pesos por campo para aumentar a classificação de documentos. As chaves são nomes de campo e os valores são os pesos de cada campo. |
TokenCharacterKind
Representa classes de carateres em que um filtro de token pode funcionar.
Name | Tipo | Description |
---|---|---|
digit |
string |
Mantém os dígitos em tokens. |
letter |
string |
Mantém as letras nos tokens. |
punctuation |
string |
Mantém a pontuação em tokens. |
symbol |
string |
Mantém símbolos em tokens. |
whitespace |
string |
Mantém o espaço em branco em tokens. |
TokenFilterName
Define os nomes de todos os filtros de token suportados pelo motor de busca.
TruncateTokenFilter
Trunca os termos para um comprimento específico. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
length |
integer |
300 |
O comprimento em que os termos serão truncados. Predefinição e máximo é 300. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
UaxUrlEmailTokenizer
Tokens urls e e-mails como um token. Este tokenizador é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de tokenizer. |
|
maxTokenLength |
integer |
255 |
O comprimento máximo do token. A predefinição é 255. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. |
name |
string |
O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
UniqueTokenFilter
Filtra tokens com o mesmo texto que o token anterior. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
onlyOnSamePosition |
boolean |
False |
Um valor que indica se pretende remover duplicados apenas na mesma posição. A predefinição é falso. |
VectorEncodingFormat
O formato de codificação para interpretar conteúdos de campos de vetor.
Name | Tipo | Description |
---|---|---|
packedBit |
string |
Formato de codificação que representa bits embalados num tipo de dados mais amplo. |
VectorSearch
Contém opções de configuração relacionadas com a pesquisa de vetores.
Name | Tipo | Description |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Contém opções de configuração específicas do algoritmo utilizado durante a indexação ou consulta. |
compressions | VectorSearchCompressionConfiguration[]: |
Contém opções de configuração específicas do método de compressão utilizado durante a indexação ou consulta. |
profiles |
Define combinações de configurações a utilizar com a pesquisa de vetores. |
|
vectorizers | VectorSearchVectorizer[]: |
Contém opções de configuração sobre como vetorizar consultas de vetor de texto. |
VectorSearchAlgorithmKind
O algoritmo utilizado para indexar e consultar.
Name | Tipo | Description |
---|---|---|
exhaustiveKnn |
string |
Algoritmo KNN exaustivo que irá realizar uma pesquisa de força bruta. |
hnsw |
string |
HNSW (Mundo Pequeno Navegável Hierárquico), um tipo de algoritmo de vizinhos mais próximo aproximado. |
VectorSearchAlgorithmMetric
A métrica de semelhança a utilizar para comparações de vetores. Recomenda-se que escolha a mesma métrica de semelhança em que o modelo de incorporação foi preparado.
Name | Tipo | Description |
---|---|---|
cosine |
string |
Mede o ângulo entre vetores para quantificar a sua semelhança, ignorando a magnitude. Quanto menor for o ângulo, mais próxima será a semelhança. |
dotProduct |
string |
Calcula a soma dos produtos em termos de elementos para medir o alinhamento e a semelhança de magnitude. Quanto maior e mais positivo, mais próxima será a semelhança. |
euclidean |
string |
Calcula a distância de linha reta entre vetores num espaço multidimensional. Quanto menor for a distância, mais próxima será a semelhança. |
hamming |
string |
Apenas aplicável a tipos de dados binários embalados por bits. Determina a diferença ao contar posições diferentes em vetores binários. Quanto menos diferenças, mais próxima será a semelhança. |
VectorSearchCompressionKind
O método de compressão utilizado para indexar e consultar.
Name | Tipo | Description |
---|---|---|
scalarQuantization |
string |
Quantização Escalar, um tipo de método de compressão. Na quantização escalar, os valores dos vetores originais são comprimidos para um tipo mais estreito ao discretizar e representar cada componente de um vetor através de um conjunto reduzido de valores quantizados, reduzindo assim o tamanho geral dos dados. |
VectorSearchCompressionTargetDataType
O tipo de dados quantizado de valores de vetor comprimido.
Name | Tipo | Description |
---|---|---|
int8 |
string |
VectorSearchProfile
Define uma combinação de configurações a utilizar com a pesquisa de vetores.
Name | Tipo | Description |
---|---|---|
algorithm |
string |
O nome da configuração do algoritmo de pesquisa de vetores que especifica o algoritmo e os parâmetros opcionais. |
compression |
string |
O nome da configuração do método de compressão que especifica o método de compressão e os parâmetros opcionais. |
name |
string |
O nome a associar a este perfil de pesquisa de vetor específico. |
vectorizer |
string |
O nome do tipo de método de vetorização que está a ser configurado para utilização com a pesquisa de vetores. |
VectorSearchVectorizerKind
O método de vetorização a utilizar durante o tempo de consulta.
Name | Tipo | Description |
---|---|---|
aiServicesVision |
string |
Gerar incorporações para uma imagem ou entrada de texto no momento da consulta com a API de Vetor de Visão dos Serviços de IA do Azure. |
aml |
string |
Gerar incorporações com um ponto final do Azure Machine Learning implementado através do Catálogo de Modelos do Estúdio de IA do Azure no momento da consulta. |
azureOpenAI |
string |
Gerar incorporações com um recurso do Azure OpenAI no momento da consulta. |
customWebApi |
string |
Gerar incorporações com um ponto final Web personalizado no momento da consulta. |
WordDelimiterTokenFilter
Divide palavras em sub-palavras e efetua transformações opcionais em grupos de sub-palavras. Este filtro de token é implementado com o Apache Lucene.
Name | Tipo | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Um fragmento de URI que especifica o tipo de filtro de token. |
|
catenateAll |
boolean |
False |
Um valor que indica se todas as partes da sub-palavra serão catenadas. Por exemplo, se estiver definido como verdadeiro, "Azure-Search-1" torna-se "AzureSearch1". A predefinição é falso. |
catenateNumbers |
boolean |
False |
Um valor que indica se as execuções máximas de partes numéridas serão catenadas. Por exemplo, se estiver definido como verdadeiro, "1-2" torna-se "12". A predefinição é falso. |
catenateWords |
boolean |
False |
Um valor que indica se as execuções máximas de partes de palavras serão catenadas. Por exemplo, se estiver definido como verdadeiro, "Azure-Search" torna-se "AzureSearch". A predefinição é falso. |
generateNumberParts |
boolean |
True |
Um valor que indica se pretende gerar sub-palavras numérulas. A predefinição é verdadeiro. |
generateWordParts |
boolean |
True |
Um valor que indica se pretende gerar palavras de parte. Se estiver definido, faz com que sejam geradas partes de palavras; por exemplo, "AzureSearch" torna-se "Azure" "Search". A predefinição é verdadeiro. |
name |
string |
O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. |
|
preserveOriginal |
boolean |
False |
Um valor que indica se as palavras originais serão preservadas e adicionadas à lista de sub-palavras. A predefinição é falso. |
protectedWords |
string[] |
Uma lista de tokens para proteger contra a delimitação. |
|
splitOnCaseChange |
boolean |
True |
Um valor que indica se pretende dividir palavras em caseChange. Por exemplo, se estiver definido como verdadeiro, "AzureSearch" torna-se "Azure" "Search". A predefinição é verdadeiro. |
splitOnNumerics |
boolean |
True |
Um valor que indica se pretende dividir em números. Por exemplo, se estiver definido como verdadeiro, "Azure1Search" torna-se "Azure" "1" "Search". A predefinição é verdadeiro. |
stemEnglishPossessive |
boolean |
True |
Um valor que indica se deve remover "s" à direita para cada sub-palavra. A predefinição é verdadeiro. |