Partilhar via


Indexes - Create

Cria um novo índice de pesquisa.

POST {endpoint}/indexes?api-version=2024-05-01-preview

Parâmetros do URI

Name Em Necessário Tipo Description
endpoint
path True

string

O URL do ponto final do serviço de pesquisa.

api-version
query True

string

Versão da API de Cliente.

Cabeçalho do Pedido

Name Necessário Tipo Description
x-ms-client-request-id

string

uuid

O ID de controlo enviado com o pedido para ajudar na depuração.

Corpo do Pedido

Name Necessário Tipo Description
fields True

SearchField[]

Os campos do índice.

name True

string

O nome do índice.

@odata.etag

string

O ETag do índice.

analyzers LexicalAnalyzer[]:

Os analisadores do índice.

charFilters CharFilter[]:

O caráter filtra para o índice.

corsOptions

CorsOptions

Opções para controlar a Partilha de Recursos Entre Origens (CORS) para o índice.

defaultScoringProfile

string

O nome do perfil de classificação a utilizar se não for especificado nenhum na consulta. Se esta propriedade não estiver definida e não for especificado nenhum perfil de classificação na consulta, será utilizada a classificação predefinida (tf-idf).

encryptionKey

SearchResourceEncryptionKey

Uma descrição de uma chave de encriptação que cria no Azure Key Vault. Esta chave é utilizada para fornecer um nível adicional de encriptação inativa para os seus dados quando quiser ter a garantia total de que ninguém, nem mesmo a Microsoft, pode desencriptar os seus dados. Depois de encriptar os seus dados, estes permanecerão sempre encriptados. O serviço de pesquisa irá ignorar as tentativas de definir esta propriedade como nula. Pode alterar esta propriedade conforme necessário se quiser rodar a chave de encriptação; Os seus dados não serão afetados. A encriptação com chaves geridas pelo cliente não está disponível para serviços de pesquisa gratuita e só está disponível para serviços pagos criados em ou depois de 1 de janeiro de 2019.

normalizers LexicalNormalizer[]:

CustomNormalizer[]

Os normalizadores do índice.

scoringProfiles

ScoringProfile[]

Os perfis de classificação do índice.

semantic

SemanticSettings

Define parâmetros para um índice de pesquisa que influencia as capacidades semânticas.

similarity Similarity:

O tipo de algoritmo de semelhança a ser utilizado ao classificar e classificar os documentos correspondentes a uma consulta de pesquisa. O algoritmo de semelhança só pode ser definido no momento da criação do índice e não pode ser modificado em índices existentes. Se for nulo, é utilizado o algoritmo ClassicSimilarity.

suggesters

Suggester[]

Os sugestores do índice.

tokenFilters TokenFilter[]:

O token filtra o índice.

tokenizers LexicalTokenizer[]:

Os tokenizers do índice.

vectorSearch

VectorSearch

Contém opções de configuração relacionadas com a pesquisa de vetores.

Respostas

Name Tipo Description
201 Created

SearchIndex

Other Status Codes

ErrorResponse

Resposta de erro.

Exemplos

SearchServiceCreateIndex

Pedido de amostra

POST https://myservice.search.windows.net/indexes?api-version=2024-05-01-preview

{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "key": true,
      "searchable": false
    },
    {
      "name": "baseRate",
      "type": "Edm.Double"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myCompressedHnswProfile"
    },
    {
      "name": "descriptionEmbedding_notstored",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": false,
      "stored": false,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myCompressedHnswProfile"
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false,
      "analyzer": "fr.lucene"
    },
    {
      "name": "hotelName",
      "type": "Edm.String"
    },
    {
      "name": "nameEmbedding",
      "type": "Collection(Edm.Half)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile"
    },
    {
      "name": "category",
      "type": "Edm.String"
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "analyzer": "tagsAnalyzer"
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean"
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean"
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset"
    },
    {
      "name": "rating",
      "type": "Edm.Int32"
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint"
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": {
      "applicationId": "00000000-0000-0000-0000-000000000000",
      "applicationSecret": "<applicationSecret>"
    }
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "b": 0.5,
    "k1": 1.3
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw",
        "vectorizer": "myOpenAi"
      },
      {
        "name": "myCompressedHnswProfile",
        "algorithm": "myHnsw",
        "vectorizer": "myOpenAi",
        "compression": "mySQ8"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myHnsw"
      }
    ],
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "m": 4,
          "metric": "cosine",
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustiveKnn",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rerankWithOriginalVectors": true,
        "defaultOversampling": 10
      }
    ],
    "vectorizers": [
      {
        "name": "myOpenAi",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://url.openai.azure.com",
          "deploymentId": "text-embedding-ada-002",
          "apiKey": "topsecretkey"
        }
      }
    ]
  }
}

Resposta da amostra

{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myCompressedHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding_notstored",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": false,
      "stored": false,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myCompressedHnswProfile"
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "nameEmbedding",
      "type": "Collection(Edm.Half)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "fieldName": "location",
          "interpolation": "logarithmic",
          "type": "distance",
          "boost": 5,
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2",
      "tokenFilters": []
    }
  ],
  "tokenizers": [],
  "normalizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": {
      "applicationId": "00000000-0000-0000-0000-000000000000",
      "applicationSecret": null
    }
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "b": 0.5,
    "k1": 1.3
  },
  "semantic": {
    "defaultConfiguration": null,
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustiveKnn",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw",
        "vectorizer": "myOpenAi"
      },
      {
        "name": "myCompressedHnswProfile",
        "algorithm": "myHnsw",
        "vectorizer": "myOpenAi",
        "compression": "mySQ8"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myHnsw"
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rerankWithOriginalVectors": true,
        "defaultOversampling": 10
      }
    ],
    "vectorizers": [
      {
        "name": "myOpenAi",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://url.openai.azure.com",
          "deploymentId": "text-embedding-ada-002",
          "apiKey": "topsecretkey",
          "authIdentity": null
        }
      }
    ]
  }
}

Definições

Name Description
AIServicesVisionParameters

Especifica os parâmetros de Visão dos Serviços de IA para vetorizar uma imagem de consulta ou texto.

AIServicesVisionVectorizer

Especifica os parâmetros de Visão dos Serviços de IA para vetorizar uma imagem de consulta ou texto.

AIStudioModelCatalogName

O nome do modelo de incorporação do Catálogo de Estúdio de IA do Azure que será chamado.

AMLParameters

Especifica as propriedades para ligar a um vetor AML.

AMLVectorizer

Especifica um ponto final do Azure Machine Learning implementado através do Catálogo de Modelos do Estúdio de IA do Azure para gerar a incorporação de vetor de uma cadeia de consulta.

AsciiFoldingTokenFilter

Converte carateres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 carateres ASCII (o bloco Unicode "Latim Básico") nos respetivos equivalentes ASCII, se existirem esses equivalentes. Este filtro de token é implementado com o Apache Lucene.

AzureActiveDirectoryApplicationCredentials

Credenciais de uma aplicação registada criada para o seu serviço de pesquisa, utilizada para acesso autenticado às chaves de encriptação armazenadas no Azure Key Vault.

AzureOpenAIEmbeddingSkill

Permite-lhe gerar uma incorporação de vetor para uma determinada entrada de texto com o recurso Azure OpenAI.

AzureOpenAIModelName

O nome do modelo do Azure Open AI que será chamado.

AzureOpenAIParameters

Especifica os parâmetros para ligar ao recurso openAI do Azure.

AzureOpenAIVectorizer

Especifica o recurso Azure OpenAI utilizado para vetorizar uma cadeia de consulta.

BM25Similarity

Função de classificação com base no algoritmo de semelhança Okapi BM25. BM25 é um algoritmo semelhante a TF-IDF que inclui a normalização do comprimento (controlada pelo parâmetro "b") bem como a saturação de frequência de termos (controlada pelo parâmetro 'k1').

CharFilterName

Define os nomes de todos os filtros de carateres suportados pelo motor de busca.

CjkBigramTokenFilter

Forms bigrams de termos CJK gerados a partir do tokenizer padrão. Este filtro de token é implementado com o Apache Lucene.

CjkBigramTokenFilterScripts

Scripts que podem ser ignorados por CjkBigramTokenFilter.

ClassicSimilarity

Algoritmo de semelhança legado que utiliza a implementação Lucene TFIDFSimilarity do TF-IDF. Esta variação de TF-IDF introduz a normalização do comprimento do documento estático, bem como fatores coordenadores que penalizam documentos que apenas correspondem parcialmente às consultas pesquisadas.

ClassicTokenizer

Tokenizador baseado em gramática adequado para processar a maioria dos documentos de idioma europeu. Este tokenizador é implementado com o Apache Lucene.

CommonGramTokenFilter

Construa bigrams para termos que ocorrem frequentemente durante a indexação. Os termos únicos também são indexados, com bigrams sobrepostos. Este filtro de token é implementado com o Apache Lucene.

CorsOptions

Define opções para controlar a Partilha de Recursos De Várias Origens (CORS) para um índice.

CustomAnalyzer

Permite-lhe assumir o controlo sobre o processo de conversão de texto em tokens indexáveis/pesquisáveis. É uma configuração definida pelo utilizador que consiste num tokenizador predefinido único e num ou mais filtros. O tokenizer é responsável por dividir o texto em tokens e os filtros para modificar tokens emitidos pelo tokenizador.

CustomNormalizer

Permite-lhe configurar a normalização para campos filtráveis, ordenáveis e facetáveis, que por predefinição operam com correspondência estrita. Esta é uma configuração definida pelo utilizador que consiste em, pelo menos, um ou mais filtros, que modificam o token armazenado.

CustomVectorizer

Especifica um vetorizador definido pelo utilizador para gerar a incorporação de vetor de uma cadeia de consulta. A integração de um vetor externo é obtida com a interface personalizada da API Web de um conjunto de competências.

CustomWebApiParameters

Especifica as propriedades para ligar a um vetor definido pelo utilizador.

DictionaryDecompounderTokenFilter

Decompõe palavras compostas encontradas em muitos idiomas germânicos. Este filtro de token é implementado com o Apache Lucene.

DistanceScoringFunction

Define uma função que aumenta as pontuações com base na distância de uma localização geográfica.

DistanceScoringParameters

Fornece valores de parâmetros para uma função de classificação à distância.

EdgeNGramTokenFilter

Gera n-gramas do(s) tamanho(s) especificado(s) a partir da parte frontal ou traseira de um token de entrada. Este filtro de token é implementado com o Apache Lucene.

EdgeNGramTokenFilterSide

Especifica a partir de que lado da entrada deve ser gerado um n-grama.

EdgeNGramTokenFilterV2

Gera n-gramas do(s) tamanho(s) especificado(s) a partir da parte frontal ou traseira de um token de entrada. Este filtro de token é implementado com o Apache Lucene.

EdgeNGramTokenizer

Tokens the input from an edge into n-grams of the given size(s). Este tokenizador é implementado com o Apache Lucene.

ElisionTokenFilter

Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (plano). Este filtro de token é implementado com o Apache Lucene.

ErrorAdditionalInfo

Informações adicionais sobre o erro de gestão de recursos.

ErrorDetail

O detalhe do erro.

ErrorResponse

Resposta a erros

ExhaustiveKnnParameters

Contém os parâmetros específicos do algoritmo KNN exaustivo.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Contém opções de configuração específicas do algoritmo KNN exaustivo utilizado durante a consulta, que irá realizar pesquisas de força bruta em todo o índice de vetor.

FreshnessScoringFunction

Define uma função que aumenta as pontuações com base no valor de um campo de data/hora.

FreshnessScoringParameters

Fornece valores de parâmetros para uma função de classificação de frescura.

HnswParameters

Contém os parâmetros específicos do algoritmo HNSW.

HnswVectorSearchAlgorithmConfiguration

Contém opções de configuração específicas do algoritmo de vizinhos mais próximos do HNSW utilizado durante a indexação e consulta. O algoritmo HNSW oferece uma troca atumável entre a velocidade de pesquisa e a precisão.

InputFieldMappingEntry

Mapeamento de campos de entrada para uma competência.

KeepTokenFilter

Um filtro de token que mantém apenas tokens com texto contido numa lista de palavras especificada. Este filtro de token é implementado com o Apache Lucene.

KeywordMarkerTokenFilter

Marca os termos como palavras-chave. Este filtro de token é implementado com o Apache Lucene.

KeywordTokenizer

Emite toda a entrada como um único token. Este tokenizador é implementado com o Apache Lucene.

KeywordTokenizerV2

Emite toda a entrada como um único token. Este tokenizador é implementado com o Apache Lucene.

LengthTokenFilter

Remove palavras demasiado longas ou demasiado curtas. Este filtro de token é implementado com o Apache Lucene.

LexicalAnalyzerName

Define os nomes de todos os analisadores de texto suportados pelo motor de busca.

LexicalNormalizerName

Define os nomes de todos os normalizadores de texto suportados pelo motor de busca.

LexicalTokenizerName

Define os nomes de todos os tokenizers suportados pelo motor de busca.

LimitTokenFilter

Limita o número de tokens durante a indexação. Este filtro de token é implementado com o Apache Lucene.

LuceneStandardAnalyzer

Analisador Padrão do Apache Lucene; Composto pelo tokenizador padrão, filtro em minúsculas e filtro de paragem.

LuceneStandardTokenizer

Quebra o texto ao seguir as regras de Segmentação de Texto Unicode. Este tokenizador é implementado com o Apache Lucene.

LuceneStandardTokenizerV2

Quebra o texto ao seguir as regras de Segmentação de Texto Unicode. Este tokenizador é implementado com o Apache Lucene.

MagnitudeScoringFunction

Define uma função que aumenta as pontuações com base na magnitude de um campo numérico.

MagnitudeScoringParameters

Fornece valores de parâmetros para uma função de classificação de magnitude.

MappingCharFilter

Um filtro de carateres que aplica mapeamentos definidos com a opção mapeamentos. A correspondência é gananciosa (o padrão mais longo que corresponde a um determinado ponto ganha). A substituição pode ser a cadeia vazia. Este filtro de carateres é implementado com o Apache Lucene.

MicrosoftLanguageStemmingTokenizer

Divide o texto através de regras específicas do idioma e reduz as palavras aos respetivos formulários base.

MicrosoftLanguageTokenizer

Divide o texto através de regras específicas do idioma.

MicrosoftStemmingTokenizerLanguage

Listas os idiomas suportados pelo tokenizer de idioma da Microsoft.

MicrosoftTokenizerLanguage

Listas os idiomas suportados pelo tokenizer de idioma da Microsoft.

NGramTokenFilter

Gera n-gramas dos tamanhos especificados. Este filtro de token é implementado com o Apache Lucene.

NGramTokenFilterV2

Gera n-gramas dos tamanhos especificados. Este filtro de token é implementado com o Apache Lucene.

NGramTokenizer

Tokens the input into n-grams of the given size(s). Este tokenizador é implementado com o Apache Lucene.

OutputFieldMappingEntry

Mapeamento de campos de saída para uma competência.

PathHierarchyTokenizerV2

Tokenizer para hierarquias semelhantes a caminho. Este tokenizador é implementado com o Apache Lucene.

PatternAnalyzer

Separa de forma flexível o texto em termos através de um padrão de expressão regular. Este analisador é implementado com o Apache Lucene.

PatternCaptureTokenFilter

Utiliza regexes Java para emitir vários tokens – um para cada grupo de captura num ou mais padrões. Este filtro de token é implementado com o Apache Lucene.

PatternReplaceCharFilter

Um filtro de carateres que substitui carateres na cadeia de entrada. Utiliza uma expressão regular para identificar sequências de carateres para preservar e um padrão de substituição para identificar carateres a substituir. Por exemplo, dado o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Este filtro de carateres é implementado com o Apache Lucene.

PatternReplaceTokenFilter

Um filtro de carateres que substitui carateres na cadeia de entrada. Utiliza uma expressão regular para identificar sequências de carateres para preservar e um padrão de substituição para identificar carateres a substituir. Por exemplo, dado o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Este filtro de token é implementado com o Apache Lucene.

PatternTokenizer

Tokenizer que utiliza a correspondência de padrões regex para construir tokens distintos. Este tokenizador é implementado com o Apache Lucene.

PhoneticEncoder

Identifica o tipo de codificador fonético a utilizar com um PhoneticTokenFilter.

PhoneticTokenFilter

Create tokens para correspondências fonéticas. Este filtro de token é implementado com o Apache Lucene.

PrioritizedFields

Descreve os campos de título, conteúdo e palavras-chave a utilizar para classificação semântica, legendas, destaques e respostas.

RegexFlags

Define sinalizadores que podem ser combinados para controlar a forma como as expressões regulares são utilizadas no analisador de padrões e no tokenizador de padrões.

ScalarQuantizationParameters

Contém os parâmetros específicos da Quantização Escalar.

ScalarQuantizationVectorSearchCompressionConfiguration

Contém opções de configuração específicas do método de compressão de quantização escalar utilizado durante a indexação e a consulta.

ScoringFunctionAggregation

Define a função de agregação utilizada para combinar os resultados de todas as funções de classificação num perfil de classificação.

ScoringFunctionInterpolation

Define a função utilizada para interpolar o aumento de pontuação num intervalo de documentos.

ScoringProfile

Define parâmetros para um índice de pesquisa que influencia a classificação em consultas de pesquisa.

SearchField

Representa um campo numa definição de índice, que descreve o nome, o tipo de dados e o comportamento de pesquisa de um campo.

SearchFieldDataType

Define o tipo de dados de um campo num índice de pesquisa.

SearchIndex

Representa uma definição de índice de pesquisa, que descreve os campos e o comportamento de pesquisa de um índice.

SearchIndexerDataNoneIdentity

Limpa a propriedade de identidade de uma origem de dados.

SearchIndexerDataUserAssignedIdentity

Especifica a identidade de uma origem de dados a utilizar.

SearchResourceEncryptionKey

Uma chave de encriptação gerida pelo cliente no Azure Key Vault. As chaves que cria e gere podem ser utilizadas para encriptar ou desencriptar dados inativos, como índices e mapas de sinónimos.

SemanticConfiguration

Define uma configuração específica a ser utilizada no contexto de capacidades semânticas.

SemanticField

Um campo que é utilizado como parte da configuração semântica.

SemanticSettings

Define parâmetros para um índice de pesquisa que influencia as capacidades semânticas.

ShingleTokenFilter

Cria combinações de tokens como um único token. Este filtro de token é implementado com o Apache Lucene.

SnowballTokenFilter

Um filtro que contém palavras com um stemer gerado por bola de neve. Este filtro de token é implementado com o Apache Lucene.

SnowballTokenFilterLanguage

O idioma a utilizar para um filtro de token snowball.

StemmerOverrideTokenFilter

Fornece a capacidade de substituir outros filtros de deteção com descrições personalizadas baseadas em dicionários. Quaisquer termos sem dicionário serão marcados como palavras-chave para que não sejam decorrentes de stemmers na cadeia. Tem de ser colocado antes de quaisquer filtros de deteção. Este filtro de token é implementado com o Apache Lucene.

StemmerTokenFilter

Filtro de deteção específico da linguagem. Este filtro de token é implementado com o Apache Lucene.

StemmerTokenFilterLanguage

O idioma a utilizar para um filtro de token de stemmer.

StopAnalyzer

Divide o texto em não letras; Aplica os filtros de token em minúsculas e de palavra-passe. Este analisador é implementado com o Apache Lucene.

StopwordsList

Identifica uma lista predefinida de palavras-passe específicas do idioma.

StopwordsTokenFilter

Remove palavras paradas de um fluxo de tokens. Este filtro de token é implementado com o Apache Lucene.

Suggester

Define como a API Suggest deve ser aplicada a um grupo de campos no índice.

SuggesterSearchMode

Um valor que indica as capacidades do sugeridor.

SynonymTokenFilter

Corresponde a sinónimos de palavras individuais ou múltiplas num fluxo de tokens. Este filtro de token é implementado com o Apache Lucene.

TagScoringFunction

Define uma função que aumenta as pontuações de documentos com valores de cadeia que correspondem a uma determinada lista de etiquetas.

TagScoringParameters

Fornece valores de parâmetros para uma função de classificação de etiquetas.

TextWeights

Define os pesos nos campos de índice para os quais as correspondências devem aumentar a classificação nas consultas de pesquisa.

TokenCharacterKind

Representa classes de carateres em que um filtro de token pode funcionar.

TokenFilterName

Define os nomes de todos os filtros de token suportados pelo motor de busca.

TruncateTokenFilter

Trunca os termos para um comprimento específico. Este filtro de token é implementado com o Apache Lucene.

UaxUrlEmailTokenizer

Tokens urls e e-mails como um token. Este tokenizador é implementado com o Apache Lucene.

UniqueTokenFilter

Filtra tokens com o mesmo texto que o token anterior. Este filtro de token é implementado com o Apache Lucene.

VectorEncodingFormat

O formato de codificação para interpretar conteúdos de campos de vetor.

VectorSearch

Contém opções de configuração relacionadas com a pesquisa de vetores.

VectorSearchAlgorithmKind

O algoritmo utilizado para indexar e consultar.

VectorSearchAlgorithmMetric

A métrica de semelhança a utilizar para comparações de vetores. Recomenda-se que escolha a mesma métrica de semelhança em que o modelo de incorporação foi preparado.

VectorSearchCompressionKind

O método de compressão utilizado para indexar e consultar.

VectorSearchCompressionTargetDataType

O tipo de dados quantizado de valores de vetor comprimido.

VectorSearchProfile

Define uma combinação de configurações a utilizar com a pesquisa de vetores.

VectorSearchVectorizerKind

O método de vetorização a utilizar durante o tempo de consulta.

WordDelimiterTokenFilter

Divide palavras em sub-palavras e efetua transformações opcionais em grupos de sub-palavras. Este filtro de token é implementado com o Apache Lucene.

AIServicesVisionParameters

Especifica os parâmetros de Visão dos Serviços de IA para vetorizar uma imagem de consulta ou texto.

Name Tipo Description
apiKey

string

Chave de API do recurso dos Serviços de IA designado.

authIdentity SearchIndexerDataIdentity:

A identidade gerida atribuída pelo utilizador utilizada para ligações de saída. Se for fornecido um authResourceId e não for especificado, é utilizada a identidade gerida atribuída pelo sistema. Nas atualizações ao índice, se a identidade não for especificada, o valor permanece inalterado. Se estiver definido como "nenhum", o valor desta propriedade é limpo.

modelVersion

string

A versão do modelo a utilizar ao chamar o serviço visão dos Serviços de IA. A predefinição será a mais recente disponível quando não for especificada.

resourceUri

string

O URI de recurso do recurso dos Serviços de IA.

AIServicesVisionVectorizer

Especifica os parâmetros de Visão dos Serviços de IA para vetorizar uma imagem de consulta ou texto.

Name Tipo Description
aiServicesVisionParameters

AIServicesVisionParameters

Contém os parâmetros específicos da vetorização de incorporação de Visão dos Serviços de IA.

kind string:

aiServicesVision

O nome do tipo de método de vetorização que está a ser configurado para utilização com a pesquisa de vetores.

name

string

O nome a associar a este método de vetorização específico.

AIStudioModelCatalogName

O nome do modelo de incorporação do Catálogo de Estúdio de IA do Azure que será chamado.

Name Tipo Description
Cohere-embed-v3-english

string

Cohere-embed-v3-multilingual

string

Facebook-DinoV2-Image-Embeddings-ViT-Base

string

Facebook-DinoV2-Image-Embeddings-ViT-Giant

string

OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336

string

OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32

string

AMLParameters

Especifica as propriedades para ligar a um vetor AML.

Name Tipo Description
key

string

(Necessário para autenticação de chaves) A chave para o serviço AML.

modelName

AIStudioModelCatalogName

O nome do modelo de incorporação do Catálogo de Estúdio de IA do Azure implementado no ponto final fornecido.

region

string

(Opcional para autenticação de tokens). A região na qual o serviço AML está implementado.

resourceId

string

(Necessário para autenticação de tokens). O Azure Resource Manager ID de recurso do serviço AML. Deve estar no formato subscrições/{guid}/resourceGroups/{resource-group-name}/Microsoft.MachineLearningServices/workspaces/{workspace-name}/services/{service_name}.

timeout

string

(Opcional) Quando especificado, indica o tempo limite para o cliente http que faz a chamada à API.

uri

string

(Necessário para nenhuma autenticação ou autenticação de chave) O URI de classificação do serviço AML para o qual o payload JSON será enviado. Só é permitido o esquema de URI https.

AMLVectorizer

Especifica um ponto final do Azure Machine Learning implementado através do Catálogo de Modelos do Estúdio de IA do Azure para gerar a incorporação de vetor de uma cadeia de consulta.

Name Tipo Description
amlParameters

AMLParameters

Especifica as propriedades do vetor AML.

kind string:

aml

O nome do tipo de método de vetorização que está a ser configurado para utilização com a pesquisa de vetores.

name

string

O nome a associar a este método de vetorização específico.

AsciiFoldingTokenFilter

Converte carateres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 carateres ASCII (o bloco Unicode "Latim Básico") nos respetivos equivalentes ASCII, se existirem esses equivalentes. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

preserveOriginal

boolean

False

Um valor que indica se o token original será mantido. A predefinição é falso.

AzureActiveDirectoryApplicationCredentials

Credenciais de uma aplicação registada criada para o seu serviço de pesquisa, utilizada para acesso autenticado às chaves de encriptação armazenadas no Azure Key Vault.

Name Tipo Description
applicationId

string

Um ID da Aplicação do AAD a quem foram concedidas as permissões de acesso necessárias para o Azure Key Vault que deve ser utilizado ao encriptar os seus dados inativos. O ID da Aplicação não deve ser confundido com o ID do Objeto da sua Aplicação do AAD.

applicationSecret

string

A chave de autenticação da aplicação do AAD especificada.

AzureOpenAIEmbeddingSkill

Permite-lhe gerar uma incorporação de vetor para uma determinada entrada de texto com o recurso Azure OpenAI.

Name Tipo Description
@odata.type string:

#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill

Um fragmento de URI que especifica o tipo de competência.

apiKey

string

Chave de API do recurso do Azure OpenAI designado.

authIdentity SearchIndexerDataIdentity:

A identidade gerida atribuída pelo utilizador utilizada para ligações de saída.

context

string

Representa o nível em que as operações ocorrem, como a raiz do documento ou o conteúdo do documento (por exemplo, /documento ou /documento/conteúdo). A predefinição é /document.

deploymentId

string

ID da implementação do modelo Azure OpenAI no recurso designado.

description

string

A descrição da competência que descreve as entradas, saídas e utilização da competência.

dimensions

integer

O número de dimensões que as incorporações de saída resultantes devem ter. Apenas suportado em modelos de incorporação de texto 3 e posteriores.

inputs

InputFieldMappingEntry[]

As entradas das competências podem ser uma coluna no conjunto de dados de origem ou a saída de uma competência a montante.

modelName

AzureOpenAIModelName

O nome do modelo de incorporação que é implementado no caminho deploymentId fornecido.

name

string

O nome da competência que a identifica exclusivamente no conjunto de competências. Uma competência sem nome definido receberá um nome predefinido do respetivo índice baseado em 1 na matriz de competências, com o prefixo "#".

outputs

OutputFieldMappingEntry[]

A saída de uma competência é um campo num índice de pesquisa ou um valor que pode ser consumido como uma entrada por outra competência.

resourceUri

string

O URI de recurso do recurso do Azure OpenAI.

AzureOpenAIModelName

O nome do modelo do Azure Open AI que será chamado.

Name Tipo Description
experimental

string

text-embedding-3-large

string

text-embedding-3-small

string

text-embedding-ada-002

string

AzureOpenAIParameters

Especifica os parâmetros para ligar ao recurso openAI do Azure.

Name Tipo Description
apiKey

string

Chave de API do recurso do Azure OpenAI designado.

authIdentity SearchIndexerDataIdentity:

A identidade gerida atribuída pelo utilizador utilizada para ligações de saída.

deploymentId

string

ID da implementação do modelo Azure OpenAI no recurso designado.

modelName

AzureOpenAIModelName

O nome do modelo de incorporação que é implementado no caminho deploymentId fornecido.

resourceUri

string

O URI de recurso do recurso do Azure OpenAI.

AzureOpenAIVectorizer

Especifica o recurso Azure OpenAI utilizado para vetorizar uma cadeia de consulta.

Name Tipo Description
azureOpenAIParameters AzureOpenAIParameters:

AzureOpenAIEmbeddingSkill

Contém os parâmetros específicos da vetorização de incorporação do Azure OpenAI.

kind string:

azureOpenAI

O nome do tipo de método de vetorização que está a ser configurado para utilização com a pesquisa de vetores.

name

string

O nome a associar a este método de vetorização específico.

BM25Similarity

Função de classificação com base no algoritmo de semelhança Okapi BM25. BM25 é um algoritmo semelhante a TF-IDF que inclui a normalização do comprimento (controlada pelo parâmetro "b") bem como a saturação de frequência de termos (controlada pelo parâmetro 'k1').

Name Tipo Description
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number

Esta propriedade controla como o comprimento de um documento afeta a classificação de relevância. Por predefinição, é utilizado um valor de 0,75. Um valor de 0,0 significa que não é aplicada normalização de comprimento, enquanto um valor de 1,0 significa que a classificação é totalmente normalizada pelo comprimento do documento.

k1

number

Esta propriedade controla a função de dimensionamento entre o termo frequência de cada termos correspondentes e a classificação de relevância final de um par de consulta-documento. Por predefinição, é utilizado um valor de 1,2. Um valor de 0,0 significa que a classificação não é dimensionada com um aumento de frequência de termos.

CharFilterName

Define os nomes de todos os filtros de carateres suportados pelo motor de busca.

Name Tipo Description
html_strip

string

Um filtro de carateres que tenta remover construções HTML. Veja https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

Forms bigrams de termos CJK gerados a partir do tokenizer padrão. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

ignoreScripts

CjkBigramTokenFilterScripts[]

Os scripts a ignorar.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

outputUnigrams

boolean

False

Um valor que indica se quer produzir unigramas e bigrams (se verdadeiro) ou apenas bigrams (se falso). A predefinição é falso.

CjkBigramTokenFilterScripts

Scripts que podem ser ignorados por CjkBigramTokenFilter.

Name Tipo Description
han

string

Ignore o script Han ao formar bigrams de termos CJK.

hangul

string

Ignore o script Hangul ao formar bigrams de termos CJK.

hiragana

string

Ignore o script hiragana ao formar bigrams de termos CJK.

katakana

string

Ignore o script katakana ao formar bigrams de termos CJK.

ClassicSimilarity

Algoritmo de semelhança legado que utiliza a implementação Lucene TFIDFSimilarity do TF-IDF. Esta variação de TF-IDF introduz a normalização do comprimento do documento estático, bem como fatores coordenadores que penalizam documentos que apenas correspondem parcialmente às consultas pesquisadas.

Name Tipo Description
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

Tokenizador baseado em gramática adequado para processar a maioria dos documentos de idioma europeu. Este tokenizador é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

maxTokenLength

integer

255

O comprimento máximo do token. A predefinição é 255. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres.

name

string

O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

CommonGramTokenFilter

Construa bigrams para termos que ocorrem frequentemente durante a indexação. Os termos únicos também são indexados, com bigrams sobrepostos. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

commonWords

string[]

O conjunto de palavras comuns.

ignoreCase

boolean

False

Um valor que indica se a correspondência de palavras comuns não será sensível a maiúsculas e minúsculas. A predefinição é falso.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

queryMode

boolean

False

Um valor que indica se o filtro de token está no modo de consulta. Quando está no modo de consulta, o filtro de token gera bigrams e, em seguida, remove palavras comuns e termos únicos seguidos de uma palavra comum. A predefinição é falso.

CorsOptions

Define opções para controlar a Partilha de Recursos De Várias Origens (CORS) para um índice.

Name Tipo Description
allowedOrigins

string[]

A lista de origens a partir das quais será concedido acesso ao código JavaScript ao seu índice. Pode conter uma lista de anfitriões do formulário {protocol}://{fully-qualified-domain-name}[:{port#}], ou um único '*' para permitir todas as origens (não recomendado).

maxAgeInSeconds

integer

A duração para a qual os browsers devem colocar em cache as respostas de verificação prévia CORS. A predefinição é 5 minutos.

CustomAnalyzer

Permite-lhe assumir o controlo sobre o processo de conversão de texto em tokens indexáveis/pesquisáveis. É uma configuração definida pelo utilizador que consiste num tokenizador predefinido único e num ou mais filtros. O tokenizer é responsável por dividir o texto em tokens e os filtros para modificar tokens emitidos pelo tokenizador.

Name Tipo Description
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

Um fragmento de URI que especifica o tipo de analisador.

charFilters

CharFilterName[]

Uma lista de filtros de carateres utilizados para preparar texto de entrada antes de ser processado pelo tokenizador. Por exemplo, podem substituir determinados carateres ou símbolos. Os filtros são executados pela ordem em que estão listados.

name

string

O nome do analisador. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

tokenFilters

TokenFilterName[]

Uma lista de filtros de tokens utilizados para filtrar ou modificar os tokens gerados por um tokenizador. Por exemplo, pode especificar um filtro em minúsculas que converte todos os carateres em minúsculas. Os filtros são executados pela ordem em que estão listados.

tokenizer

LexicalTokenizerName

O nome do tokenizer a utilizar para dividir o texto contínuo numa sequência de tokens, como dividir uma frase em palavras.

CustomNormalizer

Permite-lhe configurar a normalização para campos filtráveis, ordenáveis e facetáveis, que por predefinição operam com correspondência estrita. Esta é uma configuração definida pelo utilizador que consiste em, pelo menos, um ou mais filtros, que modificam o token armazenado.

Name Tipo Description
@odata.type string:

#Microsoft.Azure.Search.CustomNormalizer

Um fragmento de URI que especifica o tipo de normalizador.

charFilters

CharFilterName[]

Uma lista de filtros de carateres utilizados para preparar texto de entrada antes de ser processado. Por exemplo, podem substituir determinados carateres ou símbolos. Os filtros são executados pela ordem em que estão listados.

name

string

O nome do normalizador. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres. Não pode terminar em ".microsoft" nem ".lucene", nem ser chamado de "asciifolding", "standard", "minúscula", "maiúscula" ou "elisão".

tokenFilters

TokenFilterName[]

Uma lista de filtros de token utilizados para filtrar ou modificar o token de entrada. Por exemplo, pode especificar um filtro em minúsculas que converte todos os carateres em minúsculas. Os filtros são executados pela ordem em que estão listados.

CustomVectorizer

Especifica um vetorizador definido pelo utilizador para gerar a incorporação de vetor de uma cadeia de consulta. A integração de um vetor externo é obtida com a interface personalizada da API Web de um conjunto de competências.

Name Tipo Description
customWebApiParameters

CustomWebApiParameters

Especifica as propriedades do vetor definido pelo utilizador.

kind string:

customWebApi

O nome do tipo de método de vetorização que está a ser configurado para utilização com a pesquisa de vetores.

name

string

O nome a associar a este método de vetorização específico.

CustomWebApiParameters

Especifica as propriedades para ligar a um vetor definido pelo utilizador.

Name Tipo Description
authIdentity SearchIndexerDataIdentity:

A identidade gerida atribuída pelo utilizador utilizada para ligações de saída. Se for fornecido um authResourceId e não for especificado, é utilizada a identidade gerida atribuída pelo sistema. Nas atualizações ao indexador, se a identidade não for especificada, o valor permanece inalterado. Se estiver definido como "nenhum", o valor desta propriedade é limpo.

authResourceId

string

Aplica-se a pontos finais personalizados que se ligam ao código externo numa função do Azure ou a outra aplicação que fornece as transformações. Este valor deve ser o ID da aplicação criado para a função ou aplicação quando foi registado no Azure Active Directory. Quando especificado, a vetorização liga-se à função ou aplicação com um ID gerido (atribuído pelo sistema ou pelo utilizador) do serviço de pesquisa e o token de acesso da função ou aplicação, utilizando este valor como o ID de recurso para criar o âmbito do token de acesso.

httpHeaders

object

Os cabeçalhos necessários para fazer o pedido HTTP.

httpMethod

string

O método para o pedido HTTP.

timeout

string

O tempo limite pretendido para o pedido. A predefinição é de 30 segundos.

uri

string

O URI da API Web que fornece o vetor.

DictionaryDecompounderTokenFilter

Decompõe palavras compostas encontradas em muitos idiomas germânicos. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

maxSubwordSize

integer

15

O tamanho máximo da sub-palavra. Apenas as sub-palavras mais curtas do que estas são exportadas. A predefinição é 15. O máximo é 300.

minSubwordSize

integer

2

O tamanho mínimo da sub-palavra. Apenas as sub-palavras mais longas do que estas são exportadas. A predefinição é 2. O máximo é 300.

minWordSize

integer

5

O tamanho mínimo da palavra. Apenas as palavras com mais tempo do que estas são processadas. A predefinição é 5. O máximo é 300.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

onlyLongestMatch

boolean

False

Um valor que indica se deve adicionar apenas a sub-palavra correspondente mais longa à saída. A predefinição é falso.

wordList

string[]

A lista de palavras a corresponder.

DistanceScoringFunction

Define uma função que aumenta as pontuações com base na distância de uma localização geográfica.

Name Tipo Description
boost

number

Um multiplicador para a pontuação não processada. Tem de ser um número positivo diferente de 1,0.

distance

DistanceScoringParameters

Valores de parâmetros para a função de classificação de distância.

fieldName

string

O nome do campo utilizado como entrada para a função de classificação.

interpolation

ScoringFunctionInterpolation

Um valor que indica como o aumento será interpolado entre as pontuações dos documentos; a predefinição é "Linear".

type string:

distance

Indica o tipo de função a utilizar. Os valores válidos incluem magnitude, frescura, distância e etiqueta. O tipo de função tem de ser minúsculo.

DistanceScoringParameters

Fornece valores de parâmetros para uma função de classificação à distância.

Name Tipo Description
boostingDistance

number

A distância em quilómetros da localização de referência onde termina o intervalo de aumento.

referencePointParameter

string

O nome do parâmetro transmitido nas consultas de pesquisa para especificar a localização de referência.

EdgeNGramTokenFilter

Gera n-gramas do(s) tamanho(s) especificado(s) a partir da parte frontal ou traseira de um token de entrada. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

maxGram

integer

2

O comprimento máximo de n-gramas. A predefinição é 2.

minGram

integer

1

O comprimento mínimo de n-gramas. A predefinição é 1. Tem de ser inferior ao valor de maxGram.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

side

EdgeNGramTokenFilterSide

front

Especifica a partir do lado da entrada a partir da qual o n-grama deve ser gerado. A predefinição é "front".

EdgeNGramTokenFilterSide

Especifica a partir de que lado da entrada deve ser gerado um n-grama.

Name Tipo Description
back

string

Especifica que o n-gram deve ser gerado a partir da parte de trás da entrada.

front

string

Especifica que o n-gram deve ser gerado a partir da parte frontal da entrada.

EdgeNGramTokenFilterV2

Gera n-gramas do(s) tamanho(s) especificado(s) a partir da parte frontal ou traseira de um token de entrada. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

Um fragmento de URI que especifica o tipo de filtro de token.

maxGram

integer

2

O comprimento máximo de n-gramas. A predefinição é 2. O máximo é 300.

minGram

integer

1

O comprimento mínimo de n-gramas. A predefinição é 1. O máximo é 300. Tem de ser inferior ao valor de maxGram.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

side

EdgeNGramTokenFilterSide

front

Especifica a partir do lado da entrada a partir da qual o n-grama deve ser gerado. A predefinição é "front".

EdgeNGramTokenizer

Tokens the input from an edge into n-grams of the given size(s). Este tokenizador é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

maxGram

integer

2

O comprimento máximo de n-gramas. A predefinição é 2. O máximo é 300.

minGram

integer

1

O comprimento mínimo de n-gramas. A predefinição é 1. O máximo é 300. Tem de ser inferior ao valor de maxGram.

name

string

O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

tokenChars

TokenCharacterKind[]

Classes de carateres a manter nos tokens.

ElisionTokenFilter

Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (plano). Este filtro de token é implementado com o Apache Lucene.

Name Tipo Description
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

articles

string[]

O conjunto de artigos a remover.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

ErrorAdditionalInfo

Informações adicionais sobre o erro de gestão de recursos.

Name Tipo Description
info

object

As informações adicionais.

type

string

O tipo de informação adicional.

ErrorDetail

O detalhe do erro.

Name Tipo Description
additionalInfo

ErrorAdditionalInfo[]

As informações adicionais do erro.

code

string

O código de erro.

details

ErrorDetail[]

Os detalhes do erro.

message

string

A mensagem de erro.

target

string

O destino do erro.

ErrorResponse

Resposta a erros

Name Tipo Description
error

ErrorDetail

O objeto de erro.

ExhaustiveKnnParameters

Contém os parâmetros específicos do algoritmo KNN exaustivo.

Name Tipo Description
metric

VectorSearchAlgorithmMetric

A métrica de semelhança a utilizar para comparações de vetores.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Contém opções de configuração específicas do algoritmo KNN exaustivo utilizado durante a consulta, que irá realizar pesquisas de força bruta em todo o índice de vetor.

Name Tipo Description
exhaustiveKnnParameters

ExhaustiveKnnParameters

Contém os parâmetros específicos do algoritmo KNN exaustivo.

kind string:

exhaustiveKnn

O nome do tipo de algoritmo que está a ser configurado para utilização com a pesquisa de vetores.

name

string

O nome a associar a esta configuração específica.

FreshnessScoringFunction

Define uma função que aumenta as pontuações com base no valor de um campo de data/hora.

Name Tipo Description
boost

number

Um multiplicador para a pontuação não processada. Tem de ser um número positivo diferente de 1,0.

fieldName

string

O nome do campo utilizado como entrada para a função de classificação.

freshness

FreshnessScoringParameters

Valores de parâmetros para a função de classificação de atualização.

interpolation

ScoringFunctionInterpolation

Um valor que indica como o aumento será interpolado entre as pontuações dos documentos; a predefinição é "Linear".

type string:

freshness

Indica o tipo de função a utilizar. Os valores válidos incluem magnitude, frescura, distância e etiqueta. O tipo de função tem de ser minúsculo.

FreshnessScoringParameters

Fornece valores de parâmetros para uma função de classificação de frescura.

Name Tipo Description
boostingDuration

string

O período de expiração após o qual o aumento irá parar para um documento específico.

HnswParameters

Contém os parâmetros específicos do algoritmo HNSW.

Name Tipo Default value Description
efConstruction

integer

400

O tamanho da lista dinâmica que contém os vizinhos mais próximos, que é utilizado durante o tempo de índice. Aumentar este parâmetro pode melhorar a qualidade do índice, em detrimento do aumento do tempo de indexação. A certa altura, o aumento deste parâmetro leva à diminuição dos retornos.

efSearch

integer

500

O tamanho da lista dinâmica que contém os vizinhos mais próximos, que é utilizado durante o tempo de pesquisa. Aumentar este parâmetro pode melhorar os resultados da pesquisa, em detrimento de uma pesquisa mais lenta. A certa altura, o aumento deste parâmetro leva à diminuição dos retornos.

m

integer

4

O número de ligações bidirecionais criadas para cada novo elemento durante a construção. Aumentar este valor de parâmetro pode melhorar a recuperação e reduzir os tempos de obtenção de conjuntos de dados com elevada dimensionalidade intrínseca em detrimento do aumento do consumo de memória e do tempo de indexação mais longo.

metric

VectorSearchAlgorithmMetric

A métrica de semelhança a utilizar para comparações de vetores.

HnswVectorSearchAlgorithmConfiguration

Contém opções de configuração específicas do algoritmo de vizinhos mais próximos do HNSW utilizado durante a indexação e consulta. O algoritmo HNSW oferece uma troca atumável entre a velocidade de pesquisa e a precisão.

Name Tipo Description
hnswParameters

HnswParameters

Contém os parâmetros específicos do algoritmo HNSW.

kind string:

hnsw

O nome do tipo de algoritmo que está a ser configurado para utilização com a pesquisa de vetores.

name

string

O nome a associar a esta configuração específica.

InputFieldMappingEntry

Mapeamento de campos de entrada para uma competência.

Name Tipo Description
inputs

InputFieldMappingEntry[]

As entradas recursivas utilizadas ao criar um tipo complexo.

name

string

O nome da entrada.

source

string

A origem da entrada.

sourceContext

string

O contexto de origem utilizado para selecionar entradas recursivas.

KeepTokenFilter

Um filtro de token que mantém apenas tokens com texto contido numa lista de palavras especificada. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

keepWords

string[]

A lista de palavras a manter.

keepWordsCase

boolean

False

Um valor que indica se deve reduzir as maiúsculas e minúsculas de todas as palavras primeiro. A predefinição é falso.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

KeywordMarkerTokenFilter

Marca os termos como palavras-chave. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

ignoreCase

boolean

False

Um valor que indica se deve ignorar maiúsculas e minúsculas. Se for verdadeiro, todas as palavras são convertidas em minúsculas primeiro. A predefinição é falso.

keywords

string[]

Uma lista de palavras para marcar como palavras-chave.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

KeywordTokenizer

Emite toda a entrada como um único token. Este tokenizador é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

bufferSize

integer

256

O tamanho da memória intermédia de leitura em bytes. A predefinição é 256.

name

string

O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

KeywordTokenizerV2

Emite toda a entrada como um único token. Este tokenizador é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

Um fragmento de URI que especifica o tipo de tokenizer.

maxTokenLength

integer

256

O comprimento máximo do token. A predefinição é 256. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres.

name

string

O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

LengthTokenFilter

Remove palavras demasiado longas ou demasiado curtas. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

max

integer

300

O comprimento máximo em carateres. A predefinição e o máximo é 300.

min

integer

0

O comprimento mínimo em carateres. A predefinição é 0. O máximo é 300. Tem de ser inferior ao valor máximo.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

LexicalAnalyzerName

Define os nomes de todos os analisadores de texto suportados pelo motor de busca.

Name Tipo Description
ar.lucene

string

Analisador lucene para árabe.

ar.microsoft

string

Analisador da Microsoft para árabe.

bg.lucene

string

Lucene analisador para búlgaro.

bg.microsoft

string

Analisador da Microsoft para búlgaro.

bn.microsoft

string

Analisador da Microsoft para Bangla.

ca.lucene

string

Lucene analyzer para catalão.

ca.microsoft

string

Analisador da Microsoft para catalão.

cs.lucene

string

Analisador lucene para checo.

cs.microsoft

string

Analisador da Microsoft para checo.

da.lucene

string

Lucene analyzer para dinamarquês.

da.microsoft

string

Analisador da Microsoft para dinamarquês.

de.lucene

string

Lucene analyzer para alemão.

de.microsoft

string

Analisador da Microsoft para alemão.

el.lucene

string

Lucene analyzer para grego.

el.microsoft

string

Analisador da Microsoft para grego.

en.lucene

string

Analisador lucene para inglês.

en.microsoft

string

Analisador da Microsoft para inglês.

es.lucene

string

Analisador lucene para espanhol.

es.microsoft

string

Analisador da Microsoft para espanhol.

et.microsoft

string

Analisador da Microsoft para estónio.

eu.lucene

string

Lucene analisador para basco.

fa.lucene

string

Lucene analyzer para persa.

fi.lucene

string

Lucene analyzer para finlandês.

fi.microsoft

string

Analisador da Microsoft para finlandês.

fr.lucene

string

Lucene analyzer para francês.

fr.microsoft

string

Analisador da Microsoft para francês.

ga.lucene

string

Lucene analyzer para irlandês.

gl.lucene

string

Lucene analyzer for Galician.

gu.microsoft

string

Analisador da Microsoft para Gujarati.

he.microsoft

string

Analisador da Microsoft para hebraico.

hi.lucene

string

Analisador lucene para Hindi.

hi.microsoft

string

Analisador da Microsoft para Hindi.

hr.microsoft

string

Analisador da Microsoft para croata.

hu.lucene

string

Lucene analyzer para húngaro.

hu.microsoft

string

Analisador da Microsoft para húngaro.

hy.lucene

string

Lucene analisador para arménio.

id.lucene

string

Analisador lucene para indonésio.

id.microsoft

string

Analisador da Microsoft para indonésio (Bahasa).

is.microsoft

string

Analisador da Microsoft para islandês.

it.lucene

string

Lucene analyzer para italiano.

it.microsoft

string

Analisador da Microsoft para italiano.

ja.lucene

string

Analisador lucene para japonês.

ja.microsoft

string

Analisador da Microsoft para japonês.

keyword

string

Trata todo o conteúdo de um campo como um único token. Isto é útil para dados como códigos postais, IDs e alguns nomes de produtos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Analisador da Microsoft para Kannada.

ko.lucene

string

Lucene analyzer para coreano.

ko.microsoft

string

Analisador da Microsoft para coreano.

lt.microsoft

string

Analisador da Microsoft para lituano.

lv.lucene

string

Lucene analyzer para letão.

lv.microsoft

string

Analisador da Microsoft para letão.

ml.microsoft

string

Analisador da Microsoft para Malayalam.

mr.microsoft

string

Analisador da Microsoft para Marathi.

ms.microsoft

string

Analisador da Microsoft para Malaio (Latim).

nb.microsoft

string

Analisador da Microsoft para norueguês (Bokmål).

nl.lucene

string

Lucene analyzer para neerlandês.

nl.microsoft

string

Analisador da Microsoft para neerlandês.

no.lucene

string

Lucene analyzer para norueguês.

pa.microsoft

string

Analisador da Microsoft para Punjabi.

pattern

string

Separa flexívelmente o texto em termos através de um padrão de expressão normal. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Lucene analyzer para polaco.

pl.microsoft

string

Analisador da Microsoft para polaco.

pt-BR.lucene

string

Analisador lucene para português (Brasil).

pt-BR.microsoft

string

Analisador da Microsoft para português (Brasil).

pt-PT.lucene

string

Analisador lucene para português (Portugal).

pt-PT.microsoft

string

Analisador da Microsoft para Português (Portugal).

ro.lucene

string

Lucene analyzer para romeno.

ro.microsoft

string

Analisador da Microsoft para romeno.

ru.lucene

string

Analisador lucene para russo.

ru.microsoft

string

Analisador da Microsoft para russo.

simple

string

Divide o texto em não letras e converte-o em minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Analisador da Microsoft para Eslovaco.

sl.microsoft

string

Analisador da Microsoft para esloveno.

sr-cyrillic.microsoft

string

Analisador da Microsoft para sérvio (cirílico).

sr-latin.microsoft

string

Analisador da Microsoft para sérvio (latim).

standard.lucene

string

Analisador Lucene Padrão.

standardasciifolding.lucene

string

Analisador Lucene de Dobragem ASCII Padrão. Veja https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Divide texto em não letras; Aplica os filtros de token de palavras-passe e minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Lucene analyzer para sueco.

sv.microsoft

string

Analisador da Microsoft para sueco.

ta.microsoft

string

Analisador da Microsoft para Tamil.

te.microsoft

string

Analisador da Microsoft para Telugu.

th.lucene

string

Lucene analyzer para tailandês.

th.microsoft

string

Analisador da Microsoft para tailandês.

tr.lucene

string

Lucene analyzer para turco.

tr.microsoft

string

Analisador da Microsoft para turco.

uk.microsoft

string

Analisador da Microsoft para ucraniano.

ur.microsoft

string

Analisador da Microsoft para Urdu.

vi.microsoft

string

Analisador da Microsoft para vietnamitas.

whitespace

string

Um analisador que utiliza o tokenizador do espaço em branco. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Analisador lucene para chinês (Simplificado).

zh-Hans.microsoft

string

Analisador da Microsoft para chinês (Simplificado).

zh-Hant.lucene

string

Analisador lucene para chinês (tradicional).

zh-Hant.microsoft

string

Analisador da Microsoft para chinês (tradicional).

LexicalNormalizerName

Define os nomes de todos os normalizadores de texto suportados pelo motor de busca.

Name Tipo Description
asciifolding

string

Converte carateres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 carateres ASCII (o bloco Unicode "Latim Básico") nos respetivos equivalentes ASCII, se existirem esses equivalentes. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

string

Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (plano). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

string

Normaliza o texto do token em minúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

string

Normalizador padrão, que consiste em minúsculas e asciifolding. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

string

Normaliza o texto do token em maiúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Define os nomes de todos os tokenizers suportados pelo motor de busca.

Name Tipo Description
classic

string

Tokenizador baseado em gramática adequado para processar a maioria dos documentos de idioma europeu. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokens the input from an edge into n-grams of the given size(s). Veja https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Emite toda a entrada como um único token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Divide o texto em não letras. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Divide o texto em não letras e converte-o em minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Divide o texto através de regras específicas do idioma e reduz as palavras aos respetivos formulários base.

microsoft_language_tokenizer

string

Divide o texto através de regras específicas do idioma.

nGram

string

Tokens the input into n-grams of the given size(s). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Tokenizer para hierarquias semelhantes a caminho. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizer que utiliza a correspondência de padrões regex para construir tokens distintos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Analisador Lucene Padrão; Composto pelo tokenizador padrão, filtro em minúsculas e filtro de paragem. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Tokens urls e e-mails como um token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Divide o texto no espaço em branco. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

Limita o número de tokens durante a indexação. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

consumeAllTokens

boolean

False

Um valor que indica se todos os tokens da entrada têm de ser consumidos mesmo que maxTokenCount seja atingido. A predefinição é falso.

maxTokenCount

integer

1

O número máximo de tokens a produzir. A predefinição é 1.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

LuceneStandardAnalyzer

Analisador Padrão do Apache Lucene; Composto pelo tokenizador padrão, filtro em minúsculas e filtro de paragem.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

Um fragmento de URI que especifica o tipo de analisador.

maxTokenLength

integer

255

O comprimento máximo do token. A predefinição é 255. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres.

name

string

O nome do analisador. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

stopwords

string[]

Uma lista de palavras-passe.

LuceneStandardTokenizer

Quebra o texto ao seguir as regras de Segmentação de Texto Unicode. Este tokenizador é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

maxTokenLength

integer

255

O comprimento máximo do token. A predefinição é 255. Os tokens com mais tempo do que o comprimento máximo são divididos.

name

string

O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

LuceneStandardTokenizerV2

Quebra o texto ao seguir as regras de Segmentação de Texto Unicode. Este tokenizador é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

Um fragmento de URI que especifica o tipo de tokenizer.

maxTokenLength

integer

255

O comprimento máximo do token. A predefinição é 255. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres.

name

string

O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

MagnitudeScoringFunction

Define uma função que aumenta as pontuações com base na magnitude de um campo numérico.

Name Tipo Description
boost

number

Um multiplicador para a pontuação não processada. Tem de ser um número positivo diferente de 1,0.

fieldName

string

O nome do campo utilizado como entrada para a função de classificação.

interpolation

ScoringFunctionInterpolation

Um valor que indica como o aumento será interpolado entre as pontuações dos documentos; a predefinição é "Linear".

magnitude

MagnitudeScoringParameters

Valores de parâmetros para a função de classificação de magnitude.

type string:

magnitude

Indica o tipo de função a utilizar. Os valores válidos incluem magnitude, frescura, distância e etiqueta. O tipo de função tem de ser minúsculo.

MagnitudeScoringParameters

Fornece valores de parâmetros para uma função de classificação de magnitude.

Name Tipo Description
boostingRangeEnd

number

O valor do campo em que o aumento termina.

boostingRangeStart

number

O valor do campo em que o aumento é iniciado.

constantBoostBeyondRange

boolean

Um valor que indica se deve aplicar um aumento constante para valores de campo para além do valor final do intervalo; predefinição é falso.

MappingCharFilter

Um filtro de carateres que aplica mapeamentos definidos com a opção mapeamentos. A correspondência é gananciosa (o padrão mais longo que corresponde a um determinado ponto ganha). A substituição pode ser a cadeia vazia. Este filtro de carateres é implementado com o Apache Lucene.

Name Tipo Description
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

Um fragmento de URI que especifica o tipo de filtro de caráter.

mappings

string[]

Uma lista de mapeamentos do seguinte formato: "a=>b" (todas as ocorrências do caráter "a" serão substituídas pelo caráter "b").

name

string

O nome do filtro char. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

MicrosoftLanguageStemmingTokenizer

Divide o texto através de regras específicas do idioma e reduz as palavras aos respetivos formulários base.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

isSearchTokenizer

boolean

False

Um valor que indica como o tokenizer é utilizado. Defina como verdadeiro se for utilizado como o tokenizer de pesquisa, defina como falso se for utilizado como o tokenizador de indexação. A predefinição é falso.

language

MicrosoftStemmingTokenizerLanguage

O idioma a utilizar. A predefinição é inglês.

maxTokenLength

integer

255

O comprimento máximo do token. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. Os tokens com mais de 300 carateres são divididos em tokens de comprimento 300 e, em seguida, cada um desses tokens é dividido com base no conjunto de comprimento máximo do token. A predefinição é 255.

name

string

O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

MicrosoftLanguageTokenizer

Divide o texto através de regras específicas do idioma.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

isSearchTokenizer

boolean

False

Um valor que indica como o tokenizer é utilizado. Defina como verdadeiro se for utilizado como o tokenizer de pesquisa, defina como falso se for utilizado como o tokenizador de indexação. A predefinição é falso.

language

MicrosoftTokenizerLanguage

O idioma a utilizar. A predefinição é inglês.

maxTokenLength

integer

255

O comprimento máximo do token. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres. Os tokens com mais de 300 carateres são divididos em tokens de comprimento 300 e, em seguida, cada um desses tokens é dividido com base no conjunto de comprimento máximo do token. A predefinição é 255.

name

string

O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

MicrosoftStemmingTokenizerLanguage

Listas os idiomas suportados pelo tokenizer de idioma da Microsoft.

Name Tipo Description
arabic

string

Seleciona o tokenizer Decorrido da Microsoft para árabe.

bangla

string

Seleciona o tokenizer Decorrido da Microsoft para Bangla.

bulgarian

string

Seleciona o tokenizer Decorrido pela Microsoft para búlgaro.

catalan

string

Seleciona o tokenizer Decorrido pela Microsoft para catalão.

croatian

string

Seleciona o tokenizer Decorrido pela Microsoft para croata.

czech

string

Seleciona o tokenizer de retenção da Microsoft para checo.

danish

string

Seleciona o tokenizador Decorrido da Microsoft para dinamarquês.

dutch

string

Seleciona o tokenizer Decorrido pela Microsoft para neerlandês.

english

string

Seleciona o tokenizer Decorrido da Microsoft para inglês.

estonian

string

Seleciona o tokenizador de deteção da Microsoft para estónio.

finnish

string

Seleciona o tokenizador de deteção da Microsoft para finlandês.

french

string

Seleciona o tokenizador Decorrido da Microsoft para francês.

german

string

Seleciona o tokenizer Decorrido pela Microsoft para alemão.

greek

string

Seleciona o tokenizer Decorrido pela Microsoft para grego.

gujarati

string

Seleciona o tokenizer Decorrido pela Microsoft para o Gudoso.

hebrew

string

Seleciona o tokenizador de decorrido da Microsoft para hebraico.

hindi

string

Seleciona o tokenizer Decorrido pela Microsoft para Hindi.

hungarian

string

Seleciona o tokenizador de deteção da Microsoft para húngaro.

icelandic

string

Seleciona o tokenizer Decorrido pela Microsoft para islandês.

indonesian

string

Seleciona o tokenizador de deteção da Microsoft para indonésio.

italian

string

Seleciona o tokenizador de decorrido da Microsoft para italiano.

kannada

string

Seleciona o tokenizer Decorrido da Microsoft para Kannada.

latvian

string

Seleciona o tokenizer de retenção da Microsoft para letão.

lithuanian

string

Seleciona o tokenizer Decorrido pela Microsoft para lituano.

malay

string

Seleciona o tokenizer Decorrido pela Microsoft para Malaio.

malayalam

string

Seleciona o tokenizer Decorrido da Microsoft para Malayalam.

marathi

string

Seleciona o tokenizer Decorrido da Microsoft para o Marathi.

norwegianBokmaal

string

Seleciona o tokenizer Decorrido da Microsoft para norueguês (Bokmål).

polish

string

Seleciona o tokenizer Decorrido da Microsoft para polaco.

portuguese

string

Seleciona o tokenizador Decorrido da Microsoft para português.

portugueseBrazilian

string

Seleciona o tokenizador Decorrido da Microsoft para português (Brasil).

punjabi

string

Seleciona o tokenizer Decorrido da Microsoft para Punjabi.

romanian

string

Seleciona o tokenizer Decorrido da Microsoft para romeno.

russian

string

Seleciona o tokenizer Decorrido pela Microsoft para russo.

serbianCyrillic

string

Seleciona o tokenizador Decorrido pela Microsoft para sérvio (cirílico).

serbianLatin

string

Seleciona o tokenizador de deteção da Microsoft para sérvio (latim).

slovak

string

Seleciona o tokenizer Decorrido da Microsoft para eslovaco.

slovenian

string

Seleciona o tokenizador Decorrido da Microsoft para esloveno.

spanish

string

Seleciona o tokenizer Decorrido pela Microsoft para espanhol.

swedish

string

Seleciona o tokenizador de deteção da Microsoft para sueco.

tamil

string

Seleciona o tokenizer Decorrido da Microsoft para Tamil.

telugu

string

Seleciona o tokenizer Decorrido da Microsoft para Telugu.

turkish

string

Seleciona o tokenizer de deteção da Microsoft para turco.

ukrainian

string

Seleciona o tokenizer Decorrido pela Microsoft para ucraniano.

urdu

string

Seleciona o tokenizer Decorrido pela Microsoft para Urdu.

MicrosoftTokenizerLanguage

Listas os idiomas suportados pelo tokenizer de idioma da Microsoft.

Name Tipo Description
bangla

string

Seleciona o tokenizer da Microsoft para Bangla.

bulgarian

string

Seleciona o tokenizer da Microsoft para búlgaro.

catalan

string

Seleciona o tokenizer da Microsoft para catalão.

chineseSimplified

string

Seleciona o tokenizer da Microsoft para chinês (Simplificado).

chineseTraditional

string

Seleciona o tokenizer da Microsoft para chinês (tradicional).

croatian

string

Seleciona o tokenizer da Microsoft para croata.

czech

string

Seleciona o tokenizer da Microsoft para checo.

danish

string

Seleciona o tokenizer da Microsoft para dinamarquês.

dutch

string

Seleciona o tokenizer da Microsoft para neerlandês.

english

string

Seleciona o tokenizer da Microsoft para inglês.

french

string

Seleciona o tokenizer da Microsoft para francês.

german

string

Seleciona o tokenizer da Microsoft para alemão.

greek

string

Seleciona o tokenizer da Microsoft para grego.

gujarati

string

Seleciona o tokenizer da Microsoft para o Gujarati.

hindi

string

Seleciona o tokenizer da Microsoft para Hindi.

icelandic

string

Seleciona o tokenizer da Microsoft para islandês.

indonesian

string

Seleciona o tokenizer da Microsoft para indonésio.

italian

string

Seleciona o tokenizer da Microsoft para italiano.

japanese

string

Seleciona o tokenizer da Microsoft para japonês.

kannada

string

Seleciona o tokenizer da Microsoft para Kannada.

korean

string

Seleciona o tokenizer da Microsoft para coreano.

malay

string

Seleciona o tokenizer da Microsoft para Malaio.

malayalam

string

Seleciona o tokenizer da Microsoft para Malayalam.

marathi

string

Seleciona o tokenizer da Microsoft para Marathi.

norwegianBokmaal

string

Seleciona o tokenizer da Microsoft para norueguês (Bokmål).

polish

string

Seleciona o tokenizer da Microsoft para polaco.

portuguese

string

Seleciona o tokenizer da Microsoft para português.

portugueseBrazilian

string

Seleciona o tokenizer da Microsoft para português (Brasil).

punjabi

string

Seleciona o tokenizer da Microsoft para Punjabi.

romanian

string

Seleciona o tokenizer da Microsoft para romeno.

russian

string

Seleciona o tokenizer da Microsoft para russo.

serbianCyrillic

string

Seleciona o tokenizer da Microsoft para sérvio (cirílico).

serbianLatin

string

Seleciona o tokenizer da Microsoft para sérvio (latim).

slovenian

string

Seleciona o tokenizer da Microsoft para esloveno.

spanish

string

Seleciona o tokenizer da Microsoft para espanhol.

swedish

string

Seleciona o tokenizer da Microsoft para sueco.

tamil

string

Seleciona o tokenizer da Microsoft para Tamil.

telugu

string

Seleciona o tokenizer da Microsoft para Telugu.

thai

string

Seleciona o tokenizer da Microsoft para tailandês.

ukrainian

string

Seleciona o tokenizer da Microsoft para ucraniano.

urdu

string

Seleciona o tokenizer da Microsoft para Urdu.

vietnamese

string

Seleciona o tokenizer da Microsoft para vietnamitas.

NGramTokenFilter

Gera n-gramas dos tamanhos especificados. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

maxGram

integer

2

O comprimento máximo de n-gramas. A predefinição é 2.

minGram

integer

1

O comprimento mínimo de n-gramas. A predefinição é 1. Tem de ser inferior ao valor de maxGram.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

NGramTokenFilterV2

Gera n-gramas dos tamanhos especificados. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

Um fragmento de URI que especifica o tipo de filtro de token.

maxGram

integer

2

O comprimento máximo de n-gramas. A predefinição é 2. O máximo é 300.

minGram

integer

1

O comprimento mínimo de n-gramas. A predefinição é 1. O máximo é 300. Tem de ser inferior ao valor de maxGram.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

NGramTokenizer

Tokens the input into n-grams of the given size(s). Este tokenizador é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

maxGram

integer

2

O comprimento máximo de n-gramas. A predefinição é 2. O máximo é 300.

minGram

integer

1

O comprimento mínimo de n-gramas. A predefinição é 1. O máximo é 300. Tem de ser inferior ao valor de maxGram.

name

string

O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

tokenChars

TokenCharacterKind[]

Classes de carateres a manter nos tokens.

OutputFieldMappingEntry

Mapeamento de campos de saída para uma competência.

Name Tipo Description
name

string

O nome da saída definida pela competência.

targetName

string

O nome de destino da saída. É opcional e predefinição para nome.

PathHierarchyTokenizerV2

Tokenizer para hierarquias semelhantes a caminho. Este tokenizador é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

Um fragmento de URI que especifica o tipo de tokenizer.

delimiter

string

/

O caráter delimitador a utilizar. A predefinição é "/".

maxTokenLength

integer

300

O comprimento máximo do token. A predefinição e o máximo é 300.

name

string

O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

replacement

string

/

Um valor que, se definido, substitui o caráter delimitador. A predefinição é "/".

reverse

boolean

False

Um valor que indica se pretende gerar tokens por ordem inversa. A predefinição é falso.

skip

integer

0

O número de tokens iniciais a ignorar. A predefinição é 0.

PatternAnalyzer

Separa de forma flexível o texto em termos através de um padrão de expressão regular. Este analisador é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

Um fragmento de URI que especifica o tipo de analisador.

flags

RegexFlags

Sinalizadores de expressão regulares.

lowercase

boolean

True

Um valor que indica se os termos devem ser minúsculos. A predefinição é verdadeiro.

name

string

O nome do analisador. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

pattern

string

\W+

Um padrão de expressão regular para corresponder aos separadores de tokens. A predefinição é uma expressão que corresponde a um ou mais carateres que não são palavras.

stopwords

string[]

Uma lista de palavras-passe.

PatternCaptureTokenFilter

Utiliza regexes Java para emitir vários tokens – um para cada grupo de captura num ou mais padrões. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

patterns

string[]

Uma lista de padrões que correspondem a cada token.

preserveOriginal

boolean

True

Um valor que indica se deve devolver o token original mesmo que um dos padrões corresponda. A predefinição é verdadeiro.

PatternReplaceCharFilter

Um filtro de carateres que substitui carateres na cadeia de entrada. Utiliza uma expressão regular para identificar sequências de carateres para preservar e um padrão de substituição para identificar carateres a substituir. Por exemplo, dado o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Este filtro de carateres é implementado com o Apache Lucene.

Name Tipo Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

Um fragmento de URI que especifica o tipo de filtro de caráter.

name

string

O nome do filtro char. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

pattern

string

Um padrão de expressão normal.

replacement

string

O texto de substituição.

PatternReplaceTokenFilter

Um filtro de carateres que substitui carateres na cadeia de entrada. Utiliza uma expressão regular para identificar sequências de carateres para preservar e um padrão de substituição para identificar carateres a substituir. Por exemplo, dado o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Este filtro de token é implementado com o Apache Lucene.

Name Tipo Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

pattern

string

Um padrão de expressão normal.

replacement

string

O texto de substituição.

PatternTokenizer

Tokenizer que utiliza a correspondência de padrões regex para construir tokens distintos. Este tokenizador é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

flags

RegexFlags

Sinalizadores de expressão regulares.

group

integer

-1

O ordinal baseado em zero do grupo correspondente no padrão de expressão regular para extrair em tokens. Utilize -1 se quiser utilizar todo o padrão para dividir a entrada em tokens, independentemente dos grupos correspondentes. A predefinição é -1.

name

string

O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

pattern

string

\W+

Um padrão de expressão regular para corresponder aos separadores de tokens. A predefinição é uma expressão que corresponde a um ou mais carateres que não são palavras.

PhoneticEncoder

Identifica o tipo de codificador fonético a utilizar com um PhoneticTokenFilter.

Name Tipo Description
beiderMorse

string

Codifica um token num valor de Beider-Morse.

caverphone1

string

Codifica um token num valor Caverphone 1.0.

caverphone2

string

Codifica um token num valor Caverphone 2.0.

cologne

string

Codifica um token num valor Fonético de Colónia.

doubleMetaphone

string

Codifica um token num valor de metafone duplo.

haasePhonetik

string

Codifica um token com o refinamento haase do algoritmo Kölner Phonetik.

koelnerPhonetik

string

Codifica um token com o algoritmo Kölner Phonetik.

metaphone

string

Codifica um token num valor metafone.

nysiis

string

Codifica um token num valor NYSIIS.

refinedSoundex

string

Codifica um token num valor Soundex Refinado.

soundex

string

Codifica um token num valor Soundex.

PhoneticTokenFilter

Create tokens para correspondências fonéticas. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

encoder

PhoneticEncoder

metaphone

O codificador fonético a utilizar. A predefinição é "metafone".

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

replace

boolean

True

Um valor que indica se os tokens codificados devem substituir os tokens originais. Se forem falsos, os tokens codificados são adicionados como sinónimos. A predefinição é verdadeiro.

PrioritizedFields

Descreve os campos de título, conteúdo e palavras-chave a utilizar para classificação semântica, legendas, destaques e respostas.

Name Tipo Description
prioritizedContentFields

SemanticField[]

Define os campos de conteúdo a utilizar para classificação semântica, legendas, destaques e respostas. Para obter o melhor resultado, os campos selecionados devem conter texto em formato de linguagem natural. A ordem dos campos na matriz representa a sua prioridade. Os campos com prioridade inferior podem ficar truncados se o conteúdo for longo.

prioritizedKeywordsFields

SemanticField[]

Define os campos de palavra-chave a utilizar para classificação semântica, legendas, destaques e respostas. Para obter o melhor resultado, os campos selecionados devem conter uma lista de palavras-chave. A ordem dos campos na matriz representa a sua prioridade. Os campos com prioridade inferior podem ficar truncados se o conteúdo for longo.

titleField

SemanticField

Define o campo de título a utilizar para classificação semântica, legendas, destaques e respostas. Se não tiver um campo de título no índice, deixe este campo em branco.

RegexFlags

Define sinalizadores que podem ser combinados para controlar a forma como as expressões regulares são utilizadas no analisador de padrões e no tokenizador de padrões.

Name Tipo Description
CANON_EQ

string

Permite equivalência canónica.

CASE_INSENSITIVE

string

Ativa a correspondência não sensível a maiúsculas e minúsculas.

COMMENTS

string

Permite espaços em branco e comentários no padrão.

DOTALL

string

Ativa o modo de dotall.

LITERAL

string

Permite a análise literal do padrão.

MULTILINE

string

Ativa o modo de várias linhas.

UNICODE_CASE

string

Ativa a dobragem de casos com deteção unicode.

UNIX_LINES

string

Ativa o modo de linhas Unix.

ScalarQuantizationParameters

Contém os parâmetros específicos da Quantização Escalar.

Name Tipo Description
quantizedDataType

VectorSearchCompressionTargetDataType

O tipo de dados quantizado de valores de vetor comprimido.

ScalarQuantizationVectorSearchCompressionConfiguration

Contém opções de configuração específicas do método de compressão de quantização escalar utilizado durante a indexação e a consulta.

Name Tipo Default value Description
defaultOversampling

number

Fator de sobreaplicação predefinido. A sobreaplicação irá pedir internamente mais documentos (especificado por este multiplicador) na pesquisa inicial. Isto aumenta o conjunto de resultados que serão reclassificados com pontuações de semelhança recomputadas de vetores de precisão total. O valor mínimo é 1, o que significa que não existe sobreaplicação (1x). Este parâmetro só pode ser definido quando rerankWithOriginalVectors for true. Os valores mais elevados melhoram a recuperação em detrimento da latência.

kind string:

scalarQuantization

O nome do tipo de método de compressão que está a ser configurado para utilização com a pesquisa de vetores.

name

string

O nome a associar a esta configuração específica.

rerankWithOriginalVectors

boolean

True

Se for definido como verdadeiro, assim que o conjunto ordenado de resultados calculado com vetores comprimidos for obtido, estes serão novamente reclassificados ao recálculo das pontuações de semelhança de precisão total. Isto melhorará a recuperação em detrimento da latência.

scalarQuantizationParameters

ScalarQuantizationParameters

Contém os parâmetros específicos da Quantização Escalar.

ScoringFunctionAggregation

Define a função de agregação utilizada para combinar os resultados de todas as funções de classificação num perfil de classificação.

Name Tipo Description
average

string

Aumente as pontuações pela média de todos os resultados da função de classificação.

firstMatching

string

Aumente as pontuações com a primeira função de classificação aplicável no perfil de classificação.

maximum

string

Aumente as pontuações pelo máximo de todos os resultados da função de classificação.

minimum

string

Aumente as pontuações pelo mínimo de todos os resultados da função de classificação.

sum

string

Aumente as pontuações pela soma de todos os resultados da função de classificação.

ScoringFunctionInterpolation

Define a função utilizada para interpolar o aumento de pontuação num intervalo de documentos.

Name Tipo Description
constant

string

Aumenta as pontuações por um fator constante.

linear

string

Aumenta as pontuações por uma quantidade linearmente decrescente. Esta é a interpolação predefinida para funções de classificação.

logarithmic

string

Aumenta as pontuações por uma quantidade que diminui logaritmoticamente. Aumenta a diminuição rapidamente para pontuações mais altas e mais lentamente à medida que as pontuações diminuem. Esta opção de interpolação não é permitida nas funções de classificação de etiquetas.

quadratic

string

Aumenta as pontuações em uma quantidade que diminui quadráticamente. Os aumentos diminuem lentamente para pontuações mais altas e mais rapidamente à medida que as pontuações diminuem. Esta opção de interpolação não é permitida nas funções de classificação de etiquetas.

ScoringProfile

Define parâmetros para um índice de pesquisa que influencia a classificação em consultas de pesquisa.

Name Tipo Description
functionAggregation

ScoringFunctionAggregation

Um valor que indica como os resultados das funções de classificação individuais devem ser combinados. A predefinição é "Soma". Ignorado se não existirem funções de classificação.

functions ScoringFunction[]:

A coleção de funções que influenciam a classificação de documentos.

name

string

O nome do perfil de classificação.

text

TextWeights

Parâmetros que aumentam a classificação com base em correspondências de texto em determinados campos de índice.

SearchField

Representa um campo numa definição de índice, que descreve o nome, o tipo de dados e o comportamento de pesquisa de um campo.

Name Tipo Description
analyzer

LexicalAnalyzerName

O nome do analisador a utilizar para o campo. Esta opção só pode ser utilizada com campos pesquisáveis e não pode ser definida em conjunto com searchAnalyzer ou indexAnalyzer. Depois de o analisador ser escolhido, não pode ser alterado para o campo. Tem de ser nulo para campos complexos.

dimensions

integer

A dimensionalidade do campo de vetor.

facetable

boolean

Um valor que indica se o campo deve ser referenciado em consultas de facetas. Normalmente utilizado numa apresentação de resultados de pesquisa que inclui a contagem de resultados por categoria (por exemplo, procure câmaras digitais e veja acessos por marca, por megapixéis, por preço, etc.). Esta propriedade tem de ser nula para campos complexos. Os campos do tipo Edm.GeographyPoint ou Collection(Edm.GeographyPoint) não podem ser facetáveis. A predefinição é verdadeira para todos os outros campos simples.

fields

SearchField[]

Uma lista de subdomínios se este for um campo do tipo Edm.ComplexType ou Collection(Edm.ComplexType). Tem de ser nulo ou estar vazio para campos simples.

filterable

boolean

Um valor que indica se o campo deve ser referenciado em consultas $filter. filtráveis difere do pesquisável na forma como as cadeias são processadas. Os campos do tipo Edm.String ou Collection(Edm.String) que são filtráveis não são submetidos a quebras de palavras, pelo que as comparações destinam-se apenas a correspondências exatas. Por exemplo, se definir tal campo f como "dia ensolarado", $filter=f eq "ensolarado" não encontrará correspondências, mas $filter=f eq "dia ensolarado" irá. Esta propriedade tem de ser nula para campos complexos. A predefinição é verdadeira para campos simples e nulo para campos complexos.

indexAnalyzer

LexicalAnalyzerName

O nome do analisador utilizado no momento da indexação do campo. Esta opção só pode ser utilizada com campos pesquisáveis. Tem de ser definido em conjunto com searchAnalyzer e não pode ser definido em conjunto com a opção analisador. Esta propriedade não pode ser definida como o nome de um analisador de idiomas; utilize a propriedade analyzer se precisar de um analisador de idiomas. Depois de o analisador ser escolhido, não pode ser alterado para o campo. Tem de ser nulo para campos complexos.

key

boolean

Um valor que indica se o campo identifica exclusivamente documentos no índice. Exatamente um campo de nível superior em cada índice tem de ser escolhido como o campo de chave e tem de ser do tipo Edm.String. Os campos de chave podem ser utilizados para procurar documentos diretamente e atualizar ou eliminar documentos específicos. A predefinição é falso para campos simples e nulo para campos complexos.

name

string

O nome do campo, que tem de ser exclusivo na coleção de campos do campo principal ou índice.

normalizer

LexicalNormalizerName

O nome do normalizador a utilizar para o campo. Esta opção só pode ser utilizada com campos com filtragem, ordenável ou facetável ativada. Uma vez escolhido o normalizador, não pode ser alterado para o campo. Tem de ser nulo para campos complexos.

retrievable

boolean

Um valor que indica se o campo pode ser devolvido num resultado de pesquisa. Pode desativar esta opção se quiser utilizar um campo (por exemplo, margem) como um filtro, ordenação ou mecanismo de classificação, mas não quiser que o campo seja visível para o utilizador final. Esta propriedade tem de ser verdadeira para campos de chave e tem de ser nula para campos complexos. Esta propriedade pode ser alterada em campos existentes. Ativar esta propriedade não causa qualquer aumento nos requisitos de armazenamento de índices. A predefinição é verdadeira para campos simples, falso para campos de vetor e nulo para campos complexos.

searchAnalyzer

LexicalAnalyzerName

O nome do analisador utilizado no momento da pesquisa do campo. Esta opção só pode ser utilizada com campos pesquisáveis. Tem de ser definido em conjunto com o indexAnalyzer e não pode ser definido em conjunto com a opção analisador. Esta propriedade não pode ser definida como o nome de um analisador de idiomas; utilize a propriedade analyzer se precisar de um analisador de idiomas. Este analisador pode ser atualizado num campo existente. Tem de ser nulo para campos complexos.

searchable

boolean

Um valor que indica se o campo é pesquisável em texto completo. Isto significa que será submetido a uma análise, como quebra de palavras durante a indexação. Se definir um campo pesquisável para um valor como "sunny day", será dividido internamente nos tokens individuais "sunny" e "day". Isto permite pesquisas em texto completo para estes termos. Os campos do tipo Edm.String ou Collection(Edm.String) são pesquisáveis por predefinição. Esta propriedade tem de ser falsa para campos simples de outros tipos de dados sem cadeia e tem de ser nula para campos complexos. Nota: os campos pesquisáveis consomem espaço adicional no índice para acomodar versões token adicionais do valor do campo para pesquisas de texto completo. Se quiser poupar espaço no índice e não precisar que um campo seja incluído nas pesquisas, defina pesquisável como falso.

sortable

boolean

Um valor que indica se o campo deve ser referenciado em expressões $orderby. Por predefinição, o motor de busca ordena os resultados por classificação, mas em muitas experiências os utilizadores vão querer ordenar por campos nos documentos. Um campo simples só pode ser ordenado se for de valor único (tem um único valor no âmbito do documento principal). Os campos de coleção simples não podem ser ordenados, uma vez que são de valores múltiplos. Os subdomissões simples de coleções complexas também têm valores múltiplos e, por conseguinte, não podem ser ordenados. Isto é verdade, quer se trate de um campo principal imediato, ou de um campo predecessor, que é a coleção complexa. Os campos complexos não podem ser ordenados e a propriedade ordenável tem de ser nula para esses campos. A predefinição para ordenável é verdadeira para campos simples de valor único, falso para campos simples de valores múltiplos e nulo para campos complexos.

stored

boolean

Um valor imutável que indica se o campo será mantido separadamente no disco para ser devolvido num resultado de pesquisa. Pode desativar esta opção se não planear devolver o conteúdo do campo numa resposta de pesquisa para poupar na sobrecarga de armazenamento. Isto só pode ser definido durante a criação do índice e apenas para campos de vetor. Esta propriedade não pode ser alterada para campos existentes ou definida como falsa para novos campos. Se esta propriedade for definida como falsa, a propriedade "recuperável" também tem de ser definida como false. Esta propriedade tem de ser verdadeira ou desativada para campos de chave, para novos campos e para campos não vetores, e tem de ser nula para campos complexos. Desativar esta propriedade reduzirá os requisitos de armazenamento de índices. A predefinição é verdadeira para campos de vetor.

synonymMaps

string[]

Uma lista dos nomes dos mapas de sinónimos a associar a este campo. Esta opção só pode ser utilizada com campos pesquisáveis. Atualmente, só é suportado um mapa de sinónimos por campo. A atribuição de um mapa de sinónimos a um campo garante que os termos de consulta destinados a esse campo são expandidos no momento da consulta através das regras no mapa de sinónimos. Este atributo pode ser alterado em campos existentes. Tem de ser nulo ou uma coleção vazia para campos complexos.

type

SearchFieldDataType

O tipo de dados do campo.

vectorEncoding

VectorEncodingFormat

O formato de codificação para interpretar o conteúdo do campo.

vectorSearchProfile

string

O nome do perfil de pesquisa de vetores que especifica o algoritmo e vetor a utilizar ao procurar no campo de vetor.

SearchFieldDataType

Define o tipo de dados de um campo num índice de pesquisa.

Name Tipo Description
Edm.Boolean

string

Indica que um campo contém um valor booleano (verdadeiro ou falso).

Edm.Byte

string

Indica que um campo contém um número inteiro não assinado de 8 bits. Isto só é válido quando utilizado com Collection(Edm.Byte).

Edm.ComplexType

string

Indica que um campo contém um ou mais objetos complexos que, por sua vez, têm sub-campos de outros tipos.

Edm.DateTimeOffset

string

Indica que um campo contém um valor de data/hora, incluindo informações de fuso horário.

Edm.Double

string

Indica que um campo contém um número de vírgula flutuante de precisão dupla IEEE.

Edm.GeographyPoint

string

Indica que um campo contém uma localização geográfica em termos de longitude e latitude.

Edm.Half

string

Indica que um campo contém um número de vírgula flutuante de meia precisão. Isto só é válido quando utilizado com Coleção(Edm.Half).

Edm.Int16

string

Indica que um campo contém um número inteiro assinado de 16 bits. Isto só é válido quando utilizado com a Coleção(Edm.Int16).

Edm.Int32

string

Indica que um campo contém um número inteiro assinado de 32 bits.

Edm.Int64

string

Indica que um campo contém um número inteiro assinado de 64 bits.

Edm.SByte

string

Indica que um campo contém um número inteiro assinado de 8 bits. Isto só é válido quando utilizado com Collection(Edm.SByte).

Edm.Single

string

Indica que um campo contém um número de vírgula flutuante de precisão única. Isto só é válido quando utilizado com Collection(Edm.Single).

Edm.String

string

Indica que um campo contém uma cadeia.

SearchIndex

Representa uma definição de índice de pesquisa, que descreve os campos e o comportamento de pesquisa de um índice.

Name Tipo Description
@odata.etag

string

O ETag do índice.

analyzers LexicalAnalyzer[]:

Os analisadores do índice.

charFilters CharFilter[]:

O caráter filtra para o índice.

corsOptions

CorsOptions

Opções para controlar a Partilha de Recursos Entre Origens (CORS) para o índice.

defaultScoringProfile

string

O nome do perfil de classificação a utilizar se não for especificado nenhum na consulta. Se esta propriedade não estiver definida e não for especificado nenhum perfil de classificação na consulta, será utilizada a classificação predefinida (tf-idf).

encryptionKey

SearchResourceEncryptionKey

Uma descrição de uma chave de encriptação que cria no Azure Key Vault. Esta chave é utilizada para fornecer um nível adicional de encriptação inativa para os seus dados quando quiser ter a garantia total de que ninguém, nem mesmo a Microsoft, pode desencriptar os seus dados. Depois de encriptar os seus dados, estes permanecerão sempre encriptados. O serviço de pesquisa irá ignorar as tentativas de definir esta propriedade como nula. Pode alterar esta propriedade conforme necessário se quiser rodar a chave de encriptação; Os seus dados não serão afetados. A encriptação com chaves geridas pelo cliente não está disponível para serviços de pesquisa gratuita e só está disponível para serviços pagos criados em ou depois de 1 de janeiro de 2019.

fields

SearchField[]

Os campos do índice.

name

string

O nome do índice.

normalizers LexicalNormalizer[]:

CustomNormalizer[]

Os normalizadores do índice.

scoringProfiles

ScoringProfile[]

Os perfis de classificação do índice.

semantic

SemanticSettings

Define parâmetros para um índice de pesquisa que influencia as capacidades semânticas.

similarity Similarity:

O tipo de algoritmo de semelhança a ser utilizado ao classificar e classificar os documentos correspondentes a uma consulta de pesquisa. O algoritmo de semelhança só pode ser definido no momento da criação do índice e não pode ser modificado em índices existentes. Se for nulo, é utilizado o algoritmo ClassicSimilarity.

suggesters

Suggester[]

Os sugestores do índice.

tokenFilters TokenFilter[]:

O token filtra o índice.

tokenizers LexicalTokenizer[]:

Os tokenizers do índice.

vectorSearch

VectorSearch

Contém opções de configuração relacionadas com a pesquisa de vetores.

SearchIndexerDataNoneIdentity

Limpa a propriedade de identidade de uma origem de dados.

Name Tipo Description
@odata.type string:

#Microsoft.Azure.Search.DataNoneIdentity

Um fragmento de URI que especifica o tipo de identidade.

SearchIndexerDataUserAssignedIdentity

Especifica a identidade de uma origem de dados a utilizar.

Name Tipo Description
@odata.type string:

#Microsoft.Azure.Search.DataUserAssignedIdentity

Um fragmento de URI que especifica o tipo de identidade.

userAssignedIdentity

string

O ID de recurso completamente qualificado do Azure de uma identidade gerida atribuída pelo utilizador normalmente no formulário "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" que deveria ter sido atribuído ao serviço de pesquisa.

SearchResourceEncryptionKey

Uma chave de encriptação gerida pelo cliente no Azure Key Vault. As chaves que cria e gere podem ser utilizadas para encriptar ou desencriptar dados inativos, como índices e mapas de sinónimos.

Name Tipo Description
accessCredentials

AzureActiveDirectoryApplicationCredentials

Credenciais opcionais do Azure Active Directory utilizadas para aceder ao seu Key Vault do Azure. Em vez disso, não é necessário utilizar a identidade gerida.

identity SearchIndexerDataIdentity:

Uma identidade gerida explícita a utilizar para esta chave de encriptação. Se não for especificado e a propriedade de credenciais de acesso for nula, é utilizada a identidade gerida atribuída pelo sistema. Ao atualizar para o recurso, se a identidade explícita não for especificada, permanece inalterada. Se "nenhum" for especificado, o valor desta propriedade será limpo.

keyVaultKeyName

string

O nome da chave de Key Vault do Azure a ser utilizada para encriptar os seus dados inativos.

keyVaultKeyVersion

string

A versão da sua chave de Key Vault do Azure a ser utilizada para encriptar os seus dados inativos.

keyVaultUri

string

O URI do seu Key Vault do Azure, também conhecido como nome DNS, que contém a chave a ser utilizada para encriptar os seus dados inativos. Um URI de exemplo pode ser https://my-keyvault-name.vault.azure.net.

SemanticConfiguration

Define uma configuração específica a ser utilizada no contexto de capacidades semânticas.

Name Tipo Description
name

string

O nome da configuração semântica.

prioritizedFields

PrioritizedFields

Descreve os campos de título, conteúdo e palavra-chave a utilizar para classificação semântica, legendas, destaques e respostas. Pelo menos uma das três sub propriedades (titleField, prioritizedKeywordsFields e prioritizedContentFields) tem de ser definida.

SemanticField

Um campo que é utilizado como parte da configuração semântica.

Name Tipo Description
fieldName

string

SemanticSettings

Define parâmetros para um índice de pesquisa que influencia as capacidades semânticas.

Name Tipo Description
configurations

SemanticConfiguration[]

As configurações semânticas do índice.

defaultConfiguration

string

Permite-lhe definir o nome de uma configuração semântica predefinida no índice, tornando-a opcional para transmiti-la sempre como um parâmetro de consulta.

ShingleTokenFilter

Cria combinações de tokens como um único token. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

filterToken

string

_

A cadeia a inserir para cada posição na qual não existe nenhum token. A predefinição é um sublinhado ("_").

maxShingleSize

integer

2

O tamanho máximo da telha. O valor predefinido e mínimo é 2.

minShingleSize

integer

2

O tamanho mínimo da telha. O valor predefinido e mínimo é 2. Tem de ser inferior ao valor de maxShingleSize.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

outputUnigrams

boolean

True

Um valor que indica se o fluxo de saída irá conter os tokens de entrada (unigramas), bem como as telhas. A predefinição é verdadeiro.

outputUnigramsIfNoShingles

boolean

False

Um valor que indica se os unigramas de saída são apresentados nessas alturas em que não existem telhas disponíveis. Esta propriedade tem precedência quando outputUnigrams está definido como falso. A predefinição é falso.

tokenSeparator

string

A cadeia a utilizar ao associar tokens adjacentes para formar uma telha. A predefinição é um espaço único (" ").

SnowballTokenFilter

Um filtro que contém palavras com um stemer gerado por bola de neve. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Description
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

language

SnowballTokenFilterLanguage

O idioma a utilizar.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

SnowballTokenFilterLanguage

O idioma a utilizar para um filtro de token snowball.

Name Tipo Description
armenian

string

Seleciona o tokenizador lucene Snowball stemming para arménio.

basque

string

Seleciona o tokenizer Lucene Snowball stemming para basco.

catalan

string

Seleciona o tokenizer Lucene Snowball para catalão.

danish

string

Seleciona o tokenizer Lucene Snowball stemming para dinamarquês.

dutch

string

Seleciona o tokenizer Lucene Snowball stemming para neerlandês.

english

string

Seleciona o tokenizer Lucene Snowball stemming para inglês.

finnish

string

Seleciona o tokenizer Lucene Snowball stemming para finlandês.

french

string

Seleciona o tokenizer Lucene Snowball stemming para francês.

german

string

Seleciona o tokenizer Lucene Snowball stemming para alemão.

german2

string

Seleciona o tokenizer Lucene Snowball stemming que utiliza o algoritmo de variante alemã.

hungarian

string

Seleciona o tokenizer Lucene Snowball para húngaro.

italian

string

Seleciona o tokenizer Lucene Snowball stemming para italiano.

kp

string

Seleciona o tokenizador lucene Snowball stemming para neerlandês que utiliza o algoritmo de decorrido Kraaij-Pohlmann.

lovins

string

Seleciona o tokenizer Lucene Snowball stemming para inglês que utiliza o algoritmo de decorrido lovins.

norwegian

string

Seleciona o tokenizer Lucene Snowball stemming para norueguês.

porter

string

Seleciona o tokenizer Lucene Snowball stemming para inglês que utiliza o algoritmo de decorrido porter.

portuguese

string

Seleciona o tokenizador Lucene Snowball stemming para português.

romanian

string

Seleciona o tokenizer Lucene Snowball stemming para romeno.

russian

string

Seleciona o tokenizador Lucene Snowball stemming para russo.

spanish

string

Seleciona o tokenizer Lucene Snowball stemming para espanhol.

swedish

string

Seleciona o tokenizer Lucene Snowball stemming para sueco.

turkish

string

Seleciona o tokenizer Lucene Snowball stemming para turco.

StemmerOverrideTokenFilter

Fornece a capacidade de substituir outros filtros de deteção com descrições personalizadas baseadas em dicionários. Quaisquer termos sem dicionário serão marcados como palavras-chave para que não sejam decorrentes de stemmers na cadeia. Tem de ser colocado antes de quaisquer filtros de deteção. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Description
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

rules

string[]

Uma lista de regras de deteção no seguinte formato: "word => stem", por exemplo: "ran => run".

StemmerTokenFilter

Filtro de deteção específico da linguagem. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Description
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

language

StemmerTokenFilterLanguage

O idioma a utilizar.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

StemmerTokenFilterLanguage

O idioma a utilizar para um filtro de token de stemmer.

Name Tipo Description
arabic

string

Seleciona o tokenizador lucene stemming para árabe.

armenian

string

Seleciona o tokenizador lucene stemming para arménio.

basque

string

Seleciona o tokenizador lucene stemming para basco.

brazilian

string

Seleciona o tokenizador lucene stemming para português (Brasil).

bulgarian

string

Seleciona o tokenizador Lucene stemming para búlgaro.

catalan

string

Seleciona o tokenizer Lucene stemming para catalão.

czech

string

Seleciona o tokenizador lucene stemming para checo.

danish

string

Seleciona o tokenizador lucene stemming para dinamarquês.

dutch

string

Seleciona o tokenizador lucene stemming para neerlandês.

dutchKp

string

Seleciona o tokenizador lucene stemming para neerlandês que utiliza o algoritmo de decorrido Kraaij-Pohlmann.

english

string

Seleciona o tokenizer lucene stemming para inglês.

finnish

string

Seleciona o tokenizador lucene stemming para finlandês.

french

string

Seleciona o tokenizador lucene stemming para francês.

galician

string

Seleciona o tokenizador lucene stemming para galego.

german

string

Seleciona o tokenizador lucene stemming para alemão.

german2

string

Seleciona o tokenizer lucene stemming que utiliza o algoritmo de variante alemã.

greek

string

Seleciona o tokenizador lucene stemming para grego.

hindi

string

Seleciona o tokenizer Lucene stemming para Hindi.

hungarian

string

Seleciona o tokenizer Lucene stemming para húngaro.

indonesian

string

Seleciona o tokenizer Lucene stemming para indonésio.

irish

string

Seleciona o tokenizer Lucene stemming para irlandês.

italian

string

Seleciona o tokenizador lucene stemming para italiano.

latvian

string

Seleciona o tokenizador lucene stemming para letão.

lightEnglish

string

Seleciona o tokenizador lucene stemming para inglês que faz o deteção de luz.

lightFinnish

string

Seleciona o tokenizador lucene stemming para finlandês que faz a deteção de luz.

lightFrench

string

Seleciona o tokenizador lucene stemming para francês que faz o light stemming.

lightGerman

string

Seleciona o tokenizador lucene stemming para alemão que faz light stemming.

lightHungarian

string

Seleciona o tokenizador lucene stemming para húngaro que faz luz decorrido.

lightItalian

string

Seleciona o tokenizador lucene stemming para italiano que faz o light stemming.

lightNorwegian

string

Seleciona o tokenizador lucene stemming para norueguês (Bokmål) que faz luz decorrido.

lightNynorsk

string

Seleciona o tokenizador lucene stemming para norueguês (Nynorsk) que faz a deteção de luz.

lightPortuguese

string

Seleciona o tokenizador lucene stemming para português que faz luz decorrido.

lightRussian

string

Seleciona o tokenizador lucene stemming para russo que faz o deteção de luz.

lightSpanish

string

Seleciona o tokenizador lucene stemming para espanhol que faz a deteção de luz.

lightSwedish

string

Seleciona o tokenizador lucene stemming para sueco que faz o light stemming.

lovins

string

Seleciona o tokenizador lucene stemming para inglês que utiliza o algoritmo de deteção Lovins.

minimalEnglish

string

Seleciona o tokenizador lucene stemming para inglês que faz um mínimo de decorrido.

minimalFrench

string

Seleciona o tokenizador lucene stemming para francês que faz o mínimo de conter.

minimalGalician

string

Seleciona o tokenizador lucene stemming para galego que faz o mínimo de conter.

minimalGerman

string

Seleciona o tokenizador lucene stemming para alemão que faz o mínimo de conter.

minimalNorwegian

string

Seleciona o tokenizador lucene stemming para norueguês (Bokmål) que faz um mínimo de conter.

minimalNynorsk

string

Seleciona o tokenizador lucene stemming para norueguês (Nynorsk) que faz um mínimo de conter.

minimalPortuguese

string

Seleciona o tokenizador lucene stemming para português que faz um mínimo de detenção.

norwegian

string

Seleciona o tokenizer Lucene stemming para norueguês (Bokmål).

porter2

string

Seleciona o tokenizador lucene stemming para inglês que utiliza o algoritmo de detenção Porter2.

portuguese

string

Seleciona o tokenizador lucene stemming para português.

portugueseRslp

string

Seleciona o tokenizador lucene stemming para português que utiliza o algoritmo de criação de RSLP.

possessiveEnglish

string

Seleciona o tokenizador lucene stemming para inglês que remove possessivos à direita das palavras.

romanian

string

Seleciona o tokenizador lucene stemming para romeno.

russian

string

Seleciona o tokenizador lucene stemming para russo.

sorani

string

Seleciona o tokenizador lucene stemming para Sorani.

spanish

string

Seleciona o tokenizador lucene stemming para espanhol.

swedish

string

Seleciona o tokenizador lucene stemming para sueco.

turkish

string

Seleciona o tokenizador lucene stemming para turco.

StopAnalyzer

Divide o texto em não letras; Aplica os filtros de token em minúsculas e de palavra-passe. Este analisador é implementado com o Apache Lucene.

Name Tipo Description
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

Um fragmento de URI que especifica o tipo de analisador.

name

string

O nome do analisador. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

stopwords

string[]

Uma lista de palavras-passe.

StopwordsList

Identifica uma lista predefinida de palavras-passe específicas do idioma.

Name Tipo Description
arabic

string

Seleciona a lista de palavras-passe para árabe.

armenian

string

Seleciona a lista de palavras-passe para Arménio.

basque

string

Seleciona a lista de palavras-passe para Basco.

brazilian

string

Seleciona a lista de palavras-passe para português (Brasil).

bulgarian

string

Seleciona a lista de palavras-passe para búlgaro.

catalan

string

Seleciona a lista de palavras-passe para catalão.

czech

string

Seleciona a lista de palavras-passe para checo.

danish

string

Seleciona a lista de palavras-passe para dinamarquês.

dutch

string

Seleciona a lista de palavras-passe para neerlandês.

english

string

Seleciona a lista de palavras-passe para inglês.

finnish

string

Seleciona a lista de palavras-passe para finlandês.

french

string

Seleciona a lista de palavras-passe para francês.

galician

string

Seleciona a lista de palavras-passe para Galego.

german

string

Seleciona a lista de palavras-passe para alemão.

greek

string

Seleciona a lista de palavras-passe para grego.

hindi

string

Seleciona a lista de palavras-passe para Hindi.

hungarian

string

Seleciona a lista de palavras-passe para húngaro.

indonesian

string

Seleciona a lista de palavras-passe para indonésio.

irish

string

Seleciona a lista de palavras-passe para irlandês.

italian

string

Seleciona a lista de palavras-passe para italiano.

latvian

string

Seleciona a lista de palavras-passe para letão.

norwegian

string

Seleciona a lista de palavras-passe para norueguês.

persian

string

Seleciona a lista de palavras-passe para persa.

portuguese

string

Seleciona a lista de palavras-passe para português.

romanian

string

Seleciona a lista de palavras-passe para romeno.

russian

string

Seleciona a lista de palavras-passe para russo.

sorani

string

Seleciona a lista de palavras-passe para Sorani.

spanish

string

Seleciona a lista de palavras-passe para espanhol.

swedish

string

Seleciona a lista de palavras-passe para sueco.

thai

string

Seleciona a lista de palavras-passe para tailandês.

turkish

string

Seleciona a lista de palavras-passe para turco.

StopwordsTokenFilter

Remove palavras paradas de um fluxo de tokens. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

ignoreCase

boolean

False

Um valor que indica se deve ignorar maiúsculas e minúsculas. Se for verdade, todas as palavras são convertidas em minúsculas primeiro. A predefinição é falso.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

removeTrailing

boolean

True

Um valor que indica se deve ignorar o último termo de pesquisa se for uma palavra parada. A predefinição é verdadeiro.

stopwords

string[]

A lista de palavras-passe. Esta propriedade e a propriedade da lista de palavras-passe não podem ser definidas.

stopwordsList

StopwordsList

english

Uma lista predefinida de palavras-passe a utilizar. Esta propriedade e a propriedade stopwords não podem ser definidas. A predefinição é inglês.

Suggester

Define como a API Suggest deve ser aplicada a um grupo de campos no índice.

Name Tipo Description
name

string

O nome do sugeridor.

searchMode

SuggesterSearchMode

Um valor que indica as capacidades do sugeridor.

sourceFields

string[]

A lista de nomes de campos aos quais o sugeridor se aplica. Cada campo tem de ser pesquisável.

SuggesterSearchMode

Um valor que indica as capacidades do sugeridor.

Name Tipo Description
analyzingInfixMatching

string

Corresponde a termos e prefixos inteiros consecutivos num campo. Por exemplo, para o campo "A raposa castanha mais rápida", as consultas "rápida" e "navegação mais rápida" corresponderiam.

SynonymTokenFilter

Corresponde a sinónimos de palavras individuais ou múltiplas num fluxo de tokens. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

expand

boolean

True

Um valor que indica se todas as palavras na lista de sinónimos (se => notação não forem utilizadas) serão mapeados entre si. Se for verdade, todas as palavras na lista de sinónimos (se => notação não forem utilizadas) serão mapeados entre si. A seguinte lista: incrível, inacreditável, fabulosa, incrível é equivalente a: incrível, inacreditável, fabuloso, incrível => incrível, inacreditável, fabuloso, incrível, fabuloso, incrível. Se for falso, a seguinte lista: incrível, inacreditável, fabuloso, incrível será equivalente a: incrível, inacreditável, fabuloso, incrível => incrível. A predefinição é verdadeiro.

ignoreCase

boolean

False

Um valor que indica se deve dobrar as maiúsculas e minúsculas para a correspondência. A predefinição é falso.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

synonyms

string[]

Uma lista de sinónimos ao seguir um de dois formatos: 1. incrível, inacreditável, fabuloso => incrível - todos os termos no lado esquerdo de => símbolo serão substituídos por todos os termos no seu lado direito; 2. incrível, inacreditável, fabuloso, incrível - lista separada por vírgulas de palavras equivalentes. Defina a opção expandir para alterar a forma como esta lista é interpretada.

TagScoringFunction

Define uma função que aumenta as pontuações de documentos com valores de cadeia que correspondem a uma determinada lista de etiquetas.

Name Tipo Description
boost

number

Um multiplicador para a pontuação não processada. Tem de ser um número positivo diferente de 1,0.

fieldName

string

O nome do campo utilizado como entrada para a função de classificação.

interpolation

ScoringFunctionInterpolation

Um valor que indica como o aumento será interpolado entre as pontuações dos documentos; a predefinição é "Linear".

tag

TagScoringParameters

Valores de parâmetros para a função de classificação de etiquetas.

type string:

tag

Indica o tipo de função a utilizar. Os valores válidos incluem magnitude, frescura, distância e etiqueta. O tipo de função tem de ser minúsculo.

TagScoringParameters

Fornece valores de parâmetros para uma função de classificação de etiquetas.

Name Tipo Description
tagsParameter

string

O nome do parâmetro transmitido nas consultas de pesquisa para especificar a lista de etiquetas a comparar com o campo de destino.

TextWeights

Define os pesos nos campos de índice para os quais as correspondências devem aumentar a classificação nas consultas de pesquisa.

Name Tipo Description
weights

object

O dicionário de pesos por campo para aumentar a classificação de documentos. As chaves são nomes de campo e os valores são os pesos de cada campo.

TokenCharacterKind

Representa classes de carateres em que um filtro de token pode funcionar.

Name Tipo Description
digit

string

Mantém os dígitos em tokens.

letter

string

Mantém as letras nos tokens.

punctuation

string

Mantém a pontuação em tokens.

symbol

string

Mantém símbolos em tokens.

whitespace

string

Mantém o espaço em branco em tokens.

TokenFilterName

Define os nomes de todos os filtros de token suportados pelo motor de busca.

Name Tipo Description
apostrophe

string

Tira todos os carateres após um apóstrofo (incluindo o próprio apóstrofo). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Um filtro de token que aplica o normalizador árabe para normalizar a ortografia. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Converte carateres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 carateres ASCII (o bloco Unicode "Latim Básico") nos respetivos equivalentes ASCII, se existirem esses equivalentes. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Forms bigrams de termos CJK gerados a partir do tokenizer padrão. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normaliza as diferenças de largura do CJK. Dobra variantes ASCII de largura completa no latim básico equivalente e variantes katakana de meia largura no Kana equivalente. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Remove possessivos ingleses e pontos de acrónimos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Construa bigrams para termos que ocorrem frequentemente durante a indexação. Os termos únicos também são indexados, com bigrams sobrepostos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Gera n-gramas do(s) tamanho(s) especificado(s) a partir da parte frontal ou traseira de um token de entrada. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Remove elisões. Por exemplo, "l'avion" (o avião) será convertido em "avion" (plano). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normaliza os personagens alemães de acordo com a heurística do algoritmo de bola de neve German2. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normaliza o texto em hindi para remover algumas diferenças nas variações ortográficas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normaliza a representação Unicode do texto em idiomas indianos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Emite cada token de entrada duas vezes, uma vez como palavra-chave e uma vez como não palavra-chave. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Um filtro de kstem de elevado desempenho para inglês. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Remove palavras demasiado longas ou demasiado curtas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Limita o número de tokens durante a indexação. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normaliza o texto do token para minúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Gera n-gramas dos tamanhos especificados. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Aplica a normalização para persa. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Create tokens para correspondências fonéticas. Veja https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Utiliza o algoritmo de detenção Porter para transformar o fluxo de tokens. Veja http://tartarus.org/~martin/PorterStemmer

reverse

string

Inverte a cadeia de token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Dobra carateres escandinavos åÅäæÄÆ-a> e öÖøØ-o>. Também discrimina o uso de vogais duplas aa, ae, ao, oe e oo, deixando apenas a primeira. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normaliza a utilização dos personagens escandinavos intercambiáveis. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Cria combinações de tokens como um único token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Um filtro que escorria palavras utilizando um stemer gerado por bola de neve. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normaliza a representação Unicode do texto Sorani. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Filtro de decorrido específico da linguagem. Veja https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Remove palavras paradas de um fluxo de tokens. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Corta o espaço em branco à esquerda e à direita dos tokens. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Trunca os termos para um comprimento específico. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Filtra tokens com o mesmo texto que o token anterior. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normaliza o texto do token para maiúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Divide palavras em sub-palavras e efetua transformações opcionais em grupos de sub-palavras.

TruncateTokenFilter

Trunca os termos para um comprimento específico. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

length

integer

300

O comprimento em que os termos serão truncados. Predefinição e máximo é 300.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

UaxUrlEmailTokenizer

Tokens urls e e-mails como um token. Este tokenizador é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

maxTokenLength

integer

255

O comprimento máximo do token. A predefinição é 255. Os tokens com mais tempo do que o comprimento máximo são divididos. O comprimento máximo do token que pode ser utilizado é de 300 carateres.

name

string

O nome do tokenizer. Só tem de conter letras, dígitos, espaços, travessões ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

UniqueTokenFilter

Filtra tokens com o mesmo texto que o token anterior. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

onlyOnSamePosition

boolean

False

Um valor que indica se pretende remover duplicados apenas na mesma posição. A predefinição é falso.

VectorEncodingFormat

O formato de codificação para interpretar conteúdos de campos de vetor.

Name Tipo Description
packedBit

string

Formato de codificação que representa bits embalados num tipo de dados mais amplo.

VectorSearch

Contém opções de configuração relacionadas com a pesquisa de vetores.

Name Tipo Description
algorithms VectorSearchAlgorithmConfiguration[]:

Contém opções de configuração específicas do algoritmo utilizado durante a indexação ou consulta.

compressions VectorSearchCompressionConfiguration[]:

ScalarQuantizationVectorSearchCompressionConfiguration[]

Contém opções de configuração específicas do método de compressão utilizado durante a indexação ou consulta.

profiles

VectorSearchProfile[]

Define combinações de configurações a utilizar com a pesquisa de vetores.

vectorizers VectorSearchVectorizer[]:

Contém opções de configuração sobre como vetorizar consultas de vetor de texto.

VectorSearchAlgorithmKind

O algoritmo utilizado para indexar e consultar.

Name Tipo Description
exhaustiveKnn

string

Algoritmo KNN exaustivo que irá realizar uma pesquisa de força bruta.

hnsw

string

HNSW (Mundo Pequeno Navegável Hierárquico), um tipo de algoritmo de vizinhos mais próximo aproximado.

VectorSearchAlgorithmMetric

A métrica de semelhança a utilizar para comparações de vetores. Recomenda-se que escolha a mesma métrica de semelhança em que o modelo de incorporação foi preparado.

Name Tipo Description
cosine

string

Mede o ângulo entre vetores para quantificar a sua semelhança, ignorando a magnitude. Quanto menor for o ângulo, mais próxima será a semelhança.

dotProduct

string

Calcula a soma dos produtos em termos de elementos para medir o alinhamento e a semelhança de magnitude. Quanto maior e mais positivo, mais próxima será a semelhança.

euclidean

string

Calcula a distância de linha reta entre vetores num espaço multidimensional. Quanto menor for a distância, mais próxima será a semelhança.

hamming

string

Apenas aplicável a tipos de dados binários embalados por bits. Determina a diferença ao contar posições diferentes em vetores binários. Quanto menos diferenças, mais próxima será a semelhança.

VectorSearchCompressionKind

O método de compressão utilizado para indexar e consultar.

Name Tipo Description
scalarQuantization

string

Quantização Escalar, um tipo de método de compressão. Na quantização escalar, os valores dos vetores originais são comprimidos para um tipo mais estreito ao discretizar e representar cada componente de um vetor através de um conjunto reduzido de valores quantizados, reduzindo assim o tamanho geral dos dados.

VectorSearchCompressionTargetDataType

O tipo de dados quantizado de valores de vetor comprimido.

Name Tipo Description
int8

string

VectorSearchProfile

Define uma combinação de configurações a utilizar com a pesquisa de vetores.

Name Tipo Description
algorithm

string

O nome da configuração do algoritmo de pesquisa de vetores que especifica o algoritmo e os parâmetros opcionais.

compression

string

O nome da configuração do método de compressão que especifica o método de compressão e os parâmetros opcionais.

name

string

O nome a associar a este perfil de pesquisa de vetor específico.

vectorizer

string

O nome do tipo de método de vetorização que está a ser configurado para utilização com a pesquisa de vetores.

VectorSearchVectorizerKind

O método de vetorização a utilizar durante o tempo de consulta.

Name Tipo Description
aiServicesVision

string

Gerar incorporações para uma imagem ou entrada de texto no momento da consulta com a API de Vetor de Visão dos Serviços de IA do Azure.

aml

string

Gerar incorporações com um ponto final do Azure Machine Learning implementado através do Catálogo de Modelos do Estúdio de IA do Azure no momento da consulta.

azureOpenAI

string

Gerar incorporações com um recurso do Azure OpenAI no momento da consulta.

customWebApi

string

Gerar incorporações com um ponto final Web personalizado no momento da consulta.

WordDelimiterTokenFilter

Divide palavras em sub-palavras e efetua transformações opcionais em grupos de sub-palavras. Este filtro de token é implementado com o Apache Lucene.

Name Tipo Default value Description
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

catenateAll

boolean

False

Um valor que indica se todas as partes da sub-palavra serão catenadas. Por exemplo, se estiver definido como verdadeiro, "Azure-Search-1" torna-se "AzureSearch1". A predefinição é falso.

catenateNumbers

boolean

False

Um valor que indica se as execuções máximas de partes numéridas serão catenadas. Por exemplo, se estiver definido como verdadeiro, "1-2" torna-se "12". A predefinição é falso.

catenateWords

boolean

False

Um valor que indica se as execuções máximas de partes de palavras serão catenadas. Por exemplo, se estiver definido como verdadeiro, "Azure-Search" torna-se "AzureSearch". A predefinição é falso.

generateNumberParts

boolean

True

Um valor que indica se pretende gerar sub-palavras numérulas. A predefinição é verdadeiro.

generateWordParts

boolean

True

Um valor que indica se pretende gerar palavras de parte. Se estiver definido, faz com que sejam geradas partes de palavras; por exemplo, "AzureSearch" torna-se "Azure" "Search". A predefinição é verdadeiro.

name

string

O nome do filtro de token. Só tem de conter letras, dígitos, espaços, traços ou carateres de sublinhado, só pode começar e terminar com carateres alfanuméricos e está limitado a 128 carateres.

preserveOriginal

boolean

False

Um valor que indica se as palavras originais serão preservadas e adicionadas à lista de sub-palavras. A predefinição é falso.

protectedWords

string[]

Uma lista de tokens para proteger contra a delimitação.

splitOnCaseChange

boolean

True

Um valor que indica se pretende dividir palavras em caseChange. Por exemplo, se estiver definido como verdadeiro, "AzureSearch" torna-se "Azure" "Search". A predefinição é verdadeiro.

splitOnNumerics

boolean

True

Um valor que indica se pretende dividir em números. Por exemplo, se estiver definido como verdadeiro, "Azure1Search" torna-se "Azure" "1" "Search". A predefinição é verdadeiro.

stemEnglishPossessive

boolean

True

Um valor que indica se deve remover "s" à direita para cada sub-palavra. A predefinição é verdadeiro.