Compartilhar via


Indexes - Create Or Update

Cria um novo índice de pesquisa ou atualiza um índice se ele já existir.

PUT {endpoint}/indexes('{indexName}')?api-version=2023-10-01-Preview
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2023-10-01-Preview

Parâmetros de URI

Nome Em Obrigatório Tipo Description
endpoint
path True

string

A URL do ponto de extremidade do serviço de pesquisa.

indexName
path True

string

A definição do índice a ser criado ou atualizado.

api-version
query True

string

Versão da API do cliente.

allowIndexDowntime
query

boolean

Permite que novos analisadores, tokenizadores, filtros de token ou filtros char sejam adicionados a um índice, tornando o índice offline por pelo menos alguns segundos. Isso faz com que as solicitações de indexação e consulta falhem temporariamente. O desempenho e a disponibilidade de gravação do índice podem ser prejudicados por vários minutos após o índice ser atualizado, ou por mais tempo em caso de índices muito grandes.

Cabeçalho da solicitação

Nome Obrigatório Tipo Description
x-ms-client-request-id

string

uuid

A ID de rastreamento enviada com a solicitação para ajudar na depuração.

If-Match

string

Define a condição de If-Match. A operação será executada somente se a ETag no servidor corresponder a esse valor.

If-None-Match

string

Define a condição If-None-Match. A operação será executada somente se a ETag no servidor não corresponder a esse valor.

Prefer True

string

Para solicitações HTTP PUT, instrui o serviço a retornar o recurso criado/atualizado com êxito.

Corpo da solicitação

Nome Obrigatório Tipo Description
fields True

SearchField[]

Os campos do índice.

name True

string

O nome do índice.

@odata.etag

string

A ETag do índice.

analyzers LexicalAnalyzer[]:

Os analisadores do índice.

charFilters CharFilter[]:

O caractere filtra para o índice.

corsOptions

CorsOptions

Opções para controlar o CORS (Compartilhamento de Recursos entre Origens) para o índice.

defaultScoringProfile

string

O nome do perfil de pontuação a ser usado se nenhum for especificado na consulta. Se essa propriedade não estiver definida e nenhum perfil de pontuação for especificado na consulta, a pontuação padrão (tf-idf) será usada.

encryptionKey

SearchResourceEncryptionKey

Uma descrição de uma chave de criptografia criada no Azure Key Vault. Essa chave é usada para fornecer um nível adicional de criptografia em repouso para seus dados quando você quiser ter total garantia de que ninguém, nem mesmo a Microsoft, pode descriptografar seus dados. Depois de criptografar seus dados, eles sempre permanecerão criptografados. O serviço de pesquisa ignorará as tentativas de definir essa propriedade como nula. Você pode alterar essa propriedade conforme necessário se quiser girar sua chave de criptografia; Seus dados não serão afetados. A criptografia com chaves gerenciadas pelo cliente não está disponível para serviços de pesquisa gratuitos e só está disponível para serviços pagos criados em ou após 1º de janeiro de 2019.

normalizers LexicalNormalizer[]:

CustomNormalizer[]

Os normalizadores para o índice.

scoringProfiles

ScoringProfile[]

Os perfis de pontuação para o índice.

semantic

SemanticSettings

Define parâmetros para um índice de pesquisa que influenciam as funcionalidades semânticas.

similarity Similarity:

O tipo de algoritmo de similaridade a ser usado ao pontuar e classificar os documentos correspondentes a uma consulta de pesquisa. O algoritmo de similaridade só pode ser definido no momento da criação do índice e não pode ser modificado em índices existentes. Se for nulo, o algoritmo ClassicSimilarity será usado.

suggesters

Suggester[]

Os sugestores para o índice.

tokenFilters TokenFilter[]:

O token filtra para o índice.

tokenizers LexicalTokenizer[]:

Os tokenizers para o índice.

vectorSearch

VectorSearch

Contém opções de configuração relacionadas à pesquisa de vetor.

Respostas

Nome Tipo Description
200 OK

SearchIndex

201 Created

SearchIndex

Other Status Codes

SearchError

Resposta de erro.

Exemplos

SearchServiceCreateOrUpdateIndex

Solicitação de exemplo

PUT https://myservice.search.windows.net/indexes('hotels')?allowIndexDowntime=False&api-version=2023-10-01-Preview


{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "key": true,
      "searchable": false
    },
    {
      "name": "baseRate",
      "type": "Edm.Double"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile"
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false,
      "analyzer": "fr.lucene"
    },
    {
      "name": "hotelName",
      "type": "Edm.String"
    },
    {
      "name": "category",
      "type": "Edm.String"
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "analyzer": "tagsAnalyzer"
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean"
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean"
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset"
    },
    {
      "name": "rating",
      "type": "Edm.Int32"
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint"
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": null
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw",
        "vectorizer": "myOpenAi"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myHnsw"
      }
    ],
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "m": 4,
          "metric": "cosine",
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustiveKnn",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "vectorizers": [
      {
        "name": "myOpenAi",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://url.openai.azure.com",
          "deploymentId": "text-embedding-ada-002",
          "apiKey": "topsecretkey"
        }
      }
    ]
  }
}

Resposta de exemplo

{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "fieldName": "location",
          "interpolation": "logarithmic",
          "type": "distance",
          "boost": 5,
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "k1": null,
    "b": null
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer",
      "tokenizer": "standard_v2",
      "tokenFilters": [],
      "charFilters": [
        "html_strip"
      ]
    }
  ],
  "normalizers": [],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myKeyName",
    "keyVaultKeyVersion": "myKeyVersion",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": {
      "applicationId": "00000000-0000-0000-0000-000000000000",
      "applicationSecret": null
    }
  },
  "semantic": {
    "defaultConfiguration": null,
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustiveKnn",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw",
        "vectorizer": "myOpenAi"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myHnsw"
      }
    ],
    "vectorizers": [
      {
        "name": "myOpenAi",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://url.openai.azure.com",
          "deploymentId": "text-embedding-ada-002",
          "apiKey": "topsecretkey",
          "authIdentity": null
        }
      }
    ]
  }
}
{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "normalizer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "fieldName": "location",
          "interpolation": "logarithmic",
          "type": "distance",
          "boost": 5,
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2",
      "tokenFilters": []
    }
  ],
  "normalizers": [],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": null
  },
  "semantic": {
    "defaultConfiguration": null,
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustiveKnn",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw",
        "vectorizer": "myOpenAi"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myHnsw"
      }
    ],
    "vectorizers": [
      {
        "name": "myOpenAi",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://url.openai.azure.com",
          "deploymentId": "text-embedding-ada-002",
          "apiKey": "topsecretkey",
          "authIdentity": null
        }
      }
    ]
  }
}

Definições

Nome Description
AsciiFoldingTokenFilter

Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Latino Básico" em seus equivalentes ASCII, se esses equivalentes existirem. Esse filtro de token é implementado usando o Apache Lucene.

AzureActiveDirectoryApplicationCredentials

Credenciais de um aplicativo registrado criado para seu serviço de pesquisa, usado para acesso autenticado às chaves de criptografia armazenadas no Azure Key Vault.

AzureOpenAIParameters

Especifica os parâmetros para se conectar ao recurso OpenAI do Azure.

AzureOpenAIVectorizer

Especifica o recurso OpenAI do Azure usado para vetorizar uma cadeia de caracteres de consulta.

BM25Similarity

Função de classificação com base no algoritmo de similaridade Okapi BM25. BM25 é um algoritmo do tipo TF-IDF que inclui normalização de comprimento (controlada pelo parâmetro 'b'), bem como saturação de frequência de termo (controlada pelo parâmetro 'k1').

CharFilterName

Define os nomes de todos os filtros de caracteres compatíveis com o mecanismo de pesquisa.

CjkBigramTokenFilter

Forma bigrams de termos CJK gerados do criador de token padrão. Esse filtro de token é implementado usando o Apache Lucene.

CjkBigramTokenFilterScripts

Scripts que podem ser ignorados por CjkBigramTokenFilter.

ClassicSimilarity

Algoritmo de similaridade herdado que usa a implementação lucene TFIDFSimilarity do TF-IDF. Essa variação do TF-IDF introduz a normalização de comprimento de documento estático, bem como fatores de coordenação que penalizam documentos que correspondem apenas parcialmente às consultas pesquisadas.

ClassicTokenizer

Tokenizer baseado em gramática que é adequado para processar a maioria dos documentos de idioma europeu. Esse tokenizer é implementado usando o Apache Lucene.

CommonGramTokenFilter

Construa bigramas para termos que ocorrem com frequência durante a indexação. Termos únicos ainda são indexados também, com bigramas sobrepostos. Esse filtro de token é implementado usando o Apache Lucene.

CorsOptions

Define opções para controlar o CORS (Compartilhamento de Recursos entre Origens) para um índice.

CustomAnalyzer

Permite que você assuma o controle sobre o processo de conversão de texto em tokens indexáveis/pesquisáveis. É uma configuração definida pelo usuário que consiste em um único tokenizador predefinido e um ou mais filtros. O tokenizer é responsável por dividir o texto em tokens e os filtros para modificar tokens emitidos pelo tokenizer.

CustomNormalizer

Permite configurar a normalização para campos filtráveis, classificáveis e facetáveis, que, por padrão, operam com correspondência estrita. Essa é uma configuração definida pelo usuário que consiste em pelo menos um ou mais filtros, que modificam o token armazenado.

CustomVectorizer

Especifica um vetorizador definido pelo usuário para gerar a inserção de vetor de uma cadeia de caracteres de consulta. A integração de um vetorizador externo é obtida usando a interface de API Web personalizada de um conjunto de habilidades.

CustomWebApiParameters

Especifica as propriedades para se conectar a um vetorizador definido pelo usuário.

DictionaryDecompounderTokenFilter

Decompõe palavras compostas encontradas em muitos idiomas germânicos. Esse filtro de token é implementado usando o Apache Lucene.

DistanceScoringFunction

Define uma função que aumenta as pontuações com base na distância de uma localização geográfica.

DistanceScoringParameters

Fornece valores de parâmetro para uma função de pontuação de distância.

EdgeNGramTokenFilter

Gera n-gramas dos tamanhos fornecidos começando na frente ou na parte traseira de um token de entrada. Esse filtro de token é implementado usando o Apache Lucene.

EdgeNGramTokenFilterSide

Especifica de qual lado da entrada um n-gram deve ser gerado.

EdgeNGramTokenFilterV2

Gera n-gramas dos tamanhos fornecidos começando na frente ou na parte traseira de um token de entrada. Esse filtro de token é implementado usando o Apache Lucene.

EdgeNGramTokenizer

Tokeniza a entrada de uma borda em n-gramas dos tamanhos fornecidos. Esse tokenizer é implementado usando o Apache Lucene.

ElisionTokenFilter

Remove elisões. Por exemplo, "l'avion" (o plano) será convertido em "avion" (plano). Esse filtro de token é implementado usando o Apache Lucene.

ExhaustiveKnnParameters

Contém os parâmetros específicos para o algoritmo KNN exaustivo.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Contém opções de configuração específicas para o algoritmo KNN exaustivo usado durante a consulta, que executará a pesquisa de força bruta em todo o índice de vetor.

FreshnessScoringFunction

Define uma função que aumenta as pontuações com base no valor de um campo de data e hora.

FreshnessScoringParameters

Fornece valores de parâmetro para uma função de pontuação de atualização.

HnswParameters

Contém os parâmetros específicos para o algoritmo HNSW.

HnswVectorSearchAlgorithmConfiguration

Contém opções de configuração específicas para o algoritmo de vizinhos mais próximos aproximado do HNSW usado durante a indexação e a consulta. O algoritmo HNSW oferece uma compensação ajustável entre a velocidade e a precisão da pesquisa.

KeepTokenFilter

Um filtro de token que mantém apenas tokens com texto contido em uma lista especificada de palavras. Esse filtro de token é implementado usando o Apache Lucene.

KeywordMarkerTokenFilter

Marca termos como palavras-chave. Esse filtro de token é implementado usando o Apache Lucene.

KeywordTokenizer

Emite a entrada inteira como um único token. Esse tokenizer é implementado usando o Apache Lucene.

KeywordTokenizerV2

Emite a entrada inteira como um único token. Esse tokenizer é implementado usando o Apache Lucene.

LengthTokenFilter

Remove palavras muito longas ou muito curtas. Esse filtro de token é implementado usando o Apache Lucene.

LexicalAnalyzerName

Define os nomes de todos os analisadores de texto compatíveis com o mecanismo de pesquisa.

LexicalNormalizerName

Define os nomes de todos os normalizadores de texto compatíveis com o mecanismo de pesquisa.

LexicalTokenizerName

Define os nomes de todos os tokenizers compatíveis com o mecanismo de pesquisa.

LimitTokenFilter

Limita o número de tokens durante a indexação. Esse filtro de token é implementado usando o Apache Lucene.

LuceneStandardAnalyzer

Analisador Standard do Apache Lucene; Composto pelo tokenizador padrão, filtro minúsculo e filtro de parada.

LuceneStandardTokenizer

Quebra o texto seguindo as regras de Segmentação de Texto Unicode. Esse criador de tokens é implementado usando o Apache Lucene.

LuceneStandardTokenizerV2

Quebra o texto seguindo as regras de Segmentação de Texto Unicode. Esse criador de tokens é implementado usando o Apache Lucene.

MagnitudeScoringFunction

Define uma função que aumenta as pontuações com base na magnitude de um campo numérico.

MagnitudeScoringParameters

Fornece valores de parâmetro para uma função de pontuação de magnitude.

MappingCharFilter

Um filtro de caracteres que aplica mapeamentos definidos com a opção de mapeamentos. A correspondência é gananciosa (a correspondência de padrões mais longa em um determinado ponto vence). A substituição é permitida como a cadeia de caracteres vazia. Esse filtro de caractere é implementado usando o Apache Lucene.

MicrosoftLanguageStemmingTokenizer

Divide o texto usando regras específicas de idioma e reduz palavras para seus formulários base.

MicrosoftLanguageTokenizer

Divide o texto usando regras específicas de idioma.

MicrosoftStemmingTokenizerLanguage

Listas os idiomas compatíveis com o token de lematização de idioma da Microsoft.

MicrosoftTokenizerLanguage

Listas os idiomas compatíveis com o tokenizador de idioma da Microsoft.

NGramTokenFilter

Gera n-gramas de determinados tamanhos. Esse filtro de token é implementado usando o Apache Lucene.

NGramTokenFilterV2

Gera n-gramas de determinados tamanhos. Esse filtro de token é implementado usando o Apache Lucene.

NGramTokenizer

Cria tokens de entrada em n-gramas de determinados tamanhos. Esse tokenizer é implementado usando o Apache Lucene.

PathHierarchyTokenizerV2

Criador de token para hierarquias de caminho. Esse tokenizer é implementado usando o Apache Lucene.

PatternAnalyzer

Separa texto em termos de forma flexível por meio de um padrão de expressão regular. Esse analisador é implementado usando o Apache Lucene.

PatternCaptureTokenFilter

Usa regexes Java para emitir vários tokens – um para cada grupo de captura em um ou mais padrões. Esse filtro de token é implementado usando o Apache Lucene.

PatternReplaceCharFilter

Um filtro de caracteres que substitui caracteres na cadeia de caracteres de entrada. Ele usa uma expressão regular para identificar sequências de caracteres para preservar e um padrão de substituição para identificar caracteres para substituir. Por exemplo, considerando o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Esse filtro de caractere é implementado usando o Apache Lucene.

PatternReplaceTokenFilter

Um filtro de caracteres que substitui caracteres na cadeia de caracteres de entrada. Ele usa uma expressão regular para identificar sequências de caracteres para preservar e um padrão de substituição para identificar caracteres para substituir. Por exemplo, considerando o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Esse filtro de token é implementado usando o Apache Lucene.

PatternTokenizer

Criador de token que usa a correspondência de padrões regex para construir tokens distintos. Esse criador de tokens é implementado usando o Apache Lucene.

PhoneticEncoder

Identifica o tipo de codificador fonético a ser usado com um PhoneticTokenFilter.

PhoneticTokenFilter

Crie tokens para correspondências fonéticas. Esse filtro de token é implementado usando o Apache Lucene.

PrioritizedFields

Descreve os campos de título, conteúdo e palavras-chave a serem usados para classificação semântica, legendas, realces e respostas.

RegexFlags

Define sinalizadores que podem ser combinados para controlar como as expressões regulares são usadas no analisador de padrões e no tokenizador de padrão.

ScoringFunctionAggregation

Define a função de agregação usada para combinar os resultados de todas as funções de pontuação em um perfil de pontuação.

ScoringFunctionInterpolation

Define a função usada para interpolar o aumento de pontuação em um intervalo de documentos.

ScoringProfile

Define parâmetros para um índice de pesquisa que influenciam a pontuação em consultas de pesquisa.

SearchError

Descreve uma condição de erro para a API.

SearchField

Representa um campo em uma definição de índice, que descreve o nome, o tipo de dados e o comportamento de pesquisa de um campo.

SearchFieldDataType

Define o tipo de dados de um campo em um índice de pesquisa.

SearchIndex

Representa uma definição de índice de pesquisa, que descreve os campos e o comportamento de pesquisa de um índice.

SearchIndexerDataNoneIdentity

Limpa a propriedade de identidade de uma fonte de dados.

SearchIndexerDataUserAssignedIdentity

Especifica a identidade de uma fonte de dados a ser usada.

SearchResourceEncryptionKey

Uma chave de criptografia gerenciada pelo cliente no Azure Key Vault. As chaves que você cria e gerencia podem ser usadas para criptografar ou descriptografar dados inativos, como índices e mapas de sinônimos.

SemanticConfiguration

Define uma configuração específica a ser usada no contexto de funcionalidades semânticas.

SemanticField

Um campo que é usado como parte da configuração semântica.

SemanticSettings

Define parâmetros para um índice de pesquisa que influenciam as funcionalidades semânticas.

ShingleTokenFilter

Cria combinações de tokens como um único token. Esse filtro de token é implementado usando o Apache Lucene.

SnowballTokenFilter

Um filtro que deriva palavras usando um lematizador gerado por Bola de Neve. Esse filtro de token é implementado usando o Apache Lucene.

SnowballTokenFilterLanguage

O idioma a ser usado para um filtro de token bola de neve.

StemmerOverrideTokenFilter

Fornece a capacidade de substituir outros filtros de lematização por lematização personalizada baseada em dicionário. Quaisquer termos com lematização de dicionário serão marcados como palavras-chave para que não sejam decorrentes de lematizadores na cadeia. Deve ser colocado antes de qualquer filtro de lematização. Esse filtro de token é implementado usando o Apache Lucene.

StemmerTokenFilter

Filtro de lematização específico da linguagem. Esse filtro de token é implementado usando o Apache Lucene.

StemmerTokenFilterLanguage

O idioma a ser usado para um filtro de token de lematizador.

StopAnalyzer

Divide o texto em não letras; Aplica os filtros de token de letras minúsculas e palavras irrelevantes. Esse analisador é implementado usando o Apache Lucene.

StopwordsList

Identifica uma lista predefinida de palavras irrelevantes específicas do idioma.

StopwordsTokenFilter

Remove palavras irrelevantes de um fluxo de tokens. Esse filtro de token é implementado usando o Apache Lucene.

Suggester

Define como a API de Sugestão deve ser aplicada a um grupo de campos no índice.

SuggesterSearchMode

Um valor que indica os recursos do sugestor.

SynonymTokenFilter

Corresponde a sinônimos de uma ou várias palavras em um fluxo de token. Esse filtro de token é implementado usando o Apache Lucene.

TagScoringFunction

Define uma função que aumenta as pontuações de documentos com valores de cadeia de caracteres que correspondem a uma determinada lista de marcas.

TagScoringParameters

Fornece valores de parâmetro para uma função de pontuação de marca.

TextWeights

Define pesos em campos de índice para os quais as correspondências devem aumentar a pontuação em consultas de pesquisa.

TokenCharacterKind

Representa classes de caracteres nos quais um filtro de token pode operar.

TokenFilterName

Define os nomes de todos os filtros de token compatíveis com o mecanismo de pesquisa.

TruncateTokenFilter

Trunca os termos para um comprimento específico. Esse filtro de token é implementado usando o Apache Lucene.

UaxUrlEmailTokenizer

Cria tokens de urls e emails como um único token. Esse criador de tokens é implementado usando o Apache Lucene.

UniqueTokenFilter

Filtra os tokens com o mesmo texto como o token anterior. Esse filtro de token é implementado usando o Apache Lucene.

VectorSearch

Contém opções de configuração relacionadas à pesquisa de vetor.

VectorSearchAlgorithmKind

O algoritmo usado para indexação e consulta.

VectorSearchAlgorithmMetric

A métrica de similaridade a ser usada para comparações de vetor.

VectorSearchProfile

Define uma combinação de configurações a serem usadas com a pesquisa de vetor.

VectorSearchVectorizerKind

O método de vetorização a ser usado durante o tempo de consulta.

WordDelimiterTokenFilter

Divide as palavras em subpalavras e realiza transformações opcionais em grupos de subpalavras. Esse filtro de token é implementado usando o Apache Lucene.

AsciiFoldingTokenFilter

Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Latino Básico" em seus equivalentes ASCII, se esses equivalentes existirem. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

preserveOriginal

boolean

False

Um valor que indica se o token original será mantido. O padrão é false.

AzureActiveDirectoryApplicationCredentials

Credenciais de um aplicativo registrado criado para seu serviço de pesquisa, usado para acesso autenticado às chaves de criptografia armazenadas no Azure Key Vault.

Nome Tipo Description
applicationId

string

Uma ID de Aplicativo do AAD que recebeu as permissões de acesso necessárias para o Azure Key Vault que deve ser usada ao criptografar seus dados inativos. A ID do Aplicativo não deve ser confundida com a ID de Objeto do aplicativo do AAD.

applicationSecret

string

A chave de autenticação do aplicativo AAD especificado.

AzureOpenAIParameters

Especifica os parâmetros para se conectar ao recurso OpenAI do Azure.

Nome Tipo Description
apiKey

string

Chave de API do recurso Azure OpenAI designado.

authIdentity SearchIndexerDataIdentity:

A identidade gerenciada atribuída pelo usuário usada para conexões de saída.

deploymentId

string

ID da implantação do modelo OpenAI do Azure no recurso designado.

resourceUri

string

O URI de recurso do recurso OpenAI do Azure.

AzureOpenAIVectorizer

Especifica o recurso OpenAI do Azure usado para vetorizar uma cadeia de caracteres de consulta.

Nome Tipo Description
azureOpenAIParameters

AzureOpenAIParameters

Contém os parâmetros específicos para a vetorização de inserção do OpenAI do Azure.

kind string:

azureOpenAI

O nome do tipo de método de vetorização que está sendo configurado para uso com a pesquisa de vetor.

name

string

O nome a ser associado a esse método de vetorização específico.

BM25Similarity

Função de classificação com base no algoritmo de similaridade Okapi BM25. BM25 é um algoritmo do tipo TF-IDF que inclui normalização de comprimento (controlada pelo parâmetro 'b'), bem como saturação de frequência de termo (controlada pelo parâmetro 'k1').

Nome Tipo Description
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number

Essa propriedade controla como o comprimento de um documento afeta a pontuação de relevância. Por padrão, um valor de 0,75 é usado. Um valor de 0,0 significa que nenhuma normalização de comprimento é aplicada, enquanto um valor de 1,0 significa que a pontuação é totalmente normalizada pelo comprimento do documento.

k1

number

Essa propriedade controla a função de dimensionamento entre a frequência de termos de cada termos correspondentes e a pontuação de relevância final de um par de consultas de documento. Por padrão, um valor de 1,2 é usado. Um valor de 0,0 significa que a pontuação não é dimensionada com um aumento na frequência do termo.

CharFilterName

Define os nomes de todos os filtros de caracteres compatíveis com o mecanismo de pesquisa.

Nome Tipo Description
html_strip

string

Um filtro de caracteres que tenta remover constructos HTML. Veja https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

Forma bigrams de termos CJK gerados do criador de token padrão. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

ignoreScripts

CjkBigramTokenFilterScripts[]

Os scripts a serem ignorados.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

outputUnigrams

boolean

False

Um valor que indica se é necessário gerar unigramas e bigrams (se verdadeiro) ou apenas bigrams (se for falso). O padrão é false.

CjkBigramTokenFilterScripts

Scripts que podem ser ignorados por CjkBigramTokenFilter.

Nome Tipo Description
han

string

Ignore o script han ao formar bigrams de termos CJK.

hangul

string

Ignore o script Hangul ao formar bigrams de termos CJK.

hiragana

string

Ignore o script hiragana ao formar bigrams de termos CJK.

katakana

string

Ignore o script katakana ao formar bigrams de termos CJK.

ClassicSimilarity

Algoritmo de similaridade herdado que usa a implementação lucene TFIDFSimilarity do TF-IDF. Essa variação do TF-IDF introduz a normalização de comprimento de documento estático, bem como fatores de coordenação que penalizam documentos que correspondem apenas parcialmente às consultas pesquisadas.

Nome Tipo Description
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

Tokenizer baseado em gramática que é adequado para processar a maioria dos documentos de idioma europeu. Esse tokenizer é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

maxTokenLength

integer

255

O comprimento máximo do token. O padrão é 255. Tokens maiores do que o tamanho máximo são divididos. O comprimento máximo do token que pode ser usado é de 300 caracteres.

name

string

O nome do tokenizer. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

CommonGramTokenFilter

Construa bigramas para termos que ocorrem com frequência durante a indexação. Termos únicos ainda são indexados também, com bigramas sobrepostos. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

commonWords

string[]

O conjunto de palavras comuns.

ignoreCase

boolean

False

Um valor que indica se a correspondência de palavras comuns não diferenciará maiúsculas de minúsculas. O padrão é false.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

queryMode

boolean

False

Um valor que indica se o filtro de token está no modo de consulta. Quando estiver no modo de consulta, o filtro de token gerará bigrams e removerá palavras comuns e termos únicos seguidos por uma palavra comum. O padrão é false.

CorsOptions

Define opções para controlar o CORS (Compartilhamento de Recursos entre Origens) para um índice.

Nome Tipo Description
allowedOrigins

string[]

A lista de origens das quais o código JavaScript terá acesso ao índice. Pode conter uma lista de hosts do formulário {protocol}://{fully-qualified-domain-name}[:{port#}], ou um único '*' para permitir todas as origens (não recomendado).

maxAgeInSeconds

integer

A duração para a qual os navegadores devem armazenar em cache as respostas de pré-voo do CORS. O padrão é 5 minutos.

CustomAnalyzer

Permite que você assuma o controle sobre o processo de conversão de texto em tokens indexáveis/pesquisáveis. É uma configuração definida pelo usuário que consiste em um único tokenizador predefinido e um ou mais filtros. O tokenizer é responsável por dividir o texto em tokens e os filtros para modificar tokens emitidos pelo tokenizer.

Nome Tipo Description
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

Um fragmento de URI que especifica o tipo de analisador.

charFilters

CharFilterName[]

Uma lista de filtros de caracteres usados para preparar o texto de entrada antes de ser processado pelo tokenizer. Por exemplo, ele pode substituir certos caracteres ou símbolos. Os filtros são executados na ordem em que estão listados.

name

string

O nome do analisador. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

tokenFilters

TokenFilterName[]

Uma lista de filtros de token usados para filtrar ou modificar os tokens gerados por um tokenizador. Por exemplo, você pode especificar um filtro de minúsculas que converte todos os caracteres em letras minúsculas. Os filtros são executados na ordem em que estão listados.

tokenizer

LexicalTokenizerName

O nome do tokenizer a ser usado para dividir o texto contínuo em uma sequência de tokens, como dividir uma frase em palavras.

CustomNormalizer

Permite configurar a normalização para campos filtráveis, classificáveis e facetáveis, que, por padrão, operam com correspondência estrita. Essa é uma configuração definida pelo usuário que consiste em pelo menos um ou mais filtros, que modificam o token armazenado.

Nome Tipo Description
@odata.type string:

#Microsoft.Azure.Search.CustomNormalizer

Um fragmento de URI que especifica o tipo de normalizador.

charFilters

CharFilterName[]

Uma lista de filtros de caracteres usados para preparar o texto de entrada antes de ser processado. Por exemplo, ele pode substituir certos caracteres ou símbolos. Os filtros são executados na ordem em que estão listados.

name

string

O nome do normalizador. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres. Ele não pode terminar em '.microsoft' nem '.lucene', nem ser nomeado como 'asciifolding', 'standard', 'lowercase', 'uppercase' ou 'elision'.

tokenFilters

TokenFilterName[]

Uma lista de filtros de token usados para filtrar ou modificar o token de entrada. Por exemplo, você pode especificar um filtro de minúsculas que converte todos os caracteres em letras minúsculas. Os filtros são executados na ordem em que estão listados.

CustomVectorizer

Especifica um vetorizador definido pelo usuário para gerar a inserção de vetor de uma cadeia de caracteres de consulta. A integração de um vetorizador externo é obtida usando a interface de API Web personalizada de um conjunto de habilidades.

Nome Tipo Description
customWebApiParameters

CustomWebApiParameters

Especifica as propriedades do vetorizador definido pelo usuário.

kind string:

customWebApi

O nome do tipo de método de vetorização que está sendo configurado para uso com a pesquisa de vetor.

name

string

O nome a ser associado a esse método de vetorização específico.

CustomWebApiParameters

Especifica as propriedades para se conectar a um vetorizador definido pelo usuário.

Nome Tipo Description
authIdentity SearchIndexerDataIdentity:

A identidade gerenciada atribuída pelo usuário usada para conexões de saída. Se um authResourceId for fornecido e não for especificado, a identidade gerenciada atribuída pelo sistema será usada. Em atualizações para o indexador, se a identidade não for especificada, o valor permanecerá inalterado. Se definido como "nenhum", o valor dessa propriedade será limpo.

authResourceId

string

Aplica-se a pontos de extremidade personalizados que se conectam ao código externo em uma função do Azure ou em algum outro aplicativo que fornece as transformações. Esse valor deve ser a ID do aplicativo criada para a função ou aplicativo quando ela foi registrada no Azure Active Directory. Quando especificada, a vetorização se conecta à função ou ao aplicativo usando uma ID gerenciada (sistema ou atribuído pelo usuário) do serviço de pesquisa e o token de acesso da função ou aplicativo, usando esse valor como a ID do recurso para criar o escopo do token de acesso.

httpHeaders

object

Os cabeçalhos necessários para fazer a solicitação HTTP.

httpMethod

string

O método para a solicitação HTTP.

timeout

string

O tempo limite desejado para a solicitação. O padrão é 30 segundos.

uri

string

O URI da API Web que fornece o vetorizador.

DictionaryDecompounderTokenFilter

Decompõe palavras compostas encontradas em muitos idiomas germânicos. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

maxSubwordSize

integer

15

O tamanho máximo da sub palavra. Somente sub-palavras menores que essa são geradas. O padrão é 15. O máximo é 300.

minSubwordSize

integer

2

O tamanho mínimo da sub palavra. Somente sub-palavras maiores que essa são geradas. O padrão é 2. O máximo é 300.

minWordSize

integer

5

O tamanho mínimo da palavra. Somente palavras mais longas do que isso são processadas. O padrão é 5. O máximo é 300.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

onlyLongestMatch

boolean

False

Um valor que indica se a sub palavra correspondente mais longa deve ser adicionada à saída. O padrão é false.

wordList

string[]

A lista de palavras a serem correspondidas.

DistanceScoringFunction

Define uma função que aumenta as pontuações com base na distância de uma localização geográfica.

Nome Tipo Description
boost

number

Um multiplicador para a pontuação bruta. Deve ser um número positivo diferente de 1,0.

distance

DistanceScoringParameters

Valores de parâmetro para a função de pontuação de distância.

fieldName

string

O nome do campo usado como entrada para a função de pontuação.

interpolation

ScoringFunctionInterpolation

Um valor que indica como o aumento será interpolado entre as pontuações do documento; usa como padrão "Linear".

type string:

distance

Indica o tipo de função a ser usada. Os valores válidos incluem magnitude, atualização, distância e marca. O tipo de função deve ser minúsculo.

DistanceScoringParameters

Fornece valores de parâmetro para uma função de pontuação de distância.

Nome Tipo Description
boostingDistance

number

A distância em quilômetros do local de referência em que o intervalo de aumento termina.

referencePointParameter

string

O nome do parâmetro passado em consultas de pesquisa para especificar o local de referência.

EdgeNGramTokenFilter

Gera n-gramas dos tamanhos fornecidos começando na frente ou na parte traseira de um token de entrada. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

maxGram

integer

2

O comprimento máximo de n-grama. O padrão é 2.

minGram

integer

1

O comprimento mínimo de n-grama. O padrão é UTF-1. Deve ser menor que o valor de maxGram.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

side

EdgeNGramTokenFilterSide

front

Especifica de qual lado da entrada o n-grama deve ser gerado. O padrão é "front".

EdgeNGramTokenFilterSide

Especifica de qual lado da entrada um n-gram deve ser gerado.

Nome Tipo Description
back

string

Especifica que o n-gram deve ser gerado na parte de trás da entrada.

front

string

Especifica que o n-gram deve ser gerado na frente da entrada.

EdgeNGramTokenFilterV2

Gera n-gramas dos tamanhos fornecidos começando na frente ou na parte traseira de um token de entrada. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

Um fragmento de URI que especifica o tipo de filtro de token.

maxGram

integer

2

O comprimento máximo de n-grama. O padrão é 2. O máximo é 300.

minGram

integer

1

O comprimento mínimo de n-grama. O padrão é UTF-1. O máximo é 300. Deve ser menor que o valor de maxGram.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

side

EdgeNGramTokenFilterSide

front

Especifica de qual lado da entrada o n-grama deve ser gerado. O padrão é "front".

EdgeNGramTokenizer

Tokeniza a entrada de uma borda em n-gramas dos tamanhos fornecidos. Esse tokenizer é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

maxGram

integer

2

O comprimento máximo de n grama. O padrão é 2. O máximo é 300.

minGram

integer

1

O comprimento mínimo de n grama. O padrão é UTF-1. O máximo é 300. Deve ser menor que o valor de maxGram.

name

string

O nome do tokenizer. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

tokenChars

TokenCharacterKind[]

Classes de caracteres a serem mantidas nos tokens.

ElisionTokenFilter

Remove elisões. Por exemplo, "l'avion" (o plano) será convertido em "avion" (plano). Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Description
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

articles

string[]

O conjunto de artigos a serem removidos.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

ExhaustiveKnnParameters

Contém os parâmetros específicos para o algoritmo KNN exaustivo.

Nome Tipo Description
metric

VectorSearchAlgorithmMetric

A métrica de similaridade a ser usada para comparações de vetor.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Contém opções de configuração específicas para o algoritmo KNN exaustivo usado durante a consulta, que executará a pesquisa de força bruta em todo o índice de vetor.

Nome Tipo Description
exhaustiveKnnParameters

ExhaustiveKnnParameters

Contém os parâmetros específicos para o algoritmo KNN exaustivo.

kind string:

exhaustiveKnn

O nome do tipo de algoritmo que está sendo configurado para uso com a pesquisa de vetor.

name

string

O nome a ser associado a essa configuração específica.

FreshnessScoringFunction

Define uma função que aumenta as pontuações com base no valor de um campo de data e hora.

Nome Tipo Description
boost

number

Um multiplicador para a pontuação bruta. Deve ser um número positivo diferente de 1,0.

fieldName

string

O nome do campo usado como entrada para a função de pontuação.

freshness

FreshnessScoringParameters

Valores de parâmetro para a função de pontuação de atualização.

interpolation

ScoringFunctionInterpolation

Um valor que indica como o aumento será interpolado entre as pontuações do documento; usa como padrão "Linear".

type string:

freshness

Indica o tipo de função a ser usada. Os valores válidos incluem magnitude, atualização, distância e marca. O tipo de função deve ser minúsculo.

FreshnessScoringParameters

Fornece valores de parâmetro para uma função de pontuação de atualização.

Nome Tipo Description
boostingDuration

string

O período de expiração após o qual o aumento será interrompido para um documento específico.

HnswParameters

Contém os parâmetros específicos para o algoritmo HNSW.

Nome Tipo Valor padrão Description
efConstruction

integer

400

O tamanho da lista dinâmica que contém os vizinhos mais próximos, que é usado durante o tempo de índice. Aumentar esse parâmetro pode melhorar a qualidade do índice, em detrimento do aumento do tempo de indexação. Em um determinado ponto, aumentar esse parâmetro leva à diminuição dos retornos.

efSearch

integer

500

O tamanho da lista dinâmica que contém os vizinhos mais próximos, que é usado durante o tempo de pesquisa. Aumentar esse parâmetro pode melhorar os resultados da pesquisa, em detrimento de uma pesquisa mais lenta. Em um determinado ponto, aumentar esse parâmetro leva à diminuição dos retornos.

m

integer

4

O número de links bidirecionais criados para cada novo elemento durante a construção. Aumentar esse valor de parâmetro pode melhorar o recall e reduzir os tempos de recuperação para conjuntos de dados com alta dimensionalidade intrínseca em detrimento do aumento do consumo de memória e do tempo de indexação mais longo.

metric

VectorSearchAlgorithmMetric

A métrica de similaridade a ser usada para comparações de vetor.

HnswVectorSearchAlgorithmConfiguration

Contém opções de configuração específicas para o algoritmo de vizinhos mais próximos aproximado do HNSW usado durante a indexação e a consulta. O algoritmo HNSW oferece uma compensação ajustável entre a velocidade e a precisão da pesquisa.

Nome Tipo Description
hnswParameters

HnswParameters

Contém os parâmetros específicos do algoritmo HNSW.

kind string:

hnsw

O nome do tipo de algoritmo que está sendo configurado para uso com a pesquisa de vetor.

name

string

O nome a ser associado a essa configuração específica.

KeepTokenFilter

Um filtro de token que mantém apenas tokens com texto contido em uma lista especificada de palavras. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

keepWords

string[]

A lista de palavras a serem mantidas.

keepWordsCase

boolean

False

Um valor que indica se todas as palavras devem ser minúsculas primeiro. O padrão é false.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

KeywordMarkerTokenFilter

Marca termos como palavras-chave. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

ignoreCase

boolean

False

Um valor que indica se é necessário ignorar maiúsculas e minúsculas. Se for true, todas as palavras serão convertidas em letras minúsculas primeiro. O padrão é false.

keywords

string[]

Uma lista de palavras para marcar como palavras-chave.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

KeywordTokenizer

Emite a entrada inteira como um único token. Esse tokenizer é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

bufferSize

integer

256

O tamanho do buffer de leitura em bytes. O padrão é 256.

name

string

O nome do tokenizer. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

KeywordTokenizerV2

Emite a entrada inteira como um único token. Esse tokenizer é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

Um fragmento de URI que especifica o tipo de tokenizer.

maxTokenLength

integer

256

O comprimento máximo do token. O padrão é 256. Tokens maiores do que o tamanho máximo são divididos. O comprimento máximo do token que pode ser usado é de 300 caracteres.

name

string

O nome do tokenizer. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

LengthTokenFilter

Remove palavras muito longas ou muito curtas. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

max

integer

300

O comprimento máximo em caracteres. O padrão e o máximo é 300.

min

integer

0

O comprimento mínimo em caracteres. O padrão é 0. O máximo é 300. Deve ser menor que o valor máximo.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

LexicalAnalyzerName

Define os nomes de todos os analisadores de texto compatíveis com o mecanismo de pesquisa.

Nome Tipo Description
ar.lucene

string

Analisador Lucene para árabe.

ar.microsoft

string

Analisador da Microsoft para árabe.

bg.lucene

string

Analisador Lucene para búlgaro.

bg.microsoft

string

Analisador da Microsoft para búlgaro.

bn.microsoft

string

Analisador da Microsoft para Bangla.

ca.lucene

string

Analisador Lucene para catalão.

ca.microsoft

string

Analisador da Microsoft para catalão.

cs.lucene

string

Analisador Lucene para tcheco.

cs.microsoft

string

Analisador da Microsoft para Tcheco.

da.lucene

string

Analisador Lucene para dinamarquês.

da.microsoft

string

Analisador da Microsoft para dinamarquês.

de.lucene

string

Analisador Lucene para alemão.

de.microsoft

string

Analisador da Microsoft para alemão.

el.lucene

string

Analisador Lucene para grego.

el.microsoft

string

Analisador da Microsoft para grego.

en.lucene

string

Analisador Lucene para inglês.

en.microsoft

string

Analisador da Microsoft para inglês.

es.lucene

string

Analisador Lucene para espanhol.

es.microsoft

string

Analisador da Microsoft para espanhol.

et.microsoft

string

Analisador da Microsoft para estoniano.

eu.lucene

string

Analisador Lucene para Basco.

fa.lucene

string

Analisador Lucene para persa.

fi.lucene

string

Analisador Lucene para finlandês.

fi.microsoft

string

Analisador da Microsoft para finlandês.

fr.lucene

string

Analisador Lucene para francês.

fr.microsoft

string

Analisador da Microsoft para francês.

ga.lucene

string

Analisador Lucene para irlandês.

gl.lucene

string

Analisador Lucene para galego.

gu.microsoft

string

Analisador da Microsoft para Gujarati.

he.microsoft

string

Analisador da Microsoft para hebraico.

hi.lucene

string

Analisador Lucene para hindi.

hi.microsoft

string

Analisador da Microsoft para hindi.

hr.microsoft

string

Analisador da Microsoft para croata.

hu.lucene

string

Analisador Lucene para húngaro.

hu.microsoft

string

Analisador da Microsoft para húngaro.

hy.lucene

string

Analisador Lucene para armênio.

id.lucene

string

Analisador Lucene para indonésio.

id.microsoft

string

Analisador da Microsoft para Indonésio (Bahasa).

is.microsoft

string

Analisador da Microsoft para islandês.

it.lucene

string

Analisador Lucene para italiano.

it.microsoft

string

Analisador da Microsoft para italiano.

ja.lucene

string

Analisador Lucene para japonês.

ja.microsoft

string

Analisador da Microsoft para japonês.

keyword

string

Trata todo o conteúdo de um campo como um único token. Isso é útil para dados como códigos postais, IDs e alguns nomes de produtos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Analisador da Microsoft para Kannada.

ko.lucene

string

Analisador Lucene para coreano.

ko.microsoft

string

Analisador da Microsoft para coreano.

lt.microsoft

string

Analisador da Microsoft para lituano.

lv.lucene

string

Analisador Lucene para letão.

lv.microsoft

string

Analisador da Microsoft para letão.

ml.microsoft

string

Analisador da Microsoft para Malayalam.

mr.microsoft

string

Analisador da Microsoft para Marathi.

ms.microsoft

string

Analisador da Microsoft para malaio (latino).

nb.microsoft

string

Analisador da Microsoft para norueguês (Bokmål).

nl.lucene

string

Analisador Lucene para holandês.

nl.microsoft

string

Analisador da Microsoft para holandês.

no.lucene

string

Analisador Lucene para norueguês.

pa.microsoft

string

Analisador da Microsoft para Punjabi.

pattern

string

Separa texto em termos de forma flexível por meio de um padrão de expressão regular. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Analisador Lucene para polonês.

pl.microsoft

string

Analisador da Microsoft para polonês.

pt-BR.lucene

string

Analisador lucene para português (Brasil).

pt-BR.microsoft

string

Analisador da Microsoft para português (Brasil).

pt-PT.lucene

string

Analisador lucene para português (Portugal).

pt-PT.microsoft

string

Analisador da Microsoft para Português (Portugal).

ro.lucene

string

Analisador Lucene para romeno.

ro.microsoft

string

Analisador da Microsoft para romeno.

ru.lucene

string

Analisador Lucene para russo.

ru.microsoft

string

Analisador da Microsoft para russo.

simple

string

Divide o texto em não letras e converte em minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Analisador da Microsoft para Eslovaco.

sl.microsoft

string

Analisador da Microsoft para esloveno.

sr-cyrillic.microsoft

string

Analisador da Microsoft para sérvio (cirílico).

sr-latin.microsoft

string

Analisador da Microsoft para sérvio (latino).

standard.lucene

string

Analisador Lucene Padrão.

standardasciifolding.lucene

string

Analisador Lucene de Dobragem ASCII Padrão. Veja https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Divide o texto em não letras; Aplica os filtros de token de letras minúsculas e palavras irrelevantes. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Analisador Lucene para sueco.

sv.microsoft

string

Analisador da Microsoft para sueco.

ta.microsoft

string

Analisador da Microsoft para Tamil.

te.microsoft

string

Analisador da Microsoft para Telugu.

th.lucene

string

Analisador Lucene para tailandês.

th.microsoft

string

Analisador da Microsoft para tailandês.

tr.lucene

string

Analisador Lucene para turco.

tr.microsoft

string

Analisador da Microsoft para turco.

uk.microsoft

string

Analisador da Microsoft para ucraniano.

ur.microsoft

string

Analisador da Microsoft para Urdu.

vi.microsoft

string

Analisador da Microsoft para vietnamita.

whitespace

string

Um analisador que usa o criador de token whitespace. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Analisador Lucene para chinês (simplificado).

zh-Hans.microsoft

string

Analisador da Microsoft para chinês (simplificado).

zh-Hant.lucene

string

Analisador Lucene para chinês (tradicional).

zh-Hant.microsoft

string

Analisador da Microsoft para chinês (tradicional).

LexicalNormalizerName

Define os nomes de todos os normalizadores de texto compatíveis com o mecanismo de pesquisa.

Nome Tipo Description
asciifolding

string

Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Latino Básico" em seus equivalentes ASCII, se esses equivalentes existirem. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

string

Remove elisões. Por exemplo, "l'avion" (o plano) será convertido em "avion" (plano). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

string

Normaliza o texto do token em letras minúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

string

Normalizador padrão, que consiste em minúsculas e asciifolding. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

string

Normaliza o texto do token em maiúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Define os nomes de todos os tokenizers compatíveis com o mecanismo de pesquisa.

Nome Tipo Description
classic

string

Criador de tokens baseado em gramática adequado para processar a maioria dos documentos em idioma europeu. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokeniza a entrada de uma borda em n-gramas dos tamanhos fornecidos. Veja https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Emite a entrada inteira como um único token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Divide o texto em não letras. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Divide o texto em não letras e converte em minúsculas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Divide o texto usando regras específicas de idioma e reduz palavras para seus formulários base.

microsoft_language_tokenizer

string

Divide o texto usando regras específicas de idioma.

nGram

string

Cria tokens de entrada em n-gramas de determinados tamanhos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Criador de token para hierarquias de caminho. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Criador de token que usa a correspondência de padrões regex para construir tokens distintos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Analisador Lucene Padrão; Composto pelo tokenizer padrão, filtro em minúsculas e filtro de parada. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Cria tokens de urls e emails como um único token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Divide o texto em espaços em branco. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

Limita o número de tokens durante a indexação. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

consumeAllTokens

boolean

False

Um valor que indica se todos os tokens da entrada devem ser consumidos mesmo se maxTokenCount for atingido. O padrão é false.

maxTokenCount

integer

1

O número máximo de tokens a serem produzidos. O padrão é UTF-1.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

LuceneStandardAnalyzer

Analisador Standard do Apache Lucene; Composto pelo tokenizador padrão, filtro minúsculo e filtro de parada.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

Um fragmento de URI que especifica o tipo de analisador.

maxTokenLength

integer

255

O comprimento máximo do token. O padrão é 255. Tokens maiores do que o tamanho máximo são divididos. O comprimento máximo do token que pode ser usado é de 300 caracteres.

name

string

O nome do analisador. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

stopwords

string[]

Uma lista de palavras irrelevantes.

LuceneStandardTokenizer

Quebra o texto seguindo as regras de Segmentação de Texto Unicode. Esse criador de tokens é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

maxTokenLength

integer

255

O comprimento máximo do token. O padrão é 255. Tokens maiores do que o tamanho máximo são divididos.

name

string

O nome do criador de tokens. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

LuceneStandardTokenizerV2

Quebra o texto seguindo as regras de Segmentação de Texto Unicode. Esse criador de tokens é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

Um fragmento de URI que especifica o tipo de tokenizer.

maxTokenLength

integer

255

O comprimento máximo do token. O padrão é 255. Tokens maiores do que o tamanho máximo são divididos. O comprimento máximo do token que pode ser usado é de 300 caracteres.

name

string

O nome do criador de tokens. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

MagnitudeScoringFunction

Define uma função que aumenta as pontuações com base na magnitude de um campo numérico.

Nome Tipo Description
boost

number

Um multiplicador para a pontuação bruta. Deve ser um número positivo diferente de 1,0.

fieldName

string

O nome do campo usado como entrada para a função de pontuação.

interpolation

ScoringFunctionInterpolation

Um valor que indica como o aumento será interpolado entre as pontuações do documento; usa como padrão "Linear".

magnitude

MagnitudeScoringParameters

Valores de parâmetro para a função de pontuação de magnitude.

type string:

magnitude

Indica o tipo de função a ser usada. Os valores válidos incluem magnitude, atualização, distância e marca. O tipo de função deve ser minúsculo.

MagnitudeScoringParameters

Fornece valores de parâmetro para uma função de pontuação de magnitude.

Nome Tipo Description
boostingRangeEnd

number

O valor do campo no qual o aumento termina.

boostingRangeStart

number

O valor do campo no qual o aumento é iniciado.

constantBoostBeyondRange

boolean

Um valor que indica se deve ser aplicado um aumento constante para valores de campo além do valor final do intervalo; default é false.

MappingCharFilter

Um filtro de caracteres que aplica mapeamentos definidos com a opção de mapeamentos. A correspondência é gananciosa (a correspondência de padrões mais longa em um determinado ponto vence). A substituição é permitida como a cadeia de caracteres vazia. Esse filtro de caractere é implementado usando o Apache Lucene.

Nome Tipo Description
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

Um fragmento de URI que especifica o tipo de filtro char.

mappings

string[]

Uma lista de mapeamentos do seguinte formato: "a=>b" (todas as ocorrências do caractere "a" serão substituídas pelo caractere "b").

name

string

O nome do filtro char. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

MicrosoftLanguageStemmingTokenizer

Divide o texto usando regras específicas de idioma e reduz palavras para seus formulários base.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

isSearchTokenizer

boolean

False

Um valor que indica como o tokenizer é usado. Defina como true se usado como o tokenizador de pesquisa, defina como false se usado como o tokenizador de indexação. O padrão é false.

language

MicrosoftStemmingTokenizerLanguage

O idioma a ser usado. O padrão é inglês.

maxTokenLength

integer

255

O comprimento máximo do token. Tokens maiores do que o tamanho máximo são divididos. O comprimento máximo do token que pode ser usado é de 300 caracteres. Tokens com mais de 300 caracteres são divididos primeiro em tokens de comprimento 300 e, em seguida, cada um desses tokens é dividido com base no conjunto de comprimento máximo do token. O padrão é 255.

name

string

O nome do tokenizer. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

MicrosoftLanguageTokenizer

Divide o texto usando regras específicas de idioma.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

isSearchTokenizer

boolean

False

Um valor que indica como o tokenizer é usado. Defina como true se usado como o tokenizador de pesquisa, defina como false se usado como o tokenizador de indexação. O padrão é false.

language

MicrosoftTokenizerLanguage

O idioma a ser usado. O padrão é inglês.

maxTokenLength

integer

255

O comprimento máximo do token. Tokens maiores do que o tamanho máximo são divididos. O comprimento máximo do token que pode ser usado é de 300 caracteres. Tokens com mais de 300 caracteres são divididos primeiro em tokens de comprimento 300 e, em seguida, cada um desses tokens é dividido com base no conjunto de comprimento máximo do token. O padrão é 255.

name

string

O nome do tokenizer. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

MicrosoftStemmingTokenizerLanguage

Listas os idiomas compatíveis com o token de lematização de idioma da Microsoft.

Nome Tipo Description
arabic

string

Seleciona o tokenizador de lematização da Microsoft para árabe.

bangla

string

Seleciona o tokenizador de lematização da Microsoft para o Bangla.

bulgarian

string

Seleciona o tokenizador de lematização da Microsoft para búlgaro.

catalan

string

Seleciona o tokenizador de lematização da Microsoft para Catalão.

croatian

string

Seleciona o tokenizador de lematização da Microsoft para croata.

czech

string

Seleciona o tokenizador de lematização da Microsoft para Tcheco.

danish

string

Seleciona o tokenizador de lematização da Microsoft para dinamarquês.

dutch

string

Seleciona o tokenizador de lematização da Microsoft para holandês.

english

string

Seleciona o tokenizador de lematização da Microsoft para inglês.

estonian

string

Seleciona o tokenizador de lematização da Microsoft para estoniano.

finnish

string

Seleciona o tokenizador de lematização da Microsoft para finlandês.

french

string

Seleciona o tokenizador de lematização da Microsoft para francês.

german

string

Seleciona o tokenizador de lematização da Microsoft para alemão.

greek

string

Seleciona o tokenizador de lematização da Microsoft para Grego.

gujarati

string

Seleciona o tokenizador de lematização da Microsoft para o Gujarati.

hebrew

string

Seleciona o tokenizador de lematização da Microsoft para hebraico.

hindi

string

Seleciona o tokenizador de lematização da Microsoft para Hindi.

hungarian

string

Seleciona o tokenizador de lematização da Microsoft para húngaro.

icelandic

string

Seleciona o tokenizador de lematização da Microsoft para islandês.

indonesian

string

Seleciona o tokenizador de lematização da Microsoft para Indonésio.

italian

string

Seleciona o tokenizador de lematização da Microsoft para italiano.

kannada

string

Seleciona o tokenizador de lematização da Microsoft para Kannada.

latvian

string

Seleciona o tokenizador de lematização da Microsoft para letão.

lithuanian

string

Seleciona o tokenizador de lematização da Microsoft para lituano.

malay

string

Seleciona o tokenizador de lematização da Microsoft para Malay.

malayalam

string

Seleciona o tokenizador de lematização da Microsoft para Malayalam.

marathi

string

Seleciona o tokenizador de lematização da Microsoft para Marathi.

norwegianBokmaal

string

Seleciona o tokenizador de lematização da Microsoft para norueguês (Bokmål).

polish

string

Seleciona o tokenizador de lematização da Microsoft para Polonês.

portuguese

string

Seleciona o tokenizador de lematização da Microsoft para português.

portugueseBrazilian

string

Seleciona o tokenizador de lematização da Microsoft para português (Brasil).

punjabi

string

Seleciona o tokenizador de lematização da Microsoft para Punjabi.

romanian

string

Seleciona o tokenizador de lematização da Microsoft para romeno.

russian

string

Seleciona o tokenizador de lematização da Microsoft para russo.

serbianCyrillic

string

Seleciona o tokenizador de lematização da Microsoft para sérvio (cirílico).

serbianLatin

string

Seleciona o tokenizador de lematização da Microsoft para sérvio (latino).

slovak

string

Seleciona o tokenizador de lematização da Microsoft para o Eslovaco.

slovenian

string

Seleciona o tokenizador de lematização da Microsoft para esloveno.

spanish

string

Seleciona o tokenizador de lematização da Microsoft para espanhol.

swedish

string

Seleciona o tokenizador de lematização da Microsoft para sueco.

tamil

string

Seleciona o tokenizador de lematização da Microsoft para Tamil.

telugu

string

Seleciona o tokenizador de lematização da Microsoft para o Telugu.

turkish

string

Seleciona o tokenizador de lematização da Microsoft para turco.

ukrainian

string

Seleciona o tokenizador de lematização da Microsoft para ucraniano.

urdu

string

Seleciona o tokenizador de lematização da Microsoft para Urdu.

MicrosoftTokenizerLanguage

Listas os idiomas compatíveis com o tokenizador de idioma da Microsoft.

Nome Tipo Description
bangla

string

Seleciona o tokenizador da Microsoft para Bangla.

bulgarian

string

Seleciona o tokenizador da Microsoft para búlgaro.

catalan

string

Seleciona o tokenizador da Microsoft para Catalão.

chineseSimplified

string

Seleciona o tokenizador da Microsoft para chinês (simplificado).

chineseTraditional

string

Seleciona o tokenizador da Microsoft para chinês (tradicional).

croatian

string

Seleciona o tokenizador da Microsoft para croata.

czech

string

Seleciona o tokenizador da Microsoft para Tcheco.

danish

string

Seleciona o tokenizer da Microsoft para dinamarquês.

dutch

string

Seleciona o tokenizador da Microsoft para holandês.

english

string

Seleciona o tokenizador da Microsoft para inglês.

french

string

Seleciona o tokenizador da Microsoft para francês.

german

string

Seleciona o tokenizador da Microsoft para alemão.

greek

string

Seleciona o tokenizador da Microsoft para Grego.

gujarati

string

Seleciona o tokenizador da Microsoft para o Gujarati.

hindi

string

Seleciona o tokenizador da Microsoft para Hindi.

icelandic

string

Seleciona o tokenizador da Microsoft para islandês.

indonesian

string

Seleciona o tokenizador da Microsoft para Indonésio.

italian

string

Seleciona o tokenizador da Microsoft para italiano.

japanese

string

Seleciona o tokenizador da Microsoft para japonês.

kannada

string

Seleciona o tokenizador da Microsoft para Kannada.

korean

string

Seleciona o tokenizador da Microsoft para coreano.

malay

string

Seleciona o tokenizador da Microsoft para Malay.

malayalam

string

Seleciona o tokenizador da Microsoft para Malayalam.

marathi

string

Seleciona o tokenizador da Microsoft para Marathi.

norwegianBokmaal

string

Seleciona o tokenizador da Microsoft para norueguês (Bokmål).

polish

string

Seleciona o tokenizador da Microsoft para Polonês.

portuguese

string

Seleciona o tokenizador da Microsoft para português.

portugueseBrazilian

string

Seleciona o tokenizador da Microsoft para português (Brasil).

punjabi

string

Seleciona o tokenizador da Microsoft para Punjabi.

romanian

string

Seleciona o tokenizador da Microsoft para romeno.

russian

string

Seleciona o tokenizador da Microsoft para russo.

serbianCyrillic

string

Seleciona o tokenizador da Microsoft para sérvio (cirílico).

serbianLatin

string

Seleciona o tokenizador da Microsoft para sérvio (latino).

slovenian

string

Seleciona o tokenizador da Microsoft para esloveno.

spanish

string

Seleciona o tokenizador da Microsoft para espanhol.

swedish

string

Seleciona o tokenizador da Microsoft para sueco.

tamil

string

Seleciona o tokenizador da Microsoft para Tamil.

telugu

string

Seleciona o tokenizador da Microsoft para Telugu.

thai

string

Seleciona o tokenizador da Microsoft para tailandês.

ukrainian

string

Seleciona o tokenizador da Microsoft para ucraniano.

urdu

string

Seleciona o tokenizer da Microsoft para Urdu.

vietnamese

string

Seleciona o tokenizador da Microsoft para vietnamita.

NGramTokenFilter

Gera n-gramas de determinados tamanhos. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

maxGram

integer

2

O comprimento máximo de n-grama. O padrão é 2.

minGram

integer

1

O comprimento mínimo de n-grama. O padrão é UTF-1. Deve ser menor que o valor de maxGram.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

NGramTokenFilterV2

Gera n-gramas de determinados tamanhos. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

Um fragmento de URI que especifica o tipo de filtro de token.

maxGram

integer

2

O comprimento máximo de n-grama. O padrão é 2. O máximo é 300.

minGram

integer

1

O comprimento mínimo de n-grama. O padrão é UTF-1. O máximo é 300. Deve ser menor que o valor de maxGram.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

NGramTokenizer

Cria tokens de entrada em n-gramas de determinados tamanhos. Esse tokenizer é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

maxGram

integer

2

O comprimento máximo de n grama. O padrão é 2. O máximo é 300.

minGram

integer

1

O comprimento mínimo de n grama. O padrão é UTF-1. O máximo é 300. Deve ser menor que o valor de maxGram.

name

string

O nome do tokenizer. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

tokenChars

TokenCharacterKind[]

Classes de caracteres a serem mantidas nos tokens.

PathHierarchyTokenizerV2

Criador de token para hierarquias de caminho. Esse tokenizer é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

Um fragmento de URI que especifica o tipo de tokenizer.

delimiter

string

/

O caractere delimitador a ser usado. O padrão é "/".

maxTokenLength

integer

300

O comprimento máximo do token. O padrão e máximo é 300.

name

string

O nome do criador de tokens. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

replacement

string

/

Um valor que, se definido, substitui o caractere delimitador. O padrão é "/".

reverse

boolean

False

Um valor que indica se os tokens devem ser gerados na ordem inversa. O padrão é false.

skip

integer

0

O número de tokens iniciais a serem ignoradas. O padrão é 0.

PatternAnalyzer

Separa texto em termos de forma flexível por meio de um padrão de expressão regular. Esse analisador é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

Um fragmento de URI que especifica o tipo de analisador.

flags

RegexFlags

Sinalizadores de expressão regulares.

lowercase

boolean

True

Um valor que indica se os termos devem ser minúsculos. O padrão é true.

name

string

O nome do analisador. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

pattern

string

\W+

Um padrão de expressão regular para corresponder aos separadores de token. O padrão é uma expressão que corresponde a um ou mais caracteres que não são palavras.

stopwords

string[]

Uma lista de palavras irrelevantes.

PatternCaptureTokenFilter

Usa regexes Java para emitir vários tokens – um para cada grupo de captura em um ou mais padrões. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

patterns

string[]

Uma lista de padrões a serem correspondidos a cada token.

preserveOriginal

boolean

True

Um valor que indica se o token original deve ser retornado, mesmo que um dos padrões corresponda. O padrão é true.

PatternReplaceCharFilter

Um filtro de caracteres que substitui caracteres na cadeia de caracteres de entrada. Ele usa uma expressão regular para identificar sequências de caracteres para preservar e um padrão de substituição para identificar caracteres para substituir. Por exemplo, considerando o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Esse filtro de caractere é implementado usando o Apache Lucene.

Nome Tipo Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

Um fragmento de URI que especifica o tipo de filtro char.

name

string

O nome do filtro char. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

pattern

string

Um padrão de expressão regular.

replacement

string

O texto de substituição.

PatternReplaceTokenFilter

Um filtro de caracteres que substitui caracteres na cadeia de caracteres de entrada. Ele usa uma expressão regular para identificar sequências de caracteres para preservar e um padrão de substituição para identificar caracteres para substituir. Por exemplo, considerando o texto de entrada "aa bb aa bb", o padrão "(aa)\s+(bb)" e a substituição "$1#$2", o resultado seria "aa#bb aa#bb". Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

pattern

string

Um padrão de expressão regular.

replacement

string

O texto de substituição.

PatternTokenizer

Criador de token que usa a correspondência de padrões regex para construir tokens distintos. Esse criador de tokens é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

flags

RegexFlags

Sinalizadores de expressão regular.

group

integer

-1

O ordinal baseado em zero do grupo correspondente no padrão de expressão regular a ser extraído em tokens. Use -1 se quiser usar todo o padrão para dividir a entrada em tokens, independentemente dos grupos correspondentes. O padrão é -1.

name

string

O nome do criador de tokens. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

pattern

string

\W+

Um padrão de expressão regular para corresponder aos separadores de token. O padrão é uma expressão que corresponde a um ou mais caracteres que não são palavras.

PhoneticEncoder

Identifica o tipo de codificador fonético a ser usado com um PhoneticTokenFilter.

Nome Tipo Description
beiderMorse

string

Codifica um token em um valor Beider-Morse.

caverphone1

string

Codifica um token em um valor Caverphone 1.0.

caverphone2

string

Codifica um token em um valor Caverphone 2.0.

cologne

string

Codifica um token em um valor Fonético de Colônia.

doubleMetaphone

string

Codifica um token em um valor de metafone duplo.

haasePhonetik

string

Codifica um token usando o refinamento Haase do algoritmo Kölner Phonetik.

koelnerPhonetik

string

Codifica um token usando o algoritmo Kölner Phonetik.

metaphone

string

Codifica um token em um valor de Metafone.

nysiis

string

Codifica um token em um valor NYSIIS.

refinedSoundex

string

Codifica um token em um valor Soundex Refinado.

soundex

string

Codifica um token em um valor Soundex.

PhoneticTokenFilter

Crie tokens para correspondências fonéticas. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

encoder

PhoneticEncoder

metaphone

O codificador fonético a ser usado. O padrão é "metafone".

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

replace

boolean

True

Um valor que indica se os tokens codificados devem substituir os tokens originais. Se for false, os tokens codificados serão adicionados como sinônimos. O padrão é true.

PrioritizedFields

Descreve os campos de título, conteúdo e palavras-chave a serem usados para classificação semântica, legendas, realces e respostas.

Nome Tipo Description
prioritizedContentFields

SemanticField[]

Define os campos de conteúdo a serem usados para classificação semântica, legendas, realces e respostas. Para obter o melhor resultado, os campos selecionados devem conter texto no formato de linguagem natural. A ordem dos campos na matriz representa sua prioridade. Campos com prioridade mais baixa poderão ser truncados se o conteúdo for longo.

prioritizedKeywordsFields

SemanticField[]

Define os campos de palavra-chave a serem usados para classificação semântica, legendas, realces e respostas. Para obter o melhor resultado, os campos selecionados devem conter uma lista de palavras-chave. A ordem dos campos na matriz representa sua prioridade. Campos com prioridade mais baixa poderão ser truncados se o conteúdo for longo.

titleField

SemanticField

Define o campo de título a ser usado para classificação semântica, legendas, destaques e respostas. Se você não tiver um campo de título em seu índice, deixe isso em branco.

RegexFlags

Define sinalizadores que podem ser combinados para controlar como as expressões regulares são usadas no analisador de padrões e no tokenizador de padrão.

Nome Tipo Description
CANON_EQ

string

Habilita a equivalência canônica.

CASE_INSENSITIVE

string

Habilita a correspondência que não diferencia maiúsculas de minúsculas.

COMMENTS

string

Permite espaço em branco e comentários no padrão.

DOTALL

string

Habilita o modo dotall.

LITERAL

string

Habilita a análise literal do padrão.

MULTILINE

string

Habilita o modo multilinha.

UNICODE_CASE

string

Habilita a dobragem de maiúsculas e minúsculas com reconhecimento Unicode.

UNIX_LINES

string

Habilita o modo de linhas do Unix.

ScoringFunctionAggregation

Define a função de agregação usada para combinar os resultados de todas as funções de pontuação em um perfil de pontuação.

Nome Tipo Description
average

string

Aumente as pontuações pela média de todos os resultados da função de pontuação.

firstMatching

string

Aumente as pontuações usando a primeira função de pontuação aplicável no perfil de pontuação.

maximum

string

Aumente as pontuações no máximo de todos os resultados da função de pontuação.

minimum

string

Aumente as pontuações pelo mínimo de todos os resultados da função de pontuação.

sum

string

Aumente as pontuações pela soma de todos os resultados da função de pontuação.

ScoringFunctionInterpolation

Define a função usada para interpolar o aumento de pontuação em um intervalo de documentos.

Nome Tipo Description
constant

string

Aumenta as pontuações por um fator constante.

linear

string

Aumenta as pontuações em uma quantidade decrescente linearmente. Essa é a interpolação padrão para funções de pontuação.

logarithmic

string

Aumenta as pontuações em uma quantidade que diminui logaritmicamente. Os aumentos diminuem rapidamente para pontuações mais altas e mais lentamente à medida que as pontuações diminuem. Essa opção de interpolação não é permitida em funções de pontuação de marca.

quadratic

string

Aumenta as pontuações em uma quantidade que diminui quadraticamente. Os aumentos diminuem lentamente para pontuações mais altas e mais rapidamente à medida que as pontuações diminuem. Essa opção de interpolação não é permitida em funções de pontuação de marca.

ScoringProfile

Define parâmetros para um índice de pesquisa que influenciam a pontuação em consultas de pesquisa.

Nome Tipo Description
functionAggregation

ScoringFunctionAggregation

Um valor que indica como os resultados das funções de pontuação individuais devem ser combinados. O padrão é "Soma". Ignorado se não houver funções de pontuação.

functions ScoringFunction[]:

A coleção de funções que influenciam a pontuação de documentos.

name

string

O nome do perfil de pontuação.

text

TextWeights

Parâmetros que aumentam a pontuação com base em correspondências de texto em determinados campos de índice.

SearchError

Descreve uma condição de erro para a API.

Nome Tipo Description
code

string

Um de um conjunto definido pelo servidor de códigos de erro.

details

SearchError[]

Uma matriz de detalhes sobre erros específicos que levaram a esse erro relatado.

message

string

Uma representação legível do erro.

SearchField

Representa um campo em uma definição de índice, que descreve o nome, o tipo de dados e o comportamento de pesquisa de um campo.

Nome Tipo Description
analyzer

LexicalAnalyzerName

O nome do analisador a ser usado para o campo. Essa opção pode ser usada somente com campos pesquisáveis e não pode ser definida com searchAnalyzer ou indexAnalyzer. Depois que o analisador for escolhido, ele não poderá ser alterado para o campo. Deve ser nulo para campos complexos.

dimensions

integer

A dimensionalidade do campo vetor.

facetable

boolean

Um valor que indica se o campo deve ser referenciado em consultas de faceta. Normalmente usado em uma apresentação de resultados de pesquisa que inclui contagem de ocorrências por categoria (por exemplo, pesquise câmeras digitais e veja ocorrências por marca, por megapixels, por preço e assim por diante). Essa propriedade deve ser nula para campos complexos. Campos do tipo Edm.GeographyPoint ou Collection(Edm.GeographyPoint) não podem ser facetas. O padrão é verdadeiro para todos os outros campos simples.

fields

SearchField[]

Uma lista de subcampos se esse for um campo do tipo Edm.ComplexType ou Collection(Edm.ComplexType). Deve ser nulo ou vazio para campos simples.

filterable

boolean

Um valor que indica se o campo deve ser referenciado em consultas $filter. filterable difere do pesquisável em como as cadeias de caracteres são tratadas. Os campos do tipo Edm.String ou Collection(Edm.String) que podem ser filtrados não passam por quebra de palavra, portanto, as comparações são apenas para correspondências exatas. Por exemplo, se você definir esse campo f como "dia ensolarado", $filter=f eq 'sunny' não encontrará correspondências, mas $filter=f eq 'dia ensolarado' vai. Essa propriedade deve ser nula para campos complexos. O padrão é verdadeiro para campos simples e nulos para campos complexos.

indexAnalyzer

LexicalAnalyzerName

O nome do analisador usado no momento da indexação do campo. Essa opção só pode ser usada com campos pesquisáveis. Ele deve ser definido junto com searchAnalyzer e não pode ser definido junto com a opção do analisador. Essa propriedade não pode ser definida como o nome de um analisador de idioma; use a propriedade do analisador se você precisar de um analisador de idioma. Depois que o analisador for escolhido, ele não poderá ser alterado para o campo. Deve ser nulo para campos complexos.

key

boolean

Um valor que indica se o campo identifica exclusivamente documentos no índice. Exatamente um campo de nível superior em cada índice deve ser escolhido como o campo de chave e deve ser do tipo Edm.String. Os campos de chave podem ser usados para pesquisar documentos diretamente e atualizar ou excluir documentos específicos. O padrão é false para campos simples e nulos para campos complexos.

name

string

O nome do campo, que deve ser exclusivo na coleção de campos do campo de índice ou pai.

normalizer

LexicalNormalizerName

O nome do normalizador a ser usado para o campo. Essa opção só pode ser usada com campos com filtrelável, classificável ou facetável habilitado. Depois que o normalizador for escolhido, ele não poderá ser alterado para o campo. Deve ser nulo para campos complexos.

retrievable

boolean

Um valor que indica se o campo pode ser retornado em um resultado de pesquisa. Você poderá desabilitar essa opção se quiser usar um campo (por exemplo, margem) como um filtro, classificação ou mecanismo de pontuação, mas não quiser que o campo fique visível para o usuário final. Essa propriedade deve ser verdadeira para campos de chave e deve ser nula para campos complexos. Essa propriedade pode ser alterada em campos existentes. Habilitar essa propriedade não causa nenhum aumento nos requisitos de armazenamento de índice. O padrão é verdadeiro para campos simples e nulos para campos complexos.

searchAnalyzer

LexicalAnalyzerName

O nome do analisador usado no tempo de pesquisa para o campo. Essa opção só pode ser usada com campos pesquisáveis. Ele deve ser definido junto com indexAnalyzer e não pode ser definido junto com a opção analisador. Essa propriedade não pode ser definida como o nome de um analisador de idioma; use a propriedade do analisador se você precisar de um analisador de idioma. Esse analisador pode ser atualizado em um campo existente. Deve ser nulo para campos complexos.

searchable

boolean

Um valor que indica se o campo é pesquisável por texto completo. Isso significa que ele será submetido a análise, como separação de palavras, durante a indexação. Se você definir um campo pesquisável com um valor como “dia ensolarado”, internamente, ele será dividido nos tokens individuais “dia” e “ensolarado”. Isso habilita pesquisas de texto completo para esses termos. Os campos do tipo Edm.String ou Collection(Edm.String) são pesquisáveis por padrão. Essa propriedade deve ser falsa para campos simples de outros tipos de dados que não são de cadeia de caracteres e deve ser nula para campos complexos. Observação: os campos pesquisáveis consomem espaço extra no índice para acomodar versões tokenizadas adicionais do valor do campo para pesquisas de texto completo. Se você quiser economizar espaço em seu índice e não precisar que um campo seja incluído nas pesquisas, defina pesquisável como false.

sortable

boolean

Um valor que indica se o campo deve ser referenciado em expressões $orderby. Por padrão, o mecanismo de pesquisa classifica os resultados por pontuação, mas em muitas experiências os usuários desejam classificar por campos nos documentos. Um campo simples só poderá ser classificado se for de valor único (ele tem um único valor no escopo do documento pai). Campos de coleção simples não podem ser classificados, pois são de vários valores. Subcampos simples de coleções complexas também são de vários valores e, portanto, não podem ser classificados. Isso é verdade se é um campo pai imediato ou um campo ancestral, que é a coleção complexa. Campos complexos não podem ser classificados e a propriedade classificável deve ser nula para esses campos. O padrão para classificável é true para campos simples de valor único, false para campos simples com valores múltiplos e nulo para campos complexos.

synonymMaps

string[]

Uma lista dos nomes dos mapas de sinônimos a serem associados a esse campo. Essa opção só pode ser usada com campos pesquisáveis. Atualmente, há suporte para apenas um mapa de sinônimos por campo. Atribuir um mapa de sinônimos a um campo garante que os termos de consulta direcionados a esse campo sejam expandidos em tempo de consulta usando as regras no mapa de sinônimos. Esse atributo pode ser alterado em campos existentes. Deve ser nulo ou uma coleção vazia para campos complexos.

type

SearchFieldDataType

O tipo de dados do campo.

vectorSearchProfile

string

O nome do perfil de pesquisa de vetor que especifica o algoritmo e o vetorizador a serem usados ao pesquisar o campo vetor.

SearchFieldDataType

Define o tipo de dados de um campo em um índice de pesquisa.

Nome Tipo Description
Edm.Boolean

string

Indica que um campo contém um valor booliano (verdadeiro ou falso).

Edm.ComplexType

string

Indica que um campo contém um ou mais objetos complexos que, por sua vez, têm subcampos de outros tipos.

Edm.DateTimeOffset

string

Indica que um campo contém um valor de data/hora, incluindo informações de fuso horário.

Edm.Double

string

Indica que um campo contém um número de ponto flutuante de precisão dupla IEEE.

Edm.GeographyPoint

string

Indica que um campo contém uma localização geográfica em termos de longitude e latitude.

Edm.Int32

string

Indica que um campo contém um inteiro com sinal de 32 bits.

Edm.Int64

string

Indica que um campo contém um inteiro com sinal de 64 bits.

Edm.Single

string

Indica que um campo contém um número de ponto flutuante de precisão única. Isso só é válido quando usado com Collection(Edm.Single).

Edm.String

string

Indica que um campo contém uma cadeia de caracteres.

SearchIndex

Representa uma definição de índice de pesquisa, que descreve os campos e o comportamento de pesquisa de um índice.

Nome Tipo Description
@odata.etag

string

A ETag do índice.

analyzers LexicalAnalyzer[]:

Os analisadores do índice.

charFilters CharFilter[]:

O caractere filtra o índice.

corsOptions

CorsOptions

Opções para controlar o CORS (Compartilhamento de Recursos entre Origens) para o índice.

defaultScoringProfile

string

O nome do perfil de pontuação a ser usado se nenhum for especificado na consulta. Se essa propriedade não estiver definida e nenhum perfil de pontuação for especificado na consulta, a pontuação padrão (tf-idf) será usada.

encryptionKey

SearchResourceEncryptionKey

Uma descrição de uma chave de criptografia que você cria no Azure Key Vault. Essa chave é usada para fornecer um nível adicional de criptografia em repouso para seus dados quando você deseja ter total garantia de que ninguém, nem mesmo a Microsoft, pode descriptografar seus dados. Depois de criptografar seus dados, eles sempre permanecerão criptografados. O serviço de pesquisa ignorará as tentativas de definir essa propriedade como nula. Você pode alterar essa propriedade conforme necessário se quiser girar sua chave de criptografia; Seus dados não serão afetados. A criptografia com chaves gerenciadas pelo cliente não está disponível para serviços de pesquisa gratuitos e só está disponível para serviços pagos criados a partir de 1º de janeiro de 2019.

fields

SearchField[]

Os campos do índice.

name

string

O nome do índice.

normalizers LexicalNormalizer[]:

CustomNormalizer[]

Os normalizadores para o índice.

scoringProfiles

ScoringProfile[]

Os perfis de pontuação para o índice.

semantic

SemanticSettings

Define parâmetros para um índice de pesquisa que influenciam as funcionalidades semânticas.

similarity Similarity:

O tipo de algoritmo de similaridade a ser usado ao pontuar e classificar os documentos correspondentes a uma consulta de pesquisa. O algoritmo de similaridade só pode ser definido no momento da criação do índice e não pode ser modificado em índices existentes. Se for nulo, o algoritmo ClassicSimilarity será usado.

suggesters

Suggester[]

Os sugestores para o índice.

tokenFilters TokenFilter[]:

O token filtra o índice.

tokenizers LexicalTokenizer[]:

Os tokenizers para o índice.

vectorSearch

VectorSearch

Contém opções de configuração relacionadas à pesquisa de vetor.

SearchIndexerDataNoneIdentity

Limpa a propriedade de identidade de uma fonte de dados.

Nome Tipo Description
@odata.type string:

#Microsoft.Azure.Search.DataNoneIdentity

Um fragmento de URI que especifica o tipo de identidade.

SearchIndexerDataUserAssignedIdentity

Especifica a identidade de uma fonte de dados a ser usada.

Nome Tipo Description
@odata.type string:

#Microsoft.Azure.Search.DataUserAssignedIdentity

Um fragmento de URI que especifica o tipo de identidade.

userAssignedIdentity

string

A ID de recurso do Azure totalmente qualificada de uma identidade gerenciada atribuída pelo usuário normalmente no formato "/subscriptions/12345678-1234-1234-12334-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" que deveria ter sido atribuída ao serviço de pesquisa.

SearchResourceEncryptionKey

Uma chave de criptografia gerenciada pelo cliente no Azure Key Vault. As chaves que você cria e gerencia podem ser usadas para criptografar ou descriptografar dados inativos, como índices e mapas de sinônimos.

Nome Tipo Description
accessCredentials

AzureActiveDirectoryApplicationCredentials

Credenciais opcionais do Azure Active Directory usadas para acessar o Key Vault do Azure. Não é necessário se estiver usando a identidade gerenciada.

identity SearchIndexerDataIdentity:

Uma identidade gerenciada explícita a ser usada para essa chave de criptografia. Se não for especificado e a propriedade de credenciais de acesso for nula, a identidade gerenciada atribuída pelo sistema será usada. Ao atualizar para o recurso, se a identidade explícita não for especificada, ela permanecerá inalterada. Se "none" for especificado, o valor dessa propriedade será limpo.

keyVaultKeyName

string

O nome da chave de Key Vault do Azure a ser usada para criptografar seus dados em repouso.

keyVaultKeyVersion

string

A versão do Azure Key Vault chave a ser usada para criptografar seus dados em repouso.

keyVaultUri

string

O URI do Key Vault do Azure, também conhecido como nome DNS, que contém a chave a ser usada para criptografar seus dados inativos. Um URI de exemplo pode ser https://my-keyvault-name.vault.azure.net.

SemanticConfiguration

Define uma configuração específica a ser usada no contexto de funcionalidades semânticas.

Nome Tipo Description
name

string

O nome da configuração semântica.

prioritizedFields

PrioritizedFields

Descreve os campos de título, conteúdo e palavra-chave a serem usados para classificação semântica, legendas, destaques e respostas. Pelo menos uma das três subpropriedades (titleField, prioritizedKeywordsFields e prioritizedContentFields) precisa ser definida.

SemanticField

Um campo que é usado como parte da configuração semântica.

Nome Tipo Description
fieldName

string

SemanticSettings

Define parâmetros para um índice de pesquisa que influenciam as funcionalidades semânticas.

Nome Tipo Description
configurations

SemanticConfiguration[]

As configurações semânticas para o índice.

defaultConfiguration

string

Permite que você defina o nome de uma configuração semântica padrão em seu índice, tornando-o opcional para passá-lo como um parâmetro de consulta sempre.

ShingleTokenFilter

Cria combinações de tokens como um único token. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

filterToken

string

_

A cadeia de caracteres a ser inserida para cada posição na qual não há nenhum token. O padrão é um sublinhado ("_").

maxShingleSize

integer

2

O tamanho máximo da telha. O valor padrão e mínimo é 2.

minShingleSize

integer

2

O tamanho mínimo da telha. O valor padrão e mínimo é 2. Deve ser menor que o valor de maxShingleSize.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

outputUnigrams

boolean

True

Um valor que indica se o fluxo de saída conterá os tokens de entrada (unigramas), bem como as telhas. O padrão é true.

outputUnigramsIfNoShingles

boolean

False

Um valor que indica se os unigramas devem ser gerados para aqueles momentos em que não há telhas disponíveis. Essa propriedade tem precedência quando outputUnigrams é definido como false. O padrão é false.

tokenSeparator

string

A cadeia de caracteres a ser usada ao unir tokens adjacentes para formar uma telha. O padrão é um único espaço (" ").

SnowballTokenFilter

Um filtro que deriva palavras usando um lematizador gerado por Bola de Neve. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Description
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

language

SnowballTokenFilterLanguage

O idioma a ser usado.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

SnowballTokenFilterLanguage

O idioma a ser usado para um filtro de token bola de neve.

Nome Tipo Description
armenian

string

Seleciona o tokenizador lucene bola de neve para armênio.

basque

string

Seleciona o tokenizador lucene bola de neve para Basco.

catalan

string

Seleciona o tokenizador lucene bola de neve para catalão.

danish

string

Seleciona o tokenizador lucene bola de neve para dinamarquês.

dutch

string

Seleciona o tokenizador lucene bola de neve para holandês.

english

string

Seleciona o tokenizador de lematização Lucene Snowball para inglês.

finnish

string

Seleciona o tokenizador de lematização Lucene Snowball para finlandês.

french

string

Seleciona o tokenizador lucene bola de neve para francês.

german

string

Seleciona o tokenizador lucene bola de neve para alemão.

german2

string

Seleciona o tokenizador de lematização Lucene Snowball que usa o algoritmo variante alemão.

hungarian

string

Seleciona o tokenizador lucene bola de neve para húngaro.

italian

string

Seleciona o tokenizador lucene bola de neve para italiano.

kp

string

Seleciona o tokenizador de lematização Lucene Snowball para holandês que usa o algoritmo de Kraaij-Pohlmann de lematização.

lovins

string

Seleciona o tokenizador de lematização Lucene Snowball para inglês que usa o algoritmo de lematização Lovins.

norwegian

string

Seleciona o tokenizador lucene bola de neve para norueguês.

porter

string

Seleciona o tokenizador de lematização Lucene Snowball para inglês que usa o algoritmo de lematização porter.

portuguese

string

Seleciona o tokenizador lucene bola de neve para português.

romanian

string

Seleciona o tokenizador lucene bola de neve para romeno.

russian

string

Seleciona o tokenizador lucene bola de neve para russo.

spanish

string

Seleciona o tokenizador lucene bola de neve para espanhol.

swedish

string

Seleciona o tokenizador lucene bola de neve para sueco.

turkish

string

Seleciona o tokenizador lucene bola de neve para turco.

StemmerOverrideTokenFilter

Fornece a capacidade de substituir outros filtros de lematização por lematização personalizada baseada em dicionário. Quaisquer termos com lematização de dicionário serão marcados como palavras-chave para que não sejam decorrentes de lematizadores na cadeia. Deve ser colocado antes de qualquer filtro de lematização. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Description
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

rules

string[]

Uma lista de regras de lematização no seguinte formato: "word => stem", por exemplo: "ran => run".

StemmerTokenFilter

Filtro de lematização específico da linguagem. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Description
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

language

StemmerTokenFilterLanguage

O idioma a ser usado.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

StemmerTokenFilterLanguage

O idioma a ser usado para um filtro de token de lematizador.

Nome Tipo Description
arabic

string

Seleciona o tokenizador de lematização Lucene para árabe.

armenian

string

Seleciona o tokenizador lucene para armênio.

basque

string

Seleciona o tokenizador de lematização Lucene para Basco.

brazilian

string

Seleciona o tokenizador lucene para português (Brasil).

bulgarian

string

Seleciona o tokenizador de lematização Lucene para búlgaro.

catalan

string

Seleciona o tokenizador de lematização Lucene para Catalão.

czech

string

Seleciona o tokenizador de lematização Lucene para tcheco.

danish

string

Seleciona o tokenizador de lematização Lucene para dinamarquês.

dutch

string

Seleciona o tokenizador de lematização Lucene para holandês.

dutchKp

string

Seleciona o tokenizador de lematização Lucene para holandês que usa o algoritmo Kraaij-Pohlmann de lematização.

english

string

Seleciona o tokenizador de lematização Lucene para inglês.

finnish

string

Seleciona o tokenizador de lematização Lucene para finlandês.

french

string

Seleciona o tokenizador de lematização Lucene para francês.

galician

string

Seleciona o tokenizador de lematização Lucene para Galego.

german

string

Seleciona o tokenizador de lematização Lucene para alemão.

german2

string

Seleciona o tokenizador de lematização Lucene que usa o algoritmo variante alemão.

greek

string

Seleciona o tokenizador de lematização Lucene para grego.

hindi

string

Seleciona o tokenizador de lematização Lucene para Hindi.

hungarian

string

Seleciona o tokenizador de lematização Lucene para húngaro.

indonesian

string

Seleciona o tokenizador de lematização Lucene para indonésio.

irish

string

Seleciona o tokenizador de lematização Lucene para irlandês.

italian

string

Seleciona o tokenizador de lematização Lucene para italiano.

latvian

string

Seleciona o tokenizador lucene para letão.

lightEnglish

string

Seleciona o tokenizador de lematização Lucene para inglês que faz a lematização leve.

lightFinnish

string

Seleciona o tokenizador de lematização Lucene para finlandês que faz a lematização leve.

lightFrench

string

Seleciona o tokenizador de lematização Lucene para francês que faz lematização leve.

lightGerman

string

Seleciona o tokenizador de lematização Lucene para alemão que faz lematização leve.

lightHungarian

string

Seleciona o tokenizador de lematização Lucene para húngaro que faz a lematização leve.

lightItalian

string

Seleciona o tokenizador de lematização Lucene para italiano que faz a lematização leve.

lightNorwegian

string

Seleciona o tokenizador de lematização Lucene para norueguês (Bokmål) que faz lematização leve.

lightNynorsk

string

Seleciona o tokenizador de lematização Lucene para Norueguês (Nynorsk) que faz lematização leve.

lightPortuguese

string

Seleciona o tokenizador de lematização Lucene para português que faz lematização leve.

lightRussian

string

Seleciona o tokenizador de lematização Lucene para russo que faz lematização leve.

lightSpanish

string

Seleciona o tokenizador de lematização Lucene para espanhol que faz lematização leve.

lightSwedish

string

Seleciona o tokenizador de lematização Lucene para sueco que faz lematização leve.

lovins

string

Seleciona o tokenizador de lematização Lucene para inglês que usa o algoritmo de lematização Lovins.

minimalEnglish

string

Seleciona o tokenizador de lematização Lucene para inglês que faz o mínimo de lematização.

minimalFrench

string

Seleciona o tokenizador de lematização Lucene para francês que faz o mínimo de lematização.

minimalGalician

string

Seleciona o tokenizador de lematização Lucene para Galego que faz o mínimo de lematização.

minimalGerman

string

Seleciona o tokenizador de lematização Lucene para alemão que faz o mínimo de lematização.

minimalNorwegian

string

Seleciona o tokenizador de lematização Lucene para norueguês (Bokmål) que faz o mínimo de lematização.

minimalNynorsk

string

Seleciona o tokenizador de lematização Lucene para Norueguês (Nynorsk) que faz o mínimo de lematização.

minimalPortuguese

string

Seleciona o tokenizador de lematização Lucene para português que faz lematização mínima.

norwegian

string

Seleciona o tokenizador de lematização Lucene para norueguês (Bokmål).

porter2

string

Seleciona o tokenizador de lematização Lucene para inglês que usa o algoritmo de lematização Porter2.

portuguese

string

Seleciona o tokenizador de lematização Lucene para português.

portugueseRslp

string

Seleciona o criador de tokens de lematização Lucene para português que usa o algoritmo de lematização RSLP.

possessiveEnglish

string

Seleciona o tokenizador de lematização Lucene para inglês que remove possessivos à direita das palavras.

romanian

string

Seleciona o tokenizador de lematização Lucene para romeno.

russian

string

Seleciona o tokenizador de lematização Lucene para russo.

sorani

string

Seleciona o tokenizador de lematização Lucene para Sorani.

spanish

string

Seleciona o criador de tokens de lematização Lucene para espanhol.

swedish

string

Seleciona o tokenizador de lematização Lucene para sueco.

turkish

string

Seleciona o tokenizador de lematização Lucene para turco.

StopAnalyzer

Divide o texto em não letras; Aplica os filtros de token de letras minúsculas e palavras irrelevantes. Esse analisador é implementado usando o Apache Lucene.

Nome Tipo Description
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

Um fragmento de URI que especifica o tipo de analisador.

name

string

O nome do analisador. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

stopwords

string[]

Uma lista de palavras irrelevantes.

StopwordsList

Identifica uma lista predefinida de palavras irrelevantes específicas do idioma.

Nome Tipo Description
arabic

string

Seleciona a lista de palavras irrelevantes para árabe.

armenian

string

Seleciona a lista de palavras irrelevantes para armênio.

basque

string

Seleciona a lista de palavras irrelevantes para Basco.

brazilian

string

Seleciona a lista de palavras irrelevantes para português (Brasil).

bulgarian

string

Seleciona a lista de palavras irrelevantes para búlgaro.

catalan

string

Seleciona a lista de palavras irrelevantes para catalão.

czech

string

Seleciona a lista de palavras irrelevantes para tcheco.

danish

string

Seleciona a lista de palavras irrelevantes para dinamarquês.

dutch

string

Seleciona a lista de palavras irrelevantes para holandês.

english

string

Seleciona a lista de palavras irrelevantes para inglês.

finnish

string

Seleciona a lista de palavras irrelevantes para finlandês.

french

string

Seleciona a lista de palavras irrelevantes para francês.

galician

string

Seleciona a lista de palavras irrelevantes para Galiciano.

german

string

Seleciona a lista de palavras irrelevantes para alemão.

greek

string

Seleciona a lista de palavras irrelevantes para grego.

hindi

string

Seleciona a lista de palavras irrelevantes para Hindi.

hungarian

string

Seleciona a lista de palavras irrelevantes para húngaro.

indonesian

string

Seleciona a lista de palavras irrelevantes para indonésio.

irish

string

Seleciona a lista de palavras irrelevantes para irlandês.

italian

string

Seleciona a lista de palavras irrelevantes para italiano.

latvian

string

Seleciona a lista de palavras irrelevantes para letão.

norwegian

string

Seleciona a lista de palavras irrelevantes para norueguês.

persian

string

Seleciona a lista de palavras irrelevantes para Persa.

portuguese

string

Seleciona a lista de palavras irrelevantes para português.

romanian

string

Seleciona a lista de palavras irrelevantes para romeno.

russian

string

Seleciona a lista de palavras irrelevantes para russo.

sorani

string

Seleciona a lista de palavras irrelevantes para Sorani.

spanish

string

Seleciona a lista de palavras irrelevantes para espanhol.

swedish

string

Seleciona a lista de palavras irrelevantes para sueco.

thai

string

Seleciona a lista de palavras irrelevantes para tailandês.

turkish

string

Seleciona a lista de palavras irrelevantes para turco.

StopwordsTokenFilter

Remove palavras irrelevantes de um fluxo de tokens. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

ignoreCase

boolean

False

Um valor que indica se é necessário ignorar maiúsculas e minúsculas. Se for true, todas as palavras serão convertidas em letras minúsculas primeiro. O padrão é false.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

removeTrailing

boolean

True

Um valor que indica se o último termo de pesquisa deve ser ignorado se for uma palavra irrelevante. O padrão é true.

stopwords

string[]

A lista de palavras irrelevantes. Essa propriedade e a propriedade stopwords list não podem ser definidas.

stopwordsList

StopwordsList

english

Uma lista predefinida de palavras irrelevantes a serem usadas. Essa propriedade e a propriedade stopwords não podem ser definidas. O padrão é inglês.

Suggester

Define como a API de Sugestão deve ser aplicada a um grupo de campos no índice.

Nome Tipo Description
name

string

O nome do sugestor.

searchMode

SuggesterSearchMode

Um valor que indica os recursos do sugestor.

sourceFields

string[]

A lista de nomes de campo aos quais o sugestor se aplica. Cada campo deve ser pesquisável.

SuggesterSearchMode

Um valor que indica os recursos do sugestor.

Nome Tipo Description
analyzingInfixMatching

string

Corresponde a termos e prefixos inteiros consecutivos em um campo. Por exemplo, para o campo "A raposa marrom mais rápida", as consultas "rápidas" e "sobrancelhas mais rápidas" corresponderiam.

SynonymTokenFilter

Corresponde a sinônimos de uma ou várias palavras em um fluxo de token. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

expand

boolean

True

Um valor que indica se todas as palavras na lista de sinônimos (se => notação não for usada) serão mapeadas umas para as outras. Se for true, todas as palavras na lista de sinônimos (se => notação não for usada) serão mapeadas umas para as outras. A seguinte lista: incrível, inacreditável, fabulosa, incrível é equivalente a: incrível, inacreditável, fabuloso, incrível => incrível, inacreditável, fabuloso, incrível. Se for falsa, a seguinte lista: incrível, inacreditável, fabulosa, incrível será equivalente a: incrível, inacreditável, fabulosa, incrível => incrível. O padrão é true.

ignoreCase

boolean

False

Um valor que indica se a entrada da dobra de maiúsculas e minúsculas deve ser dobrada para correspondência. O padrão é false.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

synonyms

string[]

Uma lista de sinônimos no seguinte um dos dois formatos: 1. incrível, inacreditável, fabuloso => incrível - todos os termos no lado esquerdo de => símbolo serão substituídos por todos os termos no lado direito; 2. incrível, inacreditável, fabuloso, incrível - lista separada por vírgulas de palavras equivalentes. Defina a opção de expansão para alterar como essa lista é interpretada.

TagScoringFunction

Define uma função que aumenta as pontuações de documentos com valores de cadeia de caracteres que correspondem a uma determinada lista de marcas.

Nome Tipo Description
boost

number

Um multiplicador para a pontuação bruta. Deve ser um número positivo diferente de 1,0.

fieldName

string

O nome do campo usado como entrada para a função de pontuação.

interpolation

ScoringFunctionInterpolation

Um valor que indica como o aumento será interpolado entre as pontuações do documento; usa como padrão "Linear".

tag

TagScoringParameters

Valores de parâmetro para a função de pontuação de marca.

type string:

tag

Indica o tipo de função a ser usada. Os valores válidos incluem magnitude, atualização, distância e marca. O tipo de função deve ser minúsculo.

TagScoringParameters

Fornece valores de parâmetro para uma função de pontuação de marca.

Nome Tipo Description
tagsParameter

string

O nome do parâmetro passado em consultas de pesquisa para especificar a lista de marcas a serem comparadas com o campo de destino.

TextWeights

Define pesos em campos de índice para os quais as correspondências devem aumentar a pontuação em consultas de pesquisa.

Nome Tipo Description
weights

object

O dicionário de pesos por campo para aumentar a pontuação do documento. As chaves são nomes de campo e os valores são os pesos para cada campo.

TokenCharacterKind

Representa classes de caracteres nos quais um filtro de token pode operar.

Nome Tipo Description
digit

string

Mantém dígitos em tokens.

letter

string

Mantém letras em tokens.

punctuation

string

Mantém a pontuação em tokens.

symbol

string

Mantém símbolos em tokens.

whitespace

string

Mantém o espaço em branco em tokens.

TokenFilterName

Define os nomes de todos os filtros de token compatíveis com o mecanismo de pesquisa.

Nome Tipo Description
apostrophe

string

Remove todos os caracteres após um apóstrofo (incluindo o próprio apóstrofo). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Um filtro de token que aplica o normalizador em árabe para normalizar a ortografia. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Latino Básico" em seus equivalentes ASCII, se esses equivalentes existirem. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Forma bigrams de termos CJK gerados do criador de token padrão. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normaliza as diferenças de largura CJK. Dobra as variantes ASCII de largura total no latim básico equivalente e variantes Katakana de meia largura no Kana equivalente. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Remove possessivos em inglês e de acrônimos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Construa bigramas para termos que ocorrem com frequência durante a indexação. Termos únicos ainda são indexados também, com bigramas sobrepostos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Gera n-gramas dos tamanhos fornecidos começando na frente ou na parte traseira de um token de entrada. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Remove elisões. Por exemplo, "l'avion" (o plano) será convertido em "avion" (plano). Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normaliza caracteres alemães de acordo com a heurística do algoritmo alemão2 bola de neve. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normaliza o texto em hindi para remover algumas diferenças nas variações ortográficas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normaliza a representação Unicode do texto nos idiomas indianos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Emite cada token de entrada duas vezes, uma vez como palavra-chave e uma vez como não palavra-chave. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Um filtro kstem de alto desempenho para o inglês. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Remove palavras muito longas ou muito curtas. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Limita o número de tokens durante a indexação. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normaliza o texto do token para letras minúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Gera n-gramas de determinados tamanhos. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Aplica a normalização para persa. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Crie tokens para correspondências fonéticas. Veja https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Usa o algoritmo de lematização Porter para transformar o fluxo de token. Veja http://tartarus.org/~martin/PorterStemmer

reverse

string

Inverte a cadeia de caracteres do token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Dobra os caracteres escandinavos åÅäæÄÆ->a e öÖøØ->o. Também discrimina o uso de vogais duplas aa, ae, SOL, oe e oo, deixando apenas o primeiro deles. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normaliza o uso de caracteres escandinavos intercambiáveis. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Cria combinações de tokens como um único token. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Um filtro que deriva palavras usando um lematizador gerado por Bola de Neve. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normaliza a representação Unicode de texto Sorani. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Filtro de lematização específico da linguagem. Veja https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Remove palavras irrelevantes de um fluxo de tokens. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Corta o espaço em branco à esquerda e à direita de uma cadeia de tokens. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Trunca os termos para um comprimento específico. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Filtra os tokens com o mesmo texto como o token anterior. Veja http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normaliza o texto do token para letras maiúsculas. Veja https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Divide as palavras em subpalavras e realiza transformações opcionais em grupos de subpalavras.

TruncateTokenFilter

Trunca os termos para um comprimento específico. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

length

integer

300

O comprimento em que os termos serão truncados. O padrão e o máximo é 300.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

UaxUrlEmailTokenizer

Cria tokens de urls e emails como um único token. Esse criador de tokens é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

Um fragmento de URI que especifica o tipo de tokenizer.

maxTokenLength

integer

255

O comprimento máximo do token. O padrão é 255. Tokens maiores do que o tamanho máximo são divididos. O comprimento máximo do token que pode ser usado é de 300 caracteres.

name

string

O nome do criador de tokens. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

UniqueTokenFilter

Filtra os tokens com o mesmo texto como o token anterior. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

onlyOnSamePosition

boolean

False

Um valor que indica se as duplicatas devem ser removidas apenas na mesma posição. O padrão é false.

VectorSearch

Contém opções de configuração relacionadas à pesquisa de vetor.

Nome Tipo Description
algorithms VectorSearchAlgorithmConfiguration[]:

Contém opções de configuração específicas para o algoritmo usado durante a indexação ou consulta.

profiles

VectorSearchProfile[]

Define combinações de configurações a serem usadas com a pesquisa de vetor.

vectorizers VectorSearchVectorizer[]:

Contém opções de configuração sobre como vetorizar consultas de vetor de texto.

VectorSearchAlgorithmKind

O algoritmo usado para indexação e consulta.

Nome Tipo Description
exhaustiveKnn

string

Algoritmo KNN exaustivo que executará a pesquisa de força bruta.

hnsw

string

HNSW (Hierárquico Navigable Small World), um tipo de algoritmo aproximado de vizinhos mais próximos.

VectorSearchAlgorithmMetric

A métrica de similaridade a ser usada para comparações de vetor.

Nome Tipo Description
cosine

string

dotProduct

string

euclidean

string

VectorSearchProfile

Define uma combinação de configurações a serem usadas com a pesquisa de vetor.

Nome Tipo Description
algorithm

string

O nome da configuração do algoritmo de pesquisa de vetor que especifica o algoritmo e os parâmetros opcionais.

name

string

O nome a ser associado a esse perfil de pesquisa de vetor específico.

vectorizer

string

O nome do tipo de método de vetorização que está sendo configurado para uso com a pesquisa de vetor.

VectorSearchVectorizerKind

O método de vetorização a ser usado durante o tempo de consulta.

Nome Tipo Description
azureOpenAI

string

Gere inserções usando um recurso openAI do Azure no momento da consulta.

customWebApi

string

Gere inserções usando um ponto de extremidade da Web personalizado no momento da consulta.

WordDelimiterTokenFilter

Divide as palavras em subpalavras e realiza transformações opcionais em grupos de subpalavras. Esse filtro de token é implementado usando o Apache Lucene.

Nome Tipo Valor padrão Description
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

Um fragmento de URI que especifica o tipo de filtro de token.

catenateAll

boolean

False

Um valor que indica se todas as partes de sub palavra serão categorizadas. Por exemplo, se isso for definido como true, "Azure-Search-1" se tornará "AzureSearch1". O padrão é false.

catenateNumbers

boolean

False

Um valor que indica se as execuções máximas de partes numéricas serão categorizadas. Por exemplo, se isso for definido como true, "1-2" se tornará "12". O padrão é false.

catenateWords

boolean

False

Um valor que indica se as execuções máximas de partes de palavra serão categorizadas. Por exemplo, se isso for definido como true, "Azure-Search" se tornará "AzureSearch". O padrão é false.

generateNumberParts

boolean

True

Um valor que indica se as sub palavras numéricas devem ser geradas. O padrão é true.

generateWordParts

boolean

True

Um valor que indica se as palavras de parte devem ser geradas. Se definido, faz com que partes de palavras sejam geradas; por exemplo, "AzureSearch" torna-se "Azure" "Search". O padrão é true.

name

string

O nome do filtro de token. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.

preserveOriginal

boolean

False

Um valor que indica se as palavras originais serão preservadas e adicionadas à lista de sub palavras. O padrão é false.

protectedWords

string[]

Uma lista de tokens para proteger contra serem delimitados.

splitOnCaseChange

boolean

True

Um valor que indica se as palavras devem ser divididas em caseChange. Por exemplo, se isso for definido como true, "AzureSearch" se tornará "Azure" "Search". O padrão é true.

splitOnNumerics

boolean

True

Um valor que indica se os números devem ser divididos. Por exemplo, se isso for definido como true, "Azure1Search" se tornará "Azure" "1" "Search". O padrão é true.

stemEnglishPossessive

boolean

True

Um valor que indica se é necessário remover "'s" à direita para cada sub palavra. O padrão é true.