Indexes - Create
新しい検索インデックスを作成します。
POST {endpoint}/indexes?api-version=2023-10-01-Preview
URI パラメーター
名前 | / | 必須 | 型 | 説明 |
---|---|---|---|---|
endpoint
|
path | True |
string |
検索サービスのエンドポイント URL。 |
api-version
|
query | True |
string |
クライアント API のバージョン。 |
要求ヘッダー
名前 | 必須 | 型 | 説明 |
---|---|---|---|
x-ms-client-request-id |
string uuid |
デバッグに役立つ要求と共に送信された追跡 ID。 |
要求本文
名前 | 必須 | 型 | 説明 |
---|---|---|---|
fields | True |
インデックスのフィールド。 |
|
name | True |
string |
インデックスの名前です。 |
@odata.etag |
string |
インデックスの ETag。 |
|
analyzers | LexicalAnalyzer[]: |
インデックスのアナライザー。 |
|
charFilters | CharFilter[]: |
インデックスの文字フィルター。 |
|
corsOptions |
インデックスのクロスオリジン リソース共有 (CORS) を制御するオプション。 |
||
defaultScoringProfile |
string |
クエリで何も指定されていない場合に使用するスコアリング プロファイルの名前。 このプロパティが設定されておらず、クエリでスコアリング プロファイルが指定されていない場合は、既定のスコアリング (tf-idf) が使用されます。 |
|
encryptionKey |
Azure Key Vaultで作成する暗号化キーの説明。 このキーは、Microsoft でさえもデータの暗号化を解除できないという完全な保証が必要な場合に、データの保存時の追加レベルを提供するために使用されます。 データを暗号化すると、常に暗号化されたままになります。 このプロパティを null に設定しようとすると、検索サービスは無視されます。 暗号化キーをローテーションする場合は、必要に応じてこのプロパティを変更できます。データは影響を受けません。 カスタマー マネージド キーを使用した暗号化は無料の検索サービスでは使用できません。また、2019 年 1 月 1 日以降に作成された有料サービスでのみ使用できます。 |
||
normalizers | LexicalNormalizer[]: |
インデックスのノーマライザー。 |
|
scoringProfiles |
インデックスのスコアリング プロファイル。 |
||
semantic |
セマンティック機能に影響を与える検索インデックスのパラメーターを定義します。 |
||
similarity | Similarity: |
検索クエリに一致するドキュメントをスコア付けおよびランク付けするときに使用する類似性アルゴリズムの種類。 類似性アルゴリズムは、インデックス作成時にのみ定義でき、既存のインデックスでは変更できません。 null の場合は、ClassicSimilarity アルゴリズムが使用されます。 |
|
suggesters |
インデックスのサジェスター。 |
||
tokenFilters |
TokenFilter[]:
|
インデックスのトークン フィルター。 |
|
tokenizers | LexicalTokenizer[]: |
インデックスのトークナイザー。 |
|
vectorSearch |
ベクター検索に関連する構成オプションが含まれています。 |
応答
名前 | 型 | 説明 |
---|---|---|
201 Created | ||
Other Status Codes |
エラー応答。 |
例
SearchServiceCreateIndex
要求のサンプル
POST https://myservice.search.windows.net/indexes?api-version=2023-10-01-Preview
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": "<applicationSecret>"
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine",
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey"
}
}
]
}
}
応答のサンプル
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2",
"tokenFilters": []
}
],
"tokenizers": [],
"normalizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"defaultConfiguration": null,
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey",
"authIdentity": null
}
}
]
}
}
定義
名前 | 説明 |
---|---|
Ascii |
最初の 127 文字の ASCII 文字 ("Basic Latin" Unicode ブロック) にないアルファベット、数字、および記号の Unicode 文字を、ASCII に相当する文字に変換します (そのような文字が存在する場合)。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Azure |
Azure Key Vaultに格納されている暗号化キーへの認証済みアクセスに使用される、検索サービス用に作成された登録済みアプリケーションの資格情報。 |
Azure |
Azure OpenAI リソースに接続するためのパラメーターを指定します。 |
Azure |
クエリ文字列のベクター化に使用される Azure OpenAI リソースを指定します。 |
BM25Similarity |
Okapi BM25 類似性アルゴリズムに基づくランク付け関数。 BM25 は TF-IDF に似たアルゴリズムであり、長さの正規化 ('b' パラメーターによって制御) と用語周波数飽和 ('k1' パラメーターによって制御) が含まれます。 |
Char |
検索エンジンでサポートされているすべての文字フィルターの名前を定義します。 |
Cjk |
標準トークナイザーから生成される CJK 用語の bigrams を形成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Cjk |
CjkBigramTokenFilter によって無視できるスクリプト。 |
Classic |
TF-IDF の Lucene TFIDFSimilarity 実装を使用するレガシ類似性アルゴリズム。 この TF-IDF のバリエーションでは、静的なドキュメント長の正規化と、検索されたクエリに部分的にのみ一致するドキュメントを罰する調整要因が導入されています。 |
Classic |
ほとんどのヨーロッパ言語ドキュメントの処理に適した文法ベースのトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Common |
インデックス付けの間に、頻繁に発生する用語に対してバイグラムが作成されます。 1 つの用語も、バイグラムがオーバーレイされてインデックス付けされます。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Cors |
インデックスのクロスオリジン リソース共有 (CORS) を制御するオプションを定義します。 |
Custom |
テキストをインデックス可能/検索可能なトークンに変換するプロセスを制御できます。 これは、1 つの定義済みのトークナイザーと 1 つ以上のフィルターで構成されるユーザー定義の構成です。 トークナイザーは、テキストをトークンに分割し、トークナイザーによって出力されるトークンを変更するためのフィルターを担当します。 |
Custom |
フィルター可能、並べ替え可能、ファセット可能なフィールドの正規化を構成できます。既定では厳密な一致で動作します。 これは、格納されているトークンを変更する、少なくとも 1 つ以上のフィルターで構成されるユーザー定義の構成です。 |
Custom |
クエリ文字列のベクター埋め込みを生成するためのユーザー定義ベクター化器を指定します。 外部ベクター化の統合は、スキルセットのカスタム Web API インターフェイスを使用して実現されます。 |
Custom |
ユーザー定義ベクター化に接続するためのプロパティを指定します。 |
Dictionary |
多くのゲルマン言語に出現する複合語を分解します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Distance |
地理的な場所からの距離に基づいてスコアをブーストする関数を定義します。 |
Distance |
距離スコアリング関数にパラメーター値を提供します。 |
Edge |
入力トークンの前面または背面から、指定したサイズの n グラムを生成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Edge |
n-gram を生成する入力の側を指定します。 |
Edge |
入力トークンの前面または背面から、指定したサイズの n グラムを生成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Edge |
エッジからの入力を、指定されたサイズの n グラムにトークン化します。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Elision |
省略記号が削除されます。 たとえば、"l'avion" (平面) は "avion" (平面) に変換されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Exhaustive |
完全な KNN アルゴリズムに固有のパラメーターが含まれています。 |
Exhaustive |
クエリ中に使用される完全な KNN アルゴリズムに固有の構成オプションが含まれています。これにより、ベクター インデックス全体でブルート フォース検索が実行されます。 |
Freshness |
日時フィールドの値に基づいてスコアをブーストする関数を定義します。 |
Freshness |
鮮度スコアリング関数にパラメーター値を提供します。 |
Hnsw |
HNSW アルゴリズムに固有のパラメーターが含まれます。 |
Hnsw |
インデックス作成とクエリ中に使用される HNSW 近似最近隣アルゴリズムに固有の構成オプションが含まれています。 HNSW アルゴリズムは、検索速度と精度の間で調整可能なトレードオフを提供します。 |
Keep |
指定した単語の一覧に含まれるテキストを持つトークンのみを保持するトークン フィルター。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Keyword |
用語がキーワードとしてマークされます。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Keyword |
入力全体が 1 つのトークンとして生成されます。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Keyword |
入力全体が 1 つのトークンとして生成されます。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Length |
長すぎる単語または短すぎる単語が削除されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Lexical |
検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。 |
Lexical |
検索エンジンでサポートされているすべてのテキスト ノーマライザーの名前を定義します。 |
Lexical |
検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。 |
Limit |
インデックス付けの間に、トークンの数が制限されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Lucene |
Standard Apache Lucene アナライザー。標準トークナイザー、小文字フィルター、および停止フィルターで構成されます。 |
Lucene |
Unicode テキスト セグメント化ルールに従ってテキストを分割します。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Lucene |
Unicode テキスト セグメント化ルールに従ってテキストを分割します。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Magnitude |
数値フィールドの大きさに基づいてスコアをブーストする関数を定義します。 |
Magnitude |
マグニチュード スコアリング関数にパラメーター値を提供します。 |
Mapping |
マッピング オプションで定義されたマッピングを適用する文字フィルター。 一致は最長一致です (特定ポイントでの最長パターン マッチングを優先)。 空の文字列での置換が許可されます。 この文字フィルターは、Apache Lucene を使用して実装されます。 |
Microsoft |
言語固有のルールを使用してテキストが分割され、基本フォームに単語が減らされます。 |
Microsoft |
言語固有のルールを使用してテキストが分割されます。 |
Microsoft |
Microsoft 言語ステミング トークナイザーでサポートされている言語をListsします。 |
Microsoft |
Microsoft 言語トークナイザーでサポートされている言語をListsします。 |
NGram |
指定サイズの n グラムが生成されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
NGram |
指定サイズの n グラムが生成されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
NGram |
入力が指定サイズの n グラムにトークン化されます。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Path |
パスのような階層のトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Pattern |
正規表現のパターンを使用してテキストを用語に柔軟に分割します。 このアナライザーは、Apache Lucene を使用して実装されます。 |
Pattern |
Java 正規表現を使用して、1 つ以上のパターンでキャプチャ グループごとに 1 つずつ、複数のトークンを出力します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Pattern |
入力文字列内の文字を置き換える文字フィルター。 正規表現を使用して維持する文字のシーケンスが識別され、置換パターンを使用して置換する文字が識別されます。 たとえば、入力テキスト "aa bb aa bb"、パターン "(aa)\s+(bb)"、置換後の "$1#$2" を指定すると、結果は "aa#bb aa#bb" になります。 この文字フィルターは、Apache Lucene を使用して実装されます。 |
Pattern |
入力文字列内の文字を置き換える文字フィルター。 正規表現を使用して維持する文字のシーケンスが識別され、置換パターンを使用して置換する文字が識別されます。 たとえば、入力テキスト "aa bb aa bb"、パターン "(aa)\s+(bb)"、置換後の "$1#$2" を指定すると、結果は "aa#bb aa#bb" になります。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Pattern |
正規表現パターン マッチングを使用して個別のトークンを構築するトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Phonetic |
PhoneticTokenFilter で使用するふりがなエンコーダーの種類を識別します。 |
Phonetic |
音声一致用のトークンが作成されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Prioritized |
セマンティック ランク付け、キャプション、強調表示、回答に使用するタイトル、コンテンツ、キーワードのフィールドについて説明します。 |
Regex |
パターン アナライザーとパターン トークナイザーでの正規表現の使用方法を制御するために組み合わせることができるフラグを定義します。 |
Scoring |
スコアリング プロファイル内のすべてのスコアリング関数の結果を結合するために使用される集計関数を定義します。 |
Scoring |
さまざまなドキュメントでスコアブーストを補間するために使用される関数を定義します。 |
Scoring |
検索クエリのスコアリングに影響を与える検索インデックスのパラメーターを定義します。 |
Search |
API のエラー条件について説明します。 |
Search |
フィールドの名前、データ型、および検索動作を記述する、インデックス定義内のフィールドを表します。 |
Search |
検索インデックス内のフィールドのデータ型を定義します。 |
Search |
インデックスのフィールドと検索動作を記述する検索インデックス定義を表します。 |
Search |
データソースの ID プロパティをクリアします。 |
Search |
使用するデータソースの ID を指定します。 |
Search |
Azure Key Vaultのカスタマー マネージド暗号化キー。 作成および管理するキーは、インデックスやシノニム マップなどの保存データの暗号化または暗号化解除に使用できます。 |
Semantic |
セマンティック機能のコンテキストで使用する特定の構成を定義します。 |
Semantic |
セマンティック構成の一部として使用されるフィールド。 |
Semantic |
セマンティック機能に影響を与える検索インデックスのパラメーターを定義します。 |
Shingle |
トークンの組み合わせが 1 つのトークンとして作成されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Snowball |
Snowball で生成されたステマーを使用して単語をステミングするフィルター。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Snowball |
Snowball トークン フィルターに使用する言語。 |
Stemmer |
ユーザー辞書ベースのステミングを使用して、他のステミング フィルターをオーバーライドする機能を提供します。 辞書で語幹を付けた用語はキーワードとしてマークされるため、チェーンの下にあるステマーで語幹を付けなくなります。 すべてのステミング フィルターの前に配置する必要があります。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Stemmer |
言語固有のステミング フィルター。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Stemmer |
ステマー トークン フィルターに使用する言語。 |
Stop |
テキストを文字以外で分割します。小文字とストップワードのトークン フィルターを適用します。 このアナライザーは、Apache Lucene を使用して実装されます。 |
Stopwords |
言語固有のストップワードの定義済みリストを識別します。 |
Stopwords |
トークン ストリームからストップワードが削除されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Suggester |
Suggest API をインデックス内のフィールドのグループに適用する方法を定義します。 |
Suggester |
suggester の機能を示す 値。 |
Synonym |
トークン ストリーム内の単一または複数単語のシノニムと一致します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Tag |
特定のタグのリストに一致する文字列値を持つドキュメントのスコアを向上させる関数を定義します。 |
Tag |
タグ スコアリング関数にパラメーター値を提供します。 |
Text |
検索クエリで一致がスコアリングを向上させるインデックス フィールドの重みを定義します。 |
Token |
トークン フィルターが動作できる文字のクラスを表します。 |
Token |
検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。 |
Truncate |
用語を特定の長さに切り捨てます。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Uax |
URL と電子メールが 1 つのトークンとしてトークン化されます。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Unique |
前のトークンと同じテキストのトークンが除外されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Vector |
ベクター検索に関連する構成オプションが含まれています。 |
Vector |
インデックス作成とクエリに使用されるアルゴリズム。 |
Vector |
ベクター比較に使用する類似性メトリック。 |
Vector |
ベクター検索で使用する構成の組み合わせを定義します。 |
Vector |
クエリ時間中に使用するベクター化メソッド。 |
Word |
単語がサブ単語に分割され、部分語のグループに対してオプションの変換が実行されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
AsciiFoldingTokenFilter
最初の 127 文字の ASCII 文字 ("Basic Latin" Unicode ブロック) にないアルファベット、数字、および記号の Unicode 文字を、ASCII に相当する文字に変換します (そのような文字が存在する場合)。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
preserveOriginal |
boolean |
False |
元のトークンを保持するかどうかを示す値。 既定値は false です。 |
AzureActiveDirectoryApplicationCredentials
Azure Key Vaultに格納されている暗号化キーへの認証済みアクセスに使用される、検索サービス用に作成された登録済みアプリケーションの資格情報。
名前 | 型 | 説明 |
---|---|---|
applicationId |
string |
保存データの暗号化時に使用される Azure Key Vaultに必要なアクセス許可が付与された AAD アプリケーション ID。 アプリケーション ID は、AAD アプリケーションのオブジェクト ID と混同しないでください。 |
applicationSecret |
string |
指定した AAD アプリケーションの認証キー。 |
AzureOpenAIParameters
Azure OpenAI リソースに接続するためのパラメーターを指定します。
名前 | 型 | 説明 |
---|---|---|
apiKey |
string |
指定された Azure OpenAI リソースの API キー。 |
authIdentity | SearchIndexerDataIdentity: |
送信接続に使用されるユーザー割り当てマネージド ID。 |
deploymentId |
string |
指定されたリソースでの Azure OpenAI モデルデプロイの ID。 |
resourceUri |
string |
Azure OpenAI リソースのリソース URI。 |
AzureOpenAIVectorizer
クエリ文字列のベクター化に使用される Azure OpenAI リソースを指定します。
名前 | 型 | 説明 |
---|---|---|
azureOpenAIParameters |
Azure OpenAI 埋め込みベクター化に固有のパラメーターが含まれています。 |
|
kind |
string:
azure |
ベクター検索で使用するように構成されているベクター化メソッドの種類の名前。 |
name |
string |
この特定のベクター化メソッドに関連付ける名前。 |
BM25Similarity
Okapi BM25 類似性アルゴリズムに基づくランク付け関数。 BM25 は TF-IDF に似たアルゴリズムであり、長さの正規化 ('b' パラメーターによって制御) と用語周波数飽和 ('k1' パラメーターによって制御) が含まれます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
このプロパティは、ドキュメントの長さが関連性スコアに与える影響を制御します。 既定では、値 0.75 が使用されます。 値 0.0 は長さの正規化が適用されていないことを意味し、値 1.0 はスコアがドキュメントの長さによって完全に正規化されていることを意味します。 |
k1 |
number |
このプロパティは、一致する各用語の用語頻度とドキュメント クエリ ペアの最終的な関連性スコアの間のスケーリング関数を制御します。 既定では、値 1.2 が使用されます。 値 0.0 は、スコアが用語頻度の増加に伴ってスケーリングされないことを意味します。 |
CharFilterName
検索エンジンでサポートされているすべての文字フィルターの名前を定義します。
名前 | 型 | 説明 |
---|---|---|
html_strip |
string |
HTML コンストラクトを取り除こうとする文字フィルター。 「https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html」を参照してください。 |
CjkBigramTokenFilter
標準トークナイザーから生成される CJK 用語の bigrams を形成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
ignoreScripts |
無視するスクリプト。 |
||
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
outputUnigrams |
boolean |
False |
ユニグラムと bigram の両方を出力するか (true の場合)、または bigrams のみを出力するかを示す値 (false の場合)。 既定値は false です。 |
CjkBigramTokenFilterScripts
CjkBigramTokenFilter によって無視できるスクリプト。
名前 | 型 | 説明 |
---|---|---|
han |
string |
CJK 用語の bigrams を形成するときに、Han スクリプトを無視します。 |
hangul |
string |
CJK 用語の bigrams を形成するときにハングル スクリプトを無視します。 |
hiragana |
string |
CJK 用語の bigrams を形成する場合は、ひらがなスクリプトを無視します。 |
katakana |
string |
CJK 用語の bigrams を形成する場合は、Katakana スクリプトを無視します。 |
ClassicSimilarity
TF-IDF の Lucene TFIDFSimilarity 実装を使用するレガシ類似性アルゴリズム。 この TF-IDF のバリエーションでは、静的なドキュメント長の正規化と、検索されたクエリに部分的にのみ一致するドキュメントを罰する調整要因が導入されています。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
ほとんどのヨーロッパ言語ドキュメントの処理に適した文法ベースのトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
maxTokenLength |
integer |
255 |
トークンの最大長。 既定値は 255 です。 最大長より長いトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 |
name |
string |
トークナイザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
CommonGramTokenFilter
インデックス付けの間に、頻繁に発生する用語に対してバイグラムが作成されます。 1 つの用語も、バイグラムがオーバーレイされてインデックス付けされます。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
commonWords |
string[] |
一般的な単語のセット。 |
|
ignoreCase |
boolean |
False |
一般的な単語の一致で大文字と小文字が区別されないかどうかを示す値。 既定値は false です。 |
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
queryMode |
boolean |
False |
トークン フィルターがクエリ モードであるかどうかを示す 値。 クエリ モードの場合、トークン フィルターは bigrams を生成し、共通語と 1 つの用語の後に共通語を続けて削除します。 既定値は false です。 |
CorsOptions
インデックスのクロスオリジン リソース共有 (CORS) を制御するオプションを定義します。
名前 | 型 | 説明 |
---|---|---|
allowedOrigins |
string[] |
JavaScript コードにインデックスへのアクセス権が付与される配信元の一覧。 {protocol}://{fully-qualified-domain-name}[:{port#}]という形式のホストの一覧を含めることができます。または、すべての配信元を許可する単一の '*' を含めることができます (推奨されません)。 |
maxAgeInSeconds |
integer |
ブラウザーが CORS プレフライト応答をキャッシュする必要がある期間。 既定値は 5 分です。 |
CustomAnalyzer
テキストをインデックス可能/検索可能なトークンに変換するプロセスを制御できます。 これは、1 つの定義済みのトークナイザーと 1 つ以上のフィルターで構成されるユーザー定義の構成です。 トークナイザーは、テキストをトークンに分割し、トークナイザーによって出力されるトークンを変更するためのフィルターを担当します。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
アナライザーの種類を指定する URI フラグメント。 |
charFilters |
トークナイザーによって処理される前に入力テキストを準備するために使用される文字フィルターの一覧。 たとえば、それらを使用して、特定の文字や記号を置き換えることができます。 フィルターは、一覧表示されている順序で実行されます。 |
|
name |
string |
アナライザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
tokenFilters |
トークナイザーによって生成されたトークンをフィルター処理または変更するために使用されるトークン フィルターの一覧。 たとえば、すべての文字を小文字に変換する lowercase フィルターを指定することができます。 フィルターは、一覧表示されている順序で実行されます。 |
|
tokenizer |
文を単語に分割するなど、連続するテキストをトークンのシーケンスに分割するために使用するトークナイザーの名前。 |
CustomNormalizer
フィルター可能、並べ替え可能、ファセット可能なフィールドの正規化を構成できます。既定では厳密な一致で動作します。 これは、格納されているトークンを変更する、少なくとも 1 つ以上のフィルターで構成されるユーザー定義の構成です。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
ノーマライザーの種類を指定する URI フラグメント。 |
charFilters |
入力テキストを処理する前に準備するために使用される文字フィルターの一覧。 たとえば、それらを使用して、特定の文字や記号を置き換えることができます。 フィルターは、一覧表示されている順序で実行されます。 |
|
name |
string |
ノーマライザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 '.microsoft' または '.lucene' で終わることはできません。また、'asciifolding'、'standard'、'小文字'、'大文字'、または 'elision' という名前を付けることはできません。 |
tokenFilters |
入力トークンをフィルター処理または変更するために使用されるトークン フィルターの一覧。 たとえば、すべての文字を小文字に変換する lowercase フィルターを指定することができます。 フィルターは、一覧表示されている順序で実行されます。 |
CustomVectorizer
クエリ文字列のベクター埋め込みを生成するためのユーザー定義ベクター化器を指定します。 外部ベクター化の統合は、スキルセットのカスタム Web API インターフェイスを使用して実現されます。
名前 | 型 | 説明 |
---|---|---|
customWebApiParameters |
ユーザー定義ベクター化器のプロパティを指定します。 |
|
kind |
string:
custom |
ベクター検索で使用するように構成されているベクター化メソッドの種類の名前。 |
name |
string |
この特定のベクター化メソッドに関連付ける名前。 |
CustomWebApiParameters
ユーザー定義ベクター化に接続するためのプロパティを指定します。
名前 | 型 | 説明 |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
送信接続に使用されるユーザー割り当てマネージド ID。 authResourceId が指定されていて、指定されていない場合は、システム割り当てマネージド ID が使用されます。 インデクサーの更新時に、ID が指定されていない場合、値は変更されません。 "none" に設定すると、このプロパティの値はクリアされます。 |
authResourceId |
string |
Azure 関数または変換を提供する他のアプリケーションの外部コードに接続するカスタム エンドポイントに適用されます。 この値は、関数またはアプリが Azure Active Directory に登録されたときに作成されたアプリケーション ID である必要があります。 指定すると、ベクター化は、検索サービスのマネージド ID (システムまたはユーザー割り当て) と関数またはアプリのアクセス トークンを使用して関数またはアプリに接続します。この値は、アクセス トークンのスコープを作成するためのリソース ID として使用されます。 |
httpHeaders |
object |
HTTP 要求を行うために必要なヘッダー。 |
httpMethod |
string |
HTTP 要求のメソッド。 |
timeout |
string |
要求に必要なタイムアウト。 既定値は 30 秒です。 |
uri |
string |
ベクター化を提供する Web API の URI。 |
DictionaryDecompounderTokenFilter
多くのゲルマン言語に出現する複合語を分解します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
maxSubwordSize |
integer |
15 |
サブワードの最大サイズ。 これより短いサブワードのみが出力されます。 既定値は 15 です。 最大値は 300 です。 |
minSubwordSize |
integer |
2 |
サブワードの最小サイズ。 これより長いサブワードのみが出力されます。 既定値は 2 です。 最大値は 300 です。 |
minWordSize |
integer |
5 |
単語の最小サイズ。 これより長い単語のみが処理されます。 既定値は 5 です。 最大値は 300 です。 |
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
onlyLongestMatch |
boolean |
False |
最も長い一致するサブワードのみを出力に追加するかどうかを示す値。 既定値は false です。 |
wordList |
string[] |
照合する単語の一覧。 |
DistanceScoringFunction
地理的な場所からの距離に基づいてスコアをブーストする関数を定義します。
名前 | 型 | 説明 |
---|---|---|
boost |
number |
生のスコアの乗数。 1.0 と等しくない正の数値にする必要があります。 |
distance |
距離スコアリング関数のパラメーター値。 |
|
fieldName |
string |
スコアリング関数への入力として使用されるフィールドの名前。 |
interpolation |
文書のスコア間でブースティングがどのように補間されるかを示す値。既定値は "Linear" です。 |
|
type |
string:
distance |
使用する関数の型を示します。 有効な値は、magnitude、freshness、distance、tag です。 関数の型は小文字にする必要があります。 |
DistanceScoringParameters
距離スコアリング関数にパラメーター値を提供します。
名前 | 型 | 説明 |
---|---|---|
boostingDistance |
number |
ブースト範囲が終了する基準位置からの距離 (キロメートル)。 |
referencePointParameter |
string |
参照場所を指定するために検索クエリで渡されるパラメーターの名前。 |
EdgeNGramTokenFilter
入力トークンの前面または背面から、指定したサイズの n グラムを生成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
maxGram |
integer |
2 |
n-gram の最大長。 既定値は 2 です。 |
minGram |
integer |
1 |
n-gram の最小長。 既定値は 1 です。 maxGram の値より小さくする必要があります。 |
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
side | front |
n-gram を生成する入力の側を指定します。 既定値は "front" です。 |
EdgeNGramTokenFilterSide
n-gram を生成する入力の側を指定します。
名前 | 型 | 説明 |
---|---|---|
back |
string |
n-gram を入力の背面から生成することを指定します。 |
front |
string |
n-gram を入力の先頭から生成することを指定します。 |
EdgeNGramTokenFilterV2
入力トークンの前面または背面から、指定したサイズの n グラムを生成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
maxGram |
integer |
2 |
n-gram の最大長。 既定値は 2 です。 最大値は 300 です。 |
minGram |
integer |
1 |
n-gram の最小長。 既定値は 1 です。 最大値は 300 です。 maxGram の値より小さくする必要があります。 |
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
side | front |
n-gram を生成する入力の側を指定します。 既定値は "front" です。 |
EdgeNGramTokenizer
エッジからの入力を、指定されたサイズの n グラムにトークン化します。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
maxGram |
integer |
2 |
n-gram の最大長。 既定値は 2 です。 最大値は 300 です。 |
minGram |
integer |
1 |
n-gram の最小長。 既定値は 1 です。 最大値は 300 です。 maxGram の値より小さくする必要があります。 |
name |
string |
トークナイザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
tokenChars |
トークンに保持する文字クラス。 |
ElisionTokenFilter
省略記号が削除されます。 たとえば、"l'avion" (平面) は "avion" (平面) に変換されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
articles |
string[] |
削除するアーティクルのセット。 |
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
ExhaustiveKnnParameters
完全な KNN アルゴリズムに固有のパラメーターが含まれています。
名前 | 型 | 説明 |
---|---|---|
metric |
ベクター比較に使用する類似性メトリック。 |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
クエリ中に使用される完全な KNN アルゴリズムに固有の構成オプションが含まれています。これにより、ベクター インデックス全体でブルート フォース検索が実行されます。
名前 | 型 | 説明 |
---|---|---|
exhaustiveKnnParameters |
完全な KNN アルゴリズムに固有のパラメーターが含まれています。 |
|
kind |
string:
exhaustive |
ベクター検索で使用するように構成されているアルゴリズムの種類の名前。 |
name |
string |
この特定の構成に関連付ける名前。 |
FreshnessScoringFunction
日時フィールドの値に基づいてスコアをブーストする関数を定義します。
名前 | 型 | 説明 |
---|---|---|
boost |
number |
生のスコアの乗数。 1.0 と等しくない正の数値にする必要があります。 |
fieldName |
string |
スコアリング関数への入力として使用されるフィールドの名前。 |
freshness |
鮮度スコアリング関数のパラメーター値。 |
|
interpolation |
文書のスコア間でブースティングがどのように補間されるかを示す値。既定値は "Linear" です。 |
|
type |
string:
freshness |
使用する関数の型を示します。 有効な値は、magnitude、freshness、distance、tag です。 関数の型は小文字にする必要があります。 |
FreshnessScoringParameters
鮮度スコアリング関数にパラメーター値を提供します。
名前 | 型 | 説明 |
---|---|---|
boostingDuration |
string |
その後の有効期限は、特定のドキュメントのブーストが停止します。 |
HnswParameters
HNSW アルゴリズムに固有のパラメーターが含まれます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
efConstruction |
integer |
400 |
インデックス時間中に使用される、最も近いネイバーを含む動的リストのサイズ。 このパラメーターを大きくすると、インデックス作成時間の増加を犠牲にして、インデックスの品質が向上する可能性があります。 特定の時点で、このパラメーターを大きくすると、戻り値が減少します。 |
efSearch |
integer |
500 |
検索時に使用される最も近いネイバーを含む動的リストのサイズ。 このパラメーターを大きくすると、検索速度が低下して検索結果が向上する可能性があります。 特定の時点で、このパラメーターを大きくすると、戻り値が減少します。 |
m |
integer |
4 |
構築中に新しい要素ごとに作成された双方向リンクの数。 このパラメーター値を大きくすると、メモリ消費の増加とインデックス作成時間の長さを犠牲にして、組み込み次元が高いデータセットのリコールが向上し、取得時間が短縮される可能性があります。 |
metric |
ベクター比較に使用する類似性メトリック。 |
HnswVectorSearchAlgorithmConfiguration
インデックス作成とクエリ中に使用される HNSW 近似最近隣アルゴリズムに固有の構成オプションが含まれています。 HNSW アルゴリズムは、検索速度と精度の間で調整可能なトレードオフを提供します。
名前 | 型 | 説明 |
---|---|---|
hnswParameters |
HNSW アルゴリズムに固有のパラメーターが含まれます。 |
|
kind |
string:
hnsw |
ベクター検索で使用するように構成されているアルゴリズムの種類の名前。 |
name |
string |
この特定の構成に関連付ける名前。 |
KeepTokenFilter
指定した単語の一覧に含まれるテキストを持つトークンのみを保持するトークン フィルター。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
keepWords |
string[] |
保持する単語の一覧。 |
|
keepWordsCase |
boolean |
False |
すべての単語を最初に小文字にするかどうかを示す値。 既定値は false です。 |
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
KeywordMarkerTokenFilter
用語がキーワードとしてマークされます。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
ignoreCase |
boolean |
False |
大文字と小文字を区別しないかどうかを示す値。 true の場合、すべての単語が最初に小文字に変換されます。 既定値は false です。 |
keywords |
string[] |
キーワードとしてマークする単語の一覧。 |
|
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
KeywordTokenizer
入力全体が 1 つのトークンとして生成されます。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
bufferSize |
integer |
256 |
読み取りバッファー サイズ (バイト単位)。 既定値は 256 です。 |
name |
string |
トークナイザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
KeywordTokenizerV2
入力全体が 1 つのトークンとして生成されます。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
maxTokenLength |
integer |
256 |
トークンの最大長。 既定値は 256 です。 最大長より長いトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 |
name |
string |
トークナイザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
LengthTokenFilter
長すぎる単語または短すぎる単語が削除されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
max |
integer |
300 |
文字の最大長。 既定値と最大値は 300 です。 |
min |
integer |
0 |
文字単位の最小長。 既定値は 0 です。 最大値は 300 です。 max の値より小さくする必要があります。 |
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
LexicalAnalyzerName
検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。
名前 | 型 | 説明 |
---|---|---|
ar.lucene |
string |
アラビア語用 Lucene アナライザー。 |
ar.microsoft |
string |
アラビア語用 Microsoft アナライザー。 |
bg.lucene |
string |
ブルガリア語用 Lucene アナライザー。 |
bg.microsoft |
string |
ブルガリア語用 Microsoft アナライザー。 |
bn.microsoft |
string |
Bangla 用 Microsoft アナライザー。 |
ca.lucene |
string |
カタロニア語用 Lucene アナライザー。 |
ca.microsoft |
string |
カタロニア語用の Microsoft アナライザー。 |
cs.lucene |
string |
チェコ語用 Lucene アナライザー。 |
cs.microsoft |
string |
チェコ語用 Microsoft アナライザー。 |
da.lucene |
string |
デンマーク語用 Lucene アナライザー。 |
da.microsoft |
string |
デンマーク語用の Microsoft アナライザー。 |
de.lucene |
string |
ドイツ語用 Lucene アナライザー。 |
de.microsoft |
string |
ドイツ語用 Microsoft アナライザー。 |
el.lucene |
string |
ギリシャ語用 Lucene アナライザー。 |
el.microsoft |
string |
ギリシャ語用 Microsoft アナライザー。 |
en.lucene |
string |
英語用 Lucene アナライザー。 |
en.microsoft |
string |
英語用 Microsoft アナライザー。 |
es.lucene |
string |
スペイン語用 Lucene アナライザー。 |
es.microsoft |
string |
スペイン語用 Microsoft アナライザー。 |
et.microsoft |
string |
エストニア語用 Microsoft アナライザー。 |
eu.lucene |
string |
バスク語用 Lucene アナライザー。 |
fa.lucene |
string |
ペルシャ語用 Lucene アナライザー。 |
fi.lucene |
string |
フィンランド語用 Lucene アナライザー。 |
fi.microsoft |
string |
フィンランド語用 Microsoft アナライザー。 |
fr.lucene |
string |
フランス語用 Lucene アナライザー。 |
fr.microsoft |
string |
フランス語用 Microsoft アナライザー。 |
ga.lucene |
string |
アイルランド語用 Lucene アナライザー。 |
gl.lucene |
string |
ガリシア語用 Lucene アナライザー。 |
gu.microsoft |
string |
Gujarati 用の Microsoft アナライザー。 |
he.microsoft |
string |
ヘブライ語用 Microsoft アナライザー。 |
hi.lucene |
string |
ヒンディー語用 Lucene アナライザー。 |
hi.microsoft |
string |
ヒンディー語用 Microsoft アナライザー。 |
hr.microsoft |
string |
クロアチア語用 Microsoft アナライザー。 |
hu.lucene |
string |
ハンガリー語用 Lucene アナライザー。 |
hu.microsoft |
string |
ハンガリー語用 Microsoft アナライザー。 |
hy.lucene |
string |
アルメニア語用 Lucene アナライザー。 |
id.lucene |
string |
インドネシア語用 Lucene アナライザー。 |
id.microsoft |
string |
インドネシア語 (Bahasa) 用の Microsoft アナライザー。 |
is.microsoft |
string |
アイスランドの Microsoft アナライザー。 |
it.lucene |
string |
イタリア語用 Lucene アナライザー。 |
it.microsoft |
string |
イタリア語用 Microsoft アナライザー。 |
ja.lucene |
string |
日本語用 Lucene アナライザー。 |
ja.microsoft |
string |
日本語用 Microsoft アナライザー。 |
keyword |
string |
フィールドの内容全体を 1 つのトークンとして扱います。 これは、郵便番号、ID、製品名などのデータで役立ちます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html」を参照してください。 |
kn.microsoft |
string |
カンナダ用の Microsoft アナライザー。 |
ko.lucene |
string |
韓国語用 Lucene アナライザー。 |
ko.microsoft |
string |
韓国語用 Microsoft アナライザー。 |
lt.microsoft |
string |
リトアニア語用の Microsoft アナライザー。 |
lv.lucene |
string |
ラトビア語用 Lucene アナライザー。 |
lv.microsoft |
string |
ラトビア語用 Microsoft アナライザー。 |
ml.microsoft |
string |
マラヤーラム用の Microsoft アナライザー。 |
mr.microsoft |
string |
Marathi 用の Microsoft アナライザー。 |
ms.microsoft |
string |
マレー語 (ラテン) 用の Microsoft アナライザー。 |
nb.microsoft |
string |
ノルウェー語 (Bokmål) 用 Microsoft アナライザー。 |
nl.lucene |
string |
オランダ語用 Lucene アナライザー。 |
nl.microsoft |
string |
オランダ語用 Microsoft アナライザー。 |
no.lucene |
string |
ノルウェー語用 Lucene アナライザー。 |
pa.microsoft |
string |
Punjabi 用の Microsoft アナライザー。 |
pattern |
string |
正規表現のパターンを使用してテキストを用語に柔軟に分割します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html」を参照してください。 |
pl.lucene |
string |
ポーランド語用 Lucene アナライザー。 |
pl.microsoft |
string |
ポーランド語用 Microsoft アナライザー。 |
pt-BR.lucene |
string |
ポルトガル語 (ブラジル) 用 Lucene アナライザー。 |
pt-BR.microsoft |
string |
ポルトガル語 (ブラジル) 用 Microsoft アナライザー。 |
pt-PT.lucene |
string |
ポルトガル語 (ポルトガル) 用 Lucene アナライザー。 |
pt-PT.microsoft |
string |
ポルトガル語 (ポルトガル) 用 Microsoft アナライザー。 |
ro.lucene |
string |
ルーマニア語用 Lucene アナライザー。 |
ro.microsoft |
string |
ルーマニア語用の Microsoft アナライザー。 |
ru.lucene |
string |
ロシア語用 Lucene アナライザー。 |
ru.microsoft |
string |
ロシア語用 Microsoft アナライザー。 |
simple |
string |
非文字でテキストが分割され、それらが小文字に変換されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html」を参照してください。 |
sk.microsoft |
string |
スロバキア語用 Microsoft アナライザー。 |
sl.microsoft |
string |
スロベニア語用の Microsoft アナライザー。 |
sr-cyrillic.microsoft |
string |
セルビア語 (キリル) 用の Microsoft アナライザー。 |
sr-latin.microsoft |
string |
セルビア語 (ラテン) 用の Microsoft アナライザー。 |
standard.lucene |
string |
Standard Lucene アナライザー。 |
standardasciifolding.lucene |
string |
Standard ASCII フォールディング Lucene アナライザー。 「https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers」を参照してください。 |
stop |
string |
テキストを文字以外で分割します。小文字とストップワードのトークン フィルターを適用します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html」を参照してください。 |
sv.lucene |
string |
スウェーデン語用 Lucene アナライザー。 |
sv.microsoft |
string |
スウェーデン語用 Microsoft アナライザー。 |
ta.microsoft |
string |
Tamil 用 Microsoft アナライザー。 |
te.microsoft |
string |
Telugu 用 Microsoft アナライザー。 |
th.lucene |
string |
タイ語用 Lucene アナライザー。 |
th.microsoft |
string |
タイ語用 Microsoft アナライザー。 |
tr.lucene |
string |
トルコ語用 Lucene アナライザー。 |
tr.microsoft |
string |
トルコ語用 Microsoft アナライザー。 |
uk.microsoft |
string |
ウクライナ語用の Microsoft アナライザー。 |
ur.microsoft |
string |
Urdu 用 Microsoft アナライザー。 |
vi.microsoft |
string |
ベトナム語用 Microsoft アナライザー。 |
whitespace |
string |
空白文字トークナイザーを使用するアナライザー。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html」を参照してください。 |
zh-Hans.lucene |
string |
Lucene analyzer for Chinese (簡体字)。 |
zh-Hans.microsoft |
string |
Microsoft Analyzer for Chinese (簡体字)。 |
zh-Hant.lucene |
string |
Lucene analyzer for Chinese (繁体字)。 |
zh-Hant.microsoft |
string |
Microsoft Analyzer for Chinese (繁体字)。 |
LexicalNormalizerName
検索エンジンでサポートされているすべてのテキスト ノーマライザーの名前を定義します。
名前 | 型 | 説明 |
---|---|---|
asciifolding |
string |
最初の 127 文字の ASCII 文字 ("Basic Latin" Unicode ブロック) にないアルファベット文字、数値文字、およびシンボリック Unicode 文字を、ASCII に相当する文字 (存在する場合) に変換します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html」を参照してください。 |
elision |
string |
省略記号が削除されます。 たとえば、"l'avion" (平面) は "avion" (平面) に変換されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html」を参照してください。 |
lowercase |
string |
トークン テキストを小文字に正規化します。 「https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html」を参照してください。 |
standard |
string |
標準ノーマライザー。小文字と asciifolding で構成されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html」を参照してください。 |
uppercase |
string |
トークン テキストを大文字に正規化します。 「https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html」を参照してください。 |
LexicalTokenizerName
検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。
LimitTokenFilter
インデックス付けの間に、トークンの数が制限されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
consumeAllTokens |
boolean |
False |
maxTokenCount に達した場合でも、入力のすべてのトークンを使用する必要があるかどうかを示す値。 既定値は false です。 |
maxTokenCount |
integer |
1 |
生成するトークンの最大数。 既定値は 1 です。 |
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
LuceneStandardAnalyzer
Standard Apache Lucene アナライザー。標準トークナイザー、小文字フィルター、および停止フィルターで構成されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
アナライザーの種類を指定する URI フラグメント。 |
|
maxTokenLength |
integer |
255 |
トークンの最大長。 既定値は 255 です。 最大長より長いトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 |
name |
string |
アナライザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
stopwords |
string[] |
ストップワードの一覧。 |
LuceneStandardTokenizer
Unicode テキスト セグメント化ルールに従ってテキストを分割します。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
maxTokenLength |
integer |
255 |
トークンの最大長。 既定値は 255 です。 最大長より長いトークンは分割されます。 |
name |
string |
トークナイザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
LuceneStandardTokenizerV2
Unicode テキスト セグメント化ルールに従ってテキストを分割します。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
maxTokenLength |
integer |
255 |
トークンの最大長。 既定値は 255 です。 最大長より長いトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 |
name |
string |
トークナイザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
MagnitudeScoringFunction
数値フィールドの大きさに基づいてスコアをブーストする関数を定義します。
名前 | 型 | 説明 |
---|---|---|
boost |
number |
生のスコアの乗数。 1.0 と等しくない正の数値にする必要があります。 |
fieldName |
string |
スコアリング関数への入力として使用されるフィールドの名前。 |
interpolation |
文書のスコア間でブースティングがどのように補間されるかを示す値。既定値は "Linear" です。 |
|
magnitude |
マグニチュード スコアリング関数のパラメーター値。 |
|
type |
string:
magnitude |
使用する関数の型を示します。 有効な値は、magnitude、freshness、distance、tag です。 関数の型は小文字にする必要があります。 |
MagnitudeScoringParameters
マグニチュード スコアリング関数にパラメーター値を提供します。
名前 | 型 | 説明 |
---|---|---|
boostingRangeEnd |
number |
ブーストが終了するフィールド値。 |
boostingRangeStart |
number |
ブーストが開始されるフィールド値。 |
constantBoostBeyondRange |
boolean |
範囲の終了値を超えるフィールド値に定数ブーストを適用するかどうかを示す値。既定値は false です。 |
MappingCharFilter
マッピング オプションで定義されたマッピングを適用する文字フィルター。 一致は最長一致です (特定ポイントでの最長パターン マッチングを優先)。 空の文字列での置換が許可されます。 この文字フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
char フィルターの種類を指定する URI フラグメント。 |
mappings |
string[] |
次の形式のマッピングの一覧: "a=>b" (文字 "a" のすべての出現箇所は、文字 "b" に置き換えられます)。 |
name |
string |
char フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
MicrosoftLanguageStemmingTokenizer
言語固有のルールを使用してテキストが分割され、基本フォームに単語が減らされます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
isSearchTokenizer |
boolean |
False |
トークナイザーの使用方法を示す値。 検索トークナイザーとして使用する場合は true に設定し、インデックス作成トークナイザーとして使用する場合は false に設定します。 既定値は false です。 |
language |
使用する言語。 既定値は英語です。 |
||
maxTokenLength |
integer |
255 |
トークンの最大長。 最大長より長いトークンは分割されます。 使用できる最大トークン長は、300 文字です。 300 文字を超えるトークンは、最初に長さ 300 のトークンに分割され、それらの各トークンは最大トークン長セットに基づいて分割されます。 既定値は 255 です。 |
name |
string |
トークナイザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
MicrosoftLanguageTokenizer
言語固有のルールを使用してテキストが分割されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
isSearchTokenizer |
boolean |
False |
トークナイザーの使用方法を示す値。 検索トークナイザーとして使用する場合は true に設定し、インデックス作成トークナイザーとして使用する場合は false に設定します。 既定値は false です。 |
language |
使用する言語。 既定値は英語です。 |
||
maxTokenLength |
integer |
255 |
トークンの最大長。 最大長より長いトークンは分割されます。 使用できる最大トークン長は、300 文字です。 300 文字を超えるトークンは、最初に長さ 300 のトークンに分割され、それらの各トークンは最大トークン長セットに基づいて分割されます。 既定値は 255 です。 |
name |
string |
トークナイザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
MicrosoftStemmingTokenizerLanguage
Microsoft 言語ステミング トークナイザーでサポートされている言語をListsします。
名前 | 型 | 説明 |
---|---|---|
arabic |
string |
アラビア語の Microsoft ステミング トークナイザーを選択します。 |
bangla |
string |
Bangla の Microsoft ステミング トークナイザーを選択します。 |
bulgarian |
string |
ブルガリア語の Microsoft ステミング トークナイザーを選択します。 |
catalan |
string |
カタロニア語の Microsoft ステミング トークナイザーを選択します。 |
croatian |
string |
クロアチア語の Microsoft ステミング トークナイザーを選択します。 |
czech |
string |
チェコ語の Microsoft ステミング トークナイザーを選択します。 |
danish |
string |
デンマーク語の Microsoft ステミング トークナイザーを選択します。 |
dutch |
string |
オランダ語の Microsoft ステミング トークナイザーを選択します。 |
english |
string |
英語の Microsoft ステミング トークナイザーを選択します。 |
estonian |
string |
エストニア語の Microsoft ステミング トークナイザーを選択します。 |
finnish |
string |
フィンランド語の Microsoft ステミング トークナイザーを選択します。 |
french |
string |
フランス語の Microsoft ステミング トークナイザーを選択します。 |
german |
string |
ドイツ語の Microsoft ステミング トークナイザーを選択します。 |
greek |
string |
ギリシャ語の Microsoft ステミング トークナイザーを選択します。 |
gujarati |
string |
Gujarati の Microsoft ステミング トークナイザーを選択します。 |
hebrew |
string |
ヘブライ語の Microsoft ステミング トークナイザーを選択します。 |
hindi |
string |
ヒンディー語の Microsoft ステミング トークナイザーを選択します。 |
hungarian |
string |
ハンガリー語の Microsoft ステミング トークナイザーを選択します。 |
icelandic |
string |
アイスランド語の Microsoft ステミング トークナイザーを選択します。 |
indonesian |
string |
インドネシア語の Microsoft ステミング トークナイザーを選択します。 |
italian |
string |
イタリア語の Microsoft ステミング トークナイザーを選択します。 |
kannada |
string |
カンナダの Microsoft ステミング トークナイザーを選択します。 |
latvian |
string |
ラトビア語の Microsoft ステミング トークナイザーを選択します。 |
lithuanian |
string |
リトアニア語の Microsoft ステミング トークナイザーを選択します。 |
malay |
string |
マレー語の Microsoft ステミング トークナイザーを選択します。 |
malayalam |
string |
マラヤーラム語の Microsoft ステミング トークナイザーを選択します。 |
marathi |
string |
Marathi の Microsoft ステミング トークナイザーを選択します。 |
norwegianBokmaal |
string |
ノルウェー語 (Bokmål) の Microsoft ステミング トークナイザーを選択します。 |
polish |
string |
ポーランド語の Microsoft ステミング トークナイザーを選択します。 |
portuguese |
string |
ポルトガル語の Microsoft ステミング トークナイザーを選択します。 |
portugueseBrazilian |
string |
ポルトガル語 (ブラジル) の Microsoft ステミング トークナイザーを選択します。 |
punjabi |
string |
Punjabi の Microsoft ステミング トークナイザーを選択します。 |
romanian |
string |
ルーマニア語の Microsoft ステミング トークナイザーを選択します。 |
russian |
string |
ロシア語の Microsoft ステミング トークナイザーを選択します。 |
serbianCyrillic |
string |
セルビア語 (キリル) の Microsoft ステミング トークナイザーを選択します。 |
serbianLatin |
string |
セルビア語 (ラテン) の Microsoft ステミング トークナイザーを選択します。 |
slovak |
string |
スロバキア語の Microsoft ステミング トークナイザーを選択します。 |
slovenian |
string |
スロベニア語の Microsoft ステミング トークナイザーを選択します。 |
spanish |
string |
スペイン語の Microsoft ステミング トークナイザーを選択します。 |
swedish |
string |
スウェーデン語の Microsoft ステミング トークナイザーを選択します。 |
tamil |
string |
Tamil の Microsoft ステミング トークナイザーを選択します。 |
telugu |
string |
テルグ語の Microsoft ステミング トークナイザーを選択します。 |
turkish |
string |
トルコ語の Microsoft ステミング トークナイザーを選択します。 |
ukrainian |
string |
ウクライナ語の Microsoft ステミング トークナイザーを選択します。 |
urdu |
string |
Urdu の Microsoft ステミング トークナイザーを選択します。 |
MicrosoftTokenizerLanguage
Microsoft 言語トークナイザーでサポートされている言語をListsします。
名前 | 型 | 説明 |
---|---|---|
bangla |
string |
Bangla の Microsoft トークナイザーを選択します。 |
bulgarian |
string |
ブルガリア語の Microsoft トークナイザーを選択します。 |
catalan |
string |
カタロニア語の Microsoft トークナイザーを選択します。 |
chineseSimplified |
string |
中国語 (簡体字) 用の Microsoft トークナイザーを選択します。 |
chineseTraditional |
string |
中国語 (繁体字) 用の Microsoft トークナイザーを選択します。 |
croatian |
string |
クロアチア語の Microsoft トークナイザーを選択します。 |
czech |
string |
チェコ語の Microsoft トークナイザーを選択します。 |
danish |
string |
デンマーク語の Microsoft トークナイザーを選択します。 |
dutch |
string |
オランダ語の Microsoft トークナイザーを選択します。 |
english |
string |
英語用の Microsoft トークナイザーを選択します。 |
french |
string |
フランス語の Microsoft トークナイザーを選択します。 |
german |
string |
ドイツ語の Microsoft トークナイザーを選択します。 |
greek |
string |
ギリシャ語の Microsoft トークナイザーを選択します。 |
gujarati |
string |
Gujarati の Microsoft トークナイザーを選択します。 |
hindi |
string |
ヒンディー語の Microsoft トークナイザーを選択します。 |
icelandic |
string |
アイスランド語の Microsoft トークナイザーを選択します。 |
indonesian |
string |
インドネシア語の Microsoft トークナイザーを選択します。 |
italian |
string |
イタリア語の Microsoft トークナイザーを選択します。 |
japanese |
string |
日本語用の Microsoft トークナイザーを選択します。 |
kannada |
string |
カンナダの Microsoft トークナイザーを選択します。 |
korean |
string |
韓国語用の Microsoft トークナイザーを選択します。 |
malay |
string |
マレー語の Microsoft トークナイザーを選択します。 |
malayalam |
string |
マラヤーラム語の Microsoft トークナイザーを選択します。 |
marathi |
string |
Marathi の Microsoft トークナイザーを選択します。 |
norwegianBokmaal |
string |
ノルウェー語 (Bokmål) の Microsoft トークナイザーを選択します。 |
polish |
string |
ポーランド語の Microsoft トークナイザーを選択します。 |
portuguese |
string |
ポルトガル語の Microsoft トークナイザーを選択します。 |
portugueseBrazilian |
string |
ポルトガル語 (ブラジル) の Microsoft トークナイザーを選択します。 |
punjabi |
string |
Punjabi の Microsoft トークナイザーを選択します。 |
romanian |
string |
ルーマニア語の Microsoft トークナイザーを選択します。 |
russian |
string |
ロシア語の Microsoft トークナイザーを選択します。 |
serbianCyrillic |
string |
セルビア語 (キリル) の Microsoft トークナイザーを選択します。 |
serbianLatin |
string |
セルビア語 (ラテン) の Microsoft トークナイザーを選択します。 |
slovenian |
string |
スロベニア語の Microsoft トークナイザーを選択します。 |
spanish |
string |
スペイン語の Microsoft トークナイザーを選択します。 |
swedish |
string |
スウェーデン語の Microsoft トークナイザーを選択します。 |
tamil |
string |
Tamil の Microsoft トークナイザーを選択します。 |
telugu |
string |
テルグ語の Microsoft トークナイザーを選択します。 |
thai |
string |
タイ語の Microsoft トークナイザーを選択します。 |
ukrainian |
string |
ウクライナ語の Microsoft トークナイザーを選択します。 |
urdu |
string |
Urdu の Microsoft トークナイザーを選択します。 |
vietnamese |
string |
ベトナム語の Microsoft トークナイザーを選択します。 |
NGramTokenFilter
指定サイズの n グラムが生成されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
maxGram |
integer |
2 |
n-gram の最大長。 既定値は 2 です。 |
minGram |
integer |
1 |
n-gram の最小長。 既定値は 1 です。 maxGram の値より小さくする必要があります。 |
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
NGramTokenFilterV2
指定サイズの n グラムが生成されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
maxGram |
integer |
2 |
n-gram の最大長。 既定値は 2 です。 最大値は 300 です。 |
minGram |
integer |
1 |
n-gram の最小長。 既定値は 1 です。 最大値は 300 です。 maxGram の値より小さくする必要があります。 |
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
NGramTokenizer
入力が指定サイズの n グラムにトークン化されます。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
maxGram |
integer |
2 |
n-gram の最大長。 既定値は 2 です。 最大値は 300 です。 |
minGram |
integer |
1 |
n-gram の最小長。 既定値は 1 です。 最大値は 300 です。 maxGram の値より小さくする必要があります。 |
name |
string |
トークナイザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
tokenChars |
トークンに保持する文字クラス。 |
PathHierarchyTokenizerV2
パスのような階層のトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
delimiter |
string |
/ |
使用する区切り文字。 既定値は "/" です。 |
maxTokenLength |
integer |
300 |
トークンの最大長。 既定値と最大値は 300 です。 |
name |
string |
トークナイザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
replacement |
string |
/ |
設定されている場合、区切り文字を置き換える値。 既定値は "/" です。 |
reverse |
boolean |
False |
トークンを逆の順序で生成するかどうかを示す値。 既定値は false です。 |
skip |
integer |
0 |
スキップする初期トークンの数。 既定値は 0 です。 |
PatternAnalyzer
正規表現のパターンを使用してテキストを用語に柔軟に分割します。 このアナライザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
アナライザーの種類を指定する URI フラグメント。 |
|
flags |
正規表現フラグ。 |
||
lowercase |
boolean |
True |
用語を小文字にするかどうかを示す値。 既定値は true です。 |
name |
string |
アナライザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
pattern |
string |
\W+ |
トークン区切り記号と一致する正規表現パターン。 既定値は、1 つ以上の単語以外の文字と一致する式です。 |
stopwords |
string[] |
ストップワードの一覧。 |
PatternCaptureTokenFilter
Java 正規表現を使用して、1 つ以上のパターンでキャプチャ グループごとに 1 つずつ、複数のトークンを出力します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
patterns |
string[] |
各トークンと照合するパターンの一覧。 |
|
preserveOriginal |
boolean |
True |
いずれかのパターンが一致する場合でも、元のトークンを返すかどうかを示す値。 既定値は true です。 |
PatternReplaceCharFilter
入力文字列内の文字を置き換える文字フィルター。 正規表現を使用して維持する文字のシーケンスが識別され、置換パターンを使用して置換する文字が識別されます。 たとえば、入力テキスト "aa bb aa bb"、パターン "(aa)\s+(bb)"、置換後の "$1#$2" を指定すると、結果は "aa#bb aa#bb" になります。 この文字フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
char フィルターの種類を指定する URI フラグメント。 |
name |
string |
char フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
pattern |
string |
正規表現パターン。 |
replacement |
string |
置換テキスト。 |
PatternReplaceTokenFilter
入力文字列内の文字を置き換える文字フィルター。 正規表現を使用して維持する文字のシーケンスが識別され、置換パターンを使用して置換する文字が識別されます。 たとえば、入力テキスト "aa bb aa bb"、パターン "(aa)\s+(bb)"、置換後の "$1#$2" を指定すると、結果は "aa#bb aa#bb" になります。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
pattern |
string |
正規表現パターン。 |
replacement |
string |
置換テキスト。 |
PatternTokenizer
正規表現パターン マッチングを使用して個別のトークンを構築するトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
flags |
正規表現フラグ。 |
||
group |
integer |
-1 |
トークンに抽出する正規表現パターン内の一致するグループの 0 から始まる序数。 一致するグループに関係なく、パターン全体を使用して入力をトークンに分割する場合は、-1 を使用します。 既定値は -1 です。 |
name |
string |
トークナイザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
pattern |
string |
\W+ |
トークンの区切り記号と一致する正規表現パターン。 既定値は、1 つ以上の単語以外の文字と一致する式です。 |
PhoneticEncoder
PhoneticTokenFilter で使用するふりがなエンコーダーの種類を識別します。
名前 | 型 | 説明 |
---|---|---|
beiderMorse |
string |
トークンを Beider-Morse 値にエンコードします。 |
caverphone1 |
string |
トークンを Caverphone 1.0 値にエンコードします。 |
caverphone2 |
string |
トークンを Caverphone 2.0 値にエンコードします。 |
cologne |
string |
トークンをケルンふりがな値にエンコードします。 |
doubleMetaphone |
string |
トークンを二重メタフォン値にエンコードします。 |
haasePhonetik |
string |
Kölner Phonetik アルゴリズムの Haase 絞り込みを使用してトークンをエンコードします。 |
koelnerPhonetik |
string |
Kölner Phonetik アルゴリズムを使用してトークンをエンコードします。 |
metaphone |
string |
トークンをメタフォン値にエンコードします。 |
nysiis |
string |
トークンを NYSIIS 値にエンコードします。 |
refinedSoundex |
string |
トークンを Refined Soundex 値にエンコードします。 |
soundex |
string |
トークンを Soundex 値にエンコードします。 |
PhoneticTokenFilter
音声一致用のトークンが作成されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
encoder | metaphone |
使用するふりがなエンコーダー。 既定値は "metaphone" です。 |
|
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
replace |
boolean |
True |
エンコードされたトークンが元のトークンを置き換えるかどうかを示す値。 false の場合、エンコードされたトークンはシノニムとして追加されます。 既定値は true です。 |
PrioritizedFields
セマンティック ランク付け、キャプション、強調表示、回答に使用するタイトル、コンテンツ、キーワードのフィールドについて説明します。
名前 | 型 | 説明 |
---|---|---|
prioritizedContentFields |
セマンティック ランク付け、キャプション、強調表示、回答に使用するコンテンツ フィールドを定義します。 最適な結果を得られるには、選択したフィールドに自然言語形式のテキストが含まれている必要があります。 配列内のフィールドの順序は、その優先順位を表します。 コンテンツが長い場合、優先度の低いフィールドは切り捨てられる可能性があります。 |
|
prioritizedKeywordsFields |
セマンティック ランク付け、キャプション、強調表示、回答に使用するキーワード (keyword) フィールドを定義します。 最適な結果を得るには、選択したフィールドにキーワードの一覧が含まれている必要があります。 配列内のフィールドの順序は、その優先順位を表します。 コンテンツが長い場合、優先度の低いフィールドは切り捨てられる可能性があります。 |
|
titleField |
セマンティック ランク付け、キャプション、強調表示、回答に使用するタイトル フィールドを定義します。 インデックスにタイトル フィールドがない場合は、空白のままにします。 |
RegexFlags
パターン アナライザーとパターン トークナイザーでの正規表現の使用方法を制御するために組み合わせることができるフラグを定義します。
名前 | 型 | 説明 |
---|---|---|
CANON_EQ |
string |
正規等価性を有効にします。 |
CASE_INSENSITIVE |
string |
大文字と小文字を区別しない照合を有効にします。 |
COMMENTS |
string |
パターン内の空白とコメントを許可します。 |
DOTALL |
string |
dotall モードを有効にします。 |
LITERAL |
string |
パターンのリテラル解析を有効にします。 |
MULTILINE |
string |
複数行モードを有効にします。 |
UNICODE_CASE |
string |
Unicode 対応のケース フォールディングを有効にします。 |
UNIX_LINES |
string |
Unix 行モードを有効にします。 |
ScoringFunctionAggregation
スコアリング プロファイル内のすべてのスコアリング関数の結果を結合するために使用される集計関数を定義します。
名前 | 型 | 説明 |
---|---|---|
average |
string |
すべてのスコアリング関数の結果の平均によってスコアをブーストします。 |
firstMatching |
string |
スコアリング プロファイルの最初の適用可能なスコアリング関数を使用してスコアをブーストします。 |
maximum |
string |
すべてのスコアリング関数の結果の最大値でスコアをブーストします。 |
minimum |
string |
すべてのスコアリング関数の結果の最小値でスコアをブーストします。 |
sum |
string |
すべてのスコアリング関数の結果の合計でスコアをブーストします。 |
ScoringFunctionInterpolation
さまざまなドキュメントでスコアブーストを補間するために使用される関数を定義します。
名前 | 型 | 説明 |
---|---|---|
constant |
string |
スコアを一定の係数でブーストします。 |
linear |
string |
スコアを直線的に減らす量だけブーストします。 これは、スコアリング関数の既定の補間です。 |
logarithmic |
string |
対数的に減少する量だけスコアをブーストします。 ブーストは、スコアが高い場合は急速に減少し、スコアが減少するにつれて徐々に減少します。 tag スコアリング関数では、この補間オプションは使用できません。 |
quadratic |
string |
2 次的に減少する量だけスコアをブーストします。 ブーストはスコアが高い場合は徐々に減少し、スコアが減少するにつれてより迅速に減少します。 tag スコアリング関数では、この補間オプションは使用できません。 |
ScoringProfile
検索クエリのスコアリングに影響を与える検索インデックスのパラメーターを定義します。
名前 | 型 | 説明 |
---|---|---|
functionAggregation |
個々のスコアリング関数の結果を組み合わせる方法を示す 値。 既定値は "Sum" です。 スコアリング関数がない場合は無視されます。 |
|
functions | ScoringFunction[]: |
ドキュメントのスコアリングに影響を与える関数のコレクション。 |
name |
string |
スコアリング プロファイルの名前。 |
text |
特定のインデックス フィールドのテキストの一致に基づいてスコアリングを向上させるパラメーター。 |
SearchError
API のエラー条件について説明します。
名前 | 型 | 説明 |
---|---|---|
code |
string |
サーバー定義のエラー コードのセットの 1 つ。 |
details |
この報告されたエラーの原因となった特定のエラーに関する詳細の配列。 |
|
message |
string |
エラーの人間が判読できる表現。 |
SearchField
フィールドの名前、データ型、および検索動作を記述する、インデックス定義内のフィールドを表します。
名前 | 型 | 説明 |
---|---|---|
analyzer |
フィールドに使用するアナライザーの名前。 このオプションは、検索可能なフィールドでのみ使用でき、searchAnalyzer または indexAnalyzer と共に設定することはできません。 フィールドのアナライザーを選択した後は変更できません。 複合フィールドの場合は null にする必要があります。 |
|
dimensions |
integer |
ベクター フィールドの次元。 |
facetable |
boolean |
ファセット クエリでフィールドを参照できるかどうかを示す値。 通常、カテゴリ別のヒット数を含む検索結果のプレゼンテーションで使用されます (たとえば、デジタル カメラを検索し、ブランド別、メガピクセル別、価格別などのヒット数を確認します)。 複合フィールドの場合、このプロパティは null である必要があります。 Edm.GeographyPoint 型または Collection(Edm.GeographyPoint) 型のフィールドをファセット可能にすることはできません。 既定値は、他のすべての単純なフィールドに対して true です。 |
fields |
Edm.ComplexType 型または Collection(Edm.ComplexType) 型のフィールドである場合のサブフィールドのリスト。 単純フィールドの場合は null または空である必要があります。 |
|
filterable |
boolean |
$filterクエリでフィールドを参照できるかどうかを示す値。 filterable は、文字列の処理方法で検索可能とは異なります。 フィルター可能な Edm.String 型または Collection(Edm.String) 型のフィールドは単語区切りを行わないので、比較は完全一致のみを対象とします。 たとえば、このようなフィールド f を "晴れた日" に設定した場合、$filter=f eq 'sunny' は一致しませんが、$filter=f eq 'sunny day' は発生します。 複合フィールドの場合、このプロパティは null である必要があります。 単純フィールドの場合は既定値は true、複合フィールドの場合は null です。 |
indexAnalyzer |
フィールドのインデックス作成時に使用されるアナライザーの名前。 このオプションは、検索可能なフィールドでのみ使用できます。 searchAnalyzer と共に設定する必要があり、アナライザー オプションと一緒に設定することはできません。 このプロパティを言語アナライザーの名前に設定することはできません。言語アナライザーが必要な場合は、代わりに アナライザー プロパティを使用してください。 フィールドのアナライザーを選択した後は変更できません。 複合フィールドの場合は null にする必要があります。 |
|
key |
boolean |
フィールドがインデックス内のドキュメントを一意に識別するかどうかを示す値。 キー フィールドとして各インデックスの最上位フィールドを 1 つだけ選択し、Edm.String 型にする必要があります。 キー フィールドを使用すると、ドキュメントを直接検索したり、特定のドキュメントを更新または削除したりできます。 単純フィールドの場合は既定値は false、複合フィールドの場合は null です。 |
name |
string |
フィールドの名前。インデックスまたは親フィールドの fields コレクション内で一意である必要があります。 |
normalizer |
フィールドに使用するノーマライザーの名前。 このオプションは、フィルター可能、並べ替え可能、またはファセット可能が有効なフィールドでのみ使用できます。 ノーマライザーを選択すると、フィールドに対して変更することはできません。 複合フィールドの場合は null にする必要があります。 |
|
retrievable |
boolean |
フィールドを検索結果で返すことができるかどうかを示す値。 フィルター、並べ替え、スコアリングのメカニズムとしてフィールド (余白など) を使用するが、エンド ユーザーにフィールドを表示したくない場合は、このオプションを無効にすることができます。 このプロパティは、キー フィールドの場合は true、複合フィールドの場合は null である必要があります。 このプロパティは、既存のフィールドで変更できます。 このプロパティを有効にしても、インデックス ストレージの要件が増加することはありません。 単純フィールドの場合は既定値は true、複合フィールドの場合は null です。 |
searchAnalyzer |
フィールドの検索時に使用されるアナライザーの名前。 このオプションは、検索可能なフィールドでのみ使用できます。 indexAnalyzer と共に設定する必要があり、アナライザー オプションと一緒に設定することはできません。 このプロパティを言語アナライザーの名前に設定することはできません。言語アナライザーが必要な場合は、代わりに アナライザー プロパティを使用してください。 このアナライザーは、既存のフィールドで更新できます。 複合フィールドの場合は null にする必要があります。 |
|
searchable |
boolean |
フィールドがフルテキスト検索可能かどうかを示す値。 これは、インデックス処理中に単語の区切りなどの分析が行われることを意味します。 検索可能フィールドを "sunny day" などの値に設定した場合、その値は内部的に個別のトークン "sunny" と "day" に分割されます。 これにより、これらの語句をフルテキスト検索できます。 Edm.String 型または Collection(Edm.String) 型のフィールドは、既定で検索できます。 このプロパティは、他の文字列以外のデータ型の単純フィールドの場合は false にする必要があり、複合フィールドの場合は null である必要があります。 注: 検索可能なフィールドは、フルテキスト検索のフィールド値の追加のトークン化されたバージョンに対応するために、インデックスに余分な領域を使用します。 インデックスの領域を節約し、検索にフィールドを含める必要がない場合は、searchable を false に設定します。 |
sortable |
boolean |
$orderby式でフィールドを参照できるかどうかを示す値。 既定では、検索エンジンは結果をスコアで並べ替えますが、多くのエクスペリエンスでは、ユーザーはドキュメント内のフィールドで並べ替えを行う必要があります。 単純なフィールドは、単一値の場合にのみ並べ替えることができます (親ドキュメントのスコープに 1 つの値があります)。 単純なコレクション フィールドは複数値であるため、並べ替えできません。 複雑なコレクションの単純なサブフィールドも複数値であるため、並べ替えできません。 これは、親フィールドが直接であるか、先祖フィールドであるかに関係なく、複雑なコレクションである場合に当てはまります。 複合フィールドは並べ替え可能にできず、このようなフィールドの並べ替え可能なプロパティは null である必要があります。 並べ替え可能の既定値は、単一値の単純フィールドの場合は true、複数値の単純フィールドの場合は false、複合フィールドの場合は null です。 |
synonymMaps |
string[] |
このフィールドに関連付けるシノニムマップの名前のリスト。 このオプションは、検索可能なフィールドでのみ使用できます。 現在、サポートされているシノニム マップはフィールドごとに 1 つだけです。 フィールドにシノニム マップを割り当てると、シノニム マップのルールを使用して、そのフィールドを対象とするクエリ用語がクエリ時に展開されるようになります。 この属性は、既存のフィールドで変更できます。 複合フィールドの場合は null または空のコレクションである必要があります。 |
type |
フィールドのデータ型。 |
|
vectorSearchProfile |
string |
ベクター フィールドを検索するときに使用するアルゴリズムとベクタライザーを指定するベクター検索プロファイルの名前。 |
SearchFieldDataType
検索インデックス内のフィールドのデータ型を定義します。
名前 | 型 | 説明 |
---|---|---|
Edm.Boolean |
string |
フィールドにブール値 (true または false) が含まれていることを示します。 |
Edm.ComplexType |
string |
フィールドに、他の型のサブフィールドを持つ 1 つ以上の複雑なオブジェクトが含まれていることを示します。 |
Edm.DateTimeOffset |
string |
フィールドに、タイムゾーン情報を含む日付/時刻値が含まれていることを示します。 |
Edm.Double |
string |
フィールドに IEEE 倍精度浮動小数点数が含まれていることを示します。 |
Edm.GeographyPoint |
string |
フィールドに経度と緯度の観点から geo 位置が含まれていることを示します。 |
Edm.Int32 |
string |
フィールドに 32 ビット符号付き整数が含まれていることを示します。 |
Edm.Int64 |
string |
フィールドに 64 ビット符号付き整数が含まれていることを示します。 |
Edm.Single |
string |
フィールドに単精度浮動小数点数が含まれていることを示します。 これは、Collection(Edm.Single) で使用する場合にのみ有効です。 |
Edm.String |
string |
フィールドに文字列が含まれていることを示します。 |
SearchIndex
インデックスのフィールドと検索動作を記述する検索インデックス定義を表します。
名前 | 型 | 説明 |
---|---|---|
@odata.etag |
string |
インデックスの ETag。 |
analyzers | LexicalAnalyzer[]: |
インデックスのアナライザー。 |
charFilters | CharFilter[]: |
インデックスの文字フィルター。 |
corsOptions |
インデックスのクロスオリジン リソース共有 (CORS) を制御するオプション。 |
|
defaultScoringProfile |
string |
クエリで何も指定されていない場合に使用するスコアリング プロファイルの名前。 このプロパティが設定されておらず、クエリでスコアリング プロファイルが指定されていない場合は、既定のスコアリング (tf-idf) が使用されます。 |
encryptionKey |
Azure Key Vaultで作成する暗号化キーの説明。 このキーは、Microsoft だけでなく、誰もデータの暗号化を解除できないという完全な保証が必要な場合に、データの保存時の暗号化レベルを追加するために使用されます。 データを暗号化すると、常に暗号化されたままになります。 検索サービスは、このプロパティを null に設定する試行を無視します。 暗号化キーをローテーションする場合は、必要に応じてこのプロパティを変更できます。データは影響を受けません。 カスタマー マネージド キーを使用した暗号化は、無料の検索サービスでは使用できません。また、2019 年 1 月 1 日以降に作成された有料サービスでのみ使用できます。 |
|
fields |
インデックスのフィールド。 |
|
name |
string |
インデックスの名前です。 |
normalizers | LexicalNormalizer[]: |
インデックスのノーマライザー。 |
scoringProfiles |
インデックスのスコアリング プロファイル。 |
|
semantic |
セマンティック機能に影響を与える検索インデックスのパラメーターを定義します。 |
|
similarity | Similarity: |
検索クエリに一致するドキュメントのスコア付けとランク付けの際に使用する類似性アルゴリズムの種類。 類似性アルゴリズムは、インデックス作成時にのみ定義でき、既存のインデックスでは変更できません。 null の場合は、ClassicSimilarity アルゴリズムが使用されます。 |
suggesters |
インデックスの suggesters。 |
|
tokenFilters |
TokenFilter[]:
|
インデックスのトークン フィルター。 |
tokenizers | LexicalTokenizer[]: |
インデックスのトークナイザー。 |
vectorSearch |
ベクター検索に関連する構成オプションが含まれています。 |
SearchIndexerDataNoneIdentity
データソースの ID プロパティをクリアします。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
ID の種類を指定する URI フラグメント。 |
SearchIndexerDataUserAssignedIdentity
使用するデータソースの ID を指定します。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
ID の種類を指定する URI フラグメント。 |
userAssignedIdentity |
string |
通常、ユーザー割り当てマネージド ID の完全修飾 Azure リソース ID は、検索サービスに割り当てられている必要がある "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" という形式です。 |
SearchResourceEncryptionKey
Azure Key Vaultのカスタマー マネージド暗号化キー。 作成および管理するキーは、インデックスやシノニム マップなどの保存データの暗号化または暗号化解除に使用できます。
名前 | 型 | 説明 |
---|---|---|
accessCredentials |
Azure Key Vaultへのアクセスに使用されるオプションの Azure Active Directory 資格情報。 代わりにマネージド ID を使用する場合は必須ではありません。 |
|
identity | SearchIndexerDataIdentity: |
この暗号化キーに使用する明示的なマネージド ID。 指定せず、アクセス資格情報プロパティが null の場合は、システム割り当てマネージド ID が使用されます。 リソースの更新時に、明示的な ID が指定されていない場合は、変更されません。 "none" を指定すると、このプロパティの値はクリアされます。 |
keyVaultKeyName |
string |
保存データの暗号化に使用する Azure Key Vault キーの名前。 |
keyVaultKeyVersion |
string |
保存データの暗号化に使用する Azure Key Vault キーのバージョン。 |
keyVaultUri |
string |
保存データの暗号化に使用するキーを含む Azure Key Vaultの URI (DNS 名とも呼ばれます)。 URI の例として、 |
SemanticConfiguration
セマンティック機能のコンテキストで使用する特定の構成を定義します。
名前 | 型 | 説明 |
---|---|---|
name |
string |
セマンティック構成の名前。 |
prioritizedFields |
セマンティックランク付け、キャプション、ハイライト、回答に使用するタイトル、コンテンツ、およびキーワード (keyword)フィールドについて説明します。 3 つのサブ プロパティ (titleField、prioritizedKeywordsFields、prioritizedContentFields) のうち少なくとも 1 つを設定する必要があります。 |
SemanticField
セマンティック構成の一部として使用されるフィールド。
名前 | 型 | 説明 |
---|---|---|
fieldName |
string |
SemanticSettings
セマンティック機能に影響を与える検索インデックスのパラメーターを定義します。
名前 | 型 | 説明 |
---|---|---|
configurations |
インデックスのセマンティック構成。 |
|
defaultConfiguration |
string |
インデックスに既定のセマンティック構成の名前を設定できます。この構成は、毎回クエリ パラメーターとして渡す省略可能です。 |
ShingleTokenFilter
トークンの組み合わせが 1 つのトークンとして作成されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
filterToken |
string |
_ |
トークンがない位置ごとに挿入する文字列。 既定値はアンダースコア ("_") です。 |
maxShingleSize |
integer |
2 |
最大シングル サイズ。 既定値と最小値は 2 です。 |
minShingleSize |
integer |
2 |
最小のシングル サイズ。 既定値と最小値は 2 です。 maxShingleSize の値より小さくする必要があります。 |
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
outputUnigrams |
boolean |
True |
出力ストリームに入力トークン (ユニグラム) とシングルグルが含まれるかどうかを示す値。 既定値は true です。 |
outputUnigramsIfNoShingles |
boolean |
False |
これらの時刻のシングルグラムを使用できない場合にユニグラムを出力するかどうかを示す値。 outputUnigrams が false に設定されている場合、このプロパティが優先されます。 既定値は false です。 |
tokenSeparator |
string |
隣接するトークンを結合してシングルを形成するときに使用する文字列。 既定値は 1 つのスペース (" ") です。 |
SnowballTokenFilter
Snowball で生成されたステマーを使用して単語をステミングするフィルター。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
language |
使用する言語。 |
|
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
SnowballTokenFilterLanguage
Snowball トークン フィルターに使用する言語。
名前 | 型 | 説明 |
---|---|---|
armenian |
string |
アルメニア語の Lucene Snowball ステミング トークナイザーを選択します。 |
basque |
string |
バスク語の Lucene Snowball ステミング トークナイザーを選択します。 |
catalan |
string |
カタロニア語の Lucene Snowball ステミング トークナイザーを選択します。 |
danish |
string |
デンマーク語の Lucene Snowball ステミング トークナイザーを選択します。 |
dutch |
string |
オランダ語の Lucene Snowball ステミング トークナイザーを選択します。 |
english |
string |
英語の Lucene Snowball ステミング トークナイザーを選択します。 |
finnish |
string |
フィンランド語の Lucene Snowball ステミング トークナイザーを選択します。 |
french |
string |
フランス語の Lucene Snowball ステミング トークナイザーを選択します。 |
german |
string |
ドイツ語の Lucene Snowball ステミング トークナイザーを選択します。 |
german2 |
string |
ドイツ語のバリアント アルゴリズムを使用する Lucene Snowball ステミング トークナイザーを選択します。 |
hungarian |
string |
ハンガリー語の Lucene Snowball ステミング トークナイザーを選択します。 |
italian |
string |
イタリア語の Lucene Snowball ステミング トークナイザーを選択します。 |
kp |
string |
Kraaij-Pohlmann ステミング アルゴリズムを使用するオランダ語の Lucene Snowball ステミング トークナイザーを選択します。 |
lovins |
string |
Lovins ステミング アルゴリズムを使用する英語の Lucene Snowball ステミング トークナイザーを選択します。 |
norwegian |
string |
ノルウェー語の Lucene Snowball ステミング トークナイザーを選択します。 |
porter |
string |
Porter ステミング アルゴリズムを使用する英語の Lucene Snowball ステミング トークナイザーを選択します。 |
portuguese |
string |
ポルトガル語の Lucene Snowball ステミング トークナイザーを選択します。 |
romanian |
string |
ルーマニア語の Lucene Snowball ステミング トークナイザーを選択します。 |
russian |
string |
ロシア語の Lucene Snowball ステミング トークナイザーを選択します。 |
spanish |
string |
スペイン語の Lucene Snowball ステミング トークナイザーを選択します。 |
swedish |
string |
スウェーデン語の Lucene Snowball ステミング トークナイザーを選択します。 |
turkish |
string |
トルコ語の Lucene Snowball ステミング トークナイザーを選択します。 |
StemmerOverrideTokenFilter
ユーザー辞書ベースのステミングを使用して、他のステミング フィルターをオーバーライドする機能を提供します。 辞書で語幹を付けた用語はキーワードとしてマークされるため、チェーンの下にあるステマーで語幹を付けなくなります。 すべてのステミング フィルターの前に配置する必要があります。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
rules |
string[] |
"word => stem" という形式のステミング 規則の一覧 (例: "ran => run")。 |
StemmerTokenFilter
言語固有のステミング フィルター。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
language |
使用する言語。 |
|
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
StemmerTokenFilterLanguage
ステマー トークン フィルターに使用する言語。
名前 | 型 | 説明 |
---|---|---|
arabic |
string |
アラビア語の Lucene ステミング トークナイザーを選択します。 |
armenian |
string |
アルメニア語の Lucene ステミング トークナイザーを選択します。 |
basque |
string |
バスク語の Lucene ステミング トークナイザーを選択します。 |
brazilian |
string |
ポルトガル語 (ブラジル) の Lucene ステミング トークナイザーを選択します。 |
bulgarian |
string |
ブルガリア語の Lucene ステミング トークナイザーを選択します。 |
catalan |
string |
カタロニア語の Lucene ステミング トークナイザーを選択します。 |
czech |
string |
チェコ語の Lucene ステミング トークナイザーを選択します。 |
danish |
string |
デンマーク語の Lucene ステミング トークナイザーを選択します。 |
dutch |
string |
オランダ語の Lucene ステミング トークナイザーを選択します。 |
dutchKp |
string |
Kraaij-Pohlmann ステミング アルゴリズムを使用するオランダ語の Lucene ステミング トークナイザーを選択します。 |
english |
string |
英語の Lucene ステミング トークナイザーを選択します。 |
finnish |
string |
フィンランド語の Lucene ステミング トークナイザーを選択します。 |
french |
string |
フランス語の Lucene ステミング トークナイザーを選択します。 |
galician |
string |
ガリシア語の Lucene ステミング トークナイザーを選択します。 |
german |
string |
ドイツ語の Lucene ステミング トークナイザーを選択します。 |
german2 |
string |
ドイツ語のバリアント アルゴリズムを使用する Lucene ステミング トークナイザーを選択します。 |
greek |
string |
ギリシャ語の Lucene ステミング トークナイザーを選択します。 |
hindi |
string |
ヒンディー語の Lucene ステミング トークナイザーを選択します。 |
hungarian |
string |
ハンガリー語の Lucene ステミング トークナイザーを選択します。 |
indonesian |
string |
インドネシア語の Lucene ステミング トークナイザーを選択します。 |
irish |
string |
アイルランド語の Lucene ステミング トークナイザーを選択します。 |
italian |
string |
イタリア語の Lucene ステミング トークナイザーを選択します。 |
latvian |
string |
ラトビア語の Lucene ステミング トークナイザーを選択します。 |
lightEnglish |
string |
ライト ステミングを行う英語の Lucene ステミング トークナイザーを選択します。 |
lightFinnish |
string |
ライト ステミングを行うフィンランド語の Lucene ステミング トークナイザーを選択します。 |
lightFrench |
string |
光ステミングを行うフランス語の Lucene ステミング トークナイザーを選択します。 |
lightGerman |
string |
軽いステミングを行うドイツ語の Lucene ステミング トークナイザーを選択します。 |
lightHungarian |
string |
光ステミングを行うハンガリー語の Lucene ステミング トークナイザーを選択します。 |
lightItalian |
string |
ライト ステミングを行うイタリア語の Lucene ステミング トークナイザーを選択します。 |
lightNorwegian |
string |
光ステミングを行うノルウェー語 (ブークモール) の Lucene ステミング トークナイザーを選択します。 |
lightNynorsk |
string |
光ステミングを行うノルウェー語 (ニーノスク) の Lucene ステミング トークナイザーを選択します。 |
lightPortuguese |
string |
光ステミングを行うポルトガル語の Lucene ステミング トークナイザーを選択します。 |
lightRussian |
string |
光ステミングを行うロシア語の Lucene ステミング トークナイザーを選択します。 |
lightSpanish |
string |
光ステミングを行うスペイン語の Lucene ステミング トークナイザーを選択します。 |
lightSwedish |
string |
光ステミングを行うスウェーデン語の Lucene ステミング トークナイザーを選択します。 |
lovins |
string |
Lovins ステミング アルゴリズムを使用する英語の Lucene ステミング トークナイザーを選択します。 |
minimalEnglish |
string |
最小ステミングを行う英語の Lucene ステミング トークナイザーを選択します。 |
minimalFrench |
string |
最小ステミングを行うフランス語の Lucene ステミング トークナイザーを選択します。 |
minimalGalician |
string |
最小ステミングを行う Galician の Lucene ステミング トークナイザーを選択します。 |
minimalGerman |
string |
最小ステミングを行うドイツ語の Lucene ステミング トークナイザーを選択します。 |
minimalNorwegian |
string |
最小ステミングを行うノルウェー語 (Bokmål) の Lucene ステミング トークナイザーを選択します。 |
minimalNynorsk |
string |
最小ステミングを行うノルウェー語 (ニーノスク) の Lucene ステミング トークナイザーを選択します。 |
minimalPortuguese |
string |
最小ステミングを行うポルトガル語の Lucene ステミング トークナイザーを選択します。 |
norwegian |
string |
ノルウェー語 (ブークモール) の Lucene ステミング トークナイザーを選択します。 |
porter2 |
string |
Porter2 ステミング アルゴリズムを使用する英語の Lucene ステミング トークナイザーを選択します。 |
portuguese |
string |
ポルトガル語の Lucene ステミング トークナイザーを選択します。 |
portugueseRslp |
string |
RSLP ステミング アルゴリズムを使用するポルトガル語の Lucene ステミング トークナイザーを選択します。 |
possessiveEnglish |
string |
単語から末尾の所有物を削除する英語の Lucene ステミング トークナイザーを選択します。 |
romanian |
string |
ルーマニア語の Lucene ステミング トークナイザーを選択します。 |
russian |
string |
ロシア語の Lucene ステミング トークナイザーを選択します。 |
sorani |
string |
Sorani の Lucene ステミング トークナイザーを選択します。 |
spanish |
string |
スペイン語の Lucene ステミング トークナイザーを選択します。 |
swedish |
string |
スウェーデン語の Lucene ステミング トークナイザーを選択します。 |
turkish |
string |
トルコ語の Lucene ステミング トークナイザーを選択します。 |
StopAnalyzer
テキストを文字以外で分割します。小文字とストップワードのトークン フィルターを適用します。 このアナライザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
アナライザーの種類を指定する URI フラグメント。 |
name |
string |
アナライザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
stopwords |
string[] |
ストップワードの一覧。 |
StopwordsList
言語固有のストップワードの定義済みリストを識別します。
名前 | 型 | 説明 |
---|---|---|
arabic |
string |
アラビア語のストップワード リストを選択します。 |
armenian |
string |
アルメニア語のストップワード リストを選択します。 |
basque |
string |
バスク語のストップワード リストを選択します。 |
brazilian |
string |
ポルトガル語 (ブラジル) のストップワード の一覧を選択します。 |
bulgarian |
string |
ブルガリア語のストップワード リストを選択します。 |
catalan |
string |
カタロニア語のストップワード リストを選択します。 |
czech |
string |
チェコ語のストップワード リストを選択します。 |
danish |
string |
デンマーク語のストップワード リストを選択します。 |
dutch |
string |
オランダ語のストップワード リストを選択します。 |
english |
string |
英語のストップワード リストを選択します。 |
finnish |
string |
フィンランド語のストップワード リストを選択します。 |
french |
string |
フランス語のストップワード リストを選択します。 |
galician |
string |
ガリシア語のストップワード リストを選択します。 |
german |
string |
ドイツ語のストップワード リストを選択します。 |
greek |
string |
ギリシャ語のストップワード リストを選択します。 |
hindi |
string |
ヒンディー語のストップワード リストを選択します。 |
hungarian |
string |
ハンガリー語のストップワード リストを選択します。 |
indonesian |
string |
インドネシア語のストップワード リストを選択します。 |
irish |
string |
アイルランド語のストップワード リストを選択します。 |
italian |
string |
イタリア語のストップワード リストを選択します。 |
latvian |
string |
ラトビア語のストップワード リストを選択します。 |
norwegian |
string |
ノルウェー語のストップワード リストを選択します。 |
persian |
string |
ペルシャ語のストップワード リストを選択します。 |
portuguese |
string |
ポルトガル語のストップワード リストを選択します。 |
romanian |
string |
ルーマニア語のストップワード リストを選択します。 |
russian |
string |
ロシア語のストップワード リストを選択します。 |
sorani |
string |
Sorani のストップワード リストを選択します。 |
spanish |
string |
スペイン語のストップワード リストを選択します。 |
swedish |
string |
スウェーデン語のストップワード リストを選択します。 |
thai |
string |
タイ語のストップワード リストを選択します。 |
turkish |
string |
トルコ語のストップワード リストを選択します。 |
StopwordsTokenFilter
トークン ストリームからストップワードが削除されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
ignoreCase |
boolean |
False |
大文字と小文字を区別しないかどうかを示す値。 true の場合、すべての単語が最初に小文字に変換されます。 既定値は false です。 |
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
removeTrailing |
boolean |
True |
最後の検索語句がストップ ワードの場合に、最後の検索語句を無視するかどうかを示す値。 既定値は true です。 |
stopwords |
string[] |
ストップワードの一覧。 このプロパティとストップワード リスト プロパティの両方を設定することはできません。 |
|
stopwordsList | english |
使用するストップワードの定義済みリスト。 このプロパティとストップワード プロパティの両方を設定することはできません。 既定値は英語です。 |
Suggester
Suggest API をインデックス内のフィールドのグループに適用する方法を定義します。
名前 | 型 | 説明 |
---|---|---|
name |
string |
suggester の名前。 |
searchMode |
suggester の機能を示す 値。 |
|
sourceFields |
string[] |
suggester が適用されるフィールド名の一覧。 各フィールドは検索可能である必要があります。 |
SuggesterSearchMode
suggester の機能を示す 値。
名前 | 型 | 説明 |
---|---|---|
analyzingInfixMatching |
string |
フィールド内の連続する用語とプレフィックス全体と一致します。 たとえば、フィールド 'The fastest brown fox' の場合、クエリ 'fast' と 'fastest brow' の両方が一致します。 |
SynonymTokenFilter
トークン ストリーム内の単一または複数単語のシノニムと一致します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
expand |
boolean |
True |
シノニムのリスト内のすべての単語 (=> 表記が使用されていない場合) が相互にマップされるかどうかを示す値。 true の場合、シノニムの一覧内のすべての単語 (=> 表記が使用されていない場合) は相互にマップされます。 次のリスト: 信じられないほどの、信じられないほどの、素晴らしい、素晴らしい と同等です:信じられないほどの、信じられないほどの、素晴らしい、素晴らしい => 信じられないほどの、信じられないほどの、素晴らしい、素晴らしい。 false の場合、次のリスト: 信じられないほどの、信じられないほどの、素晴らしい、素晴らしいと同等になります: 信じられないほどの、信じられないほどの、素晴らしい、素晴らしい => 信じられないほどの。 既定値は true です。 |
ignoreCase |
boolean |
False |
一致する入力を大文字と小文字を区別するかどうかを示す値。 既定値は false です。 |
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
synonyms |
string[] |
次の 2 つの形式のシノニムの一覧: 1。 信じられないほどの、信じられないほどの、素晴らしい=> 素晴らしい - => 記号の左側のすべての用語は、右側のすべての用語に置き換えられます。2. 信じられないほどの、信じられないほどの、素晴らしい、素晴らしい - 同等の単語のコンマ区切りリスト。 このリストの解釈方法を変更するには、expand オプションを設定します。 |
TagScoringFunction
特定のタグのリストに一致する文字列値を持つドキュメントのスコアを向上させる関数を定義します。
名前 | 型 | 説明 |
---|---|---|
boost |
number |
生のスコアの乗数。 1.0 と等しくない正の数値にする必要があります。 |
fieldName |
string |
スコアリング関数への入力として使用されるフィールドの名前。 |
interpolation |
文書のスコア間でブースティングがどのように補間されるかを示す値。既定値は "Linear" です。 |
|
tag |
タグ スコアリング関数のパラメーター値。 |
|
type |
string:
tag |
使用する関数の型を示します。 有効な値は、magnitude、freshness、distance、tag です。 関数の型は小文字にする必要があります。 |
TagScoringParameters
タグ スコアリング関数にパラメーター値を提供します。
名前 | 型 | 説明 |
---|---|---|
tagsParameter |
string |
検索クエリで渡されるパラメーターの名前。ターゲット フィールドと比較するタグの一覧を指定します。 |
TextWeights
検索クエリで一致がスコアリングを向上させるインデックス フィールドの重みを定義します。
名前 | 型 | 説明 |
---|---|---|
weights |
object |
ドキュメント スコアリングを向上させるフィールドごとの重みのディクショナリ。 キーはフィールド名であり、値は各フィールドの重みになります。 |
TokenCharacterKind
トークン フィルターが動作できる文字のクラスを表します。
名前 | 型 | 説明 |
---|---|---|
digit |
string |
トークン内の数字を保持します。 |
letter |
string |
文字をトークンに保持します。 |
punctuation |
string |
句読点をトークンに保持します。 |
symbol |
string |
トークン内のシンボルを保持します。 |
whitespace |
string |
トークン内の空白を保持します。 |
TokenFilterName
検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。
TruncateTokenFilter
用語を特定の長さに切り捨てます。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
length |
integer |
300 |
用語が切り捨てられる長さ。 既定値と最大値は 300 です。 |
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
UaxUrlEmailTokenizer
URL と電子メールが 1 つのトークンとしてトークン化されます。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
maxTokenLength |
integer |
255 |
トークンの最大長。 既定値は 255 です。 最大長より長いトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 |
name |
string |
トークナイザーの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
UniqueTokenFilter
前のトークンと同じテキストのトークンが除外されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
onlyOnSamePosition |
boolean |
False |
同じ位置でのみ重複を削除するかどうかを示す値。 既定値は false です。 |
VectorSearch
ベクター検索に関連する構成オプションが含まれています。
名前 | 型 | 説明 |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
インデックス作成またはクエリ中に使用されるアルゴリズムに固有の構成オプションが含まれます。 |
profiles |
ベクター検索で使用する構成の組み合わせを定義します。 |
|
vectorizers | VectorSearchVectorizer[]: |
テキスト ベクター クエリをベクター化する方法に関する構成オプションが含まれています。 |
VectorSearchAlgorithmKind
インデックス作成とクエリに使用されるアルゴリズム。
名前 | 型 | 説明 |
---|---|---|
exhaustiveKnn |
string |
ブルート フォース検索を実行する完全な KNN アルゴリズム。 |
hnsw |
string |
HNSW (階層的なナビゲート可能な小さな世界)、近似最近隣アルゴリズムの一種。 |
VectorSearchAlgorithmMetric
ベクター比較に使用する類似性メトリック。
名前 | 型 | 説明 |
---|---|---|
cosine |
string |
|
dotProduct |
string |
|
euclidean |
string |
VectorSearchProfile
ベクター検索で使用する構成の組み合わせを定義します。
名前 | 型 | 説明 |
---|---|---|
algorithm |
string |
アルゴリズムと省略可能なパラメーターを指定するベクター検索アルゴリズム構成の名前。 |
name |
string |
この特定のベクター検索プロファイルに関連付ける名前。 |
vectorizer |
string |
ベクター検索で使用するように構成されているベクター化メソッドの種類の名前。 |
VectorSearchVectorizerKind
クエリ時間中に使用するベクター化メソッド。
名前 | 型 | 説明 |
---|---|---|
azureOpenAI |
string |
クエリ時に Azure OpenAI リソースを使用して埋め込みを生成します。 |
customWebApi |
string |
クエリ時にカスタム Web エンドポイントを使用して埋め込みを生成します。 |
WordDelimiterTokenFilter
単語がサブ単語に分割され、部分語のグループに対してオプションの変換が実行されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
catenateAll |
boolean |
False |
すべてのサブワード 部分を分類するかどうかを示す値。 たとえば、これが true に設定されている場合、"Azure-Search-1" は "AzureSearch1" になります。 既定値は false です。 |
catenateNumbers |
boolean |
False |
数値部分の最大実行数を分類するかどうかを示す値。 たとえば、これが true に設定されている場合、"1-2" は "12" になります。 既定値は false です。 |
catenateWords |
boolean |
False |
単語パーツの最大実行数を分類するかどうかを示す値。 たとえば、これが true に設定されている場合、"Azure-Search" は "AzureSearch" になります。 既定値は false です。 |
generateNumberParts |
boolean |
True |
数値サブワードを生成するかどうかを示す値。 既定値は true です。 |
generateWordParts |
boolean |
True |
部分単語を生成するかどうかを示す値。 を設定すると、単語の一部が生成されます。たとえば、"AzureSearch" は "Azure" "Search" になります。 既定値は true です。 |
name |
string |
トークン フィルターの名前。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。 |
|
preserveOriginal |
boolean |
False |
元の単語が保持され、サブワード リストに追加されるかどうかを示す値。 既定値は false です。 |
protectedWords |
string[] |
区切られるのを防ぎ、保護するトークンの一覧。 |
|
splitOnCaseChange |
boolean |
True |
caseChange で単語を分割するかどうかを示す値。 たとえば、これが true に設定されている場合、"AzureSearch" は "Azure" "Search" になります。 既定値は true です。 |
splitOnNumerics |
boolean |
True |
数値で分割するかどうかを示す値。 たとえば、これが true に設定されている場合、"Azure1Search" は "Azure" "1" "Search" になります。 既定値は true です。 |
stemEnglishPossessive |
boolean |
True |
各サブワードの末尾の "'s" を削除するかどうかを示す値。 既定値は true です。 |