Azure AI 검색 인덱스의 문자열 필드에 사용자 지정 분석기 추가
사용자 지정 분석기는 일반 텍스트 콘텐츠에 대한 어휘 분석의 구성 요소입니다. 하나의 토큰라이저, 하나 이상의 토큰 필터 및 하나 이상의 문자 필터의 사용자 정의 조합입니다. 사용자 지정 분석기는 검색 인덱스 내에서 지정된 다음, 사용자 지정 분석이 필요한 필드 정의에서 이름별로 참조됩니다. 사용자 지정 분석기는 필드별로 호출됩니다. 필드의 특성은 인덱싱, 쿼리 또는 둘 다에 사용되는지 여부를 결정합니다.
사용자 지정 분석기에서 문자 필터는 토큰라이저에서 처리되기 전에 입력 텍스트를 준비합니다(예: 표시 제거). 다음으로, 토큰 변환기는 텍스트를 토큰으로 나눕니다. 마지막으로 토큰 필터는 토크나이저에서 내보낸 토큰을 수정합니다. 개념 및 예제는 Azure AI Search 및 자습서의 분석기: 전화 번호에 대한 사용자 지정 분석기 만들기를 참조하세요.
왜 사용자 지정 분석기를 사용할까요?
사용자 지정 분석기를 사용하면 호출할 분석 또는 필터링 유형과 순서를 선택할 수 있으므로 일반 텍스트를 인덱싱 가능하고 검색 가능한 토큰으로 변환하는 프로세스를 제어할 수 있습니다.
기본값(표준 Lucene), 기본 제공 또는 언어 분석기가 요구 사항에 충분하지 않은 경우 사용자 지정 분석기를 만들고 할당합니다. 사용자 지정 옵션과 함께 기본 제공 분석기를 사용하려는 경우에도 사용자 지정 분석기를 만들 수 있습니다. 예를 들어 표준 Lucene에서 maxTokenLength
변경하려는 경우 사용자 정의 이름을 사용하여 사용자 지정 분석기를 만들어 해당 옵션을 설정합니다.
사용자 지정 분석기를 유용하게 사용할 수 있는 시나리오는 다음과 같습니다.
문자 필터를 사용하여 텍스트 입력을 토큰화하기 전에 HTML 표시를 제거하거나 특정 문자나 기호를 바꿉니다.
음성 검색. 음성 필터를 추가하여 단어의 철자가 아닌 소리를 기반으로 검색을 사용합니다.
어휘 분석 사용 안 함. 키워드 분석기를 사용하여 분석되지 않은 검색 가능한 필드를 만듭니다.
빠른 접두사/접미사 검색. 단어의 인덱스 접두사에 N-gram 토큰 필터를 추가하여 빠른 접두사 일치를 사용합니다. 역방향 토큰 필터와 결합하여 접미사 일치를 수행합니다.
사용자 지정 토큰화. 예를 들어 공백을 구분 기호로 사용하여 토큰에 문장을 분리하도록 공백 토크나이저를 사용합니다.
ASCII 접기. 표준 ASCII 접기 필터를 추가하여 검색 용어에서 ö 또는 ê와 같은 분음 부호를 정규화합니다.
참고 항목
사용자 지정 분석기가 Azure Portal에 노출되지 않습니다. 사용자 지정 분석기를 추가하는 유일한 방법은 인덱스 스키마를 만드는 코드를 사용하는 것입니다.
사용자 지정 분석기 만들기
사용자 지정 분석기를 만들려면 디자인 타임에 인덱스의 analyzers
섹션에서 지정한 다음, searchAnalyzer
속성이나 analyzer
및 indexAnalyzer
쌍을 사용하여 검색 가능한 Edm.String
필드에서 참조합니다.
분석기 정의에는 토큰화 후 처리를 위한 이름, 형식, 하나 이상의 문자 필터, 최대 하나의 토크나이저가 포함됩니다. 문자 필터는 토큰화 전에 적용됩니다. 토큰 필터 및 문자 필터는 왼쪽에서 오른쪽으로 적용됩니다.
사용자 지정 분석기에서의 이름들은 고유해야 하며 기본 제공 분석기, 토크나이저, 토큰 필터, 또는 문자 필터와 동일할 수 없습니다. 이름은 문자, 숫자, 공백, 대시 또는 밑줄로 구성됩니다. 이름은 일반 텍스트 문자로 시작하고 끝나야 합니다. 이름은 길이가 128자 미만이어야 합니다.
형식은 #Microsoft.Azure.Search.CustomAnalyzer여야 합니다.
charFilters
는 제공된 순서대로 토큰화 전에 처리되는 문자 필터에서 제공되는 필터 하나 이상일 수 있습니다. 일부 문자 필터에는charFilters
섹션에서 설정할 수 있는 옵션이 있습니다. 문자 필터는 선택 사항입니다.tokenizer
는 정확히 토크나이저 하나입니다. 값을 지정해야 합니다. 둘 이상의 토크나이저가 필요한 경우 여러 사용자 지정 분석기를 만들고 인덱스 스키마에서 필드 별로 할당할 수 있습니다.tokenFilters
는 제공된 순서대로 토큰화 전에 처리되는 토큰 필터에서 제공되는 필터 하나일 수 있습니다. 옵션이 있는 토큰 필터의 경우tokenFilter
섹션을 추가하여 구성을 지정합니다. 토큰 필터는 선택 사항입니다.
분석기는 300자보다 긴 토큰을 생성해서는 안 됩니다. 그렇지 않으면 인덱싱이 실패합니다. 긴 토큰을 자르거나 제외하려면, TruncateTokenFilter 및 LengthTokenFilter를 각각 사용합니다. 토큰 필터를 참조하세요.
"analyzers":(optional)[
{
"name":"name of analyzer",
"@odata.type":"#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters":[
"char_filter_name_1",
"char_filter_name_2"
],
"tokenizer":"tokenizer_name",
"tokenFilters":[
"token_filter_name_1",
"token_filter_name_2"
]
},
{
"name":"name of analyzer",
"@odata.type":"#analyzer_type",
"option1":value1,
"option2":value2,
...
}
],
"charFilters":(optional)[
{
"name":"char_filter_name",
"@odata.type":"#char_filter_type",
"option1":value1,
"option2":value2,
...
}
],
"tokenizers":(optional)[
{
"name":"tokenizer_name",
"@odata.type":"#tokenizer_type",
"option1":value1,
"option2":value2,
...
}
],
"tokenFilters":(optional)[
{
"name":"token_filter_name",
"@odata.type":"#token_filter_type",
"option1":value1,
"option2":value2,
...
}
]
인덱스 정의 내에서 인덱스 만들기 요청 본문의 아무 위치에나 이 섹션을 배치할 수 있지만 일반적으로는 맨 끝에 배치합니다.
{
"name": "name_of_index",
"fields": [ ],
"suggesters": [ ],
"scoringProfiles": [ ],
"defaultScoringProfile": (optional) "...",
"corsOptions": (optional) { },
"analyzers":(optional)[ ],
"charFilters":(optional)[ ],
"tokenizers":(optional)[ ],
"tokenFilters":(optional)[ ]
}
분석기 정의는 더 큰 인덱스의 일부입니다. 문자 필터, 토크나이저 및 토큰 필터의 정의는 사용자 지정 옵션을 설정하는 경우에만 인덱스에 추가됩니다. 기존 필터 또는 토크나이저를 있는 그대로 사용하려면 분석기 정의에서 이름으로 지정합니다. 자세한 내용은 인덱스 만들기(REST)를 참조하세요. 더 많은 예제는 Azure AI 검색에서 분석기 추가를 참조하세요.
사용자 지정 분석기 테스트
테스트 분석기(REST)를 사용하여 분석기가 지정된 텍스트를 토큰으로 분할하는 방법을 확인할 수 있습니다.
Request
POST https://[search service name].search.windows.net/indexes/[index name]/analyze?api-version=[api-version]
Content-Type: application/json
api-key: [admin key]
{
"analyzer":"my_analyzer",
"text": "Vis-à-vis means Opposite"
}
Response
{
"tokens": [
{
"token": "vis_a_vis",
"startOffset": 0,
"endOffset": 9,
"position": 0
},
{
"token": "vis_à_vis",
"startOffset": 0,
"endOffset": 9,
"position": 0
},
{
"token": "means",
"startOffset": 10,
"endOffset": 15,
"position": 1
},
{
"token": "opposite",
"startOffset": 16,
"endOffset": 24,
"position": 2
}
]
}
사용자 지정 분석기 업데이트
분석기, 토크나이저, 토큰 필터 또는 문자 필터는 일단 정의한 후에는 수정할 수 없습니다. 인덱스 업데이트 요청에서 allowIndexDowntime
플래그가 true로 설정된 경우에만 이러한 새 항목을 기존 인덱스에 추가할 수 있습니다.
PUT https://[search service name].search.windows.net/indexes/[index name]?api-version=[api-version]&allowIndexDowntime=true
이 작업 중에 인덱스가 몇 초 이상 오프라인 상태가 되면 인덱싱 및 쿼리 요청이 실패합니다. 인덱스의 성능 및 쓰기 가용성은 인덱스를 업데이트한 후 몇 분 동안, 인덱스가 아주 큰 경우에는 더 긴 시간 동안 제대로 작동하지 않을 수 있습니다. 그렇지만 이러한 효과는 일시적이며 결과적으로는 자체 해결됩니다.
기본 제공 분석기
사용자 지정 옵션을 포함하는 기본 제공 분석기를 사용하려는 경우, 사용자 지정 분석기를 만드는 방법은 이러한 옵션을 지정하는 메커니즘입니다. 이와 달리 기본 제공 분석기를 있는 그대로 사용하려면, 필드 정의에서 이름으로 이를 참조하기만 하면 됩니다.
analyzer_name | analyzer_type 1 | 설명 및 옵션 |
---|---|---|
keyword | (형식은 옵션이 사용 가능할 때만 적용됨) | 필드의 전체 콘텐츠를 단일 토큰으로 처리합니다. 우편 번호, ID 및 일부 제품 이름과 같은 데이터에 유용합니다. |
pattern | PatternAnalyzer | 정규식 패턴을 통해 텍스트를 용어로 유연하게 구분합니다. 옵션 lowercase (type: bool) - 용어를 소문자로 처리할지를 결정합니다. 기본값은 true입니다. pattern(유형: string) - 일치하는 토큰 구분 기호를 검색하기 위한 정규식 패턴입니다. 기본값은 \W+ 입니다. 이는 단어가 아닌 문자와 일치합니다. flags(유형: string) - 정규식 플래그입니다. 기본값은 빈 문자열입니다. 허용되는 값: CANON_EQ, CASE_INSENSITIVE, COMMENTS, DOTALL, LITERAL, MULTILINE, UNICODE_CASE, UNIX_LINES stopwords(유형: string 배열) - 중지 단어 목록입니다. 기본값은 빈 목록입니다. |
간단한 | (형식은 옵션이 사용 가능할 때만 적용됨) | 비문자에서 텍스트를 나눈 후 소문자로 변환합니다. |
standard (standard.lucene라고도 함) |
StandardAnalyzer | 표준 토크나이저, 소문자 필터 및 중지 필터로 구성된 표준 Lucene 분석기입니다. 옵션 maxTokenLength(유형: int) - 최대 토큰 길이입니다. 기본값은 255입니다. 최대 길이보다 긴 토큰은 분할됩니다. 사용할 수 있는 최대 토큰 길이는 300자입니다. stopwords(유형: string 배열) - 중지 단어 목록입니다. 기본값은 빈 목록입니다. |
standardasciifolding.lucene | (형식은 옵션이 사용 가능할 때만 적용됨) | ASCII 접기 필터가 있는 표준 분석기입니다. |
stop | StopAnalyzer | 비문자에서 텍스트를 나누고, 소문자 및 중지 단어 토큰 필터를 적용합니다. 옵션 stopwords(유형: string 배열) - 중지 단어 목록입니다. 기본값은 미리 정의된 영어 목록입니다. |
whitespace | (형식은 옵션이 사용 가능할 때만 적용됨) | 공백 토크나이저를 사용하는 분석기입니다. 255자보다 긴 토큰은 분할됩니다. |
1 분석기 형식은 PatternAnalyzer
가 실제로 #Microsoft.Azure.Search.PatternAnalyzer
로 지정되도록 #Microsoft.Azure.Search
가 있는 코드에 항상 접두사로 추가됩니다. 간단히 나타내기 위해 접두사를 제거했지만 코드에서는 필요합니다.
사용자 지정할 수 있는 분석기에만 analyzer_type이 제공됩니다. 키워드 분석기를 사용할 때처럼 옵션이 없는 경우 연결된 #Microsoft.Azure.Search 형식도 없습니다.
문자 필터
문자열이 토크나이저에 도달하기 전에 문자 필터가 처리를 추가합니다.
Azure AI 검색은 다음 목록의 문자 필터를 지원합니다. 각각에 대한 자세한 내용은 Lucene API 참조에서 찾을 수 있습니다.
char_filter_name | char_filter_type 1 | 설명 및 옵션 |
---|---|---|
html_strip | (형식은 옵션이 사용 가능할 때만 적용됨) | HTML 구문을 제거하려고 하는 문자 필터입니다. |
mapping | MappingCharFilter | 매핑 옵션을 사용하여 정의된 매핑을 적용하는 문자 필터입니다. 일치는 greedy 방식을 따릅니다(지정된 지점에서 가장 긴 패턴 일치가 검색됨). 빈 문자열로 대체될 수 있습니다. 옵션 mappings (type: string array) - a=>b 형식의 매핑 목록입니다(문자 a 가 나오는 모든 경우는 문자 b 로 바뀜). 필수입니다. |
pattern_replace | PatternReplaceCharFilter | 입력 문자열에서 문자를 대체하는 문자 필터입니다. 정규식을 사용하여 보존할 문자 시퀀스를 식별하고, 대체 패턴을 사용하여 대체할 문자를 식별합니다. 예를 들면 input text = aa bb aa bb , pattern=(aa)\\\s+(bb) replacement=$1#$2 , result = aa#bb aa#bb 입니다. 옵션 pattern (type: string) - 필수 항목입니다. replacement(유형: string) - 필수 항목입니다. |
1 문자 필터 형식은 MappingCharFilter
가 실제로 #Microsoft.Azure.Search.MappingCharFilter
로 지정되도록 #Microsoft.Azure.Search
가 있는 코드에 항상 접두사로 추가됩니다. 테이블 너비를 줄이기 위해 접두사를 제거했지만 코드에 포함해야 합니다. 사용자 지정할 수 있는 필터에만 char_filter_type이 제공된다는 공지입니다. html_strip을 사용할 때처럼 옵션이 없는 경우 연결된 #Microsoft.Azure.Search 형식도 없습니다.
토크나이저
문장을 단어로 나누거나 단어를 뿌리 형태로 나누는 것처럼 토크나이저는 연속된 텍스트를 토큰의 시퀀스로 나눕니다.
Azure AI 검색은 다음 목록의 토큰라이저를 지원합니다. 각각에 대한 자세한 내용은 Lucene API 참조에서 찾을 수 있습니다.
tokenizer_name | tokenizer_type 1 | 설명 및 옵션 |
---|---|---|
기존 | ClassicTokenizer | 대부분의 유럽 언어 문서 처리에 적합한 문법 기반 토크나이저입니다. 옵션 maxTokenLength(유형: int) - 최대 토큰 길이입니다. 기본값: 255, 최대값: 300. 최대 길이보다 긴 토큰은 분할됩니다. |
edgeNGram | EdgeNGramTokenizer | 에지의 입력을 지정된 크기의 n-gram으로 토큰화합니다. 옵션 minGram(유형: int) - 기본값: 1, 최대값: 300. maxGram(유형: int) - 기본값: 2, 최댓값: 300. minGram보다 커야 합니다. tokenChars(유형: string 배열) - 토큰에 유지할 문자 클래스입니다. 허용되는 값은 다음과 같습니다. letter , digit , whitespace , punctuation symbol . 기본값은 빈 배열로, 모든 문자를 유지합니다. |
keyword_v2 | KeywordTokenizerV2 | 전체 입력을 단일 토큰으로 내보냅니다. 옵션 maxTokenLength(유형: int) - 최대 토큰 길이입니다. 기본값: 256, 최대값: 300. 최대 길이보다 긴 토큰은 분할됩니다. |
letter | (형식은 옵션이 사용 가능할 때만 적용됨) | 비문자에서 텍스트를 나눕니다. 255자보다 긴 토큰은 분할됩니다. |
lowercase | (형식은 옵션이 사용 가능할 때만 적용됨) | 비문자에서 텍스트를 나눈 후 소문자로 변환합니다. 255자보다 긴 토큰은 분할됩니다. |
microsoft_language_tokenizer | MicrosoftLanguageTokenizer | 언어별 규칙을 사용하여 텍스트를 구분합니다. 옵션 maxTokenLength (유형: int) - 최대 토큰 길이, 기본값: 255, 최대값: 300. 최대 길이보다 긴 토큰은 분할됩니다. 300자보다 긴 토큰은 먼저 300자 길이의 토큰으로 분할된 후 각 토큰은 설정된 maxTokenLength를 기준으로 분할됩니다. isSearchTokenizer(유형: bool) - 검색 토크나이저로 사용될 경우 true로 설정되고, 인덱싱 토크나이저로 사용될 경우 false로 설정됩니다. language (type: string) - 사용할 언어로, 기본값은 english 입니다. 허용되는 값은 다음과 같습니다. bangla , bulgarian , catalan , , chineseTraditional chineseSimplified , croatian ,czech , danish , dutch , english , french , , german , greek , hindi gujarati , icelandic , indonesian , italian russian korean malayalam polish punjabi norwegianBokmaal portugueseBrazilian marathi portuguese romanian kannada japanese serbianCyrillic serbianLatin malay , , slovenian , swedish spanish telugu thai tamil ukrainian , , urdu vietnamese |
microsoft_language_stemming_tokenizer | MicrosoftLanguageStemmingTokenizer | 언어별 규칙을 사용하여 텍스트를 구분하고, 단어를 기본 형식으로 줄입니다. 이 토큰라이저는 분류 정리를 수행합니다. 옵션 maxTokenLength (유형: int) - 최대 토큰 길이, 기본값: 255, 최대값: 300. 최대 길이보다 긴 토큰은 분할됩니다. 300자보다 긴 토큰은 먼저 300자 길이의 토큰으로 분할된 후 각 토큰은 설정된 maxTokenLength를 기준으로 분할됩니다. isSearchTokenizer(유형: bool) - 검색 토크나이저로 사용될 경우 true로 설정되고, 인덱싱 토크나이저로 사용될 경우 false로 설정됩니다. language (type: string) - 사용할 언어로, 기본값은 english 입니다. 허용되는 값은 다음과 같습니다. arabic , bangla , bulgarian , catalan , croatian ,czech , danish , dutch , english , estonian , finnish , french , german , , gujarati greek , hebrew , hindi , hungarian , icelandic spanish malay lithuanian latvian kannada malayalam indonesian serbianLatin serbianCyrillic italian portuguese portugueseBrazilian polish punjabi norwegianBokmaal romanian swedish slovak russian marathi tamil telugu slovenian , , ukrainian turkish urdu |
nGram | NGramTokenizer | 입력을 지정된 크기의 n-gram으로 토큰화합니다. 옵션 minGram(유형: int) - 기본값: 1, 최대값: 300. maxGram(유형: int) - 기본값: 2, 최댓값: 300. minGram보다 커야 합니다. tokenChars(유형: string 배열) - 토큰에 유지할 문자 클래스입니다. 허용되는 값은 letter , digit , whitespace , punctuation , symbol 입니다. 기본값은 빈 배열로, 모든 문자를 유지합니다. |
path_hierarchy_v2 | PathHierarchyTokenizerV2 | 경로와 같은 계층 구조의 토크나이저입니다. 옵션 delimiter (type: string) - 기본값: '/. replacement(유형: string) - 설정하면 구분 기호 문자를 바꿉니다. 기본값은 구분 기호 값과 동일합니다. maxTokenLength(유형: int) - 최대 토큰 길이입니다. 기본값: 300, 최대값: 300. maxTokenLength보다 긴 경로는 무시됩니다. reverse(유형: bool) - true인 경우 역순으로 토큰을 생성합니다. 기본값: false입니다. skip(유형: bool) - 건너뛸 초기 토큰입니다. 기본값은 0입니다. |
pattern | PatternTokenizer | 이 토크나이저는 정규식 패턴 일치를 사용하여 고유 토큰을 생성합니다. 옵션 패턴 (유형: 문자열) - 토큰 구분 기호와 일치하는 정규식 패턴입니다. 기본값은 \W+ 입니다. 이는 단어가 아닌 문자와 일치합니다. flags(유형: string) - 정규식 플래그입니다. 기본값은 빈 문자열입니다. 허용되는 값: CANON_EQ, CASE_INSENSITIVE, COMMENTS, DOTALL, LITERAL, MULTILINE, UNICODE_CASE, UNIX_LINES group (type: int) - 토큰으로 추출할 그룹입니다. 기본값은 -1(분할)입니다. |
standard_v2 | StandardTokenizerV2 | 유니코드 텍스트 구분 규칙에 따라 텍스트를 구분합니다. 옵션 maxTokenLength(유형: int) - 최대 토큰 길이입니다. 기본값: 255, 최대값: 300. 최대 길이보다 긴 토큰은 분할됩니다. |
uax_url_email | UaxUrlEmailTokenizer | URL과 이메일을 하나의 토큰으로 토큰화합니다. 옵션 maxTokenLength(유형: int) - 최대 토큰 길이입니다. 기본값: 255, 최대값: 300. 최대 길이보다 긴 토큰은 분할됩니다. |
whitespace | (형식은 옵션이 사용 가능할 때만 적용됨) | 공백에서 텍스트를 나눕니다. 255자보다 긴 토큰은 분할됩니다. |
1 토크나이저 형식은 ClassicTokenizer
가 실제로 #Microsoft.Azure.Search.ClassicTokenizer
로 지정되도록 #Microsoft.Azure.Search
가 있는 코드에 항상 접두사로 추가됩니다. 테이블 너비를 줄이기 위해 접두사를 제거했지만 코드에 포함해야 합니다. 사용자 지정할 수 있는 토크나이저에만 tokenizer_type이 제공된다는 공지입니다. 문자 토크나이저를 사용할 때처럼 옵션이 없는 경우 연결된 #Microsoft.Azure.Search 형식도 없습니다.
토큰 필터
토큰 필터는 토크나이저에서 생성된 토큰을 필터링하거나 수정하는 데 사용됩니다. 예를 들어, 모든 문자를 소문자로 변환하는 소문자 필터를 지정할 수 있습니다. 사용자 지정 분석기에서 여러 토큰 필터를 사용할 수 있습니다. 토큰 필터는 나열된 순서로 실행합니다.
다음 표에서 Apache Lucene을 사용하여 구현되는 토큰 필터는 Lucene API 설명서에 연결됩니다.
token_filter_name | token_filter_type 1 | 설명 및 옵션 |
---|---|---|
arabic_normalization | (형식은 옵션이 사용 가능할 때만 적용됨) | 아랍어 노멀라이저를 적용하여 표기법을 정규화하는 토큰 필터입니다. |
apostrophe | (형식은 옵션이 사용 가능할 때만 적용됨) | 아포스트로피 다음의 모든 문자를 제거합니다(아포스트로피 자체도 포함). |
asciifolding | AsciiFoldingTokenFilter | 첫 ASCII 문자 127자(Basic Latin 유니코드 블록)에 포함되지 않는 영문자, 숫자 및 기호 유니코드 문자를 해당 ASCII 문자로 변환합니다(있는 경우).옵션 preserveOriginal (type: bool) - true인 경우 원래 토큰이 유지됩니다. 기본 설정은 거짓입니다. |
cjk_bigram | CjkBigramTokenFilter | StandardTokenizer에서 생성되는 CJK 용어의 바이그램을 형성합니다. 옵션 ignoreScripts (type: string array) - 무시할 스크립트입니다. 허용되는 값에는 han , hiragana , katakana , hangul 가 포함됩니다. 기본값은 빈 목록입니다.outputUnigrams (type: bool) - 항상 유니그램과 바이그램 둘 다를 출력하려는 경우 true로 설정합니다. 기본 설정은 거짓입니다. |
cjk_width | (형식은 옵션이 사용 가능할 때만 적용됨) | CJK 너비 차이를 정규화합니다. 전체 너비 ASCII 변형을 해당하는 기본 라틴어 및 반자 가타카나 변형으로 해당 가나로 접습니다. |
기존 | (형식은 옵션이 사용 가능할 때만 적용됨) | 머리 글자어에서 영어 소유격과 점을 제거합니다. |
common_grams | CommonGramTokenFilter | 인덱싱 동안 자주 발생하는 용어에 대한 바이그램을 생성합니다. 단일 단어도 바이그램이 오버레이된 상태로 계속 인덱싱됩니다. 옵션 commonWords (type: string array) - 일반적인 단어 세트입니다. 기본값은 빈 목록입니다. 필수입니다. ignoreCase (type: bool) - true인 경우 대/소문자를 구분하지 않고 검색합니다. 기본 설정은 거짓입니다. queryMode (type: bool) - 바이그램을 생성한 후 일반 단어와 그 뒤에 나오는 단일 단어를 제거합니다. 기본 설정은 거짓입니다. |
dictionary_decompounder | DictionaryDecompounderTokenFilter | 많은 게르만어파에 있는 복합 단어를 분해합니다. 옵션 wordList (type: string array) - 일치하는지 검색할 단어의 목록입니다. 기본값은 빈 목록입니다. 필수입니다. minWordSize (type: int) - 이보다 긴 단어만 처리됩니다. 기본값은 5입니다. minSubwordSize (type: int) - 이보다 긴 부분 단어만 출력됩니다. 기본값은 2입니다. maxSubwordSize (type: int) - 이보다 짧은 부분 단어만 출력됩니다. 기본값은 15입니다. onlyLongestMatch (type: bool) - 가장 긴 일치 부분 단어만 출력에 추가합니다. 기본 설정은 거짓입니다. |
edgeNGram_v2 | EdgeNGramTokenFilterV2 | 입력 토큰의 앞이나 뒤에서 시작하여 지정된 크기의 n-gram을 생성합니다. 옵션 minGram(유형: int) - 기본값: 1, 최대값: 300. maxGram(유형: int) - 기본값: 2, 최대값: 300. minGram보다 커야 합니다. side (type: string) - n-gram 생성을 시작할 입력의 부분을 지정합니다. 허용되는 값: front , back |
elision | ElisionTokenFilter | 생략 발음을 제거합니다. 예를 들면 l'avion (비행기)은 avion (비행기)으로 변환됩니다.옵션 articles (type: string array) - 제거할 문서 세트입니다. 기본값은 빈 목록입니다. 문서 세트 목록이 없으면 기본적으로 모든 프랑스어 문서가 제거됩니다. |
german_normalization | (형식은 옵션이 사용 가능할 때만 적용됨) | German2 스노우볼 알고리즘의 추론에 따라 독일어 문자를 정규화합니다. |
hindi_normalization | (형식은 옵션이 사용 가능할 때만 적용됨) | 힌디어의 텍스트를 정규화하여 철자 변형의 차이를 제거합니다. |
indic_normalization | IndicNormalizationTokenFilter | 인도어 텍스트의 유니코드 표현을 정규화합니다. |
keep | KeepTokenFilter | 지정된 단어 목록에 포함된 텍스트가 있는 토큰만 유지하는 토큰 필터입니다. 옵션 keepWords (type: string array) - 유지할 단어 목록입니다. 기본값은 빈 목록입니다. 필수입니다. keepWordsCase (type: bool) - true이면 먼저 모든 단어를 소문자로 지정합니다. 기본 설정은 거짓입니다. |
keyword_marker | KeywordMarkerTokenFilter | 용어를 키워드로 표시합니다. 옵션 keywords (type: string array) - 키워드로 표시할 단어 목록입니다. 기본값은 빈 목록입니다. 필수입니다. ignoreCase (type: bool) - true이면 먼저 모든 단어를 소문자로 지정합니다. 기본 설정은 거짓입니다. |
keyword_repeat | (형식은 옵션이 사용 가능할 때만 적용됨) | 들어오는 각 토큰을 한 번은 키워드로, 다른 한 번은 비키워드로 내보냅니다. |
kstem | (형식은 옵션이 사용 가능할 때만 적용됨) | 영어에 대한 고성능 kstem 필터입니다. |
length | LengthTokenFilter | 너무 길거나 너무 짧은 단어를 제거합니다. 옵션 min (type: int) - 최소 수입니다. 기본값: 0, 최대값: 300. max (type: int) - 최대 수입니다. 기본값: 300, 최대값: 300. |
limit | Microsoft.Azure.Search.LimitTokenFilter | 인덱싱을 할 때 토큰 수를 제한합니다. 옵션 maxTokenCount (type: int) - 생성할 최대 토큰 수입니다. 기본값은 1입니다. consumeAllTokens (type: bool) - maxTokenCount에 도달한 경우에도 입력의 모든 토큰을 사용해야 하는지 여부입니다. 기본 설정은 거짓입니다. |
lowercase | (형식은 옵션이 사용 가능할 때만 적용됨) | 토큰 텍스트를 소문자로 정규화합니다. |
nGram_v2 | NGramTokenFilterV2 | 지정된 크기의 n-gram을 생성합니다. 옵션 minGram(유형: int) - 기본값: 1, 최대값: 300. maxGram(유형: int) - 기본값: 2, 최대값: 300. minGram보다 커야 합니다. |
pattern_capture | PatternCaptureTokenFilter | Java 정규식을 사용하여 여러 토큰을 내보냅니다. 하나 이상의 패턴을 갖는 캡처 그룹마다 하나씩 전달합니다. 옵션 patterns (type: string array) - 각 토큰에 대해 일치하는지 검색할 패턴 목록입니다. 필수입니다. preserveOriginal (type: bool) - 패턴 중 하나가 일치하더라도 원래 토큰을 반환하려면 true로 설정합니다. 기본값은 true입니다. |
pattern_replace | PatternReplaceTokenFilter | 패턴을 스트림의 각 토큰에 적용하고 일치하는 항목을 지정된 대체 문자열로 바꾸는 토큰 필터입니다. 옵션 pattern (type: string) - 필수 항목입니다. replacement(유형: string) - 필수 항목입니다. |
persian_normalization | (형식은 옵션이 사용 가능할 때만 적용됨) | 페르시아어에 정규화를 적용합니다. |
phonetic | PhoneticTokenFilter | 음성 일치 항목에 대한 토큰을 만듭니다. 옵션 encoder (type: string) - 사용할 음성 인코더입니다. 허용되는 값에는 metaphone , doubleMetaphone , soundex , refinedSoundex , caverphone1 , caverphone2 , cologne , nysiis , koelnerPhonetik , haasePhonetik , beiderMorse 가 포함됩니다. 기본값: metaphone . 기본값은 metaphone입니다.자세한 내용은 encoder를 참조하세요. replace (type: bool) - 인코딩한 토큰이 원래 토큰을 대체해야 하면 true이고, 동의어로 추가되어야 하면 false입니다. 기본값은 true입니다. |
porter_stem | (형식은 옵션이 사용 가능할 때만 적용됨) | Porter 형태소 분석 알고리즘에 따라 토큰 스트림을 변환합니다. |
reverse | (형식은 옵션이 사용 가능할 때만 적용됨) | 토큰 문자열을 반대로 바꿉니다. |
scandinavian_normalization | (형식은 옵션이 사용 가능할 때만 적용됨) | 교환 가능한 스칸디나비아어 문자의 사용을 정규화합니다. |
scandinavian_folding | (형식은 옵션이 사용 가능할 때만 적용됨) | 스칸디나비아어 문자 åÅäæÄÆ 를 a 로, öÖøØ 를 o 로 접습니다. 또한 이중 모음 aa , ae , ao , oe 및 oo 의 사용과 구분하고 첫 번째 모음만 남겨둡니다. |
shingle | ShingleTokenFilter | 토큰의 조합을 단일 토큰으로 만듭니다. 옵션 maxShingleSize (type: int) - 기본값은 2입니다. minShingleSize (type: int) - 기본값은 2입니다. outputUnigrams (type: bool) - true인 경우 출력 스트림은 shingle 뿐만 아니라 입력 토큰(유니그램)을 포함합니다. 기본값은 true입니다. outputUnigramsIfNoShingles (type: bool) - true이면 사용할 수 있는 shingle이 없는 경우 outputUnigrams==false의 동작을 재정의합니다. 기본 설정은 거짓입니다. tokenSeparator (type: string) - 인접한 토큰을 조인하여 shingle을 만들 때 사용할 문자열입니다. 기본값은 단일 빈 공간 입니다. filterToken(type: string) - 토큰이 없는 각 위치에 삽입할 문자열입니다. 기본값은 _ 입니다. |
snowball | SnowballTokenFilter | 스노우볼 토큰 필터입니다. 옵션 language (type: string) - 허용되는 값에는 armenian , basque , catalan , danish , dutch , english , finnish , french , german , german2 , hungarian , italian , kp , lovins , norwegian , porter , portuguese , romanian , russian , spanish , swedish , turkish 가 포함됩니다. |
sorani_normalization | SoraniNormalizationTokenFilter | Sorani 텍스트의 유니코드 표현을 정규화합니다.옵션 없음. |
stemmer | StemmerTokenFilter | 언어별 형태소 분석 필터입니다. 옵션 language (type: string) - 다음 값을 사용할 수 있습니다. - arabic - armenian - basque - brazilian - bulgarian - catalan - czech - danish - dutch - dutchKp - english - lightEnglish - minimalEnglish - possessiveEnglish - porter2 - lovins - finnish - lightFinnish - french - lightFrench - minimalFrench - galician - minimalGalician - german - german2 - lightGerman - minimalGerman - greek - hindi - hungarian - lightHungarian - indonesian - irish - italian - lightItalian - sorani - latvian - norwegian - lightNorwegian - minimalNorwegian - lightNynorsk - minimalNynorsk - portuguese - lightPortuguese - minimalPortuguese - portugueseRslp - romanian - russian - lightRussian - spanish - lightSpanish - swedish - lightSwedish - turkish |
stemmer_override | StemmerOverrideTokenFilter | 모든 사전 형태소 용어를 키워드로 표시하여 체인이 형태소로 분석되지 않도록 합니다. 형태소 분석 필터 전에 배치해야 합니다. 옵션 rules (type: string array) - word => stem 형식의 형태소 분석 규칙입니다(예: ran => run ). 기본값은 빈 목록입니다. 필수입니다. |
stopwords | StopwordsTokenFilter | 토큰 스트림에서 중지 단어를 제거합니다. 기본적으로 필터는 영어의 경우 미리 정의된 중지 단어 목록을 사용합니다. 옵션 stopwords(유형: string 배열) - 중지 단어 목록입니다. stopwordsList를 지정한 경우에는 지정할 수 없습니다. stopwordsList (type: string) - 미리 정의한 중지 단어 목록입니다. stopwords 를 지정한 경우에는 지정할 수 없습니다. 허용되는 값에는 arabic , armenian , basque , brazilian , bulgarian , catalan , czech , danish , dutch , english , finnish , french , galician , german , greek , hindi , hungarian , indonesian , irish , italian , latvian , norwegian , persian , portuguese , romanian , russian , sorani , spanish , swedish , thai , turkish 가 포함되며 기본값은 english 입니다. stopwords 를 지정한 경우에는 지정할 수 없습니다. ignoreCase (type: bool) - true이면 모든 단어를 먼저 소문자로 나타냅니다. 기본 설정은 거짓입니다. removeTrailing (type: bool) - true이면 마지막 검색 단어가 중지 단어인 경우 무시합니다. 기본값은 true입니다. |
synonym | SynonymTokenFilter | 토큰 스트림에서 일치하는 단일 또는 다중 단어 동의어를 검색합니다. 옵션 synonyms (type: string array) - 필수 항목입니다. 다음 두 가지 형식 중 하나를 갖는 동의어 목록입니다. -incredible, unbelievable, fabulous => amazing - => 기호 왼쪽의 모든 용어는 오른쪽의 모든 용어로 바뀝니다. -incredible, unbelievable, fabulous, amazing - 쉼표로 구분한 동일 단어 목록입니다. 이 목록을 해석하는 방식을 변경하려면 확장 옵션을 설정합니다. ignoreCase (type: bool) - 일치하는 경우 입력의 대/소문자를 접습니다. 기본값은 false입니다. expand(type: bool) - true이면 동의어 목록의 모든 단어(=> 표기법이 사용되지 않는 경우)가 서로 매핑됩니다. incredible, unbelievable, fabulous, amazing 목록은 incredible, unbelievable, fabulous, amazing => incredible, unbelievable, fabulous, amazing과 같습니다. - false이면 incredible, unbelievable, fabulous, amazing 목록은 incredible, unbelievable, fabulous, amazing => incredible과 같습니다. |
trim | (형식은 옵션이 사용 가능할 때만 적용됨) | 토큰에서 선행 및 후행 공백을 제거합니다. |
truncate | TruncateTokenFilter | 용어를 특정 길이로 자릅니다. 옵션 길이(유형: int) - 기본값: 300, 최대값: 300. 필수입니다. |
unique | UniqueTokenFilter | 이전 토큰과 동일한 텍스트를 포함하는 토큰을 필터링합니다. 옵션 onlyOnSamePosition (type: bool) - 설정하면 같은 위치에서만 중복 항목을 제거합니다. 기본값은 true입니다. |
uppercase | (형식은 옵션이 사용 가능할 때만 적용됨) | 토큰 텍스트를 대문자로 정규화합니다. |
word_delimiter | WordDelimiterTokenFilter | 단어를 부분 단어로 분할하고 부분 단어 그룹에 대해 선택적 변환을 수행합니다. 옵션 generateWordParts(type: bool) - 단어의 일부가 생성되도록 합니다(예: AzureSearch (이)가 Azure Search (이)가 됩니다). 기본값은 true입니다.generateNumberParts (type: bool) - 숫자 하위 부분을 생성합니다. 기본값은 true입니다. catenateWords (type: bool) - 단어 부분의 최대 실행 수를 연결합니다. 예를 들면 Azure-Search 는 AzureSearch 가 됩니다. 기본 설정은 거짓입니다.catenateNumbers (type: bool) - 숫자 부분의 최대 실행 수를 연결합니다. 예를 들면 1-2 는 12 가 됩니다. 기본 설정은 거짓입니다.catenateAll (type: bool) - 모든 부분 단어 부분을 연결합니다. 예를 들면 Azure-Search-1 은 AzureSearch1 이 됩니다. 기본 설정은 거짓입니다.splitOnCaseChange(type: bool) - true이면 caseChange에서 단어를 분할합니다(예: AzureSearch (이)가 Azure Search (이)가 됩니다). 기본값은 true입니다.preserveOriginal - 원래 단어를 유지하고 부분 단어 목록에 추가합니다. 기본 설정은 거짓입니다. splitOnNumerics (type: bool) - true이면 숫자로 분할합니다(예: Azure1Search (이)가 Azure 1 Search (이)가 됩니다). 기본값은 true입니다.stemEnglishPossessive (type: bool) - 각 부분 단어에서 후행 's 를 제거합니다. 기본값은 true입니다.protectedWords (type: string array) - 구분되지 않도록 보호할 토큰입니다. 기본값은 빈 목록입니다. |
1 토큰 필터 형식은 ArabicNormalizationTokenFilter
가 실제로 #Microsoft.Azure.Search.ArabicNormalizationTokenFilter
로 지정되도록 #Microsoft.Azure.Search
가 있는 코드에 항상 접두사로 추가됩니다. 테이블 너비를 줄이기 위해 접두사를 제거했지만 코드에 포함해야 합니다.