분석기 및 토큰화된 용어를 사용하여 인덱스 개선

완료됨

Azure AI 검색은 기본적으로 텍스트를 분석하고 인덱스에 도움이 될 토큰을 식별하도록 구성됩니다. 올바른 토큰은 사용자가 필요한 문서를 신속하게 찾을 수 있도록 합니다. 대부분의 경우 기본 구성은 최적의 인덱스를 생성합니다. 그러나 비정상적이거나 특이한 필드가 있는 경우 텍스트를 분석하는 방법을 정확하게 구성하려고 할 수 있습니다.

여기서는 인덱스에 포함하기 위해 필드의 콘텐츠를 토큰으로 분할하는 방법을 제어하는 사용자 지정 분석기를 정의하는 방법을 알아봅니다.

AI 검색이 콘텐츠를 인덱싱할 때 텍스트를 검색합니다. 사용자가 문서를 찾는 데 도움이 되는 용어를 사용하여 유용한 인덱스를 작성하기 위해 해당 텍스트를 처리해야 합니다. 예를 들어:

  • 텍스트는 종종 공백 및 문장 부호 문자를 구분 기호로 사용하여 단어로 나누어져 있습니다.
  • "the" 및 "it"과 같은 중지 단어는 사용자가 검색하지 않으므로 제거해야 합니다.
  • 단어는 루트 형태로 줄여야 합니다. 예를 들어 "ran"과 같은 과거 시제 단어는 "run"과 같은 현재 시제 단어로 바꿔야 합니다.

AI 검색에서는 이런 종류의 처리가 분석기에 의해 수행됩니다. 필드에 대한 분석기를 지정하지 않으면 기본 Lucene 분석기가 사용됩니다. 기본 Lucene 분석기는 많은 언어를 처리하고 인덱스에 유용한 토큰을 반환할 수 있으므로 대부분의 필드에 적합합니다.

혹은 AI 검색에 기본 제공된 분석기 중 하나를 지정할 수도 있습니다. 기본 제공 분석기에는 다음 두 가지 유형이 있습니다.

  • 언어 분석기. 표제어 분석, 단어 분해 및 엔터티 인식과 같은 특정 언어에 대한 고급 기능이 필요한 경우 기본 제공 언어 분석기를 사용합니다. Microsoft는 다양한 언어에 대한 50개의 분석기를 제공합니다.
  • 특수 분석기. 이러한 분석기는 언어에 구애받지 않으며 우편 번호 또는 제품 ID와 같은 특수 필드에 사용됩니다. 예를 들어 PatternAnalyzer를 사용하고 토큰 구분 기호와 일치하도록 정규식을 지정할 수 있습니다.

사용자 지정 분석기란?

기본 제공 분석기는 많은 옵션을 제공하지만 필드에 대해 비정상적인 동작을 제공하는 분석기가 필요한 경우도 있습니다. 이러한 경우 사용자 지정 분석기를 만들 수 있습니다.

사용자 지정 분석기는 다음으로 구성됩니다.

  • 문자 필터. 이러한 필터는 토크나이저에 도달하기 전에 문자열을 처리합니다.
  • 토크나이저. 이러한 구성 요소는 텍스트를 인덱스에 추가할 토큰으로 나눕니다.
  • 토큰 필터. 이러한 필터는 토크나이저에서 내보낸 토큰을 제거하거나 수정합니다.

이러한 구성 요소를 좀 더 자세히 살펴보겠습니다.

문자 필터

토큰으로 분할하기 전에 텍스트에 대해 일부 작업을 완료해야 할 수 있습니다. 문자 필터를 사용하면 이러한 작업을 수행할 수 있습니다. 다음과 같은 세 가지 문자 필터를 사용할 수 있습니다.

  • html_strip. 이 필터는 태그 및 특성과 같은 HTML 구문을 제거합니다.
  • mapping. 이 필터를 사용하면 한 문자열을 다른 문자열로 바꾸는 매핑을 지정할 수 있습니다. 예를 들어 TXTexas로 바꾸는 매핑을 지정할 수 있습니다.
  • pattern_replace. 이 필터를 사용하면 입력 텍스트의 패턴을 식별하는 정규식과 일치하는 텍스트를 바꾸는 방법을 지정할 수 있습니다.

토크나이저

토크나이저는 텍스트를 인덱스에 저장될 토큰으로 나누는 구성 요소입니다. 또한 토크나이저는 단어를 루트 형태로 구분합니다. 토큰은 한 단어인 경우가 많지만 다음과 같은 비정상적인 토큰을 만들 수 있습니다.

  • 전체 우편 주소
  • 전체 URL 또는 메일 주소
  • 특정 언어의 문법을 기준으로 하는 단어

13가지 토크나이저 중에서 선택할 수 있습니다. 이러한 토크나이저에는 다음이 포함됩니다.

  • classic. 이 토크나이저는 유럽 언어의 문법에 따라 텍스트를 처리합니다.
  • keyword. 이 토크나이저는 전체 입력을 단일 토큰으로 내보냅니다. 항상 하나의 값으로 인덱싱되어야 하는 필드에 이 토크나이저를 사용합니다.
  • lowercase. 이 토크나이저는 텍스트를 비문자로 나눈 다음, 결과 토큰을 모두 소문자로 수정합니다.
  • microsoft_language_tokenizer. 이 토크나이저는 지정한 언어의 문법에 따라 텍스트를 나눕니다.
  • pattern. 이 토크나이저는 지정한 정규식과 일치하는 경우 텍스트를 나눕니다.
  • whitespace. 이 토크나이저는 공백이 있을 때마다 텍스트를 나눕니다.

참고 항목

토크나이저의 전체 목록은 아래 자세한 정보 섹션에서 Azure AI 검색 인덱스의 문자열 필드에 사용자 지정 분석기 추가를 참조하세요.

토큰 필터

토크나이저가 들어오는 텍스트를 토큰으로 분할한 후에는 중지 단어 제거 또는 문장 부호 트리밍과 같은 추가 처리를 추가할 수 있습니다. 토큰 필터를 지정하여 이 처리를 실행할 수 있습니다. 다음을 포함하여 41개의 다른 토큰 필터를 사용할 수 있습니다.

  • 언어별 필터(예: arabic_normalization). 이러한 필터는 언어별 문법 규칙을 적용하여 단어 형태가 제거되고 루트로 대체되도록 합니다.
  • apostrophe. 이 필터는 토큰에서 아포스트로피를 제거하고 아포스트로피 뒤의 문자를 제거합니다.
  • classic. 이 필터는 약어에서 영어 소유격과 점을 제거합니다.
  • keep. 이 필터는 지정한 목록에서 하나 이상의 단어를 포함하지 않는 모든 토큰을 제거합니다.
  • 포인터 이 필터는 지정된 최솟값보다 길거나 지정된 최댓값보다 짧은 모든 토큰을 제거합니다.
  • trim. 이 필터는 토큰에서 선행 및 후행 공백을 제거합니다.

참고 항목

토큰 필터의 전체 목록은 아래 자세한 정보 섹션에서 Azure AI 검색 인덱스의 문자열 필드에 사용자 지정 분석기 추가를 참조하세요.

사용자 지정 분석기 만들기

인덱스를 정의하는 경우를 지정하여 사용자 지정 분석기를 만듭니다. JSON 코드를 사용하여 이 작업을 수행해야 합니다. Azure Portal에서 사용자 지정 인덱스를 지정하는 방법은 없습니다. 디자인 타임에 인덱스의 analyzers 섹션을 사용합니다. 하나의 토크나이저만 포함할 수 있지만 문자 필터와 토큰 필터는 여러 개 포함할 수 있습니다. 분석기에서 고유한 이름을 사용하고 @odata.type 속성을 Microsoft.Azure.Search.CustomAnalyzer로 설정합니다.

이 예제에서 문자 필터는 HTML 서식을 제거하고, 토크나이저는 아이슬란드어 문법에 따라 텍스트를 분할하고, 토큰 필터는 아포스트로피를 제거합니다.

"analyzers":(optional)[
   {
      "name":"ContosoAnalyzer",
      "@odata.type":"#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters":[
         "WebContentRemover"
      ],
      "tokenizer":"IcelandicTokenizer",
      "tokenFilters":[
         "ApostropheFilter"
      ]
   }
],
"charFilters":(optional)[
   {
      "name":"WebContentRemover",
      "@odata.type":"#html_strip"
   }
],
"tokenizers":(optional)[
   {
      "name":"IcelandicTokenizer",
      "@odata.type":"#microsoft_language_tokenizer",
      "language":"icelandic",
      "isSearchTokenizer":false,
   }
],
"tokenFilters":(optional)[
   {
      "name":"ApostropheFilter",
      "@odata.type":"#apostrophe"
   }
]

사용자 지정 분석기 테스트

사용자 지정 분석기를 인덱스의 일부로 정의한 후에는 REST API의 텍스트 분석 기능을 사용하여 테스트 텍스트를 제출하고 분석기가 토큰을 올바르게 반환하는지 확인할 수 있습니다. 인기 있는 Postman 애플리케이션과 같은 REST 테스트 도구를 사용하여 이러한 요청을 작성합니다.

테스트 REST 요청은 다음과 같습니다.

POST https://<search service name>.search.windows.net/indexes/<index name>/analyze?api-version=<api-version>
   Content-Type: application/json
   api-key: <api key>

이 요청에서 다음을 수행합니다.

  • <search service name>을 AI 검색 리소스의 이름으로 바꿉니다.
  • <index name>을 사용자 지정 분석기를 포함하는 인덱스의 이름으로 바꿉니다.
  • <api-version>을 REST API의 버전 번호로 바꿉니다.
  • <api-key>를 AI 검색 리소스에 대한 액세스 키로 바꿉니다. Azure Portal에서 이 키를 받을 수 있습니다.

요청에는 다음과 같은 JSON 본문도 포함해야 합니다.

{
  "text": "Test text to analyze.",
  "analyzer": "<analyzer name>"
}

<analyzer name>을 사용자 지정 분석기를 정의할 때 지정한 이름으로 바꿉니다. 사용자 지정 분석기가 예상대로 동작하는지 확인할 때까지 다양한 text 값으로 테스트해야 합니다.

필드에 사용자 지정 분석기 사용

사용자 지정 분석기를 정의하고 테스트한 후에는 해당 분석기를 사용하도록 인덱스를 구성할 수 있습니다. 인덱스 내의 각 필드에 대해 분석기를 지정할 수 있습니다.

인덱싱 및 검색 모두에 동일한 분석기를 사용하려는 경우 analyzer 필드를 사용할 수 있습니다.

"fields": [
 {
   "name": "IcelandicDescription",
   "type": "Edm.String",
   "retrievable": true,
   "searchable": true,
   "analyzer": "ContosoAnalyzer",
   "indexAnalyzer": null,
   "searchAnalyzer": null
 },

필드를 인덱싱할 때와 필드를 검색할 때 다른 분석기를 사용할 수도 있습니다. 쿼리를 분석할 때와 필드를 인덱싱할 때 다른 처리 단계 집합이 필요한 경우 이 구성을 사용합니다.

"fields": [
 {
   "name": "IcelandicDescription",
   "type": "Edm.String",
   "retrievable": true,
   "searchable": true,
   "analyzer": null,
   "indexAnalyzer": "ContosoIndexAnalyzer",
   "searchAnalyzer": "ContosoSearchAnalyzer"
 },

자세한 정보

Azure AI 검색 인덱스의 문자열 필드에 사용자 지정 분석기 추가