검색 구성 요소 이해
AI 검색 솔루션은 데이터 추출, 보강, 인덱싱, 검색 프로세스에서 각각 중요한 역할을 하는 여러 구성 요소로 구성됩니다.
데이터 원본
대부분 검색 솔루션의 시작은 검색할 데이터를 포함하는 데이터 원본입니다. Azure AI 검색은 다음을 포함한 여러 형식의 데이터 원본을 지원합니다.
- Azure Blob 스토리지 컨테이너의 비구조적 파일
- Azure SQL Database의 테이블
- Cosmos DB의 문서
Azure AI 검색은 인덱싱을 위해 이러한 데이터 원본에서 데이터를 끌어올 수 있습니다.
또는 애플리케이션에서 JSON 데이터를 기존 데이터 원본에서 끌어오지 않고 인덱스에 직접 푸시할 수 있습니다.
기술 집합
기본 검색 솔루션에서는 데이터 원본에서 추출된 데이터를 인덱싱할 수 있습니다. 추출할 수 있는 정보는 데이터 원본에 따라 달라집니다. 예를 들어 데이터베이스에서 데이터를 인덱싱할 때 데이터베이스 테이블의 필드를 추출할 수 있습니다. 아니면 문서 집합을 인덱싱할 때 파일 이름, 수정된 날짜, 크기 및 작성자와 같은 파일 메타데이터를 문서의 텍스트 내용과 함께 추출할 수 있습니다.
데이터 원본에서 직접 추출된 데이터 값을 인덱싱하는 기본 검색 솔루션도 유용할 수 있지만, 최신 애플리케이션 사용자의 기대로 인해 데이터에 대한 더 풍부한 인사이트가 필요해졌습니다. Azure AI 검색에서 인덱싱 프로세스의 일부로 AI(인공 지능) 기술을 적용하여 인덱스 필드에 매핑할 수 있는 새 정보로 원본 데이터를 보강할 수 있습니다. 인덱서에서 사용하는 기술은 ‘기술 세트’에 캡슐화되며, 이 기술 세트는 특정 AI 기술로 획득한 인사이트를 통해 단계마다 원본 데이터를 강화하는 보강 파이프라인을 정의합니다. AI 기술로 추출할 수 있는 정보 종류의 예는 다음과 같습니다.
- 문서 작성에 사용되는 언어
- 문서에서 설명하는 주요 테마 또는 항목을 확인하는 데 도움이 될 수 있는 주요 문구
- 문서를 양수 또는 음수로 수량화하는 감정 점수
- 콘텐츠에 언급된 특정 위치, 사람, 조직 또는 주요 사건
- AI에서 생성된 이미지의 설명 또는 광학 인식에서 추출한 이미지 텍스트
- 특정 요구 사항을 충족하기 위해 개발하는 사용자 지정 기술
인덱서
‘인덱서’는 전체 인덱싱 프로세스를 구동하는 엔진입니다. 인덱서는 기술 세트의 기술을 사용하여 추출된 출력을 원래 데이터 원본에서 추출된 데이터 및 메타데이터 값과 함께 가져와 인덱스의 필드에 매핑합니다.
인덱서는 만들어지면 자동으로 실행되며 인덱스에 문서를 추가하기 위해 정기적으로 실행되거나 요청 시 실행되도록 예약할 수 있습니다. 인덱스에 새 필드를 추가하거나 기술 세트에 새 기술을 추가하는 등과 같은 일부 경우에 인덱서를 다시 실행하기 전에 인덱스를 다시 설정해야 할 수 있습니다.
Index
인덱스는 검색 가능한 인덱싱 프로세스의 결과입니다. 인덱스는 인덱싱 중 추출된 값을 포함하는 필드가 있는 JSON 문서 컬렉션으로 구성됩니다. 클라이언트 애플리케이션은 인덱스를 쿼리하여 정보를 검색, 필터링, 정렬할 수 있습니다.
각 인덱스 필드는 다음 특성으로 구성될 수 있습니다.
- key: 인덱스 레코드에 대한 고유 키를 정의하는 필드.
- searchable: 전체 텍스트 검색을 사용하여 쿼리할 수 있는 필드.
- filterable: 지정된 제약 조건과 일치하는 문서만 반환하도록 필터 식에 포함할 수 있는 필드.
- sortable: 결과를 정렬하는 데 사용할 수 있는 필드.
- facetable: ‘패싯’(알려진 필드 값 목록을 기반으로 결과를 필터링하는 데 사용되는 사용자 인터페이스 요소)의 값을 결정하는 데 사용할 수 있는 필드.
- retrievable: 검색 결과에 포함될 수 있는 필드(‘기본적으로 모든 필드는 이 특성을 명시적으로 제거하지 않는 한 검색 가능함’)