다음을 통해 공유


Azure AI 검색의 디버그 세션

디버그 세션은 Azure Portal의 기존 기술 세트와 함께 작동하는 시각적 편집기로, 세션 기간 동안 인덱서 및 기술 세트에 의해 생성된 보강된 단일 문서의 구조와 콘텐츠를 노출합니다. 라이브 문서로 작업하고 있기 때문에 세션은 대화형입니다. 오류를 식별하고, 기술 실행을 수정 및 호출하고, 결과를 실시간으로 유효성 검사할 수 있습니다. 변경 내용으로 문제가 해결되면 게시된 기술 집합에 커밋하여 전역적으로 수정 사항을 적용할 수 있습니다.

이 문서에서는 지원되는 시나리오와 편집기를 구성하는 방법을 설명합니다. 편집기의 탭과 섹션에서는 기술 세트의 다양한 계층을 풀어 기술 세트 구조, 흐름 및 런타임 시 생성되는 콘텐츠를 검사할 수 있습니다.

지원되는 시나리오

디버그 세션을 사용하여 다음과 같은 문제를 조사하고 해결합니다.

  • OCR, 이미지 분석, 엔터티 인식, 키워드 추출과 같은 AI 보강에 사용되는 기본 제공 기술입니다.

  • 텍스트 분할을 통한 데이터 청크 및 임베딩 기술을 통한 벡터화를 통해 통합된 벡터화에 사용되는 기본 제공 기술입니다.

  • 제공하는 외부 처리를 통합하는 데 사용되는 사용자 지정 기술입니다.

처음 두 시나리오에 대한 다음 디버그 세션 이미지를 비교합니다. 두 시나리오 모두의 경우 노출 영역은 원본 문서에서 검색 인덱스로 이동하는 중에 콘텐츠를 생성하거나 변환하는 기술의 진행률을 보여 줍니다. 흐름에는 인덱스 매핑 옵션이 포함되어 있으며 화살표를 추적하여 처리 내역을 따라 확인할 수 있습니다. 오른쪽의 세부 정보 창은 컨텍스트에 따라 달라집니다. 보강된 문서의 표현이나 기술 또는 매핑의 세부 정보를 보여 줍니다.

첫 번째 이미지는 적용된 AI 보강의 패턴을 보여 줍니다. 종속성이 없는 경우 기술을 순차적으로 또는 병렬로 실행할 수 있습니다. 출력 필드 매핑은 보강된 콘텐츠 또는 생성된 콘텐츠를 메모리 내 데이터 구조에서 인덱스의 필드로 보냅니다.

OCR 및 이미지 분석을 위한 디버그 세션의 스크린샷

두 번째 이미지는 통합된 벡터화의 일반적인 패턴을 보여 줍니다. 통합된 벡터화 기술에는 일반적으로 텍스트 분할 및 임베딩 기술이 포함됩니다. 텍스트 분할 기술은 문서를 페이지로 청크 분할합니다. 임베딩 기술은 벡터화를 제공합니다. 프로젝션 매핑은 콘텐츠 청크가 인덱싱되는 방식을 제어합니다. 이 특정 기술 세트는 부모 인덱스를 건너뛰고 청크의 원본을 식별하기 위해 메타데이터를 사용하여 청크 분할된 콘텐츠의 인덱스를 만듭니다.

통합된 벡터화를 위한 디버그 세션의 스크린샷

제한 사항

디버그 세션은 다음을 제외하고 일반 공급한 모든 인덱서 데이터 원본 및 대부분의 미리 보기 데이터 원본에서 작동합니다.

  • SharePoint Online 인덱서

  • Azure Cosmos DB for MongoDB 인덱서

  • Azure Cosmos DB for NoSQL의 경우 인덱스 중에 행이 실패하고 해당 메타데이터가 없는 경우 디버그 세션이 올바른 행을 선택하지 못할 수 있습니다.

  • Azure Cosmos DB의 SQL API의 경우 분할된 컬렉션이 이전에 분할되지 않은 경우 디버그 세션에서 문서를 찾을 수 없습니다.

  • 사용자 지정 기술의 경우 Azure Storage에 대한 디버그 세션 연결에는 사용자 할당 관리 ID가 지원되지 않습니다. 필수 구성 요소에 명시된 대로 시스템 관리 ID를 사용하거나, 키가 포함된 전체 액세스 연결 문자열을 지정할 수 있습니다. 자세한 내용은 관리 ID를 사용하여 다른 Azure 리소스에 검색 서비스 연결을 참조하세요.

  • 현재 디버그할 문서를 선택할 수 없습니다. 이 제한은 영구적이지 않으며 곧 해제될 예정입니다. 이때 디버그 세션은 원본 데이터 컨테이너 또는 폴더의 첫 번째 문서를 선택합니다.

디버그 세션 작동 방식

세션을 시작하면 검색 서비스가 기술 집합, 인덱서 및 기술 집합을 테스트하는 데 사용할 단일 문서가 포함된 데이터 원본의 복사본을 만듭니다. 모든 세션 상태는 사용자가 제공한 Azure Storage 계정의 Azure AI 검색 서비스에서 만든 새 Blob 컨테이너에 저장됩니다. 생성된 컨테이너의 이름에는 ms-az-cognitive-search-debugsession이라는 접두사가 있습니다. 접두사는 실수로 계정의 다른 컨테이너로 세션 데이터를 내보낼 가능성을 줄이기 때문에 필요합니다.

보강된 문서 및 기술 집합의 캐시된 복사본이 시각적 편집기에 로드되므로 각 문서 노드를 확인하고 기술 집합 정의의 모든 측면을 편집할 수 있는 기능을 통해 보강된 문서의 콘텐츠 및 메타데이터를 검사할 수 있습니다. 세션 내에서 이루어진 모든 변경 내용은 캐시됩니다. 이러한 변경 내용은 커밋하지 않는 한 게시된 기술 세트에 영향을 미치지 않습니다. 변경 내용을 커밋하면 프로덕션 기술 세트를 덮어쓰게 됩니다.

보강 파이프라인에 오류가 없으면 변경 내용을 커밋하기 전에 디버그 세션을 사용하여 문서를 점증적으로 보강하고, 테스트하고, 유효성을 검사할 수 있습니다.

디버그 세션 레이아웃

시각적 편집기는 문서 크래킹부터 시작하여 기술, 매핑, 인덱스로 이어지는 작업의 진행 과정을 보여 주는 노출 영역으로 구성됩니다.

기술 또는 매핑을 선택하면 관련 정보를 표시하는 창이 열립니다.

더 많은 정보를 얻기 위한 드릴다운 기능이 있는 기술 세부 정보 창을 보여 주는 스크린샷

기술 처리에 대해 더 자세히 알아보려면 링크를 따릅니다. 예를 들어 다음 스크린샷은 텍스트 분할 기술의 첫 번째 반복 출력을 보여 줍니다.

지정된 출력에 대한 식 계산기가 있는 기술 세부 정보 창을 보여 주는 스크린샷

기술 세부 정보 창

기술 세부 정보 창에는 다음 섹션이 있습니다.

  • 반복: 기술이 실행되는 횟수를 보여 줍니다. 각 입력 및 출력을 확인할 수 있습니다.
  • 기술 설정: JSON 기술 세트 정의를 보거나 편집합니다.
  • 오류 및 경고: 이 기술과 관련된 오류 또는 경고를 표시합니다.

보강된 데이터 구조 창

파란색 표시 또는 숨기기 화살표 기호를 선택하면 보강된 데이터 구조 창이 옆으로 슬라이드됩니다. 이는 보강된 문서에 포함된 내용을 사람이 읽을 수 있게 표현한 것입니다. 이 문서의 이전 스크린샷은 보강된 데이터 구조의 예를 보여 줍니다.

다음 단계

이제 디버그 세션의 요소를 이해했으므로 기존 기술 집합에서 첫 번째 디버그 세션을 시작합니다.