Azure AI 검색의 AI 보강을 위한 팁
이 문서에는 인덱싱 중에 사용되는 AI 보강 및 기술 세트를 시작하는 데 도움이 되는 팁이 포함되어 있습니다.
팁 1: 간단히 시작 및 작게 시작
Azure Portal의 데이터 가져오기 마법사와 데이터 가져오기 및 벡터화 마법사는 모두 AI 보강을 지원합니다. 코드를 작성하지 않고도 인덱스, 인덱서, 데이터 원본 및 기술 세트와 같이 보강 파이프라인에 사용되는 모든 개체를 만들고 검사할 수 있습니다.
간단히 시작하는 또 다른 방법은 먼저 인덱싱할 문서를 나타내는 소수의 문서 또는 행만 있는 데이터 원본을 테이블에 만드는 것입니다. 작은 데이터 세트는 문제를 더 빠르게 찾고 해결하는 가장 좋은 방법입니다. 엔드투엔드 파이프라인을 통해 샘플을 실행하고 결과가 요구 사항을 충족하는지 확인합니다. 결과에 만족하면 데이터 원본에 더 많은 파일을 추가할 수 있습니다.
팁 2: 오류가 있더라도 작동하는 기능 확인
경우에 따라 작은 오류가 해당 트랙에서 인덱서를 중지합니다. 차례로 문제를 해결하려는 경우 괜찮습니다. 그러나 특정 유형의 오류를 무시하고 어떤 흐름이 실제로 작동하는지 확인할 수 있도록 인덱서를 계속 허용하려 할 수 있습니다.
개발 중에 발생하는 오류를 무시하려면 인덱서 정의의 일부로 maxFailedItems
및 maxFailedItemsPerBatch
를 -1로 설정합니다.
{
// rest of your indexer definition
"parameters":
{
"maxFailedItems":-1,
"maxFailedItemsPerBatch":-1
}
}
참고 항목
프로덕션 워크로드의 경우 maxFailedItems
및 maxFailedItemsPerBatch
를 0으로 설정하는 것이 가장 좋습니다.
팁 3: 디버그 세션을 사용하여 문제 해결
디버그 세션은 기술 세트의 종속성 그래프, 입력 및 출력 및 정의를 보여 주는 시각적 편집기입니다. 현재 인덱서 및 기술 세트 구성을 사용하여 검색 인덱스에서 단일 문서를 로드하여 작동합니다. 그런 다음, 단일 문서로 범위가 지정된 전체 기술 세트를 실행할 수 있습니다. 디버그 세션 내에서 오류를 식별 및 해결하고, 변경 내용의 유효성을 검사하고, 부모 기술 세트에 변경 내용을 커밋할 수 있습니다. 연습은 자습서: 디버그 세션을 참조하세요.
팁 4: 예상 콘텐츠가 표시되지 않음
콘텐츠가 누락된 경우 Azure Portal에서 삭제된 문서를 확인합니다. 검색 서비스 페이지에서 인덱서를 열고 문서 성공 열을 확인합니다. 인덱서 실행 기록을 클릭하여 특정 오류를 검토합니다.
문제가 파일 크기와 관련된 경우 "Blob <file-name>"은 현재 서비스 계층에 대해 문서 추출을 위한 최대 크기를 초과하는 <file-size> 바이트 크기입니다."라는 오류가 표시될 수 있습니다. 인덱서 제한에 대한 자세한 내용은 서비스 제한을 참조하세요.
콘텐츠를 표시하는 데 실패한 두 번째 이유는 관련된 입/출력 매핑 오류일 수 있습니다. 예를 들어 출력 대상 이름은 "People"이지만 인덱스 필드 이름은 소문자 "people"입니다. 실제로 필드가 비어있을 때 인덱싱이 성공한 것으로 생각하도록 시스템이 전체 파이프라인에 대한 201 성공 메시지를 반환할 수 있습니다.
팁 5: 최대 실행 시간을 초과하여 처리 확장
이미지 분석은 단순한 사례라도 계산 집약적이므로 이미지가 특히 크거나 복잡한 경우 처리 시간이 최대 허용 시간을 초과할 수 있습니다.
기술 세트가 있는 인덱서의 경우 기술 세트 실행이 대부분의 계층에 대해 2시간으로 제한됩니다. 해당 기간 내에 기술 세트 처리가 완료되지 않으면 인덱서가 중단된 곳에서 처리를 선택하도록 인덱서에 2시간 반복 일정을 적용할 수 있습니다.
마지막으로 알려진 올바른 문서에서 예약된 인덱싱이 다시 시작됩니다. 처리되지 않은 이미지를 모두 처리할 때까지, 인덱서는 반복 일정에 따라 일련의 시간 또는 일이 지나는 동안 이미지 백로그를 통해 자기 방식대로 작동할 수 있습니다. 일정 구문에 대한 자세한 내용은 인덱서 예약을 참조합니다.
참고 항목
인덱서가 특정 일정으로 설정되어 있지만 실행될 때마다 같은 문서를 반복적으로 실패하는 경우 인덱서는 성공적으로 다시 진행될 때까지 빈도가 낮은 간격(최대 24시간마다 한 번 이상)으로 실행을 시작합니다. = 인덱서가 특정 지점에서 고착되는 문제를 해결한 것으로 판단되는 경우 인덱서의 요청 시 실행을 수행할 수 있으며, 성공적으로 진행되면 인덱서는 설정된 일정 간격으로 다시 돌아갑니다.
팁 6: 인덱싱 처리량 증가
병렬 인덱싱의 경우 여러 컨테이너에 데이터를 또는 동일한 컨테이너 내부에 여러 가상 폴더를 분산합니다. 그런 다음, 여러 데이터 원본 및 인덱서 쌍을 만듭니다. 모든 인덱서는 동일한 기술 집합을 사용하며 동일한 대상 검색 인덱스에 쓸 수 있으므로 검색 앱이 이 분할을 알 필요가 없습니다.