AI 게이트웨이가 활성화된 유추 테이블을 사용하여 제공된 모델을 모니터링합니다.
중요하다
이 기능은 공개 프리뷰에 있습니다.
중요하다
이 문서에서는 외부 모델, 프로비전된 처리량 워크로드 또는 에이전트 모델의 유추 테이블에 적용되는 항목을 설명합니다. 사용자 지정 모델
이 문서에서는 제공된 모델을 모니터링하기 위한 AI 게이트웨이 사용 유추 테이블에 대해 설명합니다. 유추 테이블은 엔드포인트에 대해 들어오는 요청 및 나가는 응답을 자동으로 캡처하고 Unity 카탈로그 델타 테이블로 기록합니다. 이 표의 데이터를 사용하여 기계 학습 모델을 모니터링, 평가, 비교 및 미세 조정할 수 있습니다.
AI 게이트웨이를 지원하는 추론 테이블이란?
AI 게이트웨이를 사용한 추론 테이블은 Mosaic AI 모델 서빙의 엔드포인트에서 요청 입력 및 응답(예측)을 지속적으로 기록하고, Unity 카탈로그의 Delta 테이블에 저장함으로써 모델의 모니터링 및 진단을 더욱 간편하게 합니다. 그런 다음 Databricks SQL 쿼리와 노트북과 같은 Databricks 플랫폼의 모든 기능을 사용하여 모델을 모니터링하고 디버그하며 최적화할 수 있습니다.
엔드포인트를 제공하는 기존 또는 새로 만든 모델에서 유추 테이블을 사용하도록 설정할 수 있으며, 해당 엔드포인트에 대한 요청은 Unity 카탈로그의 테이블에 자동으로 기록됩니다.
유추 테이블에 대한 몇 가지 일반적인 애플리케이션은 다음과 같습니다.
- 학습 데이터셋을 만듭니다. 유추 테이블을 지상 진리 레이블과 조인하여 모델을 재학습하거나 미세 조정하고 개선하는 데 사용할 수 있는 학습 모음을 만들 수 있습니다. Databricks 작업을 사용하여 지속적인 피드백 루프를 설정하고 재훈련을 자동화할 수 있습니다.
- 데이터 및 모델 품질을 모니터링합니다. Lakehouse 모니터링을 사용하여 모델 성능 및 데이터 드리프트를 지속적으로 모니터링할 수 있습니다. Lakehouse 모니터링은 관련자와 공유할 수 있는 데이터 및 모델 품질 대시보드를 자동으로 생성합니다. 또한 들어오는 데이터의 변화 또는 모델 성능 감소에 따라 모델을 다시 학습해야 하는 경우 경고를 알 수 있습니다.
- 프로덕션 문제를 디버그합니다. 추론 테이블은 HTTP 상태 코드, 요청 및 응답 JSON 코드, 모델 실행 시간, 그리고 모델 실행 시간 동안의 추적 출력을 기록합니다. 디버깅을 위해 이 성능 데이터를 사용할 수 있습니다. 유추 테이블의 기록 데이터를 사용하여 기록 요청의 모델 성능을 비교할 수도 있습니다.
요구 사항
AI 게이트웨이가 사용된 추론 테이블은 프로비전된 처리량
을 사용하거나 외부 모델 을 제공하는 엔드포인트에 대해서만 지원됩니다. 다음 중 하나인 Databricks 작업 공간:
Unity 카탈로그 저장소 계정에 프라이빗 연결이 설정된 작업 영역의 경우 서버리스 컴퓨팅프라이빗 연결 설정의 단계를 따르세요.
Databricks는 유추 테이블의 최적화된 성능을 위해 예측 최적화 사용하도록 설정할 권장합니다.
작업 영역에 Unity 카탈로그가 활성화되어 있어야 합니다.
엔드포인트의 작성자와 한정자 모두 엔드포인트에 대한 관리 가능 권한이 있어야 합니다. 접근 제어 목록을 참조하세요.
엔드포인트의 작성자와 수정자 모두 Unity 카탈로그에서 다음과 같은 권한를 가지고 있어야 합니다.
- 지정된 카탈로그에 대한 사용 권한
USE CATALOG
. - 지정된 스키마에 대한
USE SCHEMA
사용 권한. - 스키마에서의
CREATE TABLE
권한.
- 지정된 카탈로그에 대한 사용 권한
경고
다음 중 한 가지 작업을 수행하면 유추 테이블이 데이터 로깅을 중지하거나 손상될 수 있습니다.
- 테이블 스키마를 변경합니다.
- 테이블 이름을 변경합니다.
- 테이블을 삭제합니다.
- Unity 카탈로그 또는 스키마에 대한 사용 권한을 잃게 됩니다.
유추 테이블 사용 및 사용 안 함
이 섹션에서는 서비스 UI를 사용하여 유추 테이블을 사용하거나 사용하지 않도록 설정하는 방법을 보여 줍니다. 유추 테이블의 소유자는 엔드포인트를 만든 사용자입니다. 테이블의 모든 ACL(액세스 제어 목록)은 표준 Unity 카탈로그 사용 권한을 따르며 테이블 소유자가 수정할 수 있습니다.
엔드포인트를 만드는 동안 유추 테이블을 사용하도록 설정하려면 다음 단계를 사용합니다.
- Databricks Mosaic AI UI에서 서빙을 클릭합니다.
- 서비스 엔드포인트만들기
클릭합니다. - AI 게이트웨이 섹션에서 유추 테이블 사용선택합니다.
기존 엔드포인트에서 유추 테이블을 사용하도록 설정할 수도 있습니다. 기존 엔드포인트 구성을 편집하려면 다음을 수행합니다.
- AI 게이트웨이 섹션에서 AI Gateway편집을 클릭합니다.
- 추론 테이블 활성화선택합니다.
다음 지침에 따라 유추 테이블을 사용하지 않도록 설정합니다.
- 해당 엔드포인트 페이지로 이동하세요.
- AI 게이트웨이편집을 클릭합니다.
- 유추 테이블 사용 설정을 클릭하여 확인 표시를 제거합니다.
- AI Gateway 사양에 대해 만족하시면 업데이트클릭하세요.
유추 테이블의 결과 쿼리 및 분석
제공된 모델이 준비되면 모델에 대한 모든 요청이 응답과 함께 유추 테이블에 자동으로 기록됩니다. UI에서 테이블을 보거나 Databricks SQL 또는 Notebook에서 테이블을 쿼리하거나 REST API를 사용하여 테이블을 쿼리할 수 있습니다.
UI: 엔드포인트 페이지에서 테이블을 보려면 유추 테이블의 이름을 클릭하여 카탈로그 탐색기에서 테이블을 엽니다.
엔드포인트 페이지의 유추 테이블 이름에 대한
Databricks SQL 또는 Databricks Notebook에서 테이블을 쿼리하려면 다음과 유사한 코드를 실행하여 유추 테이블을 쿼리할 수 있습니다.
SELECT * FROM <catalog>.<schema>.<payload_table>
** 추론 테이블 데이터를 엔드포인트에 제공되는 기본 모델에 대한 세부 정보와 조인하려면:** 기반 모델 세부 정보는 system.serving.served_entities 시스템 테이블에 캡처됩니다.
SELECT * FROM <catalog>.<schema>.<payload_table> payload
JOIN system.serving.served_entities se on payload.served_entity_id = se.served_entity_id
AI 게이트웨이 사용 유추 테이블 스키마
AI Gateway를 사용하여 사용하도록 설정된 유추 테이블에는 다음 스키마가 있습니다.
열 이름 | 묘사 | 유형 |
---|---|---|
request_date |
모델 제공 요청이 수신된 UTC 날짜입니다. | 날짜 |
databricks_request_id |
모든 모델 서비스 요청에 첨부된 Azure Databricks가 생성한 요청 식별자입니다. | 문자열 |
request_time |
요청이 수신되는 타임스탬프입니다. | 타임 스탬프 |
status_code |
모델에서 반환된 HTTP 상태 코드입니다. | INT |
sampling_fraction |
요청이 축소 샘플링된 경우에 사용된 샘플링 분수입니다. 이 값은 0에서 1 사이입니다. 여기서 1은 들어오는 요청의 100% 포함되었음을 나타냅니다. | 더블 |
execution_duration_ms |
모델이 유추를 수행한 시간(밀리초)입니다. 여기에는 오버헤드 네트워크 대기 시간이 포함되지 않으며 모델이 예측을 생성하는 데 걸린 시간만 나타냅니다. | BIGINT |
request |
엔드포인트를 제공하는 모델로 전송된 원시 요청 JSON 본문입니다. | 문자열 |
response |
모델 서비스 엔드포인트에서 반환한 원시 응답 JSON 내용입니다. | 문자열 |
served_entity_id |
제공된 엔터티의 고유 ID입니다. | 문자열 |
logging_error_codes |
데이터를 기록할 수 없을 때 발생한 오류입니다. 오류 코드에는 MAX_REQUEST_SIZE_EXCEEDED 및 MAX_RESPONSE_SIZE_EXCEEDED 포함됩니다. |
배열 |
requester |
서비스 엔드포인트의 호출 요청에 사용 권한이 사용되는 사용자 또는 서비스 주체의 ID입니다. | 문자열 |
제한 사항
프로비전된 처리량 워크로드:
- 프로비저닝된 처리량을 사용하는 새 모델 제공 엔드포인트를 생성하는 경우 AI 게이트웨이를 활성화한 추론 테이블만 지원됩니다.
- 프로비전된 처리량을 사용하는 엔드포인트를 제공하는 기존 모델이 있고 이전에구성된 유추 테이블이
경우 AI Gateway 지원 유추 테이블을 사용하도록 업데이트할 수 있습니다. - 프로비전된 처리량을 사용하는 엔드포인트를 제공하는 기존 모델이 있고 현재 또는 이전에 구성된유추 테이블이
경우 AI 게이트웨이 사용 유추 테이블을 사용하도록 업데이트하지 수 있습니다. - 스트리밍 AI 에이전트 응답 로그의 경우 ChatCompletion 호환 필드 및 추적만 집계됩니다.
유추 테이블 로그는 현재 최선의 노력을 다해 배달되지만, 요청 후 1시간 이내에 로그를 사용할 수 있을 것으로 예상할 수 있습니다. 자세한 내용은 Databricks 계정 팀에 문의하세요.
기록되는 최대 요청 및 응답 크기는 1MiB(1,048,576바이트)입니다. 이를 초과하는 요청 및 응답 페이로드는
null
으로 기록되며,logging_error_codes
은MAX_REQUEST_SIZE_EXCEEDED
또는MAX_RESPONSE_SIZE_EXCEEDED
으로 채워집니다.
AI 게이트웨이와 관련된 제한 사항은 제한 사항참조하세요. 일반 모델 서비스 엔드포인트 제한 사항에 대해서는 모델 서비스 제한 및 지역을 참조하세요.