프로덕션 중인 모델에서 데이터 수집
적용 대상:Azure CLI ml 확장 v2(현재)Python SDK azure-ai-ml v2(현재)
이 문서에서는 Azure Machine Learning 온라인 엔드포인트에 배포된 모델의 데이터 수집에 대해 알아봅니다.
Azure Machine Learning 데이터 수집기는 관리되는 온라인 엔드포인트 또는 Kubernetes 온라인 엔드포인트에 배포된 모델의 입출력 데이터에 대한 실시간 로깅을 제공합니다. Azure Machine Learning은 기록된 유추 데이터를 Azure Blob Storage에 저장합니다. 그런 다음 이 데이터를 모델 모니터링, 디버깅 또는 감사에 원활하게 사용할 수 있으므로 배포된 모델의 성능을 관찰할 수 있습니다.
데이터 수집기는 다음을 제공합니다.
- 유추 데이터를 중앙 위치에 로깅(Azure Blob Storage)
- 관리되는 온라인 엔드포인트 및 Kubernetes 온라인 엔드포인트 지원
- 배포 수준에서 정의하여 구성을 최대한 변경할 수 있습니다.
- 페이로드 및 사용자 지정 로깅 모두 지원
로깅 모드
데이터 수집기는 페이로드 로깅과 사용자 지정 로깅이라는 두 가지 로깅 모드를 제공합니다. 페이로드 로깅을 사용하면 배포된 모델에서 HTTP 요청 및 응답 페이로드 데이터를 수집할 수 있습니다. 사용자 지정 로깅을 통해 Azure Machine Learning은 채점 스크립트에서 직접 Pandas DataFrames를 로깅하기 위한 Python SDK를 제공합니다. 사용자 지정 로깅 Python SDK를 사용하면 데이터 변환(또는 전처리) 전, 도중, 후에 데이터 외에도 모델 입출력 데이터를 기록할 수 있습니다.
데이터 수집기 구성
데이터 수집기는 배포 수준에서 구성할 수 있으며 구성은 배포 시 지정됩니다. 수집된 데이터를 수신할 Azure Blob Storage 대상을 구성할 수 있습니다. 수집할 데이터의 샘플링 속도(0~100% 범위)를 구성할 수도 있습니다.
제한 사항
데이터 수집기에는 다음과 같은 제한 사항이 있습니다.
- 데이터 수집기는 온라인(또는 실시간) Azure Machine Learning 엔드포인트(관리 또는 Kubernetes)에 대한 로깅만 지원합니다.
- 데이터 수집기 Python SDK는 Pandas DataFrames를 통한 표 형식 데이터 로깅만 지원합니다.