의료 데이터 기반을 사용하여 임상 데이터 수집
임상 변환 기능은 의료 데이터 기반의 일부로 배포됩니다. 이 기능은 분석 및 AI/기계 학습 모델링을 위해 데이터를 효율적으로 준비하는 즉시 실행 가능한 데이터 파이프라인을 제공합니다.
배포 및 사용 가능한 아티팩트에 대한 자세한 내용은 다음을 참조하세요.
기본적으로 배포는 의료 데이터 솔루션 환경에 레이크하우스 3개, Notebook 5개, Fabric 환경 및 임상 데이터 파이프라인을 생성합니다. 이 데이터 파이프라인은 임상 데이터를 수집하여 원시 원본 파일에서 브론즈 및 실버 레이크하우스로 변환합니다. 데이터 수집 패턴에서 설명한 대로 수집과 BYOS(Bring Your Own Storage)의 두 가지 수집 패턴을 지원합니다. BYOS 수집 파이프라인 실행은 Azure Health Data Services - 데이터 내보내기 사용에서 설명합니다. 이 문서에서는 수집 패턴을 사용하여 의료 데이터 솔루션과 함께 제공되는 임상 샘플 데이터를 처리하는 방법을 간략하게 설명합니다.
참고
임상 샘플 데이터 세트 대신 사용자 고유의 FHIR 데이터 세트를 사용할 수도 있습니다. 하지만 그렇게 하기 전에 사용 시 고려 사항의 고려 사항을 검토하세요.
사전 요구 사항
- Microsoft Fabric에서 의료 데이터 솔루션 배포
- 의료 데이터 기반 배포에 기초 Notebook과 파이프라인을 설치합니다.
- 샘플 데이터 배포에 설명된 대로 임상 샘플 데이터를 배포합니다.
임상 샘플 데이터를 수집 폴더로 이동
샘플 데이터 배포에 설명된 대로 샘플 데이터를 배포할 경우 임상 샘플 데이터 파일은 브론즈 레이크하우스의 Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
아래 통합 폴더 구조에서 사용할 수 있어야 합니다. OneLake 또는 Azure Storage Explorer를 사용하여 51KSyntheticPatients 파일을 Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS
에서 브론즈 레이크하우스의 Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS
로 복사합니다.
데이터 파이프라인 실행
브론즈 레이크하우스에서 healthcare#_msft_clinical_data_foundation_ingestion 데이터 파이프라인을 실행합니다. 임상 샘플 데이터 크기 및 작업 영역에 할당된 Fabric 용량에 따라 파이프라인 실행은 한 시간 내에 완료되어야 합니다. 파이프라인 실행이 완료된 후 파이프라인이 샘플 데이터에서 성공적으로 실행되었지만 fhir_ingestion_bronze_ingestion Notebook 활동에 대해 실패함 상태가 기록된 것을 볼 수 있습니다.
데이터의 유효성 검사
실제 시나리오에서는 다양한 수준의 품질로 다양한 원본에서 데이터를 수집합니다. 데이터 유효성 검사에서 도입된 검증 엔진은 제공된 임상 샘플 데이터 중 일부에 대해 의도적으로 검증을 트리거합니다. 파이프라인 실행 중에 샘플 데이터의 의도적인 무효화로 인해 수집 작업이 실패합니다. 실패한 파일은 처리되지 않고 Failed 폴더로 이동합니다. 다른 모든 유효한 파일은 성공적으로 처리되어 전체 녹색/성공적인 파이프라인 상태가 됩니다.
실패를 조사하려면 활동 상태에서 실패함 상태 옆에 있는 아이콘을 선택합니다. 여기에는 관리자 레이크하우스 BusinessEvents 테이블의 runId
값을 기반으로 하는 샘플 SQL 쿼리와 함께 오류 세부 정보를 찾는 방법에 대한 정보가 제공됩니다. 이 runId
에 대해 7개의 오류가 나타나며, 모두 Last Updated does not exist
때문입니다. 해당 실패한 NDJSON 파일은 Failed 폴더에 있으며 sourceFilePath
는 …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip
을 가리킵니다.
성공적으로 처리된 파일은 Ingest 폴더(현재는 비어 있음)에서 Process 폴더로 이동됩니다.
또한 브론즈 레이크하우스 ClinicalFhir 테이블에서 수집된 데이터와 실버 레이크하우스의 의료 데이터 모델에 있는 해당 FHIR 테이블을 살펴볼 수 있습니다. 다음은 예상 레코드 수에 대한 요약입니다.
관리 레이크하우스:
- BusinessEvents 테이블: 7개 레코드
브론즈 레이크하우스:
- ClinicalFhir 테이블: 33,317,250 레코드
Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
: 파일 없음Files\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD
: 파일 67개Files\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients
: 파일 1개
실버 레이크하우스:
- 환자 테이블: 47,564개 레코드
- 관찰 테이블: 19,726,265 레코드
- RiskAssessment 테이블: 레코드 없음
사용 시 고려 사항
Microsoft Fabric의 의료 데이터 솔루션에서 FHIR 데이터 세트를 수집하는 경우 다음 요구 사항을 고려합니다.
- 모든 데이터는 NDJSON 형식을 사용해야 합니다.
- 각 파일에는 단일 FHIR 리소스에 대한 데이터만 포함되어야 합니다.
- 파일의 각 리소스에는
Meta.LastUpdated
에 대한 유효한 값이 있는 메타데이터 필드가 필요합니다. 이 값이 없으면 데이터 유효성 검사에 설명된 대로 기본 검증 오류가 발생합니다. - 파일의 각 리소스에는
ID
필드에 대한 값이 있어야 합니다. 이 값이 없으면 데이터 유효성 검사에 설명된 대로 기본 검증 오류가 발생합니다.