다음을 통해 공유


의료 데이터 솔루션에서 DICOM 데이터 변환 사용

의료 데이터 솔루션의 DICOM 데이터 변환 기능을 사용하면 다양한 소스에서 DICOM(Digital Imaging and Communications in Medicine) 데이터를 수집, 저장 및 분석할 수 있습니다. 기능에 대해 자세히 알아보고 배포 및 구성하는 방법을 이해하려면 다음을 참조하세요.

DICOM 데이터 변환은 Microsoft Fabric의 의료 데이터 솔루션에 포함된 옵션 기능입니다.

사전 요구 사항

DICOM 데이터 변환 파이프라인을 실행하기 전에 DICOM 데이터 변환 배포 및 구성에서 설명한 필수 구성 요소, 배포 프로세스 및 구성 단계를 완료했는지 확인하세요.

데이터 수집 옵션

이 문서에서는 DICOM 데이터 변환 기능을 사용하여 DICOM 영상 데이터 세트를 수집, 변환, 통합하는 방법에 대한 단계별 지침을 제공합니다. 이 기능은 다음 두 가지 수집 옵션을 지원합니다.

  • 옵션 1: DICOM 파일의 엔드투엔드 수집. 네이티브(DCM) 또는 압축(ZIP) 형식의 DICOM 파일은 레이크하우스로 수집됩니다. 이 옵션을 수집 옵션이라고 합니다.

  • 옵션 2: DICOM 서비스와의 통합. 수집은 Azure Health Data Services의 DICOM 서비스와의 네이티브 통합을 통해 촉진됩니다. 이 옵션에서 DCM 파일은 먼저 Azure Health Data Services DICOM 서비스에서 Data Lake Storage Gen2로 전송됩니다. 그런 다음 파이프라인은 BYOS(Bring Your Own Storage) 수집 패턴을 따릅니다. 이 옵션을 AHDS(Azure Health Data Services) 옵션이라고 합니다.

변환 매핑 세부 정보를 알아보려면 의료 데이터 솔루션에서 DICOM 메타데이터 변환 매핑를 참조하세요.

옵션 1: DICOM 파일의 엔드투엔드 수집

이 옵션에서는 사전 구축된 데이터 파이프라인을 사용하여 DICOM 파일의 영상 데이터를 수집하여 의료 데이터 솔루션 레이크하우스로 변환합니다. 종단간 변환은 다음과 같은 연속적인 단계로 구성됩니다.

  1. DICOM 파일을 OneLake로 수집
  2. OneLake에서 DICOM 파일 구성
  3. DICOM 메타데이터를 브론즈 레이크하우스로 추출
  4. DICOM 메타데이터를 FHIR(전자 의료 기록 교환) 형식으로 변환
  5. 브론즈 레이크하우스의 ImagingStudy 델타 테이블에 데이터 수집
  6. 실버 레이크하우스의 ImagingStudy 델타 테이블로 데이터를 평면화하고 변환합니다
  7. 골드 레이크하우스의 Image_Occurrence 테이블로 데이터 변환 및 수집(선택 사항)

이 수집 옵션은 압축된 ZIP 파일이 들어 있는 340ImagingStudies 샘플 데이터 세트를 사용합니다. 또는 DICOM 파일을 Ingest 폴더에 저장하여 원래 DCM 형식으로 직접 수집할 수 있습니다. ZIP 파일 내에서 DCM 파일은 여러 개의 중첩된 하위 폴더로 구조화될 수 있습니다. DCM 파일의 수나 수집된 ZIP 파일 내 하위 폴더의 수, 깊이, 중첩에 제한이 없습니다. 파일 크기 제한에 대한 자세한 내용은 수집 파일 크기를 참조하세요.

단계 1: DICOM 파일을 OneLake로 수집

브론즈 레이크하우스의 Ingest 폴더는 드롭(큐) 폴더를 나타냅니다. 이 폴더 안에 DICOM 파일을 놓을 수 있습니다. 그런 다음 파일은 브론즈 레이크하우스 내의 정리된 폴더 구조로 이동합니다.

  1. 청동 레이크하우스의 Ingest\Imaging\DICOM\DICOM-HDS 폴더로 이동하세요.

  2. 선택 ... (줄임표) >업로드>폴더 업로드.

  3. SampleData 폴더에서 340ImagingStudies 이미징 데이터 세트를 선택하여 업로드합니다. SampleData\Imaging\DICOM\DICOM-HDS 또는 OneLake 파일 탐색기 또는 Azure Storage Explorer 를 사용하여 샘플 데이터 세트를 업로드할 수도 있습니다.

단계 2: 이미징 데이터 파이프라인 실행

DCM/ZIP 파일을 청동 레이크하우스의 Ingest 폴더로 옮긴 후 이제 이미징 데이터 파이프라인을 실행하여 데이터를 실버 레이크하우스로 구성하고 처리할 수 있습니다.

  1. 의료 데이터 솔루션 환경에서 healthcare#_msft_imaging_with_clinical_foundation_ingestion 데이터 파이프라인을 열어보세요.

  2. 청동에서 은색 레이크하우스로 이미지 데이터를 처리하려면 실행 버튼를 선택하세요.

이 데이터 파이프라인은 순차적으로 5개의 노트북을 실행합니다. 3개는 의료 데이터 기반 기능의 일부로 배포되고 2개는 DICOM 데이터 변환 기능에서 배포됩니다. 이러한 노트북에 대해 자세히 알아보려면 DICOM 데이터 변환: 아티팩트를 참조하세요.

샘플 파이프라인 실행을 표시하는 스크린샷입니다.

단계 3: 실버에서 골드로 변환 노트북을 실행하세요

참고

이 변환 단계는 선택 사항입니다. DICOM 데이터를 관찰 의료 결과 파트너십(OMOP) 공통 데이터 모델(CDM) 형식으로 추가로 변환해야 하는 경우에만 사용하세요. 그렇지 않으면 이 단계를 건너뛸 수 있습니다.

이 변환을 실행하기 전에 먼저 의료 데이터 솔루션에서 OMOP 변환 기능 을 배포하고 구성하세요.

이미징 파이프라인을 실행한 후, 이미징 데이터는 레이크하우스로 변환됩니다. 은색 레이크하우스는 다양한 모달리티의 데이터가 구조화된 방식으로 수렴되기 시작하는 초기 가리키다 역할을 합니다. 데이터를 OMOP 코호트 발견 및 구축(프리뷰) 기능에 사용할 연구 표준으로 추가로 변환하려면 실버에서 골드로 변환 노트북을 실행하세요.

  1. 의료 데이터 솔루션 환경에서 healthcare#_msft_omop_silver_gold_transformation 노트북을 여세요.

    이 노트북은 의료 데이터 솔루션 OMOP API를 사용하여 실버 레이크하우스의 리소스를 골드 레이크하우스의 OMOP CDM 델타 테이블로 변환합니다. 기본적으로 Notebook 구성을 변경할 필요가 없습니다.

  2. 모두 실행을 선택하여 Notebook을 실행합니다.

    노트북은 실버 레이크하우스의 OMOP ImagingStudy 델타 테이블에서 새 레코드나 업데이트된 레코드를 추적하고 처리하는 추적 접근 방식 을 구현합니다. 실버 레이크하우스( ImagingStudy 테이블 포함)의 FHIR 델타 테이블의 데이터를 골드 레이크하우스의 해당 OMOP 델타 테이블로 변환합니다. ( Image_Occurrence 테이블 포함). 이 변환에 대한 자세한 내용은 은에서 금으로의 델타 표에 대한 변환 매핑를 참조하세요.

    자세한 OMOP 매핑 정보는 FHIR to매핑 OMOP 에서 확인하세요.

단계 4: 데이터 검증

실제 상황에서 데이터 수집에는 다양한 품질 수준의 소스가 관련됩니다. 데이터 검증에서 자세히 설명한 검증 엔진은 제공된 이미지 샘플 데이터 중 일부에 대해 의도적으로 검증을 트리거합니다. DICOM 표준을 준수하지 않는 파일은 실패 폴더로 이동되고 처리되지 않습니다. 하지만 이미징 샘플 데이터에서 볼 수 있듯이, 단일 파일 장애로 인해 파이프라인 전체가 중단되는 것은 아닙니다. 파이프라인과 관련 노트북은 성공적으로 실행되었지만, 실패 폴더 아래에 Imaging\DICOM\DICOM-HDS\YYYY\MM\DD 비준수 파일이 포함되어 있습니다. 다른 모든 유효한 파일은 성공적으로 처리되어 전체적으로 성공적인 파이프라인 상태가 됩니다. 우리는 의도적으로 이 잘못된 파일을 이미징 샘플 데이터에 포함시켜서 이미징 파이프라인이 잘못된 파일을 어떻게 처리하는지 보여주고 데이터 세트 문제를 식별하는 데 도움을 줍니다.

 **Failed** 폴더에 있는 유효하지 않은 파일을 표시하는 스크린샷입니다.

파이프라인이 원시 DICOM 파일에서 모든 메타데이터를 성공적으로 추출했는지 확인하려면 청동 레이크하우스를 열고 SQL 분석 끝점로 전환한 다음 새 SQL 쿼리를 선택합니다.

SQL 분석 끝점 스위치를 표시하는 스크린샷.

파이프라인이 올바르게 실행되었다면 ImagingDicom 테이블에서 성공적으로 처리된 DICOM 인스턴스 7739개가 표시되어야 합니다. 확인하려면 다음 SQL 쿼리를 실행하세요. 성공적인 처리를 위해 결과 창에 7739 가 표시되어야 합니다. 이 숫자는 컴퓨터 단층촬영(CT) 및 자기공명영상(MRI) 스캔과 같은 다양한 모달리티의 데이터를 포함하여 샘플 데이터의 DICOM 인스턴스의 총 수를 나타냅니다.

select count(*) from ImagingDicom

청동 레이크하우스에서 DICOM 인스턴스를 표시하는 스크린샷입니다.

파이프라인이 레이크하우스에 성공적으로 수화 작용을 했는지 확인하려면 실버 레이크하우스를 열고 SQL 분석 끝점로 전환한 다음 새로운 SQL 쿼리를 선택하세요. 파이프라인을 올바르게 실행하려면 339개의 ImagingStudy 리소스가 성공적으로 처리되어야 합니다. 확인하려면 다음 SQL 쿼리를 실행하세요. 처음에는 340 ImagingStudy 리소스로 시작했지만 처리하는 동안 오류가 발생했습니다.

 select count(*) from ImagingStudy

실버 레이크하우스에서 DICOM 인스턴스를 표시하는 스크린샷.

옵션 2: DICOM 서비스와의 통합

중요

Azure Health Data Services DICOM 서비스를 사용하고 DICOM API를 배포한 경우에만 이 변환 옵션을 사용하세요.

이 변환 접근 방식은 Azure Health Data Services DICOM 서비스를 통해 BYOS(Bring Your Own Storage) 패턴 을 확장합니다. DICOM 서비스는 DICOM 객체를 저장, 검토, 검색, 삭제할 수 있는 DICOMweb API 의 하위 집합입니다. Azure Data Lake Storage Fabric 작업 공간에 연결된 Gen2 계정과 통합되므로 변환 파이프라인이 DICOM 데이터에 직접 액세스할 수 있습니다.

또는 Azure DICOM API를 사용하지 않고 Data Lake Storage Gen2 계정에 저장된 DICOM 파일을 수집할 수 있습니다(이 경우 단계 5에서 시작).

  1. Azure Health Data Services에서 DICOM API 배포에서 구성을 검토하고 완료하세요.

  2. Azure DICOM 서비스를 배포한 후 Store (STOW-RS) API를 사용하여 DCM 파일을 수집합니다. OneLake 파일 탐색기 또는 Azure Storage Explorer를 사용하여 이미징 샘플 데이터에서 DCM 파일을 다운로드하여 테스트합니다.

  3. 선호하는 언어에 따라 다음 옵션 중 하나를 사용하여 DCM 파일을 서버에 업로드합니다.

  4. 파일 업로드가 성공했는지 확인하세요:

    1. Azure 포털에서 DICOM 서비스에 연결된 스토리지 계정을 선택합니다.
    2. 컨테이너 로 이동하여 경로를 따라와합니다. [ContainerName]/AHDS/[AzureHealthDataServicesWorkspaceName]/dicom/[DICOMServiceName]
    3. 여기에 업로드된 DCM 파일을 확인하세요.

    업로드된 데이터를 표시하는 Azure Portal 스크린샷.

    참고

    • 서버에 업로드하면 파일 이름이 변경될 수 있습니다. 하지만 파일 내용은 변경되지 않습니다.
    • 파일 크기 제한에 대한 자세한 내용은 수집 파일 크기를 참조하세요.
  5. Data Lake Storage Gen2 위치에 저장된 DICOM 파일에 대한 바로가기를 청동 레이크하우스에 만듭니다. 따라와 Gen2 바로가기 를 만드는 Azure Data Lake Storage 단계입니다.

    • Azure DICOM 서비스의 경우, 해당 서비스로 생성한 Data Lake Storage Gen2 계정을 사용해야 합니다.
    • Azure DICOM 서비스를 사용하지 않는 경우 새 Data Lake Storage Gen2 계정을 만들거나 기존 계정을 사용할 수 있습니다. 자세한 내용은 저장소 계정을 만들어서 사용하세요 Azure Data Lake Storage.

    일관성을 위해 다음 폴더 구조를 사용하여 바로가기를 만드세요 Files\External\Imaging\DICOM\[Namespace]\[BYOSShortcutName]. 이 Namespace 값은 다양한 소스 시스템의 바로가기를 논리적으로 분리하는 것을 보장합니다. 예를 들어, Namespace 값에 Data Lake Storage Gen2 이름을 사용할 수 있습니다.

    권장되는 폴더 구조를 사용하여 바로가기를 만드는 방법을 보여주는 스크린샷입니다.

    참고

    OneLake 단축키는 Data Lake Storage Gen2 이외에도 여러 스토리지 시스템을 지원합니다. 지원되는 저장소 유형의 전체 목록을 보려면 OneLake 바로가기를 참조하세요.

  6. 관리자 레이크하우스 를 구성하여 BYOS를 활성화하세요.

    1. healthcare#_msft_admin 레이크하우스로 가서 deploymentParametersConfiguration.json 파일을 엽니다. Files\system-configurations

    2. 이 구성 파일에서 BYOS 설정을 활성화합니다. OneLake 파일 탐색기를 사용하여 다음 폴더 경로에서 deploymentParametersConfiguration.json 파일을 엽니다: OneLake - Microsoft\[WorkspaceName]\healthcare#_msft_admin.Lakehouse\Files\system-configurations. JSON이나 텍스트 편집기(예: Windows 메모장)를 사용하여 파일을 열고 byos_enabled 매개변수를 검색하여 true로 설정합니다.

      구성 파일의 설정을 표시하는 스크린샷입니다.

  7. DICOM 데이터 변환 기능을 사용하면 이제 폴더 계층/구조에 관계 없이 소스 Data Lake Storage Gen2 위치에 있는 모든 DICOM 파일에 액세스할 수 있습니다. Ingest 옵션에서 완료로 DICOM 파일을 수동으로 수집할 필요는 없습니다. 단계에서 실행을 시작합니다. 2: 이전 섹션의 이미징 데이터 파이프라인을 실행하여 이미지 파이프라인을 사용하고 DICOM 데이터를 변환합니다.

참고

Azure Health Data Services DICOM 서비스와의 통합 제한 사항을 알아보려면 DICOM 서비스와의 통합을 참조하세요.