使用医疗保健数据解决方案中的 DICOM 数据转换

医疗保健数据解决方案中的 DICOM 数据转换功能允许您引入、存储和分析来自各种来源的医学数字成像和通信 (DICOM) 数据。 若要了解有关该功能的详细信息并了解如何部署和配置它,请参阅:

DICOM 数据转换是 Microsoft Fabric 中医疗保健数据解决方案的一项可选功能。

先决条件

在运行 DICOM 数据转换管道之前,请确保完成部署和配置 DICOM 数据转换中所述的先决条件、部署流程和配置步骤。

数据引入选项

本文提供了有关如何使用 DICOM 数据转换功能来摄取、转换和统一 DICOM 成像数据集的分步指导。 该功能支持以下两个摄取选项:

  • 选项 1:DICOM 文件的端到端引入。 采用本机 (DCM) 或压缩 (ZIP) 格式的 DICOM 文件将引入到湖屋中。 此选项称为引入选项。

  • 选项 2: 与 DICOM 服务集成。 通过与 Azure Health Data Services 中 DICOM 服务的本机集成来促进引入。 在此选项中,DCM 文件首先从 Azure Health Data Services DICOM 服务转移到 Data Lake Storage Gen2。 然后, 管道遵循自带存储(BYOS) 摄取模式。 此选项称为 Azure Health Data Services (AHDS) 选项。

若要了解转换映射详细信息,请参阅 healthcare 数据解决方案中的 DICOM 元数据转换映射

选项 1:DICOM 文件的端到端引入

在此选项中,我们使用预构建的数据管道将 DICOM 文件中的成像数据提取并转换为 healthcare 数据解决方案湖仓一体。 端到端转换包括以下连续步骤:

  1. 将 DICOM 文件引入到 OneLake 中
  2. 在 OneLake 中组织 DICOM 文件
  3. 将 DICOM 元数据提取到铜牌湖屋中
  4. 将 DICOM 元数据转换为 FHIR(快速医疗保健互操作性资源)格式
  5. 将数据引入到铜牌湖屋的 ImagingStudy 增量表中
  6. 将数据平展并引入到银牌湖屋的 ImagingStudy 增量表中
  7. 将数据转换并引入到金牌湖屋的 Image_Occurrence 表中(可选)

小费

此摄取选项使用 包含压缩 ZIP 文件的 340ImagingStudies 示例数据集。 Alternatively,您可以通过将 DICOM 文件放在 Ingest 文件夹中,直接以其本机 DCM 格式摄取这些文件。 在 ZIP 文件中,DCM 文件可以构建为多个嵌套的子文件夹。 DCM 文件的数量或提取的 ZIP 文件中子文件夹的数量、深度和嵌套没有限制。 有关文件大小限制的信息,请参阅 摄取文件大小

步骤 1:将 DICOM 文件提取到 OneLake 中

铜牌湖屋中的 Ingest 文件夹表示放置(队列)文件夹。 您可以将 DICOM 文件放置在此文件夹中。 然后,这些文件将移动到铜牌湖屋中井然有序的文件夹结构中。

  1. 转到 Ingest\Imaging\DICOM\DICOM-HDS bronze 湖屋中的文件夹。

  2. 选择 ... (省略号) >Upload>Upload 文件夹

  3. 从 SampleData 文件夹中选择并上传 340ImagingStudies 成像数据集 SampleData\Imaging\DICOM\DICOM-HDS Alternatively,您也可以使用 OneLake 文件资源管理器Azure Storage Explorer 上传示例数据集。

步骤 2:运行成像数据管道

将 DCM/ZIP 文件移动到 铜牌湖屋中的 Ingest 文件夹后,您现在可以运行成像数据管道来组织和处理银牌湖屋中的数据。

  1. 在 healthcare 数据解决方案环境中,打开 healthcare#_msft_imaging_with_clinical_foundation_ingestion 数据管道。

  2. 选择 Run(运行 )按钮开始处理从铜牌到银牌湖屋的成像数据。

此数据管道按顺序运行五个笔记本:三个作为 healthcare 数据基础功能的一部分部署,两个来自 DICOM 数据转换功能。 要了解有关这些笔记本的更多信息,请参阅 DICOM 数据转换:工件

显示示例管道运行的屏幕截图。

步骤 3:运行银到金转换笔记本

备注

此转换步骤是可选的。 仅当需要将 DICOM 数据进一步转换为 Observational Medical Outcomes Partnership()OMOP 通用数据模型(CDM)格式时,才使用它。 否则,您可以跳过此步骤。

在运行此转换之前,请在 healthcare 数据解决方案中部署和配置 OMOP 转换功能

运行映像管道后,您的映像数据将转换为银色湖屋。 银色湖屋作为初始指向,来自各种模态的数据开始以结构化的方式收敛。 要进一步将数据转换为 OMOP 研究标准以用于 发现和构建队列(预览版) 功能,请运行银牌到金牌转换笔记本。

  1. 在 healthcare 数据解决方案环境中,打开 healthcare#_msft_omop_silver_gold_transformation 笔记本。

    此笔记本使用 healthcare 数据解决方案 OMOP API 将资源从银牌湖屋转换为 OMOP 金牌湖屋中的 CDM 增量表。 默认情况下,无需对笔记本配置进行任何更改。

  2. 选择全部运行以运行笔记本。

    该笔记本实施了 OMOP 跟踪方法 ,以跟踪和处理银色湖屋的 ImagingStudy delta 表中的新记录或更新的记录 。 它将银版湖屋(包括 ImagingStudy 表)中的 FHIR 增量表中的数据转换为黄金湖屋中的相应 OMOP 增量表(包括 Image_Occurrence 表)。 有关此转换的更多信息,请参阅 白银到黄金增量表的转换映射

    有关详细的 OMOP 映射信息,请参阅 FHIR 到 OMOP 映射

步骤 4:验证数据

在实际场景中,数据摄取涉及具有不同质量级别的源。 验证引擎(如数据验证 中详述)有意触发对某些提供的成像样本数据的验证。 不符合 DICOM 标准的文件将移动到 Failed 文件夹,并且不会进行处理。 但是,单个文件故障不会中断整个管道,如成像样本数据所示。 管道和关联的笔记本成功运行,但 Failed 文件夹 Imaging\DICOM\DICOM-HDS\YYYY\MM\DD 下的文件夹包含不兼容的文件。 所有其他有效文件都成功处理,从而产生总体成功的管道状态。 我们有意将此无效文件包含在映像示例数据中,以说明映像管道如何处理无效文件并帮助您识别数据集问题。

显示 Failed **文件夹中无效文件的** 屏幕截图。

要确认管道已成功从原始 DICOM 文件中提取所有元数据,请打开铜牌湖屋,切换到 SQL 分析终结点,然后选择 新建 SQL 查询

显示 SQL analytics 终结点开关的屏幕截图。

如果管道运行正确,则必须在 ImagingDicom 表中看到 7739 个成功处理的 DICOM 实例。 要进行验证,请运行以下 SQL 查询。 要成功处理,您应该在 Results(结果 )窗格中看到 7739 。 此数字表示样本数据中 DICOM 实例的总数,包括来自不同模式的数据,例如计算机断层扫描(CT)和磁共振成像(MRI)扫描。

select count(*) from ImagingDicom

显示铜牌湖屋中的 DICOM 实例的屏幕截图。

要确认管道已成功水合湖仓一体,请打开银色湖屋,切换到 SQL 分析终结点,然后选择 新建 SQL 查询。 要正确运行管道,您必须看到 339 个成功处理 的 ImagingStudy 资源。 要进行验证,请运行以下 SQL 查询。 最初,我们从 340 个 ImagingStudy 资源开始,但在处理过程中遇到一个错误。

 select count(*) from ImagingStudy

显示银色湖屋中的 DICOM 实例的屏幕截图。

选项 2:与 DICOM 服务集成

重要提示

仅当使用 Azure Health Data Services DICOM 服务并部署了 DICOM API 时,才使用此转换选项。

这种转换方法使用 Azure Health Data Services DICOM 服务扩展了 自带存储(BYOS)模式 。 DICOM 服务是 DICOMweb API 子集,可用于存储、查看、搜索和删除 DICOM 对象。 它与链接到 Fabric 工作区的 Azure Data Lake Storage Gen2 帐户集成,以便转换管道可以直接访问您的 DICOM 数据。

Alternatively,您可以跳过使用 Azure DICOM API 并引入存储在 Data Lake Storage Gen2 帐户中的 DICOM 文件(在本例中,从步骤 5 开始)。

  1. 查看并完成在 Azure Health Data Services 中部署 DICOM API 中的配置。

  2. 部署 Azure DICOM 服务后,使用 应用商店(STOW-RS) API 摄取 DCM 文件。 通过使用 OneLake 文件资源管理器 Azure Storage Explorer 从成像样本数据下载 DCM 文件来对其进行测试。

  3. 根据您的首选语言,使用以下选项之一将 DCM 文件上传到服务器:

  4. 验证文件上传是否成功:

    1. Azure 门户中,选择链接到 DICOM 服务的存储帐户。
    2. 转到 容器 并跟随路径 [ContainerName]/AHDS/[AzureHealthDataServicesWorkspaceName]/dicom/[DICOMServiceName]
    3. 检查您是否可以看到此处上传的 DCM 文件。

    显示已上传数据的 Azure 门户屏幕截图。

    备注

    • 上传到服务器时,文件名可能会更改。 但是,文件内容保持不变。
    • 有关文件大小限制的信息,请参阅 摄取文件大小
  5. 在铜牌湖屋中为存储在 Data Lake Storage Gen2 位置的 DICOM 文件创建快捷方式。 跟随创建 Azure Data Lake Storage Gen2 快捷方式

    • 对于 Azure DICOM 服务,请确保使用通过该服务创建的 Data Lake Storage Gen2 帐户。
    • 如果不使用 Azure DICOM 服务,则可以创建新的 Data Lake Storage Gen2 帐户或使用现有帐户。 若要了解详细信息,请参阅 创建要使用的存储帐户 Azure Data Lake Storage

    为了保持一致性,请使用以下文件夹结构创建快捷方式: Files\External\Imaging\DICOM\[Namespace]\[BYOSShortcutName]。 该值 Namespace 可确保从逻辑上分离来自不同源系统的快捷方式。 例如,您可以将 Data Lake Storage Gen2 名称用于 Namespace 值。

    显示如何使用建议的文件夹结构创建快捷方式的屏幕截图。

    备注

    OneLake 快捷方式还支持 Data Lake Storage Gen2 之后的多个存储系统。 有关支持的存储类型的完整列表,请参阅 OneLake 快捷方式

  6. 配置 admin 湖屋 以启用 BYOS:

    1. 转到 healthcare#_msft_admin 湖屋并打开 deploymentParametersConfiguration.json 下的文件 Files\system-configurations

    2. 在此配置文件中启用 BYOS 设置。 使用 OneLake 文件资源管理器从以下文件夹路径打开 deploymentParametersConfiguration.json 文件: OneLake - Microsoft\[WorkspaceName]\healthcare#_msft_admin.Lakehouse\Files\system-configurations 使用任何 JSON 或文本编辑器(如 Windows 记事本)打开文件,搜索 byos_enabled 参数,并将其设置为 true

      显示配置文件中设置的屏幕截图。

  7. DICOM 数据转换功能现在可以访问其源 Data Lake Storage Gen2 位置中的所有 DICOM 文件,而不管文件夹层次结构/结构如何。 您无需像在 Ingest(摄取 )选项中 完成的那样手动摄取 DICOM 文件。 从 步骤 2 开始执行:运行上一节中的成像数据管道 以使用成像管道并转换 DICOM 数据。

备注

若要了解与 Azure Health<[> Data Services DICOM 服务的集成限制,请参阅 与 DICOM 服务集成。