使用医疗保健数据基础引入临床数据
临床转换功能作为医疗保健数据基础的一部分进行部署。 此功能提供随时可用的数据管道,可以有效地准备数据以用于分析和 AI/机器学习建模。
有关部署和可用项目的详细信息,请参阅:
本质上,该部署会在您的医疗保健数据解决方案环境中创建三个湖屋、五个笔记本、一个 Fabric 环境和一个临床数据管道。 此数据管道引入临床数据,并将其从原始源文件转换到铜牌和银牌湖屋中。 如数据引入模式中所述,它支持两种引入模式 - 引入和自带存储 (BYOS)。 使用 Azure Health Data Services - 数据导出中介绍了 BYOS 引入管道运行。 本文概述了如何使用引入模式处理医疗保健数据解决方案提供的临床示例数据。
备注
您还可以使用自己的 FHIR 数据集,而不是临床示例数据集。 但是,在执行此操作之前,请在使用注意事项中查看相关注意事项。
先决条件
- 部署 Microsoft Fabric 中的医疗保健数据解决方案
- 在部署医疗保健数据基础中安装基础笔记本和管道。
- 部署临床示例数据,如部署示例数据中所述。
将临床示例数据移动到引入文件夹
如部署示例数据中所述部署示例数据时,临床示例数据文件应在铜牌湖屋中的 Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
下的统一文件夹结构中提供。 使用 OneLake 或 Azure 存储资源管理器,将 51KSyntheticPatients 文件从 Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS
复制到铜牌湖屋中的 Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS
。
运行数据管道
在铜牌湖屋中运行 healthcare#_msft_clinical_data_foundation_ingestion 数据管道。 根据临床示例数据大小和分配到工作区的 Fabric 容量,管道执行应在一小时内完成。 管道运行完成后,您可以看到管道针对示例数据成功运行,但 fhir_ingestion_bronze_ingestion 笔记本活动的状态记录为失败。
验证数据
在实际应用场景中,您将以不同的质量级别从各种源引入数据。 数据验证中介绍的验证引擎有意对提供的某些临床示例数据触发验证。 在管道执行期间,由于有意使示例数据无效,引入活动失败。 失败的文件不会处理并移动到 Failed 文件夹。 所有其他有效文件均已成功处理,从而使整体显示绿色/成功管道状态。
若要调查失败,请选择活动状态下的失败状态旁边的图标。 它提供有关如何查找错误详细信息的信息,以及基于管理员湖屋 BusinessEvents 表中的 runId
值的示例 SQL 查询。 此 runId
出现了七个错误,都是由于 Last Updated does not exist
。 相应的失败 NDJSON 文件保留在 Failed 文件夹中,其中 sourceFilePath
指向 …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip
。
成功处理的文件将从 Ingest 文件夹(现在为空)移动到 Process 文件夹。
您还可以在铜牌湖屋 ClinicalFhir 表中以及银牌湖屋中医疗保健数据模型中的相应 FHIR 表中探索引入的数据, 下面是预期记录数的总结:
管理员湖屋:
- BusinessEvents 表:7 条记录
铜牌湖屋:
- ClinicalFhir 表:33,317,250 条记录
Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
:无文件Files\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD
:67 个文件Files\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients
:1 个文件
银牌湖屋:
- Patient 表:47,564 条记录
- Observation 表:19,726,265 条记录
- RiskAssessment 表:无记录
使用注意事项
当在 Microsoft Fabric 中的医疗保健数据解决方案中引入 FHIR 数据集时,请考虑以下要求:
- 所有数据必须使用 NDJSON 格式。
- 每个文件只能包含单个 FHIR 资源的数据。
- 文件中的每个资源都需要一个元数据字段,其中有效值为
Meta.LastUpdated
。 如果此值不存在,则会出现默认验证错误,如数据验证中所述。 - 文件中的每个资源都必须具有
ID
字段的值。 如果此值不存在,则会出现默认验证错误,如数据验证中所述。