使用醫療保健資料基礎擷取臨床資料
臨床轉換功能作為醫療保健資料基礎的一部分進行部署。 此功能提供隨時可執行的資料管線,可有效率地為分析和 AI/機器學習建模準備資料。
有關部署和可用成品的詳細資訊,請參閱:
實質上,部署會在醫療保健資料解決方案環境中建立三個湖倉、五個筆記本、一個 Fabric 環境和一個臨床資料管線。 此資料管線擷取臨床數據,並將其從原始來源檔案轉換為銅牌和銀牌湖倉。 如資料擷取模式中所述,它支援兩種擷取模式 - 擷取和自備儲存體 (BYOS)。 如使用 Azure 健康資料服務 - 資料匯出中所說明,BYOS 會擷取管線執行。 本文概述如何使用擷取模式來處理和醫療保健資料解決方案一起提供的臨床樣本資料。
注意
您也可以使用自己的 FHIR 自廖集,而不是臨床樣本資料集。 不過,在執行此作業之前,請查看使用方式注意事項中的注意事項。
先決條件
- 在 Microsoft Fabric 中部署醫療資料解決方案
- 在部署醫療保健資料基礎中安裝基礎筆記本和管線。
- 如部署樣本資料中所述,部署臨床樣本資料。
將臨床樣本資料移至擷取資料夾
當您按照部署樣本資料中所述部署樣本資料時,臨床樣本資料檔應在銅牌湖倉底下的 Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
統一資料夾結構中可用。 使用 OneLake 或 Azure 儲存體總管將 51KSyntheticPatient 檔案從 Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS
複製到銅牌湖倉中的 Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS
。
執行資料管線
在銅牌湖倉中執行 healthcare#_msft_clinical_data_foundation_ingestion 資料管線。 根據臨床樣本資料大小和指派給工作區的 Fabric 容量,管線執行應在一小時內完成。 管道執行完成後,您可以看到管線在樣本資料上成功執行,但記錄了 fhir_ingestion_bronze_ingestion 筆記本活動的失敗狀態 。
驗證資料
在實際情境中,您將從各種具有不同品質等級的來源擷取資料。 資料驗證中引入的驗證引擎會故意對某些提供的臨床樣本資料觸發驗證。 在管線執行期間,由於樣本資料的故意失效,擷取活動失敗。 不會處理失敗的檔案且會移動到指定的失敗資料夾。 所有其他有效文件處理成功,因此有整體綠色/成功管線狀態。
若要調查失敗,請選取活動狀態底下失敗狀態旁邊的圖示。 它提供有關如何查找錯誤詳細資訊的資訊,以及根據管理湖倉 BusinessEvents 表中值的runId
樣本 SQL 查詢。 此 runId
出現了七個錯誤,全都是因為 Last Updated does not exist
。 相應的失敗 NDJSON 檔駐留在失敗資料夾中,其中的 sourceFilePath
指向 …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip
。
成功處理的檔案會離開擷取資料夾 (現在為空) 並移動到處理資料夾。
您也可以探索銅牌湖倉 ClinicalFhir 表中的已擷取資料,和銀牌湖倉醫療保健資料模型中的相應 FHIR 表。 以下是期望記錄數的摘要:
管理湖倉:
- BusinessEvents 表:七條記錄
銅牌湖倉:
- ClinicalFhir 表:33,317,250 條記錄
Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
:沒有檔案Files\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD
:67 個檔案Files\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients
:一個檔案
銀牌湖倉:
- 病患表:47,564 條記錄
- 觀察表:19,726,265 條記錄
- RiskAssessment 表:無記錄
使用方式注意事項
在 Microsoft Fabric中的醫療保健資料解決方案中擷取 FHIR 資料集時,請考慮以下要求:
- 所有資料必須使用 NDJSON 格式。
- 每個檔案必須僅包含單個 FHIR 資源的資料。
- 檔案中的每個資源都需要一個具有
Meta.LastUpdated
有效值的中繼資料欄位。 如果此值不存在,則會發生預設驗證錯誤,如資料驗證中所述。 - 檔案中的每個資源都必須具有
ID
欄位的值 。 如果此值不存在,則會發生預設驗證錯誤,如資料驗證中所述。