医療データファンデーションを使用して臨床データを取り込む

[アーティクル]
11/15/2024

臨床変換機能は、医療データファンデーションの一部として展開されます。この機能により、分析や AI/機械学習モデリング用のデータを効率的に準備する、すぐに実行できるデータパイプラインが提供されます。

展開と使用可能なアーティファクトの詳細については、以下を参照してください。

基本的に、展開により、医療データソリューション環境に 3 つのレイクハウス、5 つのノートブック、Fabric 環境、臨床データパイプラインが作成されます。このデータパイプラインは、臨床データを取り込み、生のソースファイルからブロンズレイクハウスとシルバーレイクハウスに変換します。データインジェストパターンで説明されているように、インジェスト と Bring Your Own Storage (BYOS) の 2 つのインジェストパターンがサポートされています。 BYOS インジェストパイプラインの実行については、Azure Health Data Services - データエクスポートの使用で説明されています。この記事では、インジェスト パターンを使用して、医療データソリューションで提供される臨床サンプルデータを処理する方法について説明します。

注意

臨床サンプルデータセットの代わりに、独自の FHIR データセットを使用することもできます。ただし、その前に使用上の考慮事項の考慮事項を確認してください。

前提条件

Microsoft Fabric に医療データソリューションを展開する
医療データファンデーションの展開で、基盤となるノートブックとパイプラインをインストールする。
サンプルデータの展開の説明に従って、臨床サンプルデータを展開します。

臨床サンプルデータをインジェストフォルダーに移動する

サンプルデータの展開の説明に従ってサンプルデータを展開すると、臨床サンプルデータファイルは、ブロンズレイクハウス内の Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients の統合フォルダー構造で使用できます。 OneLake または Azure Storage Explorer を使用して 51KSyntheticPatients ファイルを Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS からブロンズレイクハウスの Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS にコピーします。

データパイプラインを実行する

ブロンズレイクハウスで healthcare#_msft_clinical_data_foundation_ingestion データパイプラインを実行します。臨床サンプルデータのサイズとワークスペースに割り当てられた Fabric の容量にもよりますが、パイプライン実行は 1 時間で完了します。パイプライン実行が完了すると、サンプルデータに対してパイプラインが正常に実行されたが fhir_ingestion_bronze_ingestion ノートブックアクティビティは失敗状態でログに記録されていることがわかります。

データを検証する

実際のシナリオでは、さまざまな品質レベルのさまざまなソースからデータを取り込みます。データ検証で導入された検証エンジンは、提供された臨床サンプルデータの一部に対して意図的に検証をトリガーします。パイプラインの実行中に、サンプルデータを意図的に無効にして、インジェストアクティビティを失敗させます。失敗したファイルは処理されず、指定された Failed フォルダーに移動します。他のすべての有効なファイルは正常に処理され、全体的として緑/成功のパイプライン状態になります。

失敗を調査するには、活動の状態で失敗状態の横にあるアイコンを選択します。エラーの詳細を見つける方法に関する情報と、管理レイクハウス BusinessEvents テーブルの runId 値に基づくサンプル SQL クエリが提供されます。この runId には 7 つのエラーが表示され、すべて原因は Last Updated does not exist です。対応する失敗した NDJSON ファイルは、Failed フォルダーにあり、sourceFilePath は …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip を指しています。

正常に処理されたファイルは、Ingest フォルダー (現在は空) から Process フォルダーに移動します。

また、ブロンズレイクハウスの ClinicalFhir テーブルと、シルバーレイクハウスの医療データモデルの各 FHIR テーブルで、取り込まれたデータを探索することもできます。想定されるレコード数の概要を以下に示します。

管理レイクハウス:
- BusinessEvents テーブル: 7 レコード
ブロンズレイクハウス:
- ClinicalFhir テーブル: 33,317,250 レコード
- Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients: ファイルなし
- Files\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD: 67 ファイル
- Files\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients:1 ファイル
シルバーレイクハウス:
- 患者テーブル: 47,564 レコード
- 所見テーブル: 19,726,265 レコード
- RiskAssessment テーブル: レコードなし

使用の考慮事項

Microsoft Fabric の医療データソリューションで FHIR データセットを取り込む場合は、次の要件を考慮してください。

すべてのデータは NDJSON 形式を使用する必要があります。
各ファイルには、1 つの FHIR リソースのデータのみを含める必要があります。
ファイル内の各リソースには、Meta.LastUpdated の有効な値を持つメタデータフィールドが必要です。この値が存在しない場合、データ検証で説明されているように、既定の検証エラーが発生します。
ファイル内の各リソースには、ID フィールドの値が必要です。この値が存在しない場合、データ検証で説明されているように、既定の検証エラーが発生します。

次の方法で共有

医療データファンデーションを使用して臨床データを取り込む

前提条件

臨床サンプルデータをインジェストフォルダーに移動する

データパイプラインを実行する

データを検証する

使用の考慮事項

その他のリソース

次の方法で共有

医療データ ファンデーションを使用して臨床データを取り込む

前提条件

臨床サンプル データをインジェスト フォルダーに移動する

データ パイプラインを実行する

データを検証する

使用の考慮事項

関連情報

その他のリソース

医療データファンデーションを使用して臨床データを取り込む

臨床サンプルデータをインジェストフォルダーに移動する

データパイプラインを実行する