Sdílet prostřednictvím


Příjem klinických dat pomocí základů zdravotních dat

Schopnost klinické transformace se nasazuje jako součást zdravotnických datových základů. Tato funkce poskytuje datové kanály připravené ke spuštění, které efektivně připravují data pro analýzy a modelování AI/strojového učení.

Další informace o nasazení a dostupných artefaktech najdete tady:

Nasazení v podstatě vytvoří tři domy u jezera, pět poznámkových bloků, prostředí infrastruktury a kanál klinických dat v prostředí Řešení pro zdravotní data. Tento datový kanál ingestuje klinická data a transformuje je z nezpracovaných zdrojových souborů do bronzových a stříbrných transakčních jezer. Jak uvádí téma Vzory příjmu dat, podporuje dva vzory příjmu dat - Ingest a Bring Your Own Storage (BYOS). Spuštění kanálu příjmu dat BYOS je vysvětleno v tématu Použití Azure Health Data Services – export dat. Tento článek popisuje, jak pomocí vzoru ingestování zpracovat data klinických ukázek, která jsou k dispozici v řešeních pro data ze zdravotnictví.

Poznámka:

Místo datové sady klinické ukázky můžete také použít vlastní datovou sadu FHIR. Než to ale uděláte, projděte si důležité informace v části Důležité informace o použití.

Předpoklady

Přesunutí dat klinických vzorků do složky pro příjem dat

Když nasadíte ukázková data, jak je vysvětleno v části Nasazení ukázkových dat, datové soubory klinických vzorků by měly být k dispozici ve sjednocené struktuře složek v části Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients v bronzovém transakčním jezeře. Pomocí OneLake nebo průzkumníka Azure Storage zkopírujte soubory 51KSyntheticPatients z Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS do Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS v bronzovém transakčním jezeře.

Spusťte datový kanál

Spusťte datový kanál healthcare#_msft_clinical_data_foundation_ingestion v bronzovém transakčním jezeře. V závislosti na velikosti dat klinického vzorku a kapacitě prostředků infrastruktury přiřazené k pracovnímu prostoru by se spuštění kanálu mělo dokončit za hodinu. Po dokončení spuštění kanálu uvidíte, že se kanál úspěšně spustil na ukázkových datech, ale zaprotokoloval stav Selhání pro aktivitu poznámkového bloku fhir_ingestion_bronze_ingestion.

Snímek obrazovky zobrazující ukázkový datový kanál spuštěný pro příjem klinických dat.

Ověření dat

V reálných scénářích budete přijímat data z různých zdrojů s různou úrovní kvality. Validační modul, který byl představen v Ověření dat, záměrně spouští validace některých poskytnutých dat klinických vzorků. Během provádění kanálu aktivita příjmu dat selže kvůli záměrné neplatnosti ukázkových dat. Neúspěšné soubory datových sad se nezpracují a přesunou do určené složky Selhání. Všechny ostatní platné soubory se úspěšně zpracují, což vede k celkovému zelenému nebo úspěšnému stavu kanálu.

Pokud chcete chybu prozkoumat, vyberte ikonu vedle stavu Selhání v části Stav aktivity. Poskytuje informace o tom, jak najít podrobnosti o chybě, spolu s ukázkovým dotazem SQL na základě hodnoty runId v tabulce admin lakehouse BusinessEvents. Pro tento runId se objeví sedm chyb, všechny kvůli Last Updated does not exist. Odpovídající neúspěšný soubor NDJSON se nachází ve složce Selhání s odkazem na sourceFilePath …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip.

Snímek obrazovky zobrazující podrobnosti o chybě v tabulce BusinessEvents.

Úspěšně zpracované soubory opustí složku Ingest (teď prázdná) a přesunou se do složky Zpracování.

Můžete také prozkoumat přijatá data v tabulce ClinicalFhir v bronzovém transakčním jezeře a příslušné tabulky FHIR v datovém modelu zdravotní péče ve stříbrném transakčním jezeře. Zde je shrnutí očekávaných počtů záznamů:

  • Transakční jezero pro správce:

    • Tabulka BusinessEvents: Sedm záznamů
  • Bronzové transakční jezero:

    • Tabulka ClinicalFhir: 33,317,250 záznamů
    • Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatientsŽádné soubory
    • Files\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD: 67 souborů
    • Files\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients: Jeden soubor
  • Stříbrné transakční jezero:

    • Pacientská tabulka: 47 564 záznamů
    • Tabulka pozorování: 19,726,265 záznamů
    • Tabulka RiskAssessment: Žádné záznamy

Důležité informace o použití

Při ingestování datových sad FHIR v Řešení pro zdravotní data v Microsoft Fabric zvažte následující požadavky:

  • Všechna data musí používat formát NDJSON.
  • Každý soubor musí obsahovat pouze data pro jeden prostředek FHIR.
  • Každý prostředek v souboru vyžaduje pole metadat s platnou hodnotou pro Meta.LastUpdated. Pokud tato hodnota není k dispozici, dojde k výchozí chybě ověření, jak je vysvětleno v tématu Ověření dat.
  • Každý zdroj v souboru musí mít hodnotu pole ID. Pokud tato hodnota není k dispozici, dojde k výchozí chybě ověření, jak je vysvětleno v tématu Ověření dat.