Få in kliniska data med hjälp av vårddatagrunder
Funktionen för klinisk omvandling distribueras som en del av vårddatagrunder. Denna funktion ger färdiga datapipelines som effektivt förbereder data för analys och AI/maskininlärningsmodellering.
Mer information om distributionen och tillgängliga artefakter finns i:
Distributionen skapar i princip tre sjöhus, fem notebook-filer, en Fabric-miljö och en klinisk datapipeline i din miljö för vårddatalösningar. Den här datapipelinen matar in kliniska data och omvandlar dem från de råa källfilerna till brons- och silversjöhusen. Som förklaras i Datainmatningsmönster stöder det två inmatningsmönster – Mata in och Ta med din egen lagring (BYOS). Körningen av BYOS-inmatningspipelinen förklaras i Använda Azure Health Data Services – Dataexport. Den här artikeln beskriver hur du använder mönstret inmatning för att bearbeta kliniska exempeldata som tillhandahålls med vårddatalösningar.
Obs
Du kan också använda din egen FHIR-datauppsättning i stället för den kliniska exempeldatauppsättningen. Granska dock övervägandena i Användningsöverväganden innan du gör det.
Förutsättningar
- Distribuera Healthcare-datalösningar i Microsoft Fabric
- Installera grundläggande notebook-filer och pipelines i Distribuera vårddatagrunder.
- Distribuera kliniska exempeldata enligt beskrivningen i Distribuera exempeldata.
Flytta kliniska exempeldata till inmatningsmappen
När du distribuerar exempeldata enligt beskrivningen i Distribuera exempeldata ska de kliniska exempeldatafilerna vara tillgängliga i den enhetliga mappstrukturen under Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
i bronssjöhuset. Använd OneLake eller Azure Storage Explorer för att kopiera 51KSyntheticPatients-filer från Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS
till Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS
i bronssjöhuset.
Kör datapipeline
Kör healthcare#_msft_clinical_data_foundation_ingestion datapipeline i bronssjöhuset. Beroende på den kliniska exempeldatastorleken och den infrastrukturkapacitet som tilldelats arbetsytan bör pipelinekörningen slutföras inom en timme. När pipelinekörningen är klar kan du se att pipelinen har körts på exempeldata men loggat statusen Misslyckades för notebook-aktiviteten fhir_ingestion_bronze_ingestion.
Kontrollera data
I verkliga scenarier matar du in data från olika källor med olika kvalitetsnivåer. Valideringsmotorn, som introducerades i Datavalidering, utlöser avsiktligt valideringar av vissa av de tillhandahållna kliniska exempeldata. Under pipelinekörningen misslyckas inmatningsaktiviteten på grund av att exempeldata avsiktligt är ogiltiga. De misslyckade filerna bearbetas och flyttas till mappen Misslyckades. Alla andra giltiga filer bearbetas, vilket resulterar i en övergripande grön/lyckad pipelinestatus.
Om du vill undersöka felet väljer du ikonen bredvid statusen Misslyckades under aktivitetsstatus. Den innehåller information om hur du hittar felinformationen, tillsammans med en SQL exempelfråga baserat på runId
värdet i admin sjöhus BusinessEvents tabellen. Sju fel visas för detta runId
, alla på grund av Last Updated does not exist
. Motsvarande misslyckade NDJSON-fil finns i mappen Misslyckades med sourceFilePath
peka på …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip
.
De bearbetade filerna lämnar mappen Inmatning (nu tom) och flyttas till mappen Process.
Du kan också utforska inmatade data i bronssjöhuset tabellen ClinicalFhir och motsvarande FHIR-tabeller i vårddatamodell i silversjöhus. Här är en sammanfattning av de förväntade postantalen:
Admin sjöhus:
- BusinessEvents-tabellen: Sju poster
Bronssjöhus:
- ClinicalFhir tabell: 33 317 250 poster
Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
: inga filerFiles\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD
: 67 filerFiles\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients
: En fil
Silversjöhus:
- Patient-tabell: 47 564 poster
- Observation-tabell: 19 726 265 poster
- RiskAssessment-tabell: Inga poster
Överväganden för användning
När du matar in FHIR-datauppsättningar i vårddatalösningar i Microsoft Fabric bör du tänka på följande krav:
- Alla data måste använda NDJSON-format.
- Varje fil får bara innehålla data för en enda FHIR-resurs.
- Varje resurs i filen kräver ett metadatafält med ett giltigt värde för
Meta.LastUpdated
. Om det här värdet inte finns uppstår ett standardvalideringsfel enligt beskrivningen i Dataverifiering. - Varje resurs i filen måste ha ett värde för
ID
-fältet. Om det här värdet inte finns uppstår ett standardvalideringsfel enligt beskrivningen i Dataverifiering.