Delen via


Klinische gegevens opnemen met fundamenten voor gezondheidszorggegevens

De mogelijkheid voor klinische transformatie wordt geïmplemeneteerd als onderdeel van de fundamenten voor gezondheidszorggegevens. Deze mogelijkheid kant-en-klare gegevenspijplijnen die gegevens efficiënt voorbereiden voor analyse en AI-/Machine Learning-modellen.

Zie voor meer informatie over de implementatie en de beschikbare artefacten:

In feite worden met de implementatie drie lakehouses, vijf notebooks, een Fabric-omgeving en een pijplijn voor klinische gegevens gemaakt in uw omgeving voor oplossingen voor gezondheidszorggegevens. Deze gegevenspijplijn neemt klinische gegevens op en zet deze van de onbewerkte bronbestanden om in de bronzen en zilveren lakehouses. Zoals uitgelegd in Patronen voor gegevensopname worden twee opnamepatronen ondersteund: Opnemen en Bring Your Own Storage (BYOS). De BYOS-opnamepijplijn wordt uitgelegd in Azure Health Data Services gebruiken - Gegevensexport. In dit artikel wordt beschreven hoe u het patroon Opnemen gebruikt voor het verwerken van de klinische voorbeeldgegevens die worden geleverd met oplossingen voor gezondheidszorggegevens.

Notitie

U kunt ook uw eigen FHIR-gegevensset gebruiken in plaats van de klinische voorbeeldgegevensset. Bekijk echter de overwegingen in Gebruiksoverwegingen voordat u dat doet.

Vereisten

De klinische voorbeeldgegevens verplaatsen naar de opnamemap

Wanneer u de voorbeeldgegevens implementeert zoals uitgelegd in Voorbeeldgegevens implementeren, zouden de beatanden met klinische voorbeeldgegevens beschikbaar moeten zijn in de uniforme mappenstructuur onder Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients in het bronzen lakehouse. Gebruik OneLake of Azure Storage Explorer om de bestanden voor 51KSyntheticPatients te kopiëren van Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS naar Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS in het bronzen lakehouse.

De gegevenspijplijn uitvoeren

Voer de gegevenspijplijn healthcare#_msft_clinical_data_foundation_ingestion uit in het bronzen lakehouse. Afhankelijk van de grootte van de klinische voorbeeldgegevens en de aan de werkruimte toegewezen Fabric-capaciteit, moet de pijplijnuitvoering binnen een uur voltooid zijn. Nadat de pijplijn is uitgevoerd, kunt u zien dat de pijplijn succesvol is uitgevoerd op de voorbeeldgegevens, maar dat er een status Mislukt is geregistreerd voor de notebook-activiteit fhir_ingestion_bronze_ingestion.

Een schermopname van een pijplijnuitvoering van voorbeeldgegevens voor opname van klinische gegevens.

De gegevens valideren

In de praktijk neemt u gegevens uit verschillende bronnen met verschillende kwaliteitsniveaus op. De validatie-engine, geïntroduceerd in Gegevensvalidatie, activeert opzettelijk validaties op een deel van de verstrekte klinische voorbeeldgegevens. Tijdens de uitvoering van de pijplijn mislukt de opnameactiviteit vanwege de opzettelijke ongeldigheid van de voorbeeldgegevens. De mislukte bestanden worden niet verwerkt en worden verplaatst naar de map Mislukt. Alle andere geldige bestanden worden wel verwerkt, wat resulteert in een algemene groene/geslaagde pijplijnstatus.

Om de fout te onderzoeken, selecteert u het pictogram naast de status Mislukt onder de activiteitsstatus. Het biedt informatie over hoe u de foutdetails kunt vinden, samen met een voorbeeld van een SQL-query op basis van de runId-waarde in de tabel admin lakehouse BusinessEvents. Er worden zeven fouten weergegeven voor deze runId, allemaal vanwege Last Updated does not exist. Het overeenkomstige mislukte NDJSON-bestand bevindt zich in de map Mislukt, waarbij de sourceFilePath wijst naar …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip.

Een schermopname met de foutdetails in de tabel BusinessEvents.

De verwerkte bestanden verlaten de map Opnemen (nu leeg) en worden verplaatst naar de map Verwerken .

U kunt ook de opgenomen gegevens in de tabel ClinicalFhir voor het bronzen lakehouse en de bijbehorende FHIR-tabellen in het model voor gezondheidszorggegevens in het zilveren lakehouse verkennen. Hier vindt u een overzicht van de verwachte recordaantallen:

  • Beheer-lakehouse:

    • De tabel BusinessEvents: zeven records
  • Bronzen lakehouse:

    • De tabel ClinicalFhir: 33.317.250 records
    • Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients: geen bestanden
    • Files\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD: 67 bestanden
    • Files\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients: één bestand
  • Zilveren lakehouse:

    • De tabelPatiënt: 47.564 records
    • De tabel Observatie: 19.726.265 records
    • De tabel RiskAssessment: geen records

Gebruiksoverwegingen

Houd bij het opnemen van FHIR-gegevenssets in oplossingen voor gezondheidszorggegevens in Microsoft Fabric rekening met de volgende vereisten:

  • Voor alle gegevens moet de NDJSON-indeling worden gebruikt.
  • Elk bestand mag alleen gegevens voor één FHIR-resource bevatten.
  • Elke resource in het bestand vereist een metagegevensveld met een geldige waarde voor Meta.LastUpdated. Als deze waarde niet aanwezig is, treedt er een standaardvalidatiefout op, zoals uitgelegd in Gegevensvalidatie.
  • Elke resource in het bestand moet een waarde hebben voor het veld ID. Als deze waarde niet aanwezig is, treedt er een standaardvalidatiefout op, zoals uitgelegd in Gegevensvalidatie.