Partager via


Ingérer des données cliniques à l’aide des sources des données de santé

La capacité de transformation clinique se déploie dans le cadre des Sources des données de santé. Cette capacité fournit des pipelines de données prêts à l’emploi qui peuvent préparer efficacement les données pour l’analyse et la modélisation de l’IA/Machine Learning.

Pour plus d’informations sur le déploiement et les artefacts disponibles, consultez :

Essentiellement, le déploiement crée trois lakehouses, cinq blocs-notes, un environnement Fabric et un pipeline de données cliniques dans votre environnement de solutions de données de santé. Ce pipeline de données ingère les données cliniques et les transforme à partir des fichiers sources bruts en maisons de lac de bronze et d’argent. Comme expliqué dans Modèles d’ingestion de données, il prend en charge deux modèles d’ingestion : Ingestion et Apportez votre propre stockage (BYOS). L’exécution du pipeline d’ingestion BYOS est expliquée dans Utiliser Services de données de santé Azure – Exportation de données. Cet article explique comment utiliser le modèle d’ingestion pour traiter les données d’échantillons cliniques fournies avec les solutions de données de santé.

Note

Vous pouvez également utiliser votre propre jeu de données FHIR au lieu de l’ensemble de données de l’échantillon clinique. Toutefois, passez en revue les considérations de la section Considérations relatives à l’utilisation avant de le faire.

Conditions préalables

Déplacez les données de l’échantillon clinique vers le dossier d’ingestion

Lorsque vous déployez les exemples de données comme expliqué dans Déployer les exemples de données, les fichiers de données d’échantillons cliniques doivent être disponibles dans la structure de dossiers unifiée sous Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients dans le lac de bronze. Utilisez OneLake ou Explorateur de stockage Azure pour copier les fichiers 51KSyntheticPatients de vers dans Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS la maison du Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS lac en bronze.

Exécutez le pipeline de données

Exécutez le pipeline de données healthcare#_msft_clinical_data_foundation_ingestion dans la maison du lac de bronze. En fonction de la taille des données de l’échantillon clinique et de la capacité Fabric attribuée à l’espace de travail, l’exécution du pipeline doit se terminer en une heure. Une fois l’exécution du pipeline terminée, vous pouvez voir que le pipeline s’est exécuté correctement sur les exemples de données, mais a enregistré un statut Échec pour l’activité de bloc-notes fhir_ingestion_bronze_ingestion .

Capture d’écran montrant un exemple d’exécution de pipeline de données pour l’ingestion de données cliniques.

Valider les données

Dans des scénarios réels, vous allez ingérer des données provenant de diverses sources avec différents niveaux de qualité. Le moteur de validation , introduit dansValidation des données, déclenche intentionnellement des validations sur certaines des données d’échantillons cliniques fournies. Pendant l’exécution du pipeline, l’activité d’ingestion échoue en raison de l’invalidité intentionnelle des exemples de données. Les fichiers ayant échoué ne sont pas traités et sont déplacés vers le dossier Échec . Tous les autres fichiers valides sont traités avec succès, ce qui donne un statut global de pipeline vert/réussi.

Pour examiner l’échec, sélectionnez l’icône en regard de l’état de l’échec sous statut de l’activité . Il fournit des informations sur la localisation des détails de l’erreur, ainsi qu’un exemple de requête SQL basée sur la valeur de la table runId valeur dans le lakehouse administrateur BusinessEvents. Sept erreurs apparaissent pour cela runId, toutes dues à Last Updated does not exist. Le fichier NDJSON ayant échoué correspondant réside dans le dossier Échec , avec le sourceFilePath pointage vers …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip.

Capture d’écran affichant les détails de l’erreur dans la table BusinessEvents.

Les fichiers traités avec succès quittent le dossier Ingérer (désormais vide) et sont déplacés vers le dossier Processus.

Vous pouvez également explorer les données ingérées dans la table ClinicalFhir de la maison du lac de bronze et les tables FHIR respectives dans le modèle de données de santé de la maison du lac d’argent. Voici un résumé des nombres d'enregistrements attendus :

  • Lakehouse administrateur :

    • Table BusinessEvents : sept enregistrements
  • Bronze Lakehouse :

    • ClinicalFhir table : 33 317 250 enregistrements
    • Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients : aucun fichier
    • Files\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD : 67 fichiers
    • Files\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients : Un fichier
  • Lakehouse argent :

    • Table des patients : 47 564 enregistrements
    • Table d’observation : 19 726 265 enregistrements
    • RiskAssessment Table : aucun enregistrement

Considérations d’utilisation

Lors de l’ingestion de jeux de données FHIR dans des solutions de données de santé dans Microsoft Fabric, tenez compte des exigences suivantes :

  • Toutes les données doivent utiliser le format NDJSON.
  • Chaque fichier ne doit contenir que les données d’une seule ressource FHIR.
  • Chaque ressource du fichier nécessite un champ de métadonnées avec une valeur valide pour Meta.LastUpdated. Si cette valeur n’est pas présente, une erreur de validation par défaut se produit, comme expliqué dans Validation des données.
  • Chaque ressource du fichier doit avoir une valeur pour le ID champ. Si cette valeur n’est pas présente, une erreur de validation par défaut se produit, comme expliqué dans Validation des données.