Ingérer des données cliniques à l’aide des sources des données de santé
La capacité de transformation clinique se déploie dans le cadre des Sources des données de santé. Cette capacité fournit des pipelines de données prêts à l’emploi qui peuvent préparer efficacement les données pour l’analyse et la modélisation de l’IA/Machine Learning.
Pour plus d’informations sur le déploiement et les artefacts disponibles, consultez :
Essentiellement, le déploiement crée trois lakehouses, cinq blocs-notes, un environnement Fabric et un pipeline de données cliniques dans votre environnement de solutions de données de santé. Ce pipeline de données ingère les données cliniques et les transforme à partir des fichiers sources bruts en maisons de lac de bronze et d’argent. Comme expliqué dans Modèles d’ingestion de données, il prend en charge deux modèles d’ingestion : Ingestion et Apportez votre propre stockage (BYOS). L’exécution du pipeline d’ingestion BYOS est expliquée dans Utiliser Services de données de santé Azure – Exportation de données. Cet article explique comment utiliser le modèle d’ingestion pour traiter les données d’échantillons cliniques fournies avec les solutions de données de santé.
Note
Vous pouvez également utiliser votre propre jeu de données FHIR au lieu de l’ensemble de données de l’échantillon clinique. Toutefois, passez en revue les considérations de la section Considérations relatives à l’utilisation avant de le faire.
Conditions préalables
- Déployer les solutions de données de santé dans Microsoft Fabric
- Installez les notebooks et pipelines de base dans Déployer les sources des données de santé.
- Déployez les exemple de données cliniques comme expliqué dans Déployer les exemples de données.
Déplacez les données de l’échantillon clinique vers le dossier d’ingestion
Lorsque vous déployez les exemples de données comme expliqué dans Déployer les exemples de données, les fichiers de données d’échantillons cliniques doivent être disponibles dans la structure de dossiers unifiée sous Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
dans le lac de bronze. Utilisez OneLake ou Explorateur de stockage Azure pour copier les fichiers 51KSyntheticPatients de vers dans Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS
la maison du Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS
lac en bronze.
Exécutez le pipeline de données
Exécutez le pipeline de données healthcare#_msft_clinical_data_foundation_ingestion dans la maison du lac de bronze. En fonction de la taille des données de l’échantillon clinique et de la capacité Fabric attribuée à l’espace de travail, l’exécution du pipeline doit se terminer en une heure. Une fois l’exécution du pipeline terminée, vous pouvez voir que le pipeline s’est exécuté correctement sur les exemples de données, mais a enregistré un statut Échec pour l’activité de bloc-notes fhir_ingestion_bronze_ingestion .
Valider les données
Dans des scénarios réels, vous allez ingérer des données provenant de diverses sources avec différents niveaux de qualité. Le moteur de validation , introduit dansValidation des données, déclenche intentionnellement des validations sur certaines des données d’échantillons cliniques fournies. Pendant l’exécution du pipeline, l’activité d’ingestion échoue en raison de l’invalidité intentionnelle des exemples de données. Les fichiers ayant échoué ne sont pas traités et sont déplacés vers le dossier Échec . Tous les autres fichiers valides sont traités avec succès, ce qui donne un statut global de pipeline vert/réussi.
Pour examiner l’échec, sélectionnez l’icône en regard de l’état de l’échec sous statut de l’activité . Il fournit des informations sur la localisation des détails de l’erreur, ainsi qu’un exemple de requête SQL basée sur la valeur de la table runId
valeur dans le lakehouse administrateur BusinessEvents. Sept erreurs apparaissent pour cela runId
, toutes dues à Last Updated does not exist
. Le fichier NDJSON ayant échoué correspondant réside dans le dossier Échec , avec le sourceFilePath
pointage vers …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip
.
Les fichiers traités avec succès quittent le dossier Ingérer (désormais vide) et sont déplacés vers le dossier Processus.
Vous pouvez également explorer les données ingérées dans la table ClinicalFhir de la maison du lac de bronze et les tables FHIR respectives dans le modèle de données de santé de la maison du lac d’argent. Voici un résumé des nombres d'enregistrements attendus :
Lakehouse administrateur :
- Table BusinessEvents : sept enregistrements
Bronze Lakehouse :
- ClinicalFhir table : 33 317 250 enregistrements
Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
: aucun fichierFiles\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD
: 67 fichiersFiles\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients
: Un fichier
Lakehouse argent :
- Table des patients : 47 564 enregistrements
- Table d’observation : 19 726 265 enregistrements
- RiskAssessment Table : aucun enregistrement
Considérations d’utilisation
Lors de l’ingestion de jeux de données FHIR dans des solutions de données de santé dans Microsoft Fabric, tenez compte des exigences suivantes :
- Toutes les données doivent utiliser le format NDJSON.
- Chaque fichier ne doit contenir que les données d’une seule ressource FHIR.
- Chaque ressource du fichier nécessite un champ de métadonnées avec une valeur valide pour
Meta.LastUpdated
. Si cette valeur n’est pas présente, une erreur de validation par défaut se produit, comme expliqué dans Validation des données. - Chaque ressource du fichier doit avoir une valeur pour le
ID
champ. Si cette valeur n’est pas présente, une erreur de validation par défaut se produit, comme expliqué dans Validation des données.