Compartir vía


Ingerir datos clínicos utilizando fundamentos de datos de atención sanitaria

La capacidad de transformación clínica se implementa como parte de los fundamentos de datos de atención sanitaria. Esta capacidad ofrece canalizaciones de datos listas para ejecutarse que preparan datos de manera eficiente para el análisis y el modelado de IA/aprendizaje automático.

Para obtener más información sobre la implementación y los artefactos disponibles, consulte:

Básicamente, la implementación crea tres almacenes de lago, cinco cuadernos, un entorno de Fabric y una canalización de datos clínicos en su entorno de soluciones de datos de atención sanitaria. Esta canalización de datos ingiere datos clínicos y los transforma a partir de los archivos de origen sin procesar en los almacenes de lago bronce y plata. Como se explica en Patrones de ingesta de datos, admite dos patrones de ingesta: Ingesta y Bring Your Own Storage (BYOS). La ejecución de la canalización de ingesta de BYOS se explica en Usar Azure Health Data Services - Exportación de datos. En este artículo se describe cómo usar el patrón Ingesta para procesar los datos de ejemplo clínicos proporcionados con las soluciones de datos de atención sanitaria.

Nota

También puede usar su propio conjunto de datos de FHIR en lugar del conjunto de datos de ejemplo clínicos. Sin embargo, revise las consideraciones de Consideraciones de uso antes de hacerlo.

Requisitos previos

Mueva los datos de ejemplo clínicos a la carpeta de ingesta

Al implementar los datos de ejemplo, como se explica en Implementar datos de ejemplo, los archivos de datos de ejemplo clínicos deben estar disponibles en la estructura de carpetas unificada en Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients en el almacén de lago bronce. Use OneLake o Explorador de Azure Storage para copiar los archivos 51KSyntheticPatients desde Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS en Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS el almacén de lago bronce.

Ejecutar la canalización de datos

Ejecute la canalización de datos healthcare#_msft_clinical_data_foundation_ingestion en el almacén de lago bronce. En función del tamaño de los datos de ejemplo clínicos y de la capacidad de Fabric asignada al área de trabajo, la ejecución de la canalización debería completarse en una hora. Una vez finalizada la ejecución de la canalización, puede ver que la canalización se ejecutó correctamente en los datos de ejemplo, pero registró un estado Con error para la actividad del cuaderno fhir_ingestion_bronze_ingestion.

Captura de pantalla que muestra una ejecución de canalización de datos de ejemplo para ingerir datos clínicos.

Validar los datos

En escenarios del mundo real, ingerirá datos de varios orígenes con diferentes niveles de calidad. El motor de validación, introducido en Validación de datos, desencadena intencionadamente validaciones en algunos de los datos de ejemplo clínicos proporcionados. Durante la ejecución de la canalización, se produce un error en la actividad de ingesta debido a la invalidez intencionada de los datos de ejemplo. Los archivos con errores no se procesan y se mueven a la carpeta Con errores. Todos los demás archivos válidos se procesan correctamente, lo que da como resultado un estado general de canalización verde/correcto.

Para investigar el error, seleccione el icono junto al estado Con error en debajo del estado de la actividad. Proporciona información sobre cómo localizar los detalles del error, junto con una consulta SQL de ejemplo basada en el valor runId de la BusinessEvents. Aparecen siete errores para este runId, todos debidos a Last Updated does not exist. El archivo NDJSON con errores correspondiente se encuentra en la carpeta Con errores, con el sourceFilePath apuntando a …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip.

Captura de pantalla que muestra los detalles del error en la tabla BusinessEvents.

Los archivos procesados correctamente salen de la carpeta Ingesta (ahora vacía) y se mueven a la carpeta Proceso.

También puede explorar los datos ingeridos en la tabla ClinicalFhir del almacén de lago bronce y las tablas de FHIR respectivas en el modelo de datos de atención sanitaria del almacén de lago plata. Este es un resumen de los recuentos de registros esperados.

  • Almacén de lago de administración:

    • Tabla BusinessEvents: siete registros
  • Almacén de lago bronze:

    • Tabla ClinicalFhir: 33 317 250 registros
    • Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients: Ningún archivo
    • Files\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD: 67 archivos
    • Files\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients: Un archivo
  • Almacén de lago plata:

    • TablaPaciente: 47 564 registros
    • Tabla Observación: 19 726 265 registros
    • Tabla RiskAssessment: sin registros

Consideraciones de uso

Al ingerir conjuntos de datos de FHIR en soluciones de datos de atención sanitaria en Microsoft Fabric, tenga en cuenta los siguientes requisitos:

  • Todos los datos deben utilizar el formato NDJSON.
  • Cada archivo solo debe contener datos para un único recurso de FHIR.
  • Cada recurso del archivo requiere un campo de metadatos con un valor válido para Meta.LastUpdated. Si este valor no está presente, se produce un error de validación predeterminado, como se explica en Validación de datos.
  • Cada recurso del archivo debe tener un valor para el campo ID. Si este valor no está presente, se produce un error de validación predeterminado, como se explica en Validación de datos.