Поделиться через


Прием клинических данных с помощью механизмов структурирования данных здравоохранения

Возможности клинической трансформации развертываются как часть механизмов структурирования данных здравоохранения. Эта возможность предлагают готовые к запуску конвейеры данных, которые эффективно готовят данные для аналитики и моделирования ИИ и машинного обучения.

Дополнительные сведения о развертывании и доступных артефактах см. в разделе:

По сути, развертывание создает три озера данных, пять записных книжек, среду Fabric и конвейер клинических данных в среде решений для данных здравоохранения. Этот конвейер данных принимает клинические данные и преобразует их из необработанных исходных файлов в бронзовые и серебряные озера данных. Как описано в разделе Шаблоны приема данных, он поддерживает два шаблона — Прием и Использовать собственное хранилище данных (BYOS). Запуск конвейера приема BYOS описан в разделе Использование служб Azure для работы с медицинскими данными — экспорт данных. В этой статье описывается, как использовать шаблон Прием для обработки клинических демонстрационных данных, предоставляемых решениями для данных здравоохранения.

Заметка

Вы также можете использовать собственный набор данных FHIR вместо набора клинических демонстрационных данных. Однако прежде чем делать это, ознакомьтесь с рекомендациями в разделе Рекомендации по использованию.

Предварительные условия

Переместите клинические демонстрационные данные в папку приема

При развертывании демонстрационных данных, как описано в разделе Развертывание демонстрационных данных, файлы клинических демонстрационных данных должны быть доступны в единой структуре папок в Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients бронзовом хранилище озера данных. Используйте OneLake или Обозреватель службы хранилища Azure, чтобы скопировать файлы 51KSyntheticPatients из Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS в Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS в бронзовый хранилище озера данных.

Запустите конвейер данных

Запустите конвейер данных healthcare#_msft_clinical_data_foundation_ingestion в бронзовом хранилище озера данных. В зависимости от размера данных клинической выборки и емкости Fabric, назначенной рабочей области, выполнение конвейера должно завершиться в течение часа. После завершения выполнения конвейера вы увидите, что конвейер успешно выполнен с демонстрационными данными, но зарегистрирован в состоянии Сбой для действия записной книжки fhir_ingestion_bronze_ingestion.

Снимок экрана, на котором показан пример выполнение конвейера данных для приема клинических данных.

Проверка данных

В реальных сценариях вы будете принимать данные из разных источников с разными уровнями качества. Механизм проверки, представленный в Проверка данных, намеренно запускает проверку некоторых предоставленных клинических демонстрационных данных. Во время выполнения конвейера действие приема завершается сбоем из-за преднамеренной недействительности демонстрационных данных. Файлы, в которых произошел сбой, не обрабатываются и перемещаются в папку Отклонено. Все остальные допустимые файлы обрабатываются успешно, что приводит к общему состоянию конвейера.

Чтобы изучить сбой, щелкните значок рядом со статусом Сбой в разделе "Состояние действия". В нем содержатся сведения о том, как найти сведения об ошибке, а также пример запроса SQL на основе runId значения в таблице озера данных администратора BusinessEvents. Для этого runId появляется семь ошибок, все из-за Last Updated does not exist. Соответствующий файл NDJSON, в котором произошел сбой, находится в папке Отклонено с указанием sourceFilePath на …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip.

Снимок экрана, показывающий сведения об ошибке в таблице

Успешно обработанные файлы покидают папку Прием (теперь пустую) и перемещаются в папку Обработка.

Вы также можете изучить принятые данные в таблице ClinicalFhir бронзового хранилища озера данных и соответствующих таблицах FHIR в модели данных здравоохранения в серебряном хранилище озера данных. Здесь приведена сводка ожидаемого количества записей:

  • Хранилище озера данных администратора:

    • Таблица BusinessEvents: семь записей
  • Бронзовый хранилище озера данных:

    • Таблица ClinicalFhir: 33317250 записей
    • Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients: файлов нет
    • Files\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD: 67 файлов
    • Files\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients: один файл
  • Серебряный хранилище озера данных:

    • Таблица Пациент: 47564 записи
    • Таблица Наблюдение: 19726265 записей
    • Таблица RiskAssessment: нет записей

Рекомендации по использованию

При приеме наборов данных FHIR в решениях для данных здравоохранения в Microsoft Fabric учитывайте следующие требования:

  • Все данные должны быть в формате NDJSON.
  • Каждый файл должен содержать данные только для одного ресурса FHIR.
  • Для каждого ресурса в файле требуется поле метаданных с допустимым значением для Meta.LastUpdated. Если это значение отсутствует, возникает ошибка проверки по умолчанию, как описано в разделе Проверка данных.
  • Каждый ресурс в файле должен иметь значение для ID поля. Если это значение отсутствует, возникает ошибка проверки по умолчанию, как описано в разделе Проверка данных.