Pozyskiwanie danych klinicznych przy użyciu podstaw danych dotyczących opieki zdrowotnej
Możliwość transformacji klinicznej jest wdrażana jako część podstaw danych medycznych. Ta możliwość oferuje gotowe do uruchomienia potoki danych, które efektywnie przygotowują dane na potrzeby analizy i modelowania AI/uczenia maszynowego.
Aby uzyskać więcej informacji na temat wdrożenia i dostępnych artefaktów, zobacz:
Zasadniczo wdrożenie tworzy trzy magazyny lakehouse, pięć notesów, środowisko Fabric i potok danych klinicznych w środowisku rozwiązań do obsługi danych medycznych. Ten potok danych pozyskuje dane kliniczne i przekształca je z nieprzetworzonych plików źródłowych do brązowych i srebrnych magazynów lakehouse. Jak wyjaśniono w temacie Wzorce pozyskiwania danych, obsługuje dwa wzorce pozyskiwania — Pozyskaj i Bring Your Own Storage (BYOS). Przebieg potoku pozyskiwania BYOS został wyjaśniony w temacie Użycie Azure Health Data Services — eksport danych. W tym artykule opisano, jak używać wzorca Pozyskiwania do przetwarzania danych próbek klinicznych dostarczanych z rozwiązaniami do obsługi danych medycznych.
Uwaga
Możesz również użyć własnego zestawu danych FHIR zamiast zestawu danych próbki klinicznej. Jednak zanim to zrobisz, zapoznaj się z zagadnieniami w temacie Zagadnienia dotyczące użycia.
Wymagania wstępne
- Wdrażanie rozwiązań do obsługi danych medycznych w programie w Microsoft Fabric
- Zainstaluj podstawowe notesy i potoki w temacie Wdrażanie podstaw danych medycznych.
- Wdróż przykładowe dane kliniczne zgodnie z opisem w temacie Wdrażanie przykładowych danych.
Przenoszenie danych próbki klinicznej do folderu pozyskiwania
Po wdrożeniu przykładowych danych w sposób opisany w temacie Wdrażanie przykładowych danych pliki danych próbek klinicznych powinny być dostępne w ujednoliconej strukturze folderów w obszarze Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
w brązowym magazynie lakehouse. Użyj OneLake lub Eksploratora usługi Azure Storage, aby skopiować pliki 51KSyntheticPatients z Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS
do Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS
w brązowym magazynie lakehouse.
Uruchom potok danych
Uruchom potok danych healthcare#_msft_clinical_data_foundation_ingestion w brązowy magazynie lakehouse. W zależności od rozmiaru danych próbki klinicznej i pojemności Fabric przypisanej do obszaru roboczego wykonanie potoku powinno zostać ukończone w ciągu godziny. Po zakończeniu przebiegu potoku widać, że potok został pomyślnie uruchomiony na przykładowych danych, ale zarejestrował stan Niepowodzenie dla działania notesu fhir_ingestion_bronze_ingestion.
Weryfikacja danych
W rzeczywistych scenariuszach będziesz pozyskiwać dane z różnych źródeł o różnych poziomach jakości. Aparat walidacji, wprowadzony w obszarze Walidacja danych, celowo wyzwala walidacje niektórych podanych danych próbki klinicznej. Podczas wykonywania potoku działanie pozyskiwania kończy się niepowodzeniem z powodu celowej nieważności przykładowych danych. Pliki, które zakończyły się niepowodzeniem, nie są przetwarzane i przenoszone do folderu Niepowodzenie. Wszystkie inne prawidłowe pliki są przetwarzane pomyślnie, co skutkuje ogólnym zielonym/pomyślnym stanem potoku.
Aby zbadać błąd, wybierz ikonę obok stanu Niepowodzenie w obszarze Stan działania. Zawiera on informacje o tym, jak zlokalizować szczegóły błędu, wraz z przykładowym zapytaniem SQL opartym na wartości runId
w tabeli BusinessEvents administracyjnego magazynu lakehouse. Pojawia się siedem błędów dla tego runId
, wszystkie z powodu Last Updated does not exist
. Odpowiedni plik NDJSON, który zakończył się niepowodzeniem, znajduje się w folderze Niepowodzenie ze wskazaniem sourceFilePath
na …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip
.
Pomyślnie przetworzone pliki opuszczają folder Pozyskiwanie (teraz pusty) i są przenoszone do folderu Proces.
Pozyskane dane można również eksplorować w tabeli ClinicalFhir brązowego repozytorium lakehouse i odpowiednich tabelach FHIR w modelu danych opieki zdrowotnej w srebrnym magazynie lakehouse. Poniżej przedstawiono podsumowanie oczekiwanej liczby rekordów:
Administracyjny magazyn lakehouse:
- Tabela BusinessEvents: siedem rekordów
Brązowy magazyn lakehouse:
- Tabela ClinicalFhir: rekordy 33 317 250
Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
: brak plikówFiles\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD
: 67 plikówFiles\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients
: jeden plik
Srebrny magazyn lakehouse:
- Tabela Pacjent: 47 564 rekordy
- Tabela Obserwacja: rekordy 19 726 265
- Tabela RiskAssessment: brak rekordów
Używanie rozważań
Podczas pozyskiwania zestawów danych FHIR w rozwiązaniach do obsługi danych medycznych w Microsoft Fabric należy wziąć pod uwagę następujące wymagania:
- Wszystkie dane muszą używać formatu NDJSON.
- Każdy plik musi zawierać tylko dane dla jednego zasobu FHIR.
- Każdy zasób w pliku wymaga pola metadanych z prawidłową wartością dla
Meta.LastUpdated
. Jeśli ta wartość nie jest obecna, wystąpi domyślny błąd walidacji, jak wyjaśniono w temacie Walidacja danych. - Każdy zasób w pliku musi mieć wartość dla pola
ID
. Jeśli ta wartość nie jest obecna, wystąpi domyślny błąd walidacji, jak wyjaśniono w temacie Walidacja danych.