Freigeben über


SDOH-Datasets – Transformationen (Vorschauversion) in Datenlösungen für das Gesundheitswesen verwenden

[Dieser Artikel ist Teil der Dokumentation zur Vorabversion und kann geändert werden.]

Dieser Abschnitt enthält Anleitungen zum Erfassen, Umwandeln und Vereinheitlichen der SDOH-Datasets (Social Determinants of Health) mithilfe von SDOH-Datasets – Transformationen (Vorschauversion) in Datenlösungen für das Gesundheitswesen.

Nachdem Sie die Schritte unter Vorbereiten der öffentlichen Datasets in SDOH-Datasets – Transformationen (Vorschauversion) ausgeführt haben, können die SDOH-Datasets erfasst werden. Berücksichtigen Sie auch die folgenden Anforderungen:

  1. Stellen Sie sicher, dass keine der Dateien lokal geöffnet ist, um das Hochladen temporärer Dateikopien zu vermeiden.
  2. Die Vertraulichkeitsbezeichnung der Dateien muss auf Allgemein oder Öffentlich festgelegt werden.

Starten Sie den Erfassungsprozess:

  1. Öffnen Sie in Ihrer Umgebung für Datenlösungen für das Gesundheitswesen die healthcare#_msft_sdoh_ingestion-Datenpipeline.

  2. Wählen Sie die Schaltfläche Ausführen.

Nach erfolgreicher Ausführung können Ihre SDOH-Datasets in Analyse-Workloads verwendet werden.

Grundlegendes zum Erfassungsmechanismus

Die End-to-End-Ausführung dieser Funktion umfasst die folgenden aufeinanderfolgenden Schritte auf hoher Ebene:

  1. Erfassen Sie SDOH-Datensätze von OneLake in den Ordner Ingest .
  2. Verschieben Sie die SDOH-Datasets aus dem Ordner Erfassen in den Ordner Verarbeiten.
  3. Konvertieren Sie SDOH-Datensätze in dedizierte Delta-Tabellen im Bronze Lakehouse.
  4. Erfassen und konvertieren Sie Bronze-Delta-Tabellen in ein vom Industriedatenmodell (IDM) inspiriertes Datenmodell im Silver-Lakehouse.

SDOH-Datensätze von OneLake aufnehmen

Die Ausführung beginnt, nachdem Sie die SDOH-Datasets in den Ordner „Erfassen“ hochgeladen haben. Die Ausführungspipeline verschiebt die Dateien in der nächsten Phase in den organisierten Prozessordner im Bronze-Lakehouse. Wenn Fehler auftreten, verschiebt die Pipeline die Dateien in den Ordner Fehlgeschlagen.

Weitere Informationen zu diesen Ordnern und den Dateiverschiebungen zwischen ihnen finden Sie unter Ordnerbeschreibungen.

SDOH-Datasets verschieben

Das raw_process_movement Notebooks verschiebt die Dateien in den organisierten Ordner Verarbeiten im Bronze-Lakehouse. Die Unterordnerstruktur sieht folgendermaßen aus: Files\Process\SDOH\<file format>\<publisher name>\<dataset-specific folders

Verarbeitete Dateien werden in ihren jeweiligen Unterordnern gespeichert, wobei der Erfassungszeitstempel am Anfang des Dateinamens hinzugefügt wird.

SDOH-Datasets in Delta-Tabellen konvertieren

Nachdem die Dateien in den Ordner Verarbeiten verschoben wurden, füllt das Notebook healthcare#_msft_bronze_ingestion die Metadaten-, Layout- und Datentabellen im Bronze Lakehouse im Delta-Tabellenformat auf. Layoutinformationen werden in der SD_Layout Tabelle aufgefüllt, Metadateninformationen werden in SD_Metadata Tabelle aufgefüllt, und Daten werden in den einzelnen Datentabellen aufgefüllt, die zur Laufzeit generiert werden. Datentabellen wird das SD_ Präfix vorangestellt und enthält den Tabellen-/Dateinamen im Tabellennamen. Alle Datenblätter aus jedem Datensatz behalten ihre Tabellenstruktur. Sie können das Originaldatenblatt mit der entsprechenden Bronze-Delta-Tabelle vergleichen, um die Abweichung zu verstehen.

Delta-Tabellen in Silber-Datenmodell konvertieren

Nach erfolgreicher Bronze-Aufnahme hilft das Notebook healthcare#_msft_bronze_silver_ingestion dabei, ein benutzerdefiniertes Datenmodell im Silver Lakehouse zu definieren. Dieses Notebook:

  • Normalisiert die Daten im Bronze-Lakehouse unter Beibehaltung des Kontexts der entsprechenden Tabellen, sodass Sie die Daten im Quellkontext identifizieren oder abfragen können.
  • Erstellt dedizierte Tabellen im Silver Lakehouse für jeden Quellkontext.

Im Folgenden sind die wichtigsten Silber-Lakehouse-Tabellen aufgeführt:

  • SocialDeterminant: Enthält die tatsächlichen Datenpunkte für jede soziale Determinante und die Standortdetails, wie sie im Standortkonfigurationsblatt eingegeben wurden.
  • SocialDeterminantCategory: Enthält die Kategorie der Datenpunkte für jede soziale Determinante.
  • SocialDeterminantSubCategory: Enthält die Unterkategorie der Datenpunkte für jede soziale Determinante.
  • UnitOfMeasure (IDM-Tabelle): Enthält die Details zur Maßeinheit.
  • SocialDeterminantDataSetMetadata: Enthält Informationen über das Dataset, z. B. den Namen des Datasets, den Herausgeber und das Veröffentlichungsdatum.

Sie können die Bronze-Delta-Lake-Tabellen mit den entsprechenden Silber-Lakehouse-Darstellungen vergleichen, um die benutzerdefinierte Datenmodelltransformation zu verstehen. Die benutzerdefinierten Datenmodelltabellen unterscheiden sich in Struktur und Organisation im Vergleich zu herkömmlichen FHIR-basierten Tabellen.

Beispiel: Analyse des Einflusses von Lebensmittelumgebungen und sozioökonomischen Bedingungen auf Diabetes

Stellen Sie sich ein Szenario vor, in dem wir versuchen, die Auswirkungen der Ernährungsumgebung und der sozioökonomischen Bedingungen eines Landkreises auf die Anzahl der Patienten mit Diabetes in diesem Landkreis zu verstehen.

Die Ernährungsumwelt und das mittlere Haushaltseinkommen stellen SDOH-Informationen aus den kürzlich aufgenommenen öffentlichen SDOH-Datensätzen dar, insbesondere aus dem Food Environment Atlas des USDA und den SDOH-Daten von AHRQ. Sie können Felder wie die Anzahl der Fast-Food-Restaurants, die Anzahl der Lebensmittelgeschäfte und das mittlere Haushaltseinkommen aus dem SDOH-Datenmodell (SocialDeterminant-Tabelle) im Silber-Lakehouse verwenden.

SELECT
  SocialDeterminantName,
  SocialDeterminantValue,
  SocialDeterminantDescription,
  parsedJson.CountyName AS CountyName,
  parsedJson.CountyFIPS AS CountyFIPS,
  parsedJson.StateName AS StateName
FROM
  healthcare1_msft_silver.SocialDeterminant sd
LATERAL VIEW json_tuple(sd.LocationJson, 'STATENAME', 'COUNTYNAME', 'COUNTYFIPS') parsedJson AS StateName, CountyName, CountyFIPS) sd
ON sd.CountyFIPS = fip_zip_mapping.STCOUNTYFP
WHERE
  sd.SocialDeterminantName IN ('GROC16', 'FFR16', 'ACS_MEDIAN_HH_INC')
AND sd.SocialDeterminantValue IS NOT NULL

Auf der anderen Seite bezieht sich die Anzahl der Patienten mit Diabetes auf klinische Informationen aus der klinischen Pipeline von Healthcare Data Solutions, die ebenfalls bereitgestellt und installiert werden müssen. Sie können klinische Daten in diese Pipeline aufnehmen oder die bereitgestellten klinischen Probendaten verwenden. Verwenden Sie Felder wie Patientenadresse und Patientenzustand, um die erforderlichen Maßnahmen abzurufen.

WITH ExpandedPatients AS (
  SELECT
    p.id_orig,
    address_item.postalCode AS postalCode,
    address_item.state AS state
  FROM
    healthcare1_msft_silver.patient p
    LATERAL VIEW explode(p.address) exploded_address AS address_item
)
SELECT
  fzm.STCOUNTYFP,
  SUM(CASE WHEN c.code.text LIKE '%Asthma%' THEN 1 ELSE 0 END) AS Total_Asthma_Patients,
  SUM(CASE WHEN c.code.text LIKE '%Diabetes%' THEN 1 ELSE 0 END) AS Total_Diabetes_Patients,
  SUM(CASE WHEN c.code.text LIKE '%Hypertension%' THEN 1 ELSE 0 END) AS Total_Hypertension_Patients
FROM
  ExpandedPatients ep
JOIN healthcare1_msft_silver.condition c ON ep.id_orig = c.subject.id_orig
JOIN healthcare1_msft_silver.fips_zip_mapping fzm ON ep.postalCode = fzm.ZIP
GROUP BY
  fzm.STCOUNTYFP

Es besteht grundsätzlich keine direkte Beziehung zwischen diesen beiden Datensätzen. Das verknüpfende Element ist ihr Standortdetail:

  • Daten zur Lebensmittelumgebung sind auf Landkreisebene verfügbar, auf die Sie zugreifen können, indem Sie die Spalte Locationjson in der Tabelle SocialDeterminant erweitern und das CountyFIPS Feld verwenden.
  • Klinische Daten enthalten Patientenadressen im FHIR-Format, aus dem Sie Informationen aus dem Landkreis abrufen können. Wenn nur die Postleitzahl des Patienten verfügbar ist, können Sie sie abrufen und eine Zuordnungstabelle mit Postleitzahlen und FIPS-Codes erstellen, um sie mit dem SDOH-Dataset zu verknüpfen. Diese Zuordnungstabelle ist in öffentlichen Daten-Repositories verfügbar.

Wenn Sie die Standortdaten vorbereitet haben, können Sie die beiden Datasets verknüpfen, um eine Gold Lakehouse-Abfrage zu erstellen, die alle erforderlichen Datenpunkte anzeigt. Hier ist eine Beispiel-SQL-Abfrage:

FROM
   social_determinants sd
JOIN
   patient_conditions pc
ON
   sd.CountyFIPS = pc.STCOUNTYFP

Sie können nun den endgültigen Datensatz analysieren und visualisieren, um die Beziehung zwischen der Anzahl der Patienten mit Diabetes und dem Vorhandensein von Fast-Food-Restaurants zu bestimmen. Somit ermöglicht der Silber-Layer eine robuste Datennormalisierung, die es Ihnen ermöglicht, Abfragen zu erstellen und umfassende Erkenntnisse innerhalb und zwischen verschiedenen Datensätzen abzuleiten.