Freigeben über


Öffentliche Datasets in SDOH-Datasets – Transformationen (Vorschauversion) vorbereiten

[Dieser Artikel ist Teil der Dokumentation zur Vorabversion und kann geändert werden.]

Öffentliche SDOH-Datasets enthalten aggregierte Daten zu sozialen Determinanten für die Gesundheit (SDOH), die von Regierungsbehörden und anderen offiziellen Quellen wie Universitäten veröffentlicht werden. Diese Datasets konsolidieren verschiedene SDOH-Parameter auf geografischer Ebene, z. B. Bundesland, Landkreis oder Postleitzahl. SDOH-Datasets – Transformationen (Vorschauversion) ermöglicht es Ihnen, diese Datasets auf geografischer Ebene im CSV- (Kommagetrennte Werte) oder XLSX- (Excel Open XML Spreadsheet)-Format zu erfassen und in ein benutzerdefiniertes Datenmodell zu normalisieren.

Die Vorschauversion enthält die folgenden acht Beispiel-SDOH-Datasets aus verschiedenen SDOH-Domänen, die Sie beim Ausführen von Datenpipelines und beim Untersuchen von Datentransformationen auf den Schichten des Bronze, des Silver und des Gold Lakehouse unterstützen:

  • USDA's Food Environment Atlas: Enthält Faktoren wie die Nähe von Geschäften/Restaurants, Lebensmittelpreise, Ernährungshilfeprogramme und Gemeindemerkmale. Diese Faktoren beeinflussen die Auswahl der Lebensmittel, die Qualität der Ernährung und letztendlich die gesundheitlichen Ergebnisse.

  • USDA's Rural Atlas: Bietet Statistiken zu sozioökonomischen Faktoren wie Menschen, Arbeitsplätze, Bezirksklassifizierungen, Einkommen und Veteranen.

  • AHRQ's SDOH Data: Liefern Details zu fünf wichtigen SDOH-Bereichen:

    • sozialer Kontext, z. B. Alter, Rasse/ethnische Zugehörigkeit, Veteranenstatus
    • wirtschaftlicher Kontext, z. B. Einkommen, Arbeitslosenquote
    • Ausbildung
    • physische Infrastruktur, z. B. Wohnen, Kriminalität, Verkehr
    • Gesundheitskontext, z. B. Krankenversicherung
  • Wohnbezahlbarkeitsindex: Schätzt die Wohn- und Verkehrskosten von Haushalten auf Nachbarschaftsebene.

  • Umweltgerechtigkeitsindex: Aggregiert Daten aus mehreren Quellen, um die kumulativen Auswirkungen von Umweltungerechtigkeit auf die Gesundheit für jeden Zählbezirk zu bewerten.

  • ACS Education Attainment: Bietet Erkenntnisse zur Bildung für geografische Gebiete, die aus einer großen, laufenden demografischen Umfrage abgeleitet werden.

  • Australisches SEIFA: Kombiniert australische Erhebungsdaten wie Einkommen, Bildung, Beschäftigung und Wohnen, um die sozioökonomischen Merkmale eines Gebiets zusammenzufassen.

  • U.K. Indices of Deprivation: Ein im Vereinigten Königreich weit verbreitetes sozioökonomisches Maß zur Bewertung der Armut in kleinen Gebieten, das verschiedene Dimensionen abdeckt.

Dabei gilt Folgendes:

  • USDA: Landwirtschaftsministerium der Vereinigten Staaten
  • AHRQ: Agentur für Forschung und Qualität im Gesundheitswesen
  • ACS: Amerikanische Gemeindeumfrage
  • SEIFA: Sozioökonomische Indizes für Gebiete

Wichtig

Bei diesen Datensätzen handelt es sich nicht nur um Beispiele, sondern um vollständige, reale Datasets, die von den jeweiligen Organisationen veröffentlicht werden. Sie bieten eine genaue Darstellung der SDOH-Profile ihrer geografischen Gebiete. Seien Sie vorsichtig, wenn Sie sie ändern, da es sich um offizielle Veröffentlichungen von Bundesbehörden handelt.

Ordnerstruktur

Die Zielzone für SDOH-Datasets – Transformationen (Vorschauversion) umfasst drei Ordner: Erfassung, Verarbeitung und Fehler. Weitere Informationen zu diesen Ordnern finden Sie unter Vereinheitlichte Ordnerstruktur.

SDOH-Datensätze vor der Erfassung vorbereiten

Bevor Sie öffentliche SDOH-Datasets erfassen, stellen Sie sicher, dass sie für eine erfolgreiche Erfassung bereit sind. In den folgenden Abschnitten werden zwei Szenarien vorgestellt:

  • Eigenes Dataset verwenden
  • Beispieldataset verwenden

Eigenes Dataset verwenden

Die öffentlichen SDOH-Datasets unterscheiden sich je nach der Organisation, die sie veröffentlicht, erheblich in Format, Umfang und Struktur. Ihnen fehlt ein etablierter Standard für das Sammeln und Austauschen der erfassten Informationen. Daher ist es wichtig, sie in einer gemeinsamen Form zusammenzubringen, bevor sie in einem Datenmodell abgebildet werden.

Um ein öffentliches SDOH-Dataset Ihrer Wahl zu verarbeiten und zu transformieren, fügen Sie ihm die folgenden drei Schlüsselinformationen hinzu:

  • Layout: Aufgrund des Fehlens eines Standardsatzes von Codes für die Erfassung von SDOH-Daten ist es schwierig, die Bedeutung der einzelnen Felder zu verstehen. Um dieses Problem zu beheben, erstellen Sie ein Datenwörterbuch für das Dataset, indem Sie ein neues Blatt mit dem Namen Layout hinzufügen (wenn Ihr Dataset im XLSX-Format vorliegt), oder erstellen Sie eine neue CSV-Datei (wenn Ihr Dataset im CSV-Format vorliegt) mit folgenden Spalten:

    Screenshot mit einem Beispiel für ein Layout-Tabellenblatt

  • DataSetMetadata: Da SDOH-Datasets von verschiedenen Herausgebern stammen, ist die Aufzeichnung wichtiger Details zum Dataset von entscheidender Bedeutung. Fügen Sie ein neues Blatt mit dem Namen DataSetMetadata hinzufügen (wenn Ihr Dataset im XLSX-Format vorliegt), oder erstellen Sie eine neue CSV-Datei (wenn Ihr Dataset im CSV-Format vorliegt) mit folgenden Spalten:

    Screenshot mit einem Beispiel für ein Dataset-Metadaten-Tabellenblatt

  • LocationConfiguration: Unterschiedliche Regionen definieren und organisieren Standortdaten auf unterschiedliche Weise. Damit die SDOH-Pipelines die geografische Struktur Ihres Datasets besser verstehen, fügen Sie ein neues Blatt mit dem Namen LocationConfiguration hinzu (wenn Ihr Dataset im XLSX-Format vorliegt) oder erstellen Sie eine neue CSV-Datei (wenn Ihr Dataset im CSV-Format vorliegt) mit folgenden Spalten:

    Screenshot mit einem Beispiel für ein Standortkonfigurations-Tabellenblatt

Außerdem:

  • Sie können sich auf die Struktur der SDOH-Beispieldatasets beziehen, um erforderliche Informationen wie die Kategorie der sozialen Determinanten, Metadaten und Harmonisierungsschlüssel einzutragen.
  • Wenn Sie bestimmte Felder aus dem ursprünglichen Dataset nicht übernehmen möchten, entfernen Sie sie entweder aus dem Datenblatt, oder lassen Sie ihre Details im Layoutblatt leer. In beiden Fällen sind sie nicht im Silver-Datenmodell enthalten.
  • Datasets mit demselben Namen, Veröffentlichungsdatum und Herausgeber werden als Duplikate behandelt.

Beispieldataset verwenden

Die SDOH-Beispieldatasets, die mit Datenlösungen für das Gesundheitswesen bereitgestellt werden, sind mit allen erforderlichen Informationen vorausgefüllt und in Ihrem OneLake verfügbar. Sie können sie lokal extrahieren.

Datasets in den Fabric-Arbeitsbereich hochladen

Sobald die Datasets bereit sind, wählen Sie eine der folgenden zwei Optionen aus, um sie hochzuladen. Sie können Option 2 nur verwenden, wenn Sie das Beispieldataset verwenden, das mit SDOH-Datasets – Transformationen (Vorschauversion) bereitgestellt wird.

  • Option 1: Datasets manuell hochladen
  • Option 2: Datasets über ein Skript hochladen

Datasets manuell hochladen

  1. Wählen Sie in Ihrer Datenlösungsumgebung für das Gesundheitswesen das Lakehouse healthcare#_msft_bronze aus.

  2. Öffnen Sie den Erfassungsordner. Weitere Informationen finden Sie unter Ordnerbeschreibungen.

  3. Wählen Sie die Auslassungspunkte (...) neben dem Ordnernamen und wählen Sie Ordner hochladen.

  4. Laden Sie die Datasets von Ihrem lokalen System hoch. Verwenden Sie den OneLake Explorer, um die Datasets unter folgendem Pfad zu finden: <workspace name>\healthcare#.HealthDataManager\DMHSampleData\8SdohPublicDataset.

  5. Aktualisieren Sie den Erfassungsordner. Sie sollten die Dataset-Dateien nun im SDOH-Unterordner sehen.

Datasets über ein Skript hochladen

Wichtig

Verwenden Sie diese Option nur, wenn Sie das bereitgestellte Beispieldataset verwenden.

  1. Gehen Sie zum Fabric-Arbeitsbereich Ihrer Datenlösungen für das Gesundheitswesen.

  2. Wählen Sie + Neues Element aus.

  3. Suchen Sie im Bereich Neues Element nach Notebook, und wählen Sie es aus.

  4. Kopieren Sie den folgenden Codeausschnitt, und fügen Sie ihn in das Notebook ein:

    workspace_name = '<workspace_name>' # workspace name
    one_lake_endpoint = "<OneLake_endpoint>" # OneLake endpoint
    solution_name = "<solution_name>" # solution name
    bronze_lakehouse_name = "<bronze_lakehouse_name>" # bronze lakehouse name
    
    def copy_source_files_and_folders(source_path, destination_path):
    source_contents = mssparkutils.fs.ls(source_path) # list the source directory contents
    
    
    # list the destination directory contents
    
    try:
        if mssparkutils.fs.exists(destination_path):
            destination_contents = mssparkutils.fs.ls(destination_path)
            destination_files = {item.path.split('/')[-1]: item.path for item in destination_contents}
        else:
            print(f"Destination path {destination_path} does not exist.")
            destination_files = {}
    except Exception as e:
        print(f" Error: {str(e)}")
        destination_files = {}
    
    # copy each item inside the source directory to the destination directory
    
    for item in source_contents:
       item_path = item.path
       item_name = item_path.split('/')[-1]
       destination_item_path = f"{destination_path}/{item_name}"
    
    # recursively copy the contents of the directory
    
    if item.isDir:
            copy_source_files_and_folders(item_path, destination_item_path)
        else:
            if item_name in destination_files:
                print(f"File already exists, skipping: {destination_item_path}")
            else:
                print(f"Creating new file: {destination_item_path}")
                mssparkutils.fs.cp(item_path, destination_item_path, recurse=True)
    
    # define the source and destination paths with placeholder values
    
    data_manager_solution_path = f"abfss://{workspace_name}@{one_lake_endpoint}/{solution_name}"
    data_manager_sample_data_path = f"{data_manager_solution_path}/DMHSampleData"
    
    sdoh_csv_data_path = f"{data_manager_sample_data_path}/8SdohPublicDataset/csv"
    sdoh_xlsx_data_path = f"{data_manager_sample_data_path}/8SdohPublicDataset/xlsx"
    
    destination_path_csv = f"abfss://{workspace_name}@{one_lake_endpoint}/{bronze_lakehouse_name}.Lakehouse/Files/Ingest/SDOH/CSV"
    destination_path_xlsx = f"abfss://{workspace_name}@{one_lake_endpoint}/{bronze_lakehouse_name}.Lakehouse/Files/Ingest/SDOH/XLSX"
    
    # copy the files along with their parent folders
    
    copy_source_files_and_folders(sdoh_csv_data_path, destination_path_csv)
    copy_source_files_and_folders(sdoh_xlsx_data_path, destination_path_xlsx)
    
  5. Führen Sie das Notebook aus. Die SDOH-Beispieldatasets werden nun an den dafür vorgesehenen Speicherort im Erfassungsordner verschoben.

Die SDOH-Datasets sind jetzt für die Erfassung bereit.