Delen via


De openbare gegevenssets in SDOH-gegevenssets voorbereiden - Transformaties (preview)

[Dit artikel maakt deel uit van de voorlopige documentatie en kan nog veranderen.]

Openbare SDOH-datasets bevatten geaggregeerde gegevens over sociale determinanten van gezondheid (SDOH) die zijn gepubliceerd door overheidsinstanties en andere officiële bronnen, zoals universiteiten. Deze gegevenssets consolideren verschillende SDOH-parameters op geografisch niveau, zoals staat, provincie of postcode. Met SDOH-gegevenssets - Transformaties (preview) kunt u deze gegevenssets op geografisch niveau opnemen, opslaan en analyseren in CSV- (door komma's gescheiden waarden) of XLSX-indeling (Excel Open XML Spreadsheet) en ze in een aangepast gegevensmodel normaliseren.

De previewversie bevat de volgende acht voorbeeld-SDOH-gegevenssets uit verschillende SDOH-domeinen, waarmee u gegevens-pipelines kunt uitvoeren en gegevenstransformaties kunt verkennen via de bronzen, zilveren en gouden lakehouse-lagen:

  • De Food Environment Atlas van USDA: omvat factoren als de nabijheid van winkels/restaurants, voedselprijzen, programma's voor voedselhulp en kenmerken van de gemeenschap. Deze factoren hebben invloed op de voedselkeuze, de kwaliteit van het dieet en uiteindelijk op de gezondheid.

  • Rural Atlas van USDA: biedt statistieken over sociaal-economische factoren als mensen, banen, countyclassificaties, inkomen en veteranen.

  • SDOH-gegevens van AHRQ: biedt informatie over vijf belangrijke SDOH-domeinen:

    • Sociale context, zoals leeftijd, ras/etniciteit, veteranenstatus.
    • Economische context, zoals inkomen, werkloosheidspercentage.
    • Opleiding
    • Fysieke infrastructuur, zoals huisvesting, misdaad en transport.
    • Context in de gezondheidszorg, zoals ziektekostenverzekeringen.
  • Locatie betaalbaarheidsindex: schat de kosten van huishoudens voor huisvesting en transport op wijkniveau.

  • Index voor milieurechtvaardigheid: verzamelt gegevens uit meerdere bronnen om de cumulatieve gevolgen van milieuonrechtvaardigheid op de gezondheid voor elk censusgebied te rangschikken.

  • ACS-onderwijsniveau: biedt onderwijskundige inzichten voor geografische gebieden, afgeleid van een grootschalig, doorlopend demografisch onderzoek.

  • Australische SEIFA: combineert Australische bevolkingsgegevens zoals inkomen, opleiding, werkgelegenheid en huisvesting om de sociaal-economische kenmerken van een gebied samen te vatten.

  • U.K. Indices of Deprivation: een veelgebruikte sociaal-economische maatstaf in het Verenigd Koninkrijk om armoede in kleine gebieden te beoordelen, waarbij verschillende dimensies worden bestreken.

Waarbij geldt:

  • USDA: Ministerie van Landbouw van de Verenigde Staten
  • AHRQ: Bureau voor Gezondheidszorgonderzoek en kwaliteit
  • ACS: Amerikaans gemeenschapsonderzoek
  • SEIFA: Sociaal-economische indexen voor gebieden

Belangrijk

Deze gegevenssets zijn niet zomaar voorbeelden, maar complete, echte gegevenssets die door de betreffende organisaties zijn gepubliceerd. Ze geven een nauwkeurig beeld van de SDOH-profielen van hun geografische gebieden. Wees voorzichtig als u ze wijzigt, want het zijn officiële publicaties van federale instellingen.

Mappenstructuur

De landingszone voor SDOH-gegevenssets - Transformaties (preview) bestaat uit drie mappen: Opnemen, Verwerken en Mislukt. Zie Uniforme mapstructuur voor meer informatie over deze mappen.

De SDOH-gegevenssets voor vóór opname voorbereiden

Voordat u openbare SDOH-gegevenssets invoert, moet u ervoor zorgen dat ze klaar zijn voor succesvolle opname. In de volgende secties worden twee scenario's beschreven:

  • Uw eigen gegevensset gebruiken
  • De voorbeeldgegevensset gebruiken

Uw eigen gegevensset gebruiken

De openbare gegevenssets van SDOH variëren aanzienlijk tussen uitgeversorganisaties wat indeling, volume en structuur betreft. Er is geen vastgestelde standaard voor het verzamelen en uitwisselen van de vastgelegde informatie. Daarom is het essentieel om ze in een gemeenschappelijke vorm te verenigen voordat u ze in een gegevensmodel kunt weergeven.

Om een openbare SDOH-gegevensset van uw keuze te verwerken en te transformeren, voegt u de volgende drie belangrijke stukjes informatie toe:

  • Indeling: doordat er geen standaardset codes is voor het vastleggen van SDOH-gegevens, is het lastig om de betekenis van elk veld te begrijpen. Om dit probleem op te lossen, maakt u een gegevenswoordenboek voor de gegevensset door een nieuw werkblad met de naam Indeling toe te voegen (als uw gegevensset de XLSX-indeling heeft) of een nieuw CSV-bestand (als uw gegevensset de CSV-indeling heeft) met de kolommen die in het volgende voorbeeld worden weergegeven:

    Een schermopname met een voorbeeld van een indelingsblad.

  • DataSetMetadata: omdat SDOH-gegevenssets van verschillende uitgevers afkomstig zijn, is het van cruciaal belang om belangrijke informatie over de gegevensset vast te leggen. Voeg een nieuw werkblad met de naam DataSetMetadata toe (als uw gegevensset de XLSX-indeling heeft) of een nieuw CSV-bestand (als uw gegevensset de CSV-indeling heeft) met de kolommen die in het volgende voorbeeld worden weergegeven:

    Een schermopname met een voorbeeld van een werkblad met metagegevens over de gegevensset.

  • LocationConfiguration: verschillende geografische gebieden definiëren en organiseren locatiegegevens op verschillende manieren. Om de SDOH-pipelines te helpen de geografische structuur van uw gegevensset te begrijpen, voegt u een nieuw werkblad toe met de naam LocationConfiguration (als uw gegevensset de XLSX-indeling heeft) of maakt u een nieuw CSV-bestand (als uw gegevensset de CSV-indeling heeft) met de kolommen die in het volgende voorbeeld worden weergegeven:

    Een schermopname met een voorbeeld van een werkblad met locatieconfiguratie.

Ook:

  • U kunt de structuur van de voorbeeld-SDOH-gegevenssets raadplegen om de vereiste informatie in te vullen, zoals de categorie van de sociale determinant, metagegevens en harmonisatiesleutel.
  • Als u bepaalde velden uit de oorspronkelijke gegevensset niet wilt opnemen, kunt u deze uit het gegevensblad verwijderen of de details ervan leeg laten in het indelingswerkblad. In beide gevallen worden ze niet opgenomen in het zilveren gegevensmodel.
  • Gegevenssets met dezelfde naam, uitgever en publicatiedatum worden als duplicaten behandeld.

De voorbeeldgegevensset gebruiken

De voorbeeld-SDOH-gegevenssets die bij oplossingen voor gezondheidszorggegevens worden geleverd, zijn vooraf ingevuld met alle vereiste informatie en zijn beschikbaar in uw OneLake. U kunt ze lokaal extraheren.

Gegevenssets uploaden naar de Fabric-werkruimte

Zodra de gegevenssets klaar zijn, kiest u een van de volgende twee opties om ze te uploaden. U kunt optie 2 alleen gebruiken als u de voorbeeldgegevensset gebruikt die bij de SDOH-gegevenssets - Transformaties (preview) is meegeleverd.

  • Optie 1: Upload de gegevenssets handmatig.
  • Optie 2: Gebruik een script om de gegevenssets te uploaden.

De gegevenssets handmatig uploaden

  1. Selecteer in uw omgeving voor oplossingen voor gezondheidszorggegevens het healthcare#_msft_bronze lakehouse.

  2. Open de map Opnemen. Zie Mapbeschrijvingen voor meer informatie.

  3. Selecteer het beletselteken (...) naast de mapnaam en selecteer Map uploaden.

  4. Upload de gegevenssets vanaf uw lokale systeem. Gebruik OneLake-bestandsverkenner om de gegevenssets in het volgende pad te vinden: <workspace name>\healthcare#.HealthDataManager\DMHSampleData\8SdohPublicDataset.

  5. Vernieuw de map Opnemen. U zou nu de gegevenssetbestanden in de submap SDOH moeten zien.

Een script gebruiken om de gegevenssets te uploaden

Belangrijk

Gebruik deze optie alleen als u de meegeleverde voorbeeldgegevensset gebruikt.

  1. Ga naar uw Fabric-werkruimte voor oplossingen voor gezondheidszorggegevens.

  2. Selecteer + Nieuw item.

  3. Zoek en selecteer in het deelvenster Nieuw item de optie Notitieblok.

  4. Kopieer het volgende codefragment in het notitieblok:

    workspace_id = '<workspace_id>' # Workspace ID. Retrieve the value from the healthcare#_msft_config_notebook.
    one_lake_endpoint = "<OneLake_endpoint>" # OneLake endpoint. Retrieve the value from the healthcare#_msft_config_notebook.
    solution_id = "<solution_id>" # Solution ID. Retrieve the value from the healthcare#_msft_config_notebook. 
    bronze_lakehouse_id = "<bronze_lakehouse_id>" # To locate the bronze lakehouse ID, open the bronze lakehouse and check the URL in the browser's address bar: https://{baseurl}/lakehouse/{GUID}/details). The {GUID} value in the URL is the bronze lakehouse ID.
    
    def copy_source_files_and_folders(source_path, destination_path):
       # List the contents of the source directory
       source_contents = mssparkutils.fs.ls(source_path)
    
       # List the contents of the destination directory
       try:
           destination_contents = mssparkutils.fs.ls(destination_path)
           destination_files = {item.path.split('/')[-1]: item.path for item in destination_contents}
       except Exception as e:
           print(f"Destination path {destination_path} does not exist or is empty. Creating the path.")
           destination_files = {}
           mssparkutils.fs.mkdirs(destination_path)
    
       # Copy each item inside the source directory to the destination directory
       for item in source_contents:
           item_path = item.path
           item_name = item_path.split('/')[-1]
           destination_item_path = f"{destination_path}/{item_name}"
    
           if item.isDir:
               # Recursively copy the contents of the directory
               copy_source_files_and_folders(item_path, destination_item_path)
           else:
               if item_name in destination_files:
                   print(f"File already exists, skipping: {destination_item_path}")
               else:
                   print(f"Creating new file: {destination_item_path}")
                   mssparkutils.fs.cp(item_path, destination_item_path, recurse=True)
    
    # Define the source and destination paths with placeholder values
    data_manager_solution_path = f"abfss://{workspace_id}@{one_lake_endpoint}/{solution_id}"
    data_manager_sample_data_path = f"{data_manager_solution_path}/DMHSampleData"
    
    sdoh_csv_data_path = f"{data_manager_sample_data_path}/8SdohPublicDataset/csv"
    sdoh_xlsx_data_path = f"{data_manager_sample_data_path}/8SdohPublicDataset/xlsx"
    
    destination_path_csv = f"abfss://{workspace_id}@{one_lake_endpoint}/{bronze_lakehouse_id}/Files/Ingest/SDOH/CSV"
    destination_path_xlsx = f"abfss://{workspace_id}@{one_lake_endpoint}/{bronze_lakehouse_id}/Files/Ingest/SDOH/XLSX"
    
    # Copy the files along with their parent folders
    copy_source_files_and_folders(sdoh_csv_data_path, destination_path_csv)
    copy_source_files_and_folders(sdoh_xlsx_data_path, destination_path_xlsx)     
    
  5. Voer het notitieblok uit. De voorbeeld-SDOLH-gegevenssets worden nu verplaatst naar de aangewezen locatie in de map Opnemen.

De SDOH-gegevenssets zijn nu klaar voor opname.