Udostępnij za pośrednictwem


Przygotowywanie publicznych zestawów danych w zestawach danych SDOH — przekształcenia (wersja zapoznawcza)

[Ten artykuł stanowi wstępną wersję dokumentacji i może ulec zmianie.]

Publiczne zbiory danych SDOH zawierają zagregowane dane dotyczące społecznych uwarunkowań zdrowia (SDOH) publikowane przez agencje rządowe i inne oficjalne źródła, takie jak uniwersytety. Te zestawy danych konsolidują różne parametry SDOH na poziomach geograficznych, takich jak stan, hrabstwo lub kod pocztowy. Zestawy danych SDOH — przekształcenia (wersja zapoznawcza) umożliwiają pozyskiwanie tych zestawów danych na poziomie geograficznym w formacie CSV (wartości rozdzielane przecinkami) lub XLSX (arkusz kalkulacyjny Excel Open XML) i normalizowanie ich do niestandardowego modelu danych.

Wersja zapoznawcza zawiera następujące osiem przykładowych zestawów danych SDOH z różnych domen SDOH, które ułatwiają uruchamianie potoków danych i eksplorowanie przekształceń danych za pośrednictwem warstw brązowym, srebrnym i złotym magazynie lakehouse:

  • Atlas środowiska żywnościowego USDA: obejmuje takie czynniki, jak bliskość sklepu/restauracji, ceny żywności, programy pomocy żywieniowej i cechy społeczności. Czynniki te wpływają na wybory żywieniowe, jakość diety, a ostatecznie na wyniki zdrowotne.

  • Atlas obszarów wiejskich USDA: oferuje statystyki dotyczące czynników społeczno-ekonomicznych, takich jak ludzie, miejsca pracy, klasyfikacje hrabstw, dochody i weterani.

  • Dane SDOH AHRQ: Zawiera szczegółowe informacje na temat pięciu kluczowych domen SDOH:

    • Kontekst społeczny, taki jak wiek, rasa/pochodzenie etniczne, status weterana.
    • Kontekst ekonomiczny, taki jak dochód, stopa bezrobocia.
    • Wykształcenie
    • Infrastruktura fizyczna, taka jak mieszkalnictwo, przestępczość, transport.
    • Kontekst opieki zdrowotnej, taki jak ubezpieczenie zdrowotne.
  • Indeks przystępności cenowej lokalizacji: szacuje koszty mieszkaniowe i transportowe gospodarstwa domowego na poziomie dzielnicy.

  • Indeks Sprawiedliwości Środowiskowej: agreguje dane z wielu źródeł, aby uszeregować skumulowany wpływ niesprawiedliwości środowiskowej na zdrowie dla każdego obwodu spisowego.

  • Realizacja edukacji ACS: dostarcza informacji o wykształceniu dla obszarów geograficznych, pochodzących z dużego, trwającego badania demograficznego.

  • Australijska SEIFA: łączy dane z australijskiego spisu powszechnego, takie jak dochód, wykształcenie, zatrudnienie i mieszkanie, aby podsumować cechy społeczno-ekonomiczne obszaru.

  • Brytyjskie wskaźniki deprywacji: Szeroko stosowana miara społeczno-ekonomiczna w Wielkiej Brytanii do oceny ubóstwa na małych obszarach, obejmująca różne wymiary.

Gdzie:

  • USDA: Departament Rolnictwa Stanów Zjednoczonych
  • AHRQ: Agencja ds. Badań i Jakości w Opiece Zdrowotnej
  • ACS: Ankieta Społeczności Amerykańskiej
  • SEIFA: Wskaźniki społeczno-ekonomiczne dla obszarów

Ważne

Te zestawy danych nie są tylko przykładami, ale kompletnymi, rzeczywistymi zestawami danych opublikowanymi przez odpowiednie organizacje. Zapewniają one dokładne odwzorowanie profili SDOH w ich obszarach geograficznych. Zachowaj ostrożność podczas ich modyfikowania, ponieważ są to oficjalne publikacje agencji federalnych.

Struktura folderów

Strefa docelowa zestawów danych SDOH — przekształcenia (wersja zapoznawcza) składa się z trzech folderów: Pozyskiwanie, Proces i Niepowodzenie. Aby dowiedzieć się więcej o tych folderach, zobacz Ujednolicona struktura folderów.

Przygotowywanie zestawów danych SDOH przed pozyskaniem

Przed pozyskaniem publicznych zestawów danych SDOH upewnij się, że są one gotowe do pomyślnego pozyskiwania. W poniższych sekcjach przedstawiono dwa scenariusze:

  • Użyj własnego zestawu danych
  • Skorzystaj z przykładowego zestawu danych

Użyj własnego zestawu danych

Publiczne zestawy danych SDOH różnią się znacznie w różnych organizacjach publikujących pod względem formatu, objętości i struktury. Brakuje im ustalonego standardu gromadzenia i wymiany przechwyconych informacji. Dlatego ujednolicenie ich we wspólny kształt jest niezbędne przed przedstawieniem ich w modelu danych.

Aby pozyskać i przekształcić wybrany publiczny zestaw danych SDOH, dodaj do nich następujące trzy kluczowe informacje:

  • Układ: ze względu na brak standardowego zestawu kodów do przechwytywania danych SDOH, zrozumienie znaczenia każdego pola jest trudne. Aby rozwiązać ten problem, utwórz słownik danych dla zestawu danych, dodając nowy arkusz o nazwie Układ (jeśli zestaw danych jest w formacie XLSX) lub utwórz nowy plik CSV (jeśli zestaw danych jest w formacie CSV) z kolumnami wyświetlanymi w poniższym przykładzie:

    Zrzut ekranu, na którym jest wyświetlany przykładowy arkusz układu.

  • DataSetMetadata: ponieważ zestawy danych SDOH pochodzą od różnych wydawców, kluczowe znaczenie ma rejestrowanie kluczowych szczegółów dotyczących zestawu danych. Dodaj nowy arkusz o nazwie DataSetMetadata (jeśli zestaw danych jest w formacie XLSX) lub utwórz nowy plik CSV (jeśli zestaw danych jest w formacie CSV) z kolumnami wyświetlanymi w poniższym przykładzie:

    Zrzut ekranu, na którym jest wyświetlany przykładowy arkusz metadanych zestawu.

  • LocationConfiguration: różne lokalizacje geograficzne definiują i organizują dane lokalizacji na różne sposoby. Aby ułatwić potokom SDOH zrozumienie struktury geograficznej zestawu danych, dodaj nowy arkusz o nazwie LocationConfiguration (jeśli zestaw danych jest w formacie XLSX) lub utwórz nowy plik CSV (jeśli zestaw danych jest w formacie CSV) z kolumnami wyświetlanymi w poniższym przykładzie:

    Zrzut ekranu, na którym jest wyświetlany przykładowy arkusz konfiguracji lokalizacji.

Też:

  • Możesz odwołać się do struktury przykładowych zestawów danych SDOH, aby wypełnić wymagane informacje, takie jak kategoria determinantów społecznych, metadane i klucz harmonizacji.
  • Jeśli nie chcesz pozyskiwać niektórych pól z oryginalnego zestawu danych, usuń je z arkusza danych lub pozostaw puste ich szczegóły w arkuszu układu. W obu przypadkach nie są one uwzględniane w srebrnym modelu danych.
  • Zestawy danych o tej samej nazwie, dacie publikacji i wydawcy są traktowane jako duplikaty.

Skorzystaj z przykładowego zestawu danych

Przykładowe zestawy danych SDOH dostarczane z rozwiązaniami danych opieki zdrowotnej są wstępnie wypełnione wszystkimi wstępnie wymaganymi informacjami i są dostępne w usłudze OneLake. Można je wyodrębnić lokalnie.

Przekazywanie zestawów danych do obszaru roboczego Fabric

Gdy zestawy danych będą gotowe, wybierz jedną z następujących dwóch opcji, aby je przekazać. Opcji 2 można użyć tylko wtedy, gdy używasz przykładowego zestawu danych dostarczonego z zestawami danych SDOH — przekształcenia (wersja zapoznawcza).

  • Opcja 1: ręcznie przekaż zestawy danych.
  • Opcja 2: użyj skryptu, aby przekazać zestawy danych.

Ręcznie przekaż zestawy danych

  1. W środowisku rozwiązań do obsługi danych opieki zdrowotnej wybierz magazyn lakehouse healthcare #_msft_bronze.

  2. Otwórz folder Pozyskaj. Aby dowiedzieć się więcej, zobacz Opisy folderów.

  3. Wybierz wielokropek (...) obok nazwy folderu i wybierz pozycję Przekaż folder.

  4. Przekaż zestawy danych z systemu lokalnego. Użyj Eksploratora plików OneLake, aby znaleźć zestawy danych w następującej ścieżce: <workspace name>\healthcare#.HealthDataManager\DMHSampleData\8SdohPublicDataset.

  5. Odśwież folder Pozyskaj. Powinny być teraz widoczne pliki zestawów danych w podfolderze SDOH.

Użyj skryptu, aby przekazać zestawy danych

Ważne

Użyj tej opcji tylko wtedy, gdy używasz podanego przykładowego zestawu danych.

  1. Przejdź do obszaru roboczego Fabric rozwiązań do obsługi danych medycznych.

  2. Wybierz + Nowy element.

  3. W okienku Nowy element wyszukaj i wybierz pozycję Notes.

  4. Skopiuj poniższą wstawkę kodu i wklej ją w notesie:

    workspace_name = '<workspace_name>' # workspace name
    one_lake_endpoint = "<OneLake_endpoint>" # OneLake endpoint
    solution_name = "<solution_name>" # solution name
    bronze_lakehouse_name = "<bronze_lakehouse_name>" # bronze lakehouse name
    
    def copy_source_files_and_folders(source_path, destination_path):
    source_contents = mssparkutils.fs.ls(source_path) # list the source directory contents
    
    
    # list the destination directory contents
    
    try:
        if mssparkutils.fs.exists(destination_path):
            destination_contents = mssparkutils.fs.ls(destination_path)
            destination_files = {item.path.split('/')[-1]: item.path for item in destination_contents}
        else:
            print(f"Destination path {destination_path} does not exist.")
            destination_files = {}
    except Exception as e:
        print(f" Error: {str(e)}")
        destination_files = {}
    
    # copy each item inside the source directory to the destination directory
    
    for item in source_contents:
       item_path = item.path
       item_name = item_path.split('/')[-1]
       destination_item_path = f"{destination_path}/{item_name}"
    
    # recursively copy the contents of the directory
    
    if item.isDir:
            copy_source_files_and_folders(item_path, destination_item_path)
        else:
            if item_name in destination_files:
                print(f"File already exists, skipping: {destination_item_path}")
            else:
                print(f"Creating new file: {destination_item_path}")
                mssparkutils.fs.cp(item_path, destination_item_path, recurse=True)
    
    # define the source and destination paths with placeholder values
    
    data_manager_solution_path = f"abfss://{workspace_name}@{one_lake_endpoint}/{solution_name}"
    data_manager_sample_data_path = f"{data_manager_solution_path}/DMHSampleData"
    
    sdoh_csv_data_path = f"{data_manager_sample_data_path}/8SdohPublicDataset/csv"
    sdoh_xlsx_data_path = f"{data_manager_sample_data_path}/8SdohPublicDataset/xlsx"
    
    destination_path_csv = f"abfss://{workspace_name}@{one_lake_endpoint}/{bronze_lakehouse_name}.Lakehouse/Files/Ingest/SDOH/CSV"
    destination_path_xlsx = f"abfss://{workspace_name}@{one_lake_endpoint}/{bronze_lakehouse_name}.Lakehouse/Files/Ingest/SDOH/XLSX"
    
    # copy the files along with their parent folders
    
    copy_source_files_and_folders(sdoh_csv_data_path, destination_path_csv)
    copy_source_files_and_folders(sdoh_xlsx_data_path, destination_path_xlsx)
    
  5. Uruchom notes. Przykładowe zestawy danych SDOH są teraz przenoszone do wyznaczonej lokalizacji w folderze Pozyskaj.

Zestawy danych SDOH są teraz gotowe do pozyskiwania.