Partager via


Préparer les jeux de données publics dans Jeux de données SDOH – Transformations (version préliminaire)

[Cet article fait partie de la documentation en version préliminaire et peut faire l’objet de modifications.]

Les ensembles de données publiques sur les déterminants sociaux de la santé contiennent des données agrégées sur les déterminants sociaux de la santé (DSS) publiées par des organismes gouvernementaux et d’autres sources officielles telles que les universités. Ces jeux de données consolident divers paramètres SDOH à des niveaux géographiques tels que l’État, le comté ou le code postal. Jeux de données SDOH - Transformations (version préliminaire) vous permet d’ingérer ces jeux de données au niveau géographique au format CSV (valeurs séparées par des virgules) ou XLSX (feuille de calcul Excel Open XML) et de les normaliser dans un modèle de données personnalisé.

La version préliminaire fournit les huit exemples suivants de jeux de données SDOH provenant de divers domaines SDOH pour vous aider à exécuter des pipelines de données et à explorer les transformations de données à travers les couches bronze, argent et or lakehouse :

  • Atlas de l’environnement alimentaire de l’USDA : Comprend des facteurs tels que la proximité des magasins et des restaurants, les prix des aliments, les programmes d’aide nutritionnelle et les caractéristiques de la communauté. Ces facteurs influent sur les choix alimentaires, la qualité de l’alimentation et, en fin de compte, les résultats pour la santé.

  • Atlas rural de l’USDA : Offre des statistiques sur les facteurs socio-économiques tels que les personnes, les emplois, les classifications des comtés, les revenus et les anciens combattants.

  • Données sur la santé et la sécurité au travail de l’AHRQ : Fournit des détails sur cinq domaines clés de la santé et de la sécurité au travail :

    • Contexte social, comme l’âge, la race ou l’origine ethnique, le statut d’ancien combattant.
    • Contexte économique, comme le revenu, le taux de chômage.
    • Formation
    • L’infrastructure physique, comme le logement, la criminalité, les transports.
    • Contexte des soins de santé, comme l’assurance maladie.
  • Indice d’abordabilité de l’emplacement : Estime les coûts de logement et de transport des ménages à l’échelle du quartier.

  • Indice de justice environnementale : Agrège des données provenant de sources multiples pour classer les impacts cumulatifs de l’injustice environnementale sur la santé pour chaque secteur de recensement.

  • ACS Education Attainment : Fournit des informations sur l’éducation pour les zones géographiques, dérivées d’une vaste enquête démographique en cours.

  • SEIFA australien : combine les données du recensement australien telles que le revenu, l’éducation, l’emploi et le logement pour résumer les caractéristiques socio-économiques d’une région.

  • Indices de défavorisation du Royaume-Uni : Mesure socio-économique largement utilisée au Royaume-Uni pour évaluer la pauvreté dans de petites zones, couvrant diverses dimensions.

Où :

  • USDA : Département de l’agriculture des États-Unis
  • AHRQ : Agence pour la recherche et la qualité des soins de santé
  • ACS : American Community Survey (en anglais seulement)
  • SEIFA : Indices socio-économiques pour les zones

Important

Ces jeux de données ne sont pas de simples échantillons, mais des jeux de données complets et réels publiés par les organisations respectives. Ils fournissent une représentation exacte des profils SDOH de leurs zones géographiques. Soyez prudent lorsque vous les modifiez, car il s’agit de publications officielles d’agences fédérales.

Structure de dossiers

La zone d’atterrissage pour les jeux de données SDOH – Transformations (préversion) comprend trois dossiers : Ingérer, Processus et Échec. Pour en savoir plus sur ces dossiers, reportez-vous à la section Structure unifiée des dossiers.

Préparer les jeux de données SDOH avant l’ingestion

Avant d’ingérer des ensembles de données publics SDOH, assurez-vous qu’ils sont prêts pour une ingestion réussie. Les sections suivantes décrivent deux scénarios :

  • Utiliser vos propres jeu de données
  • Utiliser les exemples de jeux de données

Utiliser vos propres jeu de données

Les jeux de données publics SDOH varient considérablement d’une organisation de publication à l’autre en termes de format, de volume et de structure. Ils n’ont pas de norme établie pour la collecte et l’échange des informations saisies. Par conséquent, il est essentiel de les unifier en une forme commune avant de les représenter dans un modèle de données.

Pour ingérer et transformer un jeu de données public SDOH de votre choix, ajoutez-y les trois informations clés suivantes :

  • Mise en page : En raison de l’absence d’un ensemble standard de codes pour la saisie des données SDOH, il est difficile de comprendre la signification de chaque champ. Pour résoudre ce problème, créez un dictionnaire de données pour le jeu de données en ajoutant une nouvelle feuille nommée Mise en page (si votre jeu de données est au format XLSX) ou créez un nouveau fichier CSV (si votre jeu de données est au format CSV) avec les colonnes affichées dans l’exemple suivant :

    Capture d’écran montrant un exemple de feuille de disposition.

  • DataSetMetadata : Comme les ensembles de données SDOH proviennent de différents éditeurs, il est crucial d’enregistrer les détails clés de l’ensemble de données. Ajoutant une nouvelle feuille nommée DataSetMetadata (si votre jeu de données est au format XLSX) ou créez un nouveau fichier CSV (si votre jeu de données est au format CSV) avec les colonnes affichées dans l’exemple suivant :

    Capture d’écran montrant un exemple de feuille de métadonnées de jeu de données.

  • LocationConfiguration : différentes zones géographiques définissent et organisent les données de localisation de différentes manières. Pour aider les pipelines SDOH à comprendre la structure géographique de votre jeu de données, ajoutez une nouvelle feuille nommée LocationConfiguration (si votre jeu de données est au format XLSX) ou créez un nouveau fichier CSV (si votre jeu de données est au format CSV) avec les colonnes affichées dans l’exemple suivant :

    Capture d’écran montrant un exemple de feuille de configuration emplacement.

Aussi :

  • Vous pouvez vous référer à la structure des exemples de jeux de données SDOH pour remplir les informations requises, telles que la catégorie de déterminant social, les métadonnées et la clé d’harmonisation.
  • Si vous préférez ne pas ingérer certains champs du jeu de données d’origine, supprimez-les de la feuille de données ou laissez leurs détails vides dans la feuille de mise en page. Dans les deux cas, elles ne sont pas incluses dans le modèle de données Silver.
  • Les jeux de données portant le même nom, la même date de publication et le même éditeur sont traités comme des doublons.

Utiliser les exemples de jeux de données

Les exemples de jeux de données SDOH fournis avec les solutions de données de santé sont préremplis avec toutes les informations préalables et sont disponibles dans votre OneLake. Vous pouvez les extraire localement.

Charger des jeux de données dans l’espace de travail Fabric

Une fois les jeux de données prêts, choisissez l’une des deux options suivantes pour les charger. Vous pouvez utiliser l’option 2 uniquement si vous utilisez l’exemple de jeu de données fourni avec Jeux de données SDOH – Transformations (préversion).

  • Option 1 : Chargez manuellement les jeux de données.
  • Option 2 : Utilisez un script pour télécharger les jeux de données.

Chargez manuellement les jeux de données

  1. Dans votre environnement de solutions de données de santé, sélectionnez healthcare #_msft_bronze lakehouse.

  2. Ouvrez le dossier ingérer. Pour en savoir plus, voir Description dossier.

  3. Sélectionnez les points de suspension (...) à côté du nom du dossier, puis sélectionnez Charger le dossier.

  4. Chargez les jeux de données à partir de votre système local. Utilisez l’explorateur de fichiers OneLake pour rechercher les jeux de données dans le chemin d’accès suivant : <workspace name>\healthcare#.HealthDataManager\DMHSampleData\8SdohPublicDataset.

  5. Actualisez la vue du dossier ingérer. Vous devez maintenant voir les fichiers de jeu de données dans le sous-dossier SDOH.

Utilisez un script pour télécharger les jeux de données

Important

Utilisez cette option uniquement si vous utilisez l’exemple de jeu de données fourni.

  1. Aller à les solutions de données de santé dans votre espace de travail Fabric.

  2. Sélectionnez + Nouvel article.

  3. Dans le volet Nouvel élément , recherchez et sélectionnez Notebook.

  4. Copiez l’extrait de code suivant dans le notebook :

    workspace_name = '<workspace_name>' # workspace name
    one_lake_endpoint = "<OneLake_endpoint>" # OneLake endpoint
    solution_name = "<solution_name>" # solution name
    bronze_lakehouse_name = "<bronze_lakehouse_name>" # bronze lakehouse name
    
    def copy_source_files_and_folders(source_path, destination_path):
    source_contents = mssparkutils.fs.ls(source_path) # list the source directory contents
    
    
    # list the destination directory contents
    
    try:
        if mssparkutils.fs.exists(destination_path):
            destination_contents = mssparkutils.fs.ls(destination_path)
            destination_files = {item.path.split('/')[-1]: item.path for item in destination_contents}
        else:
            print(f"Destination path {destination_path} does not exist.")
            destination_files = {}
    except Exception as e:
        print(f" Error: {str(e)}")
        destination_files = {}
    
    # copy each item inside the source directory to the destination directory
    
    for item in source_contents:
       item_path = item.path
       item_name = item_path.split('/')[-1]
       destination_item_path = f"{destination_path}/{item_name}"
    
    # recursively copy the contents of the directory
    
    if item.isDir:
            copy_source_files_and_folders(item_path, destination_item_path)
        else:
            if item_name in destination_files:
                print(f"File already exists, skipping: {destination_item_path}")
            else:
                print(f"Creating new file: {destination_item_path}")
                mssparkutils.fs.cp(item_path, destination_item_path, recurse=True)
    
    # define the source and destination paths with placeholder values
    
    data_manager_solution_path = f"abfss://{workspace_name}@{one_lake_endpoint}/{solution_name}"
    data_manager_sample_data_path = f"{data_manager_solution_path}/DMHSampleData"
    
    sdoh_csv_data_path = f"{data_manager_sample_data_path}/8SdohPublicDataset/csv"
    sdoh_xlsx_data_path = f"{data_manager_sample_data_path}/8SdohPublicDataset/xlsx"
    
    destination_path_csv = f"abfss://{workspace_name}@{one_lake_endpoint}/{bronze_lakehouse_name}.Lakehouse/Files/Ingest/SDOH/CSV"
    destination_path_xlsx = f"abfss://{workspace_name}@{one_lake_endpoint}/{bronze_lakehouse_name}.Lakehouse/Files/Ingest/SDOH/XLSX"
    
    # copy the files along with their parent folders
    
    copy_source_files_and_folders(sdoh_csv_data_path, destination_path_csv)
    copy_source_files_and_folders(sdoh_xlsx_data_path, destination_path_xlsx)
    
  5. Exécuter le notebook. Les exemples de jeux de données SDOH sont maintenant déplacés vers l’emplacement désigné dans le dossier Ingérer .

Les jeux de données SDOH sont maintenant prêts à être ingestion.