SDOH-gegevenssets gebruiken - Transformaties (preview) in oplossingen voor gezondheidszorggegevens (preview)
[Dit artikel maakt deel uit van de voorlopige documentatie en kan nog veranderen.]
In dit gedeelte vindt u richtlijnen voor het opnemen, transformeren en verenigen van SDOH-gegevenssets (sociale determinanten van gezondheid) met behulp van SDOH-gegevenssets gebruiken - Transformaties (preview) in oplossingen voor gezondheidszorggegevens.
Nadat u de stappen in De openbare gegevenssets voorbereiden in SDOH-datasets - Transformaties (preview) hebt voltooid, zijn de SDOH-gegevenssets klaar voor opname. Houd ook rekening met de volgende vereisten:
- Zorg ervoor dat er geen bestanden lokaal geopend zijn, om te voorkomen dat tijdelijke kopieën van de bestanden worden geüpload.
- Het gevoeligheidslabel van de bestanden moet worden ingesteld op Algemeen of Openbaar.
Het opnameproces starten:
Open de gegevenspijplijnhealthcare#_msft_sdoh_ingestion in uw in uw omgeving met oplossingen voor gezondheidszorggegevens.
Selecteer de knop Uitvoeren.
Na een geslaagde uitvoering zijn uw SDOH-gegevenssets klaar voor gebruik in analyseworkloads.
Het opnamemechanisme begrijpen
De end-to-end uitvoering van deze mogelijkheid omvat de volgende algemene stappen:
- Neem SDOH-gegevenssets vanuit OneLake op in de map Opnemen.
- Verplaats de SDOH-gegevenssets van de map Opnemen naar Verwerken .
- Converteer SDOH-gegevenssets naar speciale deltatabellen in het bronzen lakehouse.
- Neem bronzen deltatabellen op en converteer deze naar een op IDM (Industry Data Model) geïnspireerd gegevensmodel in het zilveren lakehouse.
SDOH-gegevenssets vanuit OneLake opnemen
De uitvoering begint nadat u de SDOH-gegevenssets naar de map Opname hebt geüpload. De uitvoeringspijplijn verplaatst de bestanden naar de georganiseerde map Verwerken in het bronzen meerhuis in de volgende fase. Als er fouten optreden, verplaatst de pijplijn de bestanden naar de map Mislukt.
Zie voor meer informatie over deze mappen en de bestandsverplaatsing tussen deze mappen Mapbeschrijvingen.
SDOH-gegevenssets verplaatsen
Het notebook raw_process_movement verplaatst de bestanden naar de georganiseerde map Verwerken in het bronzen lakehouse. De submapstructuur is als volgt: Files\Process\SDOH\<file format>\<publisher name>\<dataset-specific folders
.
Verwerkte bestanden worden opgeslagen in hun respectievelijke submappen, waarbij het opnametijdstempel aan het begin van de bestandsnaam wordt toegevoegd.
SDOH-gegevenssets converteren naar deltatabellen
Nadat de bestanden naar de map Verwerken zijn verplaatst, vult het notebook healthcare#_msft_bronze_ingestion de metagegevens, lay-out en gegevenstabellen in het bronzen lakehouse in de deltatabelindeling in. Lay-outinformatie wordt ingevuld in de tabel SD_Layout , metagegevens worden in de tabel SD_Metadata ingevuld en gegevens worden ingevuld in de afzonderlijke gegevenstabellen die tijdens de uitvoering worden gegenereerd. Gegevenstabellen worden voorafgegaan door SD_
en bevatten de blad-/bestandsnaam in de tabelnaam. Alle gegevensbladen uit elke gegevensset behouden hun tabelstructuur. U kunt het originele gegevensblad vergelijken met de bijbehorende bronzen deltatabel om inzicht te krijgen in de variatie.
Deltatabellen converteren naar het zilveren gegevensmodel
Na een geslaagde bronzen opname helpt het notebook healthcare#_msft_bronze_silver_ingestion bij het definiëren van een aangepast gegevensmodel in het zilveren lakehouse. Dit notebook:
- Normaliseert de gegevens in het bronzen lakehouse terwijl de context van de bijbehorende tabellen behouden blijft, zodat u de gegevens in de broncontext kunt identificeren of doorzoeken.
- Maakt speciale tabellen in het zilveren lakehouse voor elke broncontext.
Hier volgen de belangrijkste zilveren lakehouse-tabellen:
- SocialDeterminant: bevat de werkelijke gegevenspunten voor elke sociale determinant en de locatiegegevens zoals ingevoerd in het werkblad Locatieconfiguratie.
- SocialDeterminantCategory: bevat de categorie van gegevenspunten voor elke sociale determinant.
- SocialDeterminantSubCategory: bevat de subcategorie van gegevenspunten voor elke sociale determinant.
- UnitOfMeasure (IDM-tabel): bevat de details van de meeteenheid.
- SocialDeterminantDataSetMetadata: bevat informatie over de gegevensset, zoals de naam, de uitgever en de publicatiedatum.
U kunt de bronzen delta lake-tabellen vergelijken met de bijbehorende weergaven voor het zilveren lakehouse om inzicht te krijgen in de transformatie van het aangepaste gegevensmodel. De aangepaste gegevensmodeltabellen verschillen in structuur en organisatie vergeleken met conventionele FHIR-tabellen.
Voorbeeld: De impact van de voedingsomgeving en sociaal-economische omstandigheden op diabetes analyseren
Stelt u zich een scenario voor waarin we proberen inzicht te krijgen in de impact van de voedingsomgeving en de sociaaleconomische omstandigheden in een regio op het aantal patiënten met diabetes in die regio.
De voedingsomgeving en het mediane gezinsinkomen zijn gebaseerd op SDOH-informatie uit de onlangs opgenomen openbare SDOH-gegevenssets (de Food Environment Atlas van het USDA en de SDOH-gegevens van het AHRQ). U kunt velden zoals het aantal fastfoodrestaurants, het aantal supermarkten en het mediane gezinsinkomen uit het SDOH-gegevensmodel (SocialDeterminant-tabel) gebruiken in het zilveren lakehouse.
SELECT
SocialDeterminantName,
SocialDeterminantValue,
SocialDeterminantDescription,
parsedJson.CountyName AS CountyName,
parsedJson.CountyFIPS AS CountyFIPS,
parsedJson.StateName AS StateName
FROM
healthcare1_msft_silver.SocialDeterminant sd
LATERAL VIEW json_tuple(sd.LocationJson, 'STATENAME', 'COUNTYNAME', 'COUNTYFIPS') parsedJson AS StateName, CountyName, CountyFIPS) sd
ON sd.CountyFIPS = fip_zip_mapping.STCOUNTYFP
WHERE
sd.SocialDeterminantName IN ('GROC16', 'FFR16', 'ACS_MEDIAN_HH_INC')
AND sd.SocialDeterminantValue IS NOT NULL
Het aantal patiënten met diabetes heeft daarentegen betrekking op klinische informatie uit de klinische pijplijn van de oplossingen voor gezondheidszorggegevens, die ook moeten worden geïmplementeerd en geïnstalleerd. U kunt klinische gegevens in deze pijplijn opnemen of de verstrekte klinische voorbeeldgegevens gebruiken. Gebruik velden zoals voor het patiëntadres en patiëntaandoening om de vereiste meetgegevens op te halen.
WITH ExpandedPatients AS (
SELECT
p.id_orig,
address_item.postalCode AS postalCode,
address_item.state AS state
FROM
healthcare1_msft_silver.patient p
LATERAL VIEW explode(p.address) exploded_address AS address_item
)
SELECT
fzm.STCOUNTYFP,
SUM(CASE WHEN c.code.text LIKE '%Asthma%' THEN 1 ELSE 0 END) AS Total_Asthma_Patients,
SUM(CASE WHEN c.code.text LIKE '%Diabetes%' THEN 1 ELSE 0 END) AS Total_Diabetes_Patients,
SUM(CASE WHEN c.code.text LIKE '%Hypertension%' THEN 1 ELSE 0 END) AS Total_Hypertension_Patients
FROM
ExpandedPatients ep
JOIN healthcare1_msft_silver.condition c ON ep.id_orig = c.subject.id_orig
JOIN healthcare1_msft_silver.fips_zip_mapping fzm ON ep.postalCode = fzm.ZIP
GROUP BY
fzm.STCOUNTYFP
Inherent bestaat er geen direct verband tussen deze twee gegevenssets. Het verbindende element is hun locatiedetail:
- Gegevens over de voedselomgeving zijn beschikbaar op regioniveau en zijn toegankelijk door de kolom Locationjson in de tabel SocialDeterminant uit te vouwen en het veld
CountyFIPS
te gebruiken. - Klinische gegevens bevatten patiëntadressen in FHIR-indeling, waaruit u regio-informatie kunt halen. Als alleen de postcode van de patiënt beschikbaar is, kunt u deze ophalen en een toewijzingstabel van postcodes aan FIPS-codes maken om deze te koppelen aan de SDOH-gegevensset. Deze toewijzingstabel is al beschikbaar in openbare gegevensopslagplaatsen.
Als de locatiegegevens gereed zijn, kunt u de twee gegevenssets aan elkaar koppelen om een gouden lakehouse-query te maken waarin alle benodigde gegevenspunten worden weergegeven. Hier is een voorbeeld van een SQL-query:
FROM
social_determinants sd
JOIN
patient_conditions pc
ON
sd.CountyFIPS = pc.STCOUNTYFP
U kunt de uiteindelijke gegevensset nu analyseren en visualiseren om de relatie tussen het aantal patiënten met diabetes en de aanwezigheid van fastfoodrestaurants te bepalen. De zilveren laag maakt zo de normalisatie van robuuste gegevens mogelijk, waardoor u query's kunt opstellen en uitgebreide inzichten kunt verkrijgen binnen en tussen verschillende gegevenssets.