Ingerir dados clínicos utilizando infraestruturas de dados de cuidados de saúde
A capacidade de transformação clínica é implementada como parte das infraestruturas de dados de cuidados de saúde Esta capacidade fornece pipelines de dados prontos para execução que preparam dados de forma eficiente para análise e modelagem de IA/machine learning.
Para obter mais informações sobre a implementação e os artefactos disponíveis, consulte:
- Descrição geral de infraestruturas de dados de cuidados de saúde
- Implementar infraestruturas de dados de cuidados de saúde
Essencialmente, a implementação cria três lakehouses, cinco bloco de notas, um ambiente Fabric e um pipeline de dados clínicos no seu ambiente de soluções de dados de saúde. Esse pipeline de dados ingere dados clínicos e transforma-os partir dos ficheiros de origem bruta nos lakehouses de bronze e prata. Conforme explicado em Padrões de ingestão de dados, suporta dois padrões de ingestão - Ingerir e Bring Your Own Storage (BYOS). A execução de pipeline de ingestão de BYOS é explicada em Utilizar Serviços de Dados de Saúde do Azure - Exportação de dados. Este artigo descreve como usar o padrão Ingerir para processar os dados de amostra clínica fornecidos com soluções de dados de saúde.
Nota
Também pode usar seu próprio conjunto de dados FHIR em vez do conjunto de dados de amostra clínica. No entanto, analise as considerações em Considerações de utilização antes de fazer isso.
Pré-requisitos
- Implementar soluções de dados de cuidados de saúde no Microsoft Fabric
- Instale os blocos de notas e pipelines fundamentais em Implementar soluções de dados de cuidados de saúde.
- Implemente os dados de amostra clínica conforme explicado em Implementar dados de amostra.
Mover os dados da amostra clínica para a pasta de ingestão
Quando implementa os dados de exemplo, conforme explicado em Implementar dados de exemplo, os ficheiros de dados de amostra clínica devem estar disponíveis na estrutura de pastas unificadas sob Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
no lakehouse bronze. Use o OneLake ou o Explorador de Armazenamento do Azure para copiar os ficheiros 51KSyntheticPatients de Files\SampleData\Clinical\FHIR-NDJSON\FHIR-HDS
para Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS
no lakehouse bronze.
Executar o pipeline de dados
Execute o pipeline de dados healthcare#_msft_clinical_data_foundation_ingestion no lakehouse bronze. Dependendo do tamanho dos dados da amostra clínica e da capacidade do Fabric atribuída à área de trabalho, a execução do pipeline deve ser concluída numa hora. Após a conclusão da execução do pipeline, pode ver que o pipeline foi executado com êxito nos dados de exemplo, mas registou um estado Com Falha para a atividade do bloco de notas fhir_ingestion_bronze_ingestion.
Validar os dados
Em cenários do mundo real, ingerirá dados de várias origens com diferentes níveis de qualidade. O motor de validação, introduzido na Validação de dados, aciona intencionalmente validações em alguns dos dados de amostra clínica fornecidos. Durante a execução do pipeline, a atividade de ingestão falha devido à invalidade intencional dos dados da amostra. Os ficheiros com falha não são processados e são movidos para a pasta Com falhas. Todos os outros ficheiros válidos são processados com êxito, resultando num estado geral de pipeline verde/bem-sucedido.
Para investigar a falha, selecione o ícone ao lado do estado Com Falha em estado da atividade. Fornece informações sobre como localizar os detalhes do erro, juntamente com uma consulta SQL de exemplo com base no valor runId
na tabela lakehouse Admin BusinessEvents. Sete erros aparecem para isso runId
, todos devidos a Last Updated does not exist
. O ficheiro NDJSON com falha correspondente reside na pasta Com Falhas, com o sourceFilePath
a apontar para …/Files/Failed/Clinical/FHIR-NDJSON/FHIR-HDS/2024/10/18/51KSyntheticPatients/1729215337.346439_RiskAssessment.ndjson.zip
.
Os ficheiros processados com êxito deixam a pasta Ingerir (agora vazia) e são movidos para a pasta Processo.
Também pode explorar os dados ingeridos na tabela ClinicalFhir do lakehouse bronze e as respetivas tabelas FHIR no modelo de dados de saúde no lakehouse de prata. Segue-se um resumo das contagens de registos esperadas:
Lakehouse de administração:
- Tabela BusinessEvents: Sete registos
Lakehouse bronze:
- Tabela ClinicalFhir: 33.317.250 registos
Files\Ingest\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients
: sem ficheirosFiles\Process\Clinical\FHIR-NDJSON\FHIR-HDS\51KSyntheticPatients\YYYY\MM\DD
: 67 ficheirosFiles\Failed\Clinical\FHIR-NDJSON\FHIR-HDS\YYYY\MM\DD\51KSyntheticPatients
: Um ficheiro
Lakehouse prata:
- Tabela de pacientes: 47.564 registos
- Tabela de observação: 19.726.265 registos
- Tabela de Avaliação de Riscos: Sem registos
Considerações de utilização
Ao ingerir conjuntos de dados FHIR em soluções de dados de cuidados de saúde no Microsoft Fabric, considere os seguintes requisitos:
- Todos os dados devem usar o formato NDJSON.
- Cada ficheiro deve conter apenas dados para um único recurso FHIR.
- Cada recurso no ficheiro requer um campo de metadados com um valor válido para
Meta.LastUpdated
. Se esse valor não estiver presente, ocorrerá um erro de validação predefinido, conforme explicado em Validação de dados. - Cada recurso no ficheiro deve ter um valor para o campo
ID
. Se esse valor não estiver presente, ocorrerá um erro de validação predefinido, conforme explicado em Validação de dados.