Partilhar via


Utilizar a transformação de dados DICOM em soluções de dados de cuidados de saúde

A capacidade de transformação de dados DICOM em soluções de dados de cuidados de saúde permite-lhe ingerir, armazenar e analisar dados do Digital Imaging and Communications in Medicine (DICOM) a partir de várias origens. Para saber mais sobre a capacidade e entender como implementá-la e configurá-la, consulte:

A transformação de dados DICOM é uma capacidade opcional com soluções de dados de cuidados de saúde no Microsoft Fabric.

Pré-requisitos

Antes de executar o pipeline de transformação de dados DICOM, certifique-se de que conclui os pré-requisitos, o processo de implementação e os passos de configuração explicados em Implementar e configurar transformações de dados DICOM.

Opções de ingestão de dados

Este artigo fornece orientação passo a passo sobre como usar o recurso de transformação de dados DICOM para ingerir, transformar e unificar o conjunto de dados de criação de imagens DICOM. O recurso suporta as duas opções de ingestão a seguir:

  • Opção 1: Ingestão ponto a ponto de ficheiros DICOM. Os ficheiros DICOM, nos formatos nativo (DCM) ou comprimido (ZIP), são ingeridos no lakehouse. Esta opção é denominada Ingerir.

  • Opção 2: Integração com o serviço DICOM. A ingestão é apoiada através da integração nativa com o serviço DICOM nos Serviços de Dados de Saúde do Azure. Nesta opção, os ficheiros DCM são transferidos primeiro do serviço DICOM dos Serviços de Dados de Saúde do Azure para o Data Lake Storage Gen2. Em seguida, o pipeline segue o padrão de ingestão Bring Your Own Storage (BYOS). Esta opção é denominada Serviços de Dados de Saúde do Azure (AHDS).

Para entender a transformação mapeamento detalhes, consulte mapeamento de transformação de metadados DICOM em soluções de dados de saúde.

Opção 1: Ingestão ponto a ponto de ficheiros DICOM

Nesta opção, ingerimos e transformamos os dados de imagem de arquivos DICOM nas soluções de dados de saúde usando o pipeline de dados pré-construído. A transformação de ponta a ponta consiste nas seguintes etapas consecutivas:

  1. Ingerir ficheiros DICOM no OneLake
  2. Organizar ficheiros DICOM no OneLake
  3. Extrair metadados DICOM para o lakehouse bronze
  4. Converter metadados DICOM para o formato FHIR (Fast Health Interoperability Resources)
  5. Ingerir dados para a tabela delta ImagingStudy no lakehouse de bronze
  6. Simplificar e transformar dados para a tabela delta ImagingStudy no lakehouse de prata
  7. Converter e ingerir dados na tabela Image_Occurrence no lakehouse de ouro (opcional)

Sugestão

Essa opção de ingestão usa o conjunto de dados de exemplo 340ImagingStudies que contém arquivos ZIP compactados. Como alternativa, você pode ingerir arquivos DICOM diretamente em seu formato DCM nativo, colocando-os na pasta Ingest . Dentro dos arquivos ZIP, os arquivos DCM podem ser estruturados em várias subpastas aninhadas. Não há limite para o número de arquivos DCM ou o número, profundidade e aninhamento de subpastas dentro dos arquivos ZIP ingeridos. Para obter informações sobre limites de tamanho de arquivo, consulte Tamanho do arquivo de ingestão.

Passo 1: Ingerir arquivos DICOM no OneLake

A pasta Ingerir no lakehouse de bronze representa uma pasta para remover (fila). Pode remover os ficheiros DICOM dentro desta pasta. Em seguida, os ficheiros são movidos para uma estrutura de pastas organizada no lakehouse de bronze.

  1. Vá para a Ingest\Imaging\DICOM\DICOM-HDS pasta no bronze lakehouse.

  2. Selecionar ... (reticências) >Carregar>pasta Upload.

  3. Selecione e carregue o conjunto de dados de criação de imagens 340ImagingStudies da pasta SampleData SampleData\Imaging\DICOM\DICOM-HDS. Como alternativa, você também pode usar o explorador de arquivos OneLake ou o Gerenciador de Armazenamento Azure para carregar o conjunto de dados de exemplo.

Passo 2: Executar o pipeline de dados de criação de imagens

Depois de mover os arquivos DCM/ZIP para a pasta Ingest no lakehouse bronze, agora você pode executar o pipeline de dados de imagem para organizar e processar os dados para o lakehouse prateado.

  1. No seu ambiente de soluções de dados de cuidados de saúde, abra o pipeline de dados healthcare#_msft_imaging_with_clinical_foundation_ingestion .

  2. Selecione o botão Executar para começar a processar os dados de imagem do bronze para a prata lakehouse.

Esse pipeline de dados executa sequencialmente cinco notebooks: três implantados como parte do recurso de fundamentos de dados de saúde e dois do recurso de transformação de dados DICOM. Para saber mais sobre esses blocos de anotações, consulte Transformação de dados DICOM: artefatos.

Uma captura de tela exibindo uma execução de pipeline de exemplo.

Passo 3: Execute o caderno de transformação de prata para ouro

Nota

Este passo de transformação é opcional. Use-o somente se precisar transformar ainda mais seus dados DICOM no formato de modelo de dados comum (CDM) da Observational Medical Outcomes Partnership (OMOP). Caso contrário, pode ignorar este passo.

Antes de executar essa transformação, implante e configure o OMOP recurso de transformações em soluções de dados de saúde.

Depois de executar o pipeline de geração de imagens, seus dados de criação de imagens se transformam no lakehouse prateado. O lakehouse prateado serve como ponto inicial onde dados de várias modalidades começam a convergir de forma estruturada. Para transformar ainda mais seus dados no OMOP padrão de pesquisa para uso no recurso Descobrir e construir coortes (pré-visualização), execute o bloco de anotações de transformação prata para ouro.

  1. No seu ambiente de soluções de dados de cuidados de saúde, abra o bloco de notas healthcare#_msft_omop_silver_gold_transformation .

    Este bloco de anotações usa as APIs de soluções OMOP de dados de saúde para transformar recursos do lakehouse prateado em OMOP tabelas delta CDM no lakehouse dourado. Por predefinição, não é necessário fazer alterações na configuração do bloco de notas.

  2. Selecione Executar tudo para executar o bloco de notas.

    O bloco de anotações implementa a OMOP abordagem de rastreamento para rastrear e processar registros novos ou atualizados na tabela delta ImagingStudy na lakehouse prata. Ele transforma os dados das tabelas delta FHIR na lakehouse prata (incluindo a tabela ImagingStudy ) nas tabelas delta correspondentes OMOP na lakehouse ouro (incluindo a tabela Image_Occurrence ). Para obter mais informações sobre essa transformação, consulte Transformation mapeamento for silver to gold delta table.

    Para obter informações detalhadas OMOP mapeamento consulte FHIR to OMOP mapeamento.

Passo 4: Validar os dados

Em cenários do mundo real, a ingestão de dados envolve fontes com diferentes níveis de qualidade. O mecanismo de validação , detalhado emValidação de dados, aciona intencionalmente validações em alguns dos dados de amostra de imagem fornecidos. Os arquivos que não estão em conformidade com os padrões DICOM são movidos para a pasta Falha e não são processados. Mas, uma única falha de arquivo não interrompe todo o pipeline, como demonstrado pelos dados de amostra de imagem. O pipeline e os blocos de anotações associados são executados com êxito, mas a pasta Failed em Imaging\DICOM\DICOM-HDS\YYYY\MM\DD contém um arquivo não compatível. Todos os outros arquivos válidos são processados com êxito, resultando em um estatuto geral de pipeline bem-sucedido. Incluímos intencionalmente esse arquivo inválido nos dados de amostra de imagem para ilustrar como o pipeline de criação de imagens lida com arquivos inválidos e ajuda a identificar problemas conjunto de dados.

Uma captura de tela exibindo o arquivo inválido na **pasta Falha** .

Para confirmar que o pipeline extraiu com êxito todos os metadados dos arquivos DICOM brutos, abra o lakehouse bronze, alterne para o ponto final de análise SQL e selecione Nova consulta SQL.

Uma captura de tela exibindo a opção de ponto final de análise SQL.

Se o pipeline foi executado corretamente, você deve ver 7739 instâncias DICOM processadas com êxito na tabela ImagingDicom . Para verificar, execute a seguinte consulta SQL. Para um processamento bem-sucedido, você verá 7739 no painel Resultados . Este número representa o número total de instâncias DICOM nos dados da amostra, compreendendo dados de diferentes modalidades, como tomografia computadorizada (TC) e ressonância magnética (RM).

select count(*) from ImagingDicom

Uma captura de tela exibindo as instâncias DICOM no lakehouse bronze.

Para confirmar que o pipeline hidratou com sucesso as casas do lago, abra o lakehouse prateado, alterne para o ponto final de análise SQL e selecione Nova consulta SQL. Para uma execução correta do pipeline, você deve ver 339 recursos do ImagingStudy processados com êxito. Para verificar, execute a seguinte consulta SQL. Inicialmente, começamos com 340 recursos ImagingStudy , mas encontramos um erro durante o processamento.

 select count(*) from ImagingStudy

Uma captura de tela exibindo as instâncias DICOM no lakehouse prateado.

Opção 2: Integração com o serviço DICOM

Importante

Use essa opção de transformação somente se estiver a usar o serviço DICOM Azure Health Data Services e implantado a API DICOM.

Essa abordagem de transformação estende o padrão Bring Your Own Storage (BYOS) com o serviço DICOM Azure Health Data Services. O serviço DICOM é um subconjunto de APIs DICOMweb que permitem armazenar, revisar, pesquisar e excluir objetos DICOM. Ele se integra à Azure Data Lake Storage conta Gen2 vinculada ao seu espaço de trabalho do Fabric, para que o pipeline de transformação possa acessar diretamente seus dados DICOM.

Como alternativa, você pode pular o uso da API DICOM Azure e ingerir arquivos DICOM armazenados em sua conta Data Lake Storage Gen2 (neste caso, comece a partir de passo 5).

  1. Revise e conclua a configuração em Implantar a API DICOM no Azure Health Data Services.

  2. Depois de implantar o serviço Azure DICOM, use a API Store (STOW-RS) para ingerir arquivos DCM. Teste-o baixando um arquivo DCM dos dados de amostra de imagem usando o explorador de arquivos OneLake ou o Gerenciador de Armazenamento Azure.

  3. Dependendo do seu idioma preferido, carregue os arquivos DCM para o servidor usando uma das seguintes opções:

  4. Verifique se o carregamento do arquivo foi bem-sucedido:

    1. No portal Azure, selecione a conta de armazenamento vinculada ao serviço DICOM.
    2. Vá para Containers e siga o caminho [ContainerName]/AHDS/[AzureHealthDataServicesWorkspaceName]/dicom/[DICOMServiceName].
    3. Verifique se você pode ver o arquivo DCM carregado aqui.

    Uma captura de ecrã do portal do Azure a apresentar os dados carregados.

    Nota

    • O nome do arquivo pode mudar quando carregado no servidor. No entanto, o conteúdo do arquivo permanece inalterado.
    • Para obter informações sobre limites de tamanho de arquivo, consulte Tamanho do arquivo de ingestão.
  5. Crie um atalho no lakehouse bronze para o arquivo DICOM armazenado no local Data Lake Storage Gen2. Siga as etapas em Criar um Azure Data Lake Storage atalho Gen2.

    Para consistência, use a seguinte estrutura de pastas para criar o atalho: Files\External\Imaging\DICOM\[Namespace]\[BYOSShortcutName]. O Namespace valor garante a separação lógica de atalhos de diferentes sistemas de origem. Por exemplo, você pode usar o nome Data Lake Storage Gen2 para o Namespace valor.

    Uma captura de tela exibindo como criar o atalho usando a estrutura de pastas recomendada.

    Nota

    Os atalhos do OneLake também suportam vários sistemas de armazenamento além do Data Lake Storage Gen2. Para obter uma lista completa dos tipos de armazenamento suportados , consulteAtalhos do OneLake.

  6. Configure o admin lakehouse para habilitar o BYOS:

    1. Vá para healthcare #_msft_admin lakehouse e abra o arquivo de deploymentParametersConfiguration.json em Files\system-configurations.

    2. Habilite a configuração BYOS neste arquivo de configuração. Use o explorador de arquivos OneLake para abrir o arquivo deploymentParametersConfiguration.json a partir do seguinte caminho de pasta: OneLake - Microsoft\[WorkspaceName]\healthcare#_msft_admin.Lakehouse\Files\system-configurations. Use qualquer JSON ou editor de texto (como o Bloco de Notas do Windows) para abrir o arquivo, procurar o byos_enabled parâmetro e defini-lo como true.

      Uma captura de tela exibindo a configuração no arquivo de configuração.

  7. O recurso de transformação de dados DICOM agora pode acessar todos os seus arquivos DICOM em seu local de origem Data Lake Storage Gen2, independentemente da hierarquia/estrutura de pastas. Você não precisa ingerir manualmente os arquivos DICOM como feito na opção Ingest . Comece a execução a partir de passo 2: Execute o pipeline de dados de criação de imagens na secção anterior para usar o pipeline de imagens e transformar seus dados DICOM.

Nota

Para entender as limitações de integração com o serviço DICOM Azure Health Data Services, consulte Integração com o serviço DICOM.