Compartilhar via


Conceitos de ingestão do analisador CSV

Um arquivo CSV (valores separados por vírgula) é um arquivo de texto delimitado por vírgula usado para salvar dados em um formato estruturado em tabela.

Um CSV Parser DAG permite que um cliente carregue dados na instância do Microsoft Azure Data Manager for Energy com base em um esquema personalizado, ou seja, um esquema que não corresponde ao Esquema Bem Conhecido (WKS) OSDU®. Os clientes devem criar e registrar o esquema personalizado usando o serviço de Esquema antes de carregar os dados.

Um CSV Parser DAG implementa uma abordagem ELT (Extração, Carga e Transformação) para o carregamento de dados, ou seja, os dados são primeiro extraídos do sistema de origem em formato CSV e, em seguida, carregados na instância do Gerenciador de Dados do Azure para Energia. Em seguida, eles podem ser transformados para o Esquema Bem Conhecido OSDU® usando um serviço de mapeamento.

O que faz a ingestão de CSV?

Um CSV Parser DAG permite que os clientes carreguem os dados CSV na instância do Gerenciador de Dados do Microsoft Azure para Energia. Ele analisa cada linha de um arquivo CSV e cria um registro de metadados de armazenamento. Ele executa schema validation para garantir que os dados CSV estejam em conformidade com o esquema personalizado registrado. Ele executa automaticamente type coercion nas colunas com base na definição do tipo de dados do esquema. Gera unique id para cada linha do registro CSV combinando fonte, tipo de entidade e uma cadeia codificada em Base64 formada pela concatenação de chave(s) natural(is) nos dados. Ele realiza unit conversion ao converter informações declaradas do quadro de referência em referência persistente apropriada usando o serviço de Unidade. Ele realiza CRS conversion para colunas com reconhecimento espacial com base nas informações do Quadro de Referência (FoR) presentes no esquema. Ele cria relationships metadados conforme declarado no esquema de origem. Por fim, ele persists o registro de metadados usando o serviço de Armazenamento.

Componentes de ingestão do analisador CSV

O fluxo de trabalho do CSV Parser DAG é composto pelos seguintes serviços:

  • Serviço de arquivo facilita o gerenciamento de arquivos na instância do Gerenciador de Dados do Azure para Energia. Ele permite que o usuário faça upload, descoberta e download de arquivos da plataforma de dados com segurança.
  • O serviço de esquema facilita o gerenciamento de esquemas na instância do Gerenciador de Dados do Azure para Energia. Ele permite que o usuário crie, busque e pesquise esquemas na plataforma de dados.
  • O Serviço de Armazenamento facilita o armazenamento de informações de metadados para entidades de domínio ingeridas na plataforma de dados. Ele também gera eventos de alteração de registros de armazenamento que permitem que os serviços downstream executem operações em registros de metadados ingeridos.
  • O serviço de Unidade facilita o gerenciamento e a conversão de unidades
  • O serviço de fluxo de trabalho facilita o gerenciamento de fluxos de trabalho na instância do Gerenciador de Dados do Azure para Energia. É um serviço de wrapper sobre o mecanismo de orquestração do Airflow.

Diagrama de componentes de ingestão de CSV

Captura de tela do diagrama de componentes de ingestão de CSV.

Fluxo de trabalho de ingestão do analisador de CSV

Para executar o fluxo de trabalho CSV Parser DAG, o usuário deve ter um token de autorização válido e acesso apropriado aos seguintes serviços: Pesquisa, Armazenamento, Esquema, Serviço de Arquivo, Direito, Legal e Fluxo de Trabalho.

O diagrama de fluxo de trabalho abaixo ilustra o fluxo de trabalho do CSV Parser DAG: Captura de tela do diagrama da sequência de ingestão de CSV.

Para executar o fluxo de trabalho do CSV Parser DAG, o usuário deve primeiro criar e registrar o esquema usando o serviço de fluxo de trabalho. Depois que o esquema é criado, o usuário usa o serviço File para carregar o arquivo CSV nas instâncias do Microsoft Gerenciador de Dados do Azure para Energia e também cria o registro de armazenamento do tipo genérico do arquivo. Em seguida, o serviço de arquivo fornece uma ID de arquivo ao usuário, que é usada ao disparar o fluxo de trabalho do CSV Parser usando o serviço de fluxo de trabalho. O serviço de fluxo de trabalho fornece uma ID de execução, que o usuário pode usar para rastrear o status da execução do fluxo de trabalho do CSV Parser.

OSDU® é uma marca registrada do The Open Group.

Próximas etapas

Prossiga para o tutorial do analisador CSV e saiba como executar uma ingestão de analisador CSV