Compartilhar via


Conceitos de ingestão baseados em manifesto

A ingestão de arquivos baseada em manifesto fornece aos usuários finais e aos sistemas um mecanismo robusto para carregar metadados sobre conjuntos de dados na instância do Gerenciador de Dados de Energia do Microsoft Azure. Esses metadados são indexados pelo sistema e permitem que o usuário final pesquise os conjuntos de dados.

A ingestão de arquivos baseada em manifesto é uma ingestão opaca que não analisa nem entende o conteúdo do arquivo. Ela cria um registro de metadados com base no manifesto e torna o registro pesquisável.

O que é um manifesto?

Um manifesto é um documento JSON que possui uma estrutura predefinida para capturar entidades definidas como “kind”, ou seja, registradas como esquemas no serviço de Esquema – definições de esquema bem conhecido (WKS).

Você pode encontrar o exemplo de um documento JSON de manifesto aqui.

O esquema de manifesto possui contêineres para os seguintes tipos de grupo OSDU®:

  • ReferenceData (zero ou mais) – um conjunto de valores permitidos a serem usados por outros campos de dados (mestre ou transação). Exemplos incluem Unidade de Medida (pés), Moedas etc.
  • MasterData (zero ou mais) – uma única fonte de dados corporativos básicos usados em vários sistemas, aplicativos e/ou processo. Exemplos incluem Poços
  • WorkProduct (WP) (um – deve estar presente se estiver carregando WorkProductComponents) – um limite de sessão ou uma coleção (projeto, estudo) abrange um conjunto de entidades que precisam ser processadas em conjunto. Como exemplo, você pode ingerir uma ou mais coleções de logs.
  • WorkProductComponents (WPC) (zero ou mais - deve estar presente se estiver carregando conjuntos de dados) – uma unidade digitada, menor e independentemente utilizável de conteúdo de dados corporativos transferida como parte de um Produto de Trabalho (uma coleção de coisas ingeridas em conjunto). Cada WPC (Componente do Produto de Trabalho) normalmente usa dados de referência, pertence a alguns dados mestres e mantém uma referência aos conjuntos de dados. Exemplo: logs de poços, falhas, documentos
  • Conjuntos de dados (zero ou mais – devem estar presentes no carregamento de registros WorkProduct e WorkProductComponent) – Cada WPC (Componente do Produto de Trabalho) consiste em um ou mais contêineres de dados conhecidos como conjuntos de dados.

Os dados do manifesto são carregados em uma sequência específica:

  1. A matriz “ReferenceData” (se populada).
  2. A matriz “MasterData” (se populada).
  3. A estrutura “Data” é processada por último (se populada). Dentro da propriedade “Data”, o processamento é feito na seguinte ordem:
    1. a matriz “Datasets”
    2. a matriz “WorkProductComponents”
    3. a “WorkProduct”.

Todas as matrizes são ordenadas. Se houver interdependências, os itens dependentes devem ser colocados atrás de seus destinos de relacionamento, por exemplo, um registro de Poço de dados principais deve ser colocado na matriz “MasterData” antes de seus Poços.

Fluxo de trabalho de ingestão de arquivo baseada em manifesto

A instância do Gerenciador de Dados de Energia do Azure possui suporte pronto para uso para o fluxo de trabalho de ingestão de arquivos baseado em manifesto. O DAG do Airflow Osdu_ingest está pré-configurado em sua instância.

Componentes do fluxo de trabalho de ingestão de arquivo baseada em manifesto

O fluxo de trabalho de ingestão de arquivos baseado em manifesto consiste nos seguintes componentes:

  • Serviço de fluxo de trabalho – um serviço de wrapper em execução sobre o mecanismo de fluxo de trabalho do Airflow.
  • Mecanismo do Airflow – um mecanismo de orquestração de fluxo de trabalho que executa fluxos de trabalho registrados como DAGs (grafos direcionados acíclicos). O Airflow é o mecanismo de fluxo de trabalho escolhido pela comunidade OSDU® para orquestrar e executar fluxos de trabalho de ingestão. O Airflow não é exposto diretamente, em vez disso, seus recursos são acessados elo serviço de fluxo de trabalho.
  • Serviço de armazenamento – um serviço usado para salvar os registros de metadados de manifesto na plataforma de dados.
  • Serviço de esquema – um serviço que gerencia esquemas definidos pela OSDU® na plataforma de dados. Esquemas estão sendo referenciados durante a ingestão de arquivo baseada em manifesto.
  • Serviço de direitos – um serviço que gerencia grupos de acesso. Esse serviço é usado durante a ingestão para verificação das permissões de ingestão. Esse serviço também é usado durante a recuperação do registro de metadados para validação de gravações de "leitura".
  • Serviço jurídico – um serviço que valida a conformidade por meio de marcas legais.
  • O Serviço de Pesquisa é usado para executar verificação de integridade referencial durante o processo de ingestão de manifesto.

Pré-requisitos

Antes de executar o fluxo de trabalho de ingestão de arquivos baseado em manifesto, os clientes devem garantir que as contas de usuário que executam o fluxo de trabalho tenham acesso aos serviços principais (Pesquisa, Armazenamento, Esquema, Direitos e Legais) e ao serviço de Fluxo de Trabalho (consulte Funções de Direitos para detalhes). Como parte do provisionamento da instância do Gerenciador de Dados de Energia do Azure, os esquemas padrão da OSDU® e os dados de referência associados são pré-carregados. Os clientes devem garantir que a conta de usuário usada para ingestão dos manifestos seja incluída nas ACLs apropriadas de proprietários e visualizadores. Os clientes devem garantir que os manifestos sejam configurados com marcas legais corretas, ACLs de proprietários e visualizadores, dados de referência, etc.

Sequência de fluxo de trabalho

A ilustração a seguir fornece o fluxo de trabalho de ingestão de arquivo baseado em manifesto: Captura de tela da sequência de ingestão de manifesto.

Um usuário envia um manifesto para o Workflow Service usando o nome do fluxo de trabalho de ingestão de manifesto ("Osdu_ingest"). Se a solicitação estiver correta e o usuário estiver autorizado a executar o fluxo de trabalho, o serviço de fluxo de trabalho carrega o manifesto e inicia o fluxo de trabalho de ingestão do manifesto.

O serviço de fluxo de trabalho executa uma série de syntax validation no manifesto, como validação da estrutura do manifesto e dos atributos conforme o esquema definido, e verifica os atributos obrigatórios do esquema. Em seguida, o sistema executa referential integrity validation entre componentes do produto de trabalho e os conjuntos de dados. Por exemplo, se os dados pai referenciados existem.

Depois que as validações forem bem-sucedidas, o sistema processará o conteúdo no armazenamento gravando cada entidade válida na plataforma de dados usando a API do Serviço de Armazenamento.

OSDU® é uma marca registrada do The Open Group.

Próximas etapas