Conceitos de ingestão baseados em manifestos
A ingestão de arquivos baseada em manifesto fornece aos usuários finais e sistemas um mecanismo robusto para carregar metadados sobre conjuntos de dados no Azure Data Manager for Energy, por exemplo. Estes metadados são indexados pelo sistema e permitem ao utilizador final pesquisar os conjuntos de dados.
A ingestão de arquivo baseada em manifesto é uma ingestão opaca que não analisa nem compreende o conteúdo do arquivo. Ele cria um registro de metadados com base no manifesto e torna o registro pesquisável.
O que é um manifesto?
Um manifesto é um documento JSON que tem uma estrutura pré-determinada para capturar entidades definidas como 'tipo', ou seja, registradas como esquemas com o serviço de esquema - definições de esquema bem conhecido (WKS).
Você pode encontrar um exemplo de documento json manifesto aqui.
O esquema de manifesto tem contêineres para os seguintes tipos de Grupo OSDU:®
- ReferenceData (zero ou mais) - Um conjunto de valores permitidos a serem usados por outros campos de dados (mestre ou transação). Exemplos incluem Unidade de Medida (pés), Moeda, etc.
- MasterData (zero ou mais) - Uma única fonte de dados básicos de negócios usados em vários sistemas, aplicativos e/ou processos. Exemplos incluem Wells e Wellbores
- WorkProduct (WP) (um - deve estar presente se carregar WorkProductComponents) - Um limite de sessão ou coleção (projeto, estudo) engloba um conjunto de entidades que precisam ser processadas juntas. Como exemplo, você pode tomar a ingestão de uma ou mais coleções de log.
- WorkProductComponents (WPC) (zero ou mais - deve estar presente se carregar conjuntos de dados) - Uma unidade digitada, menor e independentemente utilizável de conteúdo de dados corporativos transferido como parte de um Produto de Trabalho (uma coleção de coisas ingeridas juntas). Cada componente de produto de trabalho (WPC) normalmente usa dados de referência, pertence a alguns dados mestre e mantém uma referência a conjuntos de dados. Exemplo: logs de poços, falhas, documentos
- Conjuntos de dados (zero ou mais - devem estar presentes se estiverem carregando registros WorkProduct e WorkProductComponent) - Cada componente de produto de trabalho (WPC) consiste em um ou mais contêineres de dados conhecidos como conjuntos de dados.
Os dados do manifesto são carregados em uma sequência específica:
- A matriz 'ReferenceData' (se preenchida).
- A matriz 'MasterData' (se preenchida).
- A estrutura «Dados» é processada em último lugar (se preenchida). Dentro da propriedade 'Dados', o processamento é feito na seguinte ordem:
- a matriz 'Datasets'
- a matriz 'WorkProductComponents'
- o 'WorkProduct'.
Todas as matrizes são ordenadas. se houver interdependências, os itens dependentes devem ser colocados atrás de seus alvos de relacionamento, por exemplo, um registro de poço de dados mestre deve ser colocado na matriz 'MasterData' antes de seus Wellbores.
Fluxo de trabalho de ingestão de arquivo baseado em manifesto
A instância do Azure Data Manager for Energy tem suporte pronto para o fluxo de trabalho de ingestão de arquivos baseado em manifesto. Osdu_ingest
O DAG de fluxo de ar é pré-configurado em sua instância.
Componentes do fluxo de trabalho de ingestão de arquivos com base em manifesto
O fluxo de trabalho de ingestão de arquivo baseado em manifesto consiste nos seguintes componentes:
- Serviço de fluxo de trabalho - Um serviço de wrapper executado sobre o mecanismo de fluxo de trabalho Airflow.
- Airflow engine - Um mecanismo de orquestração de fluxo de trabalho que executa fluxos de trabalho registrados como DAGs (Directed Acyclic Graphs). O Airflow é o mecanismo de fluxo de trabalho escolhido pela comunidade OSDU® para orquestrar e executar fluxos de trabalho de ingestão. O fluxo de ar não é exposto diretamente, em vez disso, seus recursos são acessados através do serviço de fluxo de trabalho.
- Serviço de Armazenamento - Um serviço usado para salvar os registros de metadados de manifesto na plataforma de dados.
- Serviço de esquema - Um serviço que gerencia esquemas definidos pela OSDU® na plataforma de dados. Os esquemas estão sendo referenciados durante a ingestão do arquivo baseado em manifesto.
- Serviço de Direitos - Um serviço que gerencia grupos de acesso. Este serviço é usado durante a ingestão para verificação de permissões de ingestão. Este serviço também é usado durante a recuperação do registro de metadados para validação de gravações "lidas".
- Serviço Jurídico - Um serviço que valida o cumprimento através de etiquetas legais.
- O Serviço de Pesquisa é usado para realizar a verificação de integridade referencial durante o processo de ingestão de manifesto.
Pré-requisitos
Antes de executar o fluxo de trabalho de ingestão de arquivos baseado em manifesto, os clientes devem garantir que as contas de usuário que executam o fluxo de trabalho tenham acesso aos serviços principais (Pesquisa, Armazenamento, Esquema, Direito e Legal) e ao serviço de fluxo de trabalho (consulte Funções de direito para obter detalhes). Como parte do provisionamento de instância do Azure Data Manager for Energy, os esquemas padrão OSDU® e os dados de referência associados são pré-carregados. Os clientes devem garantir que a conta de usuário usada para ingerir os manifestos esteja incluída nas ACLs apropriadas de proprietários e visualizadores. Os clientes devem garantir que os manifestos sejam configurados com tags legais corretas, ACLs de proprietários e visualizadores, dados de referência, etc.
Sequência do fluxo de trabalho
A ilustração a seguir fornece o fluxo de trabalho de ingestão de arquivo baseado em manifesto:
Um usuário envia um manifesto para o usando o nome do fluxo de trabalho de ingestão de manifesto Workflow Service
("Osdu_ingest"). Se a solicitação for adequada e o usuário estiver autorizado a executar o fluxo de trabalho, o serviço de fluxo de trabalho carregará o manifesto e iniciará o fluxo de trabalho de ingestão de manifesto.
O serviço de fluxo de trabalho executa uma série de manifestos syntax validation
, como estrutura de manifesto e validação de atributos, de acordo com o esquema definido, e verifica se há atributos de esquema obrigatórios. Em seguida, o sistema é executado referential integrity validation
entre os componentes do produto de trabalho e os conjuntos de dados. Por exemplo, se os dados pai referenciados existem.
Quando as validações são bem-sucedidas, o sistema processa o conteúdo em armazenamento gravando cada entidade válida na plataforma de dados usando a API do Serviço de Armazenamento.
OSDU® é uma marca comercial do The Open Group.