Compartilhar via


Atualização incremental para fontes de dados do Data Lake Storage

A atualização incremental de fontes de dados com base no Azure Data Lake Storage oferece as seguintes vantagens:

  • Atualizações mais rápidas - Apenas os dados que foram alterados são atualizados. Por exemplo, você pode atualizar apenas os últimos cinco dias de um conjunto de dados histórico.
  • Maior confiabilidade - Com atualizações menores, você não precisa manter conexões com sistemas de fontes voláteis por tanto tempo, reduzindo o risco de problemas de conexão.
  • Consumo reduzido de recursos - Atualizar apenas um subconjunto dos dados totais leva a um uso mais eficiente dos recursos de computação e diminui o volume ambiental.

Configurar atualização incremental para fontes de dados do Azure Data Lake Storage

A Microsoft recomenda o formato do Delta Lake para obter o melhor desempenho e os resultados ao trabalhar com conjuntos de dados grandes. O Customer Insights - Data oferece um conector otimizado para dados formatados no Delta Lake. Processos internos, como a unificação, são otimizados para só processar de maneira incremental os dados alterados, acarretando tempos de processamento mais curtos.

Para usar a ingestão incremental e a atualização de uma tabela do Data Lake, configure essa tabela ao adicionar ou editar a fonte de dados do Azure Data Lake. A pasta de dados da tabela deve conter as seguintes pastas:

  • FullData: pasta com arquivos de dados que contêm os registros iniciais
  • IncrementalData: pasta com pastas da hierarquia de data/hora no formato aaaa/mm/dd/hh que contém as atualizações incrementais. Espera-se que as pastas de ano, mês, dia e hora tenham quatro e dois dígitos, respectivamente. hh representa a hora UTC das atualizações e contém as pastas Upserts e Deletes. Upserts contém arquivos de dados com atualizações de registros existentes ou novos. Deletes contém arquivos de dados com registros a serem removidos.

Ordem de processamento de dados incrementais

O sistema vai processar os arquivos na pasta IncrementalDatadepois que a hora UTC especificada terminar. Por exemplo, se o sistema começar o processamento da atualização incremental em 21 de janeiro de 2023 às 8h15, todos os arquivos que estiverem na pasta 2023/01/21/07 (representando arquivos de dados armazenados das 7h às 8h) serão processados. Nenhum arquivo na pasta 2023/01/21/08 (representando a hora atual na qual os arquivos ainda estão sendo gerados) será processado até a próxima execução.

Se houver dois registros para uma chave primária, upsert e exclusão, o Customer Insights - Data usará o registro com a data da modificação mais recente. Por exemplo, se o carimbo de data/hora de exclusão for 2023-01-21T08:00:00 e o carimbo de data/hora de upsert for 2023-01-21T08:30:00, ele usará o registro de upsert. Se a exclusão tiver ocorrido depois do upsert, o sistema vai pressupor que o registro tenha sido excluído.

Configurar a atualização incremental para fontes de dados do Azure Data Lake

  1. Ao adicionar ou editar uma fonte de dados, navegue até o painel Atributos para a tabela.

  2. Renove os atributos. Certifique-se de que um atributo de data de criação ou última atualização esteja configurado com um Formato de datadateTime e um Tipo semânticoCalendar.Date. Se necessário, edite o atributo e selecione Concluído.

  3. No painel Selecionar tabelas, edite a tabela. A caixa de seleção Ingestão incremental está marcada.

    Configurar tabelas em uma fonte de dados para atualização incremental.

    1. Navegue até a pasta raiz que contém os arquivos .csv ou .parquet para obter dados completos, upserts de dados incrementais e exclusões de dados incrementais.
    2. Insira a extensão para os dados completos e os dois arquivos incrementais (.csv ou .parquet).
    3. Para arquivos .csv files, selecione o delimitador de coluna e se você quer a primeira linha do arquivo como um cabeçalho de coluna.
    4. Selecione Salvar.
  4. Para Última atualização, selecione o atributo timestamp de data.

  5. Se a Chave primária não estiver selecionada, selecione-a. A chave primária é um atributo exclusivo da tabela. Para um atributo ser uma chave primária válida, ele não deve ter valores duplicados, valores ausentes ou valores nulos. Os atributos de tipo de dados de cadeia de caracteres, inteiro e GUID são compatíveis como chaves primárias.

  6. Selecione Fechar para salvar e fechar o painel.

  7. Continue adicionando ou editando a fonte de dados.

Executar uma atualização completa para fontes de dados do Azure Data Lake

Depois que você configura uma atualização incremental para fontes de dados do Azure Data Lake, existem momentos nos quais os dados precisam ser processados com uma atualização completa. A pasta de dados completa configurada para a atualização incremental deve conter o local dos dados completos.

  1. Ao editar a fonte de dados, navegue até o painel Selecionar tabelas e edite a tabela que deseja atualizar.

  2. No painel Editar tabela, role até a caixa de seleção Executar atualização completa uma vez e selecione-a.

    Configure a tabela em uma fonte de dados para atualização uma vez.

  3. Em Processar arquivos incrementais de, especifique a data e a hora para reter os arquivos incrementais. Dados completos e dados incrementais começam a ser processados depois da data e hora especificadas. Por exemplo, se você deseja executar uma atualização/provisionamento parcial dos dados até o final de novembro, mantendo os dados incrementais desde o início de dezembro até hoje (30 de dezembro), insira 1 de dezembro. Para substituir todos os dados e ignorar os dados na pasta incremental, especifique uma data futura.

  4. Selecione Fechar para salvar e fechar o painel.

  5. Selecione Salvar para aplicar as alterações e voltar à página Fontes de dados. A fonte de dados está no status Atualizando, realizando uma atualização completa.