Usar o recurso de manutenção de tabelas para gerenciar tabelas Delta no Fabric
O Lakehouse no Microsoft Fabric fornece o recurso Manutenção de tabelas para gerenciar tabelas Delta com eficiência e mantê-las sempre prontas para análise. Este guia descreve o recurso de manutenção de tabelas no Lakehouse e suas funcionalidades.
Principais funcionalidades do recurso de manutenção da tabelas do Lakehouse:
- Execute a manutenção de tabelas ad hoc usando ações contextuais de clique com o botão direito do mouse em uma tabela Delta dentro do Lakehouse Explorer.
- Aplique compactação de bin, V-Order e limpeza de arquivos antigos não referenciados.
Observação
Para tarefas de manutenção avançada, como agrupar vários comandos de manutenção de tabelas, orquestrá-los com base em um agendamento, uma abordagem centrada em código é a opção recomendada. Para saber mais, confira Otimização da tabela Delta Lake e artigo V-Order. Também é possível usar a API do Lakehouse para automatizar operações de manutenção de tabelas. Para saber mais consulte Gerenciar o Lakehouse com a API REST do Microsoft Fabric.
Tipos de arquivo com suporte
A manutenção da tabelas do Lakehouse se aplica apenas às tabelas Delta Lake. Não há suporte para as tabelas herdadas do Hive que usam PARQUET, ORC, AVRO, CSV e outros formatos.
Operações de manutenção de tabelas
O recurso de manutenção de tabelas oferece três operações.
- Optimize: consolida vários arquivos Parquet pequenos em um arquivo grande. Os mecanismos de processamento de Big Data e todos os mecanismos do Fabric se beneficiam de ter tamanhos maiores de arquivos. Ter arquivos de tamanho acima de 128 MB e, de modo ideal, perto de 1 GB, melhora a compactação e a distribuição de dados nos nós de cluster. Isso reduz a necessidade de verificar vários arquivos pequenos em busca de operações de leitura eficientes. É uma prática recomendada geral executar estratégias de otimização depois de carregar tabelas grandes.
- V-Order: aplica classificação otimizada, codificação e compactação a arquivos Delta Parquet para habilitar operações de leitura rápida entre todos os mecanismos do Fabric. O V-Order ocorre durante o comando otimizar e é apresentado como uma opção para o grupo de comandos na experiência do usuário. Para saber mais sobre o V-Order, consulte Otimização da tabela Delta Lake e V-Order.
- Vacuum: remove arquivos antigos que não são mais referenciados por um log da tabela Delta. Os arquivos precisam ser mais antigos que o limite de retenção e o limite de retenção de arquivos padrão é de sete dias. Todas as tabelas delta no OneLake têm o mesmo período de retenção. O período de retenção de arquivos é o mesmo, independentemente do mecanismo de computação de malha que você está usando. Essa manutenção é importante para otimizar o custo de armazenamento. A configuração de um período de retenção mais curto afeta os recursos de viagem no tempo da Delta. É uma melhor prática geral definir um intervalo de retenção para, pelo menos, sete dias, pois instantâneos antigos e arquivos não confirmados ainda podem estar em uso pelos leitores e gravadores de tabela simultâneos. Limpar arquivos ativos com o comando VACUUM pode levar a falhas de leitor ou, até mesmo, corrupção de tabela se os arquivos não confirmados forem removidos.
Executar a manutenção de tabelas ad hoc em uma tabela Delta usando o Lakehouse
Como usar o recurso:
Na sua conta do Microsoft Fabric, navegue até o Lakehouse desejado.
Na seção Tabelas do gerenciador do Lakehouse, clique com o botão direito do mouse na tabela ou use as reticências para acessar o menu de contexto.
Selecione a entrada de menu Manutenção.
Verifique as opções de manutenção na caixa de diálogo de acordo com os seus requisitos. Para obter mais informações, consulte a seção Operações de manutenção de tabelas deste artigo.
Selecione Executar agora para executar o trabalho de manutenção da tabelas.
Acompanhe a execução do trabalho de manutenção pelo painel de notificações ou pelo Hub de monitoramento.
Como funciona a manutenção de tabelas?
Depois que Executar agora estiver selecionado, um trabalho de manutenção do Spark será enviado para execução.
- O trabalho do Spark é enviado usando a identidade do usuário e os privilégios de tabela.
- O trabalho do Spark consome a capacidade do Fabric do workspace/usuário que enviou o trabalho.
- Se houver outro trabalho de manutenção em execução em uma tabela, um novo trabalho será rejeitado.
- Trabalhos em tabelas diferentes podem ser executados em paralelo.
- Trabalhos de manutenção de tabelas podem ser facilmente acompanhados no hub de monitoramento. Procure o texto "TableMaintenance" na coluna do nome da atividade na página principal do hub de monitoramento.