Aceleração de consulta para atalhos do OneLake – visão geral (versão prévia)
Os atalhos do OneLake são referências de um Eventhouse que apontam para o Fabric interno ou fontes externas. Esse tipo de atalho é acessado posteriormente para consulta em conjuntos de consultas do KQL usando a external_table()
função. As consultas executadas em atalhos do OneLake podem ter menos desempenho do que em dados que são ingeridos diretamente em Eventhouses devido a vários fatores, como chamadas de rede para buscar dados do armazenamento, a ausência de índices e muito mais.
A aceleração de consulta permite especificar uma política sobre tabelas delta externas que define o número de dias para armazenar dados em cache para consultas de alto desempenho.
Há suporte para aceleração de consulta no Eventhouse em tabelas delta de atalhos do OneLake, Azure Data Lake Store Gen1, Amazon S3, Google Cloud Services, tabelas externas de Armazenamento de Blobs do Azure e todos os destinos com suporte pelos atalhos do OneLake.
Importante
Esse recurso está em versão prévia.
Observação
Caso tenha considerações de conformidade que exijam que você armazene dados em uma região específica, verifique se a capacidade do Eventhouse está na mesma região que a tabela externa ou os dados de atalho.
Tabelas externas aceleradas adicionam ao COGS de armazenamento e ao consumo de armazenamento do SSD no Eventhouse, semelhante a tabelas regulares em seu banco de dados KQL. Controle a quantidade de dados a serem armazenados em cache definindo a propriedade Frequente na política de aceleração de consulta. A atividade de indexação e ingestão também contribui para o uso de recursos de computação.
Quando devo usar a aceleração de consulta para atalhos do OneLake?
A aceleração de consulta armazena em cache os dados conforme eles chegam ao OneLake, fornecendo desempenho comparável à ingestão de dados no Eventhouse. Usando esse recurso, você poderá acelerar o destino de dados no OneLake, inclusive dados existentes e quaisquer novas atualizações, e esperar um desempenho semelhante. Isso elimina a necessidade de gerenciar pipelines de ingestão, manter cópias duplicadas de dados, garantindo que os dados permaneçam em sincronia sem esforço adicional.
Os seguintes cenários são ideais para usar a aceleração de consulta em atalhos do OneLake:
- Consultar dados no OneLake com alto desempenho: quando você tem cargas de trabalho existentes que estão carregando dados e gerenciando-os no armazenamento (opcionalmente em uma nuvem ou região diferente), e você deseja consultar alguns ou todos os dados com alto desempenho.
- Combine dados históricos com fluxos em tempo real: quando você deseja combinar perfeitamente o destino de dados no OneLake diretamente com fluxos em tempo real que chegam ao Eventhouse sem comprometer as velocidades de consulta.
- Aproveite os dados de dimensão gerenciados por outros itens: geralmente, dados de alto valor e de volume pequeno são hospedados em servidores do SQL, Cosmos DB, Snowflake ou outros sistemas que podem ser espelhados no OneLake. Os atalhos acelerados do OneLake podem tornar esses dados facilmente consumíveis para junções e enriquecimento na consulta do Eventhouse. Como os dados de dimensão geralmente são significativamente menores do que os dados de atividade, o custo adicional associado a esse uso normalmente é mínimo.
Comportamento de tabelas delta externas aceleradas
Os atalhos acelerados do OneLake se comportam como tabelas externas, com as mesmas limitações e funcionalidades. Especificamente, não há suporte para recursos como políticas de exibição materializada e atualização.
Monitorar o comportamento de aceleração
O processo inicial de aceleração de consulta depende do tamanho da tabela externa. Para monitorar o progresso e as configurações de uma tabela acelerada, use o comando .show external table operations query_acceleration statistics em um conjunto de consultas KQL.
Limitações
- O número de colunas na tabela externa não pode exceder 900.
- O desempenho da consulta em tabelas delta externas aceleradas que têm partições pode não ser ideal durante a visualização.
- O recurso pressupõe que tabelas delta com recursos avançados estáticos, por exemplo, o mapeamento de colunas não é alterado, as partições não são alteradas e assim por diante. Para alterar recursos avançados, primeiro desabilite a política e, depois que a alteração for feita, habilite novamente a política.
- As alterações de esquema na tabela delta também devem ser seguidas com o respectivo
.alter
esquema de tabela delta externa, o que pode resultar em aceleração começando do zero se houver alteração de esquema interruptiva. - Não há suporte para a remoção baseada em índice para partições.
- Arquivos Parquet com um tamanho compactado maior que 6 GB não serão armazenados em cache.
Cobrança
Os dados acelerados são cobrados no medidor de cache OneLake Premium, semelhante às tabelas nativas do Eventhouse. É possível controlar a quantidade de dados que é acelerada configurando o número de dias para armazenar em cache. A atividade de indexação também pode contar para o consumo de CU. Para saber mais, confira Cobrança de armazenamento.
Os encargos relacionados à aceleração de consulta serão exibidos no aplicativo de métricas do Fabric no Eventhouse em que o atalho acelerado é criado.