Práticas recomendadas para computação sem servidor
Este artigo apresenta recomendações de práticas recomendadas para usar computação sem servidor em seus blocos de anotações e trabalhos.
Seguindo essas recomendações, você aprimorará a produtividade, a eficiência de custos e a confiabilidade de suas cargas de trabalho no Azure Databricks.
Migrando cargas de trabalho para computação sem servidor
Para proteger o isolamento do código do usuário, a computação sem servidor utiliza o modo de acesso compartilhado seguro do Azure Databricks. Por isso, algumas cargas de trabalho exigirão alterações de código para continuar trabalhando na computação sem servidor. Para obter uma lista de recursos sem suporte, consulte Limitações de computação sem servidor.
Certas cargas de trabalho são mais fáceis de migrar do que outras. As cargas de trabalho que atendem aos seguintes requisitos serão as mais fáceis de migrar:
- Os dados que estão sendo acessados devem ser armazenados no Catálogo Unity.
- A carga de trabalho deve ser compatível com a computação do modo de acesso compartilhado.
- A carga de trabalho deve ser compatível com o Databricks Runtime 14.3 ou superior.
Para testar se uma carga de trabalho funcionará em computação sem servidor, execute-a em um recurso de computação não sem servidor com modo de acesso compartilhado e um Databricks Runtime de 14.3 ou superior. Se a execução for bem-sucedida, a carga de trabalho estará pronta para a migração.
Devido à importância dessa alteração e à lista atual de limitações, muitas cargas de trabalho não migrarão perfeitamente. Em vez de recodificar tudo, o Azure Databricks recomenda priorizar a compatibilidade de computação sem servidor à medida que você cria novas cargas de trabalho.
Ingerir dados de sistemas externos
Como a computação sem servidor não suporta a instalação de arquivos JAR, não é possível usar um driver JDBC ou ODBC para ingerir dados de uma fonte de dados externa.
Estratégias alternativas que você pode usar para ingestão incluem:
Blocos de construção baseados em SQL, como COPY INTO e tabelas de streaming.
Auto Loader para processar de forma incremental e eficiente novos arquivos de dados à medida que chegam ao armazenamento em nuvem. Consulte O que é Auto Loader?.
Soluções de parceiros de ingestão de dados. Consulte Conectar-se a parceiros de ingestão usando o Partner Connect.
A interface do usuário adicionar dados para carregar arquivos diretamente. Consulte Carregar ficheiros para o Azure Databricks.
Alternativas de ingestão
Ao usar a computação sem servidor, você também pode usar os seguintes recursos para consultar seus dados sem movê-los.
- Se você quiser limitar a duplicação de dados ou garantir que está consultando os dados mais recentes possíveis, o Databricks recomenda o uso do Delta Sharing. Consulte O que é Delta Sharing?.
- Se você quiser fazer relatórios ad hoc e trabalho de prova de conceito, a Databricks recomenda tentar a escolha certa, que pode ser a Lakehouse Federation. A Lakehouse Federation permite sincronizar bancos de dados inteiros com o Azure Databricks a partir de sistemas externos e é regida pelo Unity Catalog. Veja O que é Lakehouse Federation?.
Experimente um ou ambos os recursos e veja se eles atendem aos requisitos de desempenho da sua consulta.
Monitore o custo da computação sem servidor
Há vários recursos que você pode usar para ajudá-lo a monitorar o custo da computação sem servidor:
Use tabelas do sistema para criar painéis, configurar alertas e executar consultas ad hoc. Consulte Monitorar o custo da computação sem servidor.
Configure alertas de orçamento na sua conta. Consulte Usar orçamentos para monitorar os gastos da conta.
Importe um painel de uso pré-configurado. Consulte Importar um painel de uso.