O que é o armazenamento de dados no Azure Databricks?
O armazenamento de dados refere-se à coleta e ao armazenamento de dados de várias fontes para que possam ser acessados rapidamente para insights e relatórios de negócios. Este artigo contém os principais conceitos para a criação de um Data Warehouse no seu data lakehouse.
Armazenamento de dados no seu Lakehouse
A arquitetura do lakehouse e o Databricks SQL trazem funcionalidades de armazenamento de dados na nuvem para seus data lakes. Usando estruturas de dados, relações e ferramentas de gerenciamento familiares, você pode modelar um data warehouse econômico e de alto desempenho que seja executado diretamente no seu data lake. Para obter mais informações, confira O que é um data lakehouse?
Assim como em um data warehouse tradicional, modele os dados de acordo com os requisitos de negócios e, em seguida, forneça-os aos usuários finais para análises e relatórios. Ao contrário de um data warehouse tradicional, é possível evitar o isolamento dos dados de análise de negócios ou a criação de cópias redundantes que se tornam obsoletas rapidamente.
A criação de um data warehouse dentro do seu lakehouse permite que você traga todos os seus dados para um único sistema e aproveite recursos como o Unity Catalog e o Delta Lake.
O Catálogo do Unity adiciona um modelo de governança unificado para que você possa proteger e auditar o acesso aos dados e fornecer informações de linhagem em tabelas de downstream. O Delta Lake adiciona transações ACID e evolução de esquemas, entre outras ferramentas poderosas para manter seus dados confiáveis, escalonáveis e de alta qualidade.
O que é o SQL do Databricks?
Observação
O Databricks SQL Serverless não está disponível no Azure China. O Databricks SQL não está disponível nas regiões do Azure Governamental.
O Databricks SQL é uma coleção de serviços que traz funcionalidades de armazenamento de dados e desempenho para seus data lakes existentes. O Databricks SQL dá suporte a formatos abertos e ao padrão ANSI SQL. Um editor SQL na plataforma e ferramentas de painel permitem que os membros da equipe colaborem com outros usuários do Databricks diretamente no workspace. O Databricks SQL também se integra a uma variedade de ferramentas para que os analistas possam criar consultas e painéis em seus ambientes favoritos sem precisar se adaptar a uma nova plataforma.
O Databricks SQL fornece recursos gerais de computação que são executados em relação às tabelas no Databricks SQL. O Databricks SQL é alimentado por SQL warehouses, anteriormente chamados de pontos de extremidade SQL, oferecendo recursos de computação SQL escalonáveis desacoplados do armazenamento.
Consulte Conectar-se a um SQL warehouse para obter mais informações sobre padrões e opções do SQL Warehouse.
O Databricks SQL se integra ao Catálogo do Unity para que você possa descobrir, auditar e controlar os ativos de dados em um só lugar. Para obter mais informações, confira O que é o Catálogo do Unity?
Modelagem de dados no Azure Databricks
Um Lakehouse dá suporte para uma variedade de estilos de modelagem. A imagem a seguir mostra como os dados são coletados e modelados à medida que se movem através das diferentes camadas de um Lakehouse.
Arquitetura de medalhão
A arquitetura de medalhão é um padrão de design de dados que descreve uma série de camadas de dados refinadas de forma incremental que fornecem uma estrutura básica no Lakehouse. As camadas bronze, prata e ouro significam o aumento da qualidade dos dados em cada nível, sendo que a camada ouro representa a mais alta qualidade. Para obter mais informações, consulte O que é arquitetura medallion do Lakehouse?.
Dentro de um Lakehouse, cada camada pode conter uma ou mais tabelas. O data warehouse é modelado na camada prata e alimenta data marts especializados na camada ouro.
Camada bronze
Os dados podem ser inseridos no seu Lakehouse em qualquer formato e através de qualquer combinação de transações em lote ou streaming. A camada bronze fornece o espaço de aterrissagem para todos os seus dados brutos no seu formato original. Esses dados são convertidos em tabelas Delta.
Camada silver
A camada prateada reúne dados de diferentes fontes. Para a parte do negócio que foca na ciência de dados e nos aplicativos de aprendizado de máquina, é aqui que você inicia a coleta de ativos de dados significativos. Esse processo geralmente é marcado por um foco na velocidade e na agilidade.
A camada prata também é o local em que você pode integrar cuidadosamente os dados de fontes diferentes para criar um data warehouse alinhado com os processos de negócios existentes. Em geral, esses dados seguem um modelo do Terceiro Formulário Normal (3NF) ou Cofre de Dados. A especificação de restrições de chave primária e estrangeira permite que os usuários finais entendam os relacionamentos da tabela ao usar o Catálogo do Unity. Seu data warehouse deve servir como a única fonte de verdade para seus data marts.
O Data Warehouse em si é atômico e schema-on-write. Ele é otimizado para alteração, de modo que você pode modificar rapidamente o Data Warehouse para corresponder às suas necessidades atuais quando os processos de negócios forem alterados ou evoluírem.
Camada gold
A camada de ouro é a camada de apresentação, que pode conter um ou mais data marts. Frequentemente, os data marts são modelos dimensionais na forma de um conjunto de tabelas relacionadas que capturam uma perspectiva de negócios específica.
A camada Gold também abriga áreas restritas departamentais e de ciência de dados para habilitar a análise de autoatendimento e a ciência de dados em toda a empresa. O fornecimento dessas áreas restritas e de seus próprios clusters de cálculo separados impede que as equipes de Negócios criem cópias de dados fora do Lakehouse.
Próxima etapa
Para saber mais sobre os princípios e as melhores práticas para implementar e operar um lakehouse usando o Databricks, consulte Introdução ao data lakehouse bem arquitetado.