O alcance da plataforma lakehouse
Uma estrutura moderna de plataforma de dados e IA
Para discutir o escopo da Databricks Data Intelligence Platform, é útil primeiro definir uma estrutura básica para a plataforma moderna de dados e IA:
Visão geral do escopo da casa do lago
A Databricks Data Intelligence Platform abrange toda a estrutura moderna da plataforma de dados. Ele é construído sobre a arquitetura lakehouse e alimentado por um mecanismo de inteligência de dados que entende as qualidades únicas de seus dados. É uma base aberta e unificada para cargas de trabalho ETL, ML/AI e DWH/BI, e tem o Unity Catalog como a solução central de governança de dados e IA.
Personas da estrutura da plataforma
A estrutura abrange os membros da equipe de dados primários (personas) que trabalham com os aplicativos na estrutura:
- Os engenheiros de dados fornecem aos cientistas de dados e analistas de negócios dados precisos e reproduzíveis para tomada de decisões oportunas e insights em tempo real. Eles implementam processos de ETL altamente consistentes e confiáveis para aumentar a confiança do usuário nos dados. Eles garantem que os dados estejam bem integrados com os vários pilares do negócio e normalmente seguem as melhores práticas de engenharia de software.
- Os cientistas de dados combinam experiência analítica e compreensão de negócios para transformar dados em insights estratégicos e modelos preditivos. Eles são hábeis em traduzir desafios de negócios em soluções orientadas por dados, seja por meio de insights analíticos retrospetivos ou modelagem preditiva prospetiva. Aproveitando técnicas de modelagem de dados e aprendizado de máquina, eles projetam, desenvolvem e implantam modelos que revelam padrões, tendências e previsões a partir de dados. Eles atuam como uma ponte, convertendo narrativas de dados complexas em histórias compreensíveis, garantindo que as partes interessadas do negócio não apenas entendam, mas também possam agir de acordo com as recomendações orientadas por dados, impulsionando uma abordagem centrada em dados para a solução de problemas dentro de uma organização.
- Os engenheiros de ML (engenheiros de aprendizado de máquina) lideram a aplicação prática da ciência de dados em produtos e soluções, criando, implantando e mantendo modelos de aprendizado de máquina. Seu foco principal gira para o aspeto de engenharia do desenvolvimento e implantação de modelos. Os engenheiros de ML garantem a robustez, confiabilidade e escalabilidade dos sistemas de aprendizado de máquina em ambientes dinâmicos, abordando desafios relacionados à qualidade, infraestrutura e desempenho dos dados. Ao integrar modelos de IA e ML em processos de negócios operacionais e produtos voltados para o usuário, eles facilitam a utilização da ciência de dados na solução de desafios de negócios, garantindo que os modelos não permaneçam apenas na pesquisa, mas gerem valor comercial tangível.
- Os analistas de negócios capacitam as partes interessadas e as equipes de negócios com dados acionáveis. Eles geralmente interpretam dados e criam relatórios ou outra documentação para liderança usando ferramentas de BI padrão. Eles geralmente são o ponto de contato ideal para colegas de negócios e operações não técnicos para perguntas de análise rápida.
- Os parceiros de negócios são partes interessadas importantes em um mundo de negócios cada vez mais conectado. Eles são definidos como uma empresa ou indivíduos com quem uma empresa tem um relacionamento formal para alcançar um objetivo comum, e podem incluir fornecedores, fornecedores, distribuidores e outros parceiros terceirizados. A partilha de dados é um aspeto importante das parcerias empresariais, uma vez que permite a transferência e o intercâmbio de dados para melhorar a colaboração e a tomada de decisões baseadas em dados.
Domínios do quadro da plataforma
A plataforma é composta por vários domínios:
Armazenamento: Na nuvem, os dados são armazenados principalmente em armazenamento de objetos escalável, eficiente e resiliente em provedores de nuvem.
Governança: recursos em torno da governança de dados, como controle de acesso, auditoria, gerenciamento de metadados, rastreamento de linhagem e monitoramento de todos os dados e ativos de IA.
Motor de IA: O motor de IA fornece capacidades de IA generativas para toda a plataforma.
Ingest & transform: Os recursos para cargas de trabalho de ETL.
Análise avançada, ML e IA: todos os recursos em torno de aprendizado de máquina, IA, IA generativa e também análise de streaming.
Data warehouse: O domínio que suporta casos de uso de DWH e BI.
Orquestração: Gerenciamento central do fluxo de trabalho de processamento de dados, aprendizado de máquina e pipelines de análise.
Ferramentas ETL & DS: As ferramentas de front-end que engenheiros de dados, cientistas de dados e engenheiros de ML usam principalmente para o trabalho.
Ferramentas de BI: As ferramentas de front-end que os analistas de BI usam principalmente para o trabalho.
Colaboração: recursos para compartilhamento de dados entre duas ou mais partes.
O âmbito da Plataforma Databricks
A Databricks Data Intelligence Platform e seus componentes podem ser mapeados para a estrutura da seguinte maneira:
Download: Escopo da casa do lago - Componentes Databricks
Cargas de trabalho de dados no Azure Databricks
Mais importante ainda, a Databricks Data Intelligence Platform cobre todas as cargas de trabalho relevantes para o domínio de dados em uma plataforma, com o Apache Spark/Photon como o mecanismo:
Ingerir & transformar
Para a ingestão de dados, o Auto Loader processa de forma incremental e automática os arquivos que chegam ao armazenamento em nuvem em trabalhos programados ou contínuos - sem a necessidade de gerenciar informações de estado. Uma vez ingeridos, os dados brutos precisam ser transformados para que estejam prontos para BI e ML/AI. O Databricks fornece recursos poderosos de ETL para engenheiros de dados, cientistas de dados e analistas.
O Delta Live Tables (DLT) permite que os trabalhos ETL sejam escritos de forma declarativa, simplificando todo o processo de implementação. A qualidade dos dados pode ser melhorada através da definição das suas expectativas.
Análise avançada, ML e IA
A plataforma inclui o Databricks Mosaic AI, um conjunto de ferramentas de aprendizado de máquina e IA totalmente integradas para aprendizado de máquina clássico e profundo, bem como IA generativa e modelos de linguagem grande (LLMs). Ele cobre todo o fluxo de trabalho, desde a preparação de dados até a criação de modelos de aprendizado de máquina e aprendizado profundo, até o Mosaic AI Model Serving.
O Spark Structured Streaming e o DLT permitem análises em tempo real.
Armazém de dados
A plataforma Databricks Data Intelligence também possui uma solução completa de data warehouse com Databricks SQL, governado centralmente pelo Unity Catalog com controle de acesso refinado.
Estrutura de tópicos das áreas de recursos do Azure Databricks
Este é um mapeamento dos recursos da Databricks Data Intelligence Platform para as outras camadas da estrutura, de baixo para cima:
Armazenamento na nuvem
Todos os dados para a casa do lago são armazenados no armazenamento de objetos do provedor de nuvem. O Databricks oferece suporte a três provedores de nuvem: AWS, Azure e GCP. Arquivos em vários formatos estruturados e semiestruturados (por exemplo, Parquet, CSV, JSON e Avro), bem como formatos não estruturados (como imagens e documentos) são ingeridos e transformados usando processos em lote ou de streaming.
Delta Lake é o formato de dados recomendado para o lakehouse (transações de arquivos, confiabilidade, consistência, atualizações e assim por diante) e é completamente de código aberto para evitar bloqueio. E o formato universal Delta (UniForm) permite que você leia tabelas Delta com clientes leitores Iceberg.
Nenhum formato de dados proprietário é usado na Databricks Data Intelligence Platform.
Governança de dados
Além da camada de armazenamento, o Unity Catalog oferece uma ampla gama de recursos de governança de dados, incluindo gerenciamento de metadados no metastore, controle de acesso, auditoria, descoberta de dados, linhagem de dados.
O monitoramento da Lakehouse fornece métricas de qualidade prontas para uso para dados e ativos de IA, além de painéis gerados automaticamente para visualizar essas métricas.
Fontes SQL externas podem ser integradas ao lakehouse e ao Unity Catalog por meio da federação lakehouse.
Motor de IA
A plataforma de inteligência de dados é construída na arquitetura lakehouse e aprimorada pelo mecanismo de inteligência de dados DatabricksIQ. O DatabricksIQ combina IA generativa com os benefícios de unificação da arquitetura lakehouse para entender a semântica exclusiva de seus dados. O Intelligent Search e o Databricks Assistant são exemplos de serviços alimentados por IA que simplificam o trabalho com a plataforma para cada usuário.
Orquestração
O Databricks Jobs permite que você execute diversas cargas de trabalho para o ciclo de vida completo de dados e IA em qualquer nuvem. Eles permitem orquestrar trabalhos, bem como Delta Live Tables para SQL, Spark, notebooks, DBT, modelos de ML e muito mais.
Ferramentas ETL & DS
Na camada de consumo, os engenheiros de dados e os engenheiros de ML normalmente trabalham com a plataforma usando IDEs. Os cientistas de dados geralmente preferem notebooks e usam os tempos de execução de ML ou IA e o sistema de fluxo de trabalho de aprendizado de máquina MLflow para rastrear experimentos e gerenciar o ciclo de vida do modelo.
Ferramentas de BI
Os analistas de negócios normalmente usam sua ferramenta de BI preferida para acessar o data warehouse do Databricks. O Databricks SQL pode ser consultado por diferentes ferramentas de análise e BI, consulte BI e visualização
Além disso, a plataforma oferece ferramentas de consulta e análise prontas para uso:
Colaboração
Delta Sharing é um protocolo aberto desenvolvido pela Databricks para compartilhamento seguro de dados com outras organizações, independentemente das plataformas de computação que usam.
O Databricks Marketplace é um fórum aberto para a troca de produtos de dados. Ele aproveita o Delta Sharing para dar aos provedores de dados as ferramentas para compartilhar produtos de dados com segurança e aos consumidores de dados o poder de explorar e expandir seu acesso aos dados e serviços de dados de que precisam.