Entender os principais conceitos
O Azure Databricks é uma plataforma de serviço única com múltiplas tecnologias que permitem trabalhar com dados em escala. Ao utilizar o Azure Databricks, existem alguns conceitos-chave a compreender.
Workspaces
Um espaço de trabalho é um ambiente para acessar todos os ativos do Databricks. Ele fornece uma interface de usuário para gerenciar notebooks, bibliotecas e experimentos. Os espaços de trabalho podem ser organizados em pastas e compartilhados entre os membros da equipe, facilitando a colaboração e o gerenciamento de recursos.
Notebooks
Databricks notebooks são documentos interativos que contêm código executável, visualizações e texto narrativo. Eles oferecem suporte a várias linguagens, incluindo Python, R, Scala e SQL, que podem ser usadas simultaneamente no mesmo notebook. Os notebooks são fundamentais para projetos colaborativos e são ideais para análise exploratória de dados, visualização de dados e fluxos de trabalho de dados complexos.
Clusters
Clusters são os mecanismos computacionais do Azure Databricks. Os usuários podem criar e dimensionar clusters de acordo com os recursos computacionais necessários. Os clusters podem ser configurados manualmente ou definidos para escalonamento automático com base na carga de trabalho. Eles suportam diferentes tipos de nós para diversas tarefas, como nós de driver e de trabalho, garantindo a utilização eficiente de recursos.
Trabalhos
Trabalhos no Azure Databricks são usados para agendar e executar tarefas automatizadas. Essas tarefas podem ser execução de notebook, trabalhos Spark ou execução de código arbitrário. Os trabalhos podem ser acionados de acordo com uma programação ou executados em resposta a determinados eventos, facilitando a automatização de fluxos de trabalho e tarefas periódicas de processamento de dados.
Databricks Runtime
O Databricks Runtime é um conjunto de versões do Apache Spark com desempenho otimizado. Inclui melhorias para melhorar o desempenho e funcionalidades adicionais além do Spark padrão, como otimizações para cargas de trabalho de aprendizado de máquina, processamento de gráficos e genômica.
Delta Lake
Delta Lake é uma camada de armazenamento de código aberto que traz confiabilidade e escalabilidade aos data lakes. Ele fornece transações ACID, manipulação escalonável de metadados e unifica streaming e processamento de dados em lote, todos cruciais para gerenciar dados em grande escala de maneira consistente e tolerante a falhas.
Databricks SQL
O Databricks SQL fornece uma maneira de realizar consultas SQL nos dados no Azure Databricks. Ele permite que os analistas de dados executem consultas ad hoc rápidas e criem relatórios diretamente sobre big data. Inclui um editor SQL, painéis e ferramentas de visualização automática, tornando-o fácil de usar para quem está acostumado com ambientes SQL.
MLflow
MLflow é uma plataforma de código aberto para gerenciar o ciclo de vida completo do aprendizado de máquina. Inclui recursos para rastreamento de experimentos, gerenciamento de modelos e implantação, ajudando os profissionais a gerenciar e compartilhar seus modelos e experimentos de ML com eficiência.