Compreender os conceitos-chave
O Azure Databricks é uma plataforma de serviço única com várias tecnologias que permitem trabalhar com dados em escala. Ao usar o Azure Databricks, há alguns conceitos-chave para entender.
Áreas de Trabalho
Um espaço de trabalho é um ambiente para acessar todos os ativos Databricks. Ele fornece uma interface de usuário para gerenciar blocos de anotações, bibliotecas e experimentos. Os espaços de trabalho podem ser organizados em pastas e compartilhados entre os membros da equipe, facilitando a colaboração e o gerenciamento de recursos.
Notebooks
Os blocos de anotações Databricks são documentos interativos que contêm código executável, visualizações e texto narrativo. Eles suportam várias linguagens, incluindo Python, R, Scala e SQL, que podem ser usadas simultaneamente dentro do mesmo notebook. Os notebooks são fundamentais para projetos colaborativos e são ideais para análise exploratória de dados, visualização de dados e fluxos de trabalho de dados complexos.
Clusters
Os clusters são os mecanismos computacionais do Azure Databricks. Os usuários podem criar e dimensionar clusters de acordo com os recursos computacionais necessários. Os clusters podem ser configurados manualmente ou definidos para dimensionamento automático com base na carga de trabalho. Eles suportam diferentes tipos de nós para várias tarefas, como nós de driver e de trabalho, garantindo uma utilização eficiente dos recursos.
Tarefas
Os trabalhos no Azure Databricks são usados para agendar e executar tarefas automatizadas. Essas tarefas podem ser execuções de bloco de anotações, trabalhos do Spark ou execuções arbitrárias de código. Os trabalhos podem ser acionados em um cronograma ou executados em resposta a determinados eventos, facilitando a automação de fluxos de trabalho e tarefas periódicas de processamento de dados.
Databricks Runtime
O Databricks Runtime é um conjunto de versões de desempenho otimizado do Apache Spark. Ele inclui aprimoramentos para melhorar o desempenho e funcionalidades adicionais além do Spark padrão, como otimizações para cargas de trabalho de aprendizado de máquina, processamento de gráficos e genômica.
Delta Lake
O Delta Lake é uma camada de armazenamento de código aberto que traz confiabilidade e escalabilidade aos data lakes. Ele fornece transações ACID, manipulação de metadados escaláveis e unifica streaming e processamento de dados em lote, todos cruciais para gerenciar dados em grande escala de maneira consistente e tolerante a falhas.
Databricks SQL
O Databricks SQL fornece uma maneira de executar consultas SQL nos dados dentro do Azure Databricks. Ele permite que os analistas de dados executem consultas ad-hoc rápidas e criem relatórios diretamente sobre big data. Ele inclui um editor SQL, painéis e ferramentas de visualização automática, tornando-o fácil de usar para aqueles acostumados a ambientes SQL.
MLflow
O MLflow é uma plataforma de código aberto para gerenciar o ciclo de vida de aprendizado de máquina de ponta a ponta. Ele inclui recursos para rastreamento de experimentos, gerenciamento de modelos e implantação, ajudando os profissionais a gerenciar e compartilhar seus modelos e experimentos de ML de forma eficiente.