Conceitos do Azure Databricks

Artigo
11/19/2024

Este artigo apresenta os conceitos fundamentais necessários para você usar o Azure Databricks de maneira eficaz.

Contas e workspaces

No Azure Databricks, um workspace é uma implantação do Azure Databricks na nuvem que funciona como um ambiente para sua equipe acessar os ativos do Databricks. Sua organização pode optar por ter vários workspaces ou apenas um, dependendo de suas necessidades.

Uma conta do Azure Databricks representa uma única entidade que pode incluir vários workspaces. As contas habilitadas para o Catálogo do Unity podem ser usadas para gerenciar usuários e seu acesso aos dados de forma centralizada em todos os workspaces da conta.

Cobrança: unidades do Databricks (DBUs)

As cobranças do Azure Databricks são baseadas em DBUs (unidades do Databricks), que são unidades de capacidade de processamento por hora com base no tipo de instância de VM.

Consulte a página de preços do Azure Databricks.

Autenticação e autorização

Esta seção descreve os conceitos que você precisa saber ao gerenciar identidades do Azure Databricks e o respectivo acesso aos ativos do Azure Databricks.

Usuário

Um indivíduo exclusivo que tem acesso ao sistema. As identidades do usuário são representadas por endereços de email. Confira Gerenciar usuários.

Entidade de serviço

Uma identidade do serviço para uso com trabalhos, ferramentas automatizadas e sistemas, como scripts, aplicativos e plataformas de CI/CD. As entidades de serviço são representadas por uma ID do aplicativo. Confira Gerenciar entidades de serviço.

Agrupar

Uma coleção de identidades. Os grupos simplificam o gerenciamento de identidades, facilitando a atribuição de acesso a workspaces, dados e outros objetos protegíveis. Todas as identidades do Databricks podem ser atribuídas como membros de grupos. Confira Gerenciar grupos.

ACL (lista de controle de acesso)

Uma lista de permissões anexadas ao workspace, ao cluster, ao trabalho, à tabela ou ao experimento. Uma ACL especifica quais usuários ou processos do sistema têm acesso aos objetos, bem como quais operações são permitidas nos ativos. Cada entrada em uma ACL típica especifica uma entidade e uma operação. Confira Listas de Controle de Acesso.

PAT (token de acesso pessoal)

Um token de acesso pessoal é uma cadeia de caracteres utilizada para autenticar chamadas à API REST, conexões de Parceiros de tecnologia e outras ferramentas. Confira Autenticação com tokens de acesso pessoal do Azure Databricks.

Os tokens do Microsoft Entra ID também podem ser usados para autenticar na API REST.

Interfaces do Azure Databricks

Esta seção descreve as interfaces para acessar os ativos no Azure Databricks.

UI

A interface de usuário do Azure Databricks é uma interface gráfica para interagir com recursos, como pastas de workspace e seus objetos contidos, objetos de dados e recursos computacionais.

API REST

A API REST do Databricks fornece pontos de extremidade para modificar ou solicitar informações sobre objetos de conta e workspace do Azure Databricks. Consulte referência da conta e referência do workspace.

API REST do SQL

A API REST do SQL permite automatizar as tarefas em objetos do SQL. Consulte a API do SQL.

CLI

A CLI do Databricks é hospedada no GitHub. A CLI é baseada na API REST do Databricks.

Gerenciamento de dados

Esta seção descreve os objetos lógicos que armazenam os dados que você alimenta em algoritmos de aprendizado de máquina e nos quais você executa as análises. Além disso, descreve a interface do usuário na plataforma para explorar e gerenciar os objetos de dados.

Catálogo do Unity

O Catálogo do Unity é uma solução de governança unificada para dados e ativos de IA no Azure Databricks que fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados nos workspaces do Databricks. Veja O que é o Catálogo do Unity?.

Raiz do DBFS

Importante

O armazenamento e acesso de dados usando montagens DBFS raiz ou DBFS é um padrão preterido e não recomendado pelo Databricks. Em vez disso, o Databricks recomenda o uso do Catálogo do Unity para gerenciar o acesso a todos os dados. Veja O que é o Catálogo do Unity?.

A raiz do DBFS é um local de armazenamento disponível para todos os usuários por padrão. Confira O que é DBFS?.

Explorador do Catálogo

O Explorador de Catálogo permite que você explore e gerencie os ativos de dados e IA, incluindo esquemas (bancos de dados), tabelas, modelos, volumes (dados não tabulares), funções e modelos de ML registrados. Você pode usá-lo para localizar objetos de dados e proprietários, reconhecer as relações de dados entre tabelas e gerenciar permissões e compartilhamentos. Confira O que é o Explorador de Catálogos?.

Backup de banco de dados

Uma coleção de objetos de dados, como tabelas ou exibições e funções, organizada de forma que possa ser facilmente acessada, gerenciada e atualizada. Consulte O que são esquemas no Azure Databricks?

Tabela

Uma representação de dados estruturados. As tabelas são consultadas com o SQL e as APIs do Apache Spark. Consulte O que são tabelas e exibições?.

Tabela Delta

Por padrão, todas as tabelas criadas no Azure Databricks são tabelas Delta. As tabelas Delta são baseadas no projeto de código aberto Delta Lake, uma estrutura para armazenamento de tabelas ACID de alto desempenho em armazenamentos de objetos na nuvem. Uma tabela Delta armazena dados como um diretório de arquivos no armazenamento de objetos de nuvem e registra metadados de tabela no metastore dentro de um catálogo e esquema.

Saiba mais sobre tecnologias com a marca Delta.

Metastore

O componente que armazena todas as informações de estrutura das diversas tabelas e partições no data warehouse, incluindo informações de coluna e de tipo de coluna, os serializadores e desserializadores necessários para ler e gravar dados, assim como os arquivos correspondentes em que os dados são armazenados. Consulte Metastores

Cada implantação de Azure Databricks tem um metastore do Hive central acessível por todos os clusters para manter os metadados da tabela. Você também tem a opção de usar um metastore do Hive externo existente.

Gerenciamento de computação

Esta seção descreve os conceitos que você precisa saber para executar a computação no Azure Databricks.

Cluster

Um conjunto de recursos de computação e configurações em que você executa notebooks e trabalhos. Há dois tipos de clusters: para todas as finalidades e de trabalho. Consulte Computação.

Crie um cluster para todas as finalidades usando a interface do usuário, a CLI ou a API REST. Você pode encerrar e reiniciar manualmente um cluster para todas as finalidades. Vários usuários podem compartilhar tais clusters para realizar a análise interativa de forma colaborativa.
O agendador de trabalhos do Azure Databricks cria um cluster de trabalho quando você executa um trabalho em um novo cluster de trabalho e encerra o cluster quando o trabalho é concluído. Não é possível reiniciar um cluster de trabalho.

pool

Um conjunto de instâncias ociosas e prontas para uso que reduzem os tempos de início e dimensionamento automático do cluster. Quando anexado a um pool, um cluster aloca o driver e os nós de trabalho do pool. Confira Referência de configuração do pool.

Se o pool não tiver recursos ociosos suficientes para acomodar a solicitação do cluster, o pool se expandirá alocando novas instâncias do provedor de instâncias. Quando um cluster anexado é encerrado, as instâncias usadas por ele são retornadas para o pool e podem ser reutilizadas por outro cluster.

Runtime do Databricks

O conjunto de componentes principais que é executado nos clusters gerenciados pelo Azure Databricks. Consulte Computação. O Azure Databricks possui os seguintes runtimes:

O Databricks Runtime inclui o Apache Spark, mas também adiciona vários componentes e atualizações que aprimoram substancialmente a usabilidade, o desempenho e a segurança da análise de Big Data.
O Databricks Runtime para Machine Learning foi desenvolvido com base no Databricks Runtime e fornece uma infraestrutura de aprendizado de máquina predefinida que é integrada a todos os recursos do workspace do Azure Databricks. Ele contém várias bibliotecas populares, incluindo TensorFlow, PyTorch, Keras e XGBoost.

Fluxos de trabalho

A interface do usuário do workspace de Fluxos de trabalho fornece entrada para as UIs de Pipelines de Trabalhos e DLT, que são ferramentas que permitem orquestrar e agendar fluxos de trabalho.

Trabalhos

Um mecanismo não interativo para orquestrar e agendar notebooks, bibliotecas e outras tarefas. Confira Agendar e orquestrar fluxos de trabalho.

Pipelines

Os pipelines do Delta Live Tables fornecem uma estrutura declarativa para a criação de pipelines de processamento de dados confiáveis e que oferecem facilidade de manutenção e teste. ConsulteO que é o Delta Live Tables?.

Carga de trabalho

Carga de trabalho é a quantidade de capacidade de processamento necessária para executar uma tarefa ou um grupo de tarefas. O Azure Databricks identifica dois tipos de cargas de trabalho: engenharia de dados (trabalho) e análise de dados (para todas as finalidades).

Engenharia de Dados Uma carga de trabalho (automatizada) é executada em um cluster de trabalho criado pelo agendador de trabalhos do Azure Databricks para cada carga de trabalho.
Análise de dados Uma carga de trabalho (interativa) é executada em um cluster para todas as finalidades. As cargas de trabalho interativas normalmente executam comandos em um notebook do Azure Databricks. No entanto, a execução de um trabalho em um cluster para todas as finalidades existente também é tratada como uma carga de trabalho interativa.

Contexto de execução

O estado de um ambiente de loop de leitura-avaliação-impressão (REPL) para cada linguagem de programação com suporte. As linguagens compatíveis são o Python, o R, o Scala e o SQL.

Engenharia de dados

As ferramentas de Engenharia de dados auxiliam na colaboração entre cientistas de dados, engenheiros de dados, analistas de dados e engenheiros de aprendizado de máquina.

Workspace

Um workspace é um ambiente usado para acessar todos os seus ativos do Azure Databricks. Um workspace organiza objetos (notebooks, bibliotecas, painéis e experimentos) em pastas e fornece acesso a objetos de dados e recursos computacionais.

Notebook

Uma interface baseada na Web para criar fluxos de trabalho de ciência de dados e aprendizado de máquina que podem conter comandos executáveis, visualizações e texto narrativo. Confira Introdução aos notebooks do Databricks.

Biblioteca

Um pacote de código disponível para o notebook ou o trabalho em execução no cluster. Os runtimes do Databricks incluem muitas bibliotecas e você também pode carregar as suas próprias. Consulte Bibliotecas.

Pasta Git (anteriormente Repos)

Uma pasta cujo conteúdo tem um controle de versão conjunto com a sincronização dele para um repositório Git remoto. As pastas Git do Databricks integram-se ao Git para fornecer controle de origem e de versão para projetos.

IA e machine learning

O Databricks fornece um ambiente integrado de ponta a ponta com serviços gerenciados para desenvolver e implantar aplicativos de aprendizado de máquina e IA.

Mosaic AI

A marca de produtos e serviços do Databricks Mosaic AI Research, uma equipe de pesquisadores e engenheiros responsáveis pelos maiores avanços do Databricks em IA generativa. Os produtos do Mosaic AI incluem os recursos de ML e IA no Databricks. Consulte Mosaic Research.

Machine Learning Runtime

Para ajudar você a desenvolver modelos de ML e IA, o Databricks fornece um Databricks Runtime para Machine Learning que automatiza a criação de computação com aprendizado de máquina pré-compilado e infraestrutura de aprendizado profundo incluindo as bibliotecas de ML e DL mais comuns. Ele também tem suporte a GPU integrado e pré-configurado, incluindo drivers e bibliotecas de suporte. Procure informações sobre os lançamentos de runtime mais recentes nas notas de versão e compatibilidade do Databricks Runtime.

Experimento

Uma coleção de execuções do MLflow para treinamento de um modelo de machine learning. Confira Organizar execuções de treinamento com experimentos do MLflow.

Recursos

Os recursos são um componente importante dos modelos de ML. Um repositório de recursos permite o compartilhamento e a descoberta de recursos em toda a sua organização e também garante que o mesmo código de computação de recursos seja utilizado para treinamento e inferência de modelos. Consulte Engenharia de recursos e serviços.

Modelos de GenAI

O Databricks dá suporte à exploração, ao desenvolvimento e à implantação de modelos de IA generativos, incluindo:

Playground de IA, um ambiente semelhante a um chat no espaço de trabalho em que você pode testar, solicitar e comparar LLMs. Confira Chat com LLMs e protótipos de aplicativos GenAI usando o AI Playground.
Um conjunto integrado de modelos de base pré-configurados que você pode consultar:
- Consulte APIs de Modelos de Base de Pagamento por Token.
- Consulte [Recomendado] Implantar modelos de base do Catálogo do Unity para modelos de base que você pode servir com um único clique.
LLMs hospedados por terceiros, chamados modelos externos. Esses modelos devem ser usados no estado em que se encontram.
Recursos para personalizar um modelo de base a fim de otimizar seu desempenho para seu aplicativo específico (geralmente chamado de ajuste fino). Consulte Ajuste fino do modelo de fundação.

Registro de modelo

O Databricks fornece uma versão hospedada do Registro de Modelo do MLflow no Catálogo do Unity. Os modelos registrados no Unity Catalog herdam controle de acesso centralizado, linhagem, e, descoberta e acesso entre workspaces. Consulte Gerenciar o ciclo de vida do modelo no Catálogo Unity.

Serviço de modelo

O Mosaic AI Model Serving fornece uma interface unificada para implantar, governar e consultar modelos de IA. Cada modelo que você atende está disponível como uma API REST que você pode integrar ao seu aplicativo Web ou cliente. Com o Mosaic AI Model Serving, você pode implantar seus próprios modelos, modelos de base ou modelos de terceiros hospedados fora do Databricks. Confira Serviço de modelo com o Azure Databricks.

Data warehousing

O armazenamento de dados refere-se à coleta e ao armazenamento de dados de várias fontes para que possam ser acessados rapidamente para insights e relatórios de negócios. O Databricks SQL é uma coleção de serviços que traz funcionalidades de armazenamento de dados e desempenho para seus data lakes existentes. Consulte O que é armazenamento de dados no Azure Databricks?.

Consulta

Uma consulta é uma instrução SQL válida que permite a você interagir com seus dados. Crie consultas usando o editor SQL na plataforma ou conecte usando um conector, driver ou API do SQL. Consulte Acessar e gerenciar as consultas salvas para saber mais sobre como trabalhar com consultas.

SQL warehouse

Um recurso de computação no qual você executa consultas SQL. Há três tipos de armazéns SQL: Clássico, Pro e Sem Servidor. O Azure Databricks recomenda usar warehouses sem servidor, quando disponíveis. Consulte tipos de warehouse SQL para comparar os recursos disponíveis para cada tipo de warehouse.

Histórico de consultas

Uma lista de consultas executadas e as características de desempenho. O histórico de consultas permite monitorar o desempenho das consultas, ajudando a identificar os gargalos e otimizar os runtimes das consultas. Consulte Histórico de consultas.

Visualização

Uma apresentação gráfica do resultado da execução de uma consulta. Confira Visualizações em notebooks do Databricks.

Painel

Uma apresentação de visualizações de dados e comentários. É possível usar dashboards para enviar relatórios automaticamente a qualquer pessoa na conta do Azure Databricks. Use o Assistente do Databricks para ajudar você a compilar visualizações com base em prompts de linguagem natural. Veja Painéis. Você também pode criar um dashboard a partir de um notebook. Confira Dashboards em notebooks.

Para dashboards herdados, consulte dashboards herdados.