Azure Databricks para desenvolvedores do Scala

Artigo
01/02/2025

Este artigo fornece um guia para desenvolver blocos de anotações e trabalhos no Azure Databricks usando a linguagem Scala. A primeira seção fornece links para tutoriais para fluxos de trabalho e tarefas comuns. A segunda seção fornece links para APIs, bibliotecas e ferramentas importantes.

Um fluxo de trabalho básico para começar é:

Importe o código e execute-o usando um bloco de anotações Databricks interativo: importe seu próprio código de arquivos ou repositórios Git ou tente um tutorial listado abaixo.
Execute seu código em um cluster: crie seu próprio cluster ou verifique se você tem permissões para usar um cluster compartilhado. Anexe o bloco de notas ao cluster e execute-o.

Além disso, você pode se ramificar em tópicos mais específicos:

Trabalhar com conjuntos de dados maiores usando o Apache Spark
Adicionar visualizações
Automatize sua carga de trabalho como um trabalho
Desenvolver em IDEs

Tutoriais

Os tutoriais abaixo fornecem exemplos de código e blocos de anotações para aprender sobre fluxos de trabalho comuns. Consulte Importar um bloco de notas para obter instruções sobre como importar exemplos de blocos de notas para a sua área de trabalho.

Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames
Tutorial: Delta Lake fornece exemplos de Scala.
Usar XGBoost no Azure Databricks fornece um exemplo de Scala.

Referência

As subseções abaixo listam os principais recursos e dicas para ajudá-lo a começar a desenvolver no Azure Databricks com o Scala.

API de Scala

Esses links fornecem uma introdução e referência para a API do Apache Spark Scala.

Gerencie código com blocos de anotações e pastas Databricks Git

Os notebooks Databricks suportam Scala. Esses notebooks fornecem funcionalidade semelhante à do Jupyter, mas com adições como visualizações integradas usando big data, integrações Apache Spark para depuração e monitoramento de desempenho e integrações MLflow para rastrear experimentos de aprendizado de máquina. Comece importando um bloco de anotações. Depois de ter acesso a um cluster, você pode anexar um bloco de anotações ao cluster e executá-lo.

Gorjeta

Para redefinir o estado do seu caderno, reinicie o kernel. Para usuários do Jupyter, a opção "reiniciar kernel" no Jupyter corresponde a separar e reanexar um notebook no Databricks. Para reiniciar o kernel em um bloco de anotações, clique no seletor de computação na barra de ferramentas do bloco de anotações e passe o mouse sobre o cluster anexado ou o SQL warehouse na lista para exibir um menu lateral. Selecione Desanexar ou reanexar. Isso desanexa o bloco de anotações do cluster e o reconecta, o que reinicia o processo.

As pastas Databricks Git permitem que os usuários sincronizem notebooks e outros arquivos com repositórios Git. As pastas Git do Databricks ajudam com o controle de versão e a colaboração de código e podem simplificar a importação de um repositório completo de código para o Azure Databricks, a visualização de versões anteriores do bloco de anotações e a integração com o desenvolvimento do IDE. Comece clonando um repositório Git remoto. Em seguida, você pode abrir ou criar blocos de anotações com o clone do repositório, anexar o bloco de anotações a um cluster e executar o bloco de anotações.

Clusters e bibliotecas

A computação do Azure Databricks fornece gerenciamento de computação para clusters de qualquer tamanho: de clusters de nó único até clusters grandes. Você pode personalizar o hardware e as bibliotecas do cluster de acordo com suas necessidades. Os cientistas de dados geralmente começam a trabalhar criando um cluster ou usando um cluster compartilhado existente. Depois de ter acesso a um cluster, você pode anexar um bloco de anotações ao cluster ou executar um trabalho no cluster.

Para pequenas cargas de trabalho que exigem apenas nós únicos, os cientistas de dados podem usar a computação de nó único para economia de custos.
Para obter dicas detalhadas, consulte Recomendações de configuração de computação
Os administradores podem configurar políticas de cluster para simplificar e orientar a criação de clusters.

Os clusters do Azure Databricks usam um Databricks Runtime, que fornece muitas bibliotecas populares prontas para uso, incluindo Apache Spark, Delta Lake e muito mais. Você também pode instalar bibliotecas personalizadas ou de terceiros adicionais para usar com blocos de anotações e trabalhos.

Comece com as bibliotecas padrão nas notas de versão, versões e compatibilidade do Databricks Runtime. Para obter listas completas de bibliotecas pré-instaladas, consulte Versões e compatibilidade das notas de versão do Databricks Runtime.
Você também pode instalar bibliotecas Scala em um cluster.
Para obter mais detalhes, consulte Bibliotecas.

Visualizações

Os blocos de anotações do Azure Databricks Scala têm suporte interno para muitos tipos de visualizações. Você também pode usar visualizações herdadas:

Interoperabilidade

Esta seção descreve os recursos que oferecem suporte à interoperabilidade entre Scala e SQL.

Tarefas

Você pode automatizar cargas de trabalho do Scala como trabalhos agendados ou acionados no Azure Databricks. Os trabalhos podem executar blocos de anotações e JARs.

Para obter detalhes sobre como criar um trabalho por meio da interface do usuário, consulte Configurar e editar trabalhos do Databricks.
Os SDKs do Databricks permitem criar, editar e excluir trabalhos programaticamente.
A CLI do Databricks fornece uma interface de linha de comando conveniente para automatizar trabalhos.

IDEs, ferramentas de desenvolvedor e SDKs

Além de desenvolver código Scala em blocos de anotações do Azure Databricks, você pode desenvolver externamente usando ambientes de desenvolvimento integrado (IDEs), como o IntelliJ IDEA. Para sincronizar o trabalho entre ambientes de desenvolvimento externos e o Azure Databricks, há várias opções:

Código: Você pode sincronizar o código usando o Git. Consulte Integração do Git para pastas do Databricks Git.
Bibliotecas e trabalhos: você pode criar bibliotecas externamente e carregá-las no Azure Databricks. Essas bibliotecas podem ser importadas dentro de blocos de anotações do Azure Databricks ou podem ser usadas para criar trabalhos. Consulte Bibliotecas e Visão geral da orquestração no Databricks.
Execução remota da máquina: Você pode executar código do IDE local para desenvolvimento e testes interativos. O IDE pode se comunicar com o Azure Databricks para executar grandes cálculos em clusters do Azure Databricks. Por exemplo, você pode usar o IntelliJ IDEA com o Databricks Connect.

O Databricks fornece um conjunto de SDKs que suportam automação e integração com ferramentas externas. Você pode usar os SDKs do Databricks para gerenciar recursos como clusters e bibliotecas, código e outros objetos de espaço de trabalho, cargas de trabalho e trabalhos e muito mais. Consulte os SDKs do Databricks.

Para obter mais informações sobre IDEs, ferramentas de desenvolvedor e SDKs, consulte Ferramentas de desenvolvimento local.

Recursos adicionais

A Databricks Academy oferece cursos individualizados e ministrados por instrutores sobre muitos tópicos.

Partilhar via

Azure Databricks para desenvolvedores do Scala

Tutoriais

Referência

API de Scala

Gerencie código com blocos de anotações e pastas Databricks Git

Clusters e bibliotecas

Visualizações

Interoperabilidade

Tarefas

IDEs, ferramentas de desenvolvedor e SDKs

Recursos adicionais

Comentários

Recursos adicionais