Partilhar via


Azure Databricks para desenvolvedores do Scala

Este artigo fornece um guia para desenvolver blocos de anotações e trabalhos no Azure Databricks usando a linguagem Scala. A primeira seção fornece links para tutoriais para fluxos de trabalho e tarefas comuns. A segunda seção fornece links para APIs, bibliotecas e ferramentas importantes.

Um fluxo de trabalho básico para começar é:

Além disso, você pode se ramificar em tópicos mais específicos:

Tutoriais

Os tutoriais abaixo fornecem exemplos de código e blocos de anotações para aprender sobre fluxos de trabalho comuns. Consulte Importar um bloco de notas para obter instruções sobre como importar exemplos de blocos de notas para a sua área de trabalho.

Referência

As subseções abaixo listam os principais recursos e dicas para ajudá-lo a começar a desenvolver no Azure Databricks com o Scala.

API de Scala

Esses links fornecem uma introdução e referência para a API do Apache Spark Scala.

Gerencie código com blocos de anotações e pastas Databricks Git

Os notebooks Databricks suportam Scala. Esses notebooks fornecem funcionalidade semelhante à do Jupyter, mas com adições como visualizações integradas usando big data, integrações Apache Spark para depuração e monitoramento de desempenho e integrações MLflow para rastrear experimentos de aprendizado de máquina. Comece importando um bloco de anotações. Depois de ter acesso a um cluster, você pode anexar um bloco de anotações ao cluster e executá-lo.

Gorjeta

Para redefinir o estado do seu caderno, reinicie o kernel. Para usuários do Jupyter, a opção "reiniciar kernel" no Jupyter corresponde a separar e reanexar um notebook no Databricks. Para reiniciar o kernel em um bloco de anotações, clique no seletor de computação na barra de ferramentas do bloco de anotações e passe o mouse sobre o cluster anexado ou o SQL warehouse na lista para exibir um menu lateral. Selecione Desanexar ou reanexar. Isso desanexa o bloco de anotações do cluster e o reconecta, o que reinicia o processo.

As pastas Databricks Git permitem que os usuários sincronizem notebooks e outros arquivos com repositórios Git. As pastas Git do Databricks ajudam com o controle de versão e a colaboração de código e podem simplificar a importação de um repositório completo de código para o Azure Databricks, a visualização de versões anteriores do bloco de anotações e a integração com o desenvolvimento do IDE. Comece clonando um repositório Git remoto. Em seguida, você pode abrir ou criar blocos de anotações com o clone do repositório, anexar o bloco de anotações a um cluster e executar o bloco de anotações.

Clusters e bibliotecas

A computação do Azure Databricks fornece gerenciamento de computação para clusters de qualquer tamanho: de clusters de nó único até clusters grandes. Você pode personalizar o hardware e as bibliotecas do cluster de acordo com suas necessidades. Os cientistas de dados geralmente começam a trabalhar criando um cluster ou usando um cluster compartilhado existente. Depois de ter acesso a um cluster, você pode anexar um bloco de anotações ao cluster ou executar um trabalho no cluster.

  • Para pequenas cargas de trabalho que exigem apenas nós únicos, os cientistas de dados podem usar a computação de nó único para economia de custos.
  • Para obter dicas detalhadas, consulte Recomendações de configuração de computação
  • Os administradores podem configurar políticas de cluster para simplificar e orientar a criação de clusters.

Os clusters do Azure Databricks usam um Databricks Runtime, que fornece muitas bibliotecas populares prontas para uso, incluindo Apache Spark, Delta Lake e muito mais. Você também pode instalar bibliotecas personalizadas ou de terceiros adicionais para usar com blocos de anotações e trabalhos.

Visualizações

Os blocos de anotações do Azure Databricks Scala têm suporte interno para muitos tipos de visualizações. Você também pode usar visualizações herdadas:

Interoperabilidade

Esta seção descreve os recursos que oferecem suporte à interoperabilidade entre Scala e SQL.

Tarefas

Você pode automatizar cargas de trabalho do Scala como trabalhos agendados ou acionados no Azure Databricks. Os trabalhos podem executar blocos de anotações e JARs.

  • Para obter detalhes sobre como criar um trabalho por meio da interface do usuário, consulte Configurar e editar trabalhos do Databricks.
  • Os SDKs do Databricks permitem criar, editar e excluir trabalhos programaticamente.
  • A CLI do Databricks fornece uma interface de linha de comando conveniente para automatizar trabalhos.

IDEs, ferramentas de desenvolvedor e SDKs

Além de desenvolver código Scala em blocos de anotações do Azure Databricks, você pode desenvolver externamente usando ambientes de desenvolvimento integrado (IDEs), como o IntelliJ IDEA. Para sincronizar o trabalho entre ambientes de desenvolvimento externos e o Azure Databricks, há várias opções:

  • Código: Você pode sincronizar o código usando o Git. Consulte Integração do Git para pastas do Databricks Git.
  • Bibliotecas e trabalhos: você pode criar bibliotecas externamente e carregá-las no Azure Databricks. Essas bibliotecas podem ser importadas dentro de blocos de anotações do Azure Databricks ou podem ser usadas para criar trabalhos. Consulte Bibliotecas e Visão geral da orquestração no Databricks.
  • Execução remota da máquina: Você pode executar código do IDE local para desenvolvimento e testes interativos. O IDE pode se comunicar com o Azure Databricks para executar grandes cálculos em clusters do Azure Databricks. Por exemplo, você pode usar o IntelliJ IDEA com o Databricks Connect.

O Databricks fornece um conjunto de SDKs que suportam automação e integração com ferramentas externas. Você pode usar os SDKs do Databricks para gerenciar recursos como clusters e bibliotecas, código e outros objetos de espaço de trabalho, cargas de trabalho e trabalhos e muito mais. Consulte os SDKs do Databricks.

Para obter mais informações sobre IDEs, ferramentas de desenvolvedor e SDKs, consulte Ferramentas de desenvolvimento local.

Recursos adicionais

  • A Databricks Academy oferece cursos individualizados e ministrados por instrutores sobre muitos tópicos.