Azure Databricks para desenvolvedores do Scala
Este artigo fornece um guia para desenvolver blocos de anotações e trabalhos no Azure Databricks usando a linguagem Scala. A primeira seção fornece links para tutoriais para fluxos de trabalho e tarefas comuns. A segunda seção fornece links para APIs, bibliotecas e ferramentas importantes.
Um fluxo de trabalho básico para começar é:
- Importe o código e execute-o usando um bloco de anotações Databricks interativo: importe seu próprio código de arquivos ou repositórios Git ou tente um tutorial listado abaixo.
- Execute seu código em um cluster: crie seu próprio cluster ou verifique se você tem permissões para usar um cluster compartilhado. Anexe o bloco de notas ao cluster e execute-o.
Além disso, você pode se ramificar em tópicos mais específicos:
- Trabalhar com conjuntos de dados maiores usando o Apache Spark
- Adicionar visualizações
- Automatize sua carga de trabalho como um trabalho
- Desenvolver em IDEs
Tutoriais
Os tutoriais abaixo fornecem exemplos de código e blocos de anotações para aprender sobre fluxos de trabalho comuns. Consulte Importar um bloco de notas para obter instruções sobre como importar exemplos de blocos de notas para a sua área de trabalho.
- Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames
- Tutorial: Delta Lake fornece exemplos de Scala.
- Usar XGBoost no Azure Databricks fornece um exemplo de Scala.
Referência
As subseções abaixo listam os principais recursos e dicas para ajudá-lo a começar a desenvolver no Azure Databricks com o Scala.
API de Scala
Esses links fornecem uma introdução e referência para a API do Apache Spark Scala.
- Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames
- Consultar cadeias de caracteres JSON
- Introdução ao Streaming Estruturado
- Referência da API Apache Spark Core
- Referência da API do Apache Spark ML
Gerencie código com blocos de anotações e pastas Databricks Git
Os notebooks Databricks suportam Scala. Esses notebooks fornecem funcionalidade semelhante à do Jupyter, mas com adições como visualizações integradas usando big data, integrações Apache Spark para depuração e monitoramento de desempenho e integrações MLflow para rastrear experimentos de aprendizado de máquina. Comece importando um bloco de anotações. Depois de ter acesso a um cluster, você pode anexar um bloco de anotações ao cluster e executá-lo.
Gorjeta
Para redefinir o estado do seu caderno, reinicie o kernel. Para usuários do Jupyter, a opção "reiniciar kernel" no Jupyter corresponde a separar e reanexar um notebook no Databricks. Para reiniciar o kernel em um bloco de anotações, clique no seletor de computação na barra de ferramentas do bloco de anotações e passe o mouse sobre o cluster anexado ou o SQL warehouse na lista para exibir um menu lateral. Selecione Desanexar ou reanexar. Isso desanexa o bloco de anotações do cluster e o reconecta, o que reinicia o processo.
As pastas Databricks Git permitem que os usuários sincronizem notebooks e outros arquivos com repositórios Git. As pastas Git do Databricks ajudam com o controle de versão e a colaboração de código e podem simplificar a importação de um repositório completo de código para o Azure Databricks, a visualização de versões anteriores do bloco de anotações e a integração com o desenvolvimento do IDE. Comece clonando um repositório Git remoto. Em seguida, você pode abrir ou criar blocos de anotações com o clone do repositório, anexar o bloco de anotações a um cluster e executar o bloco de anotações.
Clusters e bibliotecas
A computação do Azure Databricks fornece gerenciamento de computação para clusters de qualquer tamanho: de clusters de nó único até clusters grandes. Você pode personalizar o hardware e as bibliotecas do cluster de acordo com suas necessidades. Os cientistas de dados geralmente começam a trabalhar criando um cluster ou usando um cluster compartilhado existente. Depois de ter acesso a um cluster, você pode anexar um bloco de anotações ao cluster ou executar um trabalho no cluster.
- Para pequenas cargas de trabalho que exigem apenas nós únicos, os cientistas de dados podem usar a computação de nó único para economia de custos.
- Para obter dicas detalhadas, consulte Recomendações de configuração de computação
- Os administradores podem configurar políticas de cluster para simplificar e orientar a criação de clusters.
Os clusters do Azure Databricks usam um Databricks Runtime, que fornece muitas bibliotecas populares prontas para uso, incluindo Apache Spark, Delta Lake e muito mais. Você também pode instalar bibliotecas personalizadas ou de terceiros adicionais para usar com blocos de anotações e trabalhos.
- Comece com as bibliotecas padrão nas notas de versão, versões e compatibilidade do Databricks Runtime. Para obter listas completas de bibliotecas pré-instaladas, consulte Versões e compatibilidade das notas de versão do Databricks Runtime.
- Você também pode instalar bibliotecas Scala em um cluster.
- Para obter mais detalhes, consulte Bibliotecas.
Visualizações
Os blocos de anotações do Azure Databricks Scala têm suporte interno para muitos tipos de visualizações. Você também pode usar visualizações herdadas:
Interoperabilidade
Esta seção descreve os recursos que oferecem suporte à interoperabilidade entre Scala e SQL.
Tarefas
Você pode automatizar cargas de trabalho do Scala como trabalhos agendados ou acionados no Azure Databricks. Os trabalhos podem executar blocos de anotações e JARs.
- Para obter detalhes sobre como criar um trabalho por meio da interface do usuário, consulte Configurar e editar trabalhos do Databricks.
- Os SDKs do Databricks permitem criar, editar e excluir trabalhos programaticamente.
- A CLI do Databricks fornece uma interface de linha de comando conveniente para automatizar trabalhos.
IDEs, ferramentas de desenvolvedor e SDKs
Além de desenvolver código Scala em blocos de anotações do Azure Databricks, você pode desenvolver externamente usando ambientes de desenvolvimento integrado (IDEs), como o IntelliJ IDEA. Para sincronizar o trabalho entre ambientes de desenvolvimento externos e o Azure Databricks, há várias opções:
- Código: Você pode sincronizar o código usando o Git. Consulte Integração do Git para pastas do Databricks Git.
- Bibliotecas e trabalhos: você pode criar bibliotecas externamente e carregá-las no Azure Databricks. Essas bibliotecas podem ser importadas dentro de blocos de anotações do Azure Databricks ou podem ser usadas para criar trabalhos. Consulte Bibliotecas e Visão geral da orquestração no Databricks.
- Execução remota da máquina: Você pode executar código do IDE local para desenvolvimento e testes interativos. O IDE pode se comunicar com o Azure Databricks para executar grandes cálculos em clusters do Azure Databricks. Por exemplo, você pode usar o IntelliJ IDEA com o Databricks Connect.
O Databricks fornece um conjunto de SDKs que suportam automação e integração com ferramentas externas. Você pode usar os SDKs do Databricks para gerenciar recursos como clusters e bibliotecas, código e outros objetos de espaço de trabalho, cargas de trabalho e trabalhos e muito mais. Consulte os SDKs do Databricks.
Para obter mais informações sobre IDEs, ferramentas de desenvolvedor e SDKs, consulte Ferramentas de desenvolvimento local.
Recursos adicionais
- A Databricks Academy oferece cursos individualizados e ministrados por instrutores sobre muitos tópicos.