Conectar-se ao Azure Databricks a partir de Python ou R

Artigo
12/15/2023

Neste artigo, você aprenderá a usar o driver ODBC do Databricks para conectar o Azure Databricks com a linguagem Python ou R. Depois de estabelecer a conexão, você pode acessar os dados no Azure Databricks dos clientes Python ou R. Você também pode usar os clientes para analisar melhor os dados.

Pré-requisitos

Você deve ter um espaço de trabalho do Azure Databricks, um cluster do Spark e dados de exemplo associados ao cluster. Se você ainda não tiver esses pré-requisitos, conclua o início rápido em Começar.
Baixe o driver ODBC Databricks da página de download do driver Databricks. Instale a versão de 64 bits do driver.
Configure um token de acesso pessoal no Databricks. Para obter instruções, consulte Gerenciamento de tokens.

Configurar um DSN

Um nome de fonte de dados (DSN) contém as informações sobre uma fonte de dados específica. Um driver ODBC precisa desse DSN para se conectar a uma fonte de dados. Nesta seção, você configura um DSN que pode ser usado com o driver ODBC do Databricks para se conectar ao Azure Databricks a partir de clientes como Python ou R.

No espaço de trabalho do Azure Databricks, navegue até o cluster Databricks.
Na guia Configuração, clique na guia JDBC/ODBC e copie os valores para Nome do host do servidor e Caminho HTTP. Você precisa desses valores para concluir as etapas neste artigo.
No computador, inicie o aplicativo ODBC Data Sources de 64 bits.
Na guia DSN do usuário, clique em Adicionar. Na caixa de diálogo Criar nova fonte de dados, selecione o driver ODBC do Simba Spark e clique em Concluir.

Na caixa de diálogo Simba Spark ODBC Driver , forneça os seguintes valores:

Configure DSN

A tabela a seguir fornece informações sobre os valores a serem fornecidos na caixa de diálogo.

Campo	valor
Nome da fonte de dados	Forneça um nome para a fonte de dados.
Anfitrião(s)	Forneça o valor copiado do espaço de trabalho Databricks para Nome de host do servidor.
Porta	Digite 443.
Mecanismo de autenticação>	Selecione Nome de usuário e senha.
Nome de utilizador	Insira o token.
Palavra-passe	Insira o valor do token copiado do espaço de trabalho Databricks.

Execute as seguintes etapas adicionais na caixa de diálogo Configuração do DSN.

Clique em Opções HTTP. Na caixa de diálogo que se abre, cole o valor de Caminho HTTP copiado do espaço de trabalho Databricks. Clique em OK.
Clique em Opções de SSL. Na caixa de diálogo que se abre, marque a caixa de seleção Habilitar SSL . Clique em OK.
Clique em Testar para testar a conexão com o Azure Databricks. Clique em OK para guardar a configuração.
Na caixa de diálogo Administrador da Fonte de Dados ODBC, clique em OK.

Agora você tem seu DSN configurado. Nas próximas seções, você usa esse DSN para se conectar ao Azure Databricks do Python ou R.

Ligar a partir de R

Nota

Esta seção fornece informações sobre como integrar um cliente R Studio em execução em sua área de trabalho com o Azure Databricks. Para obter instruções sobre como usar o R Studio no próprio cluster do Azure Databricks, consulte R Studio no Azure Databricks.

Nesta seção, você usa um IDE de idioma R para fazer referência aos dados disponíveis no Azure Databricks. Antes de começar, você deve ter o seguinte instalado no computador.

Um IDE para a linguagem R. Este artigo usa o RStudio for Desktop. Você pode instalá-lo a partir do download do R Studio.
Se utilizar o RStudio for Desktop como IDE, instale também o Microsoft R Client a partir do https://aka.ms/rclient/.

Abra o RStudio e siga os seguintes passos:

Referenciar o RODBC pacote. Isso permite que você se conecte ao Azure Databricks usando o DSN criado anteriormente.
Estabeleça uma conexão usando o DSN.
Execute uma consulta SQL nos dados no Azure Databricks. No trecho a seguir, radio_sample_data é uma tabela que já existe no Azure Databricks.
Execute algumas operações na consulta para verificar a saída.

O trecho de código a seguir executa essas tarefas:

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res)

# print out the number of rows in the query output
nrow (res)

Conecte-se a partir do Python

Nesta seção, você usa um IDE Python (como IDLE) para fazer referência aos dados disponíveis no Azure Databricks. Antes de começar, preencha os seguintes pré-requisitos:

Instale o Python a partir daqui. A instalação do Python a partir deste link também instala o IDLE.
A partir de um prompt de comando no computador, instale o pyodbc pacote. Execute o seguinte comando:
```
pip install pyodbc
```

Abra o IDLE e siga os seguintes passos:

Importe o pyodbc pacote. Isso permite que você se conecte ao Azure Databricks usando o DSN criado anteriormente.
Estabeleça uma conexão usando o DSN criado anteriormente.
Execute uma consulta SQL usando a conexão que você criou. No trecho a seguir, radio_sample_data é uma tabela que já existe no Azure Databricks.
Execute operações na consulta para verificar a saída.