Python 또는 R에서 Azure Databricks에 연결
이 문서에서는 Databricks ODBC 드라이버를 사용하여 Azure Databricks를 Python 또는 R 언어와 연결하는 방법을 알아봅니다. 연결을 설정하면 Python 또는 R 클라이언트에서 Azure Databricks의 데이터에 액세스할 수 있습니다. 클라이언트를 사용하여 데이터를 추가로 분석할 수도 있습니다.
필수 구성 요소
Azure Databricks 작업 영역, Spark 클러스터 및 클러스터와 연결된 샘플 데이터가 있어야 합니다. 이러한 필수 구성 요소가 아직 없는 경우 시작하기빠른 시작 가이드를 완료하세요.
Databricks 드라이버 다운로드 페이지에서 Databricks ODBC 드라이버를 다운로드하십시오. 64비트 버전의 드라이버를 설치합니다.
Databricks에서 개인용 액세스 토큰을 설정합니다. 지침은 토큰 관리참조하세요.
DSN 설정
DSN(데이터 원본 이름)에는 특정 데이터 원본에 대한 정보가 포함됩니다. 데이터 원본에 연결하려면 ODBC 드라이버에 이 DSN이 필요합니다. 이 섹션에서는 Databricks ODBC 드라이버와 함께 사용하여 Python 또는 R과 같은 클라이언트에서 Azure Databricks에 연결할 수 있는 DSN을 설정합니다.
Azure Databricks 작업 영역에서 Databricks 클러스터로 이동합니다.
구성 탭에서 JDBC/ODBC 탭을 클릭하고 서버 호스트 이름 및 HTTP 경로값을 복사합니다. 이 문서의 단계를 완료하려면 이러한 값이 필요합니다.
컴퓨터에서 ODBC 데이터 원본 64비트 애플리케이션을 시작합니다.
사용자 DSN 탭에서 추가를 클릭합니다. 새 데이터 원본 만들기 대화 상자에서 Simba Spark ODBC 드라이버를 선택한 다음 마침을 클릭합니다.
시작
Simba Spark ODBC 드라이버 대화 상자에서 다음 값을 제공합니다.
다음 표에서는 대화 상자에 제공할 값에 대한 정보를 제공합니다.
필드 값 데이터 원본 이름 데이터 원본의 이름을 제공합니다. 호스트들 Server 호스트 이름Databricks 작업 영역에서 복사한 값을 제공합니다. 포트 443입력합니다. 인증>메커니즘 사용자 이름 및 암호선택합니다. 사용자 이름 토큰입력하세요. 암호 Databricks 작업 영역에서 복사한 토큰 값을 입력합니다. DSN 설치 대화 상자에서 다음 추가 단계를 수행합니다.
- HTTP 옵션을 클릭합니다. 열리는 대화 상자에서 Databricks 작업 영역에서 복사한 HTTP 경로 값을 붙여넣습니다. 확인클릭합니다.
- SSL 옵션클릭하세요. 열리는 대화 상자에서 SSL 사용 확인란을 선택합니다. 확인클릭합니다.
- Azure Databricks에 대한 연결을 테스트하려면 테스트을 클릭하세요. 확인 클릭하여 구성을 저장합니다.
- ODBC 데이터 원본 관리자 대화 상자에서 확인클릭합니다.
이제 DSN을 설정했습니다. 다음 섹션에서는 이 DSN을 사용하여 Python 또는 R에서 Azure Databricks에 연결합니다.
R에서 연결
메모
이 섹션에서는 데스크톱에서 실행되는 R Studio 클라이언트를 Azure Databricks와 통합하는 방법에 대한 정보를 제공합니다. Azure Databricks 클러스터 자체에서 R Studio를 사용하는 방법에 대한 지침은 Azure Databricks
이 섹션에서는 R 언어 IDE를 사용하여 Azure Databricks에서 사용할 수 있는 데이터를 참조합니다. 시작하기 전에 컴퓨터에 다음이 설치되어 있어야 합니다.
- R 언어에 대한 IDE입니다. 이 문서에서는 데스크톱용 RStudio를 사용합니다. R Studio 다운로드에서 설치할 수 있습니다.
- 데스크톱용 RStudio를 IDE로 사용하는 경우, https://aka.ms/rclient/에서 Microsoft R Client를 함께 설치하십시오.
RStudio를 열고 다음 단계를 수행합니다.
-
RODBC
패키지를 참조하세요. 이렇게 하면 이전에 만든 DSN을 사용하여 Azure Databricks에 연결할 수 있습니다. - DSN을 사용하여 연결을 설정합니다.
- Azure Databricks의 데이터에 대해 SQL 쿼리를 실행합니다. 다음 코드 조각에서 radio_sample_data Azure Databricks에 이미 있는 테이블입니다.
- 쿼리에서 일부 작업을 수행하여 출력을 확인합니다.
다음 코드 조각은 다음 작업을 수행합니다.
# reference the 'RODBC' package
require(RODBC)
# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")
# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")
# print out the column names in the query output
names(res)
# print out the number of rows in the query output
nrow (res)
Python에서 연결
이 섹션에서는 Python IDE(예: IDLE)를 사용하여 Azure Databricks에서 사용할 수 있는 데이터를 참조합니다. 시작하기 전에 다음 필수 조건을 완료합니다.
여기에
Python을 설치합니다. 이 링크에서 Python을 설치하면 IDLE도 설치됩니다. 컴퓨터의 명령 프롬프트에서
pyodbc
패키지를 설치합니다. 다음 명령을 실행합니다.pip install pyodbc
IDLE을 열고 다음 단계를 수행합니다.
-
pyodbc
패키지를 가져옵니다. 이렇게 하면 이전에 만든 DSN을 사용하여 Azure Databricks에 연결할 수 있습니다. - 이전에 만든 DSN을 사용하여 연결을 설정합니다.
- 만든 연결을 사용하여 SQL 쿼리를 실행합니다. 다음 코드 조각에서 radio_sample_data Azure Databricks에 이미 있는 테이블입니다.
- 쿼리에 대한 작업을 수행하여 출력을 확인합니다.
다음 코드 조각은 다음 작업을 수행합니다.
# import the `pyodbc` package:
import pyodbc
# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)
# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")
# print the rows retrieved by the query.
for row in cursor.fetchall():
print(row)
다음 단계
- Azure Databricks로 데이터를 가져올 수 있는 원본에 대해 알아보려면 Azure Databricks 대한
데이터 원본을 참조하세요.