Azure Databricks 작업에서 Python 휠 파일 사용
Python 휠 파일은 Python 애플리케이션을 실행하는 데 필요한 파일을 패키지하고 배포하는 표준 방법입니다. Python 휠 작업을 사용하면 Azure Databricks 작업에서 Python 코드를 빠르고 안정적으로 설치할 수 있습니다. 이 문서에서는 파이썬 휠 파일을 생성하는 예와 파이썬 휠 파일로 패키징된 애플리케이션을 실행하는 작업을 제공합니다. 이 예에서는 다음을 수행합니다.
- 예제 애플리케이션을 정의하는 Python 파일을 만듭니다.
- 예제 파일을 Python 휠 파일로 묶습니다.
- Python 휠 파일을 실행하는 작업을 만듭니다.
- 작업을 실행하고 결과를 봅니다.
시작하기 전에
이 예를 완료하려면 다음이 필요합니다.
Python3
Python
wheel
및setuptool
패키지.pip
를 사용하여 이러한 패키지를 설치할 수 있습니다. 예를 들어, 다음 명령을 실행하여 이러한 패키지를 설치할 수 있습니다.pip install wheel setuptools
1단계: 예를 위한 로컬 디렉터리 만들기
예제 코드와 만들어진 아티팩트를 보관할 로컬 디렉터리를 만듭니다(예: databricks_wheel_test
).
2단계: 예제 Python 스크립트 만들기
다음 Python 예제는 입력 인수를 읽고 해당 인수를 출력하는 간단한 스크립트입니다. 이 스크립트를 복사하고 이전 단계에서 만든 디렉터리의 my_test_code/__main__.py
라는 경로에 저장합니다.
"""
The entry point of the Python Wheel
"""
import sys
def main():
# This method will print the provided arguments
print('Hello from my func')
print('Got arguments:')
print(sys.argv)
if __name__ == '__main__':
main()
3단계: 패키지에 대한 메타데이터 파일 만들기
다음 파일에는 패키지를 설명하는 메타데이터가 포함되어 있습니다. 이것을 1단계에서 만든 디렉터리의 my_test_code/__init__.py
라는 경로에 저장합니다.
__version__ = "0.0.1"
__author__ = "Databricks"
4단계: Python 휠 파일 만들기
파이썬 아티팩트를 파이썬 휠 파일로 변환하려면 패키지 이름 및 진입 지점과 같은 패키지 메타데이터를 지정해야 합니다. 다음 스크립트는 이 메타데이터를 정의합니다.
참고 항목
이 스크립트에 정의된 entry_points
는 Azure Databricks 워크플로에서 패키지를 실행하는 데 사용됩니다.
entry_points
의 각 값에서 =
앞의 값(이 예제에서는 run
)은 진입점의 이름이고 파이썬 휠 작업을 구성하는 데 사용됩니다.
1단계에서 만든 디렉터리의 루트에 있는
setup.py
는 파일에 이 스크립트를 저장합니다.from setuptools import setup, find_packages import my_test_code setup( name='my_test_package', version=my_test_code.__version__, author=my_test_code.__author__, url='https://databricks.com', author_email='john.doe@databricks.com', description='my test wheel', packages=find_packages(include=['my_test_code']), entry_points={ 'group_1': 'run=my_test_code.__main__:main' }, install_requires=[ 'setuptools' ] )
1단계에서 만든 디렉터리로 변경하고 다음 명령을 실행하여 코드를 파이썬 휠 배포에 패키지합니다.
python3 setup.py bdist_wheel
이 명령은 파이썬 휠 파일을 만들고 디렉터리의 dist/my_test_package-0.0.1-py3.none-any.whl
파일에 저장합니다.
5단계. Python 휠 파일을 실행할 Azure Databricks 작업 만들기
Azure Databricks 방문 페이지로 이동하여 다음 중 하나를 수행합니다.
- 사이드바에서
워크플로를 클릭하고
(을)를 클릭합니다.
- 사이드바에서
새 클릭하고 메뉴에서 작업 선택합니다.
- 사이드바에서
작업 탭에 나타나는 작업 대화 상자에서 작업 이름 추가…를 작업 이름(예:
Python wheel example
)으로 바꿉니다.작업 이름에 작업 이름(예:
python_wheel_task
)을 입력합니다.형식 Python 휠선택합니다. 패키지 이름에
my_test_package
를 입력합니다. 패키지 이름 값은 가져올 Python 패키지의 이름입니다. 이 예제에서 패키지 이름은name
의setup.py
매개 변수에 할당된 값입니다.점에
run
를 입력합니다. 진입점은entry_points
스크립트의setup.py
컬렉션에 지정된 값 중 하나입니다. 이 예제에서는run
가 정의된 유일한 진입점입니다.컴퓨팅에서 기존 작업 클러스터를 선택하거나 새 작업 클러스터을(를) 추가합니다.
종속 라이브러리에서 가를 클릭합니다. 작업 영역이 선택된 종속 라이브러리 추가 대화 상자에서 4단계에서 만든
my_test_package-0.0.1-py3-none-any.whl
파일을 대화 상자의 이곳에 파일 드롭 영역으로 끌어옵니다.추가를 클릭합니다.
매개변수에서 각 매개변수의 키와 값을 입력할 수 있도록 위치 인수 또는 키워드 인수를 선택합니다. 위치 및 키워드 인수는 모두 명령줄 인수로 Python 휠 작업에 전달됩니다.
- 위치 인수를 입력하려면 JSON 형식의 문자열 배열(예:
["first argument","first value","second argument","second value"]
)로 매개 변수를 입력합니다. - 키워드 인수를 입력하려면 + 추가를 클릭하고 키와 값을 입력합니다. + 추가를 다시 클릭하여 인수를 더 입력합니다.
- 위치 인수를 입력하려면 JSON 형식의 문자열 배열(예:
작업 만들기를 클릭합니다.
6단계: 작업 실행 및 작업 실행 세부 정보 보기
를 클릭하여 워크플로를 실행합니다. 실행의
실행이 완료되면 작업에 전달된 인수를 포함하여 출력이 출력 패널에 표시됩니다.
다음 단계
Azure Databricks 작업을 만들고 실행하는 방법에 대한 자세한 내용은 Databricks의 오케스트레이션 개요를 참조하세요.