다음을 통해 공유


Azure Databricks에서 Python 작업을 실행하여 데이터 변환

적용 대상: Azure Data Factory Azure Synapse Analytics

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

파이프라인의 Azure Databricks Python 작업은 Azure Databricks 클러스터에서 Python 파일을 실행합니다. 이 문서는 데이터 변환 및 지원되는 변환 활동의 일반적인 개요를 표시하는 데이터 변환 활동 문서에서 작성합니다. Azure Databricks는 Apache Spark를 실행하기 위해 관리되는 플랫폼입니다.

11분 동안 이 기능의 소개 및 데모에 대한 다음 비디오를 시청하세요.

UI를 사용하여 파이프라인에 Azure Databricks에 대한 Python 활동 추가

파이프라인에서 Azure Databricks에 대한 Python 작업을 사용하려면 다음 단계를 완료합니다.

  1. 파이프라인 활동 창에서 Python을 검색하고 Python 작업을 파이프라인 캔버스로 끌어옵니다.

  2. 아직 선택되지 않은 경우 캔버스에서 새 Python 작업을 선택합니다.

  3. Azure Databricks 탭을 선택하여 Python 작업을 실행할 새 Azure Databricks 연결된 서비스를 선택하거나 만듭니다.

    Python 작업에 대한 UI를 표시합니다.

  4. 설정 탭을 선택하고 실행할 Python 파일의 Azure Databricks 내 경로, 전달할 선택적 매개 변수, 작업을 실행하기 위해 클러스터에 설치할 추가 라이브러리를 지정합니다.

    Python 작업에 대한 설정 탭의 UI를 표시합니다.

Databricks Python 작업 정의

Databricks Python 작업에 대한 샘플 JSON 정의는 다음과 같습니다.

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksSparkPython",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedService",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "pythonFile": "dbfs:/docs/pi.py",
            "parameters": [
                "10"
            ],
            "libraries": [
                {
                    "pypi": {
                        "package": "tensorflow"
                    }
                }
            ]
        }
    }
}

Databricks Python 작업 속성

다음 표에서는 JSON 정의에 사용하는 JSON 속성을 설명합니다.

속성 설명 필수
name 파이프라인의 작업 이름입니다.
description 작업이 어떤 일을 수행하는지 설명하는 텍스트입니다. 아니요
type Databricks Python 작업의 경우 작업 형식은 DatabricksSparkPython입니다.
linkedServiceName Python 작업이 실행되는 Databricks 연결된 서비스의 이름입니다. 이 연결된 서비스에 대한 자세한 내용은 컴퓨팅 연결 서비스 문서를 참조하세요.
pythonFile 실행할 Python 파일의 URI입니다. DBFS 경로만이 지원됩니다.
매개 변수 Python 파일에 전달되는 명령줄 매개 변수입니다. 문자열의 배열입니다. 아니요
라이브러리 작업을 실행할 클러스터에 설치할 라이브러리의 목록입니다. <문자열, 개체>의 배열일 수 있습니다. 아니요

Databricks 활동에 지원되는 라이브러리

위의 Databricks 활동 정의에서 jar, egg, maven, pypi, cran 라이브러리 유형을 지정합니다.

{
    "libraries": [
        {
            "jar": "dbfs:/mnt/libraries/library.jar"
        },
        {
            "egg": "dbfs:/mnt/libraries/library.egg"
        },
        {
            "maven": {
                "coordinates": "org.jsoup:jsoup:1.7.2",
                "exclusions": [ "slf4j:slf4j" ]
            }
        },
        {
            "pypi": {
                "package": "simplejson",
                "repo": "http://my-pypi-mirror.com"
            }
        },
        {
            "cran": {
                "package": "ada",
                "repo": "https://cran.us.r-project.org"
            }
        }
    ]
}

자세한 내용은 라이브러리 유형에 대한 Databricks 설명서를 참조하세요.

Databricks에서 라이브러리를 업로드하는 방법

작업 영역 UI를 사용할 수 있습니다.

  1. Databricks 작업 영역 UI 사용

  2. UI를 사용하여 추가된 라이브러리의 dbfs 경로를 얻으려면 Databricks CLI를 사용하면 됩니다.

    일반적으로 Jar 라이브러리는 UI를 사용하는 동안 dbfs:/FileStore/jars 아래에 저장됩니다. databricks fs ls dbfs:/FileStore/job-jars CLI를 통해 모두 나열할 수 있습니다.

또는 Databricks CLI를 사용할 수 있습니다.

  1. Databricks CLI를 사용하여 라이브러리 복사를 따르세요.

  2. Databricks CLI (설치 단계)를 사용합니다.

    예를 들어, JAR를 DBFS에 복사하려면 dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar을 수행합니다.