다음을 통해 공유


자습서: 첫 번째 사용자 지정 Databricks 자산 번들 템플릿 만들기

이 자습서에서는 특정 Docker 컨테이너 이미지를 사용하여 클러스터에서 특정 Python 작업으로 작업을 실행하는 번들을 만들기 위한 사용자 지정 Databricks 자산 번들 템플릿을 만듭니다.

시작하기 전에

Databricks CLI 버전 0.218.0 이상을 설치합니다. 이미 설치한 경우 명령줄에서 databricks -version을 실행하여 버전이 0.218.0 이상인지 확인합니다.

사용자 프롬프트 변수 정의

번들 템플릿을 만드는 첫 번째 단계는 databricks bundle init 사용자 프롬프트 변수를 정의하는 것입니다. 명령줄에서:

  1. 이름이 dab-container-template인 빈 디렉터리를 만듭니다.

    mkdir dab-container-template
    
  2. 디렉터리 루트에 databricks_template_schema.json이라는 파일을 만듭니다.

    cd dab-container-template
    touch databricks_template_schema.json
    
  3. databricks_template_schema.json에 다음 콘텐츠를 추가하고 파일을 저장합니다. 각 변수는 번들을 만드는 동안 사용자 프롬프트로 변환됩니다.

    {
      "properties": {
        "project_name": {
          "type": "string",
          "default": "project_name",
          "description": "Project name",
          "order": 1
        }
      }
    }
    

번들 폴더 구조 만들기

다음으로 템플릿 디렉터리에서 resourcessrc로 명명된 하위 디렉터리를 만듭니다. template 폴더에는 생성된 번들에 대한 디렉터리 구조가 포함되어 있습니다. 하위 디렉터리 및 파일의 이름은 사용자 값에서 파생된 경우 Go 패키지 템플릿 구문을 따릅니다.

  mkdir -p "template/resources"
  mkdir -p "template/src"

YAML 구성 템플릿 추가

template 디렉터리에 databricks.yml.tmpl이라는 파일을 만들고 다음 YAML을 추가합니다.

  touch template/databricks.yml.tmpl
  # This is a Databricks asset bundle definition for {{.project_name}}.
  # See https://docs.databricks.com/dev-tools/bundles/index.html for documentation.
  bundle:
    name: {{.project_name}}

  include:
    - resources/*.yml

  targets:
    # The 'dev' target, used for development purposes.
    # Whenever a developer deploys using 'dev', they get their own copy.
    dev:
      # We use 'mode: development' to make sure everything deployed to this target gets a prefix
      # like '[dev my_user_name]'. Setting this mode also disables any schedules and
      # automatic triggers for jobs and enables the 'development' mode for Delta Live Tables pipelines.
      mode: development
      default: true
      workspace:
        host: {{workspace_host}}

    # The 'prod' target, used for production deployment.
    prod:
      # For production deployments, we only have a single copy, so we override the
      # workspace.root_path default of
      # /Workspace/Users/${workspace.current_user.userName}/.bundle/${bundle.target}/${bundle.name}
      # to a path that is not specific to the current user.
      #
      # By making use of 'mode: production' we enable strict checks
      # to make sure we have correctly configured this target.
      mode: production
      workspace:
        host: {{workspace_host}}
        root_path: /Shared/.bundle/prod/${bundle.name}
      {{- if not is_service_principal}}
      run_as:
        # This runs as {{user_name}} in production. Alternatively,
        # a service principal could be used here using service_principal_name
        # (see Databricks documentation).
        user_name: {{user_name}}
      {{end -}}

이름이 다른 {{.project_name}}_job.yml.tmpl YAML 파일을 만들어 template/resources 디렉터리에 배치합니다. 이 새 YAML 파일은 번들의 나머지 정의에서 프로젝트 작업 정의를 분할합니다. 이 파일에 다음 YAML을 추가함으로써 특정 Docker 컨테이너 이미지를 사용하여 작업 클러스터에서 실행할 특정 Python 작업이 포함된 템플릿 작업을 설명합니다.

  touch template/resources/{{.project_name}}_job.yml.tmpl
  # The main job for {{.project_name}}
  resources:
    jobs:
      {{.project_name}}_job:
        name: {{.project_name}}_job
        tasks:
          - task_key: python_task
            job_cluster_key: job_cluster
            spark_python_task:
              python_file: ../src/{{.project_name}}/task.py
        job_clusters:
          - job_cluster_key: job_cluster
            new_cluster:
              docker_image:
                url: databricksruntime/python:10.4-LTS
              node_type_id: i3.xlarge
              spark_version: 13.3.x-scala2.12

이 예제에서는 기본 Databricks 기본 Docker 컨테이너 이미지를 사용하지만 대신 사용자 지정 이미지를 지정할 수 있습니다.

구성에서 참조되는 파일 추가

다음으로, template/src/{{.project_name}} 디렉터리를 만들고 템플릿에서 작업에 참조하는 Python 작업 파일을 만듭니다.

  mkdir -p template/src/{{.project_name}}
  touch template/src/{{.project_name}}/task.py

task.py에 다음 내용을 추가합니다.

  import pyspark
  from pyspark.sql import SparkSession

  spark = SparkSession.builder.master('local[*]').appName('example').getOrCreate()

  print(f'Spark version{spark.version}')

번들 템플릿 구조 확인

번들 템플릿 프로젝트의 폴더 구조를 검토합니다. 다음과 같이 표시되어야 합니다.

  .
  ├── databricks_template_schema.json
  └── template
      ├── databricks.yml.tmpl
      ├── resources
      │   └── {{.project_name}}_job.yml.tmpl
      └── src
          └── {{.project_name}}
              └── task.py

템플릿 테스트

마지막으로 번들 템플릿을 테스트합니다. 새 사용자 지정 템플릿을 기반으로 번들을 생성하려면 새 템플릿 위치를 지정하는 databricks bundle init 명령을 사용합니다. 번들 프로젝트 루트 폴더에서:

mkdir my-new-container-bundle
cd my-new-container-bundle
databricks bundle init dab-container-template

다음 단계

리소스