Поделиться через


Создание первого рабочего процесса с заданием Azure Databricks

В этой статье показано задание Azure Databricks, которое управляет задачами по чтению и обработке образца набора данных. В этом кратком руководстве вы:

  1. Создайте новую записную книжку и добавьте код для получения образца набора данных, содержащего популярные детские имена по годам.
  2. Сохраните пример набора данных в каталоге Unity.
  3. Создайте записную книжку и добавьте код, чтобы прочитать набор данных из каталога Unity, отфильтровать его по годам и отобразить результаты.
  4. Создайте новое задание и настройте две задачи с помощью записных книжек.
  5. Запустите задание и ознакомьтесь с результатами.

Требования

Если ваша рабочая область поддерживает каталог Unity и функция "Бессерверные задания" включена, по умолчанию задание выполняется на бессерверных вычислительных ресурсах. Для запуска задания с бессерверными вычислениями не требуется разрешение на создание кластера.

В противном случае необходимо иметь разрешение на создание кластера для создания вычислительных ресурсов задания или разрешений для всех целевых вычислительных ресурсов.

У вас должен быть том в каталоге Unity . В этой статье используется том с именем my-volume в схеме с именем default в каталоге с именем main. Кроме того, у вас должны быть следующие разрешения в каталоге Unity:

  • READ VOLUME и WRITE VOLUME, или ALL PRIVILEGES, для тома my-volume .
  • USE SCHEMA или ALL PRIVILEGES для схемы default.
  • USE CATALOG или ALL PRIVILEGES каталога main.

Чтобы задать эти разрешения, обратитесь к администратору Databricks или привилегиям каталога Unity и защищаемым объектам.

Создание записных книжек

Получение и сохранение данных

Чтобы создать записную книжку для получения примера набора данных и сохранить ее в каталоге Unity:

  1. Перейдите на целевую страницу Azure Databricks и щелкните Новый значокСоздать на боковой панели и выберите Записная книжка. Databricks создает и открывает новую пустую записную книжку в папке по умолчанию. Язык по умолчанию — это язык, который вы недавно использовали, и записная книжка автоматически присоединяется к используемому вычислительному ресурсу.

  2. При необходимости измените язык по умолчанию на Python.

  3. Скопируйте приведенный ниже код Python и вставьте его в первую ячейку записной книжки.

    import requests
    
    response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
    csvfile = response.content.decode('utf-8')
    dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
    

Чтение и отображение отфильтрованных данных

Чтобы создать записную книжку для чтения и представления данных для фильтрации, выполните приведенные далее действия.

  1. Перейдите на целевую страницу Azure Databricks и щелкните Новый значокСоздать на боковой панели и выберите Записная книжка. Databricks создает и открывает новую пустую записную книжку в папке по умолчанию. Язык по умолчанию — это язык, который вы недавно использовали, и записная книжка автоматически присоединяется к используемому вычислительному ресурсу.

  2. При необходимости измените язык по умолчанию на Python.

  3. Скопируйте приведенный ниже код Python и вставьте его в первую ячейку записной книжки.

    babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
    babynames.createOrReplaceTempView("babynames_table")
    years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
    years.sort()
    dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
    display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
    

Создание задания

  1. Щелкните Значок рабочих процессоврабочие процессы на боковой панели.

  2. Нажмите кнопку Кнопка .

    В диалоговом окне "Создание задачи" отобразится вкладка Задачи.

    Диалоговое окно создания первой задачи

  3. Замените Добавьте имя для задания… на имя задания.

  4. В поле Имя задачи введите имя задачи. Например, извлечение-детских-имен.

  5. В раскрывающемся меню Тип выберите Ноутбук.

  6. С помощью средства просмотра файлов найдите первую созданную записную книжку, нажмите на ее имя и нажмите кнопку Подтвердить.

  7. Нажмите Создать задачу.

  8. Щелкните Кнопка под задачей, которую вы только что создали, чтобы добавить другую задачу.

  9. В поле Имя задачи введите имя задачи. Например, фильтровать-детские-имена.

  10. В раскрывающемся меню Тип выберите блокнот.

  11. С помощью средства просмотра файлов найдите вторую созданную записную книжку, нажмите на ее имя и нажмите кнопку Подтвердить.

  12. Щелкните Добавить в разделепараметров . В поле Ключ введите year. В поле Значение введите 2014.

  13. Нажмите Создать задачу.

Запуск задания

Чтобы сразу запустить задание, щелкните Кнопка в правом верхнем углу. Вы также можете запустить задание, щелкнув вкладку Запуски и щелкнув Выполнить сейчас в таблице Активные запуски.

Просмотр сведений о выполнении

  1. Щелкните вкладку Запуски и щелкните ссылку на запуск в таблице Активные запуски или в таблице Завершенные запуски (за последние 60 дней).

  2. Щелкните любую задачу, чтобы просмотреть выходные данные и сведения. Например, щелкните задачу filter-baby-name , чтобы просмотреть выходные данные и выполнить сведения о задаче фильтра:

    Просмотр результатов фильтрования имен

Запуск с разными параметрами

Чтобы повторно запустить задание и отфильтровать детские имена для другого года, выполните приведенные далее действия.

  1. Щелкните Синяя стрелка вниз рядом с Запустить сейчас и выберите Запустить сейчас с различными параметрами или щелкните Запустить сейчас с различными параметрами в таблице Активные запуски.
  2. В поле Значение введите 2015.
  3. Щелкните Выполнить.