Преобразование данных путем выполнения определения задания Synapse Spark

Статья
10/03/2024

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Действие определения задания Azure Synapse Spark в конвейере выполняет определение задания Synapse Spark в рабочей области Azure Synapse Analytics. Данная статья основана на материалах статьи о действиях преобразования данных , в которой приведен общий обзор преобразования данных и список поддерживаемых действий преобразования.

Установка холста определения заданий Apache Spark

Чтобы использовать действие определения задания Spark для Synapse в конвейере, выполните следующие действия:

Общие параметры

Найдите определение задания Spark в области действий конвейера и перетащите действие определения задания Spark в synapse на холст конвейера.
Выберите новое действие определения задания Spark на холсте, если оно еще не выбрано.
На вкладке "Общие " введите пример для имени.
(Дополнительно.) Можно также ввести описание.
Время ожидания: максимальный период времени, в течение которого может выполняться действие. Значение по умолчанию — семь дней. Это также максимально допустимое количество времени. Формат — Д:ЧЧ:ММ:СС.
Повторные попытки: максимальное число повторных попыток.
Интервал повторных попыток: число секунд между повторными попытками.
Безопасные выходные данные: если этот флажок установлен, выходные данные из действия не будут регистрироваться в журнале.
Безопасные входные данные: если этот флажок установлен, входные данные из действия не будут регистрироваться в журнале.

Параметры Azure Synapse Analytics (Артефакты)

Выберите новое действие определения задания Spark на холсте, если оно еще не выбрано.
Перейдите на вкладку Azure Synapse Analytics (Artifacts), чтобы выбрать или создать связанную службу Azure Synapse Analytics, которая выполнит действие определения задания Spark.

Вкладка "Параметры"

Выберите новое действие определения задания Spark на холсте, если оно еще не выбрано.
Выберите вкладку Параметры.
Разверните список определений заданий Spark, вы можете выбрать существующее определение задания Apache Spark в связанной рабочей области Azure Synapse Analytics.

(Необязательно) Введите сведения об определении задания Apache Spark. Если следующие параметры пусты, параметры определения задания Spark будут использоваться для выполнения; Если следующие параметры не пусты, эти параметры заменят параметры самого определения задания Spark.

Свойство	Description
Основной файл определения	Основной файл, используемый для задания. Выберите файл PY, JAR или ZIP в хранилище. Для отправки файла в учетную запись хранения можно выбрать Отправить файл. Пример: `abfss://…/path/to/wordcount.jar`
Ссылки из вложенных папок	Сканирование вложенных папок из корневой папки основного файла определения будет добавлено в качестве ссылочных файлов. Папки с именами jars, pyFiles, files или archives будут проверяться, а имя папок учитывает регистр.
Имя главного класса	Полный идентификатор или основной класс, который находится в основном файле определения. Пример: `WordCount`
Аргументы командной строки	Можно добавить аргументы командной строки. Для этого нажмите кнопку Создать. Следует отметить, что добавление аргументов командной строки приведет к переопределению аргументов командной строки, заданных в определении задания Spark. Пример: `abfss://…/path/to/shakespeare.txtabfss://…/path/to/result`
Пул Apache Spark	В списке можно выбрать пул Apache Spark.
Справочник по коду Python	Дополнительные файлы кода Python, используемые для ссылки в файле основного определения. Он поддерживает передачу файлов (.py, PY3, .zip) свойству pyFiles. Он переопределит свойство pyFiles, определенное в определении задания Spark.
Файлы ссылок	Дополнительные файлы, используемые для ссылки в основном файле определения.
Пул Apache Spark	В списке можно выбрать пул Apache Spark.
Динамическое выделение исполнителей	Этот параметр сопоставляется с динамическим свойством выделения в конфигурации Spark для выделения исполнителей приложения Spark.
Минимальное число исполнителей	Минимальное число исполнителей, которые будут выделены в указанном пуле Spark для этого задания.
Максимальное число исполнителей	Максимальное число исполнителей, которые будут выделены в указанном пуле Spark для этого задания.
Размер драйвера	Количество ядер и объем памяти, которые будут использоваться для драйвера, предоставленного для задания в указанном пуле Apache Spark.
Конфигурация Spark	Укажите значения для свойств конфигурации Spark, перечисленных в разделе Конфигурация Spark — свойства приложения. Пользователи могут использовать конфигурацию по умолчанию и настраиваемую конфигурацию.

Снимок экрана: пользовательский интерфейс для действия определения задания Spark.

Чтобы добавить динамическое содержимое, нажмите кнопку Добавить динамическое содержимое или сочетание клавиш Alt+Shift+D. На странице Добавить динамическое содержимое можно добавить в динамическое содержимое любое сочетание выражений, функций и системных переменных.

Вкладка "Свойства пользователя"

На этой панели можно добавлять свойства для действия определения задания Apache Spark.

Снимок экрана: пользовательский интерфейс для свойств для действия определения задания Spark.

Определение действия определения задания Spark в Azure Synapse Spark

Ниже приведен пример определения JSON для действия записной книжки Azure Synapse Analytics:

 {
        "activities": [
            {
                "name": "Spark job definition1",
                "type": "SparkJob",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "typeProperties": {
                    "sparkJob": {
                        "referenceName": {
                            "value": "Spark job definition 1",
                            "type": "Expression"
                        },
                        "type": "SparkJobDefinitionReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ],
    }

Свойства определения задания Azure Synapse Spark

В следующей таблице приведено описание свойств, используемых в определении JSON.

Свойство	Описание:	Обязательное поле
name	Имя действия в конвейере.	Да
описание	Описание действия.	No
type	Для действия определения задания Azure Synapse Spark тип действия — SparkJob.	Да

Просмотр журнала выполнения действий по определению заданий Azure Synapse Spark

Перейдите на вкладку "Конвейер" на вкладке "Монитор ", вы увидите запущенный конвейер. Откройте конвейер, содержащий действие определения задания Azure Synapse Spark, чтобы просмотреть журнал выполнения.

Снимок экрана: пользовательский интерфейс для входных и выходных данных для выполнения действия определения задания Spark.

Чтобы изучить входные или выходные данные действия записной книжки, нажмите кнопку Входные данные или Выходные данные. Если конвейер завершился сбоем из-за пользовательской ошибки, в разделе Выходные данные можно проверить поле Результат с подробной трассировкой этой ошибки.

Снимок экрана: пользовательский интерфейс для ошибки выходного пользователя для выполнения действия определения задания Spark.

Поделиться через