Поделиться через


Краткое руководство. Создание бессерверного пула Apache Spark с помощью Synapse Studio

Azure Synapse Analytics предлагает различные аналитические модули, упрощающие прием, преобразование, моделирование, анализ и предоставление данных. Пул Apache Spark предоставляет возможности для вычислений больших данных из открытых источников. После создания пула Apache Spark в рабочей области Synapse данные можно загружать, моделировать, обрабатывать и обслуживать для получения аналитических сведений.

Из этого краткого руководства вы узнаете, как создать пул Apache Spark в рабочей области Synapse с помощью Synapse Studio.

Внимание

Экземпляры Spark оплачиваются пропорционально за каждую минуту, независимо от их использования. Не забудьте завершить работу экземпляра Spark после его использования или задайте короткое время ожидания. Дополнительные сведения см. в разделе Очистка ресурсов этой статьи.

Примечание.

Synapse Studio продолжит поддерживать файлы конфигурации на основе terraform или bicep.

Если у вас нет подписки Azure, создайте бесплатную учетную запись, прежде чем приступить к работе.

Необходимые компоненты

Войдите на портал Azure

Войдите на портал Azure

  1. Перейдите к рабочей области Synapse, в которой будет создан пул Apache Spark, введя имя службы (или напрямую имя ресурса) в строке поиска. Снимок экрана: портал Azure панели поиска с типом рабочих областей Synapse.

  2. В списке рабочих областей введите имя (или часть имени) рабочей области, которую нужно открыть. В этом примере используется рабочая область с именем contosoanalytics. Снимок экрана: портал Azure списка рабочих областей Synapse, отфильтрованных для отображения тех, кто содержит имя Contoso.

Запуск Synapse Studio

В обзоре рабочей области выберите Workspace web URL (Веб-адрес рабочей области), чтобы открыть Synapse Studio.

Снимок экрана: портал Azure обзора рабочей области Synapse с выделенным параметром Launch Synapse Studio.

Создание пула Apache Spark в Synapse Studio

Внимание

Среда выполнения Azure Synapse для Apache Spark 2.4 устарела и официально не поддерживается с сентября 2023 года. Учитывая, что в Spark 3.1 и Spark 3.2 также объявлено о прекращении поддержки, мы рекомендуем клиентам перейти на Spark 3.3.

  1. На домашней странице Synapse Studio перейдите в центр управления, щелкнув в области навигации слева значок Управление. Снимок экрана: портал Azure домашней страницы Synapse Studio с выделенным разделом

  2. В центре управления перейдите в раздел Пулы Apache Spark и просмотрите текущий список пулов Apache Spark, доступных в этой рабочей области. Снимок экрана: портал Azure центра управления Synapse Studio с выбранной навигацией пулов Apache Spark.

  3. Выберите + Создать. Запустится мастер создания пула Apache Spark.

  4. Введите следующие сведения на вкладке Основные сведения:

    Параметр Предлагаемое значение Описание
    Имя пула Apache Spark Допустимое имя пула, например contosospark Это имя, которое будет у пула Apache Spark.
    Размер узла "Small (4 vCPU / 32 GB)" (Малый (4 виртуальных ЦП / 32 ГБ)) Задайте минимальный размер, чтобы сократить затраты по работе в рамках этого краткого руководства.
    Автомасштабирование Выключено Для целей этого краткого руководства автомасштабирование не требуется.
    Количество узлов 8 Задайте минимальный размер, чтобы сократить затраты на выполнение этого руководства.
    Динамическое выделение исполнителей Выключено Этот параметр сопоставляется с динамическим свойством выделения в конфигурации Spark для выделения исполнителей приложения Spark. Для целей этого краткого руководства автомасштабирование не требуется.

    Снимок экрана: портал Azure нового пула Apache Spark для Synapse Studio.

    Внимание

    Существуют определенные ограничения для имен, которые могут использовать пулы Apache Spark. Имя должно содержать только буквы и цифры, его длина не должна превышать 15 символов. Имя должно начинаться с буквы, быть уникальными в рабочей области, но не должно содержать зарезервированные слова.

  5. На следующей вкладке дополнительные параметры оставьте все параметры в качестве значений по умолчанию.

  6. Выберите Теги. Рассмотрите возможность использования тегов Azure. Например, тег "Владелец" или "CreatedBy", чтобы определить, кто создал ресурс, и тег "Среда", чтобы определить, находится ли этот ресурс в рабочей среде, разработке и т. д. Дополнительные сведения см. в статье "Разработка стратегии именования и тегов для ресурсов Azure". Когда все готово, нажмите кнопку "Проверить и создать".

  7. На вкладке Просмотр и создание убедитесь, что подробные сведения на основе ранее введенных данных указаны правильно, и нажмите кнопку Создать.

    Снимок экрана: портал Azure нового пула Apache Spark для создания Synapse Studio.

  8. Пул Apache Spark начнет процесс подготовки к работе.

  9. После завершения подготовки новый пул Apache Spark появится в списке.

    Снимок экрана: портал Azure списка нового пула Apache Spark в Synapse Studio.

Очистка ресурсов пула Apache Spark с помощью Synapse Studio

Следующие шаги по удалению пула Apache Spark из рабочей области с помощью Synapse Studio.

Предупреждение

При удалении пула Spark аналитический модуль будет удален из рабочей области. Вы больше не сможете подключиться к пулу, а все запросы, конвейеры и записные книжки, использующие этот пул Spark, перестанут работать.

Если вы хотите удалить пул Apache Spark, сделайте следующее:

  1. Перейдите к пулам Apache Spark в центре управления Synapse Studio.

  2. Щелкните многоточие рядом с удаляемым пулом Apache (в данном случае contosospark), чтобы отобразить команды для пула Apache Spark.

    Снимок экрана: портал Azure списка пулов Apache Spark с выбранным недавно созданным пулом.

  3. Выберите команду Удалить.

  4. Подтвердите удаление и нажмите кнопку Удалить.

  5. После успешного завершения процесса пул Apache Spark больше не будет указываться в ресурсах рабочей области.