Режим высокой параллелизма в Apache Spark для Fabric
Режим высокой параллелизма позволяет пользователям совместно использовать одни и те же сеансы Spark в Spark for Fabric для проектирования данных и рабочих нагрузок обработки и анализа данных. Для выполнения элемента, например записной книжки, используется стандартный сеанс Spark. В режиме высокой параллелизма сеанс Spark может поддерживать независимое выполнение нескольких элементов в отдельных ядрах цикла чтения и печати (REPL), которые существуют в приложении Spark. Эти ядра REPL обеспечивают изоляцию для каждого элемента и препятствуют перезаписи переменных локальной записной книжки переменными с тем же именем из других записных книжек, которыми предоставляется общий доступ к одному сеансу.
Так как сеанс уже запущен, это дает пользователям возможность мгновенного запуска при повторном использовании сеанса в нескольких записных книжках.
Примечание.
В случае пользовательских пулов с режимом высокой параллелизма пользователи получают более быстрый запуск сеанса 36X по сравнению со стандартным сеансом Spark.
Внимание
Условия общего доступа к сеансам включают:
- Сеансы должны находиться в пределах одной границы пользователя.
- Сеансы должны иметь ту же конфигурацию lakehouse по умолчанию.
- Сеансы должны иметь те же свойства вычислений Spark.
В рамках инициализации сеанса Spark создается ядро REPL. Каждый раз, когда новый элемент начинает совместно использовать один и тот же сеанс, и исполнители выделяются на основе FAIR в этих записных книжках, работающих в этих ядрах REPL в приложении Spark, предотвращая сценарии голода.
Связанный контент
- Сведения о начале работы с режимом высокой параллелизма в записных книжках см. в разделе "Настройка режима высокой параллелизма" для записных книжек Fabric.