Поделиться через


Рекомендации по пулу

В этой статье объясняется, какие пулы и как их лучше настроить. Дополнительные сведения о создании пула см . в справочнике по конфигурации пула.

Примечание.

Если рабочая нагрузка поддерживает бессерверные вычисления, Databricks рекомендует использовать бессерверные вычисления вместо пулов, чтобы воспользоваться преимуществами постоянно масштабируемых вычислений. См. раздел "Подключение к бессерверным вычислениям".

Рекомендации по пулу

При создании пула следует учитывать следующее:

  • Создавайте пулы, используя типы экземпляров и среды выполнения Azure Databricks на основе целевых рабочих нагрузок.
  • По возможности заполняйте пулы точечными экземплярами, чтобы снизить затраты. Используйте только точечные пулы в качестве рабочих узлов. Узел драйвера должен использовать экземпляры по запросу.
  • Заполните пулы экземплярами по требованию для заданий с коротким временем выполнения и строгими требованиями к времени выполнения.
  • Используйте теги пулов и теги кластеров для управления выставлением счетов.
  • Предварительно заполняйте пулы, чтобы гарантировать доступность экземпляров, когда они нужны кластерам.

Создание пулов на основе рабочих нагрузок

Вы можете сократить время получения экземпляра, создав пул для каждого типа экземпляра и среды выполнения Azure Databricks, которые обычно используются в вашей организации. Например, если большинство кластеров инжиниринга данных используют тип экземпляра A, кластеры обработки данных используют экземпляр типа B, а кластеры аналитики используют экземпляр типа C, создайте пул с каждым типом экземпляра.

Использование пулов точечных экземпляров

Если узел драйвера и рабочие узлы имеют разные требования, используйте разные пулы для каждого.

Azure Databricks рекомендует не использовать точечные экземпляры для узла драйвера. Если вы используете точечный пул для рабочего узла, выберите пул по запросу в качестве типа драйвера.

Настройте пулы для использования экземпляров по запросу для заданий с коротким временем выполнения и строгими требованиями к времени выполнения. Используйте экземпляры по запросу, чтобы предотвратить потерю полученных экземпляров.

Настройте пулы для использования точечных экземпляров для кластеров, поддерживающих интерактивную разработку, или заданий, для которых экономия средств важнее надежности.

Добавление тегов пулам для управления затратами и выставлением счетов

Добавление тегов пулам для правильного центра затрат позволяет управлять расходами и возвратными платежами за использование. Вы можете использовать несколько настраиваемых тегов, чтобы связать несколько центров затрат с пулом. Но важно понимать, как распространяются теги, когда кластер создается из пулов. Теги из пулов распространяются на базовые экземпляры поставщика облачных служб, но теги кластера не распространяются. Примените к пулу все настраиваемые теги, необходимые для управления возвратными платежами, связанными с затратами на вычисления поставщика облачных услуг.

Теги пула и теги кластера распространяются на выставление счетов Azure Databricks. Вы можете использовать комбинацию тегов кластера и пула для управления возвратным платежом для единиц Azure Databricks.

Дополнительные сведения см. в статье "Мониторинг использования с помощью тегов".

Настройка пулов для управления затратами

Для управления затратами пулов можно использовать следующие параметры конфигурации:

  • Установите для экземпляров Min Idle значение 0, чтобы не платить за работающие экземпляры, которые не выполняют никакой работы. Компромисс заключается в возможном увеличении времени, требуемого для получения кластером нового экземпляра.
  • Установите максимальную емкость на основе ожидаемого использования. Это задает потолок максимального количества используемых и неактивных экземпляров в пуле. Если задание или кластер запрашивает экземпляр из пула в состоянии максимальной загруженности, запрос завершается сбоем, и кластер не получает больше экземпляров. Поэтому Databricks рекомендует задать максимальную емкость только в том случае, если существует строгая квота экземпляра или ограничение бюджета.
  • Задайте время автоматического завершения экземпляра на, чтобы обеспечить буфер между освобождением экземпляра из кластера и его удалением из пула. Задайте для этого период, позволяющий свести к минимуму затраты, обеспечивая доступность экземпляров для планируемых задач. Например, задание A планируется запустить в 8:00 и займет 40 минут. Задание B планируется запустить в 9:00 и займет 30 минут. Установите значение времени автоматического завершения бездействующих экземпляров на 20 минут, чтобы удостовериться, что экземпляры возвращаются в пул после завершения задания A и доступны, когда начинается задание B. Если они не утверждаются другим кластером, эти экземпляры завершаются через 20 минут после завершения задания B.

Предварительное заполнение пулов

Чтобы в полной мере воспользоваться преимуществами пулов, вы можете предварительно заполнять новые пулы. Установите количество экземпляров Min Idle больше нуля в настройках пула. Кроме того, если вы следуете рекомендации установить это значение на ноль, используйте начальное задание, чтобы убедиться, что недавно созданные пулы имеют доступные экземпляры, для того, чтобы кластеры могли получить к ним доступ.

В рамках этого подхода запланируйте выполнение задания с гибкими требованиями к времени выполнения перед заданиями с более строгими требованиями к производительности или до того, как пользователи начнут использовать интерактивные кластеры. После завершения задания экземпляры, используемые для задания, возвращаются в пул. Установите для параметра Min Idle значение экземпляра равное 0 и установите время автоматического завершения простоев экземпляра достаточно высоким, чтобы обеспечить, что простои остаются доступными для последующих заданий.

Использование начального задания позволяет экземплярам пула запускаться, заполнять пул и оставаться доступными для последующих заданий или интерактивных кластеров.