Поделиться через


Настройка конвейера бессерверных динамических таблиц Delta Live Tables

В этой статье описаны конфигурации конвейеров бессерверных динамических таблиц Delta Live Tables.

Databricks рекомендует разрабатывать новые конвейеры с помощью бессерверных. Для некоторых рабочих нагрузок может потребоваться настройка классических вычислений или работа с устаревшим хранилищем метаданных Hive. См. статью "Настройка вычислительных ресурсов для конвейера Delta Live Tables" и "Использование конвейеров Delta Live Tables с устаревшим хранилищем метаданных Hive".

Примечание.

  • Бессерверные конвейеры всегда используют каталог Unity. Каталог Unity для Delta Live Tables находится в общедоступной бета-версии и имеет некоторые ограничения. См. Использование каталога Unity с конвейерами Delta Live Tables.

  • Ограничения бессерверных вычислений см. в Ограничения бессерверных вычислений.

  • Невозможно вручную добавить параметры вычислений clusters в объект в конфигурацию JSON для бессерверного конвейера. Попытка сделать это приведет к ошибке.

  • Если вам нужно использовать Приватный канал Azure подключение к бессерверным конвейерам DLT, обратитесь к представителю Databricks.

Требования

  • В рабочей области должен быть включен каталог Unity для использования бессерверных конвейеров.

  • Рабочая область должна находиться в бессерверном регионе.

Внимание

Разрешение на создание кластера не требуется для настройки бессерверных конвейеров. По умолчанию все пользователи рабочей области могут использовать бессерверные конвейеры.

Бессерверные конвейеры удаляют большинство параметров конфигурации, так как Azure Databricks управляет всей инфраструктурой. Чтобы настроить бессерверный конвейер, сделайте следующее:

  1. Щелкните Delta Live Tables на панели навигации.
  2. Нажмите кнопку "Создать конвейер".
  3. Укажите уникальное имя конвейера.
  4. Установите флажок рядом с бессерверным.
  5. (Необязательно) Значок средства выбора файлов Используйте средство выбора файлов для настройки записных книжек и файлов рабочей области в качестве исходного кода.
    • Если вы не добавляете исходный код, для конвейера создается новая записная книжка. Записная книжка создается в новом каталоге пользователя, а ссылка на доступ к этой записной книжке отображается в поле "Исходный код " в области сведений о конвейере после создания конвейера.
      • Ссылка на доступ к этой записной книжке находится в поле исходного кода на панели сведений о конвейере после создания конвейера.
    • Нажмите кнопку "Добавить исходный код", чтобы добавить дополнительные ресурсы исходного кода .
  6. Выберите каталог для публикации данных.
  7. Выберите схему в каталоге. Все потоковые таблицы и материализованные представления, определенные в конвейере, создаются в этой схеме.
  8. Нажмите кнопку Создать.

Эти рекомендуемые конфигурации создают новый конвейер, настроенный для запуска в режиме активации и текущем канале. Эта конфигурация рекомендуется для многих вариантов использования, включая разработку и тестирование, и хорошо подходит для рабочих нагрузок, которые должны выполняться по расписанию. Дополнительные сведения о планировании конвейеров, см. в разделе , посвященном задаче конвейера Delta Live Tables для заданий.

Вы также можете преобразовать существующие конвейеры, настроенные в каталоге Unity, в бессерверные. См. раздел "Преобразование существующего конвейера в бессерверный".

Другие рекомендации по настройке

Следующие параметры конфигурации также доступны для бессерверных конвейеров:

  • При выполнении конвейеров в рабочей среде можно использовать режим непрерывного конвейера. См . раздел "Активировано и непрерывный режим конвейера".
  • Добавьте уведомления для обновлений электронной почты на основе условий успешного выполнения или сбоя. Дополнительные сведения о событиях конвейера см. в разделе "Добавление Уведомления по электронной почте".
  • Используйте поле конфигурации, чтобы задать пары "ключ-значение" для конвейера. Эти конфигурации служат двумя целями:
  • Используйте канал Preview для проверки вашей pipeline в ожидании изменений среды выполнения Delta Live Tables и тестирования новых функций.

Политика бюджета

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

Политики бюджета позволяют организации применять пользовательские теги к бессерверному использованию для детализированного выставления счетов. После выбора флажка Бессерверный появится параметр политики бюджета, где можно выбрать политику, которую вы хотите применить к пайплайну. Теги наследуются от политики бюджета и могут изменяться только администраторами рабочей области.

Примечание.

После назначения политики бюджета существующие конвейеры не будут автоматически помечены политикой. Чтобы привязать политику к существующим конвейерам, вы должны обновить их вручную.

Дополнительные сведения о политиках бюджета см. в разделе "Бессерверное использование атрибутов" с политиками бюджета.

Функции бессерверного конвейера

Помимо упрощения конфигурации бессерверные конвейеры имеют следующие функции:

  • добавочное обновление для материализованных представлений: обновления для материализованных представлений обновляются постепенно, когда это возможно. Инкрементное обновление имеет те же результаты, что и полный пересчёт. Обновление использует полную перезагрузку, если невозможно поэтапное вычисление результатов. См. добавочное обновление для материализованных представлений.

  • Конвейерная обработка потоков: для повышения использования, пропускной способности и задержки для рабочих нагрузок потоковой передачи данных, таких как прием данных, микробатки конвейерируются. Другими словами, вместо последовательного запуска микробаток, таких как стандартная структурированная потоковая передача Spark, бессерверные конвейеры DLT одновременно выполняют микробаты, повышая использование вычислительных ресурсов. Потоковые каналы включены по умолчанию в бессерверных конвейерах DLT.

  • вертикальное автоматическое масштабирование: конвейеры DLT без сервера добавляются в горизонтальное автоматическое масштабирование, предоставляемое Databricks, путем автоматического выделения наиболее экономичных типов экземпляров, которые могут запускать конвейер Delta Live Tables без сбоя из-за ошибок вне памяти. См. раздел "Что такое автомасштабирование по вертикали"?

Что такое вертикальное автомасштабирование?

Бессерверные DLT-конвейеры с вертикальным масштабированием автоматически выделяют наиболее экономичные доступные экземпляры для запуска обновлений конвейера Delta Live Tables без сбоев из-за ошибок недостатка памяти. Вертикальное автоматическое масштабирование увеличивается, когда для выполнения обновления конвейера требуются более крупные типы экземпляров, и уменьшается, когда определяется, что обновление может выполняться с меньшими типами экземпляров. Вертикальное автомасштабирование определяет, следует ли масштабировать узлы драйверов, рабочие узлы или как драйверы, так и рабочие узлы.

Вертикальное автомасштабирование используется для всех бессерверных конвейеров DLT, включая конвейеры, используемые для материализованных представлений и таблиц потоковой передачи в Databricks SQL.

Вертикальное автомасштабирование работает путем обнаружения обновлений конвейера, которые завершились сбоем из-за ошибок вне памяти. Вертикальное автоматическое масштабирование выделяет более крупные типы экземпляров при обнаружении этих сбоев на основе данных вне памяти, собранных из сбоя обновления. В рабочем режиме новое обновление, использующее новые вычислительные ресурсы, запускается автоматически. В режиме разработки новые вычислительные ресурсы используются при запуске обновления вручную.

Если вертикальное автоматическое масштабирование обнаруживает, что память выделенных экземпляров постоянно недоиспользуется, она приведет к уменьшению масштаба типов экземпляров, используемых в следующем обновлении конвейера.

Преобразование существующего конвейера в бессерверный

Существующие конвейеры, настроенные с помощью каталога Unity, можно преобразовать в бессерверные конвейеры. Выполните следующие действия:

  1. Щелкните Delta Live Tables на панели навигации.
  2. Щелкните имя требуемого конвейера в списке.
  3. Щелкните Параметры.
  4. Установите флажок рядом с бессерверным.
  5. Нажмите кнопку "Сохранить" и " Начать".

Внимание

При включении бессерверных параметров вычислений, настроенных для конвейера, удаляются. При переключении конвейера обратно на несерверные обновления необходимо перенастроить требуемые параметры вычислений в конфигурацию конвейера.

Как найти использование бессерверного конвейера DBU?

Чтобы найти использование DBU в бессерверных конвейерах DLT, выполните запрос к таблице учета выставляемых счетов, которая является частью системных таблиц Azure Databricks. См. раздел "Что такое потребление DBU бессерверного конвейера DLT?".