Поделиться через


Июль 2020

Эти функции и доработки платформы Azure Databricks были выпущены в июле 2020 г.

Примечание.

Выпуски являются поэтапными. На обновление вашей учетной записи Azure Databricks может потребоваться до одной недели с даты выпуска.

Веб-терминал (общедоступная предварительная версия)

29 июля — 4 августа 2020 г.: версия 3.25

Веб-терминал предоставляет удобный и высоко интерактивный способ для пользователей с разрешением CAN ATTACH TO в кластере для выполнения команд оболочки, включая редакторы, такие как Vim или Emacs. Например, его можно использовать для слежения за использованием ресурсов и установки пакетов Linux.

Дополнительные сведения см. в разделе "Выполнение команд оболочки" в веб-терминале Azure Databricks.

Новая и более безопасная глобальная платформа скриптов инициализации (общедоступная предварительная версия)

29 июля — 4 августа 2020 г.: версия 3.25

Эта новая платформа предоставляет значительные улучшения по сравнению с устаревшими скриптами глобальной инициализации.

  • Скрипты инициализации стали более безопасными — теперь для создания, просмотра и удаления требуются разрешения администратора.
  • Связанные со скриптами ошибки запуска регистрируются в журнале.
  • Можно задать порядок выполнения нескольких скриптов инициализации.
  • Скрипты инициализации могут ссылаться на переменные среды, связанные с кластером.
  • Скрипты инициализации можно создавать и управлять с помощью страницы параметров администратора или нового REST API глобальных скриптов init.

Для использования этих усовершенствований Databricks рекомендует перенести существующие устаревшие скрипты глобальной инициализации на новую платформу.

Дополнительные сведения см. в сценариях глобального инициализации.

Списки IP-адресов для настройки доступа теперь общедоступны

29 июля — 4 августа 2020 г.: версия 3.25

IP Access List API теперь является общедоступным интерфейсом.

Общедоступная версия включает одно изменение, которое представляет собой переименование значений list_type:

  • WHITELIST...ALLOW
  • BLACKLIST...BLOCK

С помощью IP Access List API вы можете настроить рабочие области Azure Databricks таким образом, чтобы пользователи подключались к службе только через существующие корпоративные сети с защищенной периметром. Администраторы Azure Databricks могут использовать IP Access List API для создания набора утвержденных IP-адресов, включая списки разрешений и блокировки. Для доступа к веб-приложению и REST API пользователь должен устанавливать входящее подключение с разрешенного IP-адреса, что гарантирует недоступность рабочих областей из общедоступных сетей, например кафе или аэропорта, если только пользователь не работает через VPN.

Для этой функции требуется план "Премиум".

Дополнительные сведения см. в разделе "Настройка списков ip-доступа для рабочих областей".

Новое диалоговое окно отправки файла

29 июля — 4 августа 2020 г.: версия 3.25

Теперь вы можете отправить небольшие табличные файлы данных (например, CSV) и получить доступ к ним из записной книжки, выбрав команду "Добавить данные" в меню "Файл записной книжки". Созданный код показывает, как загрузить данные в Pandas или в объекты DataFrame. Администраторы могут отключить эту функцию на вкладке "Дополнительно" в консоли администрирования.

Дополнительные сведения см. в разделе Просмотр файлов в DBFS.

Улучшения функций сортировки и фильтрации API SCIM

29 июля — 4 августа 2020 г.: версия 3.25

Теперь в API SCIM реализованы следующие улучшения в плане фильтрации и сортировки:

  • Администраторы могут отфильтровать список пользователей по атрибуту active.
  • Все пользователи могут сортировать результаты с помощью sortBy параметров и sortOrderзапросов. По умолчанию выбрана сортировка по идентификатору.

Добавлены регионы Azure для государственных организаций

25 июля 2020 г.

Служба Azure Databricks недавно стала доступна в регионах US Gov (Аризона) и US Gov (Вирджиния) для государственных организаций США и их партнеров.

Общедоступная версия Databricks Runtime 7.1

21 июля 2020 г.

В Databricks Runtime 7.1 реализовано множество дополнительных функций и усовершенствований по сравнению с Databricks Runtime 7.0, в том числе:

  • Соединитель Google BigQuery
  • Команды %pip для управления библиотеками Python, установленными в сеансе записной книжки
  • Установленный экземпляр Koalas
  • Многие улучшения Delta Lake, в том числе:
    • Настройка метаданных фиксации, определяемых пользователем
    • Получение версии последней фиксации, записанной текущим сеансом SparkSession
    • Преобразование таблиц Parquet, созданных службой структурированной потоковой передачи, с помощью журнала транзакций _spark_metadata
    • Улучшения производительности MERGE INTO

Дополнительные сведения см. в полных заметках о выпуске Databricks Runtime 7.1 (EoS ).

Общедоступная версия Databricks Runtime 7.1 ML

21 июля 2020 г.

Служба Databricks Runtime 7.1 для Машинного обучения создана на основе версии Databricks Runtime 7.1 и содержит перечисленные ниже новые функции и изменения библиотек.

  • Магические команды pip и conda включены по умолчанию
  • spark-tensorflow-distributor: 0.1.0
  • pillow 7.0.0 -> 7.1.0
  • pytorch 1.5.0 -> 1.5.1
  • torchvision 0.6.0 -> 0.6.1
  • horovod 0.19.1 -> 0.19.5
  • mlflow 1.8.0 -> 1.9.1

Дополнительные сведения см. в полных заметках о выпуске Databricks Runtime 7.1 для ML (EoS ).

Общедоступная версия Databricks Runtime 7.1 Genomics

21 июля 2020 г.

Служба Databricks Runtime 7.1 for Genomics создана на основе версии Databricks Runtime 7.1 и содержит перечисленные ниже новые функции.

  • Преобразование LOCO
  • Функция изменения формы вывода GloWGR
  • Непарные выравнивания выходных данных RNASeq

Databricks Connect 7.1 (общедоступная предварительная версия)

17 июля 2020 г.

Databricks Connect 7.1 теперь находится на этапе общедоступной предварительной версии.

Обновления API списка доступа по IP-адресам

15–21 июля 2020 г.: версия 3.24

Изменены следующие свойства IP Access List API:

  • updator_user_id...updated_by
  • creator_user_id...created_by

Записные книжки Python теперь поддерживают несколько выходов для каждой ячейки

15–21 июля 2020 г.: версия 3.24

Записные книжки Python теперь поддерживают несколько выходов для каждой ячейки. Это означает, что в ячейке может быть любое количество инструкций display, displayHTML и print. Вы можете просмотреть необработанные данные и графики в той же ячейке либо для всех выходных данных, успешно выполненных до возникновения ошибки.

Несколько выходных данных в одной ячейке

Для использования этой функции требуется Databricks Runtime 7.1 или более поздней версии, и по умолчанию она отключена в Databricks Runtime 7.1. Чтобы включить ее, задайте spark.databricks.workspace.multipleResults.enabled true.

Параллельный просмотр кода записной книжки и ячеек с результатами

15–21 июля 2020 г.: версия 3.24

С помощью нового режима параллельного отображения записных книжек вы можете просматривать код и результаты рядом. Этот режим дополняет собой режимы "Стандартный" (прежнее название — "Код") и "Только результаты".

Параллельное представление

Приостановка расписаний заданий

15–21 июля 2020 г.: версия 3.24

Теперь в расписаниях заданий есть кнопки Пауза и Снять с паузы, что упрощает приостановку и возобновление заданий. Теперь вы можете вносить изменения в расписание заданий, не опасаясь, что в процессе этих изменений какие-то задания будут запущены. Текущие запуски и запуски, инициированные с помощью функции"Запустить сейчас", не затрагиваются. Дополнительные сведения см. в разделе "Приостановка и возобновление работы триггеров задания".

Идентификаторы выполнения проверки конечных точек API заданий

15–21 июля 2020 г.: версия 3.24

Конечные точки API jobs/runs/cancelи jobs/runs/output теперь проверяют правильность параметра run_id. Для недопустимых параметров эти конечные точки API теперь возвращают код состояния HTTP 400, а не 500.

Маркеры идентификатора Microsoft Entra для авторизации в общедоступной версии REST API Databricks

15–21 июля 2020 г.: версия 3.24

Использование маркеров идентификатора Microsoft Entra для проверки подлинности в API рабочей области теперь общедоступен. Маркеры идентификатора Microsoft Entra позволяют автоматизировать создание и настройку новых рабочих областей. Субъекты-службы — это объекты приложений в идентификаторе Microsoft Entra. Можно также использовать субъекты-службы в рабочих областях Azure Databricks для автоматизации рабочих процессов. Дополнительные сведения см. в статье "Аутентификация доступа к ресурсам Azure Databricks".

Автоматическое форматирование SQL в записных книжках

15–21 июля 2020 г.: версия 3.24

Теперь вы можете форматировать ячейки записной книжки SQL с помощью сочетания клавиш, контекстного меню команды и меню редактирования записной книжки (выберите "Правка > Формат ячеек SQL"). Форматирование SQL упрощает считывание и сопровождение кода и делает эту задачу удобнее. Эта функция работает для записных книжек SQL, а также для ячеек %sql.

форматирование ячейки SQL записной книжки

Воспроизводимый порядок установки для библиотек Maven и CRAN

1–9 июля 2020 г.: версия 3.23

Azure Databricks теперь обрабатывает все библиотеки Maven и CRAN в том порядке, в котором они были установлены в кластере.

Управление личными маркерами доступа пользователей с помощью API управления маркерами (общедоступная предварительная версия)

1–9 июля 2020 г.: версия 3.23

Token Management API теперь позволяет администраторам Azure Databricks управлять личными маркерами доступа пользователей Azure Databricks. Доступны такие функции:

  • Отслеживание и отзыв личных маркеров доступа пользователей.
  • Управление временем существования будущих маркеров в своей рабочей области.
  • Управление списком пользователей, которые могут создавать и использовать маркеры.

См. статью "Мониторинг и отзыв личных маркеров доступа".

Восстановление вырезанных ячеек записной книжки

1–9 июля 2020 г.: версия 3.23

Теперь вы можете восстановить вырезанные ячейки записной книжки, нажав клавиши (Z) или выбрав Правка > Отменить вырезание ячеек. Эта функция аналогична операции отмены удаленных ячеек.

Назначение заданий CAN MANAGE для пользователей, не являющихся администраторами

1–9 июля 2020 г.: версия 3.23

Теперь вы можете назначить неадминистраторных пользователей и групп разрешение CAN MANAGE для заданий. Этот уровень разрешений позволяет пользователям управлять всеми параметрами задания, включая назначение разрешений, изменение владельца и изменение конфигурации кластера (например, добавление библиотек и изменение спецификации кластера). См. раздел "Управление доступом к заданию".

Пользователи Azure Databricks, не являющиеся администраторами, могут просматривать и фильтровать данные по имени пользователя с помощью API SCIM

1–9 июля 2020 г.: версия 3.23

Пользователи без прав администратора теперь могут просматривать имена пользователей и фильтровать их по имени с помощью конечной точки SCIM /Users.

1–9 июля 2020 г.: версия 3.23

Теперь при просмотре сведений о выполнении задания можно щелкнуть ссылку на страницу конфигурации кластера и просмотреть спецификацию кластера. Ранее вам понадобилось бы скопировать идентификатор задания из URL-адреса и найти его в списке кластеров.

ссылка на кластер при выполнении задания