Поделиться через


Май 2020 г.

Эти функции и улучшения для Azure Databricks были выпущены в мае 2020 г.

Примечание.

Выпуски являются поэтапными. На обновление вашей учетной записи Azure Databricks может потребоваться до одной недели с даты выпуска.

Виртуальные машины серии Easv4 (бета-версия)

29 мая 2020 г.

В Azure Databricks теперь предоставляется бета-версия поддержки виртуальных машин серии Easv4 с SSD ценовой категории "Премиум" и возможностью кратковременного повышения частоты до 3,35 ГГц. Экземпляры виртуальных машин этого типа могут оптимизировать производительность рабочей нагрузки для корпоративных приложений с высоким потреблением памяти.

Общедоступная версия Databricks Runtime 6.6 для Genomics

26 мая 2020 г.

Компонент Databricks Runtime 6.6 для Genomics создан на основе Databricks Runtime 6.6 и включает следующие новые функции:

  • Средство чтения файлов GFF3
  • поддержка пользовательского эталонного генома;
  • Время ожидания конвейера для каждого образца
  • возможность экспорта в формат BAM;
  • BLOB-объекты манифеста.

Общедоступная версия Databricks Runtime 6.6 ML

26 мая 2020 г.

Компонент Databricks Runtime 6.6 ML создан на основе Databricks Runtime 6.6 и включает следующие новые функции:

  • Обновление mlflow с версии 1.7.0 до 1.8.0.

Дополнительные сведения см. в полных заметках о выпуске Databricks Runtime 6.6 ML (EoS).

Общедоступная версия Databricks Runtime 6.6

26 мая 2020 г.

В Databricks Runtime 6.6 реализовано множество обновлений библиотек и новых функций, включая следующие функции Delta Lake:

  • Теперь схему таблицы можно автоматически изменять с помощью операции merge. Это полезно в тех случаях, когда в таблице нужно выполнить операцию upsert с измененными данными, а схема данных меняется с течением времени. Вместо того чтобы обнаруживать и применять изменения схемы перед операцией upsert, merge может одновременно изменять схему и выполнять с изменениями операцию upsert. См. статью "Автоматическая эволюция схемы" для слияния Delta Lake.
  • Повышена производительность операций слияния, содержащих только совпадающие предложения, то есть только действия update и delete, но не действия insert.
  • Таблицы Parquet, на которые имеются ссылки в хранилище метаданных Hive, теперь могут преобразоваться в Delta Lake через идентификаторы таблиц с помощью CONVERT TO DELTA.

Дополнительные сведения см. в полных заметках о выпуске Databricks Runtime 6.6 (EoS ).

Предельный размер конечной точки удаления REST API DBFS

21–28 мая 2020 г., версия 3.20

При удалении большого количества файлов рекурсивно с помощью API DBFS операция удаления выполняется постепенно. Примерно через 45 с вызов возвращает ответ с сообщением об ошибке, в котором предлагается повторно вызывать операцию удаления, пока структура каталога не будет полностью удалена. Например:

{
  "error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}

Простой просмотр большого количества зарегистрированных моделей MLflow

21–28 мая 2020 г., версия 3.20

Реестр моделей MLflow теперь поддерживает поиск и разбиение на страницы зарегистрированных моделей на стороне сервера, что позволяет организациям с большим числом моделей эффективно выполнять вывод списков и поиск. Как и раньше, можно искать модели по имени и получать результаты, упорядоченные по имени или времени последнего обновления. Однако при наличии большого числа моделей страницы будут загружаться гораздо быстрее, а при поиске будет отображаться самое актуальное представление моделей.

Библиотеки, настроенные для установки во всех кластерах, не установлены в кластерах с Databricks Runtime 7.0 и более поздних версий

21–28 мая 2020 г., версия 3.20

В Databricks Runtime 7.0 и выше базовая версия Apache Spark использует Scala 2.12. Поскольку библиотеки, скомпилированные для Scala 2.11, могут внезапно отключать кластеры Databricks Runtime 7.0, кластеры, работающие с Databricks Runtime 7.0 и выше, не устанавливают библиотеки, настроенные для установки на всех кластерах. На вкладке Библиотеки кластера отображается состояние Skipped и сообщение об устаревании, в котором объясняются изменения в обработке библиотеки.

При наличии кластера, созданного в более ранней версии Databricks Runtime, до выпуска версии 3.20 для вашей рабочей области, теперь можно изменить этот кластер для использования Databricks Runtime 7.0. Все библиотеки, которые были настроены для установки во всех кластерах, будут установлены в этом кластере. В этом случае любой несовместимый JAR-файл в установленных библиотеках может привести к отключению кластера. Для решения этой проблемы кластер можно клонировать или создать новый.

Databricks Runtime 7.0 для Genomics (бета-версия)

21 мая 2020 г.

Компонент Databricks Runtime 7.0 для Genomics создан на основе Databricks Runtime 7.0 и включает следующие изменения библиотеки:

  • Библиотека ADAM обновлена с версии 0.30.0 до 0.32.0.
  • Библиотека Hail отсутствует в Databricks Runtime 7.0 для Genomics, так как у нее не было выпуска на основе Apache Spark 3.0.

Databricks Runtime 7.0 ML (бета-версия)

21 мая 2020 г.

Компонент Databricks Runtime 7.0 ML создан на основе Databricks Runtime 7.0 и включает следующие новые функции:

  • Библиотеки Python с областью действия записной книжки и пользовательские среды, управляемые командами conda и pip.
  • Обновления для основных пакетов Python, включая tensorflow, tensorboard, pytorch, xgboost, sparkdl и hyperopt.
  • Недавно добавленные пакеты Python lightgbm, nltk, petastorm и plotly.
  • RStudio Server 1.2 (выпуск с открытым кодом).

Дополнительные сведения см. в полных заметках о выпуске Databricks Runtime 7.0 ML (EoS).

Общедоступная версия Databricks Runtime 6.6 for Genomics (бета-версия)

7 мая 2020 г.

Компонент Databricks Runtime 6.6 для Genomics создан на основе Databricks Runtime 6.6 и включает следующие новые функции:

  • Средство чтения файлов GFF3
  • поддержка пользовательского эталонного генома;
  • Время ожидания конвейера для каждого образца
  • возможность экспорта в формат BAM;
  • BLOB-объекты манифеста.

Databricks Runtime 6.6 ML (бета-версия)

7 мая 2020 г.

Компонент Databricks Runtime 6.6 ML создан на основе Databricks Runtime 6.6 и включает следующие новые функции:

  • Обновление mlflow с версии 1.7.0 до 1.8.0.

Дополнительные сведения см. в полных заметках о выпуске Databricks Runtime 6.6 ML (EoS).

Databricks Runtime 6.6 (бета-версия)

7 мая 2020 г.

В Databricks Runtime 6.6 (бета-версия) реализовано множество обновлений библиотек и новых функций, включая следующие функции Delta Lake:

  • Теперь схему таблицы можно автоматически изменять с помощью операции merge. Это полезно в тех случаях, когда в таблице нужно выполнить операцию upsert с измененными данными, а схема данных меняется с течением времени. Вместо того чтобы обнаруживать и применять изменения схемы перед операцией upsert, merge может одновременно изменять схему и выполнять с изменениями операцию upsert. См. статью "Автоматическая эволюция схемы" для слияния Delta Lake.
  • Повышена производительность операций слияния, содержащих только совпадающие предложения, то есть только действия update и delete, но не действия insert.
  • Таблицы Parquet, на которые имеются ссылки в хранилище метаданных Hive, теперь могут преобразоваться в Delta Lake через идентификаторы таблиц с помощью CONVERT TO DELTA.

Дополнительные сведения см. в полных заметках о выпуске Databricks Runtime 6.6 (EoS ).

Кластеры заданий теперь помечены тегом с именем задания и идентификатором

5–12 мая 2020 г., версия 3.19

К кластерам заданий автоматически добавляются теги имени и идентификатора задания. Эти теги отображаются в отчетах о платном использовании, позволяя легко сопоставлять использование DBU с заданиями и выявлять аномалии. Теги обрабатываются в соответствии со спецификациями тегов кластера, такими как допустимые символы, максимальный размер и максимальное количество тегов. Имя задания содержится в теге RunName, а идентификатор задания — в теге JobId.

Восстановление удаленных ячеек записной книжки

5–12 мая 2020 г., версия 3.19

Теперь можно восстановить удаленные ячейки, нажав сочетание клавиш (Z) или выбрав Правка > Undo Delete Cells (Отменить удаление ячеек).

Предел очереди для ожидающих заданий

5–12 мая 2020 г., версия 3.19

Теперь рабочая область может содержать не более 1000 активных (запущенных и ожидающих выполнения) заданий. Так как в рабочей области может быть не более 150 одновременных (текущих) выполнений заданий, она может содержать до 850 выполнений в очереди ожидания.