Май-2018
Выпуски являются поэтапными. На обновление вашей учетной записи Azure Databricks может потребоваться до одной недели с даты выпуска.
Общий регламент по защите данных (GDPR)
24 мая 2018 г.: версия 2,72
Чтобы обеспечить соответствовать требованиям Общего регламента по защите данных (GDPR) ЕС, который вступил в силу 25 мая 2018 г., мы внесли ряд изменений в платформу Azure Databricks, чтобы предоставить вам больший контроль над хранением данных на уровне учетной записи и пользователя. Обновления включают следующее:
- Удаление кластера — окончательное удаление конфигурации кластера с помощью пользовательского интерфейса или API кластеров. См. раздел "Удаление вычислительных ресурсов".
- Очистка рабочей области (выпущено в версии 2.71) — окончательное удаление объектов рабочей области, таких как целые записные книжки, отдельные ячейки записной книжки, отдельные комментарии записной книжки и история изменений записной книжки. См. раздел "Очистка хранилища рабочей области".
- Очистка журнала редакций записной книжки:
- Необратимое удаление истории изменений всех записных книжек в рабочей области за определенный период времени. См. раздел "Очистка хранилища рабочей области".
- Необратимое удаление одной версии записной книжки или всей истории изменений записной книжки. См. журнал версий в тетрадях.
Сведения об удалении службы Azure Databricks или отмене учетной записи Azure см. в статье Управление подпиской.
Пользователи Azure Databricks должны принадлежать клиенту Идентификатора Microsoft Entra
24 мая 2018 г.: версия 2,72
Теперь пользователи могут войти в Azure Databricks, только если они принадлежат клиенту Microsoft Entra ID (ранее Azure Active Directory) рабочей области Azure Databricks. Если у вас есть пользователи, которые не принадлежат клиенту идентификатора Microsoft Entra ID, их можно добавить как стандартных или гостевых пользователей.
HorovodEstimator
29 мая 2018 г.: версия 2.72
Добавлена документация и записная книжка для HorovodEstimator, API оценки в стиле MLlib, который использует платформу Horovod от Uber. Это средство упрощает задачу распределенного обучения глубоких нейронных сетей в кадрах данных Spark с использованием нескольких GPU. Оно также помогает интегрировать ETL в Spark с обучением модели в TensorFlow.
MLeap ML Model Export (Экспорт модели Машинного обучения MLeap)
24 мая 2018 г.: версия 2,72
Добавлена документация и записные книжки для использования MLeap в Azure Databricks. MLeap позволяет развертывать конвейеры машинного обучения из Apache Spark и scikit-learn в переносимый формат и механизм выполнения. Дополнительные сведения см. в статье Экспорт модели машинного обучения MLeap.
Дополнительные типы кластеров GPU
24 мая 2018 г.: версия 2,72
В дополнение к типам экземпляров Azure NC (NC12 и NC24), добавленным в выпуске 2.71, теперь поддерживается серия типов экземпляров NCv3 (NC6s_v3, NC12s_v3 и NC24s_v3) в кластерах Azure Databricks. Экземпляры NC и NCv3 предоставляют GPU для обработки изображений, анализа текста и других задач машинного и глубокого обучения, которые требуют вычислительных ресурсов и высочайшей производительности.
См. сведения о вычислительных ресурсах с поддержкой GPU.
Ячейки записной книжки: скрытие и отображение
24 мая 2018 г.: версия 2,72
Новые индикаторы и обмен сообщениями упрощают отображение содержимого ячеек записной книжки после того, как они были скрыты. Дополнительные сведения см. в разделе Скрытие и отображение содержимого ячейки.
Поиск по сайту документации
22 мая 2018 г.
Мы заменили наш поиск по сайту с документами более совершенным инструментом поиска. В ближайшие недели вы увидите еще больше улучшений поиска.
Примечание.
Может показаться, что поиск не работает, если вы попробуете выполнить его вскоре после развертывания новой функции поиска. Просто очистите кэш браузера, чтобы увидеть новый интерфейс поиска.
Databricks Runtime 4.1 ML для Машинного обучения (бета-версия)
17 мая 2018 г.
Databricks Runtime ML (бета-версия) предоставляет готовую среду для машинного обучения, обработки и анализа данных. Она содержит много популярных библиотек, включая TensorFlow, Keras и XGBoost.
Databricks Runtime ML позволяет запускать кластер Databricks со всеми библиотеками, необходимыми для распределенного обучения TensorFlow. Это обеспечивает совместимость библиотек, включенных в кластер (между TensorFlow и CUDA/cuDNN, например), и существенно сокращает время запуска кластера по сравнению с использованием скриптов инициализации.
Примечание.
Databricks Runtime 4 1 ML предоставляется только в SKU Premium.
См. полные заметки о выпуске Databricks Runtime 4.1 ML (EoS).
Databricks Delta
17 мая 2018 г.
Databricks Delta теперь предоставляется в закрытой предварительной версии для пользователей Azure Databricks. Обратитесь к своему менеджеру по работе с клиентами или зарегистрируйтесь по адресу https://databricks.com/product/databricks-delta. Этот выпуск представляет собой выпуск-кандидат в ожидании предстоящего общедоступного выпуска.
Дополнительные сведения см. в разделе Databricks Runtime 4.1 (EoS) и Что такое Delta Lake?.
Поддержка Display() для типов данных изображений
17 мая 2018 г.
В Databricks Runtime 4.1 display()
теперь отображает columns, содержащую типы данных изображений в виде полнофункционированного HTML.
Просмотр визуализаций в записных книжках Databricks.
Типы кластеров GPU
15 мая 2018 г.: версия 2.71
Мы рады объявить о включении поддержки типов экземпляров Azure NC (NC12 и NC24) в кластерах Azure Databricks. Экземпляры NC и предоставляют GPU для обработки изображений, анализа текста и других задач машинного и глубокого обучения, которые требуют вычислительных ресурсов и высочайшей производительности.
Azure Databricks также предоставляет предустановленные драйверы и библиотеки NVIDIA, настроенные для GPU, а также материалы для начала работы с несколькими популярными библиотеками глубокого обучения.
См. также:
Общедоступная версия управления секретами
15 мая 2018 г.: версия 2.71
Управление секретами, которое было в закрытой предварительной версии, теперь стало общедоступным. Это предоставляет мощные средства для управления credentials, необходимых для аутентификации во внешних источниках данных. Вместо ввода credentials непосредственно в записную книжку используйте управление секретами Databricks для хранения и ссылки на credentials в записных книжках и заданиях. Для управления секретами можно использовать интерфейс командной строки секретов (устаревшую версию) для доступа к API секретов.
Примечание.
Для управления секретами требуется Databricks Runtime 4.0 или более поздней версии и Databricks CLI 0.7.1 или более поздней версии.
Дополнительные сведения см. в разделе Управление секретами.
Изменения в конечной точке API секретов и командах CLI
15 мая 2018 г.: версия 2.71
В конечные точки API секретов были внесены следующие изменения:
- Для всех конечных точек корневой путь был изменен с
/secret
на/secrets
. - Для конечной точки секретов выполнено свертывание
/secret/secrets
в/secrets/
. -
write
Метод был изменен наput
.
Databricks CLI 0.7.1 включает обновления команд секретов для согласования с этими обновленными конечными точками API.
См . api секретов и управление секретами.
Закрепление кластера
15 мая 2018 г.: версия 2.71
Теперь кластер можно закрепить в кластерах list. Это позволяет сохранить конфигурацию кластеров, остановленных более 30 дней назад.
Кроме того, на странице кластеров теперь отображаются все кластеры, которые были остановлены в течение 30 дней (увеличено с 7 дней).
См. раздел "Закрепление вычислительных ресурсов".
Автоматический запуск кластера
15 мая 2018 г.: версия 2.71
До этого выпуска задания, запланированные для запуска в кластерах Terminated
, завершались со сбоем. Для кластеров, созданных в Azure Databricks версии 2.71 и выше, команды из интерфейса JDBC/ODBC или запуск задания, назначенный существующему прекращенному кластеру, автоматически перезапускает этот кластер. Ознакомьтесь с разделом JDBC Connect and Configure and edit Databricks Jobs.
Автозапуск позволяет настраивать кластеры для автоматического завершения работы, благодаря чему не требуется вручную перезапускать кластеры для запланированных заданий. Кроме того, вы можете запланировать инициализацию кластера, запланировав задание, которое перезапускает прерванные кластеры в указанное время.
Применяется контроль доступа к кластеру, а разрешения владельца задания проверяются, как обычно.
Очистка рабочей области
15 мая 2018 г.: версия 2.71
В рамках наших постоянных усилий по соблюдению Общего регламента по защите данных (GDPR) ЕС мы добавили возможность очищать объекты рабочей области, такие как целые записные книжки, отдельные ячейки записной книжки, отдельные комментарии записной книжки и историю изменений записной книжки. В ближайшие недели мы выпустим дополнительные функции и документацию для поддержки соответствия GDPR.
См. раздел "Очистка хранилища рабочей области".
Databricks CLI 0.7.1
10 мая 2018 г.
Databricks CLI 0.7.1 включает обновления команд секретов для согласования с обновленными конечными точками API.
См . статью Databricks CLI (устаревшая версия) и управление секретами.