Сентябрь 2020 г.
Эти функции и улучшения платформы Azure Databricks были выпущены в сентябре 2020 г.
Примечание.
Выпуски являются поэтапными. На обновление вашей учетной записи Azure Databricks может потребоваться до одной недели с даты выпуска.
Databricks Runtime версий 7.3, 7.3 ML и 7.3 Genomics теперь предоставляется в общей доступной версии
24 сентября 2020 г.
Databricks Runtime 7.3, Databricks Runtime 7.3 для машинного обучения и Databricks Runtime 7.3 для Genomics теперь стали общедоступными. Они включают множество функций и усовершенствований, в том числе:
- Оптимизация производительности Delta Lake значительно сокращает затраты
- Метрики клонирования
- Усовершенствования
MERGE INTO
в Delta Lake - Выбор начального положения для структурированной потоковой передачи Delta Lake
- Усовершенствования автозагрузчика
- Адаптивное выполнение запроса
- Механизм управления длиной столбцов соединителя Azure Synapse Analytics
- Улучшенное поведение
dbutils.credentials.showRoles
- Упрощенное преобразование pandas в Spark
- Новый параметр
maxResultSize
в вызовеtoPandas()
- Возможность отладки пользовательских функций pandas и PySpark
- (Только ML) Активация Conda в рабочих ролях
- (Только Genomics) Поддержка чтения файлов BGEN с помощью генотипов без сжатия или сжатых генотипов zstd
- Обновления библиотек
Дополнительные сведения см. в разделе Databricks Runtime 7.3 LTS (EoS) и Databricks Runtime 7.3 LTS для Машинное обучение (EoS).
Кластеры с одним узлом (общедоступная предварительная версия)
23-29 сентября 2020 г.: версия 3.29
Кластер с одним узлом — это кластер, состоящий из драйвера Spark и не содержащий рабочих ролей Spark. Кластерам в стандартном режиме, напротив, требуется по меньшей мере одна рабочую роль Spark для выполнения заданий Spark. Кластеры с одним узлом удобны в следующих ситуациях:
- Выполнение рабочих нагрузок машинного обучения с одним узлом, требующих загрузки и сохранения данных в Spark
- Упрощенный разведочный анализ данных (EDA)
Дополнительные сведения см. в разделе вычислений с одним узлом или несколькими узлами.
Ограничение частоты вызовов REST API для DBFS
23-29 сентября 2020 г.: версия 3.29
Для поддержания высокого качества обслуживания при высокой нагрузке в Azure Databricks теперь применяются ограничения скорости для всех вызовов DBFS API. Ограничения задаются для рабочей области, чтобы обеспечить справедливое использование ресурсов и высокую доступность. Автоматические повторные попытки доступны с помощью Databricks CLI 0.12.0 или более поздней версии. Мы рекомендуем всем клиентам перейти на последнюю версию Databricks CLI.
Новые значки на боковой панели
23-29 сентября 2020 г.
Мы обновили боковую панель в пользовательском интерфейсе рабочей области Azure Databricks. Ничего критически важного, но нам кажется, что новые значки выглядят неплохо.
Увеличение предела выполняющихся заданий
23-29 сентября 2020 г.: версия 3.29
Число параллельно выполняемых заданий увеличилось с 150 до 1000 на каждую рабочую область. Теперь в состоянии ожидания в очередь не будет добавляться более 150 заданий. Вместо очереди запросов на выполнение свыше указанного числа параллельных выполнений возвращается отклик 429 Too Many Requests
при запросе выполнения, который нельзя запустить немедленно. Такое увеличение лимита вводилось постепенно и теперь доступно во всех рабочих областях во всех регионах.
Реализация артефактов для списков управления доступом (ACL) в MLflow
23-29 сентября 2020 г.: версия 3.29
Разрешения эксперимента MLflow теперь применяются к артефактам в отслеживании MLflow, что позволяет легко управлять доступом к наборам данных, моделям и другим файлам. По умолчанию при создании нового эксперимента его артефакты запуска теперь хранятся в расположении, управляемом MLflow. Четыре уровня разрешений эксперимента MLflow (НЕТ РАЗРЕШЕНИЙ, CAN READ, CAN EDIT и CAN MANAGE) автоматически применяются к запускам артефактов, хранящихся в управляемых MLflow расположениях следующим образом:
- Разрешения CAN EDIT или CAN MANAGE необходимы для регистрации артефактов выполнения эксперимента.
- Разрешения CAN READ необходимы для перечисления и скачивания артефактов запуска из эксперимента.
Дополнительные сведения см. в статье списки ACL эксперимента MLflow.
Повышение удобства использования MLflow
23-29 сентября 2020 г.: версия 3.29
В этот выпуск входят следующие усовершенствования в целях удобства использования MLflow для развертывания:
- Страницы MLflow Эксперимент и Зарегистрированные модели теперь содержат подсказки, которые помогут новым пользователям начать работу.
- В таблице версий модели теперь отображается текст описания для версии модели. В новом столбце показаны первые 32 символа или первая строка описания (в зависимости от того, что короче).
Новый соединитель Power BI для Azure Databricks (общедоступная предварительная версия)
22 сентября 2020 г.
Power BI Desktop версии 2.85.681.0 включает новый соединитель Power BI для Azure Databricks, обеспечивающий гораздо более качественную и надежную интеграцию между Azure Databricks и Power BI. В новом соединителе реализованы следующие изменения:
- Простая конфигурация подключения — новый соединитель Azure Databricks Power BI интегрирован в Power BI. Его можно настроить с помощью простого диалогового окна, выполнив несколько действий.
- Проверка подлинности на основе учетных данных идентификатора Microsoft Entra — больше не требуется администраторам для настройки маркеров PAT.
- Ускоренный импорт и оптимизированные вызовы метаданных благодаря новому драйверу ODBC Azure Databricks, который обеспечивает значительное повышение производительности.
- Доступ к данным Azure Databricks с помощью Power BI учитывает управление доступом к таблицам Azure Databricks и разрешения учетной записи хранения Azure, связанные с удостоверением идентификатора Microsoft Entra.
Дополнительные сведения см. в статье "Подключение Power BI к Azure Databricks".
Использование ключей, управляемых клиентом, для корневой папки DBFS (общедоступная предварительная версия)
15 сентября 2020 г.
Теперь можно использовать собственный ключ шифрования в Azure Key Vault для шифрования учетной записи хранения DBFS. Ознакомьтесь с ключами, управляемыми клиентом, для корневого каталога DBFS.
Новые драйверы JDBC и ODBC, позволяющие ускорить выполнение и уменьшить задержку операций бизнес-аналитики
15 сентября 2020 г.
Мы выпустили новые версии драйверов JDBC и ODBC (загрузить) со следующими улучшениями.
- Производительность: ускоренное подключение и уменьшенная задержка при обработке запросов, повышенная скорость передачи результатов на основе сериализации Apache Arrow и повышенная производительность при получении метаданных.
- Взаимодействие с пользователем. Проверка подлинности с помощью маркеров доступа Идентификатора Microsoft Entra ID OAuth2, улучшенные сообщения об ошибках и автоматическое повторение при подключении к кластеру завершения работы, более надежная обработка повторных попыток при периодических ошибках сети.
- Поддержка подключений с использованием HTTP-прокси.
Дополнительные сведения о подключении к средствам бизнес-аналитики с помощью JDBC и ODBC см. в статье Databricks ODBC и JDBC Driver.
Обслуживание моделей MLflow (общедоступная предварительная версия)
9-15 сентября 2020 г.: версия 3.28
Обслуживание моделей MLflow теперь доступно в общедоступной предварительной версии. Обслуживание моделей MLflow позволяет развернуть модель MLflow, зарегистрированную в реестре моделей как конечная точка REST API, которая размещается и управляется Azure Databricks. При включении обслуживания моделей для зарегистрированной модели Azure Databricks создает кластер и развертывает все неархивированные версии этой модели.
Вы можете запросить все версии модели с помощью стандартных запросов REST API с проверкой подлинности Azure Databricks. Права доступа к модели наследуются из реестра моделей — любой пользователь с правами на чтение для зарегистрированной модели может запросить любую из развернутых версий модели. Пока эта служба доступна как предварительная версия, мы рекомендуем использовать ее при низкой пропускной способности для некритических приложений.
Дополнительные сведения см. в статье "Устаревшая модель MLflow" в Azure Databricks.
Улучшения пользовательского интерфейса кластеров
9-15 сентября 2020 г.: версия 3.28
Страница «Кластеры» теперь содержит отдельные вкладки для Универсальные кластеры и Кластеры задания. Список на каждой вкладке теперь разбивается на страницы. Кроме того, устранена задержка, которая иногда возникала после создания кластера и перед тем, как его можно просмотреть в пользовательском интерфейсе.
Элементы управления для визуального контроля заданий, кластеров, записных книжек и других объектов рабочей области
9-15 сентября 2020 г.: версия 3.28
По умолчанию все пользователи могут видеть все задания, кластеры, записные книжки и папки в рабочей области, отображаемые в пользовательском интерфейсе Azure Databricks, и может перечислить их с помощью API Databricks, даже если для этих объектов включен контроль доступа, а у пользователя нет разрешений для этих объектов.
Теперь все администраторы Azure Databricks могут включить управление видимостью для записных книжек и папок (объекты рабочей области), кластеров и заданий, чтобы убедиться в том, что пользователи могут просматривать только те объекты, для которых им был предоставлен доступ посредством рабочей области, кластера или задания.
См. статью Списки элементов управления доступом больше не могут быть отключены.
Возможность создания токенов больше не разрешена по умолчанию
9-15 сентября 2020 г.: версия 3.28
Для рабочих областей, созданных после выхода платформы Azure Databricks версии 3.28 пользователи больше не смогут по умолчанию создавать личные маркеры доступа. Администраторы должны явно предоставлять эти разрешения как для всей группы users
, так и для отдельных пользователей или групп. Рабочие области, созданные до выпуска 3.28, будут поддерживать уже имеющиеся разрешения.
См. статью "Мониторинг и отзыв личных маркеров доступа".
Поддержка в MLflow Model Registry использования моделей в нескольких рабочих областях
9 сентября 2020 г.
Azure Databricks теперь поддерживает доступ к реестру моделей из нескольких рабочих областей. Теперь можно регистрировать модели, контролировать их выполнение и загружать их в различные рабочие области. Теперь несколько команд могут совместно использовать модели, а организации могут использовать несколько рабочих областей для работы на разных этапах разработки. Дополнительные сведения см. в разделе Совместное использование моделей в рабочих областях.
Для этой функции требуется клиент MLflow Python версии 1.11.0 или выше.
Databricks Runtime 7.3 (бета-версия)
3 сентября 2020 г.
Databricks Runtime 7.3, Databricks Runtime 7.3 для машинного обучения и Databricks Runtime 7.3 для Genomics теперь доступны как бета-версии.
Дополнительные сведения см. в разделе Databricks Runtime 7.3 LTS (EoS) и Databricks Runtime 7.3 LTS для Машинное обучение (EoS).
Изменение имен типов рабочих нагрузок Azure Databricks
1 сентября 2020 г.
Имена типов рабочих нагрузок, используемых в кластерах, были изменены.
- Инжиниринг данных — > вычисление заданий
- Инжиниринг данных Light —> вычисление заданий Light
- Аналитика данных — > универсальные вычисления
Эти новые имена будут отображаться в счетах и на портале EA вместе с тарифным планом (например, «Premium — Jobs Compute — DBU»). Дополнительные сведения см. в разделе Счетчики Azure Databricks.
Пользовательский интерфейс также изменился в версии платформы 3.27 (планируется поэтапный выпуск в период с 25 августа по 3 сентября):
На странице «Кластеры» изменились заголовки списка.
- Интерактивные кластеры — > универсальные кластеры
- Автоматизированные кластеры — > кластеры заданий
При настройке кластера для заданияизменились параметры типа кластера.
- Новый автоматизированный кластер —> новый кластер задания
- Существующий интерактивный кластер — > существующий универсальный кластер