Поделиться через


февраль 2019 г.

Эти функции и улучшения платформы Azure Databricks были выпущены в феврале 2019 г.

Примечание.

Выпуски являются поэтапными. На обновление вашей учетной записи Azure Databricks может потребоваться до одной недели с даты выпуска.

Общедоступная версия Databricks Light

26 февраля — 5 марта 2019 г., версия 2.92

Теперь доступен Databricks Light (также известный как Data Engineering Light). Databricks Light — это упаковка Azure Databricks для среды выполнения Apache Spark с открытым кодом. Она дает возможность выполнять задания, которым не требуется большая производительность, надежность и автоматическое масштабирование, предоставляемые Databricks Runtime. Вы можете select Databricks Light только при создании кластера для запуска задания JAR, Python или spark-отправки; Эту среду выполнения нельзя select для кластеров, в которых выполняются интерактивные или записные книжки. См. Databricks Light.

Управляемая служба MLflow в Azure Databricks (общедоступная предварительная версия)

26 февраля — 5 марта 2019 г., версия 2.92

Платформа MLflow с открытым кодом предназначена для управления жизненным циклом машинного обучения на всем его протяжении. Она работает с тремя основными функциями:

  • Отслеживание экспериментов для фикcирования и сравнения parameters и результатов.
  • позволяет управлять моделями и развертывать их из разных библиотек машинного обучения на разных платформах предоставления и вывода моделей;
  • позволяет сохранять код машинного обучения в воспроизводимый и повторно используемый формат, в котором его можно передавать другим специалистам по обработке данных или в рабочую среду.

Теперь Azure Databricks предоставляет полностью управляемую и размещенную версию MLflow, в которую интегрированы функции безопасности предприятия, высокой доступности и другие возможности рабочей области Azure Databricks, например управление экспериментами, управление запуском и запись исправлений в записной книжке. MLflow на Azure Databricks предлагает интегрированный интерфейс для отслеживания и защиты запусков обучения модели машинного обучения и выполнения проектов машинного обучения. Используя управляемый MLflow в Azure Databricks, вы get преимущества обеих платформ, в том числе:

  • Рабочие области: совместно отслеживайте и упорядочивайте эксперименты и результаты в рабочих областях Azure Databricks с размещенным сервером отслеживания MLflow и встроенным пользовательским интерфейсом эксперимента. При использовании MLflow в записных книжках, Azure Databricks автоматически записывает редакции записной книжки, чтобы можно было воспроизвести тот же код и запустить их позже.
  • Безопасность: воспользуйтесь одной из распространенных моделей безопасности для всего жизненного цикла машинного обучения через списки управления доступом.
  • Задания: запускайте проекты MLflow как задания Azure Databricks удаленно и напрямую из записных книжек Azure Databricks.

Ниже приведена демонстрация рабочего процесса отслеживания в рабочей области Azure Databricks.

Отслеживание запусков и организация рабочего процесса эксперимента

Дополнительные сведения см. в разделе Отслеживание разработки моделей с помощью MLflow.

Общедоступная версия соединителя Azure Data Lake Storage 2-го поколения

15 февраля 2019 г.

Azure Data Lake Storage 2-го поколения (ADLS 2-го поколения), решение Data Lake для анализа больших данных нового поколения, теперь является общедоступным, как и соединитель ADLS 2-го поколения для Azure Databricks. Мы также рады сообщить о том, что ADLS 2-го поколения поддерживает Databricks Delta при работе с кластерами на Databricks Runtime 5.2 и более поздних версиях.

Выбор Python 3 по умолчанию при создании кластеров

12-19 февраля 2019 г: версия 2.91

Версия Python по умолчанию для кластеров, созданных с помощью пользовательского интерфейса, перешла с Python 2 на Python 3. По умолчанию для кластеров, созданных с помощью REST API, по-прежнему используется Python 2.

Существующие кластеры не будут изменять версии Python. Но если вы уже привыкли создавать новые кластеры с помощью Python 2 по умолчанию, необходимо начать обращать внимание на выбор версии Python.

Версия Python по умолчанию

Общедоступная версия Delta Lake

1 февраля 2019 г.

Теперь все могут get преимущества мощного уровня хранилища транзакций Databricks Delta и супер-быстрых операций чтения: по состоянию на 1 февраля Delta Lake является общедоступной и доступной во всех поддерживаемых версиях Databricks Runtime. Дополнительные сведения о Delta см. в статье Сведения о Delta Lake.