февраль 2019 г.
Эти функции и улучшения платформы Azure Databricks были выпущены в феврале 2019 г.
Примечание.
Выпуски являются поэтапными. На обновление вашей учетной записи Azure Databricks может потребоваться до одной недели с даты выпуска.
Общедоступная версия Databricks Light
26 февраля — 5 марта 2019 г., версия 2.92
Теперь доступен Databricks Light (также известный как Data Engineering Light). Databricks Light — это упаковка Azure Databricks для среды выполнения Apache Spark с открытым кодом. Она дает возможность выполнять задания, которым не требуется большая производительность, надежность и автоматическое масштабирование, предоставляемые Databricks Runtime. Вы можете select Databricks Light только при создании кластера для запуска задания JAR, Python или spark-отправки; Эту среду выполнения нельзя select для кластеров, в которых выполняются интерактивные или записные книжки. См. Databricks Light.
Управляемая служба MLflow в Azure Databricks (общедоступная предварительная версия)
26 февраля — 5 марта 2019 г., версия 2.92
Платформа MLflow с открытым кодом предназначена для управления жизненным циклом машинного обучения на всем его протяжении. Она работает с тремя основными функциями:
- Отслеживание экспериментов для фикcирования и сравнения parameters и результатов.
- позволяет управлять моделями и развертывать их из разных библиотек машинного обучения на разных платформах предоставления и вывода моделей;
- позволяет сохранять код машинного обучения в воспроизводимый и повторно используемый формат, в котором его можно передавать другим специалистам по обработке данных или в рабочую среду.
Теперь Azure Databricks предоставляет полностью управляемую и размещенную версию MLflow, в которую интегрированы функции безопасности предприятия, высокой доступности и другие возможности рабочей области Azure Databricks, например управление экспериментами, управление запуском и запись исправлений в записной книжке. MLflow на Azure Databricks предлагает интегрированный интерфейс для отслеживания и защиты запусков обучения модели машинного обучения и выполнения проектов машинного обучения. Используя управляемый MLflow в Azure Databricks, вы get преимущества обеих платформ, в том числе:
- Рабочие области: совместно отслеживайте и упорядочивайте эксперименты и результаты в рабочих областях Azure Databricks с размещенным сервером отслеживания MLflow и встроенным пользовательским интерфейсом эксперимента. При использовании MLflow в записных книжках, Azure Databricks автоматически записывает редакции записной книжки, чтобы можно было воспроизвести тот же код и запустить их позже.
- Безопасность: воспользуйтесь одной из распространенных моделей безопасности для всего жизненного цикла машинного обучения через списки управления доступом.
- Задания: запускайте проекты MLflow как задания Azure Databricks удаленно и напрямую из записных книжек Azure Databricks.
Ниже приведена демонстрация рабочего процесса отслеживания в рабочей области Azure Databricks.
Дополнительные сведения см. в разделе Отслеживание разработки моделей с помощью MLflow.
Общедоступная версия соединителя Azure Data Lake Storage 2-го поколения
15 февраля 2019 г.
Azure Data Lake Storage 2-го поколения (ADLS 2-го поколения), решение Data Lake для анализа больших данных нового поколения, теперь является общедоступным, как и соединитель ADLS 2-го поколения для Azure Databricks. Мы также рады сообщить о том, что ADLS 2-го поколения поддерживает Databricks Delta при работе с кластерами на Databricks Runtime 5.2 и более поздних версиях.
Выбор Python 3 по умолчанию при создании кластеров
12-19 февраля 2019 г: версия 2.91
Версия Python по умолчанию для кластеров, созданных с помощью пользовательского интерфейса, перешла с Python 2 на Python 3. По умолчанию для кластеров, созданных с помощью REST API, по-прежнему используется Python 2.
Существующие кластеры не будут изменять версии Python. Но если вы уже привыкли создавать новые кластеры с помощью Python 2 по умолчанию, необходимо начать обращать внимание на выбор версии Python.
Общедоступная версия Delta Lake
1 февраля 2019 г.
Теперь все могут get преимущества мощного уровня хранилища транзакций Databricks Delta и супер-быстрых операций чтения: по состоянию на 1 февраля Delta Lake является общедоступной и доступной во всех поддерживаемых версиях Databricks Runtime. Дополнительные сведения о Delta см. в статье Сведения о Delta Lake.