Поделиться через


Апрель 2019 г.

Эти функции и доработки платформы Azure Databricks были выпущены в апреле 2019 г.

Примечание.

Выпуски являются поэтапными. На обновление вашей учетной записи Azure Databricks может потребоваться до одной недели с даты выпуска.

MLflow в Azure Databricks (общедоступная версия)

25 апреля 2019 г.

Выпущена общедоступная версия управляемой MLflow для Azure Databricks. MLflow на Azure Databricks предлагает размещенную версию MLflow, полностью интегрированную с моделью безопасности Databricks и интерактивной рабочей областью. См. MLflow для агента генеративного ИИ и жизненного цикла модели машинного обучения.

Delta Lake в Azure Databricks

24 апреля 2019 г.

В Databricks имеется проект Delta Lake с открытым кодом. Delta Lake — это уровень хранения, который обеспечивает надежность озер данных, построенных на HDFS и облачных хранилищах, за счет обеспечения транзакций ACID посредством оптимистичного управления параллелизмом между операциями записи и изоляции моментальных снимков для согласованного чтения во время записи. Delta Lake также обеспечивает встроенное управление версиями данных для простого отката и воспроизведения отчетов.

Примечание.

То, что ранее называлось Databricks Delta, теперь является проектом с открытым кодом Delta Lake, также в Azure Databricks доступна оптимизация. См. статью Сведения о Delta Lake.

Боковая панель в MLflow

9—16 апреля 2019 г.: версия 2.95

Теперь можно просматривать запуски MLflow и версии записной книжки, в которых создавались эти запуски, на боковой панели рядом с записной книжкой. На правой боковой панели записной книжки щелкните Experiment iconзначок "Эксперимент".

См. раздел Создание эксперимента записной книжки.

Автоматический доступ к Azure Data Lake Storage 1-го поколения и 2-го поколения с помощью учетных данных идентификатора Microsoft Entra (GA)

9—16 апреля 2019 г.: версия 2.95

Мы рады сообщить о общедоступной доступности автоматической проверки подлинности в Azure Data Lake Storage 1-го поколения и 2-го поколения из кластеров Azure Databricks с использованием того же идентификатора Microsoft Entra ID, который вы используете для входа в Azure Databricks.

Просто включите кластер для пропуска учетных данных Microsoft Entra ID, и команды, которые вы выполняете в этом кластере, смогут считывать и записывать ваши данные в хранилище Azure Data Lake Storage первого и второго поколений без необходимости настройки учетных данных сервисного принципала для доступа к хранилищу.

Дополнительные сведения см. в статье Access Azure Data Lake Storage с помощью сквозного руководства учетных данных идентификатора Microsoft Entra (устаревшая версия).

Databricks Runtime 5.3 (общедоступная версия)

3 апреля 2019 г.

Выпущена общедоступная версия Databricks Runtime 5.3. Databricks Runtime 5.3 включает новые функции и обновления Delta Lake, а также обновленные библиотеки Python, R, Java и Scala.

К основным обновлениям относится следующее:

  • Общая доступность с переходом по времени в Databricks Delta
  • Репликация таблиц MySQL в Delta, Public Preview
  • Оптимизирована папка DBFS FUSE для рабочих нагрузок глубокого обучения
  • Улучшения библиотеки для записных книжек
  • Новые указания Помощника по Azure

Дополнительные сведения см. в разделе Databricks Runtime 5.3 (EoS).

Databricks Runtime 5.3 ML (общедоступная версия)

3 апреля 2019 г.

Благодаря Databricks Runtime 5.3 для Машинного обучения мы создали нашу первую общедоступную версию Databricks Runtime ML! Databricks Runtime ML предоставляет готовую среду для Машинного обучения и обработки и анализа данных. Она основана на Databricks Runtime и добавлено множество популярных библиотек Машинного обучения, включая TensorFlow, PyTorch, Keras и XGBoost. Оно также поддерживает распределенное обучение с использованием Horovod.

Эта версия основана на Databricks Runtime 5.3 с дополнительными библиотеками, некоторыми другими версиями библиотек и управлением пакетами Conda для библиотек Python. Основные новые функции, начиная с бета-версии Databricks Runtime 5.2 ML, включают следующее.

  • Интеграция MLlib с MLflow (закрытая предварительная версия), которая обеспечивает автоматическую регистрацию запусков MLflow для моделей, соответствующих алгоритмам настройки PySpark CrossValidator и TrainValidationSplit.

    Если вы хотите принять участие в предварительной версии, обратитесь к группе учетной записи Databricks.

  • Обновление библиотек PyArrow, Horovod и TensorboardX.

    Обновление PyArrow добавляет возможность использовать BinaryType при выполнении преобразования с использованием Arrow и делает его доступным для использования в pandas UDF.

Дополнительные сведения см. в разделе Databricks Runtime 5.3 ML (EoS). Инструкции по созданию кластера Машинного обучения Databricks см. в статье "ИИ и машинное обучение" в Databricks.