Апрель 2019 г.
Эти функции и доработки платформы Azure Databricks были выпущены в апреле 2019 г.
Примечание.
Выпуски являются поэтапными. На обновление вашей учетной записи Azure Databricks может потребоваться до одной недели с даты выпуска.
MLflow в Azure Databricks (общедоступная версия)
25 апреля 2019 г.
Выпущена общедоступная версия управляемой MLflow для Azure Databricks. MLflow на Azure Databricks предлагает размещенную версию MLflow, полностью интегрированную с моделью безопасности Databricks и интерактивной рабочей областью. См. MLflow для агента генеративного ИИ и жизненного цикла модели машинного обучения.
Delta Lake в Azure Databricks
24 апреля 2019 г.
В Databricks имеется проект Delta Lake с открытым кодом. Delta Lake — это уровень хранения, который обеспечивает надежность озер данных, построенных на HDFS и облачных хранилищах, за счет обеспечения транзакций ACID посредством оптимистичного управления параллелизмом между операциями записи и изоляции моментальных снимков для согласованного чтения во время записи. Delta Lake также обеспечивает встроенное управление версиями данных для простого отката и воспроизведения отчетов.
Примечание.
То, что ранее называлось Databricks Delta, теперь является проектом с открытым кодом Delta Lake, также в Azure Databricks доступна оптимизация. См. статью Сведения о Delta Lake.
Боковая панель в MLflow
9—16 апреля 2019 г.: версия 2.95
Теперь можно просматривать запуски MLflow и версии записной книжки, в которых создавались эти запуски, на боковой панели рядом с записной книжкой. На правой боковой панели записной книжки щелкните Experiment iconзначок "Эксперимент".
См. раздел Создание эксперимента записной книжки.
Автоматический доступ к Azure Data Lake Storage 1-го поколения и 2-го поколения с помощью учетных данных идентификатора Microsoft Entra (GA)
9—16 апреля 2019 г.: версия 2.95
Мы рады сообщить о общедоступной доступности автоматической проверки подлинности в Azure Data Lake Storage 1-го поколения и 2-го поколения из кластеров Azure Databricks с использованием того же идентификатора Microsoft Entra ID, который вы используете для входа в Azure Databricks.
Просто включите кластер для пропуска учетных данных Microsoft Entra ID, и команды, которые вы выполняете в этом кластере, смогут считывать и записывать ваши данные в хранилище Azure Data Lake Storage первого и второго поколений без необходимости настройки учетных данных сервисного принципала для доступа к хранилищу.
Дополнительные сведения см. в статье Access Azure Data Lake Storage с помощью сквозного руководства учетных данных идентификатора Microsoft Entra (устаревшая версия).
Databricks Runtime 5.3 (общедоступная версия)
3 апреля 2019 г.
Выпущена общедоступная версия Databricks Runtime 5.3. Databricks Runtime 5.3 включает новые функции и обновления Delta Lake, а также обновленные библиотеки Python, R, Java и Scala.
К основным обновлениям относится следующее:
- Общая доступность с переходом по времени в Databricks Delta
- Репликация таблиц MySQL в Delta, Public Preview
- Оптимизирована папка DBFS FUSE для рабочих нагрузок глубокого обучения
- Улучшения библиотеки для записных книжек
- Новые указания Помощника по Azure
Дополнительные сведения см. в разделе Databricks Runtime 5.3 (EoS).
Databricks Runtime 5.3 ML (общедоступная версия)
3 апреля 2019 г.
Благодаря Databricks Runtime 5.3 для Машинного обучения мы создали нашу первую общедоступную версию Databricks Runtime ML! Databricks Runtime ML предоставляет готовую среду для Машинного обучения и обработки и анализа данных. Она основана на Databricks Runtime и добавлено множество популярных библиотек Машинного обучения, включая TensorFlow, PyTorch, Keras и XGBoost. Оно также поддерживает распределенное обучение с использованием Horovod.
Эта версия основана на Databricks Runtime 5.3 с дополнительными библиотеками, некоторыми другими версиями библиотек и управлением пакетами Conda для библиотек Python. Основные новые функции, начиная с бета-версии Databricks Runtime 5.2 ML, включают следующее.
Интеграция MLlib с MLflow (закрытая предварительная версия), которая обеспечивает автоматическую регистрацию запусков MLflow для моделей, соответствующих алгоритмам настройки PySpark
CrossValidator
иTrainValidationSplit
.Если вы хотите принять участие в предварительной версии, обратитесь к группе учетной записи Databricks.
Обновление библиотек PyArrow, Horovod и TensorboardX.
Обновление PyArrow добавляет возможность использовать
BinaryType
при выполнении преобразования с использованием Arrow и делает его доступным для использования в pandas UDF.
Дополнительные сведения см. в разделе Databricks Runtime 5.3 ML (EoS). Инструкции по созданию кластера Машинного обучения Databricks см. в статье "ИИ и машинное обучение" в Databricks.