Машинное обучение в Azure Databricks

Завершено

Azure Databricks предоставляет комплексную облачную среду для разработки моделей машинного обучения. Машинное обучение — это дисциплина, которая включает совместную работу между специалистами по обработке и анализу данных, а также инженерами машинного обучения, которые развертывают модели и управляют ими. Azure Databricks позволяет специалистам по обработке и анализу данных выполнять задачи приема, изучения и подготовки данных, а также задачи обучения, оценки и управления моделью.

Screenshot of the Azure Databricks portal for the Machine Learning persona.

Среды выполнения Databricks машинного обучения

При создании кластера в рабочей области Azure Databricks можно указать среду выполнения Databricks для установки в кластере. Azure Databricks включает некоторые среды выполнения databricks, оптимизированные для машинного обучения. Они включают поддержку библиотек, которые обычно используются в рабочих нагрузках машинного обучения, включая платформы машинного обучения и служебные программы для управления операциями машинного обучения.

Если вы собираетесь реализовать решения машинного обучения, создайте кластер с одной из сред выполнения машинного обучения. Вы можете выбрать среду выполнения на основе ЦП для классических сценариев машинного обучения или среду выполнения на основе GPU, если необходимо создать сложные нейронные сети с платформами глубокого обучения, которые могут воспользоваться преимуществами графических процессоров для эффективной обработки матрицы и векторных данных.

Платформы машинного обучения в Azure Databricks

Azure Databricks основана на Apache Spark, высокомасштабируемой платформе для распределенной обработки данных. В Spark специалисты по обработке и анализу данных и инженеры машинного обучения обычно работают в интерактивных записных книжках, в которых код для подготовки данных и его использования для обучения моделей машинного обучения написан в PySpark (вариант Python, оптимизированный для Spark). В экосистеме Python существует множество часто используемых платформ машинного обучения, в том числе:

  • Scikit-Learn: популярная платформа для машинного обучения, которая предоставляет широкий спектр алгоритмов и других библиотек для обучения и оценки прогнозных моделей.
  • Spark MLlib: библиотека машинного обучения, созданная специально для Spark. MLlib предоставляет два способа обучения и оценки моделей машинного обучения:
    • Классы на основе устойчивой структуры распределенного набора данных Spark (RDD).
    • Классы на основе структуры кадра данных Spark. Эта платформа (обычно называемая машинным обучением Spark) является предпочтительной для использования MLlib.
  • PyTorch: платформа глубокого обучения, используемая для создания моделей нейронной сети для сложных прогнозов, компьютерного зрения и рабочих нагрузок обработки естественного языка.
  • TensorFlow: другая часто используемая платформа глубокого обучения.

Вы можете использовать любую из этих платформ (и многое другое) в Azure Databricks для обучения и оценки моделей машинного обучения.