Aprendizagem automática no Azure Databricks

Concluído

O Azure Databricks fornece um ambiente abrangente baseado na nuvem para o desenvolvimento de modelos de aprendizagem automática. O Machine Learning é uma disciplina que envolve a colaboração entre cientistas de dados, que analisam e modelam os dados, e engenheiros de aprendizado de máquina que implantam e gerenciam modelos. O Azure Databricks permite que cientistas de dados executem tarefas de ingestão, exploração e preparação de dados, bem como modelem tarefas de treinamento, avaliação e gerenciamento.

Screenshot of the Azure Databricks portal for the Machine Learning persona.

Tempos de execução do Databricks de aprendizado de máquina

Ao criar um cluster em um espaço de trabalho do Azure Databricks, você pode especificar o tempo de execução do Databricks a ser instalado no cluster. O Azure Databricks inclui alguns tempos de execução de databricks otimizados para aprendizado de máquina. Eles incluem suporte para bibliotecas que são comumente usadas em cargas de trabalho de aprendizado de máquina, incluindo estruturas de aprendizado de máquina e utilitários para gerenciar operações de aprendizado de máquina.

Se você vai implementar soluções de aprendizado de máquina, crie um cluster com um dos tempos de execução de ML . Você pode escolher um tempo de execução baseado em CPU para cenários clássicos de aprendizado de máquina ou um tempo de execução baseado em GPU se precisar construir redes neurais complexas com estruturas de aprendizado profundo, que podem tirar proveito da capacidade de uma GPU para processar eficientemente dados baseados em matriz e vetor.

Estruturas de aprendizado de máquina no Azure Databricks

O Azure Databricks foi criado no Apache Spark, uma plataforma altamente escalável para processamento de dados distribuídos. No Spark, cientistas de dados e engenheiros de aprendizado de máquina geralmente trabalham em notebooks interativos nos quais o código para preparar dados e usá-los para treinar modelos de aprendizado de máquina é escrito em PySpark (uma variante do Python otimizada para o Spark). Dentro do ecossistema Python existem muitas estruturas de aprendizado de máquina comumente usadas, incluindo:

  • Scikit-Learn: Uma estrutura popular para aprendizado de máquina que fornece uma ampla gama de algoritmos e outras bibliotecas para ajudá-lo a treinar e avaliar modelos preditivos.
  • Spark MLlib: Uma biblioteca de aprendizado de máquina criada especificamente para o Spark. O MLlib fornece duas maneiras de treinar e avaliar modelos de aprendizado de máquina:
    • Classes baseadas na estrutura RDD (conjunto de dados distribuído resiliente) resiliente do Spark.
    • Classes baseadas na estrutura de dataframe do Spark. Esta estrutura (comumente referida como Spark ML) é a preferida para usar MLlib.
  • PyTorch: Uma estrutura de aprendizagem profunda usada para construir modelos de redes neurais para cargas de trabalho complexas de previsão, visão computacional e processamento de linguagem natural.
  • TensorFlow: Outra estrutura de aprendizagem profunda comumente usada.

Você pode usar qualquer uma dessas estruturas (e muito mais) no Azure Databricks para treinar e avaliar modelos de aprendizado de máquina.