Aprendizaje automático en Azure Databricks

Completado

Azure Databricks proporciona un entorno integral basado en la nube para el desarrollo de modelos de Machine Learning. El aprendizaje automático es una materia que implica la colaboración entre científicos de datos, que analizan y modelan datos, e ingenieros de aprendizaje automático, que implementan y administran modelos. Azure Databricks permite a los científicos de datos realizar tareas de ingesta, exploración y preparación de datos, así como tareas de entrenamiento, evaluación y administración de modelos.

Screenshot of the Azure Databricks portal for the Machine Learning persona.

Entornos de ejecución de Databricks de aprendizaje automático

Al crear un clúster en un área de trabajo de Azure Databricks, puede especificar el entorno de ejecución de Databricks que se va a instalar en el clúster. Azure Databricks incluye algunos entornos de ejecución de Databricks que están optimizados para el aprendizaje automático. Incluyen compatibilidad con bibliotecas que se usan habitualmente en cargas de trabajo de aprendizaje automático, incluidos marcos de aprendizaje automático y utilidades para administrar las operaciones de aprendizaje automático.

Si va a implementar soluciones de aprendizaje automático, cree un clúster con uno de los entornos de ejecución de ML. Puede elegir un entorno de ejecución basado en CPU para escenarios de aprendizaje automático clásicos o un entorno de ejecución basado en GPU si necesita crear redes neuronales complejas con marcos de aprendizaje profundo, lo que puede aprovechar la capacidad de GPU para procesar de manera eficaz los datos basados en vectores y matrices.

Marcos de aprendizaje automático en Azure Databricks

Azure Databricks se basa en Apache Spark, una plataforma altamente escalable para el procesamiento de datos distribuido. En Spark, los científicos de datos y los ingenieros de aprendizaje automático suelen trabajar en cuadernos interactivos en los que el código para preparar los datos y usarlos para entrenar modelos de Machine Learning se escriben en PySpark (una variante de Python optimizada para Spark). Dentro del ecosistema de Python hay muchos marcos de aprendizaje automático que se usan habitualmente, entre los que se incluyen:

  • Scikit-Learn: marco popular para el aprendizaje automático que proporciona una amplia gama de algoritmos y otras bibliotecas que lo ayudan a entrenar y evaluar modelos predictivos.
  • MLlib de Spark: biblioteca de aprendizaje automático creada específicamente para Spark. MLlib proporciona dos maneras de entrenar y evaluar modelos de Machine Learning:
    • Clases basadas en la estructura del conjunto de datos distribuido resistente (RDD) de Spark.
    • Clases basadas en la estructura de dataframe de Spark. Este marco (comúnmente conocido como Spark ML) es el preferido para usar MLlib.
  • PyTorch: marco de aprendizaje profundo que se usa para crear modelos de redes neuronales para cargas de trabajo de procesamiento del lenguaje natural, visión artificial y previsión complejas.
  • TensorFlow: otro marco de aprendizaje profundo que se usa habitualmente.

Puede usar cualquiera de estos marcos (y mucho más) en Azure Databricks para entrenar y evaluar modelos de Machine Learning.