Identificación de las cargas de trabajo de Azure Databricks

Completado

Azure Databricks ofrece funcionalidades para varias cargas de trabajo, como Machine Learning y modelos de lenguaje grande (LLM), ciencia de datos, ingeniería de datos, BI y almacenamiento de datos y procesamiento de streaming.

Ciencia de datos e ingeniería

Esta carga de trabajo está diseñada para científicos de datos e ingenieros que necesitan colaborar en tareas complejas de procesamiento de datos. Proporciona un entorno integrado con Apache Spark para el procesamiento de macrodatos en una instancia de almacén de lago de datos y admite varios lenguajes, como Python, R, Scala y SQL. La plataforma facilita la exploración, visualización y desarrollo de las canalizaciones de datos.

Diagrama de la pantalla de ingesta y orígenes de datos de Databricks.

Machine Learning

La carga de trabajo de Machine Learning en Azure Databricks está optimizada para compilar, entrenar e implementar modelos de aprendizaje automático a escala. Incluye MLflow, una plataforma de código abierto para administrar el ciclo de vida de Machine Learning, incluida la experimentación, la reproducibilidad y la implementación. También admite varios marcos de aprendizaje automático, como TensorFlow, PyTorch y Scikit-learn, lo que lo hace versátil para diferentes tareas de Machine Learning.

Diagrama de la pantalla de Machine Learning de Databricks.

SQL

La carga de trabajo de SQL está orientada a analistas de datos que interactúan principalmente con los datos a través de SQL. Proporciona un conocido editor de SQL, paneles y herramientas de visualización automática para analizar y visualizar datos directamente en Azure Databricks. Esta carga de trabajo es ideal para ejecutar consultas ad hoc rápidas y crear informes a partir de grandes conjuntos de datos.

Diagrama de la pantalla Editor de DatabricksSQL.