Descripción de los conceptos clave
Azure Databricks es una plataforma de servicio única con varias tecnologías que permiten trabajar con datos a escala. Al usar Azure Databricks, hay algunos conceptos clave que se deben comprender.
Áreas de trabajo
Un área de trabajo es un entorno para acceder a todos los recursos de Databricks. Proporciona una interfaz de usuario para administrar cuadernos, bibliotecas y experimentos. Las áreas de trabajo se pueden organizar en carpetas y compartirse entre los miembros del equipo, lo que facilita la colaboración y la administración de recursos.
Cuaderno
Los cuadernos de Databricks son documentos colaborativos que contienen código ejecutable, visualizaciones y texto narrativo. Admiten varios lenguajes, incluidos Python, R, Scala y SQL, que se pueden usar simultáneamente en el mismo cuaderno. Los cuadernos son fundamentales para los proyectos colaborativos y son ideales para el análisis exploratorio de datos, la visualización de datos y los flujos de trabajo de datos complejos.
Clústeres
Los clústeres son los motores de cálculo de Azure Databricks. Los usuarios pueden crear y escalar clústeres según los recursos informáticos necesarios. Los clústeres se pueden configurar manualmente o establecer en escalado automático en función de la carga de trabajo. Admiten distintos tipos de nodos para varias tareas, como los nodos de controlador y de trabajo, lo que garantiza un uso eficaz de los recursos.
Trabajos
Los trabajos de Azure Databricks se usan para programar y ejecutar tareas automatizadas. Estas tareas pueden ser ejecuciones de cuadernos, trabajos de Spark o ejecuciones arbitrarias de código. Los trabajos se pueden desencadenar según una programación o ejecutarse en respuesta a determinados eventos, lo que facilita la automatización de flujos de trabajo y tareas periódicas de procesamiento de datos.
Entorno de tiempo de ejecución de Databricks
Databricks Runtime es un conjunto de versiones optimizadas para el rendimiento de Apache Spark. Incluye mejoras para mejorar el rendimiento y funcionalidad adicional más allá de Spark estándar, como optimizaciones para cargas de trabajo de aprendizaje automático, procesamiento de grafos y genomics.
Delta Lake
Delta Lake es una capa de almacenamiento de código abierto que aporta confiabilidad y escalabilidad a los lagos de datos. Proporciona transacciones ACID, control de metadatos escalables y unifica el procesamiento de datos por lotes y streaming, todo fundamental para administrar datos a gran escala de forma coherente y tolerante a errores.
Databricks SQL
Databricks SQL proporciona una manera de realizar consultas SQL en los datos de Azure Databricks. Permite a los analistas de datos ejecutar consultas ad hoc rápidas y crear informes directamente en macrodatos. Incluye un editor de SQL, paneles y herramientas de visualización automática, por lo que resulta fácil de usar para aquellos acostumbrados a entornos SQL.
MLflow
MLflow es una plataforma de código abierto para administrar el ciclo de vida de aprendizaje automático de un extremo a otro. Incluye funciones para el seguimiento de experimentos, la gestión de modelos y la implementación, lo que ayuda a los profesionales a administrar y compartir sus modelos y experimentos de ML de manera eficiente.