Databricks Runtime para Machine Learning
En este artículo se describe Databricks Runtime para Machine Learning y se proporcionan instrucciones para crear un clúster que lo use.
¿Qué es Databricks Runtime para Machine Learning?
Databricks Runtime para Machine Learning (Databricks Runtime ML) automatiza la creación de un clúster con una infraestructura de aprendizaje profundo y aprendizaje automático precompilada, incluidas las bibliotecas de ML y DL más comunes.
Bibliotecas incluidas en Databricks Runtime ML
Databricks Runtime ML incluye varias bibliotecas populares de ML. Las bibliotecas se actualizan con cada versión para incluir nuevas características y correcciones.
Databricks ha designado un subconjunto de las bibliotecas admitidas como bibliotecas de nivel superior. Para estas bibliotecas, Databricks proporciona una cadencia de update más rápida a las versiones de paquete más recientes con cada versión del entorno de ejecución (sin conflictos de dependencia). Databricks también proporciona compatibilidad avanzada, pruebas y optimizaciones insertadas para bibliotecas de nivel superior. Las bibliotecas de nivel superior se agregan o quitan con las versiones principales solamente.
- Para consultar una lista completa list de las bibliotecas de nivel superior y otras proporcionadas, consulte las notas de la versión para Databricks Runtime ML.
- Para obtener información sobre la frecuencia de actualización de las bibliotecas y cuándo se consideran obsoletas, consulte la política de mantenimiento de Databricks Runtime ML .
Puede instalar bibliotecas con el fin de crear un entorno personalizado para el cuaderno o clúster.
- Para que una biblioteca esté disponible para todos los cuadernos que se ejecutan en un clúster, cree una biblioteca de clústeres. Puede instalar scripts de inicialización para instalar bibliotecas en clústeres después de la creación.
- Para instalar una biblioteca que solo está disponible para una sesión de cuaderno específica, use bibliotecas de Python con ámbito de cuaderno.
Set recursos de proceso para Databricks Runtime ML
El proceso para crear recursos de computación basados en Databricks Runtime ML depende de si el área de trabajo está habilitada para la Vista Preliminar Pública del clúster del grupo dedicado o no. Las áreas de trabajo habilitadas para la versión preliminar tienen una nueva interfaz de usuario de computación simplificada .
Creación de un clúster mediante Databricks Runtime ML
Al crear un clúster, una versión de Databricks Runtime ML select del menú desplegable Versión de Databricks Runtime. Están disponibles los entornos de ejecución de ML habilitados tanto para CPU como para GPU.
Si selecciona select un clúster en el menú desplegable del cuaderno, la versión de Databricks Runtime aparece a la derecha del nombre del clúster:
Si select un entorno de ejecución de ML habilitado para GPU, se le pedirá que select un tipo de controlador compatible y un tipo de trabajo. Los tipos de instancia incompatibles aparecen atenuados en el menú desplegable. Los tipos de instancia habilitados para GPU se muestran en la etiqueta Acelerada por GPU. Para obtener información sobre cómo crear clústeres de GPU de Azure Databricks, consulte Proceso habilitado para GPU. Databricks Runtime ML incluye controladores de hardware para GPU y bibliotecas de NVIDIA, como CUDA.
Crear un nuevo clúster con la nueva interfaz de usuario de computación simplificada
Siga los pasos de esta sección solo si el área de trabajo está configurada para la vista previa del clúster de grupo dedicado.
Para usar la versión de aprendizaje automático de Databricks Runtime, select la casilla Machine Learning.
Para usar el proceso basado en GPU, select es un tipo de instancia habilitado para GPU. Para obtener la list completa de los tipos de GPU admitidos, consulte Tipos de instancia admitidos.
Photon y Databricks Runtime ML
Al crear un clúster de CPU que ejecute Databricks Runtime 15.2 ML o superior, puede optar por habilitar Photon. Photon mejora el rendimiento de las aplicaciones que usan Spark SQL, Spark DataFrames, ingeniería de características, GraphFrames y xgboost4j. No se espera que mejore el rendimiento de las aplicaciones mediante RDD de Spark, UDF de Pandas y lenguajes que no sean JVM, como Python. Por lo tanto, los paquetes de Python como XGBoost, PyTorch y TensorFlow no verán una mejora con Photon.
Las API de RDD de Spark y MLlib de Spark tienen una compatibilidad limitada con Photon. Al procesar grandes conjuntos de datos mediante RDD de Spark o MLlib de Spark, podría experimentar problemas de memoria de Spark. Consulte Problemas de memoria de Spark.
Modo de acceso para clústeres de aprendizaje automático de Databricks Runtime
Para acceder a los datos de Unity Catalog en un clúster que ejecuta Databricks Runtime ML, debe realizar una de las siguientes acciones:
- Set el clúster mediante modo de acceso de usuario único.
- Set el clúster mediante modo de acceso dedicado. El modo de acceso dedicado está actualmente en versión preliminar pública. El modo de acceso dedicado proporciona las características del modo de acceso compartido en Databricks Runtime ML.
Cuando un recurso informático tiene acceso dedicado, el recurso se puede asignar a un solo usuario o a un grupo. Cuando se asigna a un grupo (un clúster de grupos), los permisos del usuario reducen automáticamente los ámbitos a los permisos del grupo, lo que permite al usuario compartir de forma segura el recurso con otros miembros del grupo.
Al usar el modo de acceso de usuario único, las siguientes características solo están disponibles en Databricks Runtime 15.4 LTS ML y versiones posteriores: