Recursos de proceso de cuaderno
En este artículo se describen las opciones de los recursos de proceso de cuadernos. Puede ejecutar un cuaderno en un clúster de Databricks, un proceso sin servidor o bien, para los comandos SQL, puede usar un almacén de SQL, un tipo de proceso optimizado para el análisis SQL.
Proceso sin servidor para cuadernos
El proceso sin servidor permite conectarse rápidamente a recursos informáticos a petición.
Para conectarse al proceso sin servidor, haga clic en el menú desplegable Conectar del cuaderno y seleccione Sin servidor.
Consulte Proceso sin servidor para cuadernos para obtener más información.
Anexión de un cuaderno a un clúster
Para asociar un cuaderno a un clúster, necesita el permiso CAN ATTACH TO en el nivel de clúster.
Importante
Siempre que un cuaderno esté asociado a un clúster, cualquier usuario con el permiso CAN RUN en el cuaderno tiene permiso implícito para acceder al clúster.
Para asociar un cuaderno a un clúster, haga clic en el selector de procesos de la barra de herramientas del cuaderno y seleccione un clúster en el menú desplegable.
En el menú se muestra una selección de clústeres que ha usado recientemente o que se están ejecutando actualmente.
Para seleccionar entre todos los clústeres disponibles, haga clic en Más…. Haga clic en el nombre del clúster para mostrar un menú desplegable y seleccione un clúster existente.
También puede crear un clúster seleccionando Crear recurso... en el menú desplegable.
Importante
Un cuaderno asociado tiene definidas las siguientes variables de Apache Spark.
Clase | Nombre de la variable |
---|---|
SparkContext |
sc |
SQLContext /HiveContext |
sqlContext |
SparkSession (Spark 2.x) |
spark |
No cree SparkSession
, SparkContext
ni SQLContext
. De lo contrario, dará lugar a un comportamiento incoherente.
Uso de un cuaderno con un almacenamiento SQL
Cuando un cuaderno está asociado a un almacenamiento SQL, puede ejecutar celdas SQL y de Markdown. La ejecución de una celda en cualquier otro lenguaje (como Python o R) produce un error. Las celdas SQL ejecutadas en un almacenamiento SQL aparecen en el historial de consultas del almacenamiento SQL. El usuario que ejecutó una consulta puede ver el perfil de la consulta desde el cuaderno haciendo clic en el tiempo transcurrido en la parte inferior de la salida.
La ejecución de un cuaderno requiere un almacén SQL profesional o sin servidor. Debe tener acceso al área de trabajo y al almacenamiento SQL.
Para asociar un cuaderno a un almacenamiento SQL, haga lo siguiente:
Haga clic en el selector de proceso en la barra de herramientas del cuaderno. El menú desplegable muestra los recursos de proceso que se están ejecutando actualmente o que se han usado recientemente. Los almacenamientos SQL están marcados con la .
En el menú, seleccione un almacenamiento SQL.
Para ver todos los almacenamientos SQL disponibles, seleccione Más… en el menú desplegable. Aparece un cuadro de diálogo que muestra los recursos de proceso disponibles para el cuaderno. Seleccione SQL Warehouse (Almacenamiento SQL), elija el almacenamiento que quiere usar y haga clic en Asociar.
También puede seleccionar una instancia de SQL Warehouse como recurso de proceso para un cuaderno de SQL al crear un flujo de trabajo o un trabajo programado.
Limitaciones de los almacenes SQL
Para obtener más información, consulte Limitaciones conocidas de los cuadernos de Databricks.
Desasociación de un cuaderno
Para desasociar un cuaderno de un recurso de proceso, haga clic en el selector de proceso de la barra de herramientas del cuaderno y mantenga el puntero sobre el clúster o almacenamiento SQL asociados en la lista para mostrar un menú lateral. Seleccione Desasociar en el menú lateral.
También puede desasociar cuadernos de un clúster mediante la pestaña Notebooks (Cuadernos) de la página de detalles del clúster.
Sugerencia
Azure Databricks recomienda desasociar los cuadernos no usados de clústeres. De esta forma se libera espacio de memoria en el controlador.