Compartir a través de


Exploración de datos en la base de datos reflejada con cuadernos

Puede explorar los datos replicados desde la base de datos reflejada con consultas de Spark en cuadernos.

Los cuadernos son un elemento de código eficaz para que pueda desarrollar trabajos de Apache Spark y experimentos de aprendizaje automático en los datos. Puede usar cuadernos en Fabric Lakehouse para explorar las tablas reflejadas.

Requisitos previos

Crear un acceso directo

En primer lugar, debe crear un acceso directo desde las tablas reflejadas en Lakehouse y, después, crear cuadernos con consultas de Spark en Lakehouse.

  1. En el portal de Fabric, abra Ingeniero de datos.

  2. Si aún no tiene una instancia de Lakehouse creada, seleccione Lakehouse y cree una instancia de Lakehouse; para ello, asígnele un nombre.

  3. Seleccione Obtener datos ->Nueva combinación de teclas.

  4. Seleccione Microsoft OneLake.

  5. Puede ver todas las bases de datos reflejadas en el área de trabajo de Fabric.

  6. Seleccione la base de datos reflejada que quiere agregar a Lakehouse como combinación de teclas.

  7. Seleccione las tablas deseadas de la base de datos reflejada.

  8. Seleccione Siguiente y, después, Crear.

  9. En el Explorador, ahora puede ver los datos de la tabla seleccionados en la instancia de Lakehouse. Captura de pantalla del portal de Fabric, en la que se muestra el Explorador de Lakehouse que muestra las tablas y los datos de la base de datos reflejada.

    Sugerencia

    Puede agregar otros datos directamente en Lakehouse o traer combinaciones de teclas como S3 o ADLS Gen2. Puede ir al punto de conexión de SQL Analytics de Lakehouse y unir los datos en todos estos orígenes con datos reflejados sin problemas.

  10. Para explorar estos datos en Spark, seleccione los ... puntos situados junto a cualquier tabla. Seleccione Nuevo cuaderno o Cuaderno existente para comenzar el análisis. Captura de pantalla del portal de Fabric en la que se muestra el menú contextual para abrir una tabla de base de datos reflejada en un cuaderno.

  11. El cuaderno se abrirá automáticamente y cargará el DataFrame con una consulta SELECT ... LIMIT 1000 de Spark SQL.

    • Los nuevos cuadernos pueden tardar hasta dos minutos en cargarse completamente. Puede evitar este retraso mediante un cuaderno existente con una sesión activa. Captura de pantalla del portal de Fabric en la que se muestran los datos de una tabla de base de datos reflejada en un nuevo cuaderno con una consulta de Spark SQL.