Cómo usar los cuadernos de Microsoft Fabric
El cuaderno de Microsoft Fabric es un elemento de código principal para desarrollar trabajos de Apache Spark y experimentos de aprendizaje automático. Se trata de una superficie interactiva basada en la web que usan los científicos de datos e ingenieros de datos para escribir código que se beneficie de visualizaciones enriquecidas y texto de Markdown. Los ingenieros de datos escriben código para la ingesta, preparación y transformación de datos. Los científicos de datos también usan cuadernos para crear soluciones de aprendizaje automático, incluyendo la creación de experimentos y modelos, el seguimiento de modelos y la implementación.
Con un cuaderno de Fabric puede hacer lo siguiente:
- Empezar a trabajar sin esfuerzo alguno de configuración.
- Explorar y procesar fácilmente los datos con una experiencia intuitiva de poco código.
- Mantener los datos protegidos con las características de seguridad empresarial integradas.
- Analizar datos en formatos sin procesar (CSV, TXT, JSON, etc.) y formatos de archivos procesados (parquet, Delta Lake, etc.) mediante las eficaces funcionalidades de Spark.
- Ser productivo con funcionalidades de creación mejoradas y visualización de datos integrada.
En este artículo se describe cómo usar cuadernos en experiencias de ciencia de datos e ingeniería de datos.
Contexto de seguridad del cuaderno en ejecución
La ejecución de un cuaderno se puede desencadenar de tres maneras diferentes en Fabric, con plena flexibilidad para cumplir diferentes escenarios:
- Ejecución interactiva: el usuario desencadena manualmente la ejecución a través de las distintas entradas de la experiencia de usuario o llamando a la API de REST. La ejecución se llevaría a cabo en el contexto de seguridad del usuario actual.
- Ejecución como actividad de canalización: la ejecución se desencadena desde la canalización de Data Factory de Microsoft Fabric. Puede encontrar los pasos detallados en la Actividad del cuaderno. La ejecución se llevaría a cabo en el contexto de seguridad del propietario de la canalización.
- Programador: la ejecución se desencadena desde un plan de programador. La ejecución se llevaría a cabo en el contexto de seguridad del usuario que configura o actualiza el plan del programador.
La flexibilidad de estas opciones de ejecución con un contexto de seguridad diferente le permite cumplir distintos escenarios y requisitos, pero también requiere que tenga en cuenta el contexto de seguridad al diseñar y desarrollar el cuaderno; de lo contrario, puede provocar un comportamiento inesperado e incluso algunos problemas de seguridad.
La primera vez que se crea un cuaderno, se mostrará un mensaje de advertencia para recordarle el riesgo de ejecutar el código sin revisarlo.
Estos son algunos procedimientos recomendados para ayudarle a evitar problemas de seguridad:
- Antes de ejecutar manualmente el cuaderno, abra la configuración del cuaderno y compruebe la sección Detalle en el panel Acerca de la actualización de modificación para asegurarse de que el cambio más reciente es correcto.
- Antes de añadir una actividad de cuaderno a una canalización, abra la configuración del cuaderno y compruebe la sección Detalle en el panel Acerca de la actualización de modificación para asegurarse de que el cambio más reciente es correcto. Si no está seguro del cambio más reciente, es mejor que abra el cuaderno para revisar el cambio antes de añadirlo a la canalización.
- Antes de actualizar el plan del programador, abra la configuración del cuaderno y compruebe la sección Detalle en el panel Acerca de la actualización de modificación para asegurarse de que el cambio más reciente es correcto. Si no está seguro del cambio más reciente, es mejor que abra el cuaderno para revisar el cambio antes de actualizar el plan del programador.
- Separe el área de trabajo en fases diferentes (desarrollo, prueba, producción) y controle el acceso a las otras fases para evitar el problema de seguridad. Añada solo el usuario en quien confíe a la fase de producción.
Creación de cuadernos
Puede crear un cuaderno o importar uno existente.
Creación un nuevo cuaderno
Como en otros procesos de creación de elementos de Fabric estándar, puede crear fácilmente un cuaderno desde la página principal de Ingeniería de datos de Fabric, la opción Nuevo del área de trabajo o en Crear centro.
Importar los cuaderno existentes
Puede importar uno o varios cuadernos existentes desde el equipo local mediante la entrada de la barra de herramientas del área de trabajo. Los cuadernos de Fabric reconocen los archivos estándar .ipynb de Jupyter Notebook y los archivos de código fuente como .py, .scala y .sql, y crear respectivamente nuevos elementos de cuaderno.
Exportación de un cuaderno
Puede exportar el cuaderno a otros formatos estándar. Un cuaderno de Synapse se puede exportar a:
- El archivo de cuaderno estándar (.ipynb), que se usa normalmente para cuadernos de Jupyter Notebook.
- Un archivo HTML (.html), que se puede abrir directamente desde el explorador.
- Un archivo de Python (.py).
- Un archivo de Latex (.tex).
Guardado de un cuaderno
En Fabric, un cuaderno se guardará automáticamente de manera predeterminada después de abrirlo y de editarlo; no hay que preocuparse por perder los cambios del código. También puede usar Guardar una copia para clonar en otra copia en el área de trabajo actual o en otra área de trabajo.
Si prefiere guardar manualmente un cuaderno, puede cambiar a la opción de guardado Manual para tener una rama local del elemento del cuaderno y, a continuación, usar Guardar o CTRL+s para guardar los cambios.
También puede cambiar al modo de guardado manual seleccionando Editar ->Opciones de guardado ->Manual. Para activar una rama local del cuaderno, guárdelo manualmente seleccionando Guardar o use el método abreviado de teclado Ctrl+s.
Conectar lakehouses y cuadernos
Los cuadernos de Fabric ahora admiten interacciones cercanas con los almacenes de lago; puede agregar fácilmente un almacén de lago nuevo o existente desde el Explorador del almacén de lago.
Puede ir a diferentes almacenes de lago en el Explorador del almacén de lago y anclar un almacén de lago para establecerlo como predeterminado. A continuación, el almacén predeterminado se monta en el directorio de trabajo del entorno de ejecución y puede leer o escribir en el almacén de lago predeterminado mediante una ruta de acceso local.
Nota:
Debe reiniciar la sesión después de anclar un nuevo almacén de lago o cambiar el nombre del almacén de lago predeterminado.
Agregar o eliminar una instancia de Lakehouse
Al seleccionar el icono X situado junto a un nombre del Lakehouse, se quita de la pestaña del cuaderno, pero el elemento Lakehouse sigue existiendo en el área de trabajo.
Seleccione Agregar Lakehouse para agregar más al cuaderno, ya sea agregando uno existente o creando uno nuevo.
Explorar un archivo Lakehouse
La subcarpeta y los archivos de la sección Tablas y Archivos de la vista Lake aparecen en un área de contenido entre la lista de Lakehouse y el contenido del cuaderno. Seleccione diferentes carpetas de la sección Tablas y Archivos para actualizar el área de contenido.
Operaciones de carpeta y de archivo
Si selecciona un archivo (.csv, .parquet, .txt, .jpg, .png, etc.) con un clic derecho, puede usar la API de Spark y la de Pandas para cargar los datos. Se genera una nueva celda de código y se inserta debajo de la celda que tiene el foco.
Puede copiar fácilmente una ruta de acceso con un formato diferente al del archivo o carpeta que se ha seleccionado y usar la ruta de acceso correspondiente en el código.
Recursos de los cuadernos
El explorador de recursos de los cuadernos proporciona un sistema de archivos similar a Unix para ayudar a administrar las carpetas y los archivos. Ofrece un espacio de sistema de archivos que se puede escribir, donde puede almacenar archivos de tamaño pequeño, como módulos de código, modelos semánticos e imágenes. Puede acceder fácilmente a ellos con código en el cuaderno de la misma manera que si estuviera trabajando con el sistema de archivos local.
Nota:
- Los almacenamientos de recursos máximos para carpetas integradas y carpetas de entorno son de 500 MB, con un tamaño de archivo único de hasta 100 MB. Ambos permiten hasta 100 instancias de archivo o carpeta en total.
- Si usa
notebookutils.notebook.run()
, utilice el comandonotebookutils.nbResPath
para acceder al recurso del cuaderno de destino. La ruta de acceso relativa integrada/ siempre apuntará a la carpeta integrada del cuaderno raíz.
Carpeta de recursos integrados
La carpeta de recursos integrados es una carpeta predefinida del sistema para cada instancia de elemento de cuaderno. Estas son las funcionalidades clave de los recursos del cuaderno.
- Puede usar operaciones comunes como crear, eliminar, cargar, descargar, arrastrar y colocar, cambiar el nombre, duplicar y buscar a través de la interfaz de usuario.
- Puede usar rutas de acceso relativas como
builtin/YourData.txt
para explorar de manera rápida. El método denotebookutils.nbResPath
le ayuda a componer la ruta de acceso completa. - Puede mover fácilmente los datos validados a un almacén de lago mediante la opción Escribir en almacén de lago. Fabric tiene fragmentos de código enriquecido insertados para los tipos de archivo comunes, que le ayudarán a empezar a trabajar rápidamente.
- Estos recursos también están disponibles para usarse en el caso de ejecución del cuaderno de referencia mediante
notebookutils.notebook.run()
.
Carpeta de recursos de entorno
Carpeta de recursos de entorno es un repositorio compartido diseñado para simplificar la colaboración entre varios cuadernos.
Puede encontrar la pestaña Recursos dentro del entorno y tener las operaciones completas para administrar los archivos de recursos aquí. Estos archivos se pueden compartir entre varios cuadernos una vez que el cuaderno está conectado al entorno actual.
En la página Cuaderno, puede encontrar fácilmente una segunda carpeta raíz en Recursos heredados del entorno adjunto.
También puede operar en los archivos o carpetas iguales con la carpeta Recursos integrados.
La ruta de acceso del recurso entorno se montará automáticamente en el clúster de cuadernos; puede usar la ruta de acceso relativa /env para acceder a los recursos del entorno.
Editor de archivos
El editor de archivos permite ver y editar archivos directamente dentro de la carpeta de recursos del cuaderno y la carpeta de recursos del entorno del cuaderno. Los tipos de archivo admitidos incluyen CSV, TXT, HTML, YML, PY, SQL, etc. Con el editor de archivos, puede acceder y modificar archivos fácilmente en el cuaderno, admite el resaltado de palabras clave y proporciona un servicio de lenguaje necesario al abrir y editar archivos de código como .py y .sql.
Puede acceder a esta característica a través de "Ver y editar" en el menú archivo. Hacer doble clic en el archivo es una manera más rápida.
El cambio de contenido en el editor de archivos debe guardarse manualmente haciendo clic en el botón Guardar o el método abreviado de teclado: Ctrl+S, el editor de archivos no admite el guardado automático.
El editor de archivos también se ve afectado por el modo de cuaderno. Solo puede ver los archivos, pero no puede editarlos si está en modo de cuaderno sin permiso de edición.
Nota:
Estas son algunas limitaciones para el editor de archivos.
- El límite de tamaño de archivo es de 1 MB.
- Estos tipos de archivo no se admiten para ver y editar: .xlsx y .parquet.
Colaborar en un cuaderno
El cuaderno de Fabric es un elemento de colaboración que admite la edición por parte de varios usuarios en el mismo cuaderno.
Cuando abre un cuaderno, se entra al modo de edición conjunta de manera predeterminada y todas las ediciones del cuaderno se guardarán automáticamente. Si los compañeros abren el mismo cuaderno al mismo tiempo, verá su perfil, la salida de la ejecución, el indicador del cursor, el indicador de selección y el seguimiento de la edición. Mediante las características de colaboración, puede realizar fácilmente la programación en pareja, la depuración remota y los escenarios de tutoría.
Uso compartido de un cuaderno
Compartir un cuaderno es una manera cómoda de colaborar con los miembros del equipo. Los roles de área de trabajo autorizados pueden ver o editar/ejecutar cuadernos de forma predeterminada. Puede compartir un cuaderno con los permisos especificados concedidos.
Seleccione Compartir en la barra de herramientas del cuaderno.
Seleccione la categoría correspondiente de personas que pueden ver este cuaderno. Puede elegir los permisos Compartir, Editar o Ejecutar para los destinatarios.
Después de seleccionar Aplicar, puede enviar el cuaderno directamente o copiar el vínculo para otros usuarios. A continuación, los destinatarios pueden abrir el cuaderno con la vista correspondiente concedida por su nivel de permisos.
Para administrar aún más los permisos del cuaderno, seleccione Lista de elementos del área de trabajo>Más opciones y, a continuación, seleccione Administrar permisos. Desde esa pantalla, puede actualizar el acceso y los permisos existentes del cuaderno.
Comentar una celda de código
La creación de comentarios es otra característica útil en escenarios de colaboración. Actualmente, Fabric admite la adición de comentarios de nivel de celda.
Seleccione el botón Comentarios de la barra de herramientas del cuaderno o el indicador de comentario de celda para abrir el panel Comentarios.
Seleccione el código en la celda de código, seleccione Nuevo en el panel Comentarios, agregue los comentarios y, a continuación, seleccione Publicar comentario para guardarlo.
Si las necesita, busque las opciones Editar comentario, Resolver conversación y Eliminar conversación; para ello, seleccione la opción Más situada junto al comentario.
Etiquetado de otros usuarios en un comentario
"Etiquetado" hace referencia a mencionar y notificar a un usuario en un subproceso de comentario, lo que mejora la colaboración de forma eficaz en los detalles.
Seleccione una sección de código en una celda y un nuevo subproceso de comentario.
Introduzca el nombre de usuario y elija el correcto en la lista de sugerencias si desea mencionar a alguien para obtener información sobre una determinada sección.
Comparta sus conclusiones y publíquelas.
Se desencadenará una notificación por correo electrónico y el usuario hace clic en el vínculo Abrir comentarios para localizar rápidamente esta celda.
Además, autorice y configure los permisos para los usuarios al etiquetar a alguien que no tiene acceso, lo que garantiza que los recursos de código estén bien administrados.
Nota:
Para un elemento de comentario, el usuario etiquetado ya no recibirá una notificación por correo electrónico si actualiza el comentario en un plazo de una hora. Pero enviará una notificación por correo electrónico al nuevo usuario etiquetado.
Conmutador del modo notebook
Los cuadernos de Fabric admiten cuatro modos que se pueden cambiar fácilmente: Modo de desarrollo , Modo de solo ejecución, Modo de edición y Modo de vista . Cada modo se asigna a una combinación de permisos específica. Al compartir el cuaderno con otros miembros del equipo, puede conceder permisos adecuados a los destinatarios y verá el mejor modo de cuaderno disponible según su permiso y podrá cambiar entre el modo al que tienen permiso.
- Modo de desarrollo: lectura, ejecución, permiso de escritura necesario.
- Modo de solo ejecución: lectura, ejecución y permiso necesario.
- Modo de edición: se necesita permiso de lectura y escritura.
- Modo de vista: se necesita permiso de lectura.