Uso de la característica de mantenimiento de tablas para administrar tablas delta en Fabric
Lakehouse en Microsoft Fabric proporciona la característica de mantenimiento de tablas para administrar de forma eficaz las tablas delta y mantenerlas siempre listas para el análisis. En esta guía se describe la característica de mantenimiento de tablas de Lakehouse y sus funcionalidades.
Funcionalidades clave de la característica de mantenimiento de tablas de Lakehouse:
- Realice el mantenimiento de tablas ad hoc mediante acciones contextuales con el botón derecho del ratón en una tabla delta dentro del explorador de Lakehouse.
- Aplique la compactación bin, el orden V y la limpieza de archivos antiguos sin referencia.
Nota:
Para tareas de mantenimiento avanzadas, como agrupar varios comandos de mantenimiento de tablas y orquestarlos en función de una programación, se recomienda un enfoque centrado en el código. Para obtener más información, consulte el artículo Optimización de tablas de Delta Lake y orden V. También es posible usar la API de Lakehouse para automatizar las operaciones de mantenimiento de tablas, para obtener más información, consulte Administración de Lakehouse con la API de REST de Microsoft Fabric.
Tipos de archivo admitidos
El mantenimiento de tablas de Lakehouse solo se aplica a las tablas de Delta Lake. No se admiten las tablas heredadas de Hive que usan PARQUET, ORC, AVRO, CSV y otros formatos.
Operaciones de mantenimiento de tablas
La característica de mantenimiento de tablas ofrece tres operaciones.
- Optimización: consolida varios archivos Parquet pequeños en archivos grandes. Los motores de procesamiento de macrodatos y todos los motores de Fabric se benefician de tener tamaños de archivos mayores. Tener archivos de tamaño superior a 128 MB y, de forma óptima, cerca de 1 GB, mejora la compresión y la distribución de datos, en los nodos del clúster. Reduce la necesidad de examinar numerosos archivos pequeños para realizar operaciones de lectura eficaces. Es un procedimiento recomendado ejecutar estrategias de optimización después de cargar tablas grandes.
- Orden V: aplica la ordenación, la codificación y la compresión optimizadas a los archivos Parquet delta para permitir operaciones de lectura rápidas en todos los motores de Fabric. El orden V se produce durante el comando optimize y se presenta como una opción para el grupo de comandos en la experiencia del usuario. Para más información sobre el orden V, consulte Optimización de tablas de Delta Lake y Orden V.
- Vacío: quita los archivos antiguos a los que ya no hace referencia un registro de tabla de Delta. Los archivos deben ser más antiguos que el umbral de retención, y este es de siete días. Todas las tablas delta de OneLake tienen el mismo período de retención. El período de retención de archivos es el mismo independientemente del motor de proceso de Fabric que esté usando. Este mantenimiento es importante para optimizar el costo de almacenamiento. Establecer un período de retención más corto afecta a las funcionalidades de viaje en el tiempo de Delta. Es un procedimiento recomendado establecer un intervalo de retención en al menos siete días, ya que los lectores y escritores simultáneos pueden seguir usando instantáneas antiguas y archivos no confirmados. La limpieza de archivos activos con el comando VACUUM puede provocar errores de lector o incluso daños en la tabla si se quitan los archivos no confirmados.
Ejecución del mantenimiento de tablas ad hoc en una tabla de Delta mediante Lakehouse
Cómo usar la característica:
En su cuenta de Microsoft Fabric, vaya a la instancia de Lakehouse deseada.
En la sección Tablas del explorador de Lakehouse, haga clic con el botón derecho en la tabla o use los puntos suspensivos para acceder al menú contextual.
Seleccione la entrada de menú Mantenimiento.
Compruebe las opciones de mantenimiento en el cuadro de diálogo según sus necesidades. Para obtener más información, consulte la sección Operaciones de mantenimiento de tablas de este artículo.
Seleccione Ejecutar ahora para ejecutar el trabajo de mantenimiento de la tabla.
Realice un seguimiento de la ejecución del trabajo de mantenimiento mediante el panel de notificaciones o el Centro de supervisión.
¿Cómo funciona el mantenimiento de tablas?
Después de seleccionar Ejecutar ahora, se envía un trabajo de mantenimiento de Spark para su ejecución.
- El trabajo de Spark se envía mediante la identidad de usuario y los privilegios de tabla.
- El trabajo de Spark consume la capacidad de Fabric del área de trabajo o el usuario que envió el trabajo.
- Si hay otro trabajo de mantenimiento que se ejecuta en una tabla, se rechaza uno nuevo.
- Los trabajos en tablas diferentes se pueden ejecutar en paralelo.
- Los trabajos de mantenimiento de tablas se pueden realizar fácilmente en el Centro de supervisión. Busque el texto "TableMaintenance" dentro de la columna del nombre de actividad en la página principal del centro de supervisión.