Creación de un monitor mediante la interfaz de usuario de Databricks
En este artículo, se muestra cómo crear un monitor de datos mediante la interfaz de usuario de Databricks. También puede usar la API.
Para acceder a la interfaz de usuario de Databricks, haga lo siguiente:
- En la barra lateral izquierda del área de trabajo, haga clic en para abrir Explorador de catálogo.
- Vaya a la tabla que desea supervisar.
- Haga clic en la pestaña Calidad.
- Haga clic en el botón Comenzar.
- En Crear monitor, elija las opciones en las que desea el configurar el monitor.
Generación de perfiles
En el menú Tipo de perfil, seleccione el tipo de monitor que desea crear. Los tipos de perfil se muestran en la tabla.
Tipo de perfil | Descripción |
---|---|
Perfil de serie temporal | Tabla que contiene valores medidos con el tiempo. Esta tabla incluye una columna de marca de tiempo. |
Perfil de inferencia | Tabla que contiene los valores de predicción generados por un modelo de clasificación o regresión de aprendizaje automático. Esta tabla incluye una marca de tiempo, un identificador de modelo, entradas de modelo (características), una columna que contiene predicciones del modelo y columnas opcionales que contienen identificadores de observación únicos y etiquetas de verdad básica. También puede contener metadatos, como la información demográfica, que no se usa como entrada para el modelo, pero puede ser útil para investigaciones de equidad y sesgo, u otra supervisión. |
Perfil de instantánea | Cualquier tabla administrada Delta, tabla externa, vista, vista materializada o tabla de streaming. |
Si selecciona TimeSeries
o Inference
, se requieren parámetros adicionales y se describen en las secciones siguientes.
Nota:
- Cuando se crea por primera vez una serie temporal o un perfil de inferencia, el monitor solo analiza los datos de los 30 días anteriores a su creación. Una vez creado el monitor, se procesan todos los datos nuevos.
- Los monitores definidos en vistas materializadas y tablas de streaming no admiten el procesamiento incremental.
Sugerencia
En el caso de los perfiles TimeSeries
y Inference
, se recomienda habilitar la fuente de distribución de datos modificados (CDF) en la tabla. Cuando CDF está habilitado, solo se procesan los datos anexados recientemente, en lugar de volver a procesar toda la tabla en cada actualización. Esto hace que la ejecución sea más eficaz y reduzca los costos a medida que se escala la supervisión en muchas tablas.
Perfil TimeSeries
Para un perfil TimeSeries
, debe realizar las siguientes selecciones:
- Especifique las granularidades de métricas que determinan cómo crear particiones de los datos en ventanas a lo largo del tiempo.
- Especifique la columna Marca de tiempo, la columna de la tabla que contiene la marca de tiempo. El tipo de datos de columna Marca de tiempo debe ser
TIMESTAMP
o un tipo que se pueda convertir en marcas de tiempo mediante lato_timestamp
función PySpark.
Perfil Inference
En el caso de un perfil de Inference
, además de las granularidades y la marca de tiempo, debe realizar las siguientes selecciones:
- Seleccione el Tipo de problema, ya sea clasificación o regresión.
- Especifique la columna Predicción, la columna que contiene los valores previstos del modelo.
- Como alternativa, especifique la columna Etiqueta, que contiene la verdad básica para las predicciones del modelo.
- Especifique la columna id. de modelo, la columna que contiene el id. del modelo usado para la predicción.
Programación
Para configurar un monitor para que se ejecute de forma programada, seleccione Actualizar según programación y seleccione la frecuencia y la hora de ejecución del monitor. Si no desea que el monitor se ejecute automáticamente, seleccione Actualizar manualmente. Si selecciona Actualizar manualmente, puede actualizar las métricas más adelante en la pestaña Calidad.
Notificaciones
Para configurar notificaciones por correo electrónico para un monitor, escriba el correo electrónico que se va a notificar y seleccione las notificaciones que desea habilitar. Se admiten hasta 5 correos electrónicos por tipo de evento de notificación.
General
En la sección General, debe especificar una configuración necesaria y algunas opciones de configuración adicionales:
- Debe especificar el esquema de Unity Catalog donde se almacenan las tablas de métricas creadas por el monitor. La ubicación debe tener el formato {catalog}.{schema}.
También puede especificar la siguiente configuración:
Directorio de recursos. Escriba la ruta de acceso absoluta en el directorio existente para almacenar recursos de supervisión, como el panel generado. De manera predeterminada, los recursos se almacenan en el directorio predeterminado: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Si escribe una ubicación diferente en este campo, los recursos se crean en "/{table_name}" en el directorio que especifique. Este directorio puede estar en cualquier parte del área de trabajo. Para los monitores destinados a compartirse dentro de una organización, puede usar una ruta de acceso en el directorio "/Shared/".
Este campo no se puede dejar en blanco.
Nombre de la tabla de línea base de Unity Catalog. Nombre de una tabla o vista que contiene datos de línea base para la comparación. Para más información sobre las tablas de línea base, consulte Tabla de entrada principal y tabla de línea base.
Expresiones de segmentación de métricas. Las expresiones de segmentación permiten definir subconjuntos de la tabla por supervisar, además de la tabla en su conjunto. Para crear una expresión de segmentación, haga clic en Agregar expresión y escriba la definición de expresión. Por ejemplo, la expresión
"col_2 > 10"
genera dos segmentos: uno paracol_2 > 10
y otro paracol_2 <= 10
. Como otro ejemplo, la expresión"col_1"
generará un segmento para cada valor único encol_1
. Los datos se agrupan por cada expresión de forma independiente, lo que da lugar a un segmento independiente para cada predicado y sus complementos.Métricas personalizadas. Las métricas personalizadas aparecen en las tablas de métricas, como cualquier métrica integrada. Para más información, consulte Uso de métricas personalizadas con la supervisión de Databricks Lakehouse. Para configurar una métrica personalizada, haga clic en Agregar métrica personalizada.
- Escriba un Nombre para la métrica personalizada.
- Seleccione el tipo de métrica personalizada, uno de
Aggregate
,Derived
oDrift
. Para obtener definiciones, consulte Tipos de métricas personalizadas. - En la lista desplegable de Columnas de entrada, seleccione las columnas a las que desea aplicar la métrica.
- En el campo Tipo de salida, seleccione el tipo de datos de Spark de la métrica.
- En el campo Definición, escriba el código SQL que defina la métrica personalizada.
Edición de la configuración del monitor en la interfaz de usuario
Después de crear un monitor, puede realizar cambios en la configuración del monitor al hacer clic en el botón Editar configuración del monitor en la pestaña Calidad.
Actualizar y ver los resultados de la supervisión en la interfaz de usuario
Para ejecutar el monitor manualmente, haga clic en Actualizar métricas.
Para obtener información sobre las estadísticas almacenadas en tablas de métricas de supervisión, consulte Supervisión de tablas de métricas. Las tablas de métricas son tablas de Unity Catalog. Puede consultarlas en cuadernos o en el explorador de consultas SQL, y verlos en el Explorador de catálogos.
Control del acceso para supervisar las salidas
Las tablas de métricas y el panel creados por un monitor son propiedad del usuario que ha creado el monitor. Puede usar privilegios de Unity Catalog para controlar el acceso a las tablas de métricas. Para compartir paneles dentro de un área de trabajo, haga clic en el botón Compartir situado en la parte superior derecha del panel.
Eliminar un monitor de la interfaz de usuario
Para eliminar un monitor de la interfaz de usuario, haga clic en el menú kebab situado junto al botón Actualizar métricas y seleccione Eliminar monitor.