Compartir a través de


Uso de pruebas comparativas en un espacio de Genie

Importante

Esta característica está en versión preliminar pública.

En este artículo se explica cómo usar pruebas comparativas para evaluar la precisión del espacio de Genie.

Las pruebas comparativas le permiten crear un conjunto de preguntas de prueba que puede ejecutar para evaluar la precisión general de la respuesta de Genie. Un conjunto bien diseñado de pruebas comparativas que cubren las preguntas más frecuentes del usuario ayuda a evaluar la precisión del espacio de Genie a medida que lo refina.

Pruebas comparativas de ejemplo con precisión notificadas sobre muchas preguntas.

Adición de preguntas comparativas

Las preguntas comparativas deben reflejar diferentes formas de expresar las preguntas comunes que hacen los usuarios. Puede usarlas para comprobar la respuesta de Genie a las variaciones en expresiones de preguntas o formatos de pregunta diferentes.

Al crear una pregunta de prueba comparativa, puede incluir opcionalmente una consulta SQL cuyo conjunto de resultados sea la respuesta correcta. Durante las ejecuciones comparativas, la precisión se evalúa comparando el conjunto de resultados de la consulta SQL con el generado por Genie.

Para agregar una pregunta a la prueba comparativa, lleve a cabo los pasos siguientes:

  1. Haga clic en Icono de pruebas comparativas en la barra lateral izquierda en un espacio de Genie.

  2. Haga clic en la pestaña Preguntas. A continuación, haga clic en Agregar prueba comparativa.

  3. En el campo Pregunta, escriba una pregunta de prueba comparativa que se va a probar.

  4. (Opcional) Escriba la instrucción SQL que responda con precisión a la pregunta que escribió.

    Nota:

    Este paso es recomendado. Solo las preguntas que incluyen esta instrucción SQL de ejemplo se pueden evaluar automáticamente para obtener precisión. Las preguntas que no incluyan una respuesta SQL requieren que se puntúe una revisión manual.

  5. (Opcional) Haga clic en Vista previa para ejecutar la consulta y ver los resultados.

  6. Cuando haya terminado de editarlo, haga clic en Agregar prueba comparativa.

  7. Para actualizar una pregunta después de guardarla, haga clic en el icono de lápiz icono Editar para abrir el cuadro de diálogo Actualizar pregunta.

Uso de pruebas comparativas para probar expresiones de preguntas alternativas

Al evaluar la precisión del espacio de Genie, es importante estructurar las pruebas para reflejar escenarios realistas. Los usuarios pueden formular la misma pregunta de maneras diferentes. Databricks recomienda agregar varias expresiones de la misma pregunta y usar el mismo ejemplo de SQL en las pruebas comparativas para evaluar completamente la precisión. La mayoría de los espacios de Genie deben incluir 2 - 4 expresiones de la misma pregunta.

Ejecución de preguntas comparativas

Los usuarios con al menos permisos CAN EDIT en un espacio de Genie pueden crear una ejecución comparativa en cualquier momento, que se evaluará automáticamente en todas las preguntas comparativas. Para evaluar cada pregunta comparativa, primero enviaremos la pregunta a Genie y, a continuación, compararemos los resultados de Genie con el banco de pruebas. Una de las siguientes etiquetas se aplica a cada prueba comparativa:

  • Correcta: las respuestas se marcan con esta etiqueta cuando el resultado de la consulta generado por Genie coincide con los resultados de la respuesta SQL proporcionada. Cuando una respuesta se marca como Buena, significa que los valores de fila coinciden exactamente, independientemente del criterio de ordenación o de los nombres de columna.
  • Necesita una revisión: las respuestas se marcan con esta etiqueta cuando Genie no puede evaluar la exactitud o cuando los resultados de la consulta generados por Genie no coinciden con los resultados de la respuesta SQL proporcionada. Si hay cambios inesperados en una dimensión de tablas en la respuesta generada o en la respuesta SQL proporcionada, la pregunta puede marcarse para su revisión. Las preguntas comparativas que no incluyan una respuesta SQL deben revisarse manualmente.
  • Incorrecta: las respuestas nunca se etiquetan automáticamente como Malas. Si los resultados de la consulta generados por Genie no coinciden con el conjunto de resultados de la respuesta SQL proporcionada, la pregunta se marca como Necesita una revisión. Al revisar esos puntos de referencia, puede marcar un resultado como Malo si no cree que los resultados de la consulta generados por Genie respondan a la pregunta.

Para ejecutar todas las preguntas comparativas:

  1. Haga clic en Icono de pruebas comparativas Pruebas comparativas en la barra lateral del espacio de Genie cerca del lado izquierdo de la pantalla.
  2. Haga clic en Ejecutar pruebas comparativas para iniciar la ejecución de pruebas.

Nota:

Si cierra esta página, la prueba comparativa se pausa automáticamente. Puede reanudar la prueba al volver a abrir la página.

Acceso a las evaluaciones de pruebas comparativas

Puede acceder a todas las evaluaciones comparativas para realizar un seguimiento de la precisión en el espacio de Genie a lo largo del tiempo. Al hacer clic en Icono de pruebas comparativas en la barra lateral izquierda de un espacio de Genie, aparece una lista con marcas de tiempo de ejecuciones de evaluación en la pestaña Evaluaciones. Si no se encuentra ninguna ejecución de evaluación, consulte Adición de preguntas de pruebas comparativas o Ejecución de preguntas de pruebas comparativas de ejecución.

Pantalla Evaluaciones como se describe en el texto siguiente.

En la pestaña Evaluaciones se muestra información general sobre las evaluaciones y su rendimiento notificado en las categorías siguientes:

Nombre de evaluación: marca de tiempo que indica cuándo se produjo una ejecución de evaluación. Haga clic en la marca de tiempo para ver los detalles de esa evaluación. Estado de ejecución: indica si la evaluación se ha completado, pausado o incorrecto. Si una ejecución de evaluación incluye preguntas comparativas que no tienen respuestas SQL predefinidas, se marca para su revisión en esta columna. Precisión: una evaluación numérica de la precisión en todas las preguntas comparativas. En el caso de las ejecuciones de evaluación que requieren revisión manual, una medida de precisión solo aparece después de que se hayan revisado esas preguntas. Creada por: indica el nombre del usuario que ejecutó la evaluación.

Revisión de evaluaciones individuales

Puede revisar las evaluaciones individuales para obtener una visión detallada de cada respuesta. Puede editar la evaluación de cualquier pregunta y actualizar los elementos que necesiten revisión manual.

Para revisar las evaluaciones individuales:

  1. Haga clic en Icono de pruebas comparativas Pruebas comparativas en la barra lateral del espacio de Genie cerca del lado izquierdo de la pantalla.

  2. Haga clic en la marca de tiempo de cualquier evaluación de la columna Nombre de evaluación para abrir una vista detallada de esa ejecución de prueba.

    Pantalla que muestra los resultados de una sola ejecución de evaluación. Todas las preguntas aparecen a la izquierda. Si procede, las preguntas individuales se muestran a la derecha con la salida del modelo y la salida de la verdad básica.

  3. Haga clic en una pregunta cerca del lado izquierdo de la pantalla para ver los detalles asociados. Use la pantalla de detalles de evaluación para realizar los pasos siguientes.

  4. Revise y compare la respuesta de salida del modelo con la respuesta de la verdad básica.

    Nota:

    Los resultados de estas respuestas aparecen en los detalles de evaluación de una semana. Después de una semana, los resultados ya no son visibles. La instrucción SQL generada y la instrucción SQL de ejemplo permanecen.

  5. Haga clic en la etiqueta icono Editar para editar la evaluación.

    Marque cada resultado como Bueno o Malo para obtener una puntuación precisa para esta evaluación.