Partager via


Utiliser des points de référence dans un espace Genie

Cet article explique comment utiliser des points de référence pour évaluer la précision de votre espace Genie.

Aperçu

Les points de référence vous permettent de créer un ensemble de questions de test que vous pouvez exécuter pour évaluer la précision globale de la réponse de Genie. Un ensemble bien conçu de points de référence couvrant les questions utilisateur les plus fréquemment posées permet d’évaluer la précision de votre espace Genie à mesure que vous l’affinez.

Exemples de benchmarks avec précision rapportée sur neuf questions.

Ajouter des questions de point de référence de référence

Les questions de point de référence doivent refléter différentes façons de formuler les questions courantes que vos utilisateurs posent. Vous pouvez les utiliser pour vérifier la réponse de Genie aux variantes de formulation des questions ou à différents formats de questions.

Lors de la création d’une question de point de référence, vous pouvez éventuellement inclure une requête SQL dont le jeu de résultats est la réponse correcte. Pendant les exécutions de point de référence, la précision est évaluée en comparant le jeu de résultats de votre requête SQL à celle générée par Genie.

Pour ajouter une question de point de référence, procédez comme suit :

  1. Cliquez sur Icône Points de référence dans la barre latérale gauche dans un espace Genie.

  2. Cliquez sur l’onglet Questions. Cliquez ensuite sur Ajouter un point de référence.

  3. Dans le champ Question, entrez une question de point de référence à tester.

  4. (Facultatif) Entrez l’instruction SQL qui répond avec précision à la question que vous avez entrée.

    Remarque

    Cette étape est recommandée. Seules les questions qui incluent cet exemple d’instruction SQL peuvent être évaluées automatiquement pour la précision. Toutes les questions qui n’incluent pas de Réponse SQL nécessitent une révision manuelle à évaluer.

  5. (Facultatif) Cliquez sur Exécuter pour exécuter votre requête et afficher les résultats.

  6. Une fois la modification terminée, cliquez sur Ajouter un point de référence.

  7. Pour mettre à jour une question après l’enregistrement, cliquez sur l’icône de crayon Icône Modifier pour ouvrir la boîte de dialogue Mettre à jour la question.

Utiliser des points de référence pour tester d’autres formulations de questions

Lors de l’évaluation de la précision de votre espace Genie, il est important de structurer les tests pour refléter des scénarios réalistes. Les utilisateurs peuvent poser la même question de différentes manières. Databricks recommande d’ajouter plusieurs formulations de la même question et d’utiliser le même exemple SQL dans vos tests de point de référence pour évaluer entièrement la précision. La plupart des espaces Genie devraient inclure de deux à quatre formulations de la même question.

Exécuter des questions de point de référence de référence

Les utilisateurs disposant au moins d’autorisations PEUT MODIFIER dans un espace Genie peuvent créer une exécution de point de référence à tout moment, ce qui évaluera automatiquement toutes les questions d’évaluation. Pour évaluer chaque question de point de référence, nous allons d’abord soumettre la question à Genie, puis comparer les résultats de Genie par rapport au point de référence. L’une des étiquettes suivantes est appliquée à chaque point de référence :

  • Bonne : les réponses sont marquées avec cette étiquette lorsque le résultat de la requête généré par Genie correspond aux résultats de la Réponse SQL fournie. Lorsqu’une réponse est marquée comme Bonne, cela signifie que les valeurs de ligne correspondent exactement, quel que soit l’ordre de tri ou les noms de colonnes.
  • À revoir : les réponses sont marquées avec cette étiquette lorsque Genie ne peut pas évaluer l’exactitude ou lorsque les résultats de requête générés par Genie ne correspondent pas aux résultats de la Réponse SQL fournie. En cas de modifications inattendues des dimensions d’un tableau dans la réponse générée ou dans la réponse SQL fournie, la question peut être marquée pour révision. Toutes les questions de référence qui n’incluent pas de Réponse SQL doivent être examinées manuellement.
  • Mauvaise : les réponses ne sont jamais étiquetées automatiquement comme Mauvaise. Si les résultats de requête générés par Genie ne correspondent pas au jeu de résultats fourni à partir de la Réponse SQL fournie, la question est marquée comme À revoir. Lorsque vous passez en revue ces points de référence, vous pouvez marquer un résultat comme Mauvais si vous ne pensez pas que les résultats de requête générés par Genie répondent à la question.

Pour exécuter toutes les questions de point de référence :

  1. Cliquez sur Icône Points de référencePoints de référence dans la barre latérale de l’espace Genie près du côté gauche de l’écran.
  2. Cliquez sur Exécuter les points de référence pour démarrer l’exécution de test.

Remarque

Si vous fermez cette page, l’exécution du point de référence s’interrompt automatiquement. Vous pouvez reprendre le test lorsque vous rouvrez la page.

Évaluations des points de référence d’accès

Vous pouvez accéder à toutes vos évaluations de point de référence pour suivre la précision dans votre espace Genie au fil du temps. Lorsque vous cliquez sur Icône Points de référence dans la barre latérale gauche dans un espace Genie, une liste horodatée des exécutions d’évaluation s’affiche sous l’onglet Évaluations. Si aucune exécution d’évaluation n’est trouvée, consultez Ajouter des questions de point de référence ou exécuter des questions de point de référence.

Écran Évaluations, comme décrit dans le texte qui suit.

L’onglet Évaluations affiche une vue d’ensemble des évaluations et de leurs performances signalées dans les catégories suivantes :

Nom de l’évaluation : horodatage qui indique quand une exécution d’évaluation s’est produite. Cliquez sur l’horodatage pour afficher les détails de cette évaluation. Status d’exécution : indique si l’évaluation est terminée, suspendue ou échouée. Si une exécution d’évaluation inclut des questions de point de référence qui n’ont pas de réponses SQL prédéfinies, elle est marquée pour révision dans cette colonne. Précision : évaluation numérique de la précision dans toutes les questions de point de référence. Pour les exécutions d’évaluation qui nécessitent une révision manuelle, une mesure de précision n’apparaît qu’après la révision de ces questions. Créé par : indique le nom de l’utilisateur qui a exécuté l’évaluation.

Passer en revue les évaluations individuelles

Vous pouvez consulter les évaluations individuelles pour obtenir un aperçu détaillé de chaque réponse. Vous pouvez modifier l’évaluation pour toute question et mettre à jour tous les éléments qui ont besoin d’une révision manuelle.

Pour passer en revue les évaluations individuelles :

  1. Cliquez sur Icône Points de référencePoints de référence dans la barre latérale de l’espace Genie près du côté gauche de l’écran.

  2. Cliquez sur l’horodatage pour toute évaluation dans la colonne Nom de l’évaluation pour ouvrir une vue détaillée de cette exécution de test.

    Un écran qui montre les résultats d’une seule évaluation. Toutes les questions sont listées à gauche. Le cas échéant, les questions individuelles sont affichées à droite avec le résultat du modèle et le résultat de la vérité de base.

  3. Cliquez sur une question dans la partie gauche de l’écran pour voir les détails associés. Utilisez l’écran de détail de l’évaluation pour effectuer les étapes suivantes.

  4. Passez en revue et comparez la réponse du résultat du modèle à la réponse de la vérité de base.

    Remarque

    Les résultats de ces réponses apparaissent dans les détails de l’évaluation pendant une semaine. Après une semaine, les résultats ne sont plus visibles. L’instruction SQL générée et l’exemple d’instruction SQL restent.

  5. Cliquez sur Icône Modifier sur l’étiquette pour modifier l’évaluation.

    Marquez chaque résultat comme Bon ou Mauvais pour obtenir un score précis pour cette évaluation.