Verwenden von Benchmarks in einem Genie-Raum
Wichtig
Dieses Feature befindet sich in der Public Preview.
In diesem Artikel wird erläutert, wie Benchmarks verwendet werden, um die Genauigkeit Ihres Genie-Raums zu bewerten.
Mit Benchmarks können Sie eine Reihe von Testfragen erstellen, die Sie ausführen können, um die Gesamtantwortgenauigkeit von Genie zu bewerten. Eine gut gestaltete Reihe von Benchmarks, die die am häufigsten gestellten Benutzerfragen abdecken, hilft ihnen, die Genauigkeit Ihres Genie-Raums zu bewerten, während Sie sie verfeinern.
Hinzufügen von Benchmarkfragen
Benchmark-Fragen sollten verschiedene Methoden zum Ausdrücken der häufig gestellten Fragen darstellen, die Ihre Benutzer stellen. Sie können sie verwenden, um die Antwort von Genie auf Variationen in Frageausdrücken oder verschiedenen Frageformaten zu überprüfen.
Beim Erstellen einer Benchmark-Frage können Sie optional eine SQL-Abfrage einschließen, deren Resultset die richtige Antwort ist. Während der Benchmark-Ausführung wird die Genauigkeit bewertet, indem das Resultset aus Ihrer SQL-Abfrage mit dem Resultset verglichen wird, das von Genie generiert wurde.
Um eine Benchmark-Frage hinzuzufügen, führen Sie die folgenden Schritte aus:
Klicken Sie in einem Genie-Raum auf in der linken Randleiste.
Klicken Sie auf die Registerkarte Fragen. Klicken Sie dann auf Benchmark hinzufügen.
Geben Sie im Feld Frage eine Benchmark-Frage ein, die getestet werden soll.
(Optional) Geben Sie die SQL-Anweisung ein, die die eingegebene Frage genau beantwortet.
Hinweis
Dieser Schritt wird empfohlen. Nur Fragen, die diese Beispiel-SQL-Anweisung enthalten, können automatisch auf Genauigkeit überprüft werden. Alle Fragen, die keine SQL-Antwort enthalten, erfordern eine manuelle Überprüfung der Bewertung.
(Optional) Klicken Sie auf Vorschau, um Ihre Abfrage auszuführen und die Ergebnisse anzuzeigen.
Wenn Sie mit der Bearbeitung fertig sind, klicken Sie auf Benchmark hinzufügen.
Wenn Sie eine Frage nach dem Speichern aktualisieren möchten, klicken Sie auf das Stiftsymbol, um das Dialogfeld Frage aktualisieren zu öffnen.
Verwenden von Benchmarks zum Testen alternativer Frageausdrücke
Bei der Bewertung der Genauigkeit Ihres Genie-Raums ist es wichtig, Tests zu strukturieren, um realistische Szenarien widerzuspiegeln. Benutzer stellen möglicherweise dieselbe Frage auf unterschiedliche Weise. Databricks empfiehlt, mehrere Ausdrücke derselben Frage hinzuzufügen und dieselbe Beispiel-SQL in Ihren Benchmark-Tests zu verwenden, um die Genauigkeit vollständig zu bewerten. Die meisten Genie-Räume sollten 2 - 4 Ausdrücke derselben Frage enthalten.
Ausführen von Benchmark-Fragen
Benutzer mit mindestens CAN EDIT-Berechtigungen in einem Genie-Raum können jederzeit eine Benchmark-Ausführung erstellen, die automatisch in allen Benchmark-Fragen ausgewertet wird. Um jede Benchmark-Frage zu bewerten, werden wir zuerst die Frage an Genie übermitteln und dann die Genie-Ergebnisse mit dem Benchmark vergleichen. Eine der folgenden Bezeichnungen wird auf jeden Benchmark angewendet:
- Gut: Antworten werden mit dieser Bezeichnung gekennzeichnet, wenn das von Genie generierte Abfrageergebnis mit den Ergebnissen der bereitgestellten SQL-Antwort übereinstimmt. Wenn eine Antwort als Gut gekennzeichnet ist, bedeutet dies, dass die Zeilenwerte genau übereinstimmen, unabhängig von Sortierreihenfolgen- oder Spaltennamen.
- Überprüfung erforderlich: Antworten werden mit dieser Bezeichnung gekennzeichnet, wenn Genie die Korrektheit nicht bewerten kann oder wenn von Genie generierte Abfrageergebnisse nicht mit den Ergebnissen der bereitgestellten SQL-Antwort übereinstimmen. Wenn unerwartete Änderungen an Tabellendimensionen in der generierten Antwort oder der bereitgestellten SQL-Antwort vorliegen, kann die Frage zur Überprüfung markiert werden. Alle Benchmark-Fragen, die keine SQL-Antwort enthalten, müssen manuell überprüft werden.
- Schlecht: Antworten werden niemals automatisch als Schlecht bezeichnet. Wenn von Genie generierte Abfrageergebnisse nicht mit dem Resultset aus der bereitgestellten SQL-Antwort übereinstimmen, wird die Frage als Bedarfsüberprüfung markiert. Wenn Sie diese Benchmarks überprüfen, können Sie ein Ergebnis als Schlecht markieren, wenn Sie denken, dass Genies generierte Abfrageergebnisse die Frage nicht beantworten.
So führen Sie alle Benchmark-Fragen aus:
- Klicken Sie auf Benchmarks in der Randleiste des Genie-Bereichs nahe der linken Seite des Bildschirms.
- Klicken Sie auf Benchmarks ausführen, um die Testausführung zu starten.
Hinweis
Wenn Sie diese Seite schließen, wird der Benchmark automatisch angehalten. Sie können den Test fortsetzen, wenn Sie die Seite erneut öffnen.
Zugriff Benchmark-Bewertungen
Sie können im Laufe der Zeit auf alle Ihre Benchmark-Bewertungen zugreifen, um die Genauigkeit in Ihrem Genie-Raum nachzuverfolgen. Wenn Sie in einem Genie-Raum auf auf der linken Randleiste klicken, wird auf der Registerkarte Bewertungen eine Zeitstempelliste mit Bewertungsauführungen angezeigt. Wenn keine Bewertungsausführungen gefunden werden, lesen Sie Hinzufügen von Benchmark-Fragen oder Ausführen von Benchmark-Fragen.
Auf der Registerkarte Bewertungen finden Sie eine Übersicht über Bewertungen und deren Leistung in den folgenden Kategorien:
Bewertungsname: Ein Zeitstempel, der angibt, wann eine Bewertung-Ausführung erfolgte. Klicken Sie auf den Zeitstempel, um Details zu dieser Bewertung anzuzeigen. Ausführungsstatus: Gibt an, ob die Bewertung abgeschlossen, angehalten oder nicht erfolgreich ist. Wenn eine Bewertungsausführung Benchmark-Fragen enthält, die keine vordefinierten SQL-Antworten enthalten, wird sie für die Überprüfung in dieser Spalte markiert. Genauigkeit: Eine numerische Bewertung der Genauigkeit in allen Benchmark-Fragen. Bei Bewertungsläufen, die eine manuelle Überprüfung erfordern, wird erst nach der Überprüfung dieser Fragen ein Genauigkeitsmaß angezeigt. Erstellt von: Gibt den Namen des Benutzers an, der die Bewertung ausgeführt hat.
Überprüfen einzelner Bewertungen
Sie können einzelne Bewertungen überprüfen, um einen detaillierten Blick auf jede Antwort zu erhalten. Sie können die Bewertung für jede Frage bearbeiten und alle Elemente aktualisieren, die eine manuelle Überprüfung benötigen.
So überprüfen Sie einzelne Bewertungen:
Klicken Sie auf Benchmarks in der Randleiste des Genie-Bereichs nahe der linken Seite des Bildschirms.
Klicken Sie auf den Zeitstempel für eine beliebige Bewertung in der Spalte Auswertungsname, um eine detaillierte Ansicht dieser Testausführung zu öffnen.
Klicken Sie auf eine Frage auf der linken Seite des Bildschirms, um die zugehörigen Details anzuzeigen. Verwenden Sie den Bildschirm mit den Bewertungsdetails, um die nächsten Schritte auszuführen.
Überprüfen und vergleichen Sie die Modellausgabe-Antwort mit der Antwort der Grundwahrheit.
Hinweis
Die Ergebnisse dieser Antworten werden in den Bewertungsdetails für eine Woche angezeigt. Nach einer Woche sind die Ergebnisse nicht mehr sichtbar. Die generierte SQL-Anweisung und die SQL-Beispiel-Anweisung bleiben bestehen.
Klicken Sie auf auf der Bezeichnung, um die Bewertung zu bearbeiten.
Markieren Sie jedes Ergebnis als Gut oder Schlecht, um eine genaue Bewertung für diese Auswertung zu erhalten.