Använda benchmarks i ett Genie-utrymme

Artikel
01/21/2025

Den här artikeln beskriver hur du använder benchmarks för att utvärdera noggrannheten i ditt Genie-utrymme.

Överblick

Med benchmarks kan du skapa en uppsättning testfrågor som du kan köra för att utvärdera Genie:s övergripande svarsnoggrannhet. En väl utformad uppsättning riktmärken som täcker de vanligaste användarfrågorna hjälper dig att utvärdera noggrannheten i ditt Genie-utrymme när du förfinar det.

Benchmark-frågor körs som nya konversationer. De har inte samma kontext som en trådad Genie-konversation. Varje fråga bearbetas som en ny fråga med hjälp av de instruktioner som definierats i utrymmet, inklusive eventuella exempel på SQL- och SQL-funktioner.

Exempel på riktmärken med noggrannhet som rapporterats i nio frågor.

Lägga till benchmark-frågor

Benchmark-frågor bör återspegla olika sätt att formulera vanliga frågor som användarna ställer. Du kan använda dem för att kontrollera Genie svar på variationer i frågefraser eller olika frågeformat.

När du skapar en referensfråga kan du välja att inkludera en SQL-fråga vars resultatuppsättning är rätt svar. Under benchmark-körningar utvärderas noggrannheten genom att jämföra resultatuppsättningen från DIN SQL-fråga med den som genereras av Genie.

Utför följande steg för att lägga till en referensfråga:

Klicka på i det vänstra sidofältet i ett Genie-blanksteg.
Klicka på fliken Frågor . Klicka sedan på Lägg till benchmark.
I fältet Fråga anger du en referensfråga som ska testas.
(Valfritt) Ange SQL-instruktionen som korrekt besvarar den fråga som du angav.

Kommentar

Det här steget rekommenderas. Endast frågor som innehåller det här exemplet sql-instruktion kan utvärderas automatiskt för noggrannhet. Alla frågor som inte innehåller ett SQL-svar kräver att manuell granskning poängsätts.
(Valfritt) Klicka på Kör för att köra frågan och visa resultatet.
När du är klar med redigeringen klickar du på Lägg till benchmark.
Om du vill uppdatera en fråga när du har sparat klickar du på pennikonen för att öppna dialogrutan Uppdatera fråga .

Använda benchmarks för att testa alternativa frågefraser

När du utvärderar noggrannheten i ditt Genie-utrymme är det viktigt att strukturera tester för att återspegla realistiska scenarier. Användare kan ställa samma fråga på olika sätt. Databricks rekommenderar att du lägger till flera fraser av samma fråga och använder samma exempel-SQL i dina benchmark-tester för att fullständigt utvärdera noggrannheten. De flesta Genie-blanksteg bör innehålla 2–4 fraser av samma fråga.

Frågor om körningsriktmärken

Användare med minst CAN EDIT-behörigheter i ett Genie-utrymme kan skapa en benchmark-körning när som helst, vilket automatiskt utvärderas i alla benchmark-frågor. För att utvärdera varje referensfråga skickar vi först frågan till Genie och jämför sedan Genie-resultaten med riktmärket. En av följande etiketter tillämpas på varje referensvärde:

Bra: Svar markeras med den här etiketten när det Genie-genererade frågeresultatet matchar resultatet från det angivna SQL-svaret. När ett svar är markerat som Bra innebär det att radvärdena matchar exakt, oavsett sorteringsordning eller kolumnnamn.
Behöver granskning: Svar markeras med den här etiketten när Genie inte kan bedöma korrekthet eller när Genie-genererade frågeresultat inte matchar resultatet från det angivna SQL-svaret. Om det finns oväntade ändringar i en tabelldimension i det genererade svaret eller det angivna SQL-svaret kan frågan markeras för granskning. Eventuella benchmark-frågor som inte innehåller ett SQL-svar måste granskas manuellt.
Dåligt: Svar märks aldrig automatiskt som Dåliga. Om Genie-genererade frågeresultat inte matchar resultatuppsättningen från det angivna SQL-svaret markeras frågan som Behovsgranskning. När du granskar dessa riktmärken kan du markera ett resultat som Dåligt om du inte tror att Genie:s genererade frågeresultat svarar på frågan.

Så här kör du alla benchmark-frågor:

Klicka på Benchmarks i genie-blankstegslisten nära skärmens vänstra sida.
Klicka på Kör prestandamått för att starta testkörningen.

Kommentar

Om du stänger den här sidan pausas prestandatestet automatiskt. Du kan återuppta testet när du öppnar sidan igen.

Utvärderingar av prestandamått för åtkomst

Du kan komma åt alla dina benchmark-utvärderingar för att spåra noggrannheten i ditt Genie-utrymme över tid. När du klickar på det vänstra sidofältet i ett Genie-blanksteg visas en tidsstämplad lista över utvärderingskörningar på fliken Utvärderingar . Om inga utvärderingskörningar hittas kan du läsa Lägga till benchmark-frågor eller köra benchmark-frågor.

Utvärderingsskärmen enligt beskrivningen i texten som följer.

Fliken Utvärderingar visar en översikt över utvärderingar och deras prestanda som rapporteras i följande kategorier:

Utvärderingsnamn: En tidsstämpel som anger när en utvärderingskörning inträffade. Klicka på tidsstämpeln för att se information om utvärderingen. Körningsstatus: Anger om utvärderingen har slutförts, pausats eller misslyckats. Om en utvärderingskörning innehåller benchmark-frågor som inte har fördefinierade SQL-svar markeras den för granskning i den här kolumnen. Noggrannhet: En numerisk bedömning av noggrannhet i alla benchmark-frågor. För utvärderingskörningar som kräver manuell granskning visas ett noggrannhetsmått först efter att dessa frågor har granskats. Skapad av: Anger namnet på den användare som körde utvärderingen.

Granska enskilda utvärderingar

Du kan granska enskilda utvärderingar för att få en detaljerad titt på varje svar. Du kan redigera utvärderingen för alla frågor och uppdatera alla objekt som behöver granskas manuellt.

Så här granskar du enskilda utvärderingar:

Klicka på Benchmarks i genie-blankstegslisten nära skärmens vänstra sida.
Klicka på tidsstämpeln för en utvärdering i kolumnen Utvärderingsnamn för att öppna en detaljerad vy över testkörningen.
Klicka på en fråga nära vänster sida av skärmen för att se den associerade informationen. Använd utvärderingsinformationsskärmen för att utföra nästa steg.
Granska och jämför modellutdatasvaret med grund sanningssvaret.

Kommentar

Resultatet av dessa svar visas i utvärderingsinformationen för en vecka. Efter en vecka visas inte längre resultaten. Den genererade SQL-instruktionen och SQL-exempel-instruktionen finns kvar.
Klicka på etiketten för att redigera utvärderingen.

Markera varje resultat som Bra eller Dåligt för att få en korrekt poäng för den här utvärderingen.

Dela via