Kurera ett effektivt Genie-utrymme
Målet med att kurera ett Genie-utrymme är att skapa en miljö där företagsanvändare kan ställa frågor på naturligt språk och få korrekta, konsekventa svar baserat på deras data. Genie spaces använder avancerade modeller som genererar avancerade frågor och förstår allmän världskunskap.
De flesta affärsfrågor är domänspecifika, så en rymdintendents roll är att överbrygga klyftan mellan den allmänna världskunskapen och det specialiserade språk som används i en specifik domän eller av ett visst företag. Kuratorer använder metadata och instruktioner för att hjälpa Genie att korrekt tolka och svara på affärsanvändares frågor. Den här artikeln beskriver metodtips och principer som hjälper dig att utveckla ett lyckat utrymme.
Metodtips för att definiera ett nytt utrymme
I följande avsnitt rekommenderas metoder för att skapa ett effektivt utrymme.
Starta litet
Att kurera ett Genie-utrymme är en iterativ process. När du skapar ett nytt utrymme börjar du så litet som möjligt, med minimala instruktioner och en begränsad uppsättning frågor att besvara. Sedan kan du lägga till allt eftersom du itererar baserat på feedback och övervakning. Den här metoden hjälper dig att effektivisera skapandet och upprätthålla ditt utrymme och gör att du kan kurera det effektivt som svar på verkliga användarbehov.
Använd följande riktlinjer för att skapa ett litet Genie-utrymme:
- Håll dig fokuserad: Inkludera endast de tabeller som behövs för att besvara de frågor som du vill att utrymmet ska hantera. Sikta på fem eller färre tabeller. Ju mer fokuserat ditt val är, desto bättre. Att hålla ditt utrymme begränsat fokuserat på en liten mängd data är idealiskt, så begränsa antalet kolumner i dina inkluderade tabeller.
- Planera att iterera: Börja med en minimal installation för ditt utrymme, med fokus på viktiga tabeller och grundläggande instruktioner. Lägg till mer detaljerad vägledning och exempel när du förfinar utrymmet över tid, snarare än att sikta på perfektion från början.
- Skapa på välanvända tabeller: Genie använder kolumnnamn och beskrivningar i Unity Catalog för att generera svar. Rensa kolumnnamn och beskrivningar hjälper dig att skapa högkvalitativa svar. Kolumnbeskrivningar bör ge exakt kontextuell information. Undvik tvetydig eller onödig information. Granska ai-genererade beskrivningar för noggrannhet och tydlighet och använd dem endast om de överensstämmer med vad du skulle tillhandahålla manuellt.
Låt en domänexpert definiera utrymmet
En effektiv rymdskapare måste förstå data och de insikter som kan hämtas från dem. Dataanalytiker som är skickliga i SQL har vanligtvis kunskaper och färdigheter för att kurera utrymmet.
Definiera syftet med ditt utrymme
Genom att identifiera ditt utrymmes specifika målgrupp och syfte kan du bestämma vilka data, instruktioner och testfrågor som ska användas. Ett utrymme bör besvara frågor för ett visst ämne och en viss målgrupp, inte allmänna frågor i olika domäner.
Testa och justera
Du bör vara ditt utrymmes första användare. När du har skapat ett nytt utrymme börjar du ställa frågor. Granska noggrant den SQL som genererats som svar på dina frågor. Om Genie misstolkar data, frågor eller affärsjargong kan du ingripa genom att redigera den genererade SQL-filen eller ge andra specifika instruktioner. Fortsätt att testa och redigera tills du får tillförlitliga svar.
När du har granskat en fråga kan du lägga till den som en referensfråga som du kan använda för att systematiskt testa och poängsätta ditt utrymme för övergripande noggrannhet. Du kan använda varianter och olika frågefraser för att testa Genie-svar. Se Använda benchmarks i ett Genie-utrymme.
Mer information om hur du åtgärdar felaktiga svar finns i Felsökning .
Bedriva användartester
När du har verifierat svarskvaliteten genom testningen kan du rekrytera en företagsanvändare för att prova Genie-utrymmet. Använd följande riktlinjer för att ge en smidig användarresa och samla in feedback för pågående förbättringar:
- Ställ in förväntningar på att deras jobb är att hjälpa till att förfina rummet.
- Be dem att fokusera sina tester på det specifika ämnet och frågor som utrymmet är utformat för att besvara.
- Om de får ett felaktigt svar uppmanar du användarna att lägga till ytterligare instruktioner och förtydliganden i chatten för att förfina svaret. När ett korrekt svar har angetts bör de använda den slutliga frågan för att minimera liknande fel i framtida interaktioner.
- Be användarna att använda den inbyggda feedbackmekanismen för att uppmana användarna att göra upp- eller nedröstningssvar.
- Be användarna att dela ytterligare feedback och olösta frågor direkt med rymdförfattarna. Författare och redigerare kan använda feedback för att förfina instruktioner, exempel och betrodda tillgångar.
Överväg att tillhandahålla utbildningsmaterial eller ett skriftligt dokument med riktlinjer för att testa rummet och ge feedback. När företagsanvändare testar utrymmet visas de frågor som de har ställt på fliken Historik . Fortsätt att lägga till instruktioner som hjälper Genie att tolka frågorna och data korrekt för att ge korrekta svar. Mer information om hur du övervakar Genie-utrymmen finns i Granska historik och feedback .
Kommentar
Företagsanvändare måste vara medlemmar i den ursprungliga arbetsytan för att få åtkomst till ditt utrymme. Se Nödvändiga behörigheter för att lära dig hur du ger rätt behörigheter för att interagera med utrymmet.
Felsökning
I följande avsnitt beskrivs hur du löser vanliga problem.
Missförstådd affärsjargong
De flesta företag eller domäner har specifika förkortningar som de använder för att kommunicera om affärsspecifika händelser. När du till exempel refererar till ett år kan det alltid betyda räkenskapsåret, och det här räkenskapsåret kan börja i februari eller mars i stället för januari. För att Genie ska kunna besvara dessa frågor på ett naturligt och korrekt sätt kan du ta med instruktioner som uttryckligen mappar din affärsjargong till ord och begrepp som Genie kan förstå. Se Ange instruktioner.
Felaktig tabell- eller kolumnanvändning
Om Genie försöker hämta data från en felaktig tabell eller köra analys på felaktiga kolumner kan du justera data på något av följande sätt:
- Ange tydliga och exakta beskrivningar: Kontrollera dina tabeller och tillhörande metadata för att kontrollera att den terminologi som används där matchar användarnas terminologi i inskickade frågor. Om den inte gör det förfinar du beskrivningen eller lägger till en instruktion som mappar terminologin som används i tabellen till den terminologi som används i frågan.
- Lägg till exempelfrågor: Ange SQL-exempelfrågor som Genie kan använda för att lära sig att svara på vissa frågor. Se Ange instruktioner.
- Ta bort tabeller eller kolumner från utrymmet: Vissa tabeller kan innehålla överlappande kolumner eller begrepp som gör det svårt för Genie att veta vilka data som ska användas i ett svar. Ta om möjligt bort onödiga eller överlappande tabeller eller kolumner. Du kanske vill skapa en vy som endast innehåller de kolumner som behövs.
Filtreringsfel
Genererade frågor innehåller ofta en WHERE
sats för att filtrera resultat enligt ett specifikt värde. Eftersom Genie inte har insyn i faktiska data kan den ange WHERE
att satsen ska filtrera efter fel värde. Den kan till exempel försöka matcha namnet "Kalifornien" när tabellen använder förkortningar som "CA".
I sådana här situationer kan du prova någon av följande strategier:
- Om uppsättningen med kolumnvärden är ganska liten räknar du upp de giltiga strängarna för varje kolumnbeskrivning. Placera citattecken runt strängvärden, särskilt om de har blanksteg eller tal. Ibland räcker det för vanliga uppräkningar att säga "Använd ISO-koden med tre bokstäver" i stället för att visa varje tillståndsvärde.
Felaktiga kopplingar
Om sekundärnyckelreferenser inte definieras i Unity-katalogen kanske ditt utrymme inte vet hur olika tabeller ska kopplas samman.
Prova att implementera en eller flera av följande lösningar:
- Definiera sekundärnyckelreferenser i Unity-katalogen när det är möjligt. Se CONSTRAINT-satsen.
- Ange exempelfrågor där du kopplar samman tabeller på standard sätt.
- Om tabellernas sekundärnyckelrelationer inte anges i Unity-katalogen dokumenterar du dem i anvisningarna.
Om inget av dessa löser problemet ansluter du tabellen i en vy och använder den som indata för utrymmet i stället. Den här strategin är användbar för mer komplexa kopplingsscenarier som självanslutningar.
Problem med måttberäkning
Det sätt på vilket mått beräknas och samlas in kan vara godtyckligt komplicerat och omfatta många affärsuppgifter som ditt utrymme inte förstår. Detta kan leda till felaktig rapportering.
Prova att implementera en eller flera av följande lösningar:
- Om dina mått aggregeras från bastabeller anger du exempel på SQL-frågor som beräknar varje sammanslagningsvärde.
- Om dina mått har förberäknats och sitter i aggregerade tabeller förklarar du detta i tabellkommenterar. Ange giltiga aggregeringar för varje mått om måtten i tabellen kan sammanställas ytterligare.
- Om sql-filen som du försöker generera är mycket komplicerad kan du prova att skapa vyer som redan har aggregerat dina mått för ditt utrymme.
Felaktiga tidsbaserade beräkningar
Genie kanske inte alltid kan härleda tidszonen som representeras i data eller tidszonen där analysen måste utföras om du inte uttryckligen ger ytterligare vägledning.
Inkludera mer tydliga instruktioner som beskriver den ursprungliga tidszonen, konverteringsfunktionen och måltidszonen. I följande exempel visas hur du ändrar de allmänna instruktionerna för mer tillförlitliga tidszonskonverteringar:
-
Konvertera alltid tider till en specifik tidszon: I det här exemplet förutsätter du att källtidsstämpeln är
UTC
och att du vill ha resultat iAmerica/Los_Angeles
tidszon. Lägg till följande i anvisningarna som ersätter<timezone-column>
med lämpligt kolumnnamn:- Tidszoner i tabellerna finns i
UTC
. - Konvertera alla tidszoner med hjälp av följande funktion:
convert_timezone('UTC', 'America/Los_Angeles', <timezone-column>)
.
- Tidszoner i tabellerna finns i
-
Konvertera icke-UTC-datum- och tidsformat till UTC: Om standardtidszonen för arbetsytan är
UTC
men användare i Los Angeles behöver referera till idag för en specifik uppsättning poster, lägg till följande i arbetsytans generella instruktioner:- Om du vill referera till i daganvänder du "date(convert_timezone("UTC", "America/Los_Angeles", current_timestamp()))
Mer information och syntax finns i convert_timezone funktion.
Ignorera instruktioner
Även om du har förklarat tabeller och kolumner i kommentarer och gett allmänna instruktioner kanske ditt utrymme fortfarande inte använder dem korrekt.
Prova en eller flera av följande strategier:
- Ange exempelfrågor som använder tabellerna korrekt. Exempelfrågor är särskilt effektiva för att lära ditt utrymme hur du använder dina data.
- Skapa vyer från dina tabeller som ger en mer förenklad vy av dina data.
- Granska dina instruktioner och försök att fokusera utrymmet genom att ta bort irrelevanta tabeller eller instruktioner.
- Prova att starta en ny chatt. Tidigare interaktioner kan påverka Genie svar i en viss chatt, men om du startar en ny chatt får du en tom startpunkt för att testa nya instruktioner.
Prestandaproblem
När Genie behöver generera exceptionellt långa frågor eller textsvar kan det ta lång tid att svara eller till och med ta en timeout under tankefasen.
Prova en eller flera av följande åtgärder för att förbättra prestandan:
- Använd betrodda tillgångar eller vyer för att kapsla in komplexa frågor. Se Använda betrodda tillgångar i AI/BI Genie-utrymmen.
- Minska längden på dina SQL-exempelfrågor när det är möjligt.
- Starta en ny chatt om Genie börjar generera långsamma eller misslyckade svar.
Otillförlitliga svar på verksamhetskritiska frågor
Använd betrodda tillgångar för att ge verifierade svar på specifika frågor som du förväntar dig att användarna ska ställa. Se Använda betrodda tillgångar i AI/BI Genie-utrymmen.
Varning om tokengräns
Token är de grundläggande textenheterna som Genie använder för att bearbeta och förstå språk. Text som ingår som instruktioner eller metadata i ett Genie-blanksteg konverteras till token. Om antalet token i ditt utrymme närmar sig gränsen meddelar produkten dig med varningar. Genie använder smart kontextfiltrering för att välja de token som representerar metadata och vissa typer av instruktioner som ingår i Genie-utrymmet. Även om du överskrider gränsen bör utrymmet fortsätta att generera svar på frågor.
Om ditt Genie-utrymme närmar sig tokengränsen kan Genie prioritera att endast inkludera de delar av tabellschemat och instruktioner som är mest relevanta för frågan. Detta kan minska svarskvaliteten om viktig kontext filtreras bort. Överväg följande metoder för att minska antalet token:
- Ta bort onödiga kolumner: Onödiga kolumner i dina tabeller kan avsevärt bidra till tokenanvändning. Skapa vyer för att undanta redundanta eller icke-nödvändiga fält från dina råtabeller.
-
Effektivisera kolumnbeskrivningar: Även om kolumnbeskrivningar är viktiga bör du undvika att duplicera information som redan förmedlas av kolumnnamn. Om en kolumn till exempel heter
account_name
kan en beskrivning som "namnet på ditt konto" vara redundant och kan utelämnas. - Förenkla anvisningarna: Kontrollera att instruktionerna är tydliga och koncisa. Undvik onödiga ord.
- Beskära SQL-exempelinstruktioner: Inkludera en mängd olika SQL-exempelinstruktioner för att täcka olika typer av frågor men ta bort överlappande eller redundanta exempel.
Ditt konto är inte aktiverat för cross-Geo-bearbetning
Genie är en utsedd tjänst som hanteras av Azure Databricks. Utsedda tjänster använder Databricks Geos för att hantera datahemvist. För vissa regioner kan data inte bearbetas i samma geo som arbetsytan. Om din arbetsyta finns i någon av dessa regioner måste kors-geo-bearbetning aktiveras av kontoadministratören.
Nå dataflödesgränser
Dataflödet för Genie-utrymmen är begränsat till 20 frågor per minut per arbetsyta, i alla Genie-utrymmen.