Sdílet prostřednictvím


Kurátorování efektivního prostoru Genie

Cílem kurátorování prostoru Genie je vytvořit prostředí, ve kterém podnikoví uživatelé můžou klást otázky v přirozeném jazyce a získávat přesné a konzistentní odpovědi na základě jejich dat. Prostory Genie používají pokročilé modely, které generují sofistikované dotazy a chápou obecné světové znalosti.

Většinaobchodních Kurátoré používají metadata a pokyny, které Genie přesně interpretují a reagují na otázky podnikových uživatelů. Tento článek popisuje osvědčené postupy a principy, které vás povedou při vývoji úspěšného prostoru.

Osvědčené postupy pro definování nového prostoru

Následující části obsahují doporučené postupy pro vytvoření efektivního prostoru.

Začít malé

Curating a Genie space is an iterative process. Při vytváření nového prostoru začněte co nejmenším způsobem s minimálními pokyny a omezenou sadou otázek, na které můžete odpovědět. Potom můžete přidávat iterace na základě zpětné vazby a monitorování. Tento přístup pomáhá zjednodušit vytváření a údržbu vašeho prostoru a umožňuje efektivně ho spravovat v reakci na skutečné potřeby uživatelů.

Následující pokyny vám pomůžou vytvořit malý prostor Genie:

  • Zůstaňte soustředění: Zahrňte pouze tabulky potřebné k zodpovězení otázek, které má prostor zpracovávat. Snažte se o pět nebo méně tabulek. Čím více se výběr zaměřuje, tím lépe. Zúžení prostoru na malé množství dat je ideální, takže omezte počet sloupců v zahrnutých tabulkách.
  • Plánování iterace: Začněte minimálním nastavením prostoru a zaměřte se na základní tabulky a základní pokyny. Při upřesňování prostoru v průběhu času přidejte podrobnější pokyny a příklady místo toho, abyste se na začátku zaměřili na dokonalost.
  • Vycházejte z dobře anotovaných tabulek: Genie používá názvy sloupců a popisy katalogu Unity pro generování odpovědí. Jasné názvy sloupců a popisy pomáhají vytvářet vysoce kvalitní odpovědi. Popisy sloupců by měly nabízet přesné kontextové informace. Vyhněte se nejednoznačným nebo nepotřebným podrobnostem. Zkontrolujte přesnost a srozumitelnost vygenerovaných AI a používejte je jenom v případě, že jsou v souladu s tím, co byste zadali ručně.

Nadefinujte prostor odborníkem na doménu.

Efektivní tvůrce prostoru potřebuje porozumět datům a přehledům, které se z něj dají vyčíst. Datoví analytici, kteří mají zkušenosti s SQL, mají obvykle znalosti a dovednosti pro kurátorování prostoru.

Definování účelu prostoru

Určení konkrétní cílové skupiny a účelu vašeho prostoru vám pomůže určit, která data, pokyny a testovací otázky se mají použít. Prostor by měl odpovídat na otázky pro konkrétní téma a cílovou skupinu, nikoli obecné otázky napříč různými doménami.

Testování a úprava

Měli byste být prvním uživatelem vašeho prostoru. Po vytvoření nového prostoru začněte klást otázky. Pečlivě prozkoumejte JAZYK SQL vygenerovaný v reakci na vaše otázky. Pokud Genie nesprávně interpretuje data, otázky nebo obchodní žargon, můžete zasahovat úpravou generovaného SQL nebo poskytnutím dalších specifických pokynů. Pokračujte v testování a úpravách, dokud nedostanete spolehlivé odpovědi.

Jakmile si projdete otázku, můžete ji přidat jako srovnávací otázku, pomocí které můžete systematicky testovat a ohodnotit prostor pro celkovou přesnost. K otestování odpovědí Genie můžete použít varianty a různé formulace otázek. Viz Použití srovnávacích testů v prostoru Genie.

Informace o řešení chybných odpovědí najdete v tématu Řešení potíží.

Proveďte uživatelské testování

Po ověření kvality odezvy prostřednictvím testování rekrutujte firemního uživatele, aby vyzkoušel prostor Genie. Následující pokyny vám poskytnou plynulou cestu uživatele a shromáždí zpětnou vazbu k probíhajícímu vylepšování:

  • Nastavte očekávání, že jejich úkolem je pomoct vylepšit místnost.
  • Požádejte je, aby se zaměřili na testování na konkrétní téma a otázky, na které je prostor určený k zodpovězení.
  • Pokud obdrží nesprávnou odpověď, povzbuďte uživatele, aby do chatu přidali další pokyny a objasnění, aby odpověď upřesnili. Pokud je zadána správná odpověď, měli by se v budoucích interakcích vyvolat konečný dotaz, aby se minimalizovaly podobné chyby.
  • Dejte uživatelům vědět, že mají upvonit nebo downvot odpovědi pomocí integrovaného mechanismu zpětné vazby.
  • Pozvěte uživatele, aby sdíleli další zpětnou vazbu a nevyřešené otázky přímo s autory vesmíru. Autoři a editory můžou použít zpětnou vazbu k upřesnění pokynů, příkladů a důvěryhodných prostředků.

Zvažte poskytnutí školicích materiálů nebo písemného dokumentu s pokyny pro testování místnosti a poskytnutí zpětné vazby. Když podnikoví uživatelé prostor otestují, uvidíte otázky, které položili na kartě Historie . Pokračujte přidáním pokynů, které Genie správně interpretuje otázky a data, aby poskytovala přesné odpovědi. Další informace o monitorování prostorů Genie najdete v historii a zpětné vazbě .

Poznámka:

Podnikoví uživatelé musí být členy původního pracovního prostoru pro přístup k vašemu prostoru. Informace o tom, jak poskytnout příslušná oprávnění pro interakci s prostorem, najdete v části Požadovaná oprávnění .

Řešení problému

Následující části popisují, jak řešit běžné problémy.

Špatně pochopený obchodní žargon

Většina společností nebo domén má specifickou zkratku, kterou používají ke komunikaci o obchodních událostech. Pokud například odkazujete na rok, může to vždy znamenat fiskální rok a tento fiskální rok může začínat v únoru nebo březnu namísto ledna. Pokud chcete Genie umožnit zodpovědět tyto otázky přirozeně a přesně, uveďte pokyny, které explicitně mapují obchodní žargon na slova a koncepty Genie dokáže pochopit. Viz Pokyny k zadání.

Nesprávné použití tabulky nebo sloupce

Pokud se Genie pokouší načíst data z nesprávné tabulky nebo spustit analýzu nesprávných sloupců, můžete data upravit jedním z následujících způsobů:

  • Zadejte jasné a přesné popisy: Zkontrolujte tabulky a přidružená metadata a zkontrolujte, jestli terminologie použitá pro uživatele odpovídá terminologii odeslaných otázek. Pokud tomu tak není, upřesněte popis nebo přidejte pokyn, který mapuje terminologii použitou v tabulce na terminologii použitou v dané otázce.
  • Přidání ukázkových dotazů: Zadejte ukázkové dotazy SQL, které Může Genie použít, abyste se dozvěděli, jak reagovat na určité otázky. Viz Pokyny k zadání.
  • Odebrání tabulek nebo sloupců z prostoru: Některé tabulky můžou zahrnovat překrývající se sloupce nebo koncepty, což Genie ztěžuje zjistit, která data použít v odpovědi. Pokud je to možné, odeberte nepotřebné nebo překrývající se tabulky nebo sloupce. Můžete chtít vytvořit zobrazení, které obsahuje pouze potřebné sloupce.

Chyby filtrování

Vygenerované dotazy často obsahují WHERE klauzuli pro filtrování výsledků podle konkrétní hodnoty. Protože Genie nemá přehled o skutečných datech, může nastavit klauzuli WHERE tak, aby filtrovaly nesprávnou hodnotu. Může se například pokusit sladit název „Kalifornie“ s tím, když tabulka používá zkratky jako „CA“.

V takových situacích zkuste použít jednu z následujících strategií:

  • Pokud je sada hodnot sloupců přiměřeně malá, vytvořte výčet platných řetězců pro popis každého sloupce. Dejte uvozovky kolem hodnot typu řetězec, zejména pokud obsahují mezery nebo číslice. Někdy, pro běžné výčty, stačí říci, "Použít třímísmenný kód ISO" místo výpisu každé hodnoty státu.

Nesprávná spojení

Pokud v katalogu Unity nejsou definovány odkazy na cizí klíče, váš systém nemusí vědět, jak se různé tabulky mají spojit.

Zkuste implementovat jedno nebo několik následujících řešení:

  • Pokud je to možné, definujte odkazy na cizí klíč v katalogu Unity. Vizklauzule .
  • Zadejte ukázkové dotazy, ve kterých spojíte tabulky standardními způsoby.
  • Pokud relace cizího klíče tabulek nejsou zadané v katalogu Unity, zdokumentujte je v pokynech.

Pokud žádný z těchto kroků problém nevyřeší, připojte tabulku předem do zobrazení a použijte ji jako vstup místo toho. Tato strategie je užitečná pro složitější scénáře spojů, jako jsou samospoje.

Problémy s výpočty metrik

Způsob, jakým se metriky vypočítají a zahrnou, můžou být libovolně složité a zahrnují mnoho obchodních podrobností, kterým prostor nerozumí. To může vést k nesprávnému hlášení.

Zkuste implementovat jedno nebo několik následujících řešení:

  • Pokud se metriky agregují ze základních tabulek, uveďte ukázkové dotazy SQL, které spočítají každou souhrnnou hodnotu.
  • Pokud jsou vaše metriky předem vypočítané a sedí v agregovaných tabulkách, vysvětlete to v komentářích tabulky. Zadejte platné agregace pro každou metriku, pokud je možné metriky v této tabulce dále zahrnovat.
  • Pokud je SQL, který se pokoušíte vygenerovat, velmi komplikovaný, zkuste vytvořit pohledy, které už agregovaly metriky pro vaše prostředí.

Nesprávné výpočty založené na čase

Genie nemusí být vždy schopná odvodit časové pásmo reprezentované v datech nebo časovém pásmu, ve kterém je potřeba provést analýzu, pokud explicitně neposkytnete další pokyny.

Uveďte explicitnější pokyny s podrobnostmi o původním zdrojovém časovém pásmu, funkci převodu a cílovém časovém pásmu. Následující příklady ukazují, jak změnit obecné pokyny pro spolehlivější převody časových pásem:

  • Vždy převeďte časy na konkrétní časové pásmo: V tomto příkladu předpokládejme, že časové razítko zdroje je UTC a chcete mít výsledky v časovém pásmu America/Los_Angeles. Podle pokynů nahraďte <timezone-column> odpovídajícím názvem sloupce:
    • Časová pásma v tabulkách jsou v UTC.
    • Převeďte všechna časová pásma pomocí následující funkce: convert_timezone('UTC', 'America/Los_Angeles', <timezone-column>).
  • Převést formáty data a času mimo UTC na formát UTC: Pokud je výchozí časové pásmo pracovního prostoru UTC, ale uživatelé v Los Angeles musí odkazovat na dnes pro určitou sadu záznamů, přidejte do obecných pokynů k prostoru následující:
    • Pokud chcete odkazovat na dnes, použijte datum(convert_timezone('UTC', 'America/Los_Angeles', current_timestamp()))

Další informace a syntaxe najdete ve funkci convert_timezone .

Ignorování pokynů

I když jste vysvětlili tabulky a sloupce v komentářích a poskytli obecné pokyny, může se stát, že váš prostor je stále nepoužívá správně.

Vyzkoušejte jednu nebo více z následujících strategií:

  • Zadejte ukázkové dotazy, které správně používají tabulky. Ukázkové dotazy jsou zvláště efektivní pro výuku prostoru, jak používat vaše data.
  • Vytvářejte zobrazení z tabulek, které poskytují jednodušší zobrazení dat.
  • Projděte si pokyny a zkuste se zaměřit na místo odebráním irelevantních tabulek nebo pokynů.
  • Zkuste zahájit nový chat. Předchozí interakce můžou ovlivnit odpovědi Genie v jakémkoli daném chatu, ale spuštění nového chatu vám poskytne prázdný výchozí bod pro testování nových pokynů.

Problémy s výkonem

Když Genie potřebuje generovat mimořádně dlouhé dotazy nebo textové odpovědi, může trvat dlouhou dobu, než odpoví nebo dokonce vyprší časový limit během fáze myšlení.

Pokud chcete zvýšit výkon, vyzkoušejte jednu nebo několik následujících akcí:

  • K zapouzdření složitých dotazů použijte důvěryhodné zdroje nebo zobrazení. Viz Použití důvěryhodných prostředků v prostorech AI/BI Genie.
  • Pokud je to možné, zkraťte délku ukázkových dotazů SQL.
  • Pokud Genie začne generovat pomalé nebo neúspěšné odpovědi, začněte nový chat.

Nespolehlivé odpovědi na kritické otázky

Pomocí důvěryhodných prostředků můžete poskytnout ověřené odpovědi na konkrétní otázky, které očekáváte, že se uživatelé budou ptát. Viz Použití důvěryhodných prostředků v prostorech AI/BI Genie.

Upozornění limitu tokenu

Tokeny jsou základní jednotky textu, které Genie používá ke zpracování a pochopení jazyka. Text zahrnutý jako instrukce nebo metadata v prostoru Genie se převede na tokeny. Pokud se počet tokenů ve vašem prostoru blíží limitu, produkt vás upozorní upozorněními. Genie použije inteligentní filtrování kontextu k výběru tokenů, které představují metadata a některé typy instrukcí zahrnutých v prostoru Genie. I když limit překročíte, prostor by měl dál generovat odpovědi na otázky.

Pokud se prostor Genie přiblíží limitu tokenů, může Genie upřednostnit zahrnutí pouze těch částí schématu tabulky a pokynů, které jsou pro danou otázku nejrelevantnější. To může snížit kvalitu odezvy, pokud se odfiltruje důležitý kontext. Pokud chcete snížit počet tokenů, zvažte následující postupy:

  • Odebrání nepotřebných sloupců: Nepotřebné sloupce v tabulkách můžou významně přispět k používání tokenů. Vytvořte zobrazení pro vyloučení redundantních nebo ne essentialních polí z nezpracovaných tabulek.
  • Zjednodušení popisů sloupců: I když jsou popisy sloupců důležité, vyhněte se duplikování informací, které už názvy sloupců předávají. Pokud je například sloupec pojmenovaný account_name, může být nadbytečný popis, například "název vašeho účtu", a je možné ho vynechat.
  • Zjednodušení pokynů: Ověřte, že jsou vaše pokyny jasné a stručné. Vyhněte se zbytečným slovům.
  • vyřadit ukázkové příkazy SQL: Zahrňte různorodou škálu ukázkových příkazů SQL, které pokrývají různé typy otázek, ale odstraňte překrývající se nebo redundantní příklady.

Váš účet není povolený pro zpracování mezi geografickou výjimkou.

Genie je určená služba spravovaná službou Azure Databricks. Určené služby používají geos Databricks ke správě rezidence dat. V některých oblastech nelze data zpracovat ve stejné geografické oblasti jako pracovní prostor. Pokud je váš pracovní prostor v jedné z těchto oblastí, musí správce účtu povolit křížové zpracování .

Dosažení limitů propustnosti

Propustnost prostorů Genie je omezená na 20 otázek za minutu na pracovní prostor ve všech prostorech Genie.