Cvičení – moderování textu

Dokončeno

Contoso Camping Store poskytuje zákazníkům možnost mluvit s agentem zákaznické podpory využívajícím AI a posílejte recenze produktů. Mohli bychom použít model AI, abychom zjistili, jestli je textový vstup od našich zákazníků škodlivý, a později použít výsledky detekce k implementaci nezbytných opatření.

Bezpečný obsah

Pojďme nejprve otestovat zpětnou vazbu od některých pozitivních zákazníků.

  1. Na stránce Zabezpečení obsahu vyberte Moderování textového obsahu.

  2. Do pole Test zadejte následující obsah:

    Nedávno jsem použil PowerBurner Camping Kamna na mé kempování výlet, a musím říci, že to bylo fantastické! Bylo to snadné použití a tepelné ovládání bylo působivé. Skvělý produkt!

  3. Nastavte všechny úrovně prahových hodnot na střední. Snímek obrazovky kroku 2 na stránce moderování textu Zobrazí se textové pole s ukázkovým textem. Vedle textového pole jsou filtry prahových hodnot.

  4. Vyberte Spustit test.

Obsah je povolený a úroveň závažnosti je pro všechny kategorie bezpečná . Tento výsledek se očekává vzhledem k pozitivnímu a neschválnému mínění zpětné vazby zákazníka.

Snímek obrazovky s výsledky moderování textu Snímek obrazovky ukazuje, že obsah je povolený. Úroveň závažnosti pro všechny kategorie je bezpečná. Nastavení prahové hodnoty pro všechny kategorie je střední. A rozhodnutí pro všechny kategorie je povoleno.

Škodlivý obsah

Co se ale stane, když otestujeme škodlivý výrok? Pojďme testovat negativní zpětnou vazbu od zákazníků. I když je to v pořádku, nelíbí se nám produkt, nechceme kondomovat žádné volání nebo degradující příkazy.

  1. Do pole Test zadejte následující obsah:

    Nedávno jsem koupil stan a musím říct, že jsem opravdu zklamaný. Stanové póly se zdají být flimsy, a zipy jsou neustále zablokované. To není to, co jsem očekával od high-end stanu. Všichni sát a omlouváme se za značku.

  2. Nastavte všechny úrovně prahových hodnot na střední.

  3. Vyberte Spustit test.

    Snímek obrazovky s výsledky moderování textu Obsah je však povolený, úroveň závažnosti pro nenávist je nízká. Úroveň závažnosti je v bezpečí ve všech ostatních kategoriích.

    I když je obsah povolený, úroveň závažnosti pro nenávist je nízká. Abychom mohli model vést k blokování takového obsahu, musíme upravit úroveň prahové hodnoty pro nenávist. Nižší úroveň prahové hodnoty by blokovala veškerý obsah s nízkou, střední nebo vysokou závažností. Není místo pro výjimky!

  4. Nastavte úroveň prahové hodnoty pro nenávist na nízkou.

    Snímek obrazovky s nastavením konfigurace filtrů pro moderování textu Prahová hodnota pro kategorii nenávisti se zvýrazní a nastaví na nízkou hodnotu.

  5. Vyberte Spustit test.

Obsah je nyní blokován a byl odmítnut filtrem v kategorii Nenávist .

Snímek obrazovky s výsledky moderování textu Obsah je zablokovaný. Úroveň závažnosti pro kategorii nenávisti je nízká. Prahová hodnota pro kategorii nenávisti je nízká. Rozsudek kategorie nenávisti je zablokovaný.

Násilné obsah s chybným pravopisem

Nemůžeme předvídat, že veškerý textový obsah od našich zákazníků bude bez pravopisných chyb. Nástroj Moderování textového obsahu naštěstí dokáže detekovat škodlivý obsah i v případě, že obsah obsahuje pravopisné chyby. Pojďme tuto funkci otestovat na další názory zákazníků na incident s racoonem.

  1. Do pole Test zadejte následující obsah:

    Nedávno jsem koupil campin cooker, ale my jsme měli acident. Racon se dostal dovnitř, byl šokován a obarven. Jeho blod je po celém interiéru. Návody uklidit vařič?

  2. Nastavte všechny úrovně prahových hodnot na střední.

  3. Vyberte Spustit test.

Obsah je blokovaný, úroveň závažnosti pro násilí je Střední. Představte si scénář, ve kterém zákazník klade tuto otázku v konverzaci s agentem zákaznické podpory využívajícím AI. Zákazník doufá, že obdrží pokyny k čištění sporáku. Při odesílání této otázky nemusí být žádný špatný záměr, a proto může být lepší volbou neblokovat takový obsah. Jako vývojář zvažte různé scénáře, ve kterých může být takový obsah v pořádku, než se rozhodnete upravit filtr a blokovat podobný obsah.

Spuštění hromadného testu

Zatím jsme testovali textový obsah pro izolovaný textový obsah v jednotném čísle. Pokud ale máme hromadnou datovou sadu textového obsahu, mohli bychom hromadnou datovou sadu otestovat najednou a přijímat metriky na základě výkonu modelu.

Máme hromadnou datovou sadu příkazů poskytovaných zákazníky i agentem podpory. Datová sada obsahuje také škodlivé příkazy, které testují schopnost modelu detekovat škodlivý obsah. Každý záznam v datové sadě obsahuje popisek označující, jestli je obsah škodlivý. Datová sada se skládá z příkazů poskytovaných zákazníky a agenty zákaznické podpory. Pojďme udělat další testovací kolo, ale tentokrát s datovou sadou!

  1. Přepněte na kartu Spustit hromadný test .

  2. V části Vyberte ukázku nebo nahrajte vlastní oddíl, vyberte Vyhledat soubor. Vyberte soubor a nahrajte ho bulk-text-moderation-data.csv .

  3. V části Náhled datové sady projděte záznamy a odpovídající popisek. Hodnota 0 označuje, že obsah je přijatelný (není škodlivý). A 1 označuje, že obsah je nepřijatelný (škodlivý obsah).

    Snímek obrazovky s náhledem datové sady pro moderování hromadného textu Vlevo se zobrazí seznam záznamů a jejich odpovídající popisek. Oddíl pro konfiguraci filtrů se zobrazí vpravo.

  4. Nastavte všechny úrovně prahových hodnot na střední.

  5. Vyberte Spustit test.

Pro hromadné testy máme k dispozici jiný sortiment výsledků testů. Nejprve jsme dostali poměr povolených a blokovaných obsahu. Kromě toho obdržíme také metriku přesnosti, úplnosti a F1 skóre .

Snímek obrazovky s výsledky hromadného moderování textu

Metrika Přesnost ukazuje, kolik obsahu, který model identifikoval jako škodlivý, je ve skutečnosti škodlivý. Jedná se o měření přesnosti a přesnosti modelu. Maximální hodnota je 1.

Metrika úplnosti ukazuje, kolik skutečného škodlivého obsahu model správně identifikoval. Jedná se o měření schopnosti modelu identifikovat skutečný škodlivý obsah. Maximální hodnota je 1.

Metrika skóre F1 je funkce přesnosti a úplnosti. Metrika je potřebná, když hledáte rovnováhu mezi přesností a úplností. Maximální hodnota je 1.

Můžeme také zobrazit každý záznam a úroveň závažnosti v každé povolené kategorii. Sloupec Rozsudek se skládá z následujících:

  • Povoleno
  • Blokované
  • Povoleno s upozorněním
  • Blokováno s upozorněním

Upozornění značí, že obecný úsudek z modelu se liší od odpovídajícího popisku záznamu. Pokud chcete tyto rozdíly vyřešit, můžete upravit úrovně prahových hodnot v části Konfigurovat filtry a model vyladit.

Konečný výsledek, který jsme dostali, je rozdělení napříč kategoriemi. Tento výsledek bere v úvahu počet záznamů, které byly vyhodnoceny jako bezpečné , ve srovnání se záznamy odpovídající kategorie, které byly buď Nízké, Střední nebo Vysoké.

Snímek obrazovky se závažností distribuovanou podle výsledků kategorií

Na základě výsledků existuje prostor pro zlepšení? Pokud ano, upravte úrovně prahové hodnoty tak, aby metriky přesnosti, úplnosti a F1 skóre byly blíže 1.