Koncepty moderování textu

Článek
11/23/2024

Důležité

Azure Content Moderator je od února 2024 zastaralý a do února 2027 bude vyřazený. Nahrazuje ji Azure AI Content Safety, která nabízí pokročilé funkce AI a vyšší výkon.

Azure AI Content Safety je komplexní řešení navržené k detekci škodlivého uživatelem generovaného a generovaného obsahu umělé inteligence v aplikacích a službách. Azure AI Content Safety je vhodný pro mnoho scénářů, jako jsou online marketplace, herní společnosti, platformy sociálních zpráv, podnikové mediální společnosti a poskytovatelé řešení pro vzdělávání K-12. Tady je přehled jeho funkcí a možností:

Rozhraní API pro rozpoznávání textu a obrázků: Prohledávat text a obrázky pro sexuální obsah, násilí, nenávist a sebepoškozování s několika úrovněmi závažnosti.
Content Safety Studio: Online nástroj navržený ke zpracování potenciálně urážlivého, rizikového nebo nežádoucího obsahu pomocí našich nejnovějších modelů strojového učení s kon režim stanu ration. Poskytuje šablony a přizpůsobené pracovní postupy, které uživatelům umožňují vytvářet vlastní systémy kon režim stanu ration.
Podpora jazyků: Azure AI Content Safety podporuje více než 100 jazyků a je speciálně vytrénovaný v angličtině, němčině, japonštině, španělštině, francouzštině, italštině, portugalštině a čínštině.

Azure AI Content Safety poskytuje robustní a flexibilní řešení pro potřeby kon režim stanu race. Přechodem z Content Moderatoru na Azure AI Content Safety můžete využít nejnovější nástroje a technologie, abyste zajistili, že váš obsah bude vždy moderovaný na vaše přesné specifikace.

Přečtěte si další informace o bezpečnosti obsahu Azure AI a prozkoumejte, jak může zvýšit úroveň strategie kon režim stanu ration.

Modely moderování textu v Azure Content Moderatoru můžete použít k analýze textového obsahu, jako jsou chatovací místnosti, diskuzní vývěsky, chatovací roboti, katalogy elektronického obchodování a dokumenty.

Odpověď služby zahrnuje následující informace:

Vulgární výrazy: porovnávání termínů s integrovaným seznamem vulgárních termínů v různých jazycích
Klasifikace: klasifikace s asistencí počítače do tří kategorií
Osobní údaje
Automaticky opravovaný text
Original text
Jazyk

Vulgární výrazy

Pokud rozhraní API zjistí nějaké vy profánní výrazy v některém z podporovaných jazyků, jsou tyto termíny zahrnuty do odpovědi. Odpověď obsahuje také jejich umístění (Index) v původním textu. Následující ListId ukázkový JSON odkazuje na termíny nalezené v seznamech vlastních termínů, pokud jsou k dispozici.

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }

Poznámka:

language Pro parametr přiřaďte eng nebo nechte prázdný, aby se zobrazila odpověď na klasifikaci s asistencí počítače (funkce Preview). Tato funkce podporuje pouze angličtinu.

Pro detekci vulgárních výrazů použijte kód ISO 639-3 podporovaných jazyků uvedených v tomto článku nebo nechte prázdný.

Klasifikace

Funkce strojové klasifikace textu Content Moderatoru podporuje pouze angličtinu a pomáhá detekovat potenciálně nežádoucí obsah. Obsah s příznakem může být vyhodnocen jako nevhodný v závislosti na kontextu. Vyjadřuje pravděpodobnost každé kategorie. Tato funkce používá trénovaný model k identifikaci možného urážlivého, hanlivého nebo diskriminačního jazyka. To zahrnuje slang, zkrácená slova, urážlivá a záměrně nesprávně napsaná slova.

Následující extrakce v extrahování JSON ukazuje příklad výstupu:

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

Vysvětlení

Category1 označuje potenciální přítomnost jazyka, který může být v určitých situacích považován za sexuálně explicitní nebo dospělý.
Category2 označuje potenciální přítomnost jazyka, který může být považován za sexuálně sugestivní nebo zralé v určitých situacích.
Category3 označuje potenciální přítomnost jazyka, který může být v určitých situacích považován za urážlivý.
Score je mezi 0 a 1. Čím vyšší je skóre, tím vyšší je pravděpodobnost, že kategorie může být použitelná. Tato funkce spoléhá na statistický model, nikoli na ručně zakódované výsledky. Doporučujeme testovat s vlastním obsahem, abyste zjistili, jak jednotlivé kategorie odpovídají vašim požadavkům.
ReviewRecommended je true nebo false v závislosti na prahových hodnotách interního skóre. Zákazníci by měli posoudit, jestli tuto hodnotu použít, nebo se rozhodnout o vlastních prahových hodnotách na základě zásad obsahu.

Osobní údaje

Funkce osobních údajů detekuje potenciální přítomnost těchto informací:

E-mailová adresa
Poštovní adresa USA
IP adresa
Telefonní číslo USA

Následující příklad ukazuje ukázkovou odpověď:

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

Automatické opravy

Odpověď na moderování textu může volitelně vrátit text s použitými základními automatickými opravami.

Například následující vstupní text obsahuje chybně napsaný text.

Rychlá hnědá liška přeskakuje přes lazzyho psa.

Pokud zadáte automatické opravy, odpověď obsahuje opravenou verzi textu:

Rychlá hnědá liška přeskakuje přes opožděného psa.

Vytvoření a správa vlastních seznamů termínů

I když ve většině případů funguje globální seznam termínů skvěle, možná budete chtít zobrazit podmínky, které jsou specifické pro vaše obchodní potřeby. Můžete například chtít vyfiltrovat jména konkurenčních značek od příspěvků od uživatelů.

Poznámka:

Existuje maximální limit pěti seznamů termínů, přičemž každý seznam nesmí překročit 10 000 termínů.

Následující příklad ukazuje odpovídající ID seznamu:

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }

Content Moderator poskytuje rozhraní API seznamu termínů s operacemi pro správu vlastních seznamů termínů. Pokud znáte Visual Studio a C#, projděte si rychlý start se seznamy termínů .NET.

Rychlý start: Použití klientské knihovny Content Moderatoru

Sdílet prostřednictvím

Koncepty moderování textu

Vulgární výrazy

Klasifikace

Vysvětlení

Osobní údaje

Automatické opravy

Vytvoření a správa vlastních seznamů termínů

Další materiály

Sdílet prostřednictvím

Koncepty moderování textu

Vulgární výrazy

Klasifikace

Vysvětlení

Osobní údaje

Automatické opravy

Vytvoření a správa vlastních seznamů termínů

Související obsah

Další materiály