Sdílet prostřednictvím


Termíny a definice používané ve vlastní klasifikaci textu

V tomto článku se dozvíte o některých definicích a termínech, se kterými se můžete setkat při používání vlastní klasifikace textu.

Třída

Třída je uživatelsky definovaná kategorie, která označuje celkovou klasifikaci textu. Vývojáři před předáním dat do modelu pro trénování označí svá data svými třídami.

F1 – skóre

Skóre F1 je funkce přesnosti a úplnosti. Je potřeba, když hledáte rovnováhu mezi přesností a úplností.

Model

Model je objekt, který je natrénovaný k určitému úkolu, v tomto případě úkoly klasifikace textu. Modely se trénují tak, že poskytují označená data, ze které se mají učit, aby je bylo možné později použít pro úlohy klasifikace.

  • Trénování modelů je proces výuky modelu, jak klasifikovat dokumenty na základě označených dat.
  • Vyhodnocení modelu je proces, který se děje hned po trénování, abyste věděli, jak dobře model funguje.
  • Nasazení je proces přiřazení modelu k nasazení, aby byl dostupný pro použití prostřednictvím rozhraní API pro predikce.

Počet deset. míst

Měří, jak přesný/přesný model je. Jedná se o poměr mezi správně identifikovanými pozitivními výsledky (pravdivě pozitivními výsledky) a všemi identifikovanými pozitivními výsledky. Metrika přesnosti ukazuje, kolik predikovaných tříd je správně označeno.

Projekt

Projekt je pracovní oblast pro vytváření vlastních modelů ML na základě vašich dat. K vašemu projektu může přistupovat jenom vy a ostatní, kteří mají přístup k používanému prostředku Azure. Předpokladem pro vytvoření vlastního projektu klasifikace textu je při vytváření nového projektu připojení prostředku k účtu úložiště s datovou sadou. Projekt automaticky zahrne všechny .txt soubory dostupné v kontejneru.

V rámci projektu můžete provést následující akce:

  • Označení dat: Proces označování dat tak, aby se při trénování modelu dozvěděl, co chcete extrahovat.
  • Sestavení a trénování modelu: Základní krok projektu, ve kterém se váš model začíná učit z označených dat.
  • Zobrazení podrobností o vyhodnocení modelu: Zkontrolujte výkon modelu a rozhodněte se, jestli je k dispozici prostor pro zlepšení, nebo jste s výsledky spokojení.
  • Nasazení: Po kontrole výkonu modelu a rozhodnutí, že je vhodné ho použít ve vašem prostředí, musíte ho přiřadit k nasazení, abyste ho mohli dotazovat. Přiřazení modelu k nasazení ho zpřístupní pro použití prostřednictvím rozhraní API pro predikce.
  • Testovací model: Po nasazení modelu můžete pomocí této operace v sadě Language Studio vyzkoušet nasazení a zjistit, jak by fungoval v produkčním prostředí.

Typy projektu

Vlastní klasifikace textu podporuje dva typy projektů.

  • Klasifikace s jedním popiskem – každému dokumentu v datové sadě můžete přiřadit jednu třídu. Například filmový skript může být klasifikován pouze jako "Romantika" nebo "Komie".
  • Klasifikace více popisků – pro každý dokument v datové sadě můžete přiřadit více tříd. Například filmový skript může být klasifikován jako "Comedy" nebo "Romance" a "Comedy".

Odvolat

Měří schopnost modelu předpovědět skutečné kladné třídy. Jedná se o poměr mezi predikovanými pravdivě pozitivními výsledky a skutečným příznakem. Metrika úplnosti ukazuje, kolik predikovaných tříd je správné.

Další kroky