Definice a termíny rozpoznávání vlastních pojmenovaných entit
V tomto článku se dozvíte o některých definicích a termínech, se kterými se můžete setkat při použití vlastního operátoru NER.
Entity
Entita je rozsah textu, který označuje určitý typ informací. Rozsah textu se může skládat z jednoho nebo více slov. V oboru vlastního NER představují entity informace, které chce uživatel extrahovat z textu. Vývojáři označí entity ve svých datech s potřebnými entitami před jejich předáním do modelu pro trénování. Například "Číslo faktury", "Počáteční datum", "Číslo zásilky", "Birthplace", "Origin city", "Supplier name" nebo "Client address".
Například ve větě "John si půjčil 25 000 USD od Freda", entity mohou být:
Název nebo typ entity | Entity |
---|---|
Jméno dlužníka | John |
Jméno věřitele | Fred |
Částka půjčky | 25 000 USD |
F1 – skóre
Skóre F1 je funkce přesnosti a úplnosti. Je potřeba, když hledáte rovnováhu mezi přesností a úplností.
Model
Model je objekt, který je vytrénován k určitému úkolu, v tomto případě vlastní rozpoznávání entit. Modely se vytrénují tak, že poskytují označená data, ze které se mají učit, aby se později mohly použít pro úlohy rozpoznávání.
- Trénování modelu je proces výuky modelu, který se má extrahovat na základě označených dat.
- Vyhodnocení modelu je proces, který se děje hned po trénování, abyste věděli, jak dobře model funguje.
- Nasazení je proces přiřazení modelu k nasazení, aby byl dostupný pro použití prostřednictvím rozhraní API pro predikce.
Počet deset. míst
Měří, jak přesný/přesný model je. Jedná se o poměr mezi správně identifikovanými pozitivními výsledky (pravdivě pozitivními výsledky) a všemi identifikovanými pozitivními výsledky. Metrika přesnosti ukazuje, kolik predikovaných tříd je správně označeno.
Projekt
Projekt je pracovní oblast pro vytváření vlastních modelů ML na základě vašich dat. K vašemu projektu může přistupovat jenom vy a ostatní, kteří mají přístup k používanému prostředku Azure.
Předpokladem pro vytvoření vlastního projektu pro extrakci entit je při vytváření nového projektu připojení prostředku k účtu úložiště s datovou sadou. Projekt automaticky zahrne všechny .txt
soubory dostupné v kontejneru.
V projektu můžete provádět následující akce:
- Označení dat: Proces označování dat tak, aby se při trénování modelu dozvěděl, co chcete extrahovat.
- Sestavení a trénování modelu: Základní krok projektu, ve kterém se váš model začíná učit z označených dat.
- Zobrazení podrobností o vyhodnocení modelu: Zkontrolujte výkon modelu a rozhodněte se, jestli je k dispozici prostor pro zlepšení, nebo jste s výsledky spokojení.
- Nasazení: Po kontrole výkonu modelu a rozhodnutí, že ho můžete použít ve vašem prostředí, musíte ho přiřadit k nasazení, aby ho bylo možné použít. Přiřazení modelu k nasazení ho zpřístupní pro použití prostřednictvím rozhraní API pro predikce.
- Testovací model: Po nasazení modelu otestujte nasazení v sadě Language Studio a podívejte se, jak by to fungovalo v produkčním prostředí.
Odvolat
Měří schopnost modelu předpovědět skutečné kladné třídy. Jedná se o poměr mezi predikovanými pravdivě pozitivními výsledky a skutečným příznakem. Metrika úplnosti ukazuje, kolik predikovaných tříd je správné.