Nejčastější dotazy k rozpoznávání vlastních pojmenovaných entit

Článek
11/21/2024

Najděte odpovědi na nejčastější dotazy týkající se konceptů a scénářů souvisejících s vlastním NER v jazyce Azure AI.

Návody začít se službou?

Pokud chcete rychle vytvořit první projekt, podívejte se na rychlý start nebo si prohlédněte, jak vytvořit projekty, kde najdete podrobnější informace.

Jaká má služba omezení?

Další informace najdete v článku o omezeních služeb.

Kolik označených souborů je potřeba?

Obecně, různorodá a reprezentativní označená data vedou k lepším výsledkům vzhledem k tomu, že označování se provádí přesně, konzistentně a zcela. Neexistuje žádný počet označených instancí, které zajistí, aby každý model fungoval dobře. Výkon je vysoce závislý na vašem schématu a nejednoznačnost schématu. Nejednoznačné typy entit potřebují více značek. Výkon také závisí na kvalitě označování. Doporučený počet označených instancí na entitu je 50.

Trénování trvá dlouho, očekává se to?

Proces trénování může trvat dlouhou dobu. Očekávaný čas trénování souborů s kombinovanou délkou 12 800 000 znaků je přibližně 6 hodin.

Návody vytvořit vlastní model programově?

Poznámka:

V současné době můžete model sestavit pouze pomocí rozhraní REST API nebo sady Language Studio.

K vytvoření vlastních modelů můžete použít rozhraní REST API . Pomocí tohoto rychlého startu začněte vytvářet projekt a vytvářet model prostřednictvím rozhraní API, kde najdete příklady volání rozhraní API pro tvorbu.

Až budete připraveni začít používat model k předpovědím, můžete použít rozhraní REST API nebo klientskou knihovnu.

Jaký je doporučený proces CI/CD?

V rámci stejného projektu můžete trénovat více modelů na stejné datové sadě. Po úspěšném vytrénování modelu můžete zobrazit jeho výkon. Model můžete nasadit a otestovat v sadě Language Studio. Můžete přidat nebo odebrat popisky z dat a vytrénovat nový model a otestovat ho také. Podívejte se na limityslužeb a seznamte se s maximálním počtem natrénovaných modelů se stejným projektem. Při trénování modelu můžete určit, jak se datová sada rozdělí do trénovacích a testovacích sad. Data můžete také náhodně rozdělit na trénovací a testovací sadu, kde neexistuje žádná záruka, že vyhodnocení reflektovacího modelu je o stejné testovací sadě a výsledky nejsou srovnatelné. Doporučujeme vytvořit vlastní testovací sadu a použít ji k vyhodnocení obou modelů, abyste mohli měřit zlepšení.

Zaručuje nízké nebo vysoké skóre modelu špatný nebo dobrý výkon v produkčním prostředí?

Vyhodnocení modelu nemusí být vždy komplexní. To závisí na:

Pokud je testovací sada příliš malá, takže dobré/špatné skóre nejsou reprezentativní pro skutečný výkon modelu. Pokud v testovací sadě chybí nebo není reprezentovaný konkrétní typ entity, bude mít vliv na výkon modelu.
Rozmanitost dat, pokud vaše data pokrývají jenom několik scénářů nebo příkladů textu, který očekáváte v produkčním prostředí, nebude váš model vystavený všem možným scénářům a může být špatně ve scénářích, na které nebyl trénován.
Reprezentace dat, pokud datová sada použitá k trénování modelu nepředstavuje data, která by byla zavedena do modelu v produkčním prostředí, bude výkon modelu výrazně ovlivněn.

Další informace najdete v článku o výběru dat a návrhu schématu.

Návody zlepšení výkonu modelu?

Zobrazte konfuzní matici modelu. Pokud si všimnete, že určitý typ entity není často předpovězen správně, zvažte přidání dalších označených instancí pro tuto třídu. Pokud si všimnete, že dva typy entit jsou často předpovězeny jako navzájem, znamená to, že schéma je nejednoznačné a měli byste zvážit jejich sloučení do jednoho typu entity pro lepší výkon.
Zkontrolujte predikce testovací sady. Pokud jeden z typů entit obsahuje mnohem více označených instancí než ostatní, může být váš model zkreslený vůči tomuto typu. Přidejte další data do jiných typů entit nebo odeberte příklady z dominujícího typu.
Přečtěte si další informace o výběru dat a návrhu schématu.
Zkontrolujte testovací sadu , abyste viděli předpovězené a označené entity vedle sebe, abyste získali lepší představu o výkonu modelu a rozhodli se, jestli jsou potřeba nějaké změny ve schématu nebo značkách.

Proč při opětovném trénování modelu získám jiné výsledky?

Při trénování modelu můžete určit, jestli chcete, aby se data náhodně rozdělila na trénovací a testovací sady. Pokud ano, neexistuje žádná záruka, že se zrcadlené vyhodnocení modelu nachází ve stejné testovací sadě, takže výsledky nejsou srovnatelné.
Pokud přetrénujete stejný model, bude testovací sada stejná, ale můžete si všimnout mírné změny předpovědí provedených modelem. Je to proto, že trénovaný model není dostatečně robustní a je to faktor, jak reprezentativní a odlišné jsou vaše data a kvalita označených dat.

Návody získat předpovědi v různých jazycích?

Nejprve je potřeba povolit vícejazyčnou možnost při vytváření projektu nebo ji později povolit na stránce nastavení projektu. Jakmile model vytrénujete a nasadíte, můžete ho začít dotazovat v několika jazycích. Pro různé jazyky můžete získat různé výsledky. Pokud chcete zvýšit přesnost libovolného jazyka, přidejte do projektu v tomto jazyce další označené instance, abyste do tohoto jazyka zavedli trénovaný model pro více syntaxe daného jazyka.

Vytrénoval(a) jsem model, ale nemůžu ho otestovat

Než ho budete moct otestovat, musíte model nasadit .

Návody použít trénovaný model pro předpovědi?

Po nasazení modelu zavoláte rozhraní API pro predikce pomocí rozhraní REST API nebo klientských knihoven.

Ochrana osobních údajů a zabezpečení dat

Vlastní NER je zpracovatel údajů pro obecné účely nařízení o ochraně osobních údajů (GDPR). V souladu se zásadami GDPR mají vlastní uživatelé NER úplnou kontrolu nad zobrazením, exportem nebo odstraněním veškerého uživatelského obsahu prostřednictvím sady Language Studio nebo programově pomocí rozhraní REST API.

Vaše data se ukládají jenom ve vašem účtu Azure Storage. Vlastní NER má během trénování přístup jen ke čtení.

Jak naklonovat můj projekt?

Pokud chcete naklonovat projekt, musíte k exportu prostředků projektu použít rozhraní API pro export a pak je importovat do nového projektu. Informace o obou operacích najdete v referenčních informacích k rozhraní REST API .

Sdílet prostřednictvím