Vylepšení modelu ML.NET

Článek
01/29/2025

Zjistěte, jak vylepšit model ML.NET.

Opětovné zamyšlování problému

Někdy může vylepšení modelu mít nic společného s daty nebo technikami použitými k trénování modelu. Místo toho může být jen to, že se ptá špatná otázka. Zvažte pohled na problém z různých úhlů a využití dat k extrakci skrytých indikátorů a skrytých relací, aby bylo možné otázku upřesnit.

Poskytnutí dalších ukázek dat

Podobně jako u lidí, čím více jsou trénovací algoritmy vystaveny cvičení, tím větší je pravděpodobnost lepšího výkonu. Jedním ze způsobů, jak zlepšit výkon modelu, je poskytnout algoritmům více trénovacích ukázek dat. Čím více dat se učí, tím více případů dokáže správně identifikovat.

Přidání kontextu k datům

Význam jednoho datového bodu může být obtížné interpretovat. Vytváření kontextu kolem datových bodů pomáhá algoritmům a odborníkům na danou problematiku lépe rozhodovat. Například skutečnost, že dům má tři ložnice, neposkytuje dobrou indikaci jeho ceny. Pokud ale přidáte kontext a teď víte, že se nachází v příměstské čtvrti mimo hlavní metropolitní oblast, kde je průměrný věk 38 let, průměrný příjem domácností je 80 000 USD a školy jsou v top 20 percentilu, má algoritmus více informací pro založení svých rozhodnutí. Veškerý tento kontext lze do modelu strojového učení přidat jako vstup jako funkce.

Použití smysluplných dat a funkcí

I když více ukázek dat a funkcí může přispět ke zlepšení přesnosti modelu, mohou také představovat šum, protože ne všechna data a funkce jsou smysluplné. Proto je důležité pochopit, které funkce jsou ty, které nejvíce ovlivňují rozhodnutí algoritmu. Použití technik, jako je permutační významnost atributu (PFI), může pomoci identifikovat tyto klíčové atributy, a to nejen pomoci vysvětlit model, ale také využít výstup jako metodu výběru atributů ke snížení množství hlučných atributů, které vstupují do procesu trénování.

Další informace o použití PFI naleznete v tématu Vysvětlit predikce modelu pomocí Importance permutační funkce.

Křížové ověření

Křížové ověření je technika trénování a vyhodnocení modelu, která rozdělí data do několika oddílů a trénuje více algoritmů v těchto oddílech. Tato technika zlepšuje odolnost modelu vyloučením dat z tréninkového procesu. Kromě zlepšení výkonu u nezoznaných pozorování může být v prostředích s omezenými daty efektivním nástrojem pro trénování modelů s menší datovou sadou.

Další informace naleznete v tématu Použití křížového ověřování v ML.NET.

Ladění hyperparametrů

Trénování modelů strojového učení je iterativní a průzkumný proces. Jaký je například optimální počet clusterů při trénování modelu pomocí algoritmu K-Means? Odpověď závisí na mnoha faktorech, jako je struktura dat. Nalezení tohoto čísla by vyžadovalo experimentování s různými hodnotami pro k a následné vyhodnocení výkonu, aby bylo možné určit, která hodnota je nejlepší. Postup ladění parametrů, které vedou proces trénování k nalezení optimálního modelu, se označuje jako ladění hyperparametrů.

Volba jiného algoritmu

Úlohy strojového učení, jako je regrese a klasifikace, obsahují různé implementace algoritmů. Může se jednat o případ, že problém, který se pokoušíte vyřešit, a způsob, jakým jsou vaše data strukturovaná, neodpovídá aktuálnímu algoritmu. V takovém případě zvažte použití jiného algoritmu pro váš úkol, abyste zjistili, jestli se z vašich dat lépe učí.

Následující odkaz obsahuje další pokyny k tomu, který algoritmus zvolit.

Sdílet prostřednictvím