Glosář strojového učení důležitých termínů
Následující seznam obsahuje kompilaci důležitých termínů strojového učení, které jsou užitečné při vytváření vlastních modelů v ML.NET.
Přesnost
V klasifikaceje přesnost počtu správně klasifikovaných položek rozdělených celkovým počtem položek v testovací sadě. Rozsahy od 0 (nejméně přesné) do 1 (nejpřesnější). Přesnost je jednou z metrik vyhodnocení výkonu modelu. Zvažte to ve spojení s přesnost, odvolánía skóre F.
Oblast pod křivkou (AUC)
V binární klasifikaci, vyhodnocovací metrika, která je hodnotou oblasti pod křivkou, která vykreslují skutečnou kladnou míru (na ose y) proti falešně pozitivní rychlosti (na ose x). Pohybuje se od 0,5 (nejhorší) do 1 (nejlepší). Označuje se také jako plocha pod křivkou ROC, tj. křivka provozní charakteristiky přijímače. Další informace naleznete v článku Receiver provozní charakteristiky na Wikipedii.
Binární klasifikace
Klasifikace případ, kdy popisek je pouze jedna ze dvou tříd. Další informace najdete v části
Kalibrace
Kalibrace je proces mapování nezpracovaného skóre na členství ve třídě pro binární a vícetřídní klasifikaci. Některé ML.NET trenéry mají příponu NonCalibrated
. Tyto algoritmy vytvářejí nezpracované skóre, které se pak musí namapovat na pravděpodobnost třídy.
Katalog
V ML.NET je katalog kolekcí rozšiřujících funkcí seskupených běžným účelem.
Například každý úkol strojového učení (binární klasifikace, regrese, hodnocení atd.) má katalog dostupných algoritmů strojového učení (trenérů). Katalog pro binární klasifikační trenéry je: BinaryClassificationCatalog.BinaryClassificationTrainers.
Klasifikace
Když se data používají k predikci kategorie, úlohou strojového učení pod dohledem se nazývá klasifikace. binární klasifikace odkazuje na predikci pouze dvou kategorií (například klasifikaci obrázku jako obrázku "kočky" nebo "psa"). klasifikace multitřídy odkazuje na predikci více kategorií (například při klasifikaci obrázku jako obrázku určitého plemena psa).
Koeficient stanovení
V regrese, vyhodnocení metrika, která označuje, jak dobře data odpovídají modelu. Pohybuje se od 0 do 1. Hodnota 0 znamená, že data jsou náhodná nebo jinak nelze přizpůsobit modelu. Hodnota 1 znamená, že model přesně odpovídá datům. To se často označuje jako r2, R2nebo r-squared.
Data
Data jsou centrální pro libovolnou aplikaci strojového učení. V ML.NET data jsou reprezentována IDataView objekty. Objekty zobrazení dat:
- jsou tvořeny sloupci a řádky.
- jsou opožděně vyhodnoceny, to znamená, že načítají pouze data, když operace volá.
- obsahují schéma, které definuje typ, formát a délku každého sloupce.
Odhadce
Třída v ML.NET, která implementuje rozhraní IEstimator<TTransformer>.
Estimátor je specifikace transformace (transformace přípravy dat i transformace modelu strojového učení). Estimátory je možné zřetědět do kanálu transformací. Parametry estimátoru nebo kanálu estimátorů se naučíte, když se volá Fit. Výsledkem Fit je Transformer.
Metoda rozšíření
Metoda .NET, která je součástí třídy, ale je definována mimo třídu. Prvním parametrem metody rozšíření je statický this
odkaz na třídu, do které metoda rozšíření patří.
Rozšiřující metody se ve velké míře používají v ML.NET k vytváření instancí estimátorů.
Rys
Měřitelná vlastnost měřeného jevu, obvykle číselná (dvojitá) hodnota. Více funkcí se označuje jako vektor funkce a obvykle je uložený jako double[]
. Funkce definují důležité charakteristiky měřeného jevu. Další informace najdete v článku Funkce na Wikipedii.
Příprava funkcí
Příprava funkcí je proces, který zahrnuje definování sady funkcí a vývoj softwaru, který vytváří vektory funkcí z dostupných dat jevu, tj. extrakce funkcí. Další informace najdete v článku Funkce na Wikipedii.
Skóre F
V klasifikacemetrika hodnocení, která vyrovnává přesnost a úplnost.
Hyperparametr
Parametr algoritmu strojového učení Mezi příklady patří počet stromů, které se mají naučit v rozhodovací doménové struktuře, nebo velikost kroku v algoritmu gradientního sestupu. Hodnoty hyperparametrů se nastaví před trénováním modelu a řídí proces hledání parametrů prediktivní funkce, například srovnávací body v rozhodovacím stromu nebo váhy v modelu lineární regrese. Další informace najdete v článku Hyperparameter Na Wikipedii.
Označit
Prvek, který se má předpovědět pomocí modelu strojového učení. Například plemena psa nebo budoucí burzovní cena.
Ztráta protokolu
V klasifikace, vyhodnocovací metrika, která charakterizuje přesnost klasifikátoru. Menší ztrátou protokolu je přesnější klasifikátor.
Funkce ztráty
Funkce ztráty je rozdíl mezi hodnotami trénovacího popisku a predikcí vytvořeným modelem. Parametry modelu se odhadují minimalizací funkce ztráty.
Různé trenéry lze nakonfigurovat s různými funkcemi ztráty.
Střední absolutní chyba (MAE)
V regrese, vyhodnocení metrika, která je průměrem všech chyb modelu, kde chyba modelu je vzdálenost mezi předpovězenou popiskem hodnotu a správnou hodnotou popisku.
Model
Tradičně parametry prediktivní funkce. Například váhy v modelu lineární regrese nebo rozdělených bodů v rozhodovacím stromu. V ML.NET obsahuje model všechny informace potřebné k predikci popisku objektu domény (například obrázek nebo text). To znamená, že ML.NET modely zahrnují kroky featurizace nezbytné i parametry prediktivní funkce.
Klasifikace s více třídami
N-gram
Schéma extrakce funkcí pro textová data: jakákoli posloupnost N slov se změní na funkci hodnotu.
Normalizace
Normalizace je proces škálování dat s plovoucí desetinou čárkou na hodnoty mezi 0 a 1. Mnoho trénovacích algoritmů používaných v ML.NET vyžaduje normalizaci vstupních dat funkcí. ML.NET poskytuje řadu transformací pro normalizaci
Číselný vektor funkce
funkce vektor, který se skládá pouze z číselných hodnot. To se podobá double[]
.
Potrubí
Všechny operace potřebné k přizpůsobení modelu datové sadě Kanál se skládá z importu, transformace, featurizace a studijních kroků. Po natrénování kanálu se změní na model.
Přesnost
V klasifikacije přesnost třídy počtem položek správně předpovídaných tak, že patří do této třídy, a to celkovým počtem položek předpovídaném tak, že patří do třídy.
Odvolat
V klasifikace, úplnost třídy je počet položek správně předpovězen jako patří do této třídy dělený celkovým počtem položek, které skutečně patří do třídy.
Podřízení pravidlům
Regularizace penalizuje lineární model, protože je příliš komplikovaný. Existují dva typy regularizace:
- $L_1$ regularizace nuly hmotnosti pro nevýznamné rysy. Velikost uloženého modelu se může po tomto typu regularizace zmenšit.
- $L_2$ regularizace minimalizuje rozsah hmotnosti pro nevýznamné funkce. Jedná se o obecnější proces a je méně citlivý na odlehlé hodnoty.
Regrese
úlohou strojového učení pod dohledem, kde je výstup skutečnou hodnotou, například double. Mezi příklady patří předpověď cen akcií. Další informace najdete v části Regrese tématu úloh strojového učení.
Relativní absolutní chyba
V regreseje metrika vyhodnocení, která je součtem všech absolutních chyb vydělený součtem vzdáleností mezi správnými popisky hodnotami a průměrem všech správných hodnot popisku.
Relativní kvadratická chyba
V regrese, vyhodnocení metrika, která je součtem všech kvadratické absolutní chyby dělené součtem čtvercových vzdáleností mezi správnými popisky hodnoty a průměrem všech správných hodnot popisku.
Kořen střední kvadratická chyba (RMSE)
V regrese, vyhodnocovací metrika, která je druhou odmocninou průměru čtverců chyb.
Skórování
Bodování je proces použití nových dat na natrénovaný model strojového učení a generování předpovědí. Bodování se také označuje jako odvozování. V závislosti na typu modelu může být skóre nezpracovanou hodnotou, pravděpodobností nebo kategorií.
Strojové učení pod dohledem
Podtřída strojového učení, ve které požadovaný model predikuje popisek pro dosud nezjevná data. Mezi příklady patří klasifikace, regrese a strukturovaná předpověď. Další informace najdete v článku
Školení
Proces identifikace modelu pro danou trénovací sadu dat. U lineárního modelu to znamená nalezení hmotností. U stromu zahrnuje identifikaci rozdělených bodů.
Transformátor
Třída ML.NET, která implementuje rozhraní ITransformer.
Transformátor transformuje jednu IDataView na jinou. Transformátor je vytvořen trénováním estimátorunebo kanálu odhadce.
Strojové učení bez dohledu
Podtřída strojového učení, ve které požadovaný model najde v datech skrytou (nebo latentní) strukturu. Mezi příklady patří clustering, modelování témat a redukce dimenzí. Další informace najdete v