Słownik uczenia maszynowego ważnych terminów
Poniższa lista to kompilacja ważnych terminów uczenia maszynowego, które są przydatne podczas tworzenia niestandardowych modeli w ML.NET.
Dokładność
W klasyfikacjidokładność jest liczbą poprawnie sklasyfikowanych elementów podzielonych przez łączną liczbę elementów w zestawie testowym. Zakresy od 0 (najmniej dokładne) do 1 (najbardziej dokładne). Dokładność jest jedną z metryk oceny wydajności modelu. Rozważ to w połączeniu z precyzją, przypomnieći wynik F.
Obszar pod krzywą (AUC)
W klasyfikacji binarnejmetryka oceny, która jest wartością obszaru pod krzywą, która wykreśli wartość prawdziwie dodatnią (na osi y) względem współczynnika wyników fałszywie dodatnich (na osi x). Zakresy od 0,5 (najgorsze) do 1 (najlepsze). Znany również jako obszar pod krzywą ROC, tj. krzywa charakterystyki operacyjnej odbiornika. Aby uzyskać więcej informacji, zobacz artykuł Receiver charakterystyki operacyjnej w Wikipedii.
Klasyfikacja binarna
Przypadek klasyfikacji
Wzorcowanie
Kalibracja to proces mapowania nieprzetworzonego wyniku na członkostwo w klasie, w przypadku klasyfikacji binarnej i wieloklasowej. Niektórzy trenerzy ML.NET mają sufiks NonCalibrated
. Te algorytmy generują nieprzetworzone wyniki, które następnie muszą być mapowane na prawdopodobieństwo klasy.
Katalog
W ML.NET wykaz jest kolekcją funkcji rozszerzeń pogrupowanych według wspólnego celu.
Na przykład każde zadanie uczenia maszynowego (klasyfikacja binarna, regresja, klasyfikacja itp.) ma katalog dostępnych algorytmów uczenia maszynowego (trenerów). Katalog dla binarnych trenerów klasyfikacji to: BinaryClassificationCatalog.BinaryClassificationTrainers.
Klasyfikacja
Gdy dane są używane do przewidywania kategorii, nadzorowane uczenie maszynowe zadanie jest nazywane klasyfikacją. klasyfikacji binarnej odnosi się do przewidywania tylko dwóch kategorii (na przykład klasyfikowania obrazu jako obrazu "kota" lub "psa"). klasyfikacji wieloklasowej odnosi się do przewidywania wielu kategorii (na przykład podczas klasyfikowania obrazu jako obrazu konkretnej rasy psa).
Współczynnik determinacji
W regresjimetryka oceny, która wskazuje, jak dobrze dane pasują do modelu. Zakresy od 0 do 1. Wartość 0 oznacza, że dane są losowe lub w przeciwnym razie nie mogą być dopasowane do modelu. Wartość 1 oznacza, że model dokładnie odpowiada danym. Jest to często określane jako r2, R2lub r-squared.
Dane
Dane są kluczowe dla każdej aplikacji uczenia maszynowego. W ML.NET dane są reprezentowane przez obiekty IDataView. Obiekty widoku danych:
- składają się z kolumn i wierszy
- są obliczane z opóźnieniem, to znaczy, że ładują tylko dane, gdy operacja wywołuje je
- zawierają schemat definiujący typ, format i długość każdej kolumny
Estymator
Klasa w ML.NET, która implementuje interfejs IEstimator<TTransformer>.
Narzędzie do szacowania to specyfikacja transformacji (transformacja zarówno przygotowywania danych, jak i transformacja trenowania modelu uczenia maszynowego). Narzędzia do szacowania mogą być połączone w potok przekształceń. Parametry narzędzia do szacowania lub potoku narzędzia do szacowania są poznane po wywołaniu Fit. Wynikiem Fit jest Transformer.
Metoda rozszerzenia
Metoda .NET, która jest częścią klasy, ale jest zdefiniowana poza klasą. Pierwszy parametr metody rozszerzenia to statyczne this
odwołanie do klasy, do której należy metoda rozszerzenia.
Metody rozszerzeń są szeroko używane w ML.NET do konstruowania wystąpień narzędzia do szacowania .
Cecha
Wymierna właściwość mierzonego zjawiska, zazwyczaj wartość liczbowa (podwójna). Wiele funkcji jest nazywanych wektorem funkcji i zwykle przechowywanych jako double[]
. Cechy definiują ważne cechy mierzonego zjawiska. Aby uzyskać więcej informacji, zobacz artykuł Feature w Wikipedii.
Inżynieria cech
Inżynieria cech to proces, który polega na zdefiniowaniu zestawu funkcji i tworzeniu oprogramowania tworzącego wektory cech z dostępnych danych zjawiska, tj. wyodrębniania cech. Aby uzyskać więcej informacji, zobacz artykuł Feature engineering w Wikipedii.
Wynik F
Wklasyfikacji
Hiperparametr
Parametr algorytmu uczenia maszynowego. Przykłady obejmują liczbę drzew do nauki w lesie decyzyjnym lub rozmiar kroku w algorytmie spadku gradientu. Wartości hiperparametrów są ustawiane przed trenowaniem modelu i zarządzają procesem znajdowania parametrów funkcji przewidywania, na przykład punktów porównania w drzewie decyzyjnym lub wagach w modelu regresji liniowej. Aby uzyskać więcej informacji, zobacz artykuł hiperparametr w Wikipedii.
Etykieta
Element, który ma zostać przewidział przy użyciu modelu uczenia maszynowego. Na przykład rasa psa lub przyszła cena akcji.
Utrata dziennika
W klasyfikacjimetryka oceny, która charakteryzuje dokładność klasyfikatora. Mniejsza utrata dziennika jest tym dokładniejszy klasyfikator.
Loss, funkcja
Funkcja straty to różnica między wartościami etykiety treningowej a przewidywaniem wykonanym przez model. Parametry modelu są szacowane przez zminimalizowanie funkcji utraty.
Różne trenery można skonfigurować przy użyciu różnych funkcji utraty.
Średni błąd bezwzględny (MAE)
W regresjimetryka oceny, która jest średnią wszystkich błędów modelu, gdzie błąd modelu jest odległością między przewidywaną etykietą a poprawną wartością etykiety.
Model
Tradycyjnie parametry funkcji przewidywania. Na przykład wagi w modelu regresji liniowej lub punkty podziału w drzewie decyzyjnym. W ML.NET model zawiera wszystkie informacje niezbędne do przewidywania etykiety obiektu domeny (na przykład obrazu lub tekstu). Oznacza to, że ML.NET modele obejmują niezbędne kroki cechowania, a także parametry funkcji przewidywania.
Klasyfikacja wieloklasowa
Przypadek klasyfikacji
N-gram
Schemat wyodrębniania cech dla danych tekstowych: każda sekwencja N wyrazów zamienia się w cechę wartości.
Normalizacja
Normalizacja to proces skalowania danych zmiennoprzecinkowych do wartości z zakresu od 0 do 1. Wiele algorytmów trenowania używanych w ML.NET wymaga normalizacji danych funkcji wejściowych. ML.NET udostępnia szereg przekształceń do normalizacji
Wektor cech liczbowych
Funkcja wektor składający się tylko z wartości liczbowych. Jest to podobne do double[]
.
Rurociąg
Wszystkie operacje potrzebne do dopasowania modelu do zestawu danych. Potok składa się z kroków importowania, przekształcania, cechowania i uczenia. Gdy potok zostanie wytrenowany, przekształci się w model.
Precyzja
W klasyfikacjiprecyzja klasy to liczba elementów, które są prawidłowo przewidywane jako należące do tej klasy podzielonej przez łączną liczbę elementów przewidywanych jako należących do klasy.
Pamiętać
W klasyfikacjikompletność klasy jest liczbą elementów, które są prawidłowo przewidywane jako należące do tej klasy podzielonej przez całkowitą liczbę elementów, które rzeczywiście należą do klasy.
Regularyzacja
Regularyzacja karze model liniowy za zbyt skomplikowane. Istnieją dwa typy uregulowania:
- $L_1$ regularyzacji zero wagi dla nieistotnych cech. Rozmiar zapisanego modelu może stać się mniejszy po tym typie uregulowania.
- $L_2$ regularyzacja minimalizuje zakres wag dla nieistotnych cech. Jest to bardziej ogólny proces i jest mniej wrażliwy na wartości odstające.
Regresja
Zadanie nadzorowanego uczenia maszynowego, w którym dane wyjściowe są rzeczywistą wartością, na przykład podwójną. Przykłady obejmują przewidywanie cen akcji. Aby uzyskać więcej informacji, zobacz sekcję Regresja w temacie Zadania uczenia maszynowego.
Względny błąd bezwzględny
W regresjimetryka oceny, która jest sumą wszystkich błędów bezwzględnych podzielonych przez sumę odległości między prawidłową etykietą wartości i średnią wszystkich poprawnych wartości etykiet.
Względny błąd kwadratu
W regresjimetryka oceny, która jest sumą wszystkich błędów bezwzględnych kwadratu podzielonych przez sumę odległości kwadratowych między poprawną etykietą wartościami i średnią wszystkich prawidłowych wartości etykiet.
Pierwiastek błędu średniokwadratowego (RMSE)
W regresjimetryka oceny, która jest pierwiastek kwadratowy średniej kwadratów błędów.
Punktacji
Ocenianie to proces stosowania nowych danych do wytrenowanego modelu uczenia maszynowego i generowania przewidywań. Ocenianie jest również nazywane wnioskowaniem. W zależności od typu modelu wynik może być wartością pierwotną, prawdopodobieństwem lub kategorią.
Nadzorowane uczenie maszynowe
Podklasa uczenia maszynowego, w której żądany model przewiduje etykietę dla danych, które jeszcze nie są wyświetlane. Przykłady obejmują klasyfikację, regresję i przewidywanie strukturalne. Aby uzyskać więcej informacji, zobacz artykuł Nadzorowane uczenie w Wikipedii.
Szkolenie
Proces identyfikowania modelu dla danego zestawu danych treningowych. W przypadku modelu liniowego oznacza to znalezienie wag. W przypadku drzewa obejmuje identyfikację punktów podziału.
Transformator
Klasa ML.NET, która implementuje interfejs ITransformer.
Transformator przekształca jeden IDataView w inny. Funkcja przekształcania jest tworzona przez trenowanie narzędzia do szacowanialub potoku narzędzia do szacowania.
Nienadzorowane uczenie maszynowe
Podklasa uczenia maszynowego, w której żądany model znajduje ukrytą (lub ukrytą) strukturę w danych. Przykłady obejmują klastrowanie, modelowanie tematów i redukcję wymiarowości. Aby uzyskać więcej informacji, zobacz artykuł Nauka bez nadzoru w Wikipedii.