Glossario di Machine Learning di termini importanti
L'elenco seguente è una compilazione di importanti termini di Machine Learning utili durante la compilazione dei modelli personalizzati in ML.NET.
Accuratezza
Nella classificazione , l'accuratezza è il numero di elementi classificati correttamente divisi per il numero totale di elementi nel set di test. È compreso tra 0 (meno accurato) e 1 (più accurato). L'accuratezza è una delle metriche di valutazione delle prestazioni del modello. Considerarlo insieme a precisione, richiamoe F-score .
Area sotto la curva (AUC)
In classificazione binaria, una metrica di valutazione che rappresenta il valore dell'area sotto la curva che traccia il tasso dei veri positivi (sull'asse y) rispetto al tasso di falsi positivi (sull'asse x). È compreso tra 0,5 (peggiore) e 1 (migliore). Nota anche come area sotto la curva ROC, ovvero la curva delle caratteristiche operative del ricevitore. Per altre informazioni, vedere l'articolo caratteristica operativa del ricevitore
Classificazione binaria
Un classificazione caso in cui l'etichetta è solo una delle due classi. Per altre informazioni, vedere la sezione classificazione binaria
Taratura
La calibrazione è il processo di mapping di un punteggio non elaborato a un'appartenenza a una classe, per la classificazione binaria e multiclasse. Alcuni ML.NET trainer hanno un suffisso NonCalibrated
. Questi algoritmi producono un punteggio non elaborato che deve quindi essere mappato a una probabilità di classe.
Catalogo
In ML.NET, un catalogo è una raccolta di funzioni di estensione, raggruppate in base a uno scopo comune.
Ad esempio, ogni attività di Machine Learning (classificazione binaria, regressione, classificazione e così via) ha un catalogo di algoritmi di Machine Learning disponibili (trainer). Il catalogo per i formatori di classificazione binaria è: BinaryClassificationCatalog.BinaryClassificationTrainers.
Classificazione
Quando i dati vengono usati per stimare una categoria, machine learning supervisionato'attività viene chiamata classificazione. classificazione binaria si riferisce alla stima di solo due categorie (ad esempio, la classificazione di un'immagine come immagine di un 'gatto' o di un 'cane'). classificazione multiclasse si riferisce alla stima di più categorie(ad esempio, quando si classifica un'immagine come immagine di una razza specifica di cane).
Coefficiente di determinazione
In regressione, una metrica di valutazione che indica il modo in cui i dati sono adatti a un modello. È compreso tra 0 e 1. Il valore 0 indica che i dati sono casuali o altrimenti non possono essere adatti al modello. Il valore 1 indica che il modello corrisponde esattamente ai dati. Questo viene spesso definito r2, R2o r quadrato.
Dati
I dati sono fondamentali per qualsiasi applicazione di Machine Learning. In ML.NET dati sono rappresentati da oggetti IDataView. Oggetti visualizzazione dati:
- sono costituiti da colonne e righe
- vengono valutati in modo differito, ovvero caricano solo i dati quando un'operazione lo chiama
- contengono uno schema che definisce il tipo, il formato e la lunghezza di ogni colonna
Stimatore
Classe in ML.NET che implementa l'interfaccia IEstimator<TTransformer>.
Uno strumento di stima è una specifica di una trasformazione (trasformazione della preparazione dei dati e trasformazione del training del modello di Machine Learning). Gli estimatori possono essere concatenati in una pipeline di trasformazioni. I parametri di uno strumento di stima o di una pipeline di estimator vengono appresi quando viene chiamato Fit. Il risultato di Fit è un Transformer.
Metodo di estensione
Metodo .NET che fa parte di una classe ma è definito all'esterno della classe . Il primo parametro di un metodo di estensione è un riferimento statico this
alla classe a cui appartiene il metodo di estensione.
I metodi di estensione vengono usati ampiamente in ML.NET per costruire istanze di estimator di .
Caratteristica
Proprietà misurabile del fenomeno misurato, in genere un valore numerico (double). Più funzionalità sono denominate vettore di funzionalità e in genere archiviate come double[]
. Le caratteristiche definiscono le caratteristiche importanti del fenomeno misurato. Per altre informazioni, vedere l'articolo Funzionalità su Wikipedia.
Progettazione di funzionalità
La progettazione delle funzionalità è il processo che prevede la definizione di un set di funzionalità e lo sviluppo di software che produce vettori di funzionalità dai dati del fenomeno disponibili, ad esempio l'estrazione delle funzionalità. Per altre informazioni, vedere l'articolo
Punteggio F
In
Iperparametri
Parametro di un algoritmo di Machine Learning. Gli esempi includono il numero di alberi da apprendere in una foresta decisionale o le dimensioni dei passaggi in un algoritmo di discesa del gradiente. I valori di iperparametri vengono impostati prima del training del modello e regolano il processo di ricerca dei parametri della funzione di stima, ad esempio i punti di confronto in un albero delle decisioni o i pesi in un modello di regressione lineare. Per altre informazioni, vedere l'articolo hyperparameter su Wikipedia.
Etichetta
Elemento da stimare con il modello di Machine Learning. Ad esempio, la razza di cane o un prezzo azionario futuro.
Perdita del log
In classificazione, una metrica di valutazione che caratterizza l'accuratezza di un classificatore. La perdita di log più piccola è maggiore è la precisione di un classificatore.
Funzione di perdita
Una funzione di perdita è la differenza tra i valori dell'etichetta di training e la stima effettuata dal modello. I parametri del modello vengono stimati riducendo al minimo la funzione di perdita.
Diversi trainer possono essere configurati con diverse funzioni di perdita.
Errore assoluto medio (MAE)
In regressione, una metrica di valutazione che corrisponde alla media di tutti gli errori del modello, in cui l'errore del modello è la distanza tra l'etichetta stimata valore e il valore di etichetta corretto.
Modello
Tradizionalmente, i parametri per la funzione di stima. Ad esempio, i pesi in un modello di regressione lineare o i punti di divisione in un albero delle decisioni. In ML.NET un modello contiene tutte le informazioni necessarie per stimare l'etichetta di un oggetto di dominio (ad esempio, immagine o testo). Ciò significa che ML.NET modelli includono i passaggi di definizione delle caratteristiche necessari, nonché i parametri per la funzione di stima.
Classificazione multiclasse
Un classificazione caso in cui l'etichetta sia una delle tre o più classi. Per altre informazioni, vedere la sezione
N-grammo
Uno schema di estrazione delle caratteristiche per i dati di testo: qualsiasi sequenza di N parole si trasforma in una funzionalità valore.
Normalizzazione
La normalizzazione è il processo di ridimensionamento dei dati a virgola mobile in valori compresi tra 0 e 1. Molti degli algoritmi di training usati in ML.NET richiedono la normalizzazione dei dati delle funzionalità di input. ML.NET fornisce una serie di trasformazioni per la normalizzazione
Vettore di funzionalità numerico
Una caratteristica vettore costituito solo da valori numerici. È simile a double[]
.
Oleodotto
Tutte le operazioni necessarie per adattare un modello a un set di dati. Una pipeline è costituita da passaggi di importazione, trasformazione, definizione delle caratteristiche e apprendimento dei dati. Una volta eseguito il training di una pipeline, viene trasformata in un modello.
Precisione
Nella classificazione , la precisione per una classe è il numero di elementi stimati correttamente come appartenenti a tale classe diviso per il numero totale di elementi stimati come appartenenti alla classe .
Ricordare
In classificazione, il richiamo di una classe è il numero di elementi stimati correttamente come appartenenti a tale classe diviso per il numero totale di elementi che appartengono effettivamente alla classe .
Regolarizzazione
La regolarizzazione penalizza un modello lineare per essere troppo complicato. Esistono due tipi di regolarizzazione:
- $L_1$ gli zeri di regolarizzazione per caratteristiche insignificanti. Le dimensioni del modello salvato potrebbero diventare più piccole dopo questo tipo di regolarizzazione.
- la regolarizzazione di $L_2$ riduce al minimo l'intervallo di peso per le caratteristiche insignificanti. Si tratta di un processo più generale ed è meno sensibile agli outlier.
Regressione
Un 'attività di Machine Learning con supervisione in cui l'output è un valore reale, ad esempio double. Alcuni esempi includono la previsione dei prezzi azionari. Per altre informazioni, vedere la sezione regressione
Errore assoluto relativo
In regressione, una metrica di valutazione che corrisponde alla somma di tutti gli errori assoluti divisi per la somma delle distanze tra i valori corretti etichetta e la media di tutti i valori di etichetta corretti.
Errore quadratino relativo
In regressione, una metrica di valutazione che corrisponde alla somma di tutti gli errori assoluti quadratici divisi per la somma delle distanze quadrate tra i valori corretti etichetta e la media di tutti i valori di etichetta corretti.
Radice dell'errore quadratico medio (RMSE)
In regressione, una metrica di valutazione che rappresenta la radice quadrata della media dei quadrati degli errori.
Punteggio
L'assegnazione dei punteggi è il processo di applicazione di nuovi dati a un modello di Machine Learning sottoposto a training e la generazione di stime. L'assegnazione dei punteggi è nota anche come inferenza. A seconda del tipo di modello, il punteggio può essere un valore non elaborato, una probabilità o una categoria.
Machine Learning supervisionato
Sottoclasse di Machine Learning in cui un modello desiderato stima l'etichetta per i dati ancora non noti. Gli esempi includono classificazione, regressione e stima strutturata. Per altre informazioni, vedere l'articolo
Formazione
Processo di identificazione di un modello per un determinato set di dati di training. Per un modello lineare, ciò significa trovare i pesi. Per un albero, implica l'identificazione dei punti di divisione.
Trasformatore
Classe ML.NET che implementa l'interfaccia ITransformer.
Un trasformatore trasforma un IDataView in un altro. Un trasformatore viene creato eseguendo il training di un estimatoro una pipeline di stima.
Machine Learning non supervisionato
Sottoclasse di Machine Learning in cui un modello desiderato trova una struttura nascosta (o latente) nei dati. Ad esempio, il clustering, la modellazione degli argomenti e la riduzione della dimensionalità. Per altre informazioni, vedere l'articolo di apprendimento non supervisionato