Condividi tramite


Glossario di Machine Learning di termini importanti

L'elenco seguente è una compilazione di importanti termini di Machine Learning utili durante la compilazione dei modelli personalizzati in ML.NET.

Accuratezza

Nella classificazione , l'accuratezza è il numero di elementi classificati correttamente divisi per il numero totale di elementi nel set di test. È compreso tra 0 (meno accurato) e 1 (più accurato). L'accuratezza è una delle metriche di valutazione delle prestazioni del modello. Considerarlo insieme a precisione, richiamoe F-score .

Area sotto la curva (AUC)

In classificazione binaria, una metrica di valutazione che rappresenta il valore dell'area sotto la curva che traccia il tasso dei veri positivi (sull'asse y) rispetto al tasso di falsi positivi (sull'asse x). È compreso tra 0,5 (peggiore) e 1 (migliore). Nota anche come area sotto la curva ROC, ovvero la curva delle caratteristiche operative del ricevitore. Per altre informazioni, vedere l'articolo caratteristica operativa del ricevitore su Wikipedia.

Classificazione binaria

Un classificazione caso in cui l'etichetta è solo una delle due classi. Per altre informazioni, vedere la sezione classificazione binaria dell'argomento attività di Machine Learning.

Taratura

La calibrazione è il processo di mapping di un punteggio non elaborato a un'appartenenza a una classe, per la classificazione binaria e multiclasse. Alcuni ML.NET trainer hanno un suffisso NonCalibrated. Questi algoritmi producono un punteggio non elaborato che deve quindi essere mappato a una probabilità di classe.

Catalogo

In ML.NET, un catalogo è una raccolta di funzioni di estensione, raggruppate in base a uno scopo comune.

Ad esempio, ogni attività di Machine Learning (classificazione binaria, regressione, classificazione e così via) ha un catalogo di algoritmi di Machine Learning disponibili (trainer). Il catalogo per i formatori di classificazione binaria è: BinaryClassificationCatalog.BinaryClassificationTrainers.

Classificazione

Quando i dati vengono usati per stimare una categoria, machine learning supervisionato'attività viene chiamata classificazione. classificazione binaria si riferisce alla stima di solo due categorie (ad esempio, la classificazione di un'immagine come immagine di un 'gatto' o di un 'cane'). classificazione multiclasse si riferisce alla stima di più categorie(ad esempio, quando si classifica un'immagine come immagine di una razza specifica di cane).

Coefficiente di determinazione

In regressione, una metrica di valutazione che indica il modo in cui i dati sono adatti a un modello. È compreso tra 0 e 1. Il valore 0 indica che i dati sono casuali o altrimenti non possono essere adatti al modello. Il valore 1 indica che il modello corrisponde esattamente ai dati. Questo viene spesso definito r2, R2o r quadrato.

Dati

I dati sono fondamentali per qualsiasi applicazione di Machine Learning. In ML.NET dati sono rappresentati da oggetti IDataView. Oggetti visualizzazione dati:

  • sono costituiti da colonne e righe
  • vengono valutati in modo differito, ovvero caricano solo i dati quando un'operazione lo chiama
  • contengono uno schema che definisce il tipo, il formato e la lunghezza di ogni colonna

Stimatore

Classe in ML.NET che implementa l'interfaccia IEstimator<TTransformer>.

Uno strumento di stima è una specifica di una trasformazione (trasformazione della preparazione dei dati e trasformazione del training del modello di Machine Learning). Gli estimatori possono essere concatenati in una pipeline di trasformazioni. I parametri di uno strumento di stima o di una pipeline di estimator vengono appresi quando viene chiamato Fit. Il risultato di Fit è un Transformer.

Metodo di estensione

Metodo .NET che fa parte di una classe ma è definito all'esterno della classe . Il primo parametro di un metodo di estensione è un riferimento statico this alla classe a cui appartiene il metodo di estensione.

I metodi di estensione vengono usati ampiamente in ML.NET per costruire istanze di estimator di .

Caratteristica

Proprietà misurabile del fenomeno misurato, in genere un valore numerico (double). Più funzionalità sono denominate vettore di funzionalità e in genere archiviate come double[]. Le caratteristiche definiscono le caratteristiche importanti del fenomeno misurato. Per altre informazioni, vedere l'articolo Funzionalità su Wikipedia.

Progettazione di funzionalità

La progettazione delle funzionalità è il processo che prevede la definizione di un set di funzionalità e lo sviluppo di software che produce vettori di funzionalità dai dati del fenomeno disponibili, ad esempio l'estrazione delle funzionalità. Per altre informazioni, vedere l'articolo progettazione delle funzionalità su Wikipedia.

Punteggio F

In classificazione, una metrica di valutazione che bilancia precisione e richiamo.

Iperparametri

Parametro di un algoritmo di Machine Learning. Gli esempi includono il numero di alberi da apprendere in una foresta decisionale o le dimensioni dei passaggi in un algoritmo di discesa del gradiente. I valori di iperparametri vengono impostati prima del training del modello e regolano il processo di ricerca dei parametri della funzione di stima, ad esempio i punti di confronto in un albero delle decisioni o i pesi in un modello di regressione lineare. Per altre informazioni, vedere l'articolo hyperparameter su Wikipedia.

Etichetta

Elemento da stimare con il modello di Machine Learning. Ad esempio, la razza di cane o un prezzo azionario futuro.

Perdita del log

In classificazione, una metrica di valutazione che caratterizza l'accuratezza di un classificatore. La perdita di log più piccola è maggiore è la precisione di un classificatore.

Funzione di perdita

Una funzione di perdita è la differenza tra i valori dell'etichetta di training e la stima effettuata dal modello. I parametri del modello vengono stimati riducendo al minimo la funzione di perdita.

Diversi trainer possono essere configurati con diverse funzioni di perdita.

Errore assoluto medio (MAE)

In regressione, una metrica di valutazione che corrisponde alla media di tutti gli errori del modello, in cui l'errore del modello è la distanza tra l'etichetta stimata valore e il valore di etichetta corretto.

Modello

Tradizionalmente, i parametri per la funzione di stima. Ad esempio, i pesi in un modello di regressione lineare o i punti di divisione in un albero delle decisioni. In ML.NET un modello contiene tutte le informazioni necessarie per stimare l'etichetta di un oggetto di dominio (ad esempio, immagine o testo). Ciò significa che ML.NET modelli includono i passaggi di definizione delle caratteristiche necessari, nonché i parametri per la funzione di stima.

Classificazione multiclasse

Un classificazione caso in cui l'etichetta sia una delle tre o più classi. Per altre informazioni, vedere la sezione classificazione multiclasse dell'argomento attività di Machine Learning .

N-grammo

Uno schema di estrazione delle caratteristiche per i dati di testo: qualsiasi sequenza di N parole si trasforma in una funzionalità valore.

Normalizzazione

La normalizzazione è il processo di ridimensionamento dei dati a virgola mobile in valori compresi tra 0 e 1. Molti degli algoritmi di training usati in ML.NET richiedono la normalizzazione dei dati delle funzionalità di input. ML.NET fornisce una serie di trasformazioni per la normalizzazione

Vettore di funzionalità numerico

Una caratteristica vettore costituito solo da valori numerici. È simile a double[].

Oleodotto

Tutte le operazioni necessarie per adattare un modello a un set di dati. Una pipeline è costituita da passaggi di importazione, trasformazione, definizione delle caratteristiche e apprendimento dei dati. Una volta eseguito il training di una pipeline, viene trasformata in un modello.

Precisione

Nella classificazione , la precisione per una classe è il numero di elementi stimati correttamente come appartenenti a tale classe diviso per il numero totale di elementi stimati come appartenenti alla classe .

Ricordare

In classificazione, il richiamo di una classe è il numero di elementi stimati correttamente come appartenenti a tale classe diviso per il numero totale di elementi che appartengono effettivamente alla classe .

Regolarizzazione

La regolarizzazione penalizza un modello lineare per essere troppo complicato. Esistono due tipi di regolarizzazione:

  • $L_1$ gli zeri di regolarizzazione per caratteristiche insignificanti. Le dimensioni del modello salvato potrebbero diventare più piccole dopo questo tipo di regolarizzazione.
  • la regolarizzazione di $L_2$ riduce al minimo l'intervallo di peso per le caratteristiche insignificanti. Si tratta di un processo più generale ed è meno sensibile agli outlier.

Regressione

Un 'attività di Machine Learning con supervisione in cui l'output è un valore reale, ad esempio double. Alcuni esempi includono la previsione dei prezzi azionari. Per altre informazioni, vedere la sezione regressione dell'argomento attività di Machine Learning.

Errore assoluto relativo

In regressione, una metrica di valutazione che corrisponde alla somma di tutti gli errori assoluti divisi per la somma delle distanze tra i valori corretti etichetta e la media di tutti i valori di etichetta corretti.

Errore quadratino relativo

In regressione, una metrica di valutazione che corrisponde alla somma di tutti gli errori assoluti quadratici divisi per la somma delle distanze quadrate tra i valori corretti etichetta e la media di tutti i valori di etichetta corretti.

Radice dell'errore quadratico medio (RMSE)

In regressione, una metrica di valutazione che rappresenta la radice quadrata della media dei quadrati degli errori.

Punteggio

L'assegnazione dei punteggi è il processo di applicazione di nuovi dati a un modello di Machine Learning sottoposto a training e la generazione di stime. L'assegnazione dei punteggi è nota anche come inferenza. A seconda del tipo di modello, il punteggio può essere un valore non elaborato, una probabilità o una categoria.

Machine Learning supervisionato

Sottoclasse di Machine Learning in cui un modello desiderato stima l'etichetta per i dati ancora non noti. Gli esempi includono classificazione, regressione e stima strutturata. Per altre informazioni, vedere l'articolo di apprendimento supervisionato su Wikipedia.

Formazione

Processo di identificazione di un modello per un determinato set di dati di training. Per un modello lineare, ciò significa trovare i pesi. Per un albero, implica l'identificazione dei punti di divisione.

Trasformatore

Classe ML.NET che implementa l'interfaccia ITransformer.

Un trasformatore trasforma un IDataView in un altro. Un trasformatore viene creato eseguendo il training di un estimatoro una pipeline di stima.

Machine Learning non supervisionato

Sottoclasse di Machine Learning in cui un modello desiderato trova una struttura nascosta (o latente) nei dati. Ad esempio, il clustering, la modellazione degli argomenti e la riduzione della dimensionalità. Per altre informazioni, vedere l'articolo di apprendimento non supervisionato su Wikipedia.