Dela via


Ordlista för maskininlärning med viktiga termer

Följande lista är en sammanställning av viktiga maskininlärningsvillkor som är användbara när du skapar dina anpassade modeller i ML.NET.

Noggrannhet

I klassificeringär noggrannhet antalet korrekt klassificerade objekt dividerat med det totala antalet objekt i testuppsättningen. Varierar från 0 (minst exakt) till 1 (mest exakt). Noggrannhet är ett av utvärderingsmåtten för modellens prestanda. Tänk på det tillsammans med precision, återkallaoch F-poäng.

Område under kurvan (AUC)

I binär klassificering, ett utvärderingsmått som är värdet för området under kurvan som ritar den sanna positiva frekvensen (på y-axeln) mot värdet för falska positiva identifieringar (på x-axeln). Varierar från 0,5 (sämsta) till 1 (bäst). Kallas även området under ROC-kurvan, d.v.s. mottagarens driftsegenskaper. Mer information finns i artikeln Receiver operating characteristic på Wikipedia.

Binär klassificering

En klassificering fall där etiketten bara är en av två klasser. Mer information finns i avsnittet Binär klassificering i avsnittet Machine learning-uppgifter.

Kalibrering

Kalibrering är processen för att mappa en råpoäng till ett klassmedlemskap, för binär klassificering och klassificering i flera klasser. Vissa ML.NET tränare har ett NonCalibrated suffix. Dessa algoritmer ger en råpoäng som sedan måste mappas till en klasss sannolikhet.

Katalog

I ML.NET är en katalog en samling tilläggsfunktioner, grupperade efter ett gemensamt syfte.

Till exempel har varje maskininlärningsuppgift (binär klassificering, regression, rangordning osv.) en katalog med tillgängliga maskininlärningsalgoritmer (utbildare). Katalogen för de binära klassificeringsträningarna är: BinaryClassificationCatalog.BinaryClassificationTrainers.

Klassificering

När data används för att förutsäga en kategori kallas övervakad maskininlärning uppgift klassificering. Binär klassificering syftar på att förutsäga endast två kategorier (till exempel att klassificera en bild som en bild av antingen en "katt" eller en "hund"). Multiclass-klassificering syftar på att förutsäga flera kategorier (till exempel när du klassificerar en bild som en bild av en viss hundras).

Bestämningskoefficient

I regression, ett utvärderingsmått som anger hur väl data passar en modell. Varierar från 0 till 1. Värdet 0 innebär att data är slumpmässiga eller på annat sätt inte passar modellen. Värdet 1 innebär att modellen exakt matchar data. Detta kallas ofta r2, R2eller r-squared.

Data

Data är centrala för alla maskininlärningsprogram. I ML.NET representeras data av IDataView objekt. Datavisningsobjekt:

  • består av kolumner och rader
  • utvärderas lazily, det villa är att de bara läser in data när en åtgärd anropar för den
  • innehåller ett schema som definierar typ, format och längd för varje kolumn

Estimator

En klass i ML.NET som implementerar IEstimator<TTransformer>-gränssnittet.

En estimator är en specifikation av en transformering (både transformering av förberedelse av data och maskininlärningsmodellträningstransformering). Skattningsfaktorer kan kopplas samman till en pipeline med transformeringar. Parametrarna för en skattare eller pipeline av skattare lärs när Fit anropas. Resultatet av Fit är en Transformer.

Tilläggsmetod

En .NET-metod som ingår i en klass men som definieras utanför klassen. Den första parametern för en tilläggsmetod är en statisk this referens till den klass som tilläggsmetoden tillhör.

Tilläggsmetoder används i stor utsträckning i ML.NET för att konstruera instanser av skattningsfaktorer.

Drag

En mätbar egenskap för fenomenet som mäts, vanligtvis ett numeriskt (dubbelt) värde. Flera funktioner kallas för en funktionsvektor och lagras vanligtvis som double[]. Funktioner definierar de viktiga egenskaperna hos fenomenet som mäts. Mer information finns i artikeln Feature på Wikipedia.

Funktionsutveckling

Funktionsteknik är den process som innebär att definiera en uppsättning funktioner och utveckla programvara som producerar funktionsvektorer från tillgängliga fenomendata, dvs. extrahering av funktioner. Mer information finns i artikeln Feature Engineering på Wikipedia.

F-poäng

I klassificering, ett utvärderingsmått som balanserar precision och återkalla.

Hyperparameter

En parameter för en maskininlärningsalgoritm. Exempel är antalet träd som ska lära sig i en beslutsskog eller stegstorleken i en gradient descent-algoritm. Värden för Hyperparametrar anges innan modellen tränas och styr processen att hitta parametrarna för förutsägelsefunktionen, till exempel jämförelsepunkterna i ett beslutsträd eller vikterna i en linjär regressionsmodell. Mer information finns i artikeln Hyperparameter på Wikipedia.

Etikett

Det element som ska förutsägas med maskininlärningsmodellen. Till exempel rasen av hund eller en framtida aktiekurs.

Loggförlust

I klassificering, ett utvärderingsmått som karakteriserar noggrannheten hos en klassificerare. Ju mindre loggförlust är, desto mer exakt är en klassificerare.

Förlustfunktion

En förlustfunktion är skillnaden mellan träningsetikettvärdena och den förutsägelse som modellen har gjort. Modellens parametrar beräknas genom att minimera förlustfunktionen.

Olika utbildare kan konfigureras med olika förlustfunktioner.

Genomsnittligt absolut fel (MAE)

I regression, ett utvärderingsmått som är medelvärdet av alla modellfel, där modellfelet är avståndet mellan den förutsagda etiketten värde och rätt etikettvärde.

Modell

Traditionellt har parametrarna för förutsägelsefunktionen. Till exempel vikterna i en linjär regressionsmodell eller delpunkterna i ett beslutsträd. I ML.NET innehåller en modell all information som krävs för att förutsäga etikett för ett domänobjekt (till exempel bild eller text). Det innebär att ML.NET modeller inkluderar de funktionaliseringssteg som krävs samt parametrarna för förutsägelsefunktionen.

Klassificering med flera klasser

En klassificering fall där etikett är en av tre eller flera klasser. Mer information finns i avsnittet Multiclass classification i Machine Learning-uppgifter ämne.

N-gram

Ett funktionsextraheringsschema för textdata: varje sekvens med N-ord förvandlas till en funktion värde.

Normalisering

Normalisering är processen att skala flyttalsdata till värden mellan 0 och 1. Många av träningsalgoritmerna som används i ML.NET kräver att indata för funktionsdata normaliseras. ML.NET innehåller en serie transformeringar för normalisering.

Numerisk funktionsvektor

En funktion vektor som endast består av numeriska värden. Detta liknar double[].

Rörledning

Alla åtgärder som krävs för att anpassa en modell till en datauppsättning. En pipeline består av dataimport, transformering, funktionalisering och inlärningssteg. När en pipeline har tränats omvandlas den till en modell.

Precision

I klassificeringär precisionen för en klass det antal objekt som korrekt förutsägs som tillhörande den klassen dividerat med det totala antalet objekt som förutsägs som tillhörande klassen.

Komma ihåg

I klassificeringär återkallandet för en klass det antal objekt som korrekt förutsägs som tillhörande den klassen dividerat med det totala antalet objekt som faktiskt tillhör klassen.

Regularization

Regularisering straffar en linjär modell för att vara för komplicerad. Det finns två typer av regularisering:

  • $L_1$ regularisering nollar vikter för obetydliga funktioner. Storleken på den sparade modellen kan bli mindre efter den här typen av regularisering.
  • $L_2$ regularisering minimerar viktintervallet för obetydliga funktioner. Detta är en mer allmän process och är mindre känslig för extremvärden.

Regression

En övervakad maskininlärning uppgift där utdata är ett verkligt värde, till exempel dubbelt. Exempel är att förutsäga aktiekurser. Mer information finns i avsnittet Regression i avsnittet Machine learning-uppgifter.

Relativt absolut fel

I regression, ett utvärderingsmått som är summan av alla absoluta fel dividerat med summan av avstånden mellan rätt etikett värden och medelvärdet av alla korrekta etikettvärden.

Relativt kvadratfel

I regression, ett utvärderingsmått som är summan av alla kvadratiska absoluta fel dividerat med summan av kvadratavstånd mellan rätt etikett värden och medelvärdet av alla korrekta etikettvärden.

Rot för genomsnittligt kvadratfel (RMSE)

I regressionär ett utvärderingsmått som är kvadratroten för medelvärdet av kvadraterna i felen.

Poäng

Bedömning är processen att tillämpa nya data på en tränad maskininlärningsmodell och generera förutsägelser. Bedömning kallas även slutsatsdragning. Beroende på typ av modell kan poängen vara ett raw-värde, en sannolikhet eller en kategori.

Övervakad maskininlärning

En underklass av maskininlärning där en önskad modell förutsäger etiketten för ännu inte sedda data. Exempel är klassificering, regression och strukturerad förutsägelse. Mer information finns i artikeln Supervised learning på Wikipedia.

Träning

Processen att identifiera en modell för en viss träningsdatauppsättning. För en linjär modell innebär det att hitta vikterna. För ett träd innebär det att identifiera delningspunkterna.

Transformator

En ML.NET-klass som implementerar ITransformer-gränssnittet.

En transformator omvandlar en IDataView till en annan. En transformerare skapas genom att träna en skattareeller en skattningspipeline.

Oövervakad maskininlärning

En underklass av maskininlärning där en önskad modell hittar dold (eller latent) struktur i data. Exempel är klustring, ämnesmodellering och minskning av dimensionalitet. Mer information finns i artikeln Unsupervised learning på Wikipedia.