Delen via


Machine learning-woordenlijst met belangrijke termen

De volgende lijst is een compilatie van belangrijke machine learning-termen die nuttig zijn bij het bouwen van uw aangepaste modellen in ML.NET.

Nauwkeurigheid

In classificatieis nauwkeurigheid het aantal correct geclassificeerde items gedeeld door het totale aantal items in de testset. Varieert van 0 (minst nauwkeurig) tot 1 (meest nauwkeurig). Nauwkeurigheid is een van de metrische evaluatiegegevens van de modelprestaties. Houd deze in combinatie met precisie, relevanteen F-score.

Gebied onder de curve (AUC)

In binaire classificatie, een evaluatiemetriek die de waarde is van het gebied onder de curve waarmee de werkelijke positievenfrequentie (op de y-as) wordt getekend tegen de fout-positievenfrequentie (op de x-as). Varieert van 0,5 (slechtste) tot 1 (beste). Ook wel bekend als het gebied onder de ROC-curve, bijvoorbeeld de ontvanger die de kenmerkcurve van de ontvanger gebruikt. Zie het artikel Ontvanger artikel over Wikipedia voor meer informatie.

Binaire classificatie

Een classificatie geval waarbij het label slechts één van de twee klassen is. Zie de sectie Binaire classificatie van de Machine Learning-taken onderwerp voor meer informatie.

Calibratie

Kalibratie is het proces van het toewijzen van een onbewerkte score aan een klasselidmaatschap, voor binaire en multiklasseclassificatie. Sommige ML.NET trainers hebben een NonCalibrated achtervoegsel. Deze algoritmen produceren een onbewerkte score die vervolgens moet worden toegewezen aan een klassekans.

Catalogus

In ML.NET is een catalogus een verzameling extensiefuncties, gegroepeerd op een gemeenschappelijk doel.

Elke machine learning-taak (binaire classificatie, regressie, rangschikking, enzovoort) heeft bijvoorbeeld een catalogus met beschikbare machine learning-algoritmen (trainers). De catalogus voor de binaire classificatietrainers is: BinaryClassificationCatalog.BinaryClassificationTrainers.

Classificatie

Wanneer de gegevens worden gebruikt om een categorie te voorspellen, wordt machine learning-taak onder supervisie taak classificatie genoemd. binaire classificatie verwijst naar het voorspellen van slechts twee categorieën (bijvoorbeeld het classificeren van een afbeelding als een afbeelding van een 'kat' of een 'hond'). classificatie met meerdere klassen verwijst naar het voorspellen van meerdere categorieën (bijvoorbeeld bij het classificeren van een afbeelding als afbeelding van een specifiek hondenras).

Bepalingscoëfficiënt

In regressie, een metrische evaluatiewaarde die aangeeft hoe goed gegevens bij een model passen. Varieert van 0 tot 1. Een waarde van 0 betekent dat de gegevens willekeurig zijn of anderszins niet aan het model kunnen worden aangepast. Een waarde van 1 betekent dat het model exact overeenkomt met de gegevens. Dit wordt vaak r2, R2of r-kwadraat genoemd.

Gegevens

Gegevens zijn centraal in elke machine learning-toepassing. In ML.NET gegevens worden vertegenwoordigd door IDataView objecten. Gegevensweergaveobjecten:

  • bestaan uit kolommen en rijen
  • worden lazily geëvalueerd, dat wil gezegd dat ze alleen gegevens laden wanneer een bewerking hiervoor aanroept
  • een schema bevatten dat het type, de opmaak en de lengte van elke kolom definieert

Taxateur

Een klasse in ML.NET die de IEstimator<TTransformer>-interface implementeert.

Een estimator is een specificatie van een transformatie (zowel transformatie van gegevensvoorbereiding als machine learning-modeltrainingstransformatie). Estimators kunnen worden gekoppeld aan een pijplijn met transformaties. De parameters van een estimator of pijplijn van schattingen worden geleerd wanneer Fit wordt aangeroepen. Het resultaat van Fit is een transformator.

Extensiemethode

Een .NET-methode die deel uitmaakt van een klasse, maar die buiten de klasse wordt gedefinieerd. De eerste parameter van een extensiemethode is een statische this verwijzing naar de klasse waartoe de extensiemethode behoort.

Extensiemethoden worden uitgebreid gebruikt in ML.NET om exemplaren van schattingente maken.

Gelaatstrek

Een meetbare eigenschap van het fenomeen dat wordt gemeten, meestal een numerieke (dubbele) waarde. Meerdere functies worden een functievector genoemd en worden meestal opgeslagen als double[]. Kenmerken definiëren de belangrijke kenmerken van het fenomeen dat wordt gemeten. Zie het artikel Feature op Wikipedia voor meer informatie.

Functie-engineering

Functie-engineering is het proces waarbij een set functies en het ontwikkelen van software die functievectors produceert op basis van beschikbare fenomeengegevens, d.w.v. functieextractie. Zie het artikel Feature engineering op Wikipedia voor meer informatie.

F-score

In classificatie, een metrische evaluatiewaarde die precisie en relevante overeenkomstenin balans brengt.

Hyperparameter

Een parameter van een machine learning-algoritme. Voorbeelden zijn het aantal bomen dat moet worden geleerd in een beslissingsforest of de stapgrootte in een algoritme voor gradiëntafname. Waarden van Hyperparameters worden ingesteld voordat het model wordt getraind en bepalen hoe de parameters van de voorspellingsfunctie worden gevonden, bijvoorbeeld de vergelijkingspunten in een beslissingsstructuur of de gewichten in een lineair regressiemodel. Zie het artikel Hyperparameter op Wikipedia voor meer informatie.

Etiket

Het element dat moet worden voorspeld met het machine learning-model. Bijvoorbeeld het ras van hond of een toekomstige aandelenkoers.

Logboekverlies

In classificatie, een metrische evaluatiewaarde die de nauwkeurigheid van een classificatie aantekent. Hoe kleiner logboekverlies is, hoe nauwkeuriger een classificatie is.

Verliesfunctie

Een verliesfunctie is het verschil tussen de waarden van het trainingslabel en de voorspelling van het model. De parameters van het model worden geschat door de verliesfunctie te minimaliseren.

Verschillende trainers kunnen worden geconfigureerd met verschillende verliesfuncties.

Gemiddelde absolute fout (MAE)

In regressie, een metrische evaluatiewaarde die het gemiddelde is van alle modelfouten, waarbij de modelfout de afstand is tussen de voorspelde label waarde en de juiste labelwaarde.

Model

Traditioneel zijn de parameters voor de voorspellingsfunctie. Bijvoorbeeld de gewichten in een lineair regressiemodel of de splitspunten in een beslissingsstructuur. In ML.NET bevat een model alle informatie die nodig is om het label te voorspellen van een domeinobject (bijvoorbeeld afbeelding of tekst). Dit betekent dat ML.NET modellen de benodigde featurization-stappen en de parameters voor de voorspellingsfunctie bevatten.

Classificatie met meerdere klassen

Een classificatie geval waarin het label één van de drie of meer klassen is. Zie de sectie Multiclass-classificatie van de Machine Learning-taken onderwerp voor meer informatie.

N-gram

Een functieextractieschema voor tekstgegevens: elke reeks N-woorden verandert in een functie waarde.

Normalisatie

Normalisatie is het proces van het schalen van drijvende-kommagegevens naar waarden tussen 0 en 1. Veel van de trainingsalgoritmen die worden gebruikt in ML.NET vereisen dat invoerfunctiegegevens worden genormaliseerd. ML.NET biedt een reeks transformaties voor normalisatie

Numerieke functievector

Een functie vector die alleen uit numerieke waarden bestaat. Dit is vergelijkbaar met double[].

Pijpleiding

Alle bewerkingen die nodig zijn om een model aan een gegevensset te koppelen. Een pijplijn bestaat uit gegevensimport, transformatie, featurization en leerstappen. Zodra een pijplijn is getraind, wordt deze omgezet in een model.

Precisie

In classificatieis de precisie voor een klasse het aantal items dat correct is voorspeld als behorend tot die klasse gedeeld door het totale aantal items dat is voorspeld als behorend tot de klasse.

Herinneren

In classificatieis de intrekking voor een klasse het aantal items dat correct is voorspeld als behorend tot die klasse gedeeld door het totale aantal items dat daadwerkelijk deel uitmaakt van de klasse.

Regularisatie

Regularisatie bestraft een lineair model om te ingewikkeld te zijn. Er zijn twee soorten regularisatie:

  • $L_1$ regularisatienullen gewichten voor onbelangrijke functies. De grootte van het opgeslagen model kan na dit type regularisatie kleiner worden.
  • $L_2$ regularisatie minimaliseert het gewichtsbereik voor onbelangrijke functies. Dit is een meer algemeen proces en is minder gevoelig voor uitbijters.

Regressie

Een machine learning- taak onder supervisie, waarbij de uitvoer een echte waarde is, bijvoorbeeld dubbel. Voorbeelden hiervan zijn het voorspellen van aandelenkoersen. Zie de sectie Regressie van de Machine Learning-taken onderwerp voor meer informatie.

Relatieve absolute fout

In regressie, een metrische evaluatiewaarde die de som is van alle absolute fouten gedeeld door de som van de afstanden tussen de juiste label waarden en het gemiddelde van alle juiste labelwaarden.

Relatieve kwadratische fout

In regressie, een metrische evaluatiewaarde die de som is van alle absolute kwadratische fouten gedeeld door de som van de kwadratische afstanden tussen de juiste label waarden en het gemiddelde van alle juiste labelwaarden.

Wortel van gemiddelde kwadratische fout (RMSE)

In regressie, een metrische evaluatiewaarde die de vierkantswortel is van het gemiddelde van de kwadraten van de fouten.

Scoren

Scoren is het proces van het toepassen van nieuwe gegevens op een getraind machine learning-model en het genereren van voorspellingen. Scoren wordt ook wel deductie genoemd. Afhankelijk van het type model kan de score een onbewerkte waarde, een waarschijnlijkheid of een categorie zijn.

Machine learning onder supervisie

Een subklasse van machine learning waarin een gewenst model het label voorspelt voor nog ongelezen gegevens. Voorbeelden hiervan zijn classificatie, regressie en gestructureerde voorspelling. Zie het artikel Onder supervisie leren op Wikipedia voor meer informatie.

Opleiding

Het proces voor het identificeren van een model voor een bepaalde set trainingsgegevens. Voor een lineair model betekent dit dat de gewichten worden gevonden. Voor een boomstructuur moet de splitspunten worden geïdentificeerd.

Transformator

Een ML.NET-klasse die de ITransformer-interface implementeert.

Een transformator transformeert een IDataView in een andere. Een transformator wordt gemaakt door een estimatorof een estimatorpijplijn te trainen.

Machine Learning zonder supervisie

Een subklasse van machine learning waarin een gewenst model verborgen (of latente) structuur in gegevens vindt. Voorbeelden hiervan zijn clustering, onderwerpmodellering en dimensionaliteitsvermindering. Zie het artikel Leren zonder supervisie artikel op Wikipedia voor meer informatie.