Onderdeel Model trainen
In dit artikel wordt een onderdeel in Azure Machine Learning Designer beschreven.
Gebruik dit onderdeel om een classificatie- of regressiemodel te trainen. Training vindt plaats nadat u een model hebt gedefinieerd en de bijbehorende parameters hebt ingesteld. Hiervoor zijn getagde gegevens vereist. U kunt ook Train Model gebruiken om een bestaand model opnieuw te trainen met nieuwe gegevens.
Hoe het trainingsproces werkt
In Azure Machine Learning is het maken en gebruiken van een machine learning-model doorgaans een proces van drie stappen.
U configureert een model door een bepaald type algoritme te kiezen en de bijbehorende parameters of hyperparameters te definiëren. Kies een van de volgende modeltypen:
- Classificatiemodellen , op basis van neurale netwerken, beslissingsstructuren en beslissingsforests, en andere algoritmen.
- Regressiemodellen , die standaard lineaire regressie kunnen bevatten of die andere algoritmen gebruiken, waaronder neurale netwerken en Bayesiaanse regressie.
Geef een gegevensset op die is gelabeld en die compatibel is met het algoritme. Verbind zowel de gegevens als het model met Train Model.
Wat training produceert, is een specifieke binaire indeling, de iLearner, die de statistische patronen inkapselt die uit de gegevens zijn geleerd. U kunt deze indeling niet rechtstreeks wijzigen of lezen; Andere onderdelen kunnen dit getrainde model echter gebruiken.
U kunt ook eigenschappen van het model weergeven. Zie de sectie Resultaten voor meer informatie.
Nadat de training is voltooid, gebruikt u het getrainde model met een van de scoreonderdelen om voorspellingen te doen over nieuwe gegevens.
Train Model gebruiken
Voeg het onderdeel Train Model toe aan de pijplijn. U vindt dit onderdeel onder de categorie Machine Learning . Vouw Train uit en sleep het onderdeel Train Model naar uw pijplijn.
Koppel de niet-getrainde modus aan de linkerkant. Koppel de trainingsgegevensset aan de rechterinvoer van Train Model.
De trainingsgegevensset moet een labelkolom bevatten. Rijen zonder labels worden genegeerd.
Klik voor de kolom Label op Kolom bewerken in het rechterdeelvenster van het onderdeel en kies één kolom met resultaten die het model kan gebruiken voor training.
Voor classificatieproblemen moet de labelkolom categorische waarden of discrete waarden bevatten. Sommige voorbeelden zijn een ja/nee-classificatie, een classificatiecode of naam van een ziekte of een inkomensgroep. Als u een niet-categorische kolom kiest, retourneert het onderdeel een fout tijdens de training.
Voor regressieproblemen moet de labelkolom numerieke gegevens bevatten die de antwoordvariabele vertegenwoordigen. In het ideale instantie vertegenwoordigen de numerieke gegevens een continue schaal.
Voorbeelden hiervan zijn een kredietrisicoscore, de geschatte tijd om te mislukken voor een harde schijf of het voorspelde aantal oproepen naar een callcenter op een bepaalde dag of tijd. Als u geen numerieke kolom kiest, wordt er mogelijk een fout weergegeven.
- Als u niet opgeeft welke labelkolom moet worden gebruikt, probeert Azure Machine Learning te afleiden welke de juiste labelkolom is, met behulp van de metagegevens van de gegevensset. Als de verkeerde kolom wordt gekozen, gebruikt u de kolomkiezer om deze te corrigeren.
Tip
Als u problemen ondervindt met het gebruik van de kolomkiezer, raadpleegt u het artikel Kolommen selecteren in gegevensset voor tips. Hierin worden enkele veelvoorkomende scenario's en tips beschreven voor het gebruik van de opties WITH RULES en BY NAME .
Verzend de pijplijn. Als u veel gegevens hebt, kan het even duren.
Belangrijk
Als u een id-kolom hebt die de id van elke rij of een tekstkolom is die te veel unieke waarden bevat, kan Train Model een fout krijgen zoals 'Aantal unieke waarden in kolom: {column_name}' is groter dan toegestaan.
Dit komt doordat de kolom de drempelwaarde van unieke waarden bereikt en kan leiden tot onvoldoende geheugen. U kunt Metagegevens bewerken gebruiken om die kolom als clear-functie te markeren en deze wordt niet gebruikt in de training of N-Gram-functies uit het tekstonderdeel extraheren om de tekstkolom voor te verwerken. Zie ontwerpfoutcode voor meer foutdetails.
Modelinterpreteerbaarheid
Modelinterpretabiliteit biedt de mogelijkheid om het ML-model te begrijpen en de onderliggende basis voor besluitvorming te presenteren op een manier die begrijpelijk is voor mensen.
Momenteel biedt het onderdeel Train Model ondersteuning voor het gebruik van het interpreteerbaarheidspakket om ML-modellen uit te leggen. De volgende ingebouwde algoritmen worden ondersteund:
- Lineaire regressie
- Regressie neuraal netwerk
- Boosted Decistion Tree Regression
- Regressie beslissingsforest
- Regressie Poisson
- Logistieke regressie met twee klassen
- Ondersteuningsvectormachine met twee klassen
- 2-klasse boosted Decistion Tree
- Beslissingsforest met twee klassen
- Beslissingsforest met meerdere klassen
- Logistieke regressie van meerdere klassen
- Neuraal netwerk met meerdere klassen
Als u modeluitleg wilt genereren, kunt u Waar selecteren in de vervolgkeuzelijst modeluitleg in het onderdeel Model trainen. Deze is standaard ingesteld op False in het onderdeel Train Model . Houd er rekening mee dat voor het genereren van uitleg extra rekenkosten zijn vereist.
Nadat de pijplijnuitvoering is voltooid, gaat u naar het tabblad Uitleg in het rechterdeelvenster van het onderdeel Model trainen en verkent u de prestaties, de gegevensset en het kenmerkbelang van het model.
Raadpleeg het artikel over het interpreteren van ML-modellen voor meer informatie over het gebruik van modeluitleg in Azure Machine Learning.
Resultaten
Nadat het model is getraind:
Als u het model in andere pijplijnen wilt gebruiken, selecteert u het onderdeel en selecteert u het pictogram Gegevensset registreren op het tabblad Uitvoer in het rechterdeelvenster. U hebt toegang tot opgeslagen modellen in het onderdelenpalet onder Gegevenssets.
Als u het model wilt gebruiken bij het voorspellen van nieuwe waarden, verbindt u het met het onderdeel Score Model , samen met nieuwe invoergegevens.
Volgende stappen
Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.