Gegevens splitsen met splitsrijen
Belangrijk
De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.
Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.
- Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
- Meer informatie over Azure Machine Learning.
De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.
In dit artikel wordt beschreven hoe u de optie Rijen splitsen gebruikt in de module Split Data van Machine Learning Studio (klassiek). Deze optie is met name handig wanneer u gegevenssets die worden gebruikt voor training en testen, willekeurig of volgens bepaalde criteria moet verdelen.
Notitie
Van toepassing op: Machine Learning Studio (klassiek)
Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.
De optie Split Rows ondersteunt zowel willekeurige als gelaagde splitsingen. U kunt bijvoorbeeld een splitsing van 70-30 of een splitsing van 10-90 opgeven, met uw doelvariabele die evenveel wordt weergegeven in beide gegevenssets.
Zie Split Data and Partition and Split (Gegevens splitsen en partitioneren en splitsen) machine learning algemene informatie over gegevenspartitie voor machine learning experimenten.
Gerelateerde taken
Andere opties in de module Split Data ondersteunen verschillende manieren om de gegevens te delen:
Gegevens splitsen met reguliere expressies: Pas een reguliere expressie toe op één tekstkolom en deel de gegevensset op basis van de resultaten.
Gegevens splitsen met behulp van relatieve expressies: Een expressie toepassen op een numerieke kolom en de gegevensset delen op basis van de resultaten
Gegevenssets met splitsaanbevelingen: deel gegevenssets die worden gebruikt in aanbevelingsmodellen. De gegevensset moet drie kolommen hebben: items, gebruikers en beoordelingen.
Een gegevensset onderverdelen in twee groepen
Voeg de module Split Data toe aan uw experiment in Studio (klassiek) en koppel de gegevensset die u wilt splitsen.
Kies voor Split mode de optie Split rows.
Fractie van rijen in de eerste uitvoerset. Gebruik deze optie om te bepalen hoeveel rijen er in de eerste (linker)uitvoer komen. Alle andere rijen gaan naar de tweede (rechtse) uitvoer.
De verhouding vertegenwoordigt het percentage rijen dat wordt verzonden naar de eerste uitvoerset, dus u moet een decimaal getal tussen 0 en 1 typen.
Als u bijvoorbeeld 0,75 als waarde typt, wordt de gegevensset gesplitst met een verhouding van 75:25, met 75% van de rijen die naar de eerste uitvoerset worden verzonden en 25% naar de tweede uitvoerset.
Selecteer de optie Willekeurig splitsen als u de selectie van gegevens in de twee groepen willekeurig wilt maken. Dit is de voorkeursoptie bij het maken van trainings- en testsets.
Random Seed: typ een niet-negatief geheel getal om de pseudorandomvolgorde van te gebruiken exemplaren te initialiseren. Deze standaard seed wordt gebruikt in alle modules die willekeurige getallen genereren.
Als u een seed opgeeft, worden de resultaten over het algemeen reproduceerbaar. Als u de resultaten van een splitsingsbewerking wilt herhalen, moet u een seed opgeven voor de generator voor willekeurige getallen. Anders wordt de willekeurige seed standaard ingesteld op 0, wat betekent dat de eerste seed-waarde wordt verkregen van de systeemklok. Als gevolg hiervan kan de verdeling van gegevens enigszins verschillen telkens wanneer u een splitsing uit te voeren.
Gelaagde splitsing: stel deze optie in op Waar om ervoor te zorgen dat de twee uitvoergegevenssets een representatieve steekproef van de waarden in de kolom strata of de kolom stratification key bevatten.
Bij gelaagde steekproeven worden de gegevens zodanig verdeeld dat elke uitvoergegevensset ongeveer hetzelfde percentage van elke doelwaarde krijgt. U wilt er bijvoorbeeld voor zorgen dat uw trainings- en testsets grofweg in balans zijn met betrekking tot het resultaat of met betrekking tot een andere kolom, zoals geslacht.
Voer het experiment uit of klik met de rechtermuisknop op de module en selecteer Uitvoeren geselecteerd.
Voorbeelden
In de volgende voorbeelden wordt gedemonstreerd hoe u eenvoudige splitsingen kunt uitvoeren met behulp van de modus Rijen splitsen .
Splitsen in twee gelijke delen
Voeg de module Split Data toe na de gegevensset zonder andere wijzigingen. Standaard splitst de module de gegevensset in twee gelijke delen. Voor gegevens met een oneven aantal rijen krijgt de tweede uitvoer de rest.
Splitsen in derde
Stel dat u een gegevensset in twee delen wilt splitsen, met een derde van de gegevens die worden gebruikt voor de training en de rest voor testen of aanvullende splitsingen.
Hiervoor voegt u een module Split Data toe en stelt u fraction of rows in the first output in op 0,33. De tweede uitvoer bevat de resterende twee derde.
Als u de tweede uitvoer wilt onderverdelen in gelijke delen, voegt u nog een exemplaar van de module Split Data toe en gebruikt u deze keer de standaardinstelling voor een splitsing van 50-50.
Technische opmerkingen
Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.
Implementatiegegevens
Voor deze module moet de gegevensset ten minste twee rijen bevatten; anders wordt er een foutmelding weergegeven.
Als u de optie gebruikt om het gewenste aantal rijen op te geven, moet het opgegeven getal een positief geheel getal zijn en moet het aantal kleiner zijn dan het totale aantal rijen in de gegevensset.
Alle percentagewaarden moeten binnen het bereik 0 en 1 zijn.
Als u een getal of percentage opgeeft als een drijvende-puntnummer kleiner dan één getal en u het procentsymbool () niet gebruikt, wordt het getal geïnterpreteerd als een evenredige waarde.
Aanvullende vereisten voor gelaagde steekproeven
De strata-kolom kan alleen nominale of categorische gegevens bevatten. Als de kolom continue numerieke gegevens bevat, wordt er een foutbericht weergegeven.
Een kolom met te veel unieke waarden is geen goede kandidaat voor stratification. U kunt proberen om bepaalde categorieën samen te vouwen of waarden vooraf te groeperen.