Gegevens handmatig invoeren
Belangrijk
De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.
Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.
- Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
- Meer informatie over Azure Machine Learning.
De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.
Hiermee kunt u kleine gegevenssets invoeren en bewerken door waarden te typen
Categorie: Gegevenstransformatie/manipulatie
Notitie
Van toepassing op: Machine Learning Studio (klassiek)
Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.
Moduleoverzicht
In dit artikel wordt beschreven hoe u de module Gegevens handmatig invoeren in Machine Learning Studio (klassiek) gebruikt om een kleine gegevensset te maken door waarden te typen. De gegevensset kan meerdere kolommen hebben.
Deze module kan nuttig zijn in scenario's zoals:
Een kleine set waarden genereren voor testen
Een korte lijst met labels maken
Waarden invoeren voor gebruik in Wiskundige bewerking toepassen
Vervangingswaarden opgeven voor gebruik in Discrete waarden vervangen
Een lijst met kolomnamen typen om in een gegevensset in te voegen
Gegevens handmatig invoeren gebruiken
Voeg de module Gegevens handmatig invoeren toe aan uw experiment. U vindt deze module in de categorie Gegevensinvoer en -uitvoer in Machine Learning Studio (klassiek).
Selecteer bij DataFormat een van de volgende opties. Deze opties bepalen hoe de gegevens die u op geeft, moeten worden geparseerd. De vereisten voor elke indeling verschillen sterk. Lees daarom de gerelateerde onderwerpen.
ARFF. De bestandsindeling kenmerk-relation, gebruikt door Weka. Zie Converteren naar ARFF voor meer informatie.
CSV. Indeling van door komma's gescheiden waarden. Zie Converteren naar CSV voor meer informatie.
SVMLight. Een indeling die wordt gebruikt door Vowpal Wabbit en machine learning frameworks. Zie Converteren naar SVMLight voor meer informatie.
TSV. Indeling van door tabs gescheiden waarden. Zie Converteren naar TSV voor meer informatie.
Als u een indeling kiest en geen gegevens opdoet die voldoen aan de indelingsspecificaties, treedt er een run time-fout op.
Klik in het tekstvak Gegevens om gegevens in te gaan invoeren. De volgende indelingen vereisen speciale aandacht:
CSV: als u meerdere kolommen wilt maken, plakt u door komma's gescheiden tekst of typt u meerdere kolommen met komma's tussen velden.
Als u de optie HasHeader selecteert, kunt u de eerste rij met waarden gebruiken als kolomkop.
Als u deze optie deselecteert, worden de kolommen, Col1, Col2, enzovoort, gebruikt. U kunt namen van kolommen later toevoegen of wijzigen met Metagegevens bewerken.
TSV: als u meerdere kolommen wilt maken, plakt u door tabs gescheiden tekst of typt u meerdere kolommen met behulp van tabs tussen velden.
Als u de optie HasHeader selecteert, kunt u de eerste rij met waarden gebruiken als kolomkop.
Als u deze optie deselecteert, worden de kolommen, Col1, Col2, enzovoort, gebruikt. U kunt namen van kolommen later toevoegen of wijzigen met Metagegevens bewerken.
ARFF: Plak een bestaand ARFF-indelingsbestand. Als u waarden rechtstreeks typt, moet u de optionele header- en vereiste kenmerkvelden aan het begin van de gegevens toevoegen.
De volgende header- en kenmerkrijen kunnen bijvoorbeeld worden toegevoegd aan een eenvoudige lijst. De kolomkoppen zouden zijn
SampleText
.% Title: SampleText.ARFF % Source: Enter Data module @ATTRIBUTE SampleText STRING @DATA \<type first data row here>
SVMLight: typ of plak waarden in de SVMLight-indeling.
Het volgende voorbeeld vertegenwoordigt bijvoorbeeld de eerste paar regels van de gegevensset Bloeddonatie, in SVMight-indeling:
# features are [Recency], [Frequency], [Monetary], [Time] 1 1:2 2:50 3:12500 4:98 1 1:0 2:13 3:3250 4:28
Wanneer u de module Gegevens handmatig invoeren uitvoeren , worden deze regels als volgt geconverteerd naar een gegevensset met kolommen en indexwaarden:
Kolom 1 Kolom 2 Col3 Col4 Labels 0.00016 0.004 0.999961 0.00784 1 0 0.004 0.999955 0.008615 1
Druk na elke rij op ENTER om een nieuwe regel te starten.
Zorg ervoor dat u na de laatste rij op ENTER drukt.
Als u meerdere keren op ENTER drukt om meerdere lege rijen na elkaar toe te voegen, wordt de uiteindelijke lege rij verwijderd, maar andere lege rijen worden beschouwd als ontbrekende waarden.
Als u rijen met ontbrekende waarden maakt, kunt u ze later altijd uitfilteren.
Klik met de rechtermuisknop op de module en selecteer Geselecteerde uitvoeren om de gegevens te parseren en als gegevensset in uw werkruimte te laden.
Als u de gegevensset wilt weergeven, klikt u op de uitvoerpoort en selecteert u Visualiseren.
Voorbeelden
Voor voorbeelden van hoe deze module wordt gebruikt in machine learning, zie de Azure AI Gallery:
- Voorbeeld van gegevens downloaden: haalt gegevens op uit de UCI Machine Learning opslagplaats en gebruikt vervolgens Gegevens handmatig invoeren om kolomnamen te maken. Er is ook voorbeeld-R-code beschikbaar, die u kunt gebruiken om de ingevoerde rijen samen te voegen met de gegevensset.
Technische opmerkingen
Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.
Ongeacht de opgeslagen indeling worden gegevens die u invult impliciet geconverteerd naar de indeling van de gegevensset (gegevenstabel) voor gebruik in experimenten. Gegevens worden echter niet persistent gemaakt als een opgeslagen gegevensset, tenzij u expliciet de optie Opslaan als gegevensset kiest.
Als u de gegevens in Gegevens handmatig invoeren niet opgeslagen als gegevensset, worden deze verwijderd uit de werkruimtecache wanneer u de sessie eindigt. U kunt het experiment echter opnieuw uitvoeren om de gegevens beschikbaar te maken.
Als u de gegevens uit Gegevens handmatig invoeren combineert met een andere gegevensset, mag de gecombineerde gegevensset niet twee kolommen met dezelfde naam hebben. Als er dubbele kolomnamen zijn, wordt een numeriek achtervoegsel toegevoegd aan de kolom uit de juiste gegevensset om de kolomnamen uniek te maken.
Stel dat u twee exemplaren van Gegevens handmatig invoeren hebt die de kolom TestData bevatten en gebruik de module Kolommen toevoegen om deze samen te voegen. De kolom van het linker exemplaar van Gegevens handmatig invoeren blijft als TestData en de kolom van het rechter exemplaar van Gegevens handmatig invoeren krijgt de naam TestData (2).