Kolommen selecteren in het onderdeel Gegevensset

Artikel
09/01/2024

In dit artikel wordt een onderdeel in Azure Machine Learning Designer beschreven.

Gebruik dit onderdeel om een subset van kolommen te kiezen die u wilt gebruiken in downstreambewerkingen. Het onderdeel verwijdert de kolommen niet fysiek uit de brongegevensset; In plaats daarvan wordt een subset van kolommen gemaakt, net zoals een databaseweergave of projectie.

Dit onderdeel is handig wanneer u de kolommen wilt beperken die beschikbaar zijn voor een downstreambewerking of als u de grootte van de gegevensset wilt verkleinen door overbodige kolommen te verwijderen.

De kolommen in de gegevensset worden uitgevoerd in dezelfde volgorde als in de oorspronkelijke gegevens, zelfs als u ze in een andere volgorde opgeeft.

Gebruiksinstructies

Dit onderdeel heeft geen parameters. U gebruikt de kolomkiezer om de kolommen te kiezen die u wilt opnemen of uitsluiten.

Kolommen kiezen op naam

Er zijn meerdere opties in het onderdeel voor het kiezen van kolommen op naam:

Filteren en zoeken

Klik op de optie BY NAME .

Als u een gegevensset hebt verbonden die al is ingevuld, wordt er een lijst met beschikbare kolommen weergegeven. Als er geen kolommen worden weergegeven, moet u mogelijk upstream-onderdelen uitvoeren om de kolomlijst weer te geven.

Als u de lijst wilt filteren, typt u het zoekvak. Als u bijvoorbeeld de letter w in het zoekvak typt, wordt de lijst gefilterd om de kolomnamen weer te geven die de letter wbevatten.

Selecteer kolommen en klik op de pijl-rechts om de geselecteerde kolommen naar de lijst in het rechterdeelvenster te verplaatsen.
- Als u een doorlopend bereik met kolomnamen wilt selecteren, drukt u op Shift + Klik.
- Als u afzonderlijke kolommen aan de selectie wilt toevoegen, drukt u op Ctrl+Klikken.
Klik op de knop vinkje om op te slaan en te sluiten.
Namen gebruiken in combinatie met andere regels

Klik op de optie WITH RULES .

Kies een regel, zoals het weergeven van kolommen van een specifiek gegevenstype.

Klik vervolgens op afzonderlijke kolommen van dat type op naam om ze toe te voegen aan de selectielijst.
Een door komma's gescheiden lijst met kolomnamen typen of plakken

Als uw gegevensset breed is, is het mogelijk eenvoudiger om indexen of gegenereerde lijsten met namen te gebruiken in plaats van kolommen afzonderlijk te selecteren. Ervan uitgaande dat u de lijst vooraf hebt voorbereid:
1. Klik op de optie WITH RULES .
2. Selecteer Geen kolommen, selecteer Opnemen en klik vervolgens in het tekstvak met het rode uitroepteken.
3. Plak of typ een door komma's gescheiden lijst met eerder gevalideerde kolomnamen. U kunt het onderdeel niet opslaan als een kolom een ongeldige naam heeft, dus controleer de namen van tevoren.
U kunt deze methode ook gebruiken om een lijst met kolommen op te geven met behulp van hun indexwaarden.

Kiezen op type

Als u de optie WITH RULES gebruikt, kunt u meerdere voorwaarden toepassen op de kolomselecties. Mogelijk moet u bijvoorbeeld alleen functiekolommen van een numeriek gegevenstype ophalen.

De optie BEGIN WITH bepaalt uw beginpunt en is belangrijk voor het begrijpen van de resultaten.

Als u de optie ALLE KOLOMMEN selecteert, worden alle kolommen toegevoegd aan de lijst. Vervolgens moet u de optie Uitsluiten gebruiken om kolommen te verwijderen die aan bepaalde voorwaarden voldoen.

U kunt bijvoorbeeld beginnen met alle kolommen en vervolgens kolommen op naam of op type verwijderen.
Als u de optie GEEN KOLOMMEN selecteert, wordt de lijst met kolommen leeg. Vervolgens geeft u voorwaarden op om kolommen toe te voegen aan de lijst.

Als u meerdere regels toepast, is elke voorwaarde additief. Stel dat u begint met geen kolommen en vervolgens een regel toevoegt om alle numerieke kolommen op te halen. In de gegevensset Automobile price resulteert dat in 16 kolommen. Klik vervolgens op het + teken om een nieuwe voorwaarde toe te voegen en selecteer Alle functies opnemen. De resulterende gegevensset bevat alle numerieke kolommen, plus alle functiekolommen, inclusief enkele kolommen met tekenreeksfuncties.

Kiezen op kolomindex

De kolomindex verwijst naar de volgorde van de kolom in de oorspronkelijke gegevensset.

Kolommen worden opeenvolgend genummerd vanaf 1.
Gebruik een afbreekstreepje om een bereik van kolommen op te halen.
Open-eindspecificaties zoals 1- of -3 zijn niet toegestaan.
Dubbele indexwaarden (of kolomnamen) zijn niet toegestaan en kunnen leiden tot een fout.

Als uw gegevensset bijvoorbeeld ten minste acht kolommen bevat, kunt u een van de volgende voorbeelden plakken om meerdere niet-aaneengesloten kolommen te retourneren:

8,1-4,6
1,3-8
1,3-6,4

het laatste voorbeeld resulteert niet in een fout; er wordt echter één exemplaar van de kolom 4geretourneerd.

Volgorde van kolommen wijzigen

De optie Duplicaten toestaan en kolomvolgorde behouden in de selectie begint met een lege lijst en voegt kolommen toe die u opgeeft op naam of index. In tegenstelling tot andere opties, die altijd kolommen in hun natuurlijke volgorde retourneren, worden met deze optie de kolommen uitgevoerd in de volgorde waarin u ze een naam geeft of vermeldt.

In een gegevensset met de kolommen Col1, Col2, Col3 en Col4 kunt u bijvoorbeeld de volgorde van de kolommen omkeren en kolom 2 weglaten door een van de volgende lijsten op te geven:

Col4, Col3, Col1
4,3,1

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.

Delen via