Categorische waarden groeperen
Belangrijk
De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.
Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.
- Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
- Meer informatie over Azure Machine Learning.
De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.
Groepering van gegevens uit meerdere categorieën in een nieuwe categorie
Categorie: Gegevenstransformatie/manipulatie
Notitie
Van toepassing op: Machine Learning Studio (klassiek)
Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.
Moduleoverzicht
In dit artikel wordt beschreven hoe u de module Groepscategorische waarden in Machine Learning Studio (klassiek) gebruikt om een in-place opzoektabel te maken.
Het gebruikelijke gebruik voor het groeperen van categorische waarden is het samenvoegen van meerdere tekenreekswaarden in één nieuw niveau. U kunt bijvoorbeeld afzonderlijke postcodes in een regio toewijzen aan één regionale code of meerdere producten onder één categorie groepen.
Als u deze module wilt gebruiken, typt u de opzoekwaarden die u wilt gebruiken en wijst u bestaande waarden toe aan de vervangende waarden. U kunt groeperingen alleen maken voor categorische kolommen, niet voor kolommen van het numerieke type of kolommen die zijn aangewezen als labels of onderdelen.
Kolomwaarden die niet expliciet zijn toegewezen aan een nieuw niveau, worden toegewezen aan een standaardniveau. Als u bijvoorbeeld niet alle afzonderlijke postcodes hebt weergegeven, worden deze gegroepeerd op een niveau voor niet-kaartwaarden, wat u onbekend kunt noemen.
Notitie
Er kunnen maximaal 20 nieuwe niveaus worden gemaakt, waaronder het standaardniveau. Als u meer waarden nodig hebt of toewijzingen dynamisch wilt definiëren, raden we u aan om aangepast R-script te gebruiken in de module R-script uitvoeren. U kunt ook SQL gebruiken in de module Apply SQL Transformation.
Categorische groepswaarden gebruiken
U wordt aangeraden vooraf de lijst met bestaande waarden en de nieuwe categorieën voor te bereiden. Voor elke categorie moet u een nieuwe categorienaam en een door komma's gescheiden lijst met waarden voorbereiden die u in de categorie wilt opnemen.
Voeg de module Groepscategorische waarden toe aan uw experiment. U vindt de module onder Gegevenstransformatie, Manipulatie.
Verbinding maken gegevensset met de waarden die u wilt transformeren.
Gebruik in het deelvenster Eigenschappen van Groepscategorische waarden de kolomselectie om de kolom te kiezen met de niveaus die u wilt verminderen.
U wordt aangeraden op BEGINNEN MET en GEENKOLOMMEN te klikken om te starten en vervolgens kolommen op naam toe te voegen. Anders kunnen er te veel kolommen worden toegevoegd als kandidaten, wat leidt tot een fout.
De kolom moet een categorische kolom zijn. Als dat niet het is, voegt u Metagegevens bewerken upstream toe en wijzigt u het kolomtype.
Zorg ervoor dat u kolommen verwijdert waarop geen tekenreeksvervanging mag worden toegepast.
Geef bij Uitvoermodus aan of u alleen de nieuwe niveaus wilt gebruiken of de wijzigingen wilt toevoegen om de oorspronkelijke kolom weer te geven, met de vervangingen naast elkaar.
De standaardwaarde , ResultOnly, toont alleen de nieuwe waarden. Met de optie Inplace worden de bestaande kolomwaarden vervangen door de nieuwe niveaus.
Bij Naam van standaardniveau typt u een tekenreekswaarde die moet worden gebruikt als vervanging voor alle waarden die niet expliciet zijn kaart gegeven. U kunt bijvoorbeeld 'Onbekend' of 'Standaard' gebruiken.
Notitie
Deze standaardniveauwaarde wordt toegepast op alle waarden die niet kunnen worden toegepast. Als u per ongeluk kolommen hebt opgenomen die u niet wilt toepassen, wordt de waarde toegepast op alle waarden in de kolommen. Controleer daarom of de kolomselectie nauwkeurig is voordat u deze verwerkt.
Bij Nieuw aantal niveaus typt u een getal dat het totale aantal nieuwe categorieën (niveaus) aangeeft, inclusief het standaardniveau voor niet-kaartbare waarden.
Geef bij Naam van nieuw niveau 1 de naam van de nieuwe groep op voor de eerste categorie.
Typ of plak in het tekstvak direct daarna een door komma's gescheiden lijst met oude niveaus om toe te geven aan nieuw niveau 1 een volledige lijst met alle waarden die aan het nieuwe niveau moeten worden toegevoegd. Jokertekens en reguliere expressies zijn niet toegestaan.
Ga door met het typen van nieuwe niveaunamen en typ of plak waarden die moeten worden toe te staan aan het nieuwe niveau.
U wordt aangeraden uw lijst met waarden op te slaan in een afzonderlijk bestand terwijl u werkt. Als u het aantal niveaus wijzigt, worden tekenreeksen die u eerder hebt getypt, verwijderd en moet u opnieuw beginnen.
Als u echter een module bewerkt die eerder is opgeslagen, kunt u terugkeren naar de oorspronkelijke instellingen.
Voer het experiment uit.
Resultaten
Als u de resultaten wilt weergeven, klikt u met de rechtermuisknop op de module Groepscategorische waarden , selecteert u Gegevensset resultaten en klikt u op Visualiseren.
Voorbeelden
Zie de machine learning voorbeelden van Azure AI Gallery.
U kunt deze module ook zelf proberen door een kleine gegevensset te gebruiken met enkele tekenreeksvariabelen die eenvoudig kunnen worden gegroepeerd, zoals de gegevensset Automobile price die is opgegeven in Machine Learning Studio (klassiek).
Stel dat u auto's in de gegevensset Automobile price wilt groeperen op motorgrootte, met behulp van het aantal cilinders. In plaats van veel verschillende engine-grootten maakt u als volgt de nieuwe niveaus, 'big', 'small' en 'other':
- Grote motoren: zes cilinders of groter
- Kleine motoren: twee of vier cilinders
- Over het overige: iets anders
- Voeg de module Select Columns in Dataset toe en selecteer alleen de
num-of-cylinders
kolom. - Voeg de module Edit Metadata toe en wijzig de
num-of-cylinders
kolom in Categorisch. - Voeg de module Groepscategorische waarden toe en verbind de gewijzigde gegevensset.
- Bij Standaardniveaunaam typt u
other
. U hoeft geen waarden op te geven voor dit niveau. - Bij Naam van nieuw niveau 1 typt u
big
. Plak in de lijst met oude niveaus die moeten worden toegevoegd aan niveau 1six, eight, twelve
. - Bij Naam van nieuw niveau 2 typt u
small
. Plak voor de kaartwaarden intwo, four
. - Voer het experiment uit.
- Wanneer u de resultaten visualiseert, realiseert u zich dat de oorspronkelijke gegevensset afwijkende enginegrootten had waar u geen rekening mee hebt gehouden, zoals
five
enthree
. Al deze items worden aan het niveau van de kaartother
weergegeven.
Technische opmerkingen
Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.
Mogelijk wordt het foutbericht 'Kolom met naam '<kolomnaam>' is niet in een toegestane categorie weergegeven.
Dit bericht geeft aan dat de kolom die u hebt geselecteerd geen categorische kolom is. U kunt de kolom markeren als met
Categorical
metagegevens bewerken of een andere kolom selecteren die de juiste categoriewaarden bevat.
Verwachte invoer
Naam | Type | Description |
---|---|---|
Gegevensset | Gegevenstabel | Gegevens die moeten worden gegroepeerd |
Moduleparameters
Name | Bereik | Type | Standaard | Beschrijving |
---|---|---|---|---|
Geselecteerde kolommen | alle | ColumnSelection | CategorischAll | Selecteer de kolommen die worden gegroepeerd. |
Uitvoermodus | alle | Outputto | ResultOnly | Geef op hoe de categorielabels moeten worden uitgevoerd. |
Naam van standaardniveau | alle | Tekenreeks | Geef het standaardniveau aan dat moet worden gebruikt als er geen toewijzingen overeenkomen. | |
Nieuw aantal niveaus | Lijst | Aantal groepen | Geef het aantal niveaus op nadat de waarden zijn gegroepeerd, inclusief het standaardniveau. |
Uitvoer
Naam | Type | Description |
---|---|---|
Gegevensset met resultaten | Gegevenstabel | Gegroepeerde gegevens |