Converteren naar indicatorwaarden
Belangrijk
De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.
Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.
- Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
- Meer informatie over Azure Machine Learning.
De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.
Converteert categorische waarden in kolommen naar indicatorwaarden
Categorie: Gegevenstransformatie/manipulatie
Notitie
Van toepassing op: Machine Learning Studio (klassiek)
Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.
Moduleoverzicht
In dit artikel wordt beschreven hoe u de module Converteren naar indicatorwaarden in Machine Learning Studio (klassiek) gebruikt. Het doel van deze module is om kolommen die categorische waarden bevatten te converteren naar een reeks binaire indicatorkolommen die gemakkelijker kunnen worden gebruikt als functies in een machine learning model.
Converteren naar indicatorwaarden configureren
Voeg de module Converteren naar indicatorwaarden toe aan Machine Learning experiment en verbind deze met de gegevensset met de kolommen die u wilt converteren. U vindt deze module onder Gegevenstransformaties in de categorie Manipulatie .
Gebruik de kolom selector om een of meer categorische kolommen te kiezen.
Om ervoor te zorgen dat de kolommen die u selecteert categorisch zijn, gebruikt u Metagegevens bewerken vóór Converteren naar indicatorwaarden in uw experiment om de doelkolom als categorisch te markeren.
Selecteer de optie Categorische kolommen overschrijven als u alleen de nieuwe Booleaanse kolommen wilt gebruiken.
Deze optie is standaard uitgeschakeld, zodat u de categorische kolom kunt zien die de bron is, samen met de gerelateerde indicatorkolommen.
Tip
Als u de optie kiest om te overschrijven, wordt de bronkolom niet daadwerkelijk verwijderd of gewijzigd. In plaats daarvan worden de nieuwe kolommen gegenereerd en weergegeven in de uitvoerset en blijft de bronkolom beschikbaar in de werkruimte. Als u de oorspronkelijke gegevens wilt zien, kunt u de module Kolommen toevoegen op elk moment gebruiken om de bronkolom weer toe te voegen.
Voer het experiment uit.
Resultaten
Stel dat u een kolom hebt met scores die aangeven of een server een hoge, gemiddelde of lage kans op fouten heeft.
Server-id | Foutscore |
---|---|
10301 | Beperkt |
10302 | Normaal |
10303 | Hoog |
Wanneer u Converteren naar indicatorwaarden toe passen, wordt de enkelvoudige kolom met labels geconverteerd naar meerdere kolommen met Booleaanse waarden:
Server-id | Foutscore - Laag | Foutscore - Gemiddeld | Foutscore - Hoog |
---|---|---|---|
10301 | 1 | 0 | 0 |
10302 | 0 | 1 | 0 |
10303 | 0 | 0 | 1 |
Dit is de manier waarop de conversie werkt:
In de kolom Foutscore waarin het risico wordt beschreven, zijn er slechts drie mogelijke waarden (Hoog, Gemiddeld en Laag) en ontbreken er geen waarden. Daarom worden er precies drie nieuwe kolommen gemaakt.
De nieuwe indicatorkolommen krijgen een naam op basis van de kolomkoppen en waarden van de bronkolom, met behulp van dit patroon: <bronkolom>- <gegevenswaarde>.
Er moet een 1 in precies één indicatorkolom staan en 0 in alle andere indicatorkolommen. Dat komt doordat elke server slechts één risicoclassificatie kan hebben.
U kunt nu de drie indicatorkolommen gebruiken als kenmerken en hun correlatie analyseren met andere eigenschappen die zijn gekoppeld aan een ander risiconiveau.
Voorbeelden
Zie de volgende Azure AI Gallery voor voorbeelden van hoe deze module wordt Azure AI Gallery:
Detectie van borstkanker: Patiënten worden in groepen op basis van patiënt-id-nummers in een bin binned, waarna Indicatorwaarden wordt gebruikt om te markeren tot welke groep de patiënt behoort. Later worden de groepsindicatoren gebruikt bij het scoren van modellen.
Directe marketing: Waarschijnlijkheden worden vergeleken met een constante met behulp van Wiskundige bewerking toepassen en de waarden Ja/Nee die aangeven of de score boven of onder de constante was, worden omgezet in nieuwe indicatorkolommen.
Detectie van binnendringing in het netwerk: logboekgegevens worden geladen vanuit Azure Storage. De klassevariabele (die bijvoorbeeld beschrijft als een aanval een rootkit of bufferoverloop is) wordt geconverteerd naar een categorische kolom en vervolgens uitgebreid naar meerdere indicatorwaarden.
Technische opmerkingen
Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.
Gebruikstips
Alleen kolommen die als categorisch zijn gemarkeerd, kunnen worden geconverteerd naar indicatorkolommen. Als u deze fout ziet, is een van de kolommen die u hebt geselecteerd waarschijnlijk niet categorisch:
Fout 0056: Kolom met naamkolomnaam <> valt niet in een toegestane categorie.
De meeste tekenreekskolommen worden standaard verwerkt als tekenreeksfuncties, dus u moet ze expliciet markeren als categorisch met metagegevens bewerken.
Er wordt een fout weergegeven als u niet ten minste één categorische kolom selecteert.
Er is geen limiet voor het aantal kolommen dat u kunt converteren naar indicatorkolommen. Omdat elke kolom met waarden echter meerdere indicatorkolommen kan opleveren, wilt u mogelijk slechts enkele kolommen tegelijk converteren en controleren.
Als de kolom ontbrekende waarden bevat, wordt er een afzonderlijke indicatorkolom gemaakt voor de ontbrekende categorie, met deze naam: <bronkolom>- Ontbreekt
Als de kolom die u converteert naar indicatorwaarden getallen bevat, moeten deze als categorisch worden gemarkeerd, net als elke andere functiekolom. Nadat u dit hebt gedaan, worden de getallen behandeld als discrete waarden. Als u bijvoorbeeld een numerieke kolom hebt met MPG-waarden tussen 25 en 30, wordt er een nieuwe indicatorkolom gemaakt voor elke discrete waarde:
Merk Highway mpg -25 Highway mpg -26 Highway mpg -27 Highway mpg -28 Highway mpg -29 Highway mpg -30 Alfa Romeo 0 0 0 0 0 1 Om te voorkomen dat u een groot aantal indicatorkolommen krijgt, raden we u aan eerst het aantal waarden in de kolom te controleren en de gegevens op de juiste wijze te binnen of kwantiseren.
Verwachte invoer
Naam | Type | Description |
---|---|---|
Gegevensset | Gegevenstabel | Gegevensset met categorische kolommen |
Moduleparameters
Name | Bereik | Type | Standaard | Beschrijving |
---|---|---|---|---|
Categorische kolommen om te converteren | Alle | ColumnSelection | Selecteer categorische kolommen die u wilt converteren naar indicator-matrices. | |
Categorische kolommen overschrijven | Alle | Boolean-waarde | onjuist | Als de optie Waar is, overschrijft u de geselecteerde categorische kolommen; anders moet u de resulterende indicator-matrices aan de gegevensset toegevoegd. |
Uitvoer
Naam | Type | Description |
---|---|---|
Gegevensset met resultaten | Gegevenstabel | Gegevensset met categorische kolommen geconverteerd naar indicator-matrices. |