Delen via


Metagegevensonderdeel bewerken

In dit artikel wordt een onderdeel beschreven dat is opgenomen in azure Machine Learning Designer.

Gebruik het onderdeel Metagegevens bewerken om metagegevens te wijzigen die zijn gekoppeld aan kolommen in een gegevensset. De waarde en het gegevenstype van de gegevensset worden gewijzigd na gebruik van het onderdeel Metagegevens bewerken.

Typische wijzigingen in metagegevens kunnen onder andere zijn:

  • Booleaanse of numerieke kolommen behandelen als categorische waarden.

  • Hiermee wordt aangegeven welke kolom het klasselabel bevat of de waarden bevat die u wilt categoriseren of voorspellen.

  • Kolommen markeren als functies.

  • Datum-/tijdwaarden wijzigen in numerieke waarden of omgekeerd.

  • De naam van kolommen wijzigen.

Gebruik Metagegevens bewerken wanneer u de definitie van een kolom moet wijzigen, meestal om te voldoen aan de vereisten voor een downstreamonderdeel. Sommige onderdelen werken bijvoorbeeld alleen met specifieke gegevenstypen of vereisen vlaggen op de kolommen, zoals IsFeature of IsCategorical.

Nadat u de vereiste bewerking hebt uitgevoerd, kunt u de metagegevens opnieuw instellen op de oorspronkelijke staat.

Metagegevens bewerken configureren

  1. Voeg in azure Machine Learning Designer het onderdeel Metagegevens bewerken toe aan uw pijplijn en verbind de gegevensset die u wilt bijwerken. U vindt het onderdeel in de categorie Gegevenstransformatie .

  2. Klik op Kolom bewerken in het rechterdeelvenster van het onderdeel en kies de kolom of set kolommen waarmee u wilt werken. U kunt kolommen afzonderlijk kiezen op naam of index, of u kunt een groep kolommen per type kiezen.

  3. Selecteer de optie Gegevenstype als u een ander gegevenstype wilt toewijzen aan de geselecteerde kolommen. Mogelijk moet u het gegevenstype voor bepaalde bewerkingen wijzigen. Als uw brongegevensset bijvoorbeeld getallen bevat die als tekst worden verwerkt, moet u deze wijzigen in een numeriek gegevenstype voordat u wiskundige bewerkingen gebruikt.

    • De ondersteunde gegevenstypen zijn String, Integer, Double, Booleaanse waarde en DateTime.

    • Als u meerdere kolommen selecteert, moet u de metagegevenswijzigingen toepassen op alle geselecteerde kolommen. Stel dat u twee of drie numerieke kolommen kiest. U kunt ze allemaal wijzigen in een gegevenstype tekenreeks en de naam ervan wijzigen in één bewerking. U kunt de ene kolom echter niet wijzigen in een gegevenstype tekenreeks en een andere kolom van een float naar een geheel getal.

    • Als u geen nieuw gegevenstype opgeeft, worden de metagegevens van de kolom ongewijzigd.

    • Het kolomtype en de waarden worden gewijzigd nadat u de bewerking Metagegevens bewerken hebt uitgevoerd. U kunt het oorspronkelijke gegevenstype op elk gewenst moment herstellen met behulp van Metagegevens bewerken om het kolomgegevenstype opnieuw in te stellen.

    Notitie

    De Datum/tijd-indeling volgt de ingebouwde Datum/tijd-indeling van Python.
    Als u een willekeurig type getal wijzigt in het type Datum/tijd , laat u het veld Datum/tijd-notatie leeg. Momenteel is het niet mogelijk om de doelgegevensindeling op te geven.

  4. Selecteer de optie Categorisch om op te geven dat de waarden in de geselecteerde kolommen moeten worden behandeld als categorieën.

    U hebt bijvoorbeeld een kolom met de getallen 0, 1 en 2, maar weet dat de getallen eigenlijk 'Roker', 'Niet-rokers' en 'Onbekend' betekenen. In dat geval zorgt u ervoor dat de waarden alleen worden gebruikt om gegevens te groeperen en niet in numerieke berekeningen door de kolom als categorisch te markeren.

  5. Gebruik de optie Velden als u de manier wilt wijzigen waarop Azure Machine Learning de gegevens in een model gebruikt.

    • Functie: Gebruik deze optie om een kolom te markeren als een functie in onderdelen die alleen op functiekolommen werken. Standaard worden alle kolommen in eerste instantie behandeld als functies.

    • Label: Gebruik deze optie om het label te markeren, dat ook wel het voorspelbare kenmerk of de doelvariabele wordt genoemd. Veel onderdelen vereisen dat precies één labelkolom aanwezig is in de gegevensset.

      In veel gevallen kan Azure Machine Learning afleiden dat een kolom een klasselabel bevat. Door deze metagegevens in te stellen, kunt u ervoor zorgen dat de kolom correct wordt geïdentificeerd. Als u deze optie instelt, worden gegevenswaarden niet gewijzigd. Het verandert alleen de manier waarop bepaalde machine learning-algoritmen de gegevens verwerken.

    Tip

    Hebt u gegevens die niet in deze categorieën passen? Uw gegevensset kan bijvoorbeeld waarden bevatten, zoals unieke id's die niet nuttig zijn als variabelen. Soms kunnen dergelijke id's problemen veroorzaken bij gebruik in een model.

    Gelukkig bewaart Azure Machine Learning al uw gegevens, zodat u dergelijke kolommen niet uit de gegevensset hoeft te verwijderen. Wanneer u bewerkingen wilt uitvoeren op een bepaalde speciale set kolommen, verwijdert u alle andere kolommen tijdelijk met behulp van het onderdeel Kolommen selecteren in gegevensset . Later kunt u de kolommen weer samenvoegen in de gegevensset met behulp van het onderdeel Kolommen toevoegen.

  6. Gebruik de volgende opties om eerdere selecties te wissen en metagegevens te herstellen naar de standaardwaarden.

    • Functie wissen: gebruik deze optie om de functievlag te verwijderen.

      Alle kolommen worden in eerste instantie behandeld als functies. Voor onderdelen die wiskundige bewerkingen uitvoeren, moet u deze optie mogelijk gebruiken om te voorkomen dat numerieke kolommen worden behandeld als variabelen.

    • Label wissen: gebruik deze optie om de metagegevens van het label uit de opgegeven kolom te verwijderen.

    • Score wissen: gebruik deze optie om de metagegevens van de score uit de opgegeven kolom te verwijderen.

      U kunt momenteel geen kolom expliciet markeren als score in Azure Machine Learning. Sommige bewerkingen leiden er echter toe dat een kolom wordt gemarkeerd als een score intern. Een aangepast R-onderdeel kan ook scorewaarden uitvoeren.

  7. Voer bij Nieuwe kolomnamen de nieuwe naam in van de geselecteerde kolom of kolommen.

    • Kolomnamen kunnen alleen tekens gebruiken die worden ondersteund door UTF-8-codering. Lege tekenreeksen, nullen of namen die volledig uit spaties bestaan, zijn niet toegestaan.

    • Als u de naam van meerdere kolommen wilt wijzigen, voert u de namen in als een door komma's gescheiden lijst in volgorde van de kolomindexen.

    • De naam van alle geselecteerde kolommen moet worden gewijzigd. U kunt kolommen niet weglaten of overslaan.

  8. Verzend de pijplijn.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.