Ontbrekend gegevensonderdeel opschonen
In dit artikel wordt een onderdeel in Azure Machine Learning Designer beschreven.
Gebruik dit onderdeel om ontbrekende waarden te verwijderen, te vervangen of af te stellen.
Gegevenswetenschappers controleren vaak gegevens op ontbrekende waarden en voeren vervolgens verschillende bewerkingen uit om de gegevens op te lossen of nieuwe waarden in te voegen. Het doel van dergelijke opschoonbewerkingen is om problemen te voorkomen die worden veroorzaakt door ontbrekende gegevens die zich kunnen voordoen bij het trainen van een model.
Dit onderdeel ondersteunt meerdere soorten bewerkingen voor 'opschonen' ontbrekende waarden, waaronder:
- Ontbrekende waarden vervangen door een tijdelijke aanduiding, gemiddelde of andere waarde
- Rijen en kolommen met ontbrekende waarden volledig verwijderen
- Waarden uitstellen op basis van statistische methoden
Als u dit onderdeel gebruikt, wordt uw brongegevensset niet gewijzigd. In plaats daarvan wordt er een nieuwe gegevensset gemaakt in uw werkruimte die u in de volgende werkstroom kunt gebruiken. U kunt ook de nieuwe, opgeschoonde gegevensset opslaan voor hergebruik.
Dit onderdeel voert ook een definitie uit van de transformatie die wordt gebruikt om de ontbrekende waarden op te schonen. U kunt deze transformatie opnieuw gebruiken voor andere gegevenssets met hetzelfde schema, met behulp van het onderdeel Transformatie toepassen.
Ontbrekende gegevens opschonen gebruiken
Met dit onderdeel kunt u een schoonmaakbewerking definiëren. U kunt de schoonmaakbewerking ook opslaan, zodat u deze later kunt toepassen op nieuwe gegevens. Zie de volgende secties van het maken en opslaan van een schoonmaakproces:
Belangrijk
De reinigingsmethode die u gebruikt voor het verwerken van ontbrekende waarden, kan uw resultaten aanzienlijk beïnvloeden. U wordt aangeraden te experimenteren met verschillende methoden. Overweeg zowel de reden voor het gebruik van een bepaalde methode als de kwaliteit van de resultaten.
Ontbrekende waarden vervangen
Telkens wanneer u het onderdeel Clean Missing Data toepast op een set gegevens, wordt dezelfde opschoonbewerking toegepast op alle kolommen die u selecteert. Als u daarom verschillende kolommen met verschillende methoden wilt opschonen, gebruikt u afzonderlijke exemplaren van het onderdeel.
Voeg het onderdeel Clean Missing Data toe aan uw pijplijn en verbind de gegevensset met ontbrekende waarden.
Als u kolommen wilt opschonen, kiest u de kolommen die de ontbrekende waarden bevatten die u wilt wijzigen. U kunt meerdere kolommen kiezen, maar u moet dezelfde vervangingsmethode gebruiken in alle geselecteerde kolommen. Daarom moet u meestal tekenreekskolommen en numerieke kolommen afzonderlijk opschonen.
Als u bijvoorbeeld wilt controleren op ontbrekende waarden in alle numerieke kolommen:
Selecteer het onderdeel Ontbrekende gegevens opschonen en klik in het rechterdeelvenster van het onderdeel op Bewerken .
Voor Opnemen selecteert u Kolomtypen in de vervolgkeuzelijst en selecteert u vervolgens Numeriek.
Elke schoonmaak- of vervangingsmethode die u kiest, moet van toepassing zijn op alle kolommen in de selectie. Als de gegevens in een kolom niet compatibel zijn met de opgegeven bewerking, retourneert het onderdeel een fout en stopt de pijplijn.
Geef voor minimale ontbrekende waardeverhouding het minimum aantal ontbrekende waarden op dat is vereist voor de bewerking die moet worden uitgevoerd.
U gebruikt deze optie in combinatie met de verhouding maximale ontbrekende waarde om de voorwaarden te definiëren waaronder een schoonmaakbewerking wordt uitgevoerd op de gegevensset. Als er te veel of te weinig rijen ontbreken, kan de bewerking niet worden uitgevoerd.
Het getal dat u invoert, vertegenwoordigt de verhouding tussen ontbrekende waarden en alle waarden in de kolom. Standaard is de eigenschap Minimale ontbrekende waardeverhouding ingesteld op 0. Dit betekent dat ontbrekende waarden worden opgeschoond, zelfs als er slechts één ontbrekende waarde is.
Waarschuwing
Aan deze voorwaarde moet worden voldaan door elke kolom om de opgegeven bewerking toe te passen. Stel bijvoorbeeld dat u drie kolommen hebt geselecteerd en vervolgens de minimale verhouding van ontbrekende waarden instelt op .2 (20%), maar slechts één kolom daadwerkelijk 20% ontbrekende waarden heeft. In dit geval is de opschoonbewerking alleen van toepassing op de kolom met meer dan 20% ontbrekende waarden. Daarom zijn de andere kolommen ongewijzigd.
Als u twijfelt of ontbrekende waarden zijn gewijzigd, selecteert u de optie, de kolom Ontbrekende waardeindicator genereren. Er wordt een kolom toegevoegd aan de gegevensset om aan te geven of aan elke kolom de opgegeven criteria voor de minimum- en maximumbereiken voldoet.
Geef voor de verhouding maximale ontbrekende waarde het maximum aantal ontbrekende waarden op dat kan worden weergegeven voor de bewerking die moet worden uitgevoerd.
U kunt bijvoorbeeld alleen ontbrekende waarden vervangen als 30% of minder van de rijen ontbrekende waarden bevatten, maar de waarden ongewijzigd laten als meer dan 30% van de rijen ontbrekende waarden bevat.
U definieert het getal als de verhouding tussen ontbrekende waarden en alle waarden in de kolom. Standaard is de verhouding maximale ontbrekende waarde ingesteld op 1. Dit betekent dat ontbrekende waarden worden opgeschoond, zelfs als 100% van de waarden in de kolom ontbreken.
Voor de schoonmaakmodus selecteert u een van de volgende opties voor het vervangen of verwijderen van ontbrekende waarden:
Aangepaste vervangingswaarde: gebruik deze optie om een tijdelijke aanduidingswaarde (zoals een 0 of N.V. op te geven) die van toepassing is op alle ontbrekende waarden. De waarde die u als vervanging opgeeft, moet compatibel zijn met het gegevenstype van de kolom.
Vervangen door gemiddelde: berekent het kolom gemiddelde en gebruikt het gemiddelde als de vervangingswaarde voor elke ontbrekende waarde in de kolom.
Is alleen van toepassing op kolommen met gehele getallen, dubbele of Booleaanse gegevenstypen.
Vervangen door mediaan: Berekent de kolommediaanwaarde en gebruikt de mediaanwaarde als vervanging voor eventuele ontbrekende waarden in de kolom.
Alleen van toepassing op kolommen met gehele getallen of dubbele gegevenstypen.
Vervangen door de modus: berekent de modus voor de kolom en gebruikt de modus als vervangingswaarde voor elke ontbrekende waarde in de kolom.
Is van toepassing op kolommen met integer-, dubbele, booleaanse of categorische gegevenstypen.
Volledige rij verwijderen: hiermee verwijdert u alle rijen in de gegevensset met een of meer ontbrekende waarden. Dit is handig als de ontbrekende waarde willekeurig kan worden beschouwd als ontbrekend.
Hele kolom verwijderen: Hiermee verwijdert u alle kolommen in de gegevensset met een of meer ontbrekende waarden.
De optie Vervangingswaarde is beschikbaar als u de optie aangepaste vervangingswaarde hebt geselecteerd. Typ een nieuwe waarde die u wilt gebruiken als vervangingswaarde voor alle ontbrekende waarden in de kolom.
Houd er rekening mee dat u deze optie alleen kunt gebruiken in kolommen met het gehele getal, dubbele, booleaanse waarde of tekenreeks.
Kolom ontbrekende waardeindicator genereren: selecteer deze optie als u een indicatie wilt geven of de waarden in de kolom voldoen aan de criteria voor het opschonen van ontbrekende waarden. Deze optie is vooral handig wanneer u een nieuwe schoonmaakbewerking instelt en er zeker van wilt zijn dat deze werkt zoals ontworpen.
Verzend de pijplijn.
Resultaten
Het onderdeel retourneert twee uitvoerwaarden:
Opgeschoonde gegevensset: een gegevensset die bestaat uit de geselecteerde kolommen, met ontbrekende waarden die zijn verwerkt zoals opgegeven, samen met een indicatorkolom als u die optie hebt geselecteerd.
Kolommen die niet zijn geselecteerd voor reiniging, worden ook 'doorgegeven'.
Opschoningstransformatie: een gegevenstransformatie die wordt gebruikt voor het opschonen, die later kan worden opgeslagen in uw werkruimte en later kan worden toegepast op nieuwe gegevens.
Een opgeslagen schoonmaakbewerking toepassen op nieuwe gegevens
Als u het opschonen vaak moet herhalen, raden we u aan uw recept op te slaan voor het opschonen van gegevens als een transformatie, zodat u deze opnieuw kunt gebruiken met dezelfde gegevensset. Het opslaan van een opschoontransformatie is met name handig als u regelmatig opnieuw moet importeren en vervolgens gegevens met hetzelfde schema moet opschonen.
Voeg het onderdeel Transformatie toepassen toe aan uw pijplijn.
Voeg de gegevensset toe die u wilt opschonen en verbind de gegevensset met de rechterinvoerpoort.
Vouw de groep Transformaties uit in het linkerdeelvenster van de ontwerpfunctie. Zoek de opgeslagen transformatie en sleep deze naar de pijplijn.
Verbind de opgeslagen transformatie met de linkerinvoerpoort van Apply Transformation.
Wanneer u een opgeslagen transformatie toepast, kunt u de kolommen waarop de transformatie wordt toegepast, niet selecteren. Dat komt doordat de transformatie al is gedefinieerd en automatisch van toepassing is op de kolommen die zijn opgegeven in de oorspronkelijke bewerking.
Stel dat u een transformatie hebt gemaakt voor een subset van numerieke kolommen. U kunt deze transformatie toepassen op een gegevensset met gemengde kolomtypen zonder dat er een fout optreedt, omdat de ontbrekende waarden alleen worden gewijzigd in de overeenkomende numerieke kolommen.
Verzend de pijplijn.
Volgende stappen
Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.