Ontbrekende gegevens verwerken
Ontbrekende gegevens verwijzen naar het ontbreken van waarden in bepaalde variabelen in een gegevensset.
Het verwerken van ontbrekende gegevens is een cruciaal aspect van de voorverwerkingsfase in een machine learning-project en de manier waarop u ze behandelt, kan de prestaties van uw model aanzienlijk beïnvloeden.
Controleren op ontbrekende gegevens
Terug naar het scenario van huizenprijzen uit de vorige eenheid, stel dat we ontbrekende waarden tegenkomen in ons df
dataframe waarvoor aandacht is vereist.
Als u wilt controleren op ontbrekende gegevens in Data Wrangler, moet u Data Wrangler eerst starten vanuit een Microsoft Fabric-notebook. Zodra u daar bent, hebt u een paar opties.
- Kolomkop: Toont het aantal en het aandeel ontbrekende waarden voor elke variabele boven aan het raster.
- Overzichtsvenster: Hiermee worden de overzichtsstatistieken voor de geselecteerde kolom of het geselecteerde dataframe gemarkeerd, inclusief ontbrekende waarden.
- Filteroperator: Hiermee filtert u rijen op basis van een of meer voorwaarden. Deze optie is ook beschikbaar in de kolomkop wanneer u Meer opties voor de kolom selecteert.
Ontbrekende gegevens verwerken
Er zijn enkele opties voor het afhandelen van ontbrekende gegevens.
Negeren: minimale ontbrekende gegevens zijn mogelijk niet van invloed op uw model.
Verwijderen: Rijen of kolommen met veel ontbrekende waarden kunnen beter worden verwijderd.
Impute: Vul de ontbrekende waarden in met een opgegeven waarde of schatting (zoals gemiddelde, mediaan, modus of met behulp van een machine learning-algoritme zoals K-Nearest Neighbors (KNN)).
Gebruik deze functie als een nieuwe functie: soms kan het feit dat een waarde ontbreekt, worden gebruikt als informatie zelf. In een productenquête kunnen bijvoorbeeld onbeantwoorde vragen over het aanbevelen van het product duiden op ontevreden klanten. In dit geval kan het niet reageren een nieuwe functie zijn die de kans op ontevredenheid van klanten aangeeft.
Ontbrekende waarden verwijderen
De volgende stappen laten zien hoe u rijen met ontbrekende waarden in de doelkolom(en) in Data Wrangler verwijdert.
Selecteer Zoeken en vervangen in het deelvenster Bewerkingen en selecteer ontbrekende waarden verwijderen.
Selecteer de kolom Prijs .
De rijen die zijn gemarkeerd voor verwijdering, worden rood gemarkeerd in het raster en toegevoegd aan het deelvenster Schoonmaakstappen . Deze visuele aanwijzing verbetert niet alleen de flexibiliteit, maar maakt ook aanpassingen mogelijk indien nodig.
Selecteer Toepassen. De wijzigingen zijn van kracht en het raster past de stap toe.
Ontbrekende waarden invoeren
Wanneer een gegevensset ontbrekende gegevens bevat, kunt u verschillende imputatiemethoden gebruiken om deze hiaten in te vullen. Elke methode heeft zijn eigen voordelen en is geschikt voor verschillende typen gegevens en situaties.
Als u deze methoden begrijpt, kunt u de meest geschikte strategie kiezen voor het verwerken van ontbrekende gegevens in uw specifieke context.
Wijze | Description |
---|---|
Bedoelen | Vervangt ontbrekende waarden door de gemiddelde (gemiddelde) waarde van die variabele. Het is geschikt voor continue gegevens zonder uitbijters. |
Mediaan | Vervangt ontbrekende waarden door de mediaanwaarde (middenwaarde) van die variabele. Het is robuuster voor uitbijters dan het gemiddelde. |
Wijze | Vervangt ontbrekende waarden door de moduswaarde (meest voorkomende) van die variabele. Deze is geschikt voor categorische gegevens. |
Doorsturen doorsturen | Hiermee worden ontbrekende waarden ingevuld met de vorige geldige waarde in de gegevensset. Ook wel forward fill genoemd. |
Achteruit doorgeven | Vult ontbrekende waarden in met de volgende geldige waarde in de gegevensset. Ook wel achterwaartse opvulling genoemd. |
Aangepaste waarde | Vervangt ontbrekende waarden door een door de gebruiker gedefinieerde constante waarde. Dit kan elke waarde zijn die zinvol is in de context van de gegevens. |
In de volgende stappen ziet u hoe u ontbrekende waarden in de doelkolommen kunt doorvoeren of invoeren met behulp van de mediaan, bijvoorbeeld.
Selecteer zoeken en vervangen in het deelvenster Bewerkingen en selecteer ontbrekende waarden doorvoeren.
Selecteer de kolom YearBuilt en selecteer vervolgens de opvulmethode Mediaan .
De rijen die voor de imputatie zijn gemarkeerd, worden rood gemarkeerd in het raster en toegevoegd aan het deelvenster Schoonmaakstappen . Deze visuele aanwijzing vereenvoudigt realtime wijzigingen wanneer dat nodig is.
Selecteer Toepassen.
De wijzigingen zijn direct zichtbaar in het weergaveraster van Data Wrangler, zodat u in realtime kunt zien hoe de bewerking van invloed is op uw gegevensset.
U kunt ook de operator Aangepaste bewerking gebruiken om uw eigen imputatiecode te maken.
Zie Gegevens voor gegevenswetenschap verkennen met notebooks in Microsoft Fabric voor meer informatie over ontbrekende gegevens.