Ontbrekende gegevens verwerken

Voltooid

Ontbrekende gegevens verwijzen naar het ontbreken van waarden in bepaalde variabelen in een gegevensset.

Het verwerken van ontbrekende gegevens is een cruciaal aspect van de voorverwerkingsfase in een machine learning-project en de manier waarop u ze behandelt, kan de prestaties van uw model aanzienlijk beïnvloeden.

Controleren op ontbrekende gegevens

Terug naar het scenario van huizenprijzen uit de vorige eenheid, stel dat we ontbrekende waarden tegenkomen in ons df dataframe waarvoor aandacht is vereist.

Als u wilt controleren op ontbrekende gegevens in Data Wrangler, moet u Data Wrangler eerst starten vanuit een Microsoft Fabric-notebook. Zodra u daar bent, hebt u een paar opties.

Schermopname van het controleren van ontbrekende gegevensgegevens in Data Wrangler.

  1. Kolomkop: Toont het aantal en het aandeel ontbrekende waarden voor elke variabele boven aan het raster.
  2. Overzichtsvenster: Hiermee worden de overzichtsstatistieken voor de geselecteerde kolom of het geselecteerde dataframe gemarkeerd, inclusief ontbrekende waarden.
  3. Filteroperator: Hiermee filtert u rijen op basis van een of meer voorwaarden. Deze optie is ook beschikbaar in de kolomkop wanneer u Meer opties voor de kolom selecteert.

Ontbrekende gegevens verwerken

Er zijn enkele opties voor het afhandelen van ontbrekende gegevens.

  • Negeren: minimale ontbrekende gegevens zijn mogelijk niet van invloed op uw model.

  • Verwijderen: Rijen of kolommen met veel ontbrekende waarden kunnen beter worden verwijderd.

  • Impute: Vul de ontbrekende waarden in met een opgegeven waarde of schatting (zoals gemiddelde, mediaan, modus of met behulp van een machine learning-algoritme zoals K-Nearest Neighbors (KNN)).

  • Gebruik deze functie als een nieuwe functie: soms kan het feit dat een waarde ontbreekt, worden gebruikt als informatie zelf. In een productenquête kunnen bijvoorbeeld onbeantwoorde vragen over het aanbevelen van het product duiden op ontevreden klanten. In dit geval kan het niet reageren een nieuwe functie zijn die de kans op ontevredenheid van klanten aangeeft.

Ontbrekende waarden verwijderen

De volgende stappen laten zien hoe u rijen met ontbrekende waarden in de doelkolom(en) in Data Wrangler verwijdert.

  1. Selecteer Zoeken en vervangen in het deelvenster Bewerkingen en selecteer ontbrekende waarden verwijderen.

  2. Selecteer de kolom Prijs .

    Schermopname van het verwijderen van rijen met ontbrekende waarden in de doelkolommen in Data Wrangler.

    De rijen die zijn gemarkeerd voor verwijdering, worden rood gemarkeerd in het raster en toegevoegd aan het deelvenster Schoonmaakstappen . Deze visuele aanwijzing verbetert niet alleen de flexibiliteit, maar maakt ook aanpassingen mogelijk indien nodig.

  3. Selecteer Toepassen. De wijzigingen zijn van kracht en het raster past de stap toe.

Ontbrekende waarden invoeren

Wanneer een gegevensset ontbrekende gegevens bevat, kunt u verschillende imputatiemethoden gebruiken om deze hiaten in te vullen. Elke methode heeft zijn eigen voordelen en is geschikt voor verschillende typen gegevens en situaties.

Als u deze methoden begrijpt, kunt u de meest geschikte strategie kiezen voor het verwerken van ontbrekende gegevens in uw specifieke context.

Wijze Description
Bedoelen Vervangt ontbrekende waarden door de gemiddelde (gemiddelde) waarde van die variabele. Het is geschikt voor continue gegevens zonder uitbijters.
Mediaan Vervangt ontbrekende waarden door de mediaanwaarde (middenwaarde) van die variabele. Het is robuuster voor uitbijters dan het gemiddelde.
Wijze Vervangt ontbrekende waarden door de moduswaarde (meest voorkomende) van die variabele. Deze is geschikt voor categorische gegevens.
Doorsturen doorsturen Hiermee worden ontbrekende waarden ingevuld met de vorige geldige waarde in de gegevensset. Ook wel forward fill genoemd.
Achteruit doorgeven Vult ontbrekende waarden in met de volgende geldige waarde in de gegevensset. Ook wel achterwaartse opvulling genoemd.
Aangepaste waarde Vervangt ontbrekende waarden door een door de gebruiker gedefinieerde constante waarde. Dit kan elke waarde zijn die zinvol is in de context van de gegevens.

In de volgende stappen ziet u hoe u ontbrekende waarden in de doelkolommen kunt doorvoeren of invoeren met behulp van de mediaan, bijvoorbeeld.

  1. Selecteer zoeken en vervangen in het deelvenster Bewerkingen en selecteer ontbrekende waarden doorvoeren.

  2. Selecteer de kolom YearBuilt en selecteer vervolgens de opvulmethode Mediaan .

    Schermopname van het invoeren van ontbrekende waarden in de doelkolommen met behulp van de mediaan in Data Wrangler.

    De rijen die voor de imputatie zijn gemarkeerd, worden rood gemarkeerd in het raster en toegevoegd aan het deelvenster Schoonmaakstappen . Deze visuele aanwijzing vereenvoudigt realtime wijzigingen wanneer dat nodig is.

  3. Selecteer Toepassen.

    De wijzigingen zijn direct zichtbaar in het weergaveraster van Data Wrangler, zodat u in realtime kunt zien hoe de bewerking van invloed is op uw gegevensset.

U kunt ook de operator Aangepaste bewerking gebruiken om uw eigen imputatiecode te maken.

Zie Gegevens voor gegevenswetenschap verkennen met notebooks in Microsoft Fabric voor meer informatie over ontbrekende gegevens.