Echte wereldgegevens onderzoeken
Gegevens die in onderwijsmateriaal worden gepresenteerd, zijn vaak opmerkelijk perfect, ontworpen om studenten te laten zien hoe ze duidelijke relaties tussen variabelen kunnen vinden. 'Echte' gegevens zijn iets minder eenvoudig.
Vanwege de complexiteit van 'echte' gegevens moeten we onbewerkte gegevens inspecteren voor problemen voordat we deze gebruiken.
Daarom is het raadzaam om de onbewerkte gegevens te inspecteren en te verwerken voordat ze worden gebruikt, waardoor fouten of problemen meestal worden verminderd door onjuiste gegevenspunten te verwijderen of de gegevens in een nuttiger formulier te wijzigen.
Problemen met echte gegevens
Echte gegevens kunnen veel verschillende problemen bevatten die van invloed kunnen zijn op het nut van de gegevens en onze interpretatie van de resultaten.
Het is belangrijk om te beseffen dat de meeste echte gegevens worden beïnvloed door factoren die op dat moment niet zijn vastgelegd. We kunnen bijvoorbeeld een tabel met raceautobaantijden naast motorgrootten hebben; maar verschillende andere factoren die niet werden weggeschreven, zoals het weer, speelden waarschijnlijk ook een rol. Als dit problematisch is, kunnen we de invloed van deze factoren vaak verminderen door de grootte van de gegevensset te vergroten.
In andere situaties kunnen gegevenspunten die duidelijk buiten de verwachte situatie vallen , ook wel 'uitbijters' genoemd, soms veilig worden verwijderd uit analyses, hoewel we ervoor moeten zorgen dat we geen gegevenspunten verwijderen die echte inzichten bieden.
Een ander veelvoorkomend probleem in echte gegevens is vooroordelen. Bias verwijst naar een tendens om bepaalde typen waarden vaker te selecteren dan andere, op een manier die de onderliggende populatie of 'echte wereld' verkeerd vertegenwoordigt. Vooroordelen kunnen soms worden geïdentificeerd door gegevens te verkennen, terwijl u rekening houdt met basiskennis over waar de gegevens vandaan komen.
Echte gegevens hebben altijd problemen, maar gegevenswetenschappers kunnen deze problemen vaak oplossen door:
- Controleren op ontbrekende waarden en ongeldig opgenomen gegevens.
- Overweeg om duidelijke uitbijters te verwijderen.
- Onderzoeken welke factoren in de praktijk van invloed kunnen zijn op hun analyse en bepalen of de grootte van de gegevensset groot genoeg is om de impact van deze factoren te verminderen.
- Controleren op vertekende onbewerkte gegevens en de bijbehorende opties overwegen om de vooroordelen op te lossen, indien gevonden.