🐍 Monday.py (Deep Dive #5): Spreiding en uitschieters begrijpen

August 4, 2025

Gemiddelden zijn handig, maar ze vertellen lang niet altijd het hele verhaal. Stel je analyseert de levertijd van bestellingen. Het gemiddelde is misschien 3 dagen, maar wat als de helft binnen 1 dag komt, en de andere helft pas na 6? Dan is dat gemiddelde eigenlijk misleidend…

Deze week duiken we in de wereld van verdelingen en uitschieters. Want om je data écht te begrijpen, moet je weten hoe die verdeeld is en waar de uitzonderingen zitten.

📊 Wat bedoelen we met verdeling?

Een verdeling laat zien hoe vaak bepaalde waarden voorkomen in je data. Neem bijvoorbeeld de orderwaarde van klanten. Komen de meeste bestellingen tussen de 50 en 100 euro voor? Of zijn het juist veel kleine bedragen, met af en toe een uitschieter?

Dit soort vragen beantwoord je met een histogram: een grafiek die laat zien hoe de data zich verspreidt.

🚨 Hoe herken je uitschieters?

Een uitschieter is een waarde die opvallend ver buiten de rest van je data valt. Denk aan:

Een project dat 6 maanden duurde terwijl de rest binnen 4 weken afgerond werd
Een klant die 20 keer meer uitgeeft dan gemiddeld
Een medewerker met 300 gemaakte afspraken terwijl de rest onder de 50 zit

Met een boxplot kun je snel zulke uitschieters visueel opsporen. Dat helpt je om fouten te herkennen (bijvoorbeeld een verkeerd ingevoerd bedrag), of juist om opvallende gevallen te signaleren waar je op kunt inzoomen.

🛠️ Hoe maak je dit in Python?

Het mooie is: met pandas kun je al veel visueel maken in één regel code.

Een histogram van orderwaardes maak je bijvoorbeeld zo: data[“orderwaarde”].plot.hist(bins=20)

Een boxplot van levertijden? Dat doe je zo: data.boxplot(column=”levertijd”)

🧠 Waarom dit nuttig is

Gemiddelden en totalen zijn prima als eerste stap, maar wil je écht grip krijgen op je data, dan moet je naar de verdeling kijken. Uitschieters kunnen je veel vertellen:

Over waar risico’s zitten
Over kansen om in te grijpen
Of gewoon over data die niet klopt

Zonder deze stap kunnen snel misinterpretaties van de data ontstaan.

🥙 To wrap it up:

Een verdeling laat zien hoe je data écht in elkaar zit
Histogrammen geven overzicht, boxplots maken uitschieters zichtbaar
Soms zit de waarde niet in het gemiddelde, maar juist in de uitzonderingen

Volgende week in Monday.py: hoe je datasets slim combineert met merge() en join(), een essentiële skill als je meerdere databronnen gebruikt. Tot dan! 👋

Share this post

Uncategorized

🐍 Monday.py (Deep Dive #5): Spreiding en uitschieters begrijpen

Share this post

Related posts

🐍 Monday.py (Deep Dive #5): Spreiding en uitschieters begrijpen

Wat Pride met data te maken heeft (spoiler: best veel)

Van data naar diversiteit, want mensen blijven het uitgangspunt.