Gemiddelden zijn handig, maar ze vertellen lang niet altijd het hele verhaal. Stel je analyseert de levertijd van bestellingen. Het gemiddelde is misschien 3 dagen, maar wat als de helft binnen 1 dag komt, en de andere helft pas na 6? Dan is dat gemiddelde eigenlijk misleidend…
Deze week duiken we in de wereld van verdelingen en uitschieters. Want om je data écht te begrijpen, moet je weten hoe die verdeeld is en waar de uitzonderingen zitten.
📊 Wat bedoelen we met verdeling?
Een verdeling laat zien hoe vaak bepaalde waarden voorkomen in je data. Neem bijvoorbeeld de orderwaarde van klanten. Komen de meeste bestellingen tussen de 50 en 100 euro voor? Of zijn het juist veel kleine bedragen, met af en toe een uitschieter?
Dit soort vragen beantwoord je met een histogram: een grafiek die laat zien hoe de data zich verspreidt.
🚨 Hoe herken je uitschieters?
Een uitschieter is een waarde die opvallend ver buiten de rest van je data valt. Denk aan:
- Een project dat 6 maanden duurde terwijl de rest binnen 4 weken afgerond werd
- Een klant die 20 keer meer uitgeeft dan gemiddeld
- Een medewerker met 300 gemaakte afspraken terwijl de rest onder de 50 zit
Met een boxplot kun je snel zulke uitschieters visueel opsporen. Dat helpt je om fouten te herkennen (bijvoorbeeld een verkeerd ingevoerd bedrag), of juist om opvallende gevallen te signaleren waar je op kunt inzoomen.
🛠️ Hoe maak je dit in Python?
Het mooie is: met pandas kun je al veel visueel maken in één regel code.
Een histogram van orderwaardes maak je bijvoorbeeld zo: data[“orderwaarde”].plot.hist(bins=20)
Een boxplot van levertijden? Dat doe je zo: data.boxplot(column=”levertijd”)
🧠 Waarom dit nuttig is
Gemiddelden en totalen zijn prima als eerste stap, maar wil je écht grip krijgen op je data, dan moet je naar de verdeling kijken. Uitschieters kunnen je veel vertellen:
- Over waar risico’s zitten
- Over kansen om in te grijpen
- Of gewoon over data die niet klopt
Zonder deze stap kunnen snel misinterpretaties van de data ontstaan.
🥙 To wrap it up:
- Een verdeling laat zien hoe je data écht in elkaar zit
- Histogrammen geven overzicht, boxplots maken uitschieters zichtbaar
- Soms zit de waarde niet in het gemiddelde, maar juist in de uitzonderingen
Volgende week in Monday.py: hoe je datasets slim combineert met merge() en join(), een essentiële skill als je meerdere databronnen gebruikt. Tot dan! 👋


