Standaarddeviatie

Posted by on Feb 2, 2013 in Blog Herre Faber | No Comments

Onderzoek wordt steeds belangrijker op de HHS, dus ik ben zo vrij om deze keer een redelijk standaard onderzoeksinstrument eens lekker te gaan onderzoeken: de standaarddeviatie. Who cares? Nou, ik. De standaarddeviatie is namelijk helemaal niet de gemiddelde afwijking. Maar door hoor je nooit iemand over.

Let maar eens op: we laten iemand op het strand wandelen en meten de afstanden tussen vier opeenvolgende voetafdrukken. De eerste staplengte is 37 cm, de tweede 39, de derde 41 en de vierde 43 cm. Het gemiddelde blijkt 40 cm. Zijn de metingen sterk verspreid rond het gemiddelde of niet? Daarvoor bepalen we de gemiddelde afwijking van het gemiddelde. De afwijking van de eerste meting, ten opzichte van het gemiddelde, is 40-37 = 3. De tweede afwijking is 40-39 = 1. De derde en vierde afwijking bedragen 1 en 3. Gevraagd: de gemiddelde waarde van deze afwijkingen. Dat is een eitje: (3+1+1+3)/4 = 2. Deze methode heet de ‘gemiddelde absolute afwijking’ (GAA).

In de statistiek gebruiken we de standaarddeviatie. Deze wordt omschreven als ‘de gemiddelde afwijking van het gemiddelde’, precies wat we net hebben gedaan, zou je denken. Echter, de berekening gaat zo. Kwadrateer de eerste afwijking, dat wordt 3 2 = 9. Doe hetzelfde voor de overige, dat geeft 1, 1 en 9. Tel de gekwadrateerde afwijkingen op en deel door het aantal metingen: (9+1+1+9)/4 = 5. Trek daar de wortel uit: 2,24. Dat is een ander getal dan daarnet, toen was de uitkomst 2. Kritisch denken moet, maar hoe? In dit geval door op tegenspraken te letten. Je docent statistiek zégt wel dat hij met de standaarddeviatie de gemiddelde afwijking van het gemiddelde berekent, maar dat is dus gelul!

Snappen

Dat wil niet zeggen dat de standaarddeviatie waardeloos is, integendeel. De discussie over de beste van de twee methodes gaat terug tot 1920 en woedde tussen Eddington en Fisher, beiden wetenschappelijke helden. Fisher won en nu gebruikt iedereen de standaarddeviatie, maar beide methoden hebben hun voors en tegens. Een vervelende eigenschap van de GAA is het volgende. Stel dat we niet de afwijkingen ten opzichte van het gemiddelde (40) nemen, maar ten opzichte van 39. Dat levert in het getallenvoorbeeld de afwijkingen 2, 0, 2 en 4. Het gemiddelde van deze afwijkingen is (nog steeds) 2. Het maakt kennelijk niet uit of we de GAA rondom 39 of 40 berekenen! Dit gebrek aan uniciteit lijkt mij niet goed. De standaarddeviatie heeft hier geen last van. Het blijft lastig, maar ik snap statistiek weer iets beter.