Test je Oren:  De Normaalverdeling


De Normaalverdeling of Gausse Verdeling komt aan de orde bij de A-B-X-test, bij het berekenen van de betrouwbaarheid van het resultaat.

De Normaal- of Gausse verdeling geeft aan hoe groot de kans is om een bepaald resultaat te verkrijgen bij experimenten die een willekeurig resultaat opleveren. Het is een belangrijk wiskundig instrument bij allerlei statistische berekeningen.
Bijvoorbeeld: Je gooit een groot aantal keren met een aantal N dobbelstenen. Gemiddeld genomen zal de helft, dus N / 2, op een even aantal ogen liggen, maar per worp zullen er afwijkingen zijn. Hoe groot is nu de kans op een bepaalde afwijking?
De Normaalverdeling geeft het antwoord op die vraag.

Stel het je als volgt voor: Je gooit 100 keer met 10 stenen. Noteer dan in een tabel hoe vaak elk aantal even-liggende stenen voorkomt.
Dat kan dat er zo uitzien: (ook met 10000 worpen van 10 stenen. De getallen komen uit een computersimulatie voor dobbelstenen werpen)

Aantal even    Hoe vaak (100)   Hoe vaak (10000)
004
1386
22437
3141164
4202070
5272485
6162064
7121117
85445
91120
1008

Begrijpelijkerwijs komt de 5 het vaakst voor. Als je goed kijkt zie je dat de andere aantallen min-of-meer symmetrisch rond de 5 liggen. 4 en 6 komen ongeveer even vaak voor, net als 3 en 7, enz.  Als je dit in een grafiek uitzet krijg je een klok-vormige kurve:   

Dice.gif

De natuur- en wiskundige Carl Friedrich Gauss heeft een formule afgeleid voor deze kurve en die luidt:

GaussFormula.gif

Lijkt ingewikkelder dan het is. x is de horizontale as van de grafiek.  p(x) is de kans (probability) om de waarde van x te verkrijgen.
De getallen sigma ( Sigma.gif ) en mu ( Mu.gif ) bepalen het verloop. exp wil zeggen verhef het getal e = 2.71828 tot de macht van wat er tussen de haakjes staat. Mu stelt een verschuiving over de x-as voor. Bij Mu = 0 ligt de piek van de kurve op X = 0. In het voorbeeld hierboven is Mu = 5. De sigma geeft de breedte van de kurve aan, op 0.779 van de hoogte van de piek. Sigma wordt ook vaak aangeduid als "Standaard deviatie". Hoe kleiner sigma in verhouding tot de x-as, des te scherper de kurve wordt.
De term vóór de exp is een schaalfactor. Als je die weglaat zal de top van de kurve altijd op 1 liggen.
Bij het dobbelsteen-experiment moet voor de sigma ingevuld worden: de helft van de wortel uit het aantal stenen in de worp. De x-as loopt uiteraard van 0 tot en met het aantal stenen. In het voorbeeld hierboven is de sigma dus 1.5 op een x-as die loopt van 0 naar 10. Bij 100 stenen zou sigma 5 worden op een x-as van 100, waardoor er een veel smallere piek ontstaat.  

De A-B-X-test lijkt in veel opzichten op het werpen met dobbelstenen, althans als je niet goed een éénduidig onderscheid kunt maken tussen A en B. Bijvoorbeeld als je ongeveer net zo vaak fout raadt als goed. De normaalverdeling geeft aan hoe groot de kans is dat de uitslag op toeval berust.
In dit geval moet voor de sigma ingevuld worden: de helft van de wortel uit het aantal keren dat je de test doet. Voor x het aantal keren goed geraden en voor mu de helft van het aantal tests. De uitkomst van de formule is dan de kans dat het ook met een dobbelsteen gelukt was.
De betrouwbaarheids factor is nu 1 - die kans.
En ik heb er nog een extra'tje bij gedaan: Als je vaker fout dan goed raadt krijg je een negatief getal. Consequent fout raden is ook een prestatie !