Protocol voor een vergelijkende luister test.


In dit hoofdstuk geef ik een voorbeeld van een A/B test, dus een test waarbij twee gelijksoortige dingen A en B vergeleken worden.

Het gaat in deze test om de vraag of  A en B eenduidig herkend kunnen worden, niet of het ene object beter of slechter is dan het andere.

Ik spits dit protokol toe op de vergelijking tussen twee signaalkabeltjes (interlink), zoals gepland tussen mij en Sebastiaan de Vries, (rubriek BasBeluistert op www.hifi.nl ), maar je kunt het protokol ook gebruiken voor andere tests

Het lijkt een eenvoudig test, maar om alles eerlijk te laten verlopen en een betrouwbaar resultaat te krijgen moet er toch nogal wat gebeuren.

 

De opzet is dat een testleider naar willekeur object A dan wel object B in de keten plaatst en dat een luisterpanel noteert of A dan wel B aanwezig is, uiteraard zonder te weten welk object in de keten staat.

 

Er zijn 4 essentiele aspecten aan de test:

1. Verzekeren dat er geen bewuste of onbewuste beinvloeding van het panel plaats vindt.

2. Verzekeren dat iedereen het spel eerlijk speelt

3. Verzekeren dat de uitslag voldoende significant is

4. Verzekeren dat het voor alle partijen, en vooral ook voor derden volstrekt duidelijk is hoe de test gedaan werd en wat de uitslag was.

 

In dit geval ben ik de testleider, en Bas vormt het luister panel. (geen probleem als dat panel uitgebreid wordt, liever zelfs)

De tests worden uitgevoerd met de geluids apparatuur van Bas.

De test objecten zijn een eenvoudig signaalkabeltje zoals je die in de bouwmarkt of de bruingoedwinkel uit het rek plukt (object A) en een door Bas te bepalen interlink van kammenieschelen hoe duur.

De stelling van mij is dat er geen hoorbaar verschil is tussen zulke kabels. De stelling van Bas is dat er wel degelijk een goed hoorbaar verschil is.

 

We gaan het als volgt doen:

De keuze van 21 tests heb ik niet geheel willekeurig gemaakt. Het criterium was: voldoende tests om een statistisch verantwoord resultaat te krijgen, anderszijds niet zoveel dat het onwerkbaar wordt.

Over die 15 van de 21 goed wil ik ook wat duidelijker zijn, want dat is niet iets wat ik zomaar uit de lucht pluk.

Het rijtje getallen hieronder geeft aan hoe groot de kans is dat je een bepaalde score haalt, als je puur willekeurig gokt bij 20 tests. (Gausse kansverdeling, of dobbelsteen)

Anders gezegd: als je 21 keer met een dobbelsteen gooit heb je de grootste kans om 10x even te gooien, een kleinere kans op 9x even, een nog kleinere kans op 8x even, enz..

 

Score       Kans (%)

 0          0.00009537

 1          0.00190735

 2          0.01811981

 3          0.10871887

 4          0.46205521

 5          1.47857666

 6          3.69644165

 7          7.39288330

 8         12.01343536

 9         16.01791382

10         17.61970520

11         16.01791382

12         12.01343536

13          7.39288330

14          3.69644165

15          1.47857666

16          0.46205521

17          0.10871887

18          0.01811981

19          0.00190735

20          0.00009537

 

Je ziet dat pas bij een score van 15 de kans dat dat op een toevalligheid berust meer dan 10 x kleiner is dan de meest waarschijnlijke score van 10. Pas in dat geval moeten we concluderen dat er echt iets is. Bij een lagere score is naar mijn smaak de kans te groot dat het op toeval berust.

 

Een invulformulier voor een test als deze vind je hier. (Word document)

 

Top

Home