Protocol voor een vergelijkende luister test.
In dit hoofdstuk geef ik een voorbeeld van een A/B test, dus een test waarbij twee gelijksoortige dingen A en B vergeleken worden.
Het gaat in deze test om de vraag of A en B eenduidig herkend kunnen worden, niet of het ene object beter of slechter is dan het andere.
Ik spits dit protokol toe op de vergelijking tussen twee signaalkabeltjes (interlink), zoals gepland tussen mij en Sebastiaan de Vries, (rubriek BasBeluistert op www.hifi.nl ), maar je kunt het protokol ook gebruiken voor andere tests
Het lijkt een eenvoudig test, maar om alles eerlijk te laten verlopen en een betrouwbaar resultaat te krijgen moet er toch nogal wat gebeuren.
De opzet is dat een testleider naar willekeur object A dan wel object B in de keten plaatst en dat een luisterpanel noteert of A dan wel B aanwezig is, uiteraard zonder te weten welk object in de keten staat.
Er zijn 4 essentiele aspecten aan de test:
1. Verzekeren dat er geen bewuste of onbewuste beinvloeding van het panel plaats vindt.
2. Verzekeren dat iedereen het spel eerlijk speelt
3. Verzekeren dat de uitslag voldoende significant is
4. Verzekeren dat het voor alle partijen, en vooral ook voor derden volstrekt duidelijk is hoe de test gedaan werd en wat de uitslag was.
In dit geval ben ik de testleider, en Bas vormt het luister panel. (geen probleem als dat panel uitgebreid wordt, liever zelfs)
De tests worden uitgevoerd met de geluids apparatuur van Bas.
De test objecten zijn een eenvoudig signaalkabeltje zoals je die in de bouwmarkt of de bruingoedwinkel uit het rek plukt (object A) en een door Bas te bepalen interlink van kammenieschelen hoe duur.
De stelling van mij is dat er geen hoorbaar verschil is tussen zulke kabels. De stelling van Bas is dat er wel degelijk een goed hoorbaar verschil is.
We gaan het als volgt doen:
Bas zoekt uit z’n eigen collectie een (1) muziek fragment uit waarbij hij het best het verschil tussen zijn Interlink en het standaarkabeltje meent te kunnen horen.
De electronische apparatuur (niet de luidsprekers) staat opgesteld achter een kamerscherm of zo.
We beginnen met een paar 'open' tests, waarbij het panel weet welke kabel aangesloten is. Deze proeven zijn bedoeld om het panel te laten weten wat A en wat B is.
Ik gooi met een dobbelsteen (even/oneven) en sluit kabel A of B aan, noteer welke kabel het nu is en speel het betreffende muziek fragment met ongewijzigde instellingen van volume e.d.
Het panel luistert en ieder noteert afzonderlijk en zonder overleg met de andere panel leden of ‘ie kabel A dan wel kabel B denkt te horen.
Mijn handelingen achter het kamerscherm worden met een video camera opgenomen, zodat er achteraf gecontroleerd kan worden dat ik mijn lijstje eerlijk ingevuld heb.
Nadat de tests gedaan zijn leggen we de lijstjes bij elkaar en analyseren het resultaat.
Bij 21 tests (dus 21 keer het muziek fragment beluisteren) moet Bas het 15 keer of meer goed gehad hebben, anders is de test niet significant.
Als er meerdere panel leden zijn wordt deze analyse voor elk panel lid gemaakt.
Alle betrokkenen krijgen copien van de ruwe en de bewerkte test resultaten.
De keuze van 21 tests heb ik niet geheel willekeurig gemaakt. Het criterium was: voldoende tests om een statistisch verantwoord resultaat te krijgen, anderszijds niet zoveel dat het onwerkbaar wordt.
Over die 15 van de 21 goed wil ik ook wat duidelijker zijn, want dat is niet iets wat ik zomaar uit de lucht pluk.
Het rijtje getallen hieronder geeft aan hoe groot de kans is dat je een bepaalde score haalt, als je puur willekeurig gokt bij 20 tests. (Gausse kansverdeling, of dobbelsteen)
Anders gezegd: als je 21 keer met een dobbelsteen gooit heb je de grootste kans om 10x even te gooien, een kleinere kans op 9x even, een nog kleinere kans op 8x even, enz..
Score Kans (%)
0 0.00009537
1 0.00190735
2 0.01811981
3 0.10871887
4 0.46205521
5 1.47857666
6 3.69644165
7 7.39288330
8 12.01343536
9 16.01791382
10 17.61970520
11 16.01791382
12 12.01343536
13 7.39288330
14 3.69644165
15 1.47857666
16 0.46205521
17 0.10871887
18 0.01811981
19 0.00190735
20 0.00009537
Je ziet dat pas bij een score van 15 de kans dat dat op een toevalligheid berust meer dan 10 x kleiner is dan de meest waarschijnlijke score van 10. Pas in dat geval moeten we concluderen dat er echt iets is. Bij een lagere score is naar mijn smaak de kans te groot dat het op toeval berust.
Een invulformulier voor een test als deze vind je hier. (Word document)