Content area
Full Text
Gerben Mulder is werkzaam als universitair docent aan de faculteit der Geesteswetenschappen van de VU, afdeling Taal, Literatuur en Communicatie. E-mail: <email>[email protected]</email>
In deze reactie op Hornikx en Batenburg (2016) wil ik met name ingaan op de rol die p-waardes spelen in onderzoek. De discussie die Hornikx en Batenburg voeren wordt helaas geplaagd door misverstanden over statistische analyses en in het bijzonder de p-waarde. Dat betekent dat een deel van de discussie wordt gevoerd op grond van onware assumpties. Ik heb niet de ruimte om uitgebreid in te gaan op de misverstanden die Hornikx en Batenburg laten zien. Om die reden heb ik mij beperkt tot één van de misverstanden, namelijk dat een niet-significant resultaat betekent dat er geen effect is gevonden. Ik zal argumenteren, aan de hand van een voorbeeld uit mijn eigen proefschrift (Mulder, 2008), dat een dergelijk misverstand het succes van hervormingen, zoals het niet langer selectief publiceren van significante resultaten, in de weg staat. Ik bespreek ook een alternatief voor p-waardes, namelijk het schatten van effectgroottes in combinatie met betrouwbaarheidsintervallen.
Deze bijdrage is geïnspireerd op recente ontwikkelingen op het gebied van statistische hervormingen die gericht zijn op verbetering van de kwaliteit van onderzoek en data-analyse en rapportage, zoals bijvoorbeeld beschreven in Cumming (2012) en Kline (2014). In die zin sluit deze bijdrage aan bij de spirit die duidelijk spreekt uit de bijdrage van Hornikx en Batenburg: het verbeteren van de kwaliteit van kwantitatief empirisch onderzoek.
Ik zal in het onderstaande beginnen met wat een p-waarde eigenlijk is, daarna ga ik in op hoe p-waardes geïnterpreteerd worden en laat ik zien hoe selectief publiceren van significante resultaten onder deze interpretaties juist tot correcte conclusies kan leiden. Ik sluit af met een korte omschrijving van meta-analytisch denken en schattingsdenken.
Wat is een p-waarde?
Bij het toetsen van een nul-hypothese wordt een toetsingsgrootheid berekend, zoals t, F, of χ2 . De p-waarde is de kans om bij een oneindig aantal keren met een nieuwe steekproef uit de populatie waarvoor geldt dat de nul-hypothese waar is een waarde van de toetsingsgrootheid te vinden die net zo groot als of groter is dan de waarde van de toetsingsgrootheid die bij de toetsing is berekend. Dus, een omschrijving van een resultaat als t(98) =...