Gebrek aan statistische kennis leidt tot miskenning van wetenschappelijk bewijs
ArrayWanneer leveren onderzoeksresultaten voldoende bewijs voor een hypothese? Wetenschappers in de psychologie blijken dit meestal niet goed te kunnen beoordelen en verlangen vaak meer bewijs dan nodig is. Het gevolg is dat onderzoek soms onterecht in de bureaulade belandt en dat therapieën of interventies met potentie nooit de behandelkamer bereiken. Ook kan de strenge beoordeling ervoor zorgen dat onderzoekers resultaten – bewust of onbewust – in de richting van een gewenst effect sturen. Dit heeft een averechtse uitwerking op de betrouwbaarheid van onderzoek.
Dit blijkt uit onderzoek van Olmo van den Akker en collega’s van het Meta-research Center van de afdeling Methoden en Technieken van Onderzoek van Tilburg University.
Een onderzoeksartikel in de psychologie bestaat vaak uit meerdere studies op basis waarvan wordt geconcludeerd of er al dan niet kan worden gesproken van een effect, bijvoorbeeld een effectief medicijn of psychologische behandeling. In het onderzoek van Van den Akker komt naar voren dat onderzoeksresultaten al sterk wijzen op een effect als slechts twee van vier gedane studies een statistisch significant resultaat laten zien. Echter, na het ondervragen van meer dan 1.800 psychologieonderzoekers uit de hele wereld bleek slechts 2% dit te beseffen. De meeste van deze onderzoekers verlangen dat iedere afzonderlijke studie binnen een artikel een resultaat in dezelfde richting laat zien, voordat men overtuigd is dat een bepaald effect bestaat. Dit wordt weerspiegeld door gepubliceerde artikelen in de psychologie, die vrijwel allemaal uitsluitend bestaan uit studies met statistisch significante resultaten.
Deze situatie leidt tot meerdere problemen, stelt Van den Akker. In de wetenschap wordt het bewijs voor een bepaalde hypothese vaak weergegeven met een p-waarde. Als een p-waarde lager is dan 0.05 wordt dat doorgaans als voldoende bewijs gezien voor een bepaalde relatie tussen variabelen. Het probleem is dat er een fenomeen optreedt dat ‘p-hacking’ heet, waarbij onderzoekers na het bekijken van de data sturen op een ‘p-waarde’ die onder die 0.05 ligt. Het bewijs wordt dan kunstmatig gemanipuleerd in plaats van dat onderzoekers de data voor zich laten spreken. Mede door p-hacking is er momenteel sprake van een replicatiecrisis in psychologisch onderzoek, waarbij het in veel gevallen niet lukt om hetzelfde effect te vinden als je een onderzoek herhaalt. Bovendien kan de strenge houding richting wetenschappelijk bewijs ervoor zorgen dat valide oplossingen voor allerlei psychologische problemen onterecht op de plank blijven liggen.
Een deel van de oplossing ligt volgens Van den Akker in het vergroten van de kennis van statistiek onder wetenschappers. Dit kan bijvoorbeeld door scenario’s uit de wetenschappelijke praktijk op te nemen in statistiekonderwijs. Zulke scenario’s kunnen toekomstige wetenschappers bewuster maken van de vuistregels die zij hanteren in de beoordeling van hun eigen onderzoek en dat van anderen.
De publicatie getiteld How do psychology researchers interpret the results of multiple replication studies?
Bron: Tilburg University