Titel: "Are most published research findings false? Trends in statistical power, publication selection bias, and the false discovery rate in psychology (1975–2017)"
30.10.2023
Im Zuge der Replikationskrise kamen Fragen zur Vertrauenswürdigkeit von Forschungsergebnissen auf. Wie zuverlässig sind wissenschaftliche Ergebnisse, die als statistisch signifikant berichtet werden? Wie ändert sich dies im Zeitverlauf? Diese Fragen werden in einer Studie von Andreas Schneck adressiert, welche in PLOS One veröffentlicht wurde und auf berichteten statistischen Ergebnissen basiert, die in Artikeln der American Psychological Association zwischen 1975 und 2017 veröffentlicht wurden. Dabei wurden 487.996 statistische Testwerte in 35.515 publizierten Artikeln berücksichtigt.
False Discovery Rate
Die wichtigsten Ergebnisse:
1. Statistische Power: Die Studie ergibt, dass die statistische Power durchweg niedriger ist als die empfohlenen 80%, außer bei signifikanten zugrundeliegenden wahren Effekten (59% entdeckte wahre Effekte bei einer mittleren zugrundeliegenden wahren Effektstärke d = 0,5). Im Laufe der Jahrzehnte gibt es nur eine geringfügige Verbesserung der statistischen Power, was die Notwendigkeit zur Verbesserung der Datenerhebungsdesigns unterstreicht.
2. Publikation Selection Bias: Es werden erhebliche Hinweise auf Publication Selection Bias gefunden. So wurden 37% der nicht-signifikanten Ergebnisse als nicht publiziert geschätzt (Publication Bias). Alternativ könnten die gefundenen Muster auch durch p-hacking hervorgerufen worden sein, eine umstrittene Praxis der wissenschaftlichen Forschung,bei der statistische Analysen so verändert werden, bis statistische Signifikanz erreicht wird. In diesem Fall wären 8% der Fälle durch p-hacking signifikant gerechnet worden.
3. False Discovery Rate: Zusammenfassend schätzte die Studie, dass bis zu 17,7% der signifikanten Ergebnisse falsche Entdeckungen sein könnten (unter der Annahme, dass die Hälfte der getesteten Hypothesen wahr ist und p-Hacking der Hauptmechanismus ist).
Die Ergebnisse dieser Studie legen nahe, dass ein doch substantieller Teil der als statistisch signifikant berichteten Ergebnisse tatsächlich wahre Effekte berichten, anstatt bloße statistische Artefakte zu sein. Dennoch unterstreicht diese Forschung die Notwendigkeit, die statistische Power zu verbessern sowie insbesondere Praktiken des Publiction Bias und p-hacking zu unterbinden.