key: cord-0934787-exqgcwve authors: Lantian, A. title: Les pratiques de recherche ouvertes en psychologie date: 2020-10-07 journal: nan DOI: 10.1016/j.psfr.2020.09.001 sha: 59ffc0037ff1714cdc3855e2175974dda2486a7b doc_id: 934787 cord_uid: exqgcwve Cet article vise à offrir une vision d’ensemble des récentes évolutions des pratiques de recherche en psychologie. Un rappel des différents symptômes de la crise de la réplicabilité (et de confiance) ayant affecté la psychologie sera suivi par une discussion approfondie et nuancée des facteurs responsables de cette situation. Il s’agira ensuite, en s’appuyant sur des illustrations et des ressources, de démontrer le rôle crucial des pratiques de recherche ouvertes comme moyen de résoudre ces difficultés. La connaissance et l’adoption de ces pratiques de recherche popularisées par le mouvement de la science ouverte sont indispensables afin de contribuer, via la transparence et l’ouverture, à l’effort collectif d’amélioration de la fiabilité et de la réplicabilité des résultats en psychologie. This article aims to provide an overview of the recent developments of research practices in psychology. A review of the different symptoms of the crisis of replicability (and of confidence) that affected psychology will be followed by an in-depth and nuanced discussion of the factors responsible for this situation. Then, the next step will be to demonstrate, using illustrations and resources, the crucial role of open research practices to address these challenges. Knowledge and adoption of these research practices popularized by the open science movement are essential to contribute, through transparency and openness, to the collective effort to improve the reliability and replicability of psychological results. r é s u m é Cet article vise à offrir une vision d'ensemble des récentes évolutions des pratiques de recherche en psychologie. Un rappel des différents symptômes de la crise de la réplicabilité (et de confiance) ayant affecté la psychologie sera suivi par une discussion approfondie et nuancée des facteurs responsables de cette situation. Il s'agira ensuite, en s'appuyant sur des illustrations et des ressources, de démontrer le rôle crucial des pratiques de recherche ouvertes comme moyen de résoudre ces difficultés. La connaissance et l'adoption de ces pratiques de recherche popularisées par le mouvement de la science ouverte sont indispensables afin de contribuer, via la transparence et l'ouverture, à l'effort collectif d'amélioration de la fiabilité et de la réplicabilité des résultats en psychologie. © 2020 Société Franç aise de Psychologie. Publié par Elsevier Masson SAS. Tous droits réservés. Open science Methodology Transparency a b s t r a c t This article aims to provide an overview of the recent developments of research practices in psychology. A review of the different symptoms of the crisis of replicability (and of confidence) that affected La réplicabilité est une des pierres angulaires de la méthode scientifique (Zwaan, Etz, Lucas, & Donnellan, 2018) . Les termes « réplicabilité » (« replicability ») et « reproductibilité » (« reproducibility ») sont souvent utilisés de manière interchangeable (Condon, Graham, & Mroczek, 2017 ; Fidler & Wilcox, 2018) . Ils véhiculent un sens différent en fonction du domaine disciplinaire dans lequel ils sont employés (Kenett & Shmueli, 2015) . Cependant, à l'instar de certains auteurs, pour des raisons de clarté, nous distinguerons les deux termes (Condon et al., 2017 ; Plesser, 2018) . La reproductibilité désigne le fait de pouvoir reproduire les résultats d'une étude en utilisant les mêmes procédures analytiques et le même jeu de données que les investigateurs originaux : les chercheurs doivent être en mesure d'aboutir aux mêmes conclusions que l'étude originale. Quant à la réplicabilité, elle renvoie à l'emprunt d'une méthodologie plus ou moins proche de l'étude originale afin de récolter de nouvelles données pour tenter d'obtenir des résultats similaires (Bollen, Cacioppo, Kaplan, Krosnick, & Olds, 2015 ; Condon et al., 2017) . Les réplications ne visent pas nécessairement toutes le même objectif (Crandall & Sherman, 2016 ; Zwaan, Etz et al., 2018) . Il faut distinguer la réplication directe (ou exacte) de la réplication conceptuelle. D'une part, la réplication directe vise à tester la ou les prédictions d'origine dans les conditions les plus proches possibles de celles de l'étude dont on cherche à répliquer l'effet, ou du moins, dans les conditions considérées comme nécessaires à l'observation de l'effet d'intérêt (Simons, 2014 ; Zwaan, Etz et al., 2018) . D'autre part, la réplication conceptuelle consiste à répliquer les résultats obtenus dans un contexte différent. Pour être plus précis, la réplication conceptuelle cherche à mettre à l'épreuve la pertinence des hypothèses auxiliaires, à savoir, s'assurer que l'effet obtenu ne tenait pas seulement au type de matériel ou de mesures utilisés, à la population étudiée, etc. Ce type de réplication permet de tester la généralisabilité et la robustesse des découvertes scientifiques (Crandall & Sherman, 2016 ; LeBel, Berger, Campbell, & Loving, 2017) . Bien entendu, dans la réalité, il existe tout un éventail de l'évocation de la facilité déconcertante avec laquelle on peut obtenir des faux positifs, à savoir, conclure à tort à l'existence de quelque chose qui n'existe pas en réalité (Simmons, Nelson, & Simonsohn, 2011) . Dans un article publié dans The American Scientists (Gelman & Loken, 2014) , des chercheurs illustrent cette idée à l'aide de la métaphore d'un jardin aux sentiers qui bifurquent. Celle-ci illustre l'arborescence insoupç onnée résultante de microdécisions successives prises a posteriori, qui peuvent radicalement changer les conclusions d'une étude. Une fois les données récoltées, il peut être tentant d'ajouter des tests statistiques à ceux initialement prévus en amont de l'étude. Par exemple, il peut s'agir de savoir si les résultats varient si l'on considère séparément les hommes et les femmes ou différentes catégories d'âge. Ou encore, de voir ce qu'il se passe si l'on enlève un item d'une échelle, si l'on regroupe deux items que l'on avait prévu d'analyser séparément, si l'on applique telle ou telle transformation sur une variable donnée, si l'on rajoute une variable en covariée, etc. En clair, sans fixer précisément au préalable les paramètres clés sur lesquels nous allons nous reposer à l'issue de l'expérience, il existe une infinité de manières de regrouper ou diviser des données en fonction d'une multitude de critères plus ou moins arbitraires. L'usage approprié d'un test statistique implique de fixer au préalable le seuil ␣ correspondant au risque de faux positif que l'on est prêt à tolérer si l'hypothèse nulle est vraie (i.e., erreur de Type I), et ce pour un seul test. En multipliant le nombre de tests, le seuil ␣ augmente considérablement par rapport à celui fixé au départ (dans l'éventualité où l'on ne prend pas la peine de le corriger en fonction du nombre de tests réalisés). Il s'ensuit qu'à force de répétition, on finira mécaniquement par tomber sur un résultat dit « significatif » avec un risque accru que ce dernier soit un faux positif. On nomme communément p-hacking la pratique consistant à faire émerger un effet significatif en multipliant déraisonnablement le nombre de tests statistiques sur une même base de données (Head, Holman, Lanfear, Kahn, & Jennions, 2015 ; Nelson et al., 2018) . Cela traduit un détournement de l'usage prévu des tests statistiques et de nombreux signes indiquent que le p-hacking est pratiquée au sein de différentes disciplines scientifiques (Baum & Bromiley, 2019 ; Head et al., 2015) . Une publication illustre formidablement bien qu'en adoptant beaucoup de flexibilité dans l'analyse des données, on peut conclure des aberrations telles que le fait d'écouter « When I'm sixty-four » des Beatles plutôt qu'une autre musique fait rajeunir les gens au sens propre (Simmons et al., 2011) . La même année, une publication accréditant l'existence de la faculté de prédire l'avenir, ou autrement dit, du don de précognition, paraît dans la revue Journal of Personality and Social Psychology (Bem, 2011) . Depuis lors, de nombreuses critiques ont été émises réfutant l'idée que ces résultats seraient une démonstration de l'existence de la précognition : ils seraient plutôt le fruit d'une trop grande flexibilité dans l'usage des statistiques (Wagenmakers, Wetzels, Borsboom, & van der Maas, 2011) . Comme le rappelle l'expression populaire « Si vous torturez vos données suffisamment longtemps, elles vont finir par vous dire ce que vous avez envie d'entendre » Mills (1993 » Mills ( , p. 1196 . Lorsqu'une exploration des données conduit à des découvertes ou conclusions qui n'étaient pas initialement prévues, cette grande flexibilité peut conduire à la tentation du « HARKing », à savoir, Hypothesizing After the Results are Known. Cela consiste à prétendre que des données corroborent une hypothèse a priori fondée sur un raisonnement théorique préalable qui a motivé la réalisation d'un travail empirique, en omettant de signaler que l'hypothèse présentée a en réalité été fabriquée (ou modifiée) a posteriori de faç on à correspondre à des résultats qui n'ont pas été anticipés (Kerr, 1998) . La pratique du HARKing est problématique à plus d'un titre, comme le refus de s'engager dans une démarche de réfutation d'une hypothèse ou encore le risque d'inflation des faux positifs (Kerr, 1998 ; voir aussi Rubin, 2019 pour une analyse critique et nuancée des effets supposément délétères du HARKing). Imaginons que des chercheurs publient un article démontrant l'effet d'une thérapie psychologique donnée sur la qualité du sommeil, tout en prétendant avoir conç u l'étude afin de précisément tester cette hypothèse. On admet aisément que le résultat paraît beaucoup plus douteux s'il a été porté à notre connaissance que ce résultat est extrait d'une étude dans laquelle cinq autres thérapies psychologiques concurrentes ont été testées, accompagnées d'une dizaine de mesures différentes, et sans que cette hypothèse spécifique portant sur cet effet en particulier ait été formulée au préalable. Plus préoccupant encore, l'hypothèse de départ motivant l'étude portait en réalité sur l'effet supposé d'une autre thérapie psychologique sur l'anxiété. Dans la même veine, la transformation de résultats initialement chaotiques en une version sublimée a été nommée « effet chrysalide », en référence au processus de métamorphose de la chenille en paillon (O'Boyle, Banks, & Gonzalez-Mulé, 2017) . En l'occurrence, dans cet article, les auteurs illustrent le décalage entre les hypothèses et les résultats rapportés dans des thèses de doctorat en management, et ces mêmes résultats concrétisés sous la forme de publications scientifiques (voir Cairo, Green, Forsyth, Behler, & Raldiris, 2020 pour un constat similaire en psychologie sociale). En un mot, les résultats dans la revue scientifique sont présentés comme plus conclusifs qu'ils ne l'étaient dans le manuscrit de thèse de doctorat. Ces pratiques peuvent être assimilées à une catégorie plus englobante : les pratiques de recherches discutables (connu sous le terme de « questionable research practices » en anglais ; John, Loewenstein, & Prelec, 2012 ; Simmons et al., 2011) . Selon certaines études, si l'on accorde du crédit au déclaratif, ces petits arrangements avec la réalité ne sont pas rares dans la pratique des chercheurs (Martinson, Anderson, & de Vries, 2005) . Par exemple, dans une étude publiée en 2012, environ un tiers des plus de 2000 chercheurs états-uniens issus de différentes spécialisées en psychologie admettent avoir eu au moins une fois recours à ce type de pratique, comme omettre de déclarer l'inclusion d'une mesure voire d'une condition expérimentale (John et al., 2012) . Cette publication fréquemment citée (et dont les résultats ont été répliqués chez des chercheurs en psychologie italiens, Agnoli, Wicherts, Veldkamp, Albiero, & Cubelli, 2017 ; voir aussi Rabelo et al., 2019 pour les résultats obtenus chez des chercheurs brésiliens) doit toutefois être interprétée avec prudence. Ceci en raison de la formulation parfois problématique de ces questions, mais également plus fondamentalement de la portée très restrictive de ce qui est mesuré. En effet, il est question d'avoir au moins une fois recouru à un de ces comportements problématiques, ce qui ne permet pas de conclure quant à la prévalence effective de ces comportements (Fiedler & Schwarz, 2016) . Ces mêmes auteurs ont par ailleurs conduit une nouvelle étude avec une méthodologie plus rigoureuse qui a donné lieu à des résultats beaucoup moins alarmistes (Fiedler & Schwarz, 2016) . Ils prennent la peine de rajouter que le simple fait de suggérer sur la base de résultats déformés que ce type de conduite est fréquent, affaiblit non seulement les messages de prévention destinés à prévenir ces pratiques de recherche discutables, mais nuisent également gravement à l'image de la recherche scientifique et par extension la confiance en ses recommandations (Fiedler & Schwarz, 2016) . Là encore, ces pratiques de recherche discutables sont loin d'être uniquement propres à la psychologie, elles concernent par exemple l'écologie et la biologie de l'évolution (Fraser, Parker, Nakagawa, Barnett, & Fidler, 2018) , les recherches biomédicales (Gardner, Lidz, & Hartwig, 2005) , les sciences économiques (List, Bailey, Euzent, & Martin, 2001) , les sciences de l'éducation (Makel, Hodges, Cook, & Plucker, 2019) , le management (O'Boyle et al., 2017) ou encore l'ingénierie civile (Swazey, Anderson, Lewis, & Louis, 1993) , etc. Si ces pratiques de recherche discutables paraissent à première vue inoffensives, elles sont de plus en plus montrées du doigt en raison de leur écart avec les nouveaux standards de recherche qui aspirent à une plus grande rigueur scientifique. Il faut veiller à ne pas faire de procès d'intention aux chercheurs qui ont recours à ces pratiques, ces dernières ne sont pas nécessairement le fruit d'intentions malhonnêtes et peuvent très bien être expliquées en partie par de simples biais de confirmation (Bishop, 2020) , sans même évoquer les causes situationnelles 5 . Si l'on revient sur la trop grande flexibilité dans l'analyse des données, c'est un travers très difficilement évitable, d'autant plus lorsqu'il s'agit d'étudier des questions de recherche complexes. Dans ce cas, il n'y a pas qu'une seule, mais une multitude de stratégies analytiques possibles basées sur des postulats défendables et justifiés. Ces différentes stratégies peuvent conduire à des conclusions divergentes. Une étude démontre cela en constatant l'étonnante hétérogénéité des conclusions lorsque l'on présente le même jeu de donnée et la même question de recherche à 29 équipes de recherche de différentes spécialités ayant travaillé indépendamment les unes des autres (Silberzahn et al., 2018) . D'après cette recherche, ni l'expertise des chercheurs en statistiques ni leurs croyances initiales au sujet de la question de recherche ne peuvent expliquer de manière satisfaisante les différences observées. Plus récemment, les analyses de 70 équipes indépendantes portant sur le même jeu de données d'imagerie par résonance magnétique fonctionnelle débouchent là encore G Model PSFR-469; No. of Pages 20 Psychologie française xxx (xxxx) xxx-xxx sur ces mêmes conclusions (Botvinik-Nezer et al., 2020) . Cela souligne la complexité de l'analyse des données ainsi que la place importante occupée par l'arbitraire. Un autre facteur expliquant ces difficultés à répliquer provient des biais de publication (voir Cursan, 2018 pour une discussion en franç ais détaillée à ce sujet), désignant la tendance à conditionner la décision de soumettre un article scientifique dans une revue en fonction des résultats obtenus (Cooper, DeNeve, & Charlton, 1997 ; Francis, 2012) . Plus précisément, cela revient à favoriser la publication de résultats significatifs corroborant une hypothèse par rapport aux résultats non significatifs. 6 Ces derniers ont statistiquement plus de chances d'être rejetés des revues scientifiques pour des raisons de manque d'intérêt, d'absence de dimension conclusive ou de caractère suffisamment spectaculaire, traduisant ce faisant un problème structurel (Franco, Malhotra, & Simonovits, 2014) . De surcroît, ces données non significatives du point de vue statistique ont une moindre probabilité d'être retranscrites sous forme de manuscrit et donc par extension de faire l'objet d'une communication sous une forme ou une autre (Franco et al., 2014 ; Greenwald, 1975) . Ces résultats non significatifs peuvent faire naître un sentiment de démotivation chez les chercheurs qui, via l'anticipation de divers obstacles et difficultés qui se profilent, conduisent à une forme d'autocensure (Franco et al., 2014) . Cela n'exclut pas pour autant l'explication plus prosaïque d'un frein psychologique à l'idée de présenter des données ne permettant pas de conclure en faveur des hypothèses qui nous sont chères. De l'aveu même de certains d'entre eux, ces données non significatives perdent de leur intérêt (Franco et al., 2014) . La tendance ne va pas en s'arrangeant, car les résultats significatifs sont surreprésentés dans les publications scientifiques : plus que ce que l'on devrait attendre compte tenu des lois du hasard. Entre 1990 et 2007, on constate une augmentation des résultats soutenant l'hypothèse des chercheurs (Fanelli, 2012) . Pour être plus nuancé, à un niveau d'analyse plus fin, on observe des disparités entre les disciplines et les différentes origines géographiques des chercheurs (Fanelli, 2012) . Dans une autre étude, comparativement aux sciences physiques, les sciences sociales rapportent une plus grande proportion de résultats qui vont dans le sens des hypothèses, des résultats dits « positifs » (Fanelli, 2010) . Selon Fanelli (2010) , une des raisons qui expliquerait ces différences proviendrait du fait que les sciences qui cherchent à expliquer des phénomènes de moindre complexité, généralement plus anciennes, posent des hypothèses plus contraignantes, donc plus facilement réfutables, que les sciences qui cherchent à expliquer des phénomènes d'une plus grande complexité, généralement plus récentes. En définitive, ces données qui ne sont pas statistiquement significatives et qui restent dans les tiroirs (d'où le nom « effet tiroir », Rosenthal, 1979) , conduisant à une vision déformée de l'état de l'art sur un sujet donné. En effet, au moment de compiler les résultats lors des méta-analyses, les données non publiées qui n'iraient pas dans le sens des hypothèses entraînent une vision partielle (et partiale) de la réalité (Friese & Frankenbach, 2019) . Nous pouvons également identifier un facteur additionnel qui contribue à ces échecs de réplications : le manque de puissance statistique. En statistiques, la puissance correspond à la probabilité sur le long terme de détecter une relation existante entre les variables étudiées (ou une différence existante entre des groupes) compte tenu de la taille réelle de cette relation (ou de cette différence), d'un effectif donné, et d'un seuil d'erreur fixé au préalable (Forstmeier, Wagenmakers, & Parker, 2017) . Il est reconnu depuis des décennies que les études conç ues en psychologie partent bien souvent avec une probabilité beaucoup trop faible de détecter un effet au regard de la taille présumée de cet effet ; on parle alors de sous-puissance statistique (Bakker, van Dijk, & Wicherts, 2012 ; Cohen, 1962 ; Maxwell, 2004 ; Stanley et al., 2018) . Pour faire une analogie, cela reviendrait à essayer de détecter une planète d'un autre système solaire avec de simples jumelles (analogie dérivée de celle du « télescope » développée par Simonsohn, 2015) . Ce problème est encore loin d'être résolu étant donné que les données accumulées depuis des décennies permettent d'avoir une idée assez précise de l'ordre de grandeur des phénomènes étudiés en psychologie (Richard, Bond, & Stokes-Zoota, 2003) . En règle générale, le recrutement de trop petits effectifs est problématique à plusieurs niveaux. Pour faire simple, cela augmente les chances de conclure à tort que ce que l'on cherche à observer G Model PSFR-469; No. of Pages 20 Psychologie française xxx (xxxx) xxx-xxx n'existe pas (erreur de Type II), mais également nous conduit à conclure à l'existence de quelque chose à tort (erreur de Type I, Button et al., 2013) . Et ce, notamment en raison des grandes fluctuations d'échantillonnage qui surviennent lorsque l'effectif est trop faible (Maxwell, 2004) . S'ajoute à cela un plus fort niveau d'incertitude concernant l'estimation de la taille de l'effet observé, pouvant donner lieu à une surestimation de la taille de l'effet de même qu'une erreur d'estimation de sa direction (Gelman & Carlin, 2014) . Un cercle vicieux peut alors s'installer, car les études subséquentes sont basées sur une taille d'effet faussée, en raison des biais de publications évoqués précédemment, aggravant du même fait le problème initial. Néanmoins, il ne faut pas être fataliste pour autant, car rétrospectivement, des données indiquent qu'en psychologie sociale, la taille moyenne des effectifs recrutés dans les études augmente depuis 2011 (année à partir de laquelle la crise de confiance en psychologie a gagné du terrain), ce qui peut être interprété comme une prise de conscience de l'importance accordée aux tailles d'échantillons (Sassenberg & Ditrich, 2019) . Cela étant, cette progression des effectifs ne va pas croître indéfiniment, et compte tenu des contraintes structurelles qui pèsent sur l'activité de recherche (e.g., manque de moyens, population d'intérêt difficile d'accès, etc.), il serait injuste d'interpréter le recrutement d'effectifs insuffisants comme le reflet d'un manque d'effort et/ou de méconnaissances statistiques des chercheurs. Tout bien considéré, on peut légitimement se demander dans quelle mesure ces difficultés à répliquer sont dues à des fraudes scientifiques telles que des manipulations voire des fabrications de données (on pensera notamment à la tristement célèbre affaire D. Stapel, Budzicz, 2015 ; Levelt, Drenth, & Noort, 2012) . Tout en reconnaissant les limites inhérentes aux études portant sur ces questions épineuses de fraudes scientifiques (Fanelli, 2009 ; Gardner et al., 2005) , il faut garder à l'esprit que les cas avérés de fabrication de données sont relativement rares (Fidler & Wilcox, 2018 ; Stricker & Günther, 2019) et devraient mécaniquement expliquer seulement un pourcentage marginal des difficultés de réplications. En réalité, d'autres facteurs tels que l'erreur de mesure (Loken & Gelman, 2017) et l'erreur d'échantillonnage semblent beaucoup plus convaincants pour expliquer ces difficultés de réplications (Stanley & Spence, 2014) . Après avoir passé en revue un certain nombre de facteurs pouvant expliquer cette difficulté à répliquer, nous allons voir en quoi les pratiques de recherche ouvertes font office de solution afin d'y remédier. Pour concrétiser celles-ci, nous allons nous appuyer sur un exemple fictif. Par exemple, imaginons que l'on souhaite tester l'hypothèse que les personnes portant des vêtements de couleur rouge sont jugées plus attirantes que les personnes portant des vêtements de couleur bleue 7 . L'adoption des pratiques de recherche ouvertes nécessite d'intégrer le pré-enregistrement comme nouvelle corde à son arc. Certains chercheurs n'hésitent pas à qualifier le pré-enregistrement de « révolution » dans l'activité de recherche Nosek, Ebersole, DeHaven, & Mellor, 2018 ; Spellman, 2015 ; Vazire, 2018) . Celui-ci consiste à renseigner un certain nombre d'informations capitales avant de conduire une étude. Parmi ces informations, il est nécessaire de renseigner précisément les hypothèses qui vont être mises à l'épreuve (i.e., les prédictions théoriques), les tests statistiques et les paramètres associés qui vont être appliqués (e.g., seuil d'erreur ␣), le nombre de participants visé, la règle d'arrêt de la récolte des données ainsi que les critères d'exclusions établis au préalable. Ces informations doivent être enregistrées sur des sites internet spécifiquement conç us à cette fin ( Par exemple, nous pouvons déclarer que nous souhaitons recruter 150 participants (avant application d'éventuels critères d'exclusion) qui devront évaluer successivement l'attractivité physique de 250 personnes différentes à partir de photographies présentées dans un ordre aléatoire. Disons qu'une moitié des personnes présentées porteront des vêtements rouges et l'autre moitié des vêtements bleus. Il faudrait préciser qu'il est planifié de moyenner l'ensemble des évaluations réalisées. En effet, dans le cadre de l'usage des statistiques fréquentistes, il est important de fixer par avance le nombre d'évaluations qui va être pris en compte, car en l'absence de précision sur ce critère, nous laissons une porte ouverte à une modification de ce critère. On pourra ainsi éviter la tentation de changer les critères de manière ad hoc, comme n'inclure que les 150 dernières évaluations de chaque participants, sous prétexte que les 100 premières évaluations sont des essais d'entraînement. Il faudrait de même déclarer par avance le test statistique réalisé ainsi que le seuil d'erreur de première espèce, classiquement 5 % ou parfois 1 %. On notera au passage que le choix de la valeur du seuil d'erreur de première espèce fait actuellement l'objet de débats entre les tenants d'un seuil plus sévère à 5 sur 1000 (Benjamin et al., 2018) pour qualifier un résultat comme « découverte » contre les tenants de l'idée que ce changement de seuil est une fausse « bonne solution » qui ne réglera pas pour autant tous les problèmes connus (Trafimow et al., 2018) . Sans oublier la multitude d'autres positions qu'il est possible de défendre (Lakens et al., 2018) , voire l'abandon pur et simple de ces seuils propres au paradigme statistique inférentiel « classique » au profit d'un paradigme statistique bayésien (Kruschke & Liddell, 2018) . Quoi qu'il en soit, cette question difficile du choix du seuil met en ébullition la communauté scientifique, comme en témoigne un numéro spécial de la revue The American Statistician entièrement consacré à cette question (Wasserstein, Schirm, & Lazar, 2019) . Pour revenir au pré-enregistrement, il faut bien admettre que si cette pratique se généralise, les résultats obtenus seraient vraisemblablement beaucoup plus réplicables que les résultats issus d'études non pré-enregistrées. L'une des raisons pourrait être par exemple que le pré-enregistrement du plan d'analyse pourrait réduire les risques d'erreur de Type I (Ledgerwood, 2018) mais plus encore, « d'éviter que les chercheurs ne réduisent de manière non transparente la capacité d'un test à réfuter une prédiction » (Lakens, 2019, p. 223) . De récents résultats corroborent cette hypothèse. Un examen de 127 rapports pré-enregistrés dans le domaine biomédical et en psychologie affiche un taux de 61 % d'études dont les conclusions ne viennent pas confirmer les hypothèses, tandis que ce taux est estimé entre 5 et 20 % pour les études non pré-enregistrées (Allen & Mehler, 2019 ; Warren, 2018). De même, sans grande surprise, les tailles d'effets obtenues dans les études pré-enregistrées sont significativement plus petites que dans les études non pré-enregistrées (Schäfer & Schwarz, 2019) Si ces écarts ne s'expliquent pas simplement par une variable confondue (e.g., une plus grande tendance à pré-enregistrer des hypothèses plus risquées), alors pré-enregistrer pourrait conduire ainsi à une réduction des biais de publication. Nous pouvons donc penser que la tendance suive ce qui a été observé en sciences médicales, à savoir, une réduction drastique des résultats statistiquement significatifs à partir du moment où certains financeurs ont exigé des chercheurs de pré-enregistrer les essais cliniques sur un site conç u à cet effet (clinicaltrials.gov ; Kaplan & Irvin, 2015) . Cependant, le pré-enregistrement ne constitue pas pour autant une solution ultime. Outre le fait qu'un pré-enregistrement ne compensera jamais un cadre théorique défaillant (Lakens, 2019 ; Szollosi et al., 2019) , il peut techniquement être falsifié. Par exemple si l'on dépose son préenregistrement après avoir analysé ses données ou en réitérant l'étude jusqu'a que les résultats corroborent l'hypothèse par simple hasard, en admettant que l'hypothèse nulle soit vraie (Yamada, 2018) . Bien que possible, ce type de détournement reste plutôt dissuasif dans le sens où son coût de mise en oeuvre est relativement élevé et est un cas de fraude aggravée. Pour autant, cela ne nous dispense pas de nous intéresser de près au contenu de ce pré-enregistrement afin de vérifier ses qualités (Veldkamp et al., 2018) . Cet examen est d'autant plus justifié que récemment, une étude de 23 articles publiés dans la revue Pyschological Science pour lesquels un pré-enregistrement était rendu accessible montre que l'ensemble de ces articles commettaient un écart par rapport à ce qui était prévu : un écart entre le rêve et la réalité pour reprendre le titre de l'article (Claesen, Gomes, & Tuerlinckx, 2019) . Concrètement, cet écart peut se manifester par une analyse annoncée dans le pré-enregistrement qui n'est pas réalisée et/ou rapportée dans l'article, un critère d'exclusion prévu qui n'est pas pris en compte ou le rajout d'un nouveau critère d'exclusion non anticipé, ou encore un effectif recruté qui diffère de l'effectif annoncé dans le pré-enregistrement, etc. Les écarts entre ce qui est consigné dans le pré-enregistrement et ce qui est réellement fait ne posent pas de problème en soi, du moment que ceux-ci sont signalés et justifiés (Nosek et al., 2019) . Sur ces 23 articles examinés, seul un article a rapporté l'ensemble des écarts produit par rapport au pré-enregistrement (Claesen et al., 2019) . Au-delà de ce type de pré-enregistrement, arrêtons-nous sur un autre type de pré-enregistrement qui pousse cette logique encore plus loin : les rapports pré-enregistrés (registered reports en anglais ; Chambers, 2013) . Cela consiste à soumettre son article à l'évaluation par les pairs avant même de passer par la phase de récolte des données. Plus précisément, il s'agit ici de rédiger la partie théorique et la méthode avec le plus grand nombre possible de précisions et de décisions établies au préalable. Ce changement confère un grand nombre d'avantages. Par exemple, si l'étude présente un ou plusieurs défauts méthodologiques, il y a des chances qu'ils puissent être détectés et corrigés en amont. De plus, un des avantages majeurs est que si le protocole de l'étude est mené comme spécifié dans le document, et si les analyses statistiques correspondent bien à ce qui a été annoncé au départ, l'article sera publié, et ce, quels que soient les résultats. Ainsi, avoir la certitude que l'étude sera publiée même en l'absence de résultats statistiquement significatifs devrait entraîner moins de tentations d'enjoliver ses résultats pour augmenter ses chances de voir son article accepté dans une revue. Tout comme ce qui a été observé pour la première forme de pré-enregistrement abordée antérieurement, les premiers résultats sur les rapports pré-enregistrés font état d'un moindre taux de résultats positifs (i.e., rejetant l'hypothèse nulle) sur les études qui adoptent ce format (environ 44 %) en comparaison à celles qui ne l'adoptent pas (environ 96 % ; Scheel, Schijen, & Lakens, 2020 ; voir aussi Wiseman, Watt, & Kornbrot, 2019). Une autre pratique de recherche qui favoriserait cette fois-ci la reproductibilité est le fait de donner un libre accès aux données anonymisées et dans l'idéal, la procédure analytique suivie afin d'analyser ses données (e.g., le script ou le code statistique). De cette manière, tout un chacun peut reproduire les analyses, conduire des analyses alternatives, tester de nouvelles hypothèses, se servir de ces données pour conduire des méta-analyses ou bien détecter d'éventuels traitements sous-optimaux des données voire des erreurs statistiques. Certains chercheurs peuvent se poser la question de l'utilité de cette démarche étant donné que les données peuvent tout simplement être envoyées sur simple requête. Or, on sait justement que ce type de demandes par e-mail est loin de porter ses fruits. En 2005, des chercheurs en psychologie ayant publié dans 4 revues très sélectives ont été contactés par d'autres chercheurs afin de leur demander d'envoyer leurs données. Il en résulte que 73 % d'entre eux ne l'ont pas fait, ce qui viole le cadre éthique en vigueur dans lequel ces revues s'inscrivent (Wicherts, Borsboom, Kats, & Molenaar, 2006) , en l'occurrence les principes éthiques de l'association américaine de psychologie (American Psychological Association, 2001). Plus récemment, il a été signalé que la majorité des données des articles les plus cités en psychologie et en psychiatrie publiés entre 2006 et 2016 sont à ce jour inaccessibles, malgré des démarches entreprises afin de pouvoir les récupérer (Hardwicke & Ioannidis, 2018) . Outre le simple aspect rebutant logistiquement parlant (Campbell et al., 2002) , ainsi que des barrières légales et éthiques invoquées par les auteurs lorsque l'on demande d'expliquer leur refus de partager leurs données (Hardwicke & Ioannidis, 2018) , on peut suspecter qu'une des raisons moins avouables qui pourrait expliquer cette appréhension de rendre accessibles ses données est la crainte qu'une analyse indépendante pointe des erreurs invalidant les conclusions de l'étude. Dans les publications scientifiques, les erreurs statistiques sont plus communes que ce que l'on peut imaginer de prime abord, et ce, dans différentes disciplines, que ce soit en psychologie Nuijten, Hartgerink, van Assen, Epskamp, & Wicherts, 2016 ; Rouder, Haaf, & Snyder, 2019) , en méde-cine (García-Berthou & Alcaraz, 2004 ; Murphy, 2004) , en psychiatrie (Berle & Starcevic, 2007) , en management (Bergh, Sharp, Aguinis, & Li, 2017) ou en philosophie expérimentale (Colombo, Duev, Nuijten, & Sprenger, 2018) . Les erreurs étant humaines (et source d'embarras, Bishop, 2018) , il serait extraordinairement étonnant de n'en observer aucune. Ces erreurs peuvent être de nature très diverse et varier en gravité. Elles peuvent provenir de simples erreurs de copies, intervenant entre le moment où le résultat du test statistique apparaît à l'écran et le moment où le résultat est retranscrit/copié-collé sur le document, ou une erreur plus amont, par exemple, un mauvais test statistique effectué. Certaines erreurs sont plus dommageables que d'autres, par exemple, lorsqu'elles invalident les conclusions d'une étude, faussant par la même occasion les méta-analyses subséquentes. À titre d'illustration, il est estimé que 15 % d'une première sélection aléatoire d'articles publiés en psychologie contiennent des statistiques erronées conduisant à au moins une conclusion injustifiée . Ces conclusions injustifiées vont plus souvent que ce que l'on devrait attendre du hasard dans un sens favorable aux hypothèses des chercheurs. À partir d'une nouvelle sélection aléatoire d'articles, ont contacté 21 auteurs d'articles présentant des incohérences statistiques de niveau de gravité variable. Fait notable : le temps que les chercheurs contactés ont mis à envoyer leurs données était relié à la gravité de ces erreurs, dans le sens où les délais les plus longs étaient associés à des erreurs plus sérieuses en moyenne. La rapidité de l'envoi des données peut être alors considérée comme un indice de la qualité de ces dernières. Outre le délai de réponse, le simple refus d'envoyer ses données est un autre signal négatif. Dans une autre étude, sur 49 chercheurs sollicités afin de fournir la base de données source de leur publication, seuls 21 d'entre eux ont répondu à cette requête (Wicherts, Bakker, & Molenaar, 2011) . Les indices statistiques issus des articles des chercheurs qui n'ont pas fourni leurs bases de données présentent plus d'erreurs manifestes et des résultats moins convaincants que ceux ayant fourni leurs bases de données . Ces cas de refus d'envoi de données suite à des sollicitations s'observent également en sciences médicales (Reidpath & Allotey, 2001 ) et en génétique (Campbell et al., 2002) . Ainsi, dans un souci de conservation des données à long terme, il n'est pas justifié de ne pas donner un accès ouvert à celles-ci, à l'exception des données personnelles ne permettant pas de garantir l'anonymat des participants, dans le respect du cadre juridique en vigueur (Meyer, 2018) . Il semblerait que le fait de considérer ses données comme un trésor qu'il ne faut pas partager est une conception archaïque qui tend à se perdre. En ce sens, une récente étude montre que dans le domaine de la biotélémetrie animale, 72 % de chercheurs en début de carrière ont partagé leurs données pour donner suite à une demande, tandis que seuls 11 % des chercheurs avec plus d'ancienneté ont partagé leurs données (Campbell, Micheli-Campbell, & Udyawer, 2019) . Comme on l'observe parfois, les revues scientifiques pourraient démocratiser cette pratique en exigeant de donner un libre accès aux données lorsqu'un article est publié en leur sein. La barrière logistique ou financière n'est plus une excuse, car il est extrêmement aisé de déposer ses données sur une plateforme spécifiquement dédiée à cet effet (e.g., sur OSF ; Soderberg, 2018) . Enfin, compte tenu des connaissances actuelles, il n'y a pas de preuves qu'annoncer que les données récoltées (et préalablement anonymisées) sont destinées à être librement accessibles sur un site internet public affecte négativement le taux de participations ou la teneur des réponses recueillies via un certain nombre d'échelles de mesure psychologiques (Eberlen, Nicaise, Leveaux, Mora, & Klein, 2019) . Il faut également par la même occasion s'attendre à ce qu'à l'avenir, les évolutions technologiques, informatiques, et statistiques facilitent la détection d'éventuelles erreurs dans les données d'articles publiés antérieurement. En réalité, ce processus a déjà débuté (Brown & Heathers, 2017 ; Heathers, Anaya, van der Zee, & Brown, 2018 ; Nuijten, van Assen, Hartgerink, Epskamp, & Wicherts, 2017) . Des données librement accessibles (sous condition qu'elles soient complètes et réutilisables) rendront plus aisées la vérification et la mise à jour des résultats, et par extension leur exactitude. Notons au passage qu'en plus des données, il est d'autant plus souhaitable de partager le code/script utilisé pour les analyser (Goldacre, Morton, & DeVito, 2019) . Une fois de plus, le partage du script ne garantit pas la reproductibilité des résultats tels qu'ils apparaissent dans un article, encore faut-il donner suffisamment d'information pour permettre à une personne extérieure d'exécuter le script et d'obtenir les mêmes résultats, sans avoir besoin de l'assistance de (ou des) auteur(s) de l'étude d'origine. À l'heure G Model PSFR-469; No. of Pages 20 Psychologie française xxx (xxxx) xxx-xxx actuelle, des données suggèrent que des progrès peuvent encore être faits sur cet aspect (Obels, Lakens, Coles, Gottfried, & Green, 2019) . Tout comme les données, le matériel de l'étude ainsi que la procédure complète devraient être partagés, ou a minima, ceux-ci devrait être suffisamment détaillé afin de permettre à d'autres équipes de reproduire l'étude (Grahe, 2017) et/ou de faciliter la détection de potentielles limites non détectables si un accès du matériel dans son entièreté n'est pas possible. Omettre ces détails revient à demander à une personne de réaliser une recette de cuisine sur la base d'un support incomplet, le résultat sera probablement approximatif. Certes, le nombre de mots limités par les revues ne permet pas toujours de développer cette partie, mais cela peut être compensé par l'ajout d'annexes. Il n'est pas difficile de trouver des situations où les chercheurs déplorent l'impossibilité de reproduire une étude en raison d'un manque de détail dans la publication originale (Kaiser, 2018) . Outre l'accès libre aux données et au matériel, le mouvement des Sciences ouvertes milite également pour un accès ouvert aux articles scientifiques. Les revues en libre accès (open access) permettent à quiconque d'accéder librement et gratuitement à leur contenu. Même pour les articles qui ne sont pas publiés dans des revues en libre accès, il est toujours possible de rendre accessible une version de prépublication (également connue sous le nom de preprint : version d'un article qui n'a pas encore été soumis pour publication dans une revue, ou qui n'a pas été encore relu par les pairs ou été accepté) ou une version de l'article accepté mais pas encore mis en forme par la revue (postprint). Cela peut se faire en proposant le manuscrit en téléchargement direct sur des sites d'archive (e.g., comme le propose le site https://psyarxiv.com/), ou en l'hébergement directement sur son site personnel ou institutionnel. Ayant gagné en popularité lors de la pandémie de Covid-19, cette initiative est la bienvenue, que ce soit pour les chercheurs travaillant au sein d'universités ne disposant pas des fonds suffisants pour prendre en charge les abonnements aux revues, en général très onéreux, et plus généralement, pour les citoyens désireux de se renseigner sur un sujet pointu. Il faut bien avoir conscience que le recours à ces pratiques de recherche ouvertes à titre individuel n'atteindra pas un niveau de développement optimal tant que les différentes structures qui encadrent la recherche n'encourageront pas pleinement ces changements (Nosek, Spies, & Motyl, 2012) . Si l'activité scientifique peut parfois être dépeinte comme un jeu (Bakker et al., 2012) , alors il faut changer les règles du jeu. En clair, il est indispensable que les financeurs publics et privés, les institutions et organismes de recherches via les recrutements, promotions et prix, les sociétés savantes ainsi que les lignes éditoriales des revues scientifiques (Morey et al., 2016) mettent en avant ces critères d'ouverture et de transparence sous peine de ne pas voir une transformation radicale se réaliser (Gernsbacher, 2018) . Cela revient à ne pas négliger les solutions dites distales, c'est-à-dire les changements qui s'inscrivent dans le contexte plus général de l'organisation de la communauté scientifique dans son ensemble (De Boeck & Jeon, 2018) . La « feuille de route du CNRS pour la science ouverte » (2019) constitue un exemple concret d'engagement public d'une institution publique en faveur de la science ouverte. D'une part, les changements peuvent être accélérés par les politiques éditoriales des revues scientifiques. Ces dernières années, on peut constater des évolutions dans cette direction. À titre d'illustration, les revues scientifiques ont la possibilité d'adopter une charte de « promotion de la transparence et de l'ouverture » (« Transparency and Openness Promotion ») proposée par Nosek et al. (2015) . Cette charte est conç ue de manière à ce que les revues scientifiques puissent facilement intégrer des critères établis bien définis (e.g., transparence des données, du matériel, etc.) et ajuster leurs besoins en prenant pour repère différents niveaux d'exigence proposés pour chacun de ces critères (https://www.osf.io/9f6gx/). Tout laisse croire que les critères mis en avant dans les guides de soumission des revues ne sont pas sans effet (Giofrè, Cumming, Fresc, Boedker, & Tressoldi, 2017) . En outre, certaines revues proposent des badges pour récompenser les articles qui se conforment aux pratiques de recherche ouvertes, à savoir les articles qui proposent un accès ouvert aux données, au matériel ainsi qu'un pré-enregistrement. À l'heure où ces lignes sont écrites, on peut recenser 68 revues qui proposent des badges (https://www.cos.io/our-services/open-science-badges/). Il n'est pas possible de prendre encore suffisamment de recul à ce sujet, mais les premières données tendent à démontrer l'efficacité G Model No. of Pages 20 A. Lantian Psychologie française xxx (xxxx) xxx-xxx de ces badges (Kidwell et al., 2016) . Également, de plus en plus de revues proposent de publier des rapports pré-enregistrés (que ce soit dans le cadre d'une publication ordinaire, dans une section dédiée ou encore dans des numéros spéciaux). Au 20 juillet 2020, 256 revues en sciences comportementales accordent une place à ce format de publication (https://www.cos.io/our-services/registered-reports). D'autre part, le fonctionnement des revues scientifiques dépend des experts qui sont de précieux alliés dans l'évolution des pratiques de recherche. En signant le « Peer Reviewers' Openness Initiative » (https://www.opennessinitiative.org) les chercheurs s'engagent à refuser d'expertiser les manuscrits qui ne sont pas accompagnés de leur matière première publiquement accessible (e.g., donnés, matériel, etc.), ou a minima, qui ne justifient pas leur absence. Moins engageant, pour encourager la transparence au moment de la phase d'expertise, des listes de vérification à destination des experts (ou auteurs) recensant les points importants à vérifier ont vu le jour (Aczel et al., 2020 ; Parker et al., 2018) . Les financeurs doivent également suivre cette tendance afin d'encourager des évolutions en ce sens. En France, saluons le « Plan national pour la science ouverte » (2018) qui entre autres « rend obligatoire l'accès ouvert pour les publications et pour les données issues de recherches financées sur projets ». Des réformes de nature statistique peuvent s'ajouter aux réformes de nature méthodologique. Il faut également noter le récent effort de pédagogie et d'accessibilité fourni par certains chercheurs afin de faciliter la compréhension et la prise en main des statistiques Bayésiennes -dont la connaissance et l'usage était auparavant restreint à un cercle limité de chercheurs en psychologie -notamment via l'utilisation de JASP (https://www.jasp-stats.org ; Wagenmakers et al., 2018) . C'est un logiciel gratuit et facile à prendre en main dont la popularité n'a cessé de croître ces dernières années. Dans la mesure où ce logiciel rend possible la quantification du niveau de preuve en faveur de l'hypothèse nulle (Quintana & Williams, 2018 ; Wagenmakers et al., 2018) , cela pourrait encourager les chercheurs à publier une partie de leurs résultats qui auraient été jadis laissés dans leurs archives, sous réserve que l'étude en question atteigne un certain standard de qualité. Sans même aller jusqu'à la nécessité de se familiariser avec une autre philosophie (ou école de pensée) des statistiques, les tests d'équivalences (Lakens, 2017) permettent -tout en restant dans le cadre des statistiques fréquentistes -de tester si un effet obtenu est tellement petit que l'on puisse en conclure, par extrapolation, qu'il est équivalent à 0. Bien évidemment, l'usage d'une des techniques n'exclue pas l'autre, et il est judicieux d'en faire un usage complémentaire. Tout ceci a pour conséquence d'insuffler plus de crédibilité aux publications en psychologie. En dehors de ces mesures relativement concrètes, une évolution de la philosophie sous-jacente du système de production des connaissances scientifiques pourrait, par l'intermédiaire des attentes normatives qui en découlent, encourager une transformation encore plus profonde. D'une part, cela implique d'assumer les imperfections relatives aux données recueillies et de les rendre banales (Cooper, 2016 ; Lakens & Etz, 2017 ; Nosek et al., 2012) . La norme qui invite à raconter de belles histoires a pour défaut de passer sous silence les nuances et les contradictions afin de préserver coûte que coûte la dimension narrative (« Tell it Like it », 2020). D'autre part, si l'on y ajoute la pression à la publication et la valorisation de la nouveauté et du spectaculaire, cela installe les conditions idéales pour faire émerger des publications sensationnalistes de qualités douteuses (Higginson & Munafò, 2016 ; Kruglanski et al., 2017) , cherchant à faire émerger un effet suscitant l'émerveillement (e.g., « WOW effect », Jussim, Crawford, Anglin, Stevens, & Duarte, 2016) . Pour briser cette course à la publication, une solution pourrait être de ralentir délibérément le rythme des publications (voir les suggestions pour une transition vers un mouvement de Slow Science ; Frith, 2020). Cette proposition peut paraître provocatrice compte tenu des injonctions d'excellence scientifique dont un des marqueurs est la quantité d'articles publiés. Il est clair que mécaniquement, toute chose étant égale par ailleurs, il est inconciliable de maintenir le même rythme de publication tout en mettant en pratique l'ensemble des modalités des pratiques de recherche ouvertes. Ces der-G Model PSFR-469; No. of Pages 20 Psychologie française xxx (xxxx) xxx-xxx nières nécessitent en amont un temps de déploiement incompressible, ne serait-ce que pour s'assurer de vérifier et revérifier l'exactitude et le bon fonctionnement des contenus que l'on souhaite partager en libre accès. Il va sans dire que cette problématique concerne d'autant plus les jeunes chercheurs à la recherche d'un poste pour qui la pression à la publication est particulièrement forte compte tenu de l'importance accordée au nombre de publications dans les critères de recrutement. Ainsi, on comprend bien que si les financeurs ou les différentes commissions prenant des décisions relatives à la carrière scientifique ne mettent pas l'accent sur ces autres critères, non seulement l'adoption de ces pratiques de recherche ouvertes revient à s'infliger un sévère handicap, mais la généralisation de l'usage de ces pratiques de recherche ouvertes restera limitée. Un autre levier pour inciter à ralentir le rythme de publication serait d'augmenter le coût de soumission d'un article, de limiter le nombre d'articles que l'on peut soumettre sur une période donnée, voire plus radicalement de limiter le nombre de tentatives de soumission par manuscrit (Tiokhin et al., 2019) 8 . Enfin, cette fuite en avant n'encourage pas de prendre le temps de questionner les fondations de notre discipline, pouvant prendre par exemple la forme de projets de réplications. La place trop modeste occupée par les tentatives de réplication est un problème identifié depuis des décennies (Smith, 1970 ; Makel et al., 2012) . Néanmoins, une issue est en train de voir le jour. Ces dernières années, des études de très grande ampleur ont été conç ues dans l'idée de tester la réplicabilité des résultats en psychologie. Il faut remarquer l'initiative Open Science Collaboration (Open Science Collaboration, 2015) évoquée précédemment ainsi que les Replication Registered Reports (Simons, Holcombe, & Spellman, 2014 ) consistant à mobiliser de nombreux laboratoires qui, indépendamment et à partir d'un même protocole prédéterminé, vont conduire une réplication directe d'une étude spécifique (Alogna et al., 2014 ; Bouwmeester et al., 2017 ; O'Donnell et al., 2018 ; Wagenmakers et al., 2016) . Ajoutons à cette liste les projets baptisés « Many Lab », fonctionnant sur le même principe, à l'exception que ce n'est pas une mais plusieurs études qui vont faire l'objet d'une tentative de réplication dans plusieurs laboratoires. À ce jour, trois d'entre eux ont été publiés et totalisent plus de 24 000 participants (Ebersole et al., 2016 ; Klein et al., 2014 ; Klein, Vianello et al., 2018) . D'autres sont en préparation. Plus récemment, un article publié en 2018 présente les résultats d'une tentative de réplication de 21 expériences en sciences sociales publiées entre 2010 et 2015 au sein des deux revues à très haut facteur d'impact Nature et Science (Camerer et al., 2018) . Parfois, ces projets de réplications de grande ampleur délivrent une conclusion rassurante avec un taux de réplication relativement bon, comme on a pu le constater en psychologie cognitive (Zwaan, Pecher et al., 2018) de même qu'en psychologie de la personnalité (Soto, 2019) . Il faut faire le pari que ces efforts collectifs permettent de faire le tri parmi les résultats auxquels on peut accorder notre confiance ou non. Dans cette continuité, saluons le « Psychological Science Accelerator » (https://www.psysciacc.org/). Cette initiative décentralisée consiste à fédérer un ensemble de laboratoires réparti sur toute la planète. Sur la base de volontariat, ces laboratoires proposent de mettre à disposition des ressources -par exemple un effectif de participants -autour d'un projet de recherche ayant été préalablement soumis à une présélection. En somme, comme son nom l'indique, l'objectif est d'accélérer l'accumulation de résultats dont on cherche à examiner la fiabilité et la généralisabilité (Moshontz et al., 2018) . Cette initiative répond aux exigences de l'élévation des standards de l'activité de recherche en psychologie, qui pourront difficilement être atteints en l'absence d'une coordination collaborative à grande échelle (Uhlmann et al., 2019) . Enfin, un facteur à ne surtout pas négliger est la formation des prochaines générations de chercheurs : les chercheurs de demain sont en ce moment même assis sur les bancs des universités. On peut mentionner des initiatives, par exemple le « Collaborative Education and Research Project » (CREP ; Grahe et al., 2017) , qui permet aux étudiants de se former en s'impliquant dans des projets encadrés de réplication de très hauts niveaux (voir aussi Hawkins et al., 2018 ; Sarafoglou, Hoogeveen, Matzke, & Wagenmakers, 2020 pour des procédures comparables). Ces projets s'intègrent au sein des formations en méthodologie de la recherche et proposent de suivre une succession de procédures standardisées. Ce découpage en petites étapes permet non seulement de développer la rigueur et la maîtrise des pratiques de recherche ouvertes, mais représente également une très bonne manière d'apprendre par la pratique. Des comptes rendus de cours plus classiques délivrés à ce sujet à destination des étudiants en psychologie attestent de leur valeur pédagogique (Blincoe & Buchert, 2020 ; Chopik et al., 2018) . Pour finir, il ne faut pas oublier le rôle important des encadrants de thèse dans la sensibilisation et la formation des doctorants sur ces questions (Krishna & Peter, 2018) . Bien que ces pratiques de recherche ouvertes soient encore source de réticences (Frankenhuis & Nettle, 2018 ; Hardwicke et al., 2020 ; Houtkoop et al., 2018 ; Spellman et al., 2018 ; Washburn et al., 2018) , et nécessitent de passer par une phase d'apprentissage (Nosek et al., 2019 ; Veldkamp et al., 2018) , la nature des contre-arguments laisse suggérer que davantage d'informations et une meilleure communication vis-à-vis de ces sujets permettraient d'abaisser certaines de ces barrières (Houtkoop et al., 2018 ; Washburn et al., 2018) . Par exemple, une objection fréquente consiste à pointer la perte de créativité que provoquerait le pré-enregistrement (Frankenhuis & Nettle, 2018) , renvoyant à l'image de l'édification d'une prison, un plan rigide et contraignant qui ne permet pas de laisser une place aux découvertes fortuites pouvant naître d'une exploration moins guidée des données. Cette représentation est incorrecte, car le pré-enregistrement n'est pas incompatible avec une démarche exploratoire : cette pratique implique seulement de signaler de manière transparente la démarcation entre les résultats découlant d'une démarche confirmatoire d'une démarche exploratoire (Wagenmakers, Wetzels, Borsboom, van der Maas, & Kievit, 2012) . De plus, Frankenhuis et Nettle (2018) argumentent que le pré-enregistrement pousse au contraire à être plus créatif. En effet, le climat plus paisible et collaboratif de même que le temps de la réflexion et la nécessaire anticipation des éventuelles difficultés et imprévus sont un terrain favorable au développement de la créativité. En conclusion, il faut voir cet épisode de crise et de remise en question de la crédibilité des résultats scientifiques comme une excellente occasion de prendre du recul sur ses propres pratiques et penser à de nouvelles solutions pour améliorer les faiblesses bien identifiées. La documentation au sujet des procédures disponibles afin de rendre le plus transparent possible les différents ingrédients d'une recherche sous forme de produit fini ne manque pas (Klein, Hardwicke et al., 2018 ; Soderberg, 2018) . C'est l'occasion de voir se dérouler sous nos yeux le caractère autocorrectif propre à la démarche scientifique (Białek, 2018) , participant à la renaissance de la psychologie . L'auteur déclare ne pas avoir de liens d'intérêts. A consensus-based transparency checklist Questionable research practices among Italian research psychologists Open Science challenges, benefits and tips in early career and beyond Registered replication report: Schooler and Engstler-Schooler Ethical standards for the reporting and publishing of scientific information Recommendations for increasing replicability in psychology Is there a reproducibility crisis? A Nature survey lifts the lid on how researchers view the crisis rocking science and what they think will help Psychologie française xxx (xxxx) xxx-xxx The rules of the game called psychological science The (mis)reporting of statistical results in psychology journals Replication initiatives in psychology P-hacking in top-tier management journals Drug development: raise standards for preclinical cancer research Malscience et renaissance en psychologie sociale Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect Redefine statistical significance Is there a credibility crisis in strategic management research? Evidence on the reproducibility of study findings. Strategic Organization Inconsistencies between reported test statistics and p-values in two psychiatry journals Replications can cause distorted belief in scientific progress Fallibility in science: Responding to errors in the work of oneself and others Rein in the four horsemen of irreproducibility The psychology of experimental psychologists: Overcoming cognitive constraints to improve research: The 47th Sir Frederic Bartlett Lecture Research preregistration as a teaching and learning tool in undergraduate psychology courses Social, behavioral, and economic sciences perspectives on robust and reliable science Variability in the analysis of a single neuroimaging dataset by many teams Registered replication report The GRIM test: A simple technique detects numerous anomalies in the reporting of results in psychology Replicator degrees of freedom allow publication of misleading failures to replicate Post-Stapelian psychology Power failure: Why small sample size undermines the reliability of neuroscience Gray (literature) matters: Evidence of selective hypothesis reporting in social psychological research Evaluating replicability of laboratory experiments in economics Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015 Data withholding in academic genetics: Evidence from a national survey Early career researchers embrace data sharing Registered Reports: A new publishing initiative at Cortex Is economics research replicable? Sixty published papers from thirteen journals say "often not How (and whether) to teach undergraduates about the replication crisis in psychological science Preregistration: Comparing dream to reality Psychologie française xxx (xxxx) xxx-xxx The statistical power of abnormal-social psychological research: A review Statistical reporting inconsistencies in experimental philosophy On replication research Finding the missing science: The fate of studies submitted for review by a human subjects committee On the scientific superiority of conceptual replications for scientific progress Un chercheur sachant chercher : De l'importance scientifique des résultats « nuls » et négatifs en psychologie Perceived crisis and reforms: Issues, explanations, and remedies Behavioral priming: It's all in the mind, but whose mind? Replication, falsification, and the crisis of confidence in social psychology Psychometrics anonymous: Does a transparent data sharing policy affect data collection? Many Labs 3: Evaluating participant pool quality across the academic semester via replication Romantic red: Red enhances men's attraction to women Red, rank, and romance in women viewing men How many scientists fabricate and falsify research? A systematic review and meta-analysis of survey data Positive" results increase down the hierarchy of the sciences Negative results are disappearing from most disciplines and countries Feuille de route du CNRS pour la science ouverte Reproducibility of scientific results Questionable research practices revisited Best research practices in psychology: Illustrating epistemological and pragmatic considerations with the case of relationship science Detecting and avoiding likely false-positive findings-a practical guide Publication bias and the failure of replication in experimental psychology Publication bias in the social sciences: Unlocking the file drawer Open science is liberating and can foster creativity Questionable research practices in ecology and evolution The economics of reproducibility in preclinical research p-Hacking and publication bias interact to distort meta-analytic effect size estimates. Psychological Methods. Advance online publication Fast lane to slow science Incongruence between test statistics and P values in medical papers Authors' reports about research integrity problems in clinical trials Beyond power calculations: Assessing type S (sign) and type M (magnitude) errors The statistical crisis in science Rewarding research transparency Psychologie française xxx (xxxx) xxx-xxx Comment on "Estimating the reproducibility of psychological science Science or art? How aesthetic standards grease the way through the publication bottleneck but undermine science The influence of journal submission guidelines on authors' reporting of statistics and use of open research practices Why researchers should share their analytic code Another step towards scientific transparency: Requiring research materials for publication Collaborative replications and education project (CREP) Consequences of prejudice against the null hypothesis Populating the Data Ark: An attempt to retrieve, preserve, and liberate data from the most highly-cited psychology and psychiatry articles Estimating the prevalence of transparency and reproducibility-related research practices in psychology Two failures to replicate high-performance-goal priming effects Improving the replicability of psychological science through pedagogy The extent and consequences of p-hacking in science Recovering data from summary statistics: Sample Parameter Reconstruction via Iterative TEchniques (SPRITE) Current incentives for scientists lead to underpowered studies with erroneous conclusions Data sharing in psychology: A survey on barriers and preconditions Why most published research findings are false Dark pathways to achievement in science: Researchers' achievement goals predict engagement in questionable research practices Measuring the prevalence of questionable research practices with incentives for truth telling Interpretations and methods: Towards a more effectively self-correcting social psychology Plan to replicate 50 high-impact cancer papers shrinks to just 18 Likelihood of null effects of large NHLBI clinical trials has increased over time Clarifying the terminology that describes scientific reproducibility HARKing: Hypothesizing after the results are known Badges to acknowledge open practices: A simple, low-cost, effective method for increasing transparency A practical guide for transparency in psychological science Investigating variation in replicability: A "Many Labs" replication project Many Labs 2: Investigating variation in replicability across samples and settings Questionable research practices in student final theses-Prevalence, attitudes, and the role of the supervisor's perceived attitudes Social psychology circa 2016: A field on steroids The Bayesian New Statistics: Hypothesis testing, estimation, metaanalysis, and power analysis from a Bayesian perspective Equivalence tests: a practical primer for t tests, correlations, and meta-analyses Psychologie française xxx (xxxx) xxx-xxx The value of preregistration for psychological science: A conceptual analysis Justify your alpha Too true to be bad: When sets of studies with significant and nonsignificant findings are probably true Falsifiability is not optional The preregistration revolution needs to distinguish between predictions and analyses Is red really romantic? Meta-analysis of the effect of red on perceived attractiveness. Evolutionary Psychology Flawed science: The fraudulent research practices of social psychologist Diederik Stapel Academic economists behaving badly? A survey on three areas of unethical behavior What is a replication? Questionable and open research practices in education research Replications in psychology research: How often do they really occur? Scientists behaving badly The persistence of underpowered studies in psychological research: Causes, consequences, and remedies Is psychology suffering from a replication crisis? What does "failure to replicate" really mean? Practical tips for ethical data sharing Data torturing Psychologists' psychologies of psychologists in a time of crisis The Peer Reviewers' Openness Initiative: Incentivizing open research practices through peer review The Psychological Science Accelerator: Advancing psychology through a distributed collaborative network The state of social and personality science: Rotten to the core, not so bad, getting better, or getting worse? Statistical errors in immunologic research Psychology's renaissance Promoting an open research culture Preregistration is hard, and worthwhile The preregistration revolution What is replication? Scientific utopia: II. Restructuring incentives and practices to promote truth over publishability The prevalence of statistical reporting errors in psychology The validity of the tool "statcheck" in discovering statistical reporting inconsistencies The chrysalis effect: How ugly initial results metamorphosize into beautiful articles Psychologie française xxx (xxxx) xxx-xxx Registered replication report: Dijksterhuis and van Knippenberg Analysis of open data and computational reproducibility in registered reports in psychology Estimating the reproducibility of psychological science Empowering peer reviewers with a checklist to improve transparency Editors' introduction to the special section on replicability in psychological science: A crisis of confidence? Revisiting the red effect on attractiveness and sexual receptivity: No effect of the color red on human mate preferences Reproducibility vs. replicability: A brief history of a confused terminology Replication in criminology and the social sciences Bayesian alternatives for common null-hypothesis significance tests in psychiatry: a non-technical guide using JASP. BMC psychiatry Questionable research practices among Brazilian psychological researchers: Results from a replication study and an international comparison Data sharing in medical research: An empirical investigation One hundred years of social psychology quantitatively described The file drawer problem and tolerance for null results Minimizing mistakes in psychological science The costs of harking. The British Journal for the Philosophy of Science, axz050 Teaching good research practices: Protocol of a research master course Research in social psychology changed between 2011 and 2016: Larger sample sizes, more self-report measures, and more online studies The meaningfulness of effect sizes in psychological research: Differences between subdisciplines and the impact of potential biases An excess of positive results: Comparing the standard psychology literature with registered reports Many analysts, one data set: Making transparent how variations in analytic choices affect results False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant The value of direct replication An introduction to registered replication reports at perspectives on psychological science Small telescopes: Detectability and the evaluation of replication results Replication studies: A neglected aspect of psychological research Using OSF to share data: A step-by-step guide How replicable are links between personality traits and consequential life outcomes? The Life Outcomes of Personality Replication Project A short (personal) future history of revolution 2.0 Open science: What, why, and how Expectations for replications: Are yours realistic? Psychologie française xxx (xxxx) xxx-xxx What meta-analyses reveal about the replicability of psychological research Scientific misconduct in psychology: A systematic review of prevalence estimates and new empirical data Ethical problems in academic research Replicability crisis in social psychology: Looking at the past to find new pathways for the future Is preregistration worthwhile Honest signaling in academic publishing Manipulating the alpha level cannot cure significance testing Scientific Utopia III: Crowdsourcing science Pre-registration in social psychology-A discussion and suggested template Implications of the credibility revolution for productivity, creativity, and progress Ensuring the quality and specificity of preregistrations Registered replication report: Strack, Martin, & Stepper Bayesian inference for psychology. Part II: Example applications with JASP Why psychologists must change the way they analyze their data: the case of psi: Comment on Bem An agenda for purely confirmatory research A demonstration of the collaborative replication and education project: Replication attempts of the red-romance effect First analysis of pre-registered studies shows sharp rise in null findings Why do some psychology researchers resist adopting proposed reforms to research practices? A description of researchers' rationales Moving to a world beyond Willingness to share research data is related to the strength of the evidence and the quality of reporting of statistical results The poor availability of psychological research data for reanalysis No replication, no trust? How low replicability influences trust in psychology Registered reports: an early example and analysis How to crack pre-registration: Toward transparent and open science Making replication mainstream Participant nonnaiveté and the reproducibility of cognitive psychology