社会科学正面临极其复杂的复制危机

加州理工学院(California Institute of Technology)的行为经济学家柯林•卡默勒(Colin Camerer)最近带领一个研究团队，试图从科学和自然领域重复21项社会科学研究，并成功复制了其中的13项。昨天发表在《自然》杂志上的研究结果也暗示了我们对积极结果的关注是如何使文学产生偏见的。它们还描绘了一幅复杂的社会科学复制危机的图景，并说明复制项目是多么复杂。

科学记录的可靠性如何？

心理学的可靠性危机爆发于2011年，伴随着一连串的冲击：发表了一篇旨在展示前认知的论文；欺诈丑闻；以及对p-hacking（P值篡改）的认识。在p-hacking，研究人员在选择分析数据以使几乎任何结果看起来真实的过程中，都有太多的自由。科学家们开始怀疑这份发表的记录中是否充斥着不可靠的发现。

这场危机不仅仅局限于心理学，许多问题困扰着从经济学到生物医学研究的各个领域。但心理学在对话中一直是一个持续的、尤其响亮的声音，开放科学中心(Center for Open Science)等项目旨在了解问题的范围并试图解决它。

2015年，该中心发布了第一批大型心理复制项目的成果。在100次复制尝试中，只有大约三分之一成功。当时，复制因子对他们的结论持谨慎态度，指出失败的复制可能意味着最初的结果是不可靠的假阳性——但也可能意味着实验中没有注意到差异，或者失败的复制是假阴性。

事实上，倾向于发布正面结果的偏见使得假阴性在复制中成为一个显著的风险。

,社会科学有一个极其复杂的复制危机

假否定的危险

实验工作的一个挑战是决定需要多少研究对象才能得到可靠的结果。当涉及到样本量时，没有一个万能的答案：适合研究的人数(或者老鼠，或者国家)取决于你问的问题。如果你能预料到群体之间的巨大差异——例如，如果你打算弄清楚平均来说，男人是否比女人高——你就不需要那么多人。但如果你认为差异很小，你需要更大的样本容量。

这种被称为效应大小的预期差异，帮助研究人员计算出他们需要多少研究对象。正确处理很重要，因为如果你没有足够的实验对象来达到效果的大小，你很可能会错过一个真实的结果——它和统计噪声是无法区分的。

研究人员通常会查看以前的研究来估计影响的大小。在复制的情况下，使用从原始纸张派生的效果大小似乎是明智的。

问题是，我们有理由认为这些效应值可能不是非常准确。实验经常在同一时间问多个问题——如果你问的问题足够多，随机的机会会让你觉得其中一些问题的答案是肯定的。科学家通常只会回答“是”，因为只有那些答案看起来有趣。但如果每个人都这么做，久而久之，文学作品就会变得有失偏颇：大量“是”效应得到了发布，但它们可能既反映了运气，也反映了实际情况。

这意味着一个复制可能实际上是在寻找一个比原始研究中更小的效应大小。因此，进行复制的研究人员可能需要使用更多的人来确保他们有足够的机会发现效果。这可能是复制率如此之低的原因之一。

复制一项研究听起来很简单，但事实并非如此

卡默勒和他的同事想测试发表在《自然与科学》杂志上的社会研究结果的可靠性。他们寻找2010年至2015年间发表的研究成果，这些研究成果很容易被复制:那些使用容易获得的研究对象(比如本科生)，并测试了一个清晰的实验假设。他们找到了符合他们标准的21篇论文。

但是卡默勒和他的同事们并不想只看每个研究本身;他们想知道他们是否能就这种工作的可靠性发表一些一般性的看法。他们想在科学上做科学，或者是元科学。这意味着它们需要在每次复制时保持一致。在各种各样的研究中，这是很困难的，这意味着要做一些笼统的决定，这样每一篇论文都能得到类似的处理。

研究小组决定只关注每篇论文中的第一个实验，并尝试复制这个实验。一个实验可以产生多个结果，所以如果复制表明有些是相同的，有些是不同的，你如何决定它是否成功?研究人员决定只关注最初研究认为最重要的结果，并将其与复制结果进行比较。

他们让原始作者参与到他们的工作中来，这样他们就能确保复制尽可能接近原始研究，并且每个人都同意他们将如何分析数据。他们还确保有足够大的样本量来发现比原始论文中报道的小得多的效应，从而降低了他们得到假阴性结果的可能性。

,社会科学有一个极其复杂的复制危机

科学家们怀疑

在21篇论文中，有13篇被复制，8篇没有。但是“即使在成功的复制中，”Camerer和他的合作者写道，“估计的效果大小也比最初的研究要小。这进一步证明了文献中的效应大小可能被高估了，也意味着其他复制尝试有时可能会失败，因为它们没有足够大的样本大小。

62%的复制率看起来比对100篇论文进行的大规模研究好得多，研究发现只有36%的原始研究进行了复制。这项新发现与实验经济学复制项目(Experimental Economics Replication Project)大致相似，该项目发现，18项研究中有11项进行了复制，即61%。其他的复制项目在社会科学中发现了30%到77%的比率。

尽管这些研究有很大的不同，但其结果已经开始进入一个特定的窗口。Camerer和他的同事建议我们可以开始对可复制性的上限和下限有一个“描述性和推测性的解释”:在35%到75%之间。

这会对球场造成冲击吗?作为该项目的一部分，研究人员发送了电子邮件和推特，邀请其他科学家查看复制计划，并预测他们认为哪些结果可以消除这一障碍。他们的回答惊人地准确:不仅平均预测的结果与实际复制率相差不到几个百分点，而且他们还善于猜测哪些研究会复制，哪些不会。

科学家们对这一领域更广泛的知识，比如正在进行的讨论和随后的工作，可能有助于他们的预测。这并不意味着每个科学家都能读懂一篇论文并准确预测它是否会被复制，但在该领域研究人员的平均直觉中，有明显有用的信息。

找出造成这些预感的原因可能对找出为什么有些研究是复制的而有些研究不是这样有很大帮助。当这些科学家做出预测时，他们了解到研究的哪些特征?

故事还有很多

许多原始研究的作者都写过关于这个项目及其结果的评论。一些研究人员优雅地接受了这个结果:“我们对这个发现不再有信心了，”Will M. Gervais和Ara Norenzayan写道。他们写道，其他实验也发现了类似的结果，但“此类实验的复制记录充其量是不可靠的，应该被视为临时的，直到采取更严格的复制工作。”

其他研究人员把这个项目当作复制他们自己研究成果的发射台。“很自然，我们对我们的研究没有重复感到失望。然而，这是科学的一部分，也是它如何前进的一部分，”Anuj Shah, Sendhil Mullainathan和Eldar Shafir说。他们的论文探讨了为什么经历贫困的人会做出某些决定，比如过度借贷。他们论文中的第一个实验没有进行复制，无论是在主要项目中还是在他们自己的独立复制中。但是他们成功地在最初的论文中复制了另外三个实验。“我们邀请其他研究团队独立地复制这些研究，”他们写道。

David Kidd和Emanuele Castano的研究报告指出，人们在阅读了高质量的小说后，可以更好地理解其他人的观点，他们也强调了在每篇论文中只复制第一篇研究的局限性。通常情况下，实验会建立在另一个基础上，以获得更全面的图像，而论文会对这张图像进行整体报道。他们写道，他们的五项实验中的最后一项是最重要的，也是设计最好的——他们和其他研究人员对这个结果进行了复制。

一些研究人员反对可能导致结果差异的方法上的微小差异。贝特西·斯派洛(Betsy Sparrow)和她的同事探讨了互联网信息的可获取性是否导致人们改变了记忆方式。她指出，在复制过程中进行的研究与最初的研究并不相同。然而，这是在没有收到斯派洛或她的同事的回复后，卡默勒和他的团队在没有原作者合作的情况下进行的唯一一项研究。

即使是那些结果被复制的研究人员也有批评，他们指出了可以解释效应大小差异的微小差异。凯瑟琳·邓肯(Katherine Duncan)和里拉·达瓦奇(Lila Davachi)对记忆复制进行了研究。他们认为，数据表明，许多参与复制的参与者相当心不在焉，他们会随机猜测自己的一些答案。“我们强烈建议在解释效果大小和计划复制时考虑数据质量，”他们写道。

,社会科学有一个极其复杂的复制危机

没有简单的课程，只有更多的家庭作业

所有这些论证都强调了元科学和其他科学学科很相似:真的，真的很难。和其他领域一样，它要求研究人员利用他们的经验做出一个又一个选择，而这些选择中没有一个看起来比其他的更好或更差。尽管没有明显的正确或错误的答案，但很明显，其他的选择可能会产生不同的结果。

与其他学科一样，元科学也存在资源限制。在一个完美的世界里，在每一篇原始论文中复制每一项实验都是很好的。但仅仅是在每一项研究中复制第一项研究，就需要数十名科学家进行大量精心协调的工作。大群参与者也不为自己付钱。

具有讽刺意味的是，本文的小样本量也限制了其结论。只有21个文件;你不能将其推广到所有的科学，所有的社会科学，甚至所有在权威期刊上发表的社会科学。筛选过程也限制了广泛的结论:这些论文仅从两份期刊中精心挑选，因此它们可能不代表整个文献。

出于同样的原因，这也没有告诉我们关于高知名度、高声望期刊的可靠性。

更一般地说，低于完美复制率并不意味着我们不能相信社会科学的任何结果，也不意味着科学不可挽回地遭到破坏。即使是这项研究中未被复制的论文也可能是错误的——有很好的理由可以解释为什么一个真实的结果可能无法复制，而研究人员刚刚开始解决样本大小的问题。

尽管如此，仍有一些系统性问题会导致无法复制的结果被公布出来，而且这些问题很大，很现实，也很棘手。不愿公开资料和数据的研究人员是问题的一部分。另一个原因是缺乏统计方面的培训。而那些只发表最性感、最浮华的发现的期刊，却对明智的渐进式工作嗤之以鼻，这有助于扭曲科学记录。

不过，我们有理由感到乐观:越来越多的研究人员正在采用旨在降低不可靠结果风险的方法。

很长一段时间以来，让复制版本发布一直是一件很困难的事情。期刊是无私的。研究人员一直不相信其重要性。如果没有看到有多少不可靠的工作，那么重复做同样的事情以确保它的准确性似乎就不那么明显了。与其他复制项目一样，这项研究证明了复制的重要性，并为复制本身被认为更重要、更令人兴奋铺平了道路。

最重要的是，这些结果都强调了关于每一篇论文最重要的一点：它只是一项研究。它是图像中的一个像素，一个点一个点地构建，它是一个像素，可以重新着色或裁剪。在这种情况下，这21篇论文在发表时都不应该被当作福音，每一篇失败的论文都比一句简单的“这不是真的”更有说服力。62%的复制率也不是最后一个字；未来的复制研究将着眼于不同的结果。这些论文中的每一篇都将继续作为这一特定主题中正在进行的工作的一部分进行研究，而研究将需要继续研究科学中的问题，为科学记录的可复制性和可靠性提供更清晰的图景。

杰我睿被曝经营异常深圳通报

网友：没想到回收黄金会这样，他之前在某书很红，还以为是名气很大。

网友：不管她有没有精神病，首先她是个人，强奸任何人都是犯罪，女性安全需要得到重视。

女子转账近25万做医美几近失明

网友：这种敢让一个无正规资质的江湖骗子在自己身上动刀的人难以理解。

成都机器人碰到老人双双倒地不起

网友：又到了道德感和笑点打架的时间。