如何评价菲利普·津巴多主导的「斯坦福监狱实验」被质疑造假？

Question

如何评价菲利普·津巴多主导的「斯坦福监狱实验」被质疑造假？

更多 SPE 与心理学实验相关讨论，欢迎关注专题页：别泄气，心理学正在变得更好相关链接： The Lifespan of a Lie 相关问题： …

关注者

4,435

被浏览

1,665,414

133 个回答

Accepted Answer

漆松

加州理工学院认知神经科学博士

我是一个半路转进认知神经科学，而且把这一行当数据科学做的人。其实跟社会心理学接触不多，也没什么见识来回答这个问题。个人意见不吐不快，仅供参考。

不专门说Zimbardo了，因为类似的爆发近年来并不少. 我从good faith的角度相信大家都是值得尊敬的研究者，所以对事不对人，主要说问题。

古老一点的，Stanley Milgram (服从)和Walter Mischel (延迟满足) 的东西; 新一点的，Power stance (做强势动作让你更自信)，"高处更有道德感"之类的embodied cognition，或多或少可能都有下面列到的问题。一层一层说。

图片都来自Chris Chambers的<The 7 deadly sins of psychology>.

第一层: 不要造假

此图中的Diederik Stapel就落在这一层。此人曾经是社会心理学界叱咤风云的大佬。特别喜欢搞一些embodied cognition风格的东西。很有名的一个例子是，他"发现"，当地铁站中的垃圾桶更干净时，周围的人会有更强烈的种族歧视倾向(表现为，在地铁的长椅上会坐得离黑人实验者更远)。

后来东窗事发，调查委员会找原始数据，发现他描述的地铁站，垃圾桶与长椅根本不存在。实验根本没有做过。他后来自己承认，所有的"数据"都是自己坐在办公椅上，在Excel里面生成的。

这是很脏的一层了。讽刺的是，此君之后大量接受采访，出书写自己造假的事，居然还过得不错......

第二层 : 可重复性

必须提到2015年Science上那篇Estimating the reproducibility of psychological science [1]. 这篇文章本身争议很大，以至于后来有人说它本身的统计方法都有问题。但它反应出来的问题是不可忽视的。

难以重复的实验中，社会心理学是重灾区。

我想说的是，社会行为很复杂。很难研究。所以给它设定的bar暂时可以低一些。如果要求这个领域像learning, memory甚至vision那样robust, 从研究对象的性质来看是不公平的。但很多时候问题在于，大家在讨论某一个课题的时候，是在自说自话：同一个社会现象，定义不清楚，实验的范式也不尽相同。这样发生replication crisis是迟早的事情。

数据可以重复才是好的科学。

第三层 "隐藏的灵活性"

"给数据施以酷刑 - 它们可以招供出任何（你想要的）东西。"

去年有人到这边讲一个Mturk上的研究，讲到一半，故事说得很开心，Antonio Rangel突然问: "Why are your sample sizes so different in the two groups?"

不要有目的地地筛选数据。不要采数据采到自己满意为止。

更加微妙的是，不要选择性地采取"对假设方向有利"的数据处理方法，搞data fishing. 这是真正考验科研人员品格的一层。

最后: (可能的)救赎

更加严格的实验，数据审查。
更良好的科研社区风气。
Data sharing. 特别是原始数据(打个广告，希望大家支持 OpenfMRI ) 。
Pre-registar. 在做实验之前，注册自己想要进行的数据分析手段。 Nature human behavior就在搞。

都是陈词滥调了，希望有朝一日能够变成行业准则。

最后: 即使如此，某些公众号文章的吃相未免太过难看。 请不要拿一些显然错误的概念来蹭热度。

References

[1] Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science , 349 (6251), aac4716.

编辑于 2018-06-16 07:38

窦泽南

心理学话题下的优秀答主

谢邀 @刘柯

其实这个事情已经有一个多礼拜了，起因是 Medium 的一篇新闻特稿，The Lifespan of a Lie。

直指津巴多的斯坦福监狱实验（SPE），提出了许多质疑。这件事在社交网络上不断发酵，终于在昨晚赶在西班牙和葡萄牙开赛之前刷了一波屏。

发生了什么？

其中比较有分量的质疑包括：

参与者 8412 接受了采访。如果你了解过这个研究的始末，8412 是 SPE 中最著名的一位参与者，也就是 36 小时精神崩溃的那个。这位被试在采访中说，自己其实并没有像津巴多在后来讲的那样彻底崩溃，他在实验中的行为，都是伪装的。

伪装的原因在于，他本来以为监狱里很轻松，正好可以进去待两周好好学习复习考试，结果住进去之后发现不是这样的，所以只能采取伪装的方式退出实验。

第二点质疑是研究人员对扮演「狱卒」的参与者进行了诱导，包括训练他们如何使用严苛的手段对待犯人。如果这一点属实的话，那「所有参与者的行为都是在情境的诱发下自然产生的」，这样的结论自然是不成立的。

这些质疑可靠么？

8412 的陈述因为涉及到参与者本人的动机和心理活动，是无法求证的，但是从陈述的合理程度来看，存在这样的可能性。

而且这个质疑引发的另一个问题，就是老生常谈的「实验伦理」问题。如果一个参与者在不装病的情况下无法正常退出实验，那显然是有问题的。

但是这个实验在这点上本来就是有很大问题的，所有人都知道。

Medium 的文章里记录了津巴多本人的解释，知情同意中约定的终止信号是「我退出实验」，而不是「我要出狱」之类的，但是在整个实验过程中从来没有人说过「退出实验」这句话。

当然伦理的问题我们可以放到后面再来讨论。

关于研究人员诱导狱卒这个事情，质疑者也给出了很多原始资料，包括录音，感兴趣的还是去看原文吧，我倾向于认为这这个质疑是成立的。

那这代表了什么？

这件事最大的影响是，颠覆了几十年来的 「Zimbardo's Narrative」 ，这么多年以来，我们关于这个研究的所有认知，第一手材料，都是来自津巴多本人的叙述。

这是第一次，在公众的注视下，有人从其他的角度来讲述这个故事。

什么是「Zimbardo's Narrative」？

以他本人参与主编的「Psychology and Life (17th edition)」为例，在「Social Processes, Society and Culture」这一章，开篇就引用了监狱实验的例子。

先简单介绍了实验的过程，戏剧性、超出预期的发展，以及被迫中止。然后这个实验告诉我们，一个设置好的监狱环境，可以创造出一种「Social Reality」。尽管没有见过真实的监狱，但所有的参与者都通过监狱环境的互动，完全进入了自己被分配的角色。这就是情境的力量。

这是津巴多的叙事传统，回避了方法学与伦理的讨论，重点放在了理论的阐释上。当然这也和教学设置有关，在导论课程中的重点是理论介绍，如果是社会心理学或实验心理学课程，重点肯定是放在方法学和伦理的部分。

但毕竟，绝大多数人只上过《心理学导论》一门课程。再加上这一部分恰巧也是最能让媒体感兴趣的。所以公众在讨论这个事情时，所有的叙事都集中在「心理学家做了一个很牛逼的实验，得到了一个发人深思的结论」。

但故事的另一个版本始终都在 ，这个研究从引发关注后，在整个 70-80 年代就从来没有停止过被质疑。比如 Banuazizi & Movahedi 1975年发表的一个评论，已经在质疑津巴多的实验设置具有严重诱导性的问题：

Finally, a major implication of our analysis is that when experimental subjects are asked to play highly stereotyped and emotion-laden roles, they bring to the experimental situation "mental sets," or dispositions, which could decisively influence their behavior.
If valid, this proposition would seriously challenge the use of role playing as a strategy for testing dispositional versus situational hypotheses-the primary goal of the study by Zimbardo and his associates.

但这些质疑从来没有引起过媒体的关注。不过话说正常的学术讨论很少有能够引起媒体关注的吧。

另一个故事讲的太好，把其他的声音都遮盖掉了。

所以，监狱实验是「一场骗局」么？

但这并不能说明监狱实验就是一场「骗局」。请注意，「骗局」这个词意味着审判，意味着盖棺定论。你在谷歌上搜索「骗局」，搜索到的是传销、假药和电信诈骗，是犯罪。

在学术领域，「骗局」是对一个学者最严重的攻击和指责， 如果坐实欺骗，足以让一个人彻底的身败名裂。

但现在事情还远没有到达这种程度。就像前面说的，我们只是得到了另一个版本的故事而已。 只不过这个故事我们从没有听过，才会产生「颠覆」的兴奋感。

同样的一件事情，每一个经历的人事后讲出的故事都是不同的，甚至同一个人多次讲述之后，也会变得和之前不一样。

这种不同可能和叙事者所处的环境、位置有关， 我们可以怀疑存在刻意的隐瞒和选择性的忽视，但也有可能只是叙事者的自我麻痹和无意的遗忘 。甚至有可能每一个人讲的都是他们看到的事实，但彼此之间存在冲突矛盾。

而现在的事实尚不足以做出「这是骗局」的审判。而且，看到其他答案中有人提到，这几个被质疑的点，津巴多本人在《路西法效应》一书中都提到了，可能没有重点展开，所以大家的印象不深。如果这样的话，也不存在刻意隐瞒的问题。

科学的胜利还是媒体的狂欢？

但我想说说我自己的看法，监狱实验的真相究竟如何，我并不关心。

任何一个经历过基本科学训练的人都能一眼看出这个研究的设计中存在着太多的问题，这些问题完全可以拿出来在高年级的本科课程中进行公开的讨论。

甚至我听过的最刻薄的一句话是， 它压根就不是一个心理学实验，连最基本的研究假设都没有 。如果我没记错的话，这应该是我上过的某堂社会心理学或者实验心理学课上讨论到的。

但在进行这些讨论的同时，我们需要考虑的是时代背景，监狱实验本身就代表了社会心理学「黄金年代」的绝唱。 「黄金年代」并非全都是好的，因为繁荣的盛世背后往往隐藏着最大的危机。

我很喜欢 @漆松在之前私下讨论中提到的一个词， 「蛮荒时代」 。

那个年代的社会心理学研究，很多都是没有明确的理论假设，没有严格的控制变量设计，基本上无法重复，评价学术研究的标准要靠媒体的铺天盖地报导。放在今天，当然是不折不扣的「Bad Science」。

但这是学科发展必经的阶段，没有发生过这样的事，又怎么能够让人注意到伦理规范和研究设计的重要性？一步步演变到今天更加严格的效应值，可重复性和开放科学的讨论， 我看到的是，科学的规范一直在进步 。

拿着今天的研究设计标准和伦理标准去评价昨天发生的事。给我的感觉就和前两天看到那个说「爱因斯坦是种族主义者」的帖子差不多。这有啥用？

我们已经吸取了经验教训，这就足够了。

如果好好梳理一下，这件事带给哪些人带来了重要的启示？

我觉得最应该好好反思的是科学传播者。你可能想像不到，这个「20世纪最伟大的心理学实验」（我在不止一个地方看到过这种说法），最原始的研究报告不是发表在 Science 或者 Nature 上，而是一本纽约时报旗下的科普杂志上。

帮助把这个故事讲得天花乱坠的是媒体，现在有了新的故事，又把它一脚踢开，想让它永世不得翻身的还是媒体。

所以在昨天 C 罗上场前，我发了一条微博：

一个被媒体树立起来的科学形象，最后被舆论所反噬，从任何角度上来讲，都很难说这是科学的胜利。

你甚至可以从中抽取出这样一个主题：一个在传统媒介（报纸、杂志、电视台、电影）被捧红，反复传颂的大明星，因为并不掌握新兴媒体的话语权，而被新兴的势力所唾弃和抛弃。（当然这只是个玩笑，津巴多老师肯定是会用新媒体的，他还开知乎了呢！）

专业的事情还是要通过专业的方式去评判。

开放科学能解决所有的问题么？

最近几年，被新兴的元科学/批判科学/开放科学冲击最大的，就要数社会心理学领域了。这其实并不是什么耻辱， 因为人是最复杂的，研究一个复杂的东西，那一定需要使用更加苛刻的方法 。

所以对于心理学的开放科学潮流，包括P值、效应值的讨论，公开研究数据，实验设计的预注册，可重复性检验，更广泛的合作网络，我都是举双手赞成的。

游戏规则升级了，这当然是天大的好事。

但开放科学能够保证完全避免这样的问题再次发生么？我仍然持保留的态度。

一个科学研究，一旦进入大众叙事， 吃瓜群众更关心的 ， 仍然是故事好不好听 ，就像这次的讨论，每一个转发的人都去详细了解过这个研究的前因后果和所有的讨论么？大家只不过又听了一个英雄坠落的故事，得到了一个错误的结论： 心理学完了 。

即使数据完全是公开的，仍然不能避免有人在编故事，只不过这种行为更加隐秘了。

大概一年前，我在Twitter上关注到一个年轻有为的学者，Emil O W Kirkegaard，他在开放科学领域表现的非常活跃，在社交网络上获得了很多关注。他是开放期刊 Open Psych 的创始人，在开放科学实验室 osf 的官网上，你可以检索到很多来自这个开放期刊的文章。

他非常高产，频繁的发文章，当然都是预印本或者自己的开放期刊。一开始关注他只是单纯的觉得，哇，这个人好像很厉害。但时间长了，我渐渐发现，他发的很多文章也是在反复在讲述同一个故事：

通过复杂的统计模型来验证不同种族的智力确实存在着先天的差异。我无法判断这是纯粹的研究偏好还是夹杂了个人的政治观点。但我担心有人用同样的方法讲故事。

因为其中一些统计模型已经复杂到，虽然我学了 7 年统计，但还是很难找到什么漏洞的地步。

我举这个例子不是为了评价这个人的学术水平，这可能需要更专业的人去评判。我只是想说， 讲故事的难度更高了，但这并不意味着以后就会万无一失。

你们仍将看到有很多心理学研究被质疑或者结论被推翻。

但这能代表「心理学不行」么？

起码过去的几十年里，心理学是科学规范建立的最快，而且往往能够引发整个科学体系变革的学科。

从这个角度上讲，心理学不需要任何人拯救。 心理学很行，只需要人们更多一点耐心。

编辑于 2018-06-16 19:11