原标题:Many (many!) charities are too small to measure their own impact

作者:Caroline Fiennes

 

编译/Lynn

*内容仅代表原作者观点

 

公益组织自身的影响力究竟如何?这个问题的答案通常是需要靠评估实现的。但是,大多数公益组织其实并不具备评估自己的能力。资助方应该停止要求他们自己评估自己,因为要求某人给自己的作业打分从来都不是一个好主意。

 

下面的内容解释了大多数公益组织无法有效评估自身影响力的四个理由:

 

错误的动机

 

我们很多时候自我评估的动机就是为了让自己看起来尽可能优秀——因为更好的影响力评估结果可以被用来竞争更多的资助机会——当我们的动机是生产让人满意的成绩单,这就很可能意味着主观意愿会或多或少地操纵这项研究,美化结论,或者掩盖所有那些对组织不利的发现。别不承认,我敢说我们中的绝大部分人都做过类似的事情,就算不是在公益组织也会在其他地方,想想你的年终总结吧。

 

曾经有一项非常严格的实验研究证实了这种“听好话”的倾向(是的,一个研究公益组织行为的严谨研究)。它向1400多家小额信贷机构发出邀请,表示可以向它们提供对其干预措施进行评估的机会。其中一些邀请信里包括了某个著名作者认为小额信贷有效的研究内容(也就是暗示公益组织他们很可能得到一样的正面评估结果),另一些邀请信里则包含由同一位作者使用非常相似的设计得出的小额信贷无效的研究内容(也就是暗示他们很可能得到不利的评估结果)。第三组邀请信不包括附加的研究结果信息。结果你猜怎么着?那些被暗示评估可以给出正面结论的公益组织,比那些被暗示评估结果可能不会很好看的组织,回应和同意接受评估的可能性高出了整整一倍。这显然说明了一个问题,那就是在影响力评估中,对好结果的激励会产生很大的选择偏差。人们只有非常肯定自己工作有效的时候才愿意去给自己贴个小红花,如果担心自己的干预无效,就更可能装什么都不知道。

 

 

缺乏评估影响的必要技能

 

大多数业务性的公益组织在支持家庭暴力受害者、提供急救培训或在贫民窟分发现金等方面都是行家,不过这些实务中用到的技能和做因果研究都完全是两码事,我们也不太可能去期待一个人能够同时精通业务和专业评估。有一些大型的公益组织,或者是专门以那种适合做影响力评估的方式做干预的组织,可能会因为这些特殊优势而具备做影响评估的技能,但他们相比整个公益行业来说是少数,大多数小型公益组织没法效仿,要求他们能自己准确评估自己过于苛刻。

 

缺乏资金来进行恰当的评估研究

 

说其他的还都不一定是最深层的原因,评估这个事情往根本上说,还是因为没钱。评估是个好东西,但是,一个好的实验性评估通常要涉及到收集对照组数据,就像前面提到的那个实验一样,对照组要得到一个不同的干预方案,或者不进行任何干预,这样才能对比出变量带来的影响。这事儿想想就知道成本有多高,很少有公益组织能够刚好接触到两组人,然后能拿其中一部分来做对照组,更不要说还得花很多钱去做这个对照试验了。在循证医学里有句话很适合写在这里:研究应该是“问一个重要的问题并且进行可靠地回答”。如果没有足够的资金或者样本量来可靠地回答这个问题,那从一开始就根本不要试图去回答它。

 

 

组织体量太小了

 

对很多基层公益组织而言,它们的组织规模很小,能有3个全职员工就了不得,它们维持的项目方案规模也一样太小:没有足够的样本规模,就算项目人员想要自我评估一番,也只能是对其方案进行一下整体评价,然后得到一些统计性的结果。——也就是说,它们很难去区分方案的影响与其他因素或随机情况的影响,因为相比它们的规模,不可控的变量又未免有些太多了。于是,基层的业务性公益组织的自我评估结果很可能是错误的或者偏颇的。不仅是小型公益组织自己,对于某些边缘议题来说,关注这些领域的公益组织的总数量都够不上一次严格影响力评估所需要的样本量,你需要100个项目点做总数居,但这个领域只有10个组织在做事,那还研究什么劲?

 

这个问题带来的困扰是很真实的,再举个例子:英国司法部曾经开设了一个“数据实验室”(Data Lab) ,任何开展减少重复犯罪项目的组织都可以要求该实验室对自己的项目进行评估。这个数据实验室背靠政府,所以可以利用司法部的大量统计数据,将该项目参与者的重复犯罪行为与一组类似的非参与者的行为进行比较。而且,它可以确保实验室的研究人员和使用的研究标准是完全一致的,从而很好地控制住评估人员对大量公益组织的项目的评估过程。

 

在最近的数据(截至2020年10月的所有分析)中,这个司法数据实验室分析了104个由公益组织提供的项目,结果其中有62个方案没有得到任何有用的结论(不管是正面的还是负面的),因为它们的规模实在是太小了,无法得出结论性结果,这个比例达到所有难得主动愿意接受评估的公益项目的60%。——看看这个比例有多高!

 

 


 

顺便一说,那40%接受评估的项目得到的结果也不是很好,它们的活动效果差别很大,其中甚至有一些增加了参与者重新犯罪的概率。这个例子首先再次说明了本文一直在讲的问题:大多数小型公益组织很难也不应该成为影响力评估研究的生产者,它们应该是严格的、独立的研究的使用者,把要求它们自我评估作为提供资助的门槛要求是不公平的,这是一种责任的转移,这项工作很重要,但成本不应该全由它们来承担。

 

其次,这个例子也说明了一些别的问题。当我们试图评估某些主要靠小型公益组织覆盖的议题领域时,比起所有人一拥而上,在没有依据基础的情况下尝试各种五花八门的干预方式,然后导致无法进行有效的评估,我们为什么不考虑换个思路?对于有些社会问题,公益行业应该发挥自己的生态作用,先开发出能够确定影响力效果的干预方法,再在行业内进行规模推广,这样我们就不用去猜测哪些公益组织运营的项目能够发挥作用,或者强行假设它们都能发挥作用了。——而推动这种路径实现的又应该是谁呢,这就是很多大型公益组织和基金会需要去思考的责任咯。

 

原文来源:

https://giving-evidence.com/2021/01/18/small/

 

 

*为保持文章连贯性,编译过程中有删减