随机干预实验中的成本效益分析方法及其在中国农村教育领域中的应用-教育实验经济研究所

新闻动态

您当前所在位置是：首页 >> 新闻动态 >> 正文

新闻动态

学术讲座

招生招聘

田野调研

随机干预实验中的成本效益分析方法及其在中国农村教育领域中的应用

发布时间：2020-09-04 作者：点击：[] 分享到：

一、引言

教育领域有许多发展目标，而实现这些目标有众多相互竞争的政策或干预措施。例如，要提高学生学业表现，可以通过矫正学生的视力、降低学生缺铁性贫血发生率、为教师提供激励、为学校提供计算机辅助学习等；而提高入学率则可以通过改善学生心理健康、通过有条件的转移支付进行激励、提供助学贷款信息等（Zhang et al.，2012；Miller et al.，2012；Kleiman-Weiner et al.，2013；Mo et al.，2013；Ma et al.，2014；Lai et al.，2015；Luo et al.，2020；Nie et al.，2020）。随机干预实验的影响评估分析表明，部分干预或政策对于实现上述目标是无效的，而部分干预或政策则存在显著效果。无效的干预可以很容易被排除在政策选择之外。但对于同样有效的多种干预方式，应当如何选择呢？社会资源毕竟是有限的，政策实施必定需要有优先顺序，那么应当优先实施哪些干预政策呢？是否仅依据干预效果的大小进行判断呢？例如，在美国和拉丁美洲一些国家进行的研究发现，减小班级规模能够有效提升学生学业表现，且这一干预方式可能相对于其他干预方式影响效果更大，但同时这一项目的成本也是巨大的（花费可能高达上千万美元），远高于其他干预项目。此时应当如何选择呢？此外，社会政策在进行预算时，也需要明确要实现既定的目标所需要的投入是多少。这表明，即便使用随机干预实验方法对干预措施的净影响效果进行了评估，但仍然不能直接将其转化为社会政策。在选择社会政策时，需要将项目的影响效果大小与实现这些影响效果所需的成本权衡考虑。

当项目结果是非货币性指标时，成本效益分析是进行项目评价、对比的重要方法。在经济领域的项目评估中，项目收益通常是货币化的（例如营业利润、现金流），因此成本收益分析（Cost Benefit Analysis，CBA）是衡量项目成败的重要方法（Siegel et al.，1996；Levin & McEwan，2001；Drummond et al.，2005；）。成本收益分析是评估项目的综合指标，它使不同类型的项目可以对比，从而帮助决策者选择出更符合经济利益的项目。但与经济领域不同，众多社会项目的结果难以用货币进行衡量。例如，世界银行众多发展项目的目标是改善妇女地位、改善儿童入学率、降低婴幼儿死亡率等。这些项目目标难以简单地进行货币化度量。尽管可以尝试将这些目标转化为能以货币衡量的指标，例如，根据人的生命价值，将死亡率的改变换算为货币价值，但这种转换通常面临诸多挑战和困难（Anand & Hanson，1997）。

此时，成本效益分析（Cost Effectiveness Analysis，CEA）是成本收益分析的可行替代方法（Dhaliwal et al.，2013；Evans & Popova，2016）。多项干预的目标可能是一致的。例如，在教育领域中，研究者可能都关注学生的学业表现。成本效益分析可以计算不同干预措施使学生学业表现提高一个单位所需要的成本，从而能够选出成本最低的（即最具有成本效益的）干预方式。教育领域随机干预实验研究方法使用的增多，一方面为成本效益分析提供了条件，使得成本和效益均可得到相比于其他方法更精确的估算；另一方面，也为成本效益分析提出了需求。越来越多潜在有效的干预措施的发现，要求建立更有效的政策选择机制。但成本效益分析面临着诸多困难和挑战，例如，如何使不同项目的成本核算具有可比性、影响效果如何选择，等等。要使成本效益分析真正发挥作用，必须建立相对规范的、可比的成本效益分析方法（Dhaliwal et al.，2013；Evans & Popova，2016）。

本文将聚焦随机干预实验，对成本效益分析方法进行梳理、总结，并应用具体案例展示单个项目成本效益计算及多个项目成本效益对比的方法。本文第二节将对成本效益分析相关基本概念、具体方法及操作中的基本原则进行说明，包括成本核算方法、效益核算方法等。计算出每个项目的成本效益值是对比分析的前提，因此第三节将运用具体案例展示单个项目成本效益计算的具体过程。相对于计算出成本效益值，将差异巨大的干预项目进行成本效益对比面临着更多、更复杂的问题，因此第四节将分别汇总国内及国外教育领域已经开展的随机干预实验项目，讨论将不同地区、不同年份等有较大差异的众多干预项目汇总起来进行成本效益对比分析时面临的具体问题及处理方法。第五节将进行总结和讨论，主要讨论在中国开展成本效益分析的一些经验和启示。

二、成本效益分析的基本概念及计算方法

(一) 成本效益分析的概念

成本效益分析，指计算实现单位“效益”（在随机干预实验的评估中也称之为“影响效果”）所需要的成本，或单位成本可实现的“效益”。因此，可以有两种计算方法：（1）成本/影响效果（Cost/Effectiveness，C/E），表示实现每单位的影响效果需要多少成本；（2）影响效果/成本（E/C），表示每单位的成本（例如每100美元）可以得到多少影响效果。通常第二种计算方式使用更多（Dhaliwal et al.，2013；Evans & Popova，2016）。因此，“成本效益高（Cost-Effective）”通常指每单位的成本可以实现更大的影响效果，更值得优先选择。

在随机干预实验中，成本效益可表示为：

成本效益=（干预组结果变量均值 − 控制组结果变量均值）/（干预组成本 − 控制组成本）（1）

通过成本效益分析可以更直观地对评估项目进行比较。成本效益分析有两方面作用：（1）成本效益分析是对项目的综合评价。项目本身可能非常复杂，但成本效益可以对项目成果进行简洁、明了的概括，是一项重要的综合评价指标。（2）可以对不同年份、不同地区、不同类型的项目成果进行比较。干预项目千差万别，如实施年份不同、地区不同、执行人员不同、干预内容不同、接受对象不同等，但只要项目目标一致，均可通过成本效益分析进行对比，这大大提高了项目之间的可比性。正确的成本效益分析，可以帮助决策者（例如发展中国家的政府部门、国际发展公益组织等）对比不同项目，为优先投资哪些项目、优先将有限资源分配给哪些项目提供决策参考（McEwan，2012；Dhaliwal et al.，2013；Evans & Popova，2016）。

此外，有时项目目标是既定的。明确项目的成本效益，能够明确实现既定的目标需要多少投入，也能够为合理规划项目支出（或财政支出）提供参考。

(二) 项目成本核算方法

在分析项目成本效益时，首先需要对成本进行核算。不同项目成本的核算必须依据规范的、统一的标准，成本效益分析才具有可比性。成本核算看似简单，只要将收集的成本信息加总即可，但实际操作并不容易，需要注意很多环节、收集多种不同的成本信息。例如，需要知道项目是如何实施的，成本是什么时候支出及向谁支出的，等等。根据成本效益分析目标的不同、服务对象（向谁提供参考）的不同等，成本核算的方法（需要计入的成本）也会不同。例如，成本效益分析可能服务于捐助者、政府部门（或社会）、项目执行者、研究人员等。政府部门（或社会）和项目实施者面对的成本可能是不同的。如果要向社会（例如有关政策部门）提供政策参考，某些项目实施者未实际支付但对整个社会而言确实存在的成本需要核算在内，例如项目获得的捐赠物品；而如果仅向项目实施者提供参考，则部分成本可不计入在内。下文将对成本核算中的重要问题进行讨论，以明确成本核算的标准、原则及选择这样做的原因。

1. 成本数据收集

在一般研究中，通常不会报告项目实际执行成本的数据，因此，成本数据不易获得。一般项目均有预算数据，但通常预算数据并不完整，与实际执行的成本之间也可能有较大差距（Levin & McEwan，2001）。为确保所有必需成本已被计入在内，可以应用成本分解法：明确若重做一次该项目，需要哪几部分成本，然后逐项收集这些成本信息（Dhaliwal et al.，2013）。将成本根据实际用途分解成若干类别有如下好处：（1）可以确认成本的计算方式是否正确，或可以作为一项检查清单以确认是否所有成本已包含在内；（2）通过对比不同项目的成本结构，可以明确不同项目之间是否具有可比性。通常，要对多个项目的成本效益进行对比，这些项目的成本结构应是一致的。

为方便将项目成本核算标准化、规范化，已有多个机构制作了标准化的成本统计模板供研究者使用，包括反贫困行动实验室（The Abdul Latif Jameel Poverty Action Lab, J-PAL）、世界卫生组织（WHO）等（Dhaliwal et al.，2013）。这些统计模板将成本按类别进行分解，并明确了统计口径（具体可参见：https://www.povertyactionlab.org/page/conducting-cost-effectiveness-analysis-cea）。使用统一的成本核算模板可大大提高项目之间成本效益的可比性。

2. 无成本物品成本

在一些随机干预实验项目中，一些物品或服务对项目实施者是没有成本的。例如，在视力随机干预实验项目中，向初中生和小学生发放的眼镜是由某眼镜公司捐助的，而并非通过市场购买，因此这一项对于项目实施者来说是免费的。但在研究中也应将这些免费物品的成本计入总成本中。一方面，成本效益分析是为了评估项目对社会的影响。虽然项目实施者并未支付这部分成本，但对整个社会而言，该成本是存在的。另一方面，在小范围的随机干预实验中这些物品可能是免费的，例如眼镜公司可以给项目中的学校捐赠眼镜，但当项目作为政策推广后这些物品或服务不可能仍然免费。成本效益分析是为选出值得推广的项目提供参考，因此应该考虑推广以后的真实成本（Levin & McEwan，2001；Baltussen et al.，2004）。

该类免费的物品或服务在计算成本时可以参考其市场价格（Evans & Popova，2016）。例如，眼镜虽然是免费发放的，但在计算成本时可以参考其市场价格计入成本。

3. 转移支付成本

转移支付是指物品和现金从一部分人转移分配给另一部分人。项目成本通常包括管理成本和转移支付成本，但管理成本和转移支付成本是有显著不同的。在免费眼镜项目中，管理成本包括为学生检查视力的成本、发放眼镜的成本等。管理成本是资源性成本，该成本的存在表明有社会资源因消耗而减少。而转移支付成本指发放的眼镜本身的成本。转移成本并非资源性成本，该成本的存在仅表明社会资源从一部分人转移至另一部分人，但总的社会资源并未减少。换言之，转移支付成本对项目实施者是成本，但对于整个社会并非成本（当然，转移支付通常是由政府财政承担的，而税收是有成本的）。

若转移支付成本在总的成本中占比较高（例如眼镜项目），那么，是否计入该项目成本对成本效益结果将会有较大影响。因此，可根据实际情况，通过分析研究目的及研究报告的潜在阅读群体，选择是否计入该部分成本。例如，若分析结果面向社会大众，由社会大众选择实施哪些项目，则可以不计入转移支付成本。但若分析结果面向政府部门，包含转移支付成本则更为合理。

4. 项目受益人成本

在很多项目中，项目受益人要得到某些干预或利益自身也要付出相应成本，而该部分成本是未计入项目实施者的成本中的。例如，为低视力学生配眼镜时，学生需要到县城某指定地点进行验配。虽然眼镜本身是免费的，但学生为得到这副免费眼镜需要花费时间成本（去县城验配眼镜的时间）和交通费用等。项目实施者可能不关注这些成本，因为这些成本不需要项目实施者实际支付，不会反映在项目实施者的财务报表中。但从社会角度考虑，这些成本仍然是项目取得相应效果社会所需要付出的成本，因此当从社会角度对项目作出选择时应计入该部分成本。对于受益人成本的估计，一方面需要通过问卷调研收集受益人的成本信息；另一方面，对于时间成本（这可能是多数项目会涉及的受益人成本），通常可以根据家庭平均收入或当地劳务市场价格进行估算（McEwan，2012；Evans & Popova，2016）。

5. 重复使用物品或服务成本

在随机干预实验项目中，一些项目或服务可能被多个项目重复使用（Overlapping Uses），具体可能有以下几种情况。

（1）学校基础设施。以视力随机干预实验项目为例。该项目旨在通过向低视力学生发放免费眼镜来促进学生学业表现的提升。但学生学业表现的提升，除了矫正视力外还需要更多条件，包括教师认真授课、必备的教学设备、学校管理等必要的投入，等等。没有这些必要条件，仅发放免费眼镜同样不能提升学生学业表现。那么，这些成本是否需要计入在内呢？在计算某一项目的成本效益时，这些成本通常是不需要计入在内的。这是因为这些成本均是一所学校存在的基本成本。若将这些成本计入某一项目成本中，会出现重复计算问题（Siegel et al.，1996；Levin & McEwan，2001）。

（2）物品或服务在多个项目之间共享。另一种“重复使用”情况是，未来的干预项目可能以现在的项目为基础。例如，视力随机干预实验项目中，首先需要对学生进行视力筛查和检查，确认哪些学生需要配戴眼镜及眼镜处方。这是一笔重要的项目支出。但通过视力筛查和检查获得的数据同样可以为以后的其他项目所用。例如，可能有干预项目关注孩子弱视防治问题①，这同样需要孩子的视力检查数据。那么，这些可能被以后项目用到的物品或服务应如何计算成本呢？需要在不同项目之间进行分担吗？通常处理方法是将全部成本计入本项目中，而不是在多个项目中分摊（Evans & Popova，2016），这是因为：（1）通常情况下很难预知以后是否可能有其他项目使用这些物品或服务；（2）这些物品或服务的成本毕竟是本次项目实施者已经付出的成本，已经计入其财务报表。因此，将相关支出计入本项目的成本中更为合理。

我们可以假设另一种情况：在其他地区实施免费眼镜项目时，因其他原因已经对学生进行了视力筛查和检查，项目实施者不需要再支出这部分成本。但该情况可能仅是巧合；当未来推广该项目时，如果这种巧合不再存在，该部分成本仍然需要支出。因此，将该部分成本计入在内，才能对项目未来推广面临的实际成本提供更合理的参考。

（3）在项目评估之后部分物品或服务仍可继续使用。另外一种“重复使用”的特殊情况是，投资的物品不能在项目周期内使用完，项目结束后仍可继续使用。例如，为学生发放的眼镜可能可以使用2年时间，但项目评估周期只有9个月。在项目评估结束后，眼镜仍然可以继续使用。此时成本应如何计算？若将购买眼镜的成本全部计入本项目成本中则可能高估了本项目的实际成本。有的项目初始固定成本较大，但后期流动成本较小；而有的项目初始固定成本较小，但后期流动投入较大。在评估项目的短期成本效益时将初始固定成本全部计算在内，则可能使后一类项目更具有优势，因而作出错误的参考。处理该问题的方法之一是使用该物品的租金而并非购买成本进行计算。例如，假设存在眼镜的租赁市场（对于固定投入较大的物品租赁市场通常是可能存在的，例如汽车、房屋等），则可以计入租赁使用一副眼镜9个月的费用，而并非购买整副眼镜的费用。

6. 管理费用成本

针对干预组，学校、政府机构等相关部门因为项目实施将付出额外的时间和精力监督、管理这一项目，这即是项目实施的管理费用成本（Overhead）。管理费用是项目成本之一，但该成本较难计算，因为管理费用的支付通常较为隐蔽，很难在财务报告中反应出来。例如，因为项目实施学校教职人员需要多加班，这促使学校为教职工提高工资。通常情况下，管理费用相对较少，且与总的项目复杂程度有关。因此，通常可采用总成本的一个固定比例进行计算，例如常采用的固定比例是10%或15% （Evans & Popova，2016）。具体比例可根据项目的复杂程度适当调整。

7. 小范围测试与大范围推广时的成本差异

通过随机干预实验进行项目评估时通常是小范围的，涉及样本也是有限的。此时计算出的成本效益与项目推广以后的成本效益可能有所不同，这是因为：（1）项目推广后可以批量购买投入的物品和服务，价格可能更低；（2）但也有可能，项目扩大致使管理难度加大，干预效果降低。针对第一种情况引起的价格变动，可通过市场调查，提前了解不同采购量对价格的影响。若变动范围较大，则应考虑使用未来推广以后的成本（或者两种成本的计算结果都予以报告）。

8. 增量成本

总体来说，可以从项目“增量成本”的角度理解可能被重复计算的成本（Levin & McEwan，2001；McEwan，2012；Dhaliwal et al.，2013；Evans & Popova，2016）。核算项目成本时需要首先明确项目实施的背景条件。背景条件不同，项目成本的计入范围也不同，因此对成本的核算有很大影响。以免费眼镜项目为例。北京地区中学可能已将视力检查常态化，每年为学生检查视力。若在北京开展免费眼镜项目则不必再进行视力筛查，从而可以节省这部分成本。但在西部地区视力检查并未普及。要开展免费眼镜项目需要先对学生进行视力检查，此时在项目成本中也需要将视力检查费用核算在内。因此，同样是免费眼镜项目，由于是否开展过视力检查这一背景条件不同，一方面，“干预”对上述两个地区的内涵是不同的，在北京地区“干预”不包括视力检查，而在西部地区“干预”包含视力检查；另一方面，成本核算口径也不同。

对于随机干预实验，评估的影响效果是通过对干预组和控制组的对比得到的。那么，成本核算也应是通过干预组与控制组的对比得到。控制组是项目实施的背景条件，真实的干预成本应是干预组在控制组基础上多出的“增量成本”，即：

项目成本 = 干预组成本 − 控制组成本（2）

应用“增量成本”概念可以对哪些成本应计入项目成本作出快速判断。例如，学校建设投入、教师工资等费用不应计入项目成本，因为这些成本在控制组同样存在。而视力检查成本在西部地区应计入项目成本，因为控制组不存在该成本。根据这一方法，某些具体类别的项目成本可能出现负值，例如，因为发放免费眼镜，干预组的项目参与者减少了自己配镜的可能性，那么相对于控制组，干预组受益人的成本可能更低，从而使该项成本总体看来呈现负值。

相同研究团队、同一国家开展的随机干预实验项目相对更具有可比性。不同研究团队、不同国家、不同年份开展的随机干预实验项目在进行成本效益对比分析时面临着更多困难，具体包括在核算成本时也应考虑不同年份间的通货膨胀调整、投资的时间价值、汇率换算等问题（Dhaliwal et al.，2013）。例如，从社会角度看，通过公共政策实施的项目通常占用了一定的财政支出。财政支出主要来自税收，这些税收的成本也是需要考虑在内的。不同年份的干预项目在对比时也需要对成本进行一定换算，下文在对干预项目作汇总分析时将对该问题进行进一步讨论说明。

(三) 项目“效益”（影响效果）计算方法

1. 影响效果加总

在随机干预实验中被干预对象通常很多。例如，免费眼镜项目中被干预对象为约500名初中学生。成本核算时是计算对这些学生进行干预产生的“总”成本，效果也应当是对这500名学生产生的总的影响效果。因此，成本效益可以有两种具体计算方法：（1）项目总影响效果/项目总成本；（2）每个学生的平均影响效果/每个学生的平均成本（Levin & McEwan，2001）。若使用第一种方法，需要计算总的影响效果，可以用如下公式：

总影响效果 = 每名干预对象的影响效果 × 样本量 × 项目周期（3）

“每名干预对象的影响效果Impact （per unit）”可以用ITT方法（Intention To Treatment）估计的平均影响效果，也可以使用TOT方法（Treatment on the Treated）估计的局部影响效果（Glennerster & Takavarasha，2013）。虽然后者估计出的影响效果更大，但其对应的样本也相对更少。例如，ITT方法对应的是全部学生，而TOT方法仅对应戴眼镜的学生。因此，使用ITT方法估计结果和TOT方法估计结果计算出的总影响效果将是一致的。

若使用第二种方法（即平均影响效果/每个学生的平均成本），平均影响效果应使用ITT估计出的结果，因为该结果是对全部样本平均影响效果的估计。

2. 影响效果估计的不精确性

影响效果评估是通过对部分样本的影响效果分析来估计真实的影响效果。对于估计结果通常要关注：（1）估计结果是否显著及显著性水平；（2）影响效果的点估计值大小及其置信区间。

假如有两个具有相同成本的项目，一个影响效果的点估计值较大但结果并不显著（经济学领域通常选用10%的显著性水平），另一个影响效果的点估计值较小但结果显著，应如何对比两者的成本效益呢？在成本效益分析时应首先判断点估计值是否显著。对于影响效果点估计值不显著的干预项目，无论其点估计值大小，都应认为其成本效益较低。这是因为“不显著”即表明没有足够证据可以排除其真实影响效果是零的可能性（Levin & McEwan，2001）。

影响效果点估计值同样显著的项目，在成本相同的情况下，是否影响效果点估计值越高，成本效益必然越高呢？影响效果点估计值并不等同于真实影响效果。真实影响效果可能在某一区间内变动（即影响效果的置信区间）。根据估计精确度的不同，可能有多种情况：（1）影响效果点估计值较大，但精确度低，点估计值的置信区间也较大；（2）影响效果点估计值较小，但精确度高，点估计值的置信区间也较小。前者的真实影响效果并不必然大于后者。

因此，对于点估计值显著的项目，在计算成本效益时可以：（1）根据点估计值计算；（2）同时也根据点估计值置信区间（通常是90%或95%）的上下边界值计算成本效益可能的变动范围。在对比不同项目的成本效益时，可以通过以下方法检验结果的稳健性：首先根据影响效果的点估计值计算成本效益并进行排序，然后，再根据置信区间的上下边界计算成本效益并进行排序。若两种方法项目排序变化不大，则可以认为结果较为稳健。但如果项目排序变动较大，例如从成本效益最高的位置变动到成本效益最低的位置，则可以认为结果并不稳健。

此外，上述对成本效益结果进行稳健性分析的方法也可应用于其他情况，以检验其他设定变动对结果的敏感性。例如，折现率的设定可能影响成本效益对比的结果。因此，可以在保持其他假设不变的情况下，使用不同的折现率计算成本效益，分析结果是否发生了变动以及具体的变动程度（Dhaliwal et al.，2013）。

3. 溢出效应的处理

在很多项目中干预效果可能存在溢出效应。例如，免费眼镜项目可能有溢出效应，即向样本班级发放免费眼镜时，可能同时也促进了其他未参与项目的班级的配镜率及成绩的提升。对于溢出效应是否应包含在对“效益”的测量中，需要考虑当项目推广扩大以后是否同样存在溢出效应。如果项目推广以后同样存在溢出效应，则应将其包含在内，否则就不应包含溢出效应（Levin & McEwan，2001）。可以预想，眼镜项目推广以后可以为所有学生免费发放眼镜，而并非特定班级学生，这样一来，溢出效应将会消失。因此，在对免费眼镜项目的成本效益进行计算时可以忽略溢出效应。但若在成本效益分析时需要包括溢出效应，则应在项目设计阶段进行相应设计，以测量出溢出效应的大小。

4. 有多重目标的项目

不同干预项目的目标是不同的。有些干预项目只有一个目标，例如，某些教育类项目的目标是提高入学率。而有些干预项目可能有多个目标，例如，某些教育类项目的目标不仅是提高入学率，还包括提高学生的健康水平。对于有多重目标的项目应当根据哪个结果变量计算“效益”呢？

针对这个问题，通常可以有两种处理方法：（1）某些项目虽然有多重目标，但成本的目标指向是清晰的，可以明确区分哪些成本实现了哪些影响效果。因此，这种情况下，可以将成本按其目标指向进行分解，再分别计算每个结果变量的成本效益。但是，该方法对管理费用等不可分解的成本较难处理。（2）将项目看作一个整体，项目成本可以在多个结果变量之间进行分摊（Levin & McEwan，2001）。若存在一种分摊方法，使该项目所有结果变量的成本效益均高于另一种项目，则表明该项目更具有成本效益。

5. 最终结果变量与中间结果变量

在对项目进行影响效果评估时，既要关注最终的结果变量（例如眼镜项目中学生的标准化数学成绩），也要关注中间变量（例如眼镜项目中学生是否有眼镜或学生是否经常戴眼镜）。关注最终结果变量，可以评估项目是否产生影响效果。而关注中间变量，可以明确这些影响效果是通过何种作用机制产生的。在计算成本效益时，可以同时关注中间变量的成本效益及最终结果变量的成本效益。

不同项目的结果变量测量也可能存在不同程度的差异。例如，同样是测量学业表现，可能有研究项目关注的是英语、语文成绩，而另有项目关注数学成绩；有项目会使用学校自己组织的考试的成绩，而有些项目则使用标准化考试的成绩；有些学业测试需要3个小时，而有些学业测试仅需半小时。因此，如同成本需要汇率、折现等换算，对于结果变量也需要进行标准化转化，使用可对比的、相同的单位。在教育领域，将成绩进行标准化处理从而增强不同项目结果的可比性是常用方法（Duflo et al.，2015；Glewwe et al.，2016；Nie et al.，2020）。

(四) 随机干预实验为成本效益分析提供了条件和需求

近来年，教育领域大量随机干预实验项目的开展，为成本效益分析的使用提供了条件，也对成本效益分析提出了需求和要求。

随机干预实验为成本效益分析提供了条件。成本效益分析的前提是要对项目的影响效果及项目成本进行准确核算，而随机干预实验方法的使用为这两方面提供了重要条件。一方面，随机干预实验是评估项目影响效果的“黄金准则”，能够评估出项目的“净”影响效果，即能够获得更为准确的项目“效益”（Duflo et al.，2007）。因此，在选取研究进行成本效益对比分析时，通常也只选用使用了随机干预实验方法的研究，而并不包括其他准实验方法的研究（Amy et al.，2019）。另一方面，由于有可控的项目实施过程、确定的项目实施方、明确的对照组等，人们可对干预实施所发生的费用进行准确记录，项目成本的核算将更为精确。使用除随机干预实验以外的其他方法，例如工具变量方法、双重差分方法、断点回归方法、匹配方法等均可以对项目的影响效果进行评估，但使用准实验方法并不能对成本进行准确核算。例如，基于截面数据使用固定效应等方法可对教育部门主导的教师绩效工资项目进行评估，从而估算出影响效果（即效益）。但如何估算该项目的成本呢？项目可能是由多方共同实施（例如县级和市级共同实施）的，并没有明确的项目支出明细。更常见的情况是这些项目支出被混杂在其他支出之中。此外，项目并没有明确的对照组，研究者对于哪些成本应被计入可能存在较大分歧。

随机干预实验也对成本效益提出了需求和要求。更多随机干预实验项目的开展、更多经验证有效的干预方案的提出，必然要求在诸多的可行方案中作出谨慎的选择。这需要项目有一个除了影响效果之外更综合的、可对比的评价指标。而随机干预实验项目实施范围的不断扩大，也要求成本效益方法有更多改进和发展，以处理和应对更复杂情况的出现，使得更复杂的项目同样具有可比性。例如，随机干预实验已开展多年，如何将当前的项目与20年前的项目进行对比，就是一项巨大挑战。

三、单个项目成本效益分析案例：

免费眼镜项目

不同项目之间进行成本效益对比的前提是计算出每个项目的成本效益值。本部分将结合初中生免费眼镜项目，对某一具体的随机干预实验如何进行成本效益计算、如何解读和分析成本效益结果等进行说明。

(一) 初中生免费眼镜项目的背景

初中生免费眼镜项目是在小学生免费眼镜项目的基础上开展的。同小学生免费眼镜项目一样，项目干预内容为向经过视力筛查需要配镜的中学生免费提供一副眼镜。眼镜为某眼镜公司捐赠，因此不需要项目组承担这部分成本。项目实施对象为陕北某市的3个县31所农村初中的七、八年级学生。项目以学校为单位进行了随机分组，其中16所学校为控制组，在视力检查后向学生发放了《告家长书》，向家长说明孩子当前的视力情况；15所学校为干预组，在视力检查后向学生免费提供了一副眼镜。视力检查由项目组实施，共对31所学校的1974名学生进行了视力筛查（确定是否需要眼镜）和验光检验（确定配镜的具体度数）。在干预组眼镜制作完成后，由项目组人员负责入校发放眼镜以及镜架的调校等工作。

该项目基线调研时间为2013年9月，评估调研为2014年5月，项目实施周期约9个月。使用ITT方法对平均影响效果进行评估，结果发现，免费眼镜可以使初中生标准化数学成绩显著提高0.14个标准差，而针对小学生的免费眼镜项目的平均干预效果为0.11个标准差。关于项目的其他细节可参看Nie 等人（2020）和Ma 等人（2014）的论文。

(二) 免费眼镜项目的成本说明

免费眼镜项目在计算成本时是以控制组为基准组分析干预组的增量成本，即在控制组的基础上多增加的成本。例如，项目组在控制组和干预组都开展了视力筛查工作。虽然该部分支出费用较高，在控制组和干预组均为37024元。但由于控制组和干预组均开展了该工作且费用相同，因此可以不计入成本。根据J-PAL对成本的分解，成本包括项目性成本、税收性成本及家庭对该干预作出反应需要付出的成本。

1. 项目性成本

具体来看，项目性成本包括购买眼镜的成本及发放眼镜的成本。本项目所用眼镜为眼镜公司捐赠，无市场价格。眼镜成本是项目性成本的主要组成部分，眼镜价格的设定对最终的成本效益结果有较大影响。因此，本研究采用最常用的处理方法—用当地眼镜市场价格均价进行估算（Dhaliwal et al.，2013）。在基线调研中，项目组调研了学生购买眼镜的实际价格，得到眼镜的平均价格为每副350元。当项目推广实施以后，可以大批量采购眼镜，眼镜价格会相对更低。因此，使用市场价格可能会低估该项目的成本效益。

眼镜费用本身是一种转移支付，该支出仅是从项目实施单位转移至受益人，其本身价值并未消失。因此，该部分费用支出并不属于社会成本。但由于该部分费用占比较高，在计算成本效益时，研究者将同时呈现包括眼镜费用的结果（项目成本）和不包含眼镜费用的结果（社会成本）。

“发放眼镜的费用”是指将制作好的眼镜送到学生手中所产生的费用。在发放过程中，需要专业验光师对眼镜进行适当调适，具体费用包括到各个学校的交通费用、发放眼镜工作人员的劳务费用等。

2. 税收性成本

假设该项目由政府部门组织实施，则项目性成本会由财政税收支付。税收同样是有成本的。由于国内税收成本缺少准确的估算，因此常常通过税收可能带来的损失进行估算，一般采用20%这一比例（Auriol & Warlters，2012）。

3. 家庭承担的成本

项目实施后学生家长可能会带学生进行视力检查，或在需要重新配眼镜时为学生配眼镜。因此，家庭承担的成本包括去县城配眼镜的交通费用（眼镜店或眼科中心通常位于县城）、去配眼镜的时间成本、视力检查及配眼镜的费用等。

交通费用根据学生家到县城的距离进行计算。结合调研地区情况，按1元/千米进行计算。对于往返县城的时间，按20 千米/小时进行计算，另加1小时验配眼镜时间。当地成人平均工资为120元/天（按每天工作8小时进行计算）。因此，配眼镜的时间成本按这一方式进行换算，而眼镜费用同样按350元/副进行计算。

家庭应承担的成本可能出现负值，这是因为成本计算是基于与控制组的比较。干预组发放了免费眼镜，因而相对于控制组去配眼镜的学生可能更少，这在数据中即表现为负值。在将成本转化为美元进行汇率换算时（考虑到需要进行国际对比），使用2013年中间汇率，即人民币对美元为6.1∶1。

(三) 对免费眼镜项目效益的说明

影响效果分析可采用两个指标：一是中间指标，即发放免费眼镜使学生视力改善的程度；二是最终结果指标，即发放免费眼镜使学生标准化数学成绩提高的幅度。在计算“效益”时，研究者使用了加总影响效果的方式，即上文公式（3）。

视力改善是指在上课时经常戴眼镜的学生，戴眼镜后比不戴眼镜视力提升（或少下降）的幅度，通过LogMAR的变动幅度进行测量。LogMAR每增大0.1，代表视力水平在视力表（ETDRS）上下降一行。而对于标准化数学成绩提高的幅度，首先使用点估计结果进行加总；为分析成本效益的敏感性及变动范围，同时也使用估计结果的90%置信区间的上下边界值分别进行加总计算。

(四) 免费眼镜项目成本效益计算结果

1. 项目性成本及税收性成本

眼镜本身的费用主要是发放的眼镜所产生的费用，共计180250元。这是项目性费用中最大的支出，平均到每个学校约12016元。眼镜发放的费用共计13760元，平均每个学校917元。项目费用合计194010元（表1）。

该笔费用如果由公共财政支出，可能产生的税收成本是38802元。

2. 由家庭负担的成本

在干预实施后，控制组学校共有180名学生去医院或眼镜店检查过视力，所花费交通费用、时间成本共计43311元。共有167名学生配了眼镜，共花费58450元。合计花费101761元。在干预组学校，共有148名学生去检查了视力，所花费交通费用及时间成本共计27420元；共有132名学生配了眼镜，共花费46200元；合计花费73620元；因此，项目实施使干预组学生合计减少检查视力、配镜花费共计28142元（见表1）。在数据表中，该项以负值表示。

3. 总成本的核算

社会成本是指项目性成本及其税收负担、家庭承担成本的合计；初中生眼镜项目社会成本共计204670元。发放免费眼镜也是转移支付，因此在总成本中扣除戴眼镜学生的眼镜成本。不戴眼镜学生的眼镜成本不扣除，是因为这部分学生不使用眼镜，因而浪费了这一资源。在不包括眼镜成本的情况下，社会成本共计86020元（见表1）。

4. 免费眼镜项目的成本效益分析

我们可先从提高视力的角度来看成本效益。结果表明，要使学生的视力提高（或少下降）1个单位（即LogMAR值减少1个单位），分别需要项目成本3731元，或社会成本3926元，或社会成本（不包含眼镜成本）1654元。LogMAR每变动0.1代表视力表（ETDRS）上的一行，因此可以说，为使学生视力在视力表上提升（或少下降）1行，需要项目性成本373元，或社会成本393元，或社会成本（不包含眼镜成本）165元（表2）。

其次，我们可从提高学生成绩的角度来看成本效益。结果表明，要使学生标准化数学成绩每提高0.1个标准差，需要支付项目成本266元，或社会成本280元，或社会成本（不包含眼镜成本）118元。为了反映这一成本效益可能的变动范围，本研究同样采用了估计结果90%的置信区间的上下限进行成本效益分析。以项目性成本为例，学生标准化数学成绩每提高0.1个标准差，最低可能需要支付项目成本144元，最高可能需要支付项目成本1940元（表2）。

(五) 两个干预项目成本效益的对比

核算出项目的成本效益并非成本效益分析的主要目标。成本效益分析主要用于与其他项目进行对比分析，从而帮助人们做出决策。本文先从具有较高可比性的两个随机干预实验项目（小学生免费眼镜项目和初中生免费眼镜项目）入手，探讨如何进行不同项目的成本效益对比。

1. 小学生免费眼镜项目的背景

研究团队开展的小学生眼镜项目是我国唯一的一项针对小学生、以眼镜为主要干预内容的项目。该项目以小学四、五年级的学生为研究对象，评估向低视力小学生发放免费眼镜对其学业表现的影响。该项目同样由眼镜项目组组织开展。该项目基线调研于2012年11月进行，评估调研于2013年6月进行，与初中生眼镜项目仅相距1年。项目具体细节可参见Ma 等人（2014）的论文。该项目与初中生眼镜项目具有很强的可比性，这表现在：（1）研究内容相同。两个项目均关注发放免费眼镜对学生学业表现的影响。（2）组织实施者相同。由同一项目组组织开展，保证了项目在实施细节上是相同或相似的。例如，两个项目对学生视力进行筛查和检查的程序和标准是完全相同的，对学生数学成绩测试的问卷均来自于TIMSS （Trends in International Mathematics and Science Study）等。（3）研究对象具有可比性。两个项目的调研地区是相同的。对象所在地区的经济发展水平、地理环境、受教育水平等因素均可能影响学生视力及其眼镜配戴情况，进而影响项目成本效益。（4）对成本的核算使用了完全相同的假设。在成本核算中有多项假设，这些假设条件均可能影响成本效益计算结果。在两个项目中，项目组使用了相同的假设，例如，在两个项目中每副眼镜的成本均假设为350元，对时间的成本进行计算时均假设每天劳务工资为120元（按8小时计算）。

2. 点估计值影响效果的成本效益对比

小学生免费眼镜项目的具体成本核算及成本效益情况见表1和表2。根据点估计值影响效果计算的成本效益看，无论以视力提升为结果还是学业表现为结果，相对于小学生免费眼镜项目，初中生免费眼镜项目均更具有成本效益（表2）。具体来看，初中生视力水平每提升1行，需要项目性成本373元，而小学生需要559元。在项目影响效果相同的条件下，初中生免费眼镜项目比小学生免费眼镜项目成本低三分之一（33.3%）。如果成本使用社会成本和社会成本（不包含眼镜成本），则每提高视力水平1行，初中生免费眼镜项目比小学生免费眼镜项目成本分别低17.3%和42.2%。

再从学生学业表现的角度来看。如果对标准化数学成绩的影响效果使用点估计结果，则初中生免费眼镜项目比小学生免费眼镜项目更具有成本效益，无论成本使用项目性成本、社会成本还是社会成本（不包含眼镜成本）。具体来看，使学生学业表现每提高0.1个标准差，初中生免费眼镜项目需要付出项目性成本266元，而小学生免费眼镜项目需要付出项目性成本350元，前者比后者成本低24%。如果成本使用社会成本和社会成本（不包含眼镜成本），则标准化数学成绩每提高0.1个标准差，初中生免费眼镜项目比小学生免费眼镜项目成本分别低5%和34%。

3. 区间估计影响效果成本效益对比的蒙特卡洛方法（Monte Carlo Simulations）

当使用点估计的影响效果时两个项目的成本效益较容易对比。但当使用区间估计时，成本效益的变动区间较大，可能存在相互重叠部分，因此，直接对比存在难度。以项目性成本为例，根据影响效果90%的置信区间进行计算，初中生标准化数学成绩每提高0.1个标准差，需要项目性成本最低可能为144元，而最高可能为1940元；小学生标准化数学成绩每提高0.1个标准差，需要项目性成本最低为199元，最高为1341元（见表2）。前者的变动区间完全包含了后者的变动区间，因此难以直接判断谁的成本效益更高。

对于不同项目成本效益区间的对比，可使用Evans 等人（2016）采用的蒙特卡洛方法（Monte Carlo Simulations）。具体做法为：假设提供免费眼镜对标准化数学成绩的影响效果服从点估计值为均值、点估计标准误为标准差的正态分布。使用蒙特卡洛方法，从上述两个正态分布重复抽取足够多次（本文选取100000次）作为点估计值分别估计两个项目的成本效益，计算这100000次重复抽取的结果中初中生视力项目比小学视力项目成本效益高的总频数，从而得出前者比后者成本效益高的概率。

使用蒙特卡洛方法的对比结果如下，从项目成本来看，初中生免费眼镜项目中标准化数学成绩每提高1个标准差所需成本低于小学生免费眼镜项目的可能性为65%；若以社会成本（不包含眼镜成本）看，初中生免费眼镜项目中标准化数学成绩每提高1个标准差所需社会成本（不包含眼镜成本）低于小学生免费眼镜项目的可能性为72%（表2）。因此，总的来看，相对于小学生免费眼镜项目，初中生免费眼镜项目更具有成本效益。这可能与初中生视力提高幅度更大、得到免费眼镜后初中生配戴的可能性更高等因素有关。

此外，在上述成本核算中并未将筛查视力成本考虑在内。免费眼镜项目实施时干预组与控制组均进行了视力筛查。根据“增量成本”理念，在核算成本时该部分成本并不包含在内。但该处理方式隐含了这样的假设：未来项目推广时学校也都已进行了视力查检。这并不符合实际情况，尤其是在农村贫困地区。小学生中近视学生比例更低，因此每名近视学生的平均筛查成本更高。若将视力筛查费用考虑在成本核算中，两个项目成本效益之间的差异将更大。

四、教育领域不同干预项目成本效益对比的分析方法

教育领域已经开展了大量基于随机干预实验的影响评估，筛选出了众多经验证有效的教育扶贫策略。将这些研究汇总后进行成本效益对比分析，可以帮助决策者从上述可行策略集合中选出优先开展或投资的干预策略。但不同于单个项目的成本效益值计算，以及两个项目成本效益之间的对比，来自不同研究团队、不同国家、不同时间实施的多个项目进行成本效益对比分析面临着更多困难和挑战。本部分将对国内外教育领域众多不同随机干预实验项目进行汇总并进行成本效益对比，然后对对比中可能存在的问题进行讨论，对可能的处理方法进行说明。

需要特别说明的是，尽管已发表的研究中对影响效果的分析较为充分，但鲜有研究讨论其成本细节，这大大阻碍了成本效益分析的推广使用。在作者搜集整理的2015年以来16项教育领域的随机干预实验中，仅有1项研究报告了成本数据。在推广使用成本效益分析方面，以麻省理工大学的J-PAL为代表的研究机构作出了有益尝试：在研究论文中探讨影响效果的同时也加强对成本效益的讨论，并率先公布了部分随机干预实验项目的成本细节及相关成本效益分析结果。本文将基于已发表的随机干预实验研究论文，尝试对教育领域随机干预实验项目汇总后进行成本效益对比分析。汇总后的分析结果对政策制定具有重要的借鉴意义。但鉴于数据获得的局限性，本次汇总分析并不充分，为了克服这种数据的局限性，促进未来的随机干预实验项目更多更规范地报告项目成本效益，本部分将更多地聚焦于展示汇总不同干预项目进行成本效益分析时可能存在的问题及处理方法本身，而不是汇总分析的结果。

(一) 文献选择

不同国家面临着不同的教育问题，有着显著不同的经济、社会条件。为使本文的成本效益对比分析更具有政策参考意义，本文将对在中国开展的农村教育领域的随机干预实验研究及在其他国家（主要为发展中国家）开展的随机干预实验研究分开进行对比分析。

本文在文献选择时，并未限定时间范围。从方法来看，本文仅选择以随机干预实验为方法的影响评估，使用其他准实验方法（例如工具变量法、双重差分方法等）的研究不纳入对比范围，这也是此类综述研究中通常的做法（Amy et al.，2019）。从领域来看，本文仅选择教育领域的研究，研究对象为中、小学生。本文的对比分析并不包括针对大学生的相关研究。这是因为本文的重要目标之一是为当前农村教育的发展提供政策参考，而农村教育的重点在中、小学。从结果变量来看，纳入本文分析范围的研究以学生的学业表现为主要结果变量。

对比分析的基本单位为某一具体的干预。若某篇研究文献包括多个干预组，则将其视为多个研究。另外要说明的是，由于当前多数随机干预实验研究仅报告了干预的影响效果的大小，并未报告成本数据，难以被纳入进来进行成本效益对比分析，因此本文的对比分析并未包括所有研究。

(二) 关于影响效果及成本核算的说明

汇总不同研究者的成果进行成本效益对比分析面临着诸多困难。（1）多数研究者并不报告其成本细节，因此难以进行成本效益分析。（2）不同研究者使用的成本统计口径可能不一致，对于何种成本应当计入、何种不应当计入并未采用统一的成本核算模板。（3）对于影响效果的使用方法并不一致。例如，项目执行周期可能是不同的，某些项目可能只有一年，而某些项目可能会持续若干年。项目周期不同、影响效果相同，在计算成本效益时是否可以同等对待？这同样是一个值得思考的问题。（4）跨地区、跨年份等的对比问题。相差数年的两个干预成本可能不具有可比性，对它们进行对比就需要考虑成本的跨年份折算问题。因此，在汇总这些研究进行成本效益对比分析之前，需要先对上述问题的处理方法进行说明。

1. 关于影响效果的说明

分析影响效果，首先要确定关注的测量指标。本文关注了教育领域（尤其是中小学阶段）最重要的指标之一—学业表现。由于不同的研究对学业表现的测量方法不同，相关研究中学业表现的测试成绩以数学成绩为主，但也有语文成绩、英语成绩等。因此，本文对其进行标准化处理，影响效果以标准差的形式表示。

在选取的项目中，有些项目周期较长，例如最长为3年。对于干预对象，不同年份获得的影响效果的价值可能是不同的。因此，对于长周期的影响效果可进行“折现”。本文综述已有研究，选用了10%的折现率（Zhuang et al.，2007）。例如，对于周期为2年的项目，成本效益计算时的影响效果=评估的影响效果/（1+10%）。

2. 关于成本核算的说明

对于各项目所选择的成本，本文遵循了“增量成本”的理念。而在具体核算成本时，本文使用了“社会成本”的口径，即不仅包含管理成本，还包含了受益者所产生的成本。主要包括以下两部分：（1）项目管理成本，其中包括向项目受益者免费提供的物品的成本；（2）项目受益者付出的成本，其中包括项目受益者参加会议、获取物品等付出的时间成本。

由于不同项目的实施时间前后相差20多年，因此需要考虑成本的时间价值。而项目涉及不同国家，则需要考虑汇率换算问题。对于跨时间的折现问题，本文选取2011年作为基准年，即项目成本均用2011年美元的价值表示。而对于跨地区的汇率换算问题，本文使用了各国公布的标准汇率，而不是购买力平价（PPP）方法计算出的汇率。具体换算方法如下：

（1）将项目成本根据标准汇率换算为美元，汇率采用成本发生当年汇率。

（2）对于多年期的项目，采用10%的折现率，将非基线年份的成本折算为基线年份“美元”的现值。

（3）再用美元的平均通货膨胀率将基线调研年份的成本（以美元表示的）换算为2011年美元表示的成本。

上述换算方法也可进行调整，但重要的是保持参与对比的不同项目使用同样的换算方法。

(三) 中国农村教育领域随机干预实验研究的成本效益对比分析

1. 干预的分类

对于中国教育领域的随机干预实验研究，本文汇总了来自16项研究的18种干预方式。研究对象均以农村小学生或初中生为主，项目实施时间分散在2008年到2016年之间。从干预内容看，可以将其分为四类（具体见表3，具体干预内容可查阅引用文章的原文）。

一是视力方面的干预项目，通过向低视力的小学生或初中生提供免费眼镜或眼镜券，改善学生视力情况，进而促进学生学业表现的提升。

二是提供有条件的转移支付项目，即CCT项目（Conditional Cash Transfer），包括事先资助承诺（例如，承诺若考上高中可资助高中期间的学习费用，以减缓对未来经济方面压力的预期）等，以改善学生的学习动力，进而促进学生的学习。

三是以解决学生缺铁性贫血为目标的干预，主要包括向家长提供缺铁性贫血方面的信息干预，或者向学校或学生提供含铁的多维元素片。

四是计算机辅助学习项目，通过向学校提供计算机、提供计算机学习软件等，利用计算机对学生开展课上或课下的辅导。

需要说明的是，上述干预类别的划分并非教育领域可行干预的完全划分，仅是根据成本数据的可得性进行的划分。

2. 项目成本效益分析对比结果

单就项目的影响效果（使用点估计估计出的影响效果）来看（见表3第6列），多数项目的干预效果差异不大，大多在0.1—0.2个标准差之间。这也表明仅依据项目的影响效果，决策者可能很难作出决策。

本文的成本效益用每100美元（2011年价格）可实现的影响效果（标准差）来表示。影响效果使用了点估计值和90%置信区间估计值，估计出的成本效益分别为表3的第7—9列。图1使用更直观的形式呈现了成本效益的变动范围。从单个干预的成本效益来看，成本效益最高的均为计算机辅助学习类项目。首先是“计算机技术”项目（项目17），平均每名学生100美元的投入，可使其学业表现提高4.17个标准差（点估计值）。其次为“校内计算机辅助学习项目”（项目15），即通过计算机在课堂时间（而非课后时间）对学生进行辅助，平均每名学生100美元的投入，可使其学业表现提高4.13个标准差（点估计值）。

从项目类别总体来看，虽然在每一类别中单个项目的成本效益仍有较大差异，例如计算机辅助学习类项目中有成本效益较高的项目（例如项目15和17：校内计算机辅助学习项目和计算机技术项目），也有成本效益较低的项目（项目18：信息沟通技术项目），但按类别总体来看这些项目仍然表现出显著的趋势性。其中，计算机辅助学习类的项目成本效益最高，其次是改善学生缺铁性贫血的项目，再次为视力类项目。CCT项目均未有显著影响效果，因此排在最后。但相关研究也表明，即使该类项目有显著影响效果，其成本也是相对较高的，即成本效益即使不为零，也应相对很低。

(四) 国外教育领域随机干预实验项目成本效益对比分析

1. 干预的分类

在选取国外开展的随机干预实验研究时，面临着同样的问题：已发表的论文多数仅报告了项目的影响效果，而未提及项目的成本数据。J-PAL在这方面进行了大量有益探索。因此，本文所分析的国外教育领域的随机干预实验研究主要来自于J-PAL。

本文汇总了来自于17项研究的共30项干预措施。项目时间跨度较大，分散在1997年至2008年之间。项目实施范围也较广，涵盖了印度、印度尼西亚、菲律宾、肯尼亚、阿富汗、哥伦比亚、马拉维、马达加斯加等众多发展中国家。从项目实施对象来看，项目实施对象均为中、小学生。根据Amy 等人（2019）的框架，本文将30项干预分为了四大类（具体见表4）。（1）需求方干预（Demand-side Intervention）。即能够改变家庭对于孩子上学的需求或孩子对于上学需求的干预。这包括有条件的转移支付、奖学金项目、向家庭提供教育回报信息等。（2）学校投入类干预（School Inputs），通过投入改善学校硬件设备或教师等软件的质量，这具体包括改善学校质量、提供电脑、增加教师以缩小班级规模、提供教科书、建设图书馆等。（3）教学教法类的干预（Pedagogical Interventions），即改变教学教法、提升教学效率。这具体包括培养阅读技巧、有针对性的反馈等方法。（4）学校管理类的干预（School Governance Interventions），即改善学校的管理模式、管理制度等。这具体包括改进学校管理委员会、学生根据成绩可以流动、对教师实行绩效工资等。

2. 项目成本效益对比分析结果

从对比的30项干预项目来看，其中15项有显著正向影响效果，其余15项影响效果不显著。在有显著影响效果的项目中，影响效果的大小差异也较大，自0.10到0.59个标准差不等。这也表明，随着项目实施范围的扩大，项目效果的差异性也开始增大。

图2呈现了各干预的成本效益情况，以每100美元可实现的影响效果大小为分析单位。从单个项目的成本效益来看，合同制教师（表4，第10项干预）项目（在正常编制之外，由学校决定额外雇佣的合同制教师）成本效益为负值（即不仅没有增加成本，而且节省了成本），在各类干预中成本效益最高。其次，通过家长会向家长提供教育回报率信息项目（表4，第4项干预）成本效益也较高，每名学生100美元的支出可以带来118个标准差的提高。换言之，要实现0.2个标准差（通常项目的干预效果大小）的学业表现的提升只需要为每名学生支出0.17美元。这体现了信息类干预的两面性：一方面信息类干预通常难以真正促进干预对象行为的改变，因此很难有显著的影响效果；但另一方面，信息类干预通常成本也较低，这表明若信息类干预能够取得显著的影响效果，通常也将是成本效益相对较高的。这也可能是虽然信息干预通常效果不好，但仍有较多研究者不断尝试使用信息干预、不断改进信息干预的原因。

有15项干预的影响效果并不显著。根据前面的分析，对于点估计不显著的干预项目来说，不论成本如何都应被认定为成本效益相对较低。在这些不显著的干预项目中，同样包括CCT项目，即有条件的转移支付项目。即使是影响效果显著的CCT项目，成本效益也相对较低（第2和第3项干预）。结合在中国的研究来看（在中国的CCT项目也均没有显著的影响效果），在教育领域CCT项目通常难以达到显著的影响效果；即使能够有影响效果，也是成本相对较高、成本效益较低的。因此，在财政资源相对紧缺的发展中国家，CCT类的干预项目难以成为优先的选择。

再从各大类干预的效果来看。各大类干预并未表现出明显的趋势性，因而，并不容易判断出哪类干预成本效益相对更高。例如，在学校投入类的干预中，既有显著的干预，例如计算机辅助学习（第13项干预），也有不显著的干预，例如每人一台电脑（第12项干预）；既有成本效益相对较高的干预，也有有显著影响效果但成本效益不高的干预。这表明，随着对比范围的扩大（包括时间跨度的扩大、地理范围的扩大等），各类干预的效果及成本效益越来越受到具体环境的影响。某类干预在一些国家实施可能有效果或成本效益较高，但在另外一些国家可能没有显著影响效果或成本效益较低。这向借鉴其他国家教育领域的随机干预实验经验提出了挑战。这表明，在借鉴时应当具体问题具体分析，应该根据本地的实际情况合理地设计、执行项目，而不只是简单的照搬、照抄其他国家的成功经验，这样才能够真正有效果并且成本更低。

但总体来看，学校管理类的项目成本效益相对更高，这表现在两个方面：一方面，在所有干预中，有显著影响效果的干预的比例更高；另一方面，有显著影响效果的干预，成本效益也普遍相对较高。这可能因为管理问题是一个相对普遍的问题，无论何时、无论在哪个国家，加强学校的管理、设计更好的管理制度都是必要的。这可能与其他投入不同。例如，计算机辅助学习项目可能不是任何国家、在任何时间都值得优先开展的项目。某些国家可能不具备提供计算机的条件，例如学生甚至教师不会使用计算机；或相对计算机，学生更缺少教材等其他硬件条件。但管理制度则不同，任何时候、任何国家都可能需要对教师进行更合理的激励制度设计，例如支付绩效工资而并非固定工资，更自由、根据所需选拔教师的制度等。

对于上述分析和讨论，需要做以下两点说明：

一是上述关于中国农村教育领域及国外教育领域干预成本效益的讨论仅是基于数据的可获得性，尤其是成本数据的可获得性。也可能有其他成本效益更高的干预项目，但因成本数据难以获得而未能纳入分析范围。虽然如此，上述结论仍然具有重要的参考意义。

为更全面了解国内外教育领域随机干预实验的开展情况及干预的有效性情况，依据Amy 等人（2019）的研究，本文在表5中展示了自1990年至2014年间国内外教育领域开展的共71项随机干预实验研究。这些研究均以学业表现为主要结果变量，包含了37种具体的干预措施，其中需求方干预10项（涉及17项研究）、学校投入类干预17项（涉及21项研究）、教学教法类干预5项（涉及16项研究）和学校管理类干预5项（涉及17项研究）。由于并不完全掌握成本数据，该表仅以干预效果的大小及显著性对项目进行分类：（1）“有效”干预5项；（2）“多数或经常有效”干预5项；（3）“无效”干预1项；（4）“可能有效但需要更多证据”的干预9项；（5）“暂时无效但需要更多研究”的干预17项。具体内容可参见表5。该表表明，某些干预可能影响效果比较显著，但由于缺少成本数据，我们并不能明确其成本效益情况，例如建设新学校。

二是上述分析也体现出当前成本效益分析存在的局限性。若仅讨论某类干预是否有显著影响效果，可以通过Systematic review、Meta-analysis等方法将多项不同干预根据一定规则加总，计算出平均的影响效果。但在成本效益计算时，尚未形成如何处理此类加总问题的方法。例如，关于学校管理制度的多项干预，有些成本效益高，有些成本效益低，而有些干预效果还不显著。如何将这些不同干预的成本效益加总为一个综合评价指标，并从整体上判断某些干预相对于另外一些干预是否具有更高的成本效益（例如，是否学校管理方面的干预要优先于学校投入方面的干预），这是一个值得思考的问题。因此，成本效益分析方法有待进一步的深入、完善。

五、中国经验及总结

成本效益分析是对项目进行对比的一种重要方法。教育领域大量随机干预实验项目的开展，一方面为成本效益的对比分析提供了条件，随机干预实验使影响效果的评估更为准确，也使成本数据的核算更为精确，从而使成本效益分析更容易操作、更可行。另一方面也对成本效益分析提出了需求，大量有效干预的提出需要对比、选择。本文对基于随机干预实验的成本效益分析的基本概念、基本原则及实际操作过程中可能出现的问题和应对办法进行了总结，明确了成本效益分析的重要方面及注意事项，以期为推动成本效益方法的更多、更规范地使用提供有益的尝试与探索。

本文也对农村教育领域国内和国外开展的随机干预实验项目的成本效益进行了汇总对比。结果表明，与国际经验相类似，计算机辅助学习类项目具有相对较高的成本效益。无论是国际经验还是国内经验均表明，有条件的转移支付类项目（CCT项目）通常成本效益较低，因而并不是值得优先选择的项目。上述对比分析也表明了在借鉴其他经验时，具体问题具体分析、结合当地实际情况合理设计、执行项目的重要性。

基于在中国农村教育领域开展的随机干预实验及上述讨论、总结，为更好地进行成本效益的对比分析，本文建议应注意以下问题：

一是需要注意项目实施过程中对成本数据的保留、项目调研中对成本数据的收集。成本效益分析最重要的环节是对成本的准确核算。一方面，随机干预实验的实施为测量项目的成本提供了条件，但应在项目实施过程中认真留存每一环节的成本数据，从而尽量避免粗略的估算以使成本核算更有据可查、更为精确。另一方面，要对项目成本的构成认真分析，尽量通过实际的调研数据（例如基线调研和评估调研）收集必要的成本数据。例如，对于受益人承担的成本，必须要通过对受益人的调研获得。而对于免费眼镜的市场价格的估算，使用调研数据中样本对象平均购买眼镜价格显然比直接使用估算的市场价格更为合理。

二是要促进成本效益分析的规范化。同样是成本效益分析，统计口径的不同、使用方法的不同等将使结果产生巨大差异。对不同项目进行成本效益对比（尤其是对比不同研究团队项目的成本效益），最重要的前提是要使用相同的成本效益计算方法。在成本效益计算的每个环节中，尽量使用统一的方法或模板。

三是在研究成果中应重视对成本数据的汇报。当前基于随机干预实验的相关研究，多注重对效果的评估，即对“效益”的分析。本文的对比分析表明，仅报告项目的影响效果对于政策选择来说是不够的。目前仅有少量研究报告了项目的成本效益，但即使是这些研究对成本数据细节的报告也相对不足。若不能明确成本细节，就难以判断其成本核算方法是否正确、是否具有可比性。

四是应参照国际经验、结合中国实际，在教育领域开展更多元化的、符合成本效益原则的随机干预实验项目。对于影响效果显著、但成本效益并不明确的干预项目，也应积极尝试，为成本效益对比提供更多证据。中国教育领域可以在如下几方面开展更多研究。一是学校管理类项目。国际经验表明，学校管理类项目具有相对较高的成本效益，但该类项目在中国开展仍相对不足。国际经验为未来研究提供了两个重要方向，一是对教师激励制度的设计，如何合理设计工资制度（例如像企业一样实行绩效工资）、晋升制度等来激励教师的积极性；二是教师的选拔或流转制度，即如何招聘教师、招聘哪类教师、教师的合理流转等，尤其是在当前促进教育资源公平化的大背景下，如何促进城乡之间教育资源的合理流动。二是基于需求方的干预。在教育领域（包括在中国）开展的针对需求方的可转移支付类项目成本效益均不高。结合中国实际，未来基于需求方的干预可以更多地关注儿童的营养健康问题和心理健康问题（校园欺凌、同伴关系等带来的厌学问题等）。三是教学教法类的干预。国际经验表明，教学教法类的干预也具有相对较高的成本效益。但可能因为国内班级规模相对较大（尤其是农村地区）、一些新的教学教法对教师的要求也相对较高，该类项目未能有效开展。中国教育条件的不断改善，为更多样化的教学教法创造了条件、同时也提出了需求，例如更强调启发式的教育、根据学生水平有针对性开展的教育等。根据中国实际，借鉴国际经验，在中国教育领域应促进干预措施的多元化，从而进一步提高干预措施的针对性，在逐步积累成本效益数据的基础上，为探索和发现更符合中国实际、更具有成本效益的政策措施创造条件。

成本效益分析是对项目进行综合评价的一种重要方法。虽然目前该方法仍有许多不完善之处（例如，如何将多个项目的成本效益加总），在推广使用的过程中也有诸多阻碍（例如，如何推进使用相同的成本效益计算方法），但在随机干预实验开展过程中更为重视成本效益分析并使其成为随机干预实验项目分析必不可少的一部分，仍是未来随机干预实验项目的重要发展方向。

上一篇：教育精准扶贫中随机干预实验的中国实践与经验（下）

下一篇：打开教育政策研究的“黑盒子”——基于理论的影响评估在随机干预实验研究中的应用

通知公告