【文献综述】健康经济学评价中的产出结果及其社会价值研究-医家园

　　【摘要】随着经济学理论和研究方法的发展，以及人们对健康的认识和医学模式的转变，健康经济学研究中的产出结果评价研究无论在广度上还是深度上都得到了扩展和加强。本文在介绍近年来基于偏好理论和可行能力理论的产出结果评价体系和方法前沿研究的基础上，重点总结和分析了有关选择建模及其实验方法和工具的开发与应用研究，为我国未来开展全面深入的健康经济学评价研究提供了依据和借鉴。

　　【关键词】健康经济学评价；可行能力理论；质量调整生命年；离散选择实验；ICECAP

　　※基金项目：国家自然科学基金面上项目（编号：71473202）；国家社会科学基金项目（编号：16BGL097）

　　健康经济学评价作为决策者合理配置资源的重要依据，相关研究目前得到了世界各国的广泛重视和应用。近年来，随着现代医学科学、行为科学以及经济和管理科学的发展，研究的内容越来越丰富，研究的角度也越来越广，健康经济学评价研究不再局限于欧美等发达国家，已开始广泛用于研究亚洲、非洲和南美等发展中国家的健康经济问题。

　　根据产出结果评价方法不同，健康经济学评价主要包括成本-效果分析（Cost-Effectiveness Analysis, CEA）①和成本-效益分析（Cost-Benefit Analysis, CBA）。随着人们对健康认识以及医学模式的转变，健康产出结果评价无论在广度上还是深度上都在不断加强。相关的评价体系从单一的疾病角度评价客观的临床生理指标，扩展到多维度的心理、社会、环境以及精神信仰等主观感受，相关的理论也层出不穷。相比之下，健康经济学评价中有关成本测量问题虽然仍然存在某些争议，有关的测算方法也在不断改进，但是近年来的相关研究并不多。因此，本研究重点总结和分析用于开展健康经济学评价的产出结果的理论、方法和工具的前沿研究，以为我国深入开展健康经济学评价提供依据和借鉴。

　　CBA研究主要基于福利理论（Welfarism），通过运用市场的显示偏好（Revealed Preference）或声明偏好（Stated Preference）数据及相关方法测算WTP，以货币价值的形式评价健康给社会和个人带来的整体收益，涵盖了健康结果以及非健康结果的总体收益[1]。

　　传统的WTP评价工具主要运用依赖市场数据的显示偏好方法，根据人们通过市场选择提供的证据，反映出人群对病死风险的WTP或受偿意愿（Willingness to Accept,WTA），指导政府制定和评价环境、安全和健康等公共政策。但是，这种方法主要探讨统计学意义上的生命价值（Value of a Statistical Life,VSL），而由于个体差异，这些统计学的价值如何应用在不同人群，尤其是濒临病死等特殊人群，尚不确定[2]。另外，由于健康与卫生领域的特殊性，通常无法取得市场数据，或者由于市场数据的局限，无法有效控制真实世界中相互关联和反馈的各种变量，导致结论存在偏差。因此，WTP的研究经常采用声明偏好法，即采用事前评估的方法[3-4]，主要包括权变评价法（Contingent Valuation Method,CVM）和选择实验法（Choice Experiments Method,CEM）。CVM中除了开放式的调查法（open ended,OE）外，还包括二分选择（dichotomous choice,DC）和支付卡（payment card,PC）等方法。但是CVM存在顺序排列和不敏感性等问题[5-6]。

　　由于传统评价工具的局限，CEM或选择建模（choice modeling）的方法近年来在WTP的应用得到了飞速发展，主要包括利用离散选择实验（Discrete Choice Experiment, DCE）和最高最低标度法（Best-Worst Scaling,BWS）。这类方法是基于丹尼尔（Daniel）（1972）的随机效用函数理论（Random Utility Theory）而构建出的偏好提取工具[7]。有研究发现，这种方法比权变评价法要更加灵敏[8-9]，并具有很好的外部有效性[10]。

　　在众多的运用DCE模型开展健康经济学研究的文章中，有关WTP的研究主要通过DCE来估算疾病治疗方案或者药物治疗的偏好得到WTP[11-18]。也有研究探索其他医疗保健干预措施以及老龄人长期护理的偏好和WTP[19-20]。Prosser等[21]（2013）在研究不同年龄人群流行性感冒导致的生命质量中，发现运用DCE得到的WTP要高于运用时间权衡法（Time Trade-Off,TTO）的WTP。Grutters等[22]（2008）则通过DCE方法比较了WTP和WTA的差别，结果发现边际WTA相比边际WTP具有显著统计学差异，在实施新干预措施时推荐使用WTP进行评估。

　　近年来运用DCE来评价WTP的相关研究比十年前有所减少[23]。有研究认为，早期使用DCE方法估算得到WTP的实证研究中，由于没有考虑到个体对每个选择相的不确定性，因此与随机效用函数理论不符合，在衡量社会福利时有所偏差，并提出了新的测算方法[24]。也有研究提出，不仅DCE问卷框架的设计会影响对WTP估计[25]，DCE的假设性可能因受访者不会被其所作选择约束而阻碍了对WTP的正确估计[26]。另外，DCE推出的意愿支付价值中假设收入的边际效用为常数DCE，而这一假设有时并不成立[27]。最后，DCE实验设计中有关费用和选择项的不同也会影响WTP的结果[28-29]。

　　BWS最早是在1992年的一项评测食品安全多个属性的公共偏好中发展起来的，并在此领域得到广泛应用[30-31]。但直至2005年，随着BWS的心理学和数学基础理论得到证明，BWS才在卫生经济和政策研究中得到推广[32-33]。BWS与DCE的研究方法类似，但回答BWS比回答DCE的认知负担要小很多，更简单易于操作，通过BWS得到的结果内容也比DCE更丰富[34-35]。因此，其应用也越来越广泛[36]。但目前使用BWS来进行WTP提取的研究很少。在一篇关于评价助产士带有母婴产品对消费者偏好影响的文献中，Lahtinen等[37]（2016）通过对215名消费者调查并利用BWS-2方法成功进行了意愿支付的提取，研究表明助产士代言能够增加消费者对母婴产品的接受承受度并提高WTP。Marco等[38]（2013）对223名酒精消费者调查，通过BWS方法提取了头痛综合征患者在其他条件不变时每瓶酒避免添加亚硫酸盐的WTP。

　　与CBA不同，这类研究通常基于额外福利理论（Extra-Welfarism）。相关的健康结果通常不以货币形式表示，而是基于与健康相关的QOL或HR-QOL的质量调整生命年（quality adjusted life years，QALYs）。由于QALYs可以同时评价健康干预对患者的生存时间和生存质量的影响，目前已广泛应用于CBA分析的研究中。

　　虽然，有关测量QOL的传统工具以及相关权重提取法的理论和方法在不断完善和改进，但是也倍受质疑[40-42]。Østerdal[43]（2009）认为运用个人权衡法（PTO）作为质量调整因素来测算QALYs时违背了帕累托原则，因此缺乏规范与合理性。McCabe等[44]（2006）提出新的运用序列数据来测算健康效用函数。结果显示这种方法比TTO和SG更合理有效。Abellan等[45]（2009）通过比较分析预期理论和期望效用，发现其在多期健康效用的差别，提出应用SG来衡量健康价值是不合理的。另外，这些传统的基数偏好提取方法对某些人群产生的认知负担也较强，从而限制了有代表性权重值的获取。

　　随着选择实验的发展，利用DCE方法来提取QOL权重变成了现实。DCE提取QOL权重技术，比传统的方法更简单、更方便，但是也存在一定限制，如一般的DCE数据无法像传统方法那样固定0值代表病死，1值代表完整的健康[46]。所以Bansback等[47]（2011）结合了DCE和TTO两种技术（DCETTO），来为EQ-5D估计健康效用的权重值，同时在调查中也单独测试了TTO，并比较DCETTO和TTO的结果。此研究发现了DCETTO方法能够得到稳定且一致的权重估值，而且是建立在与传统方法相同的固定0和1标度的基础之上，DCETTO方法将能够提供代表性人群对不同的健康偏好权重的稳健估值。

　　目前，也开始有研究利用BWS的方法提取QOL权重。Ratcliffe等[48-49]（2011、2016）先后应用BWS开展了对青少年的健康状况评估研究，发现BWS双选项研究可用于生成在青少年人群的健康状态值。Rudd等[50]（2011）通过BWS分析了有关人文、艺术和社会科学的相关研究（HASS）对于提高QOL的影响。也有研究比较了多选项的BWS和双选项的DCE。Xie等[51]（2014）在提取EQ-5D中受试者对不同健康状态的偏好，发现因BWS比DCE会带来更高的认知负担，故DCE比BWS的可靠性会更好。

　　在上述有关QOL测算方法的基础上，健康经济学家们也在不断探索如何衡量QALY的社会价值[52-53]。虽然，一直以来有关如何将CEA和CBA整合的探讨存在很多争议[54-55]，但是由于现实公共政策决策的需要，大量研究试图通过传统的CVM方法将QALY货币化，通过测算单位QALY的WTP（WTP-Q），来为评价和选择不同的医药卫生服务项目提供基础[56-57]。该类研究主要针对患有不同疾病的患者开展问卷调查，将传统的CVM测算WTP方法和SG或TTO等测算QALY的方法整合在一起，开展WTP-Q的分析。目前，基于DCE测算WTP-Q的研究极少[58]，尚没有相关的BWS研究。虽然WTP-Q的方法很实用，但是根据不同研究工具和测算方法的研究结果差距较大[59]。

　　也有研究根据传统VLS方法，通过测算统计学意义上可预防的死亡（VPF）和可预防的严重伤残（VSI），结合QALY的偏好测量，来衡量健康结果的社会价值[52,59]。由于人们从自我还是社会的角度来评判健康的价值是不同的，因此如果通过个人调查测算QALY的人群权重分配以及相关的社会福利问题[61-62]。

　　用QALY作为评价健康产出结果的社会价值仍存在诸多问题。由于与健康相关生活质量的测算工具所选择的测量维度可能与干预措施的侧重点不同，因此导致测算体系的敏感性偏低，包括测量心理健康[63]、公共卫生项目等[64]。另外，由于患者具有一定承受能力，其主观感受无法正确体现社会价值，而导致结果的偏差[65]。也有学者认为QALYs忽略了决策者应考虑的重要因素（如公平性、国家和地方的优先项目以及公众的可接受度等），因此无法体现和衡量医药卫生服务和公共卫生项目等给整个社会带来的价值[66-67]。

　　可行能力的理论和方法已经广泛应用于研究不平等、公平正义以及贫困等问题中[68]。近年来，由于医药卫生、公共卫生以及社会关怀等干预手段越来越复杂，干预效果也不仅仅局限于健康领域，而是涉及了人类生存和幸福多个方面，包括也会带来独立性、尊严以及更多的社会交往能力等。因此，也有学者探索将Sen[69]（1993）的可行能力理论（Capability-Approach）应用于健康经济学评价的结果评价中，开发并建立了多种测量工具，如针对老年人的广义QOL指标测量体系（the Investigating Choice Experiments for the Preferences of Older People Capability-Approach,ICECAP-O）和针对成年人的广义QOL指标测量体系（ICECAP-A）[70]。基于可行能力理论的ICECAP不仅可以从多个维度测量比较医药卫生干预、公共卫生以及社会关怀等带来的个体和群体的福祉变化，而且可以弥补长期以来针对QALY和WTP中有关不同人群的权重问题。因此，相关的理论和方法也逐渐被越来越多的健康经济学家们认识、开发和推广。

　　与传统的基于序数效用理论的福利经济学不同，可行能力理论提出从功能与能力角度来评价人类的福祉，包括人类生命活动中有价值的多维度功能与能力的组合，而不仅局限于与健康相关的QOL。同时，基于可行能力理论的分析方法可以衡量不同人群之间的QOL差异。因此，该方法不仅可以更加广泛地衡量不同医药卫生以及其他健康干预措施之间的差异，还可以为决策者制定公共政策、解决健康不平等问题提供理论基础和实践依据[71]。

　　虽然，基于额外福利理论的QALYs评估方法也借鉴了可行能力理论中不以个人的最终效用来衡量QOL的理念，但是大量的实证研究主要局限于与健康相关生命质量的测量（HR-QOL），无法为合理配置资源提供强有力的理论基础[72-74]。因此，近年来前沿研究开始探讨如何将可行能力理论与健康的特殊性相结合，应用在健康经济学研究中，并与QALYs分析相结合[75-77]。也有学者在理论上分析了如何基于可行能力理论和额外福利理论的框架来评估可行能力集合，并测量QALYs的影子价格[78]。

　　Grewal等[79]（2006）率先从依赖感、角色感、安全感、快乐感、控制力共5个维度的功能性活动来测量老年人的QOL。研究发现，个体的QOL主要受这些能力降低的限制，而不是健康下降直接导致的。在此基础上，Coast等[80]（2008）以可行能力理论为基础构建了针对老年人的ICEpop CAPability指数（ICECAP-O），度量健康和社会关怀对老年人QOL的影响。该研究通过调查英国指标体系将拥有依赖感、悠闲感、安全感、快乐感、和控制能力等5个维度功能性活动作为可行能力列表，采用BWS模型分析老年人的QOL。研究发现，拥有良好的人际关系在5个维度对可行能力测算的贡献最强，其他4个维度也均有贡献。与传统的与健康相关的QOL不同，QOL能够更准确地反映健康对人们的总体福利水平的影响。该评价指标可以用来比较健康服务和社会关怀之间的资源配置，而不是仅仅局限于医药卫生领域。

　　大量的研究进一步对ICECAP-O的可信性、有效性和可行性等进行了研究[81-85]。Makai等[86]（2015）运用荷兰老年人综合服务的数据分析比较了ICECAP-O和EQ-5D的差别。研究发现，基于ICECAP-O测算成本-效益的概率要高于基于EQ-5D的结果。

　　Mitchell等[87]（2015）也分别对澳大利亚、加拿大、英国和美国5248名健康者以及患有抑郁症等7种慢性疾病的患者展开了ICECAP-O和EQ-5D-5L的问卷调查。研究结果显示，不同疾病对于能力和健康的影响不同，基于能力的QOL与基于健康的QOL测量结果有显著差异，尤其是病情比较严重的患者。

　　Al-Janabi等[88]（2013）在ICECAP-O的基础上，又进一步探索构建针对成年人的自评能力测量的指标体系（ICECAP-A）。研究发现，与影响老年人可行能力相关福利的5个维度不同，依赖性、稳定性、成就感、自主性以及快乐感对成年人更为重要。Flynn等[89]（2013）进一步运用BWS方法对ICECAP-A中的维度指标进行权重估值。通过调整异质性后的结果显示，依赖性和稳定性各占22%权重，另外3个维度各占18%。Al-Janabi等[88]（2013）和Keeley等[90]（2012）也对ICECAP-A的有效性等进行了研究，认为ICECAP-A可以用来分析不同人群的QOL。

　　Davis等[91]（2013）和Keeley等[92]（2016）也分别将ICECAP-O和ICECAP-A与EQ-5D进行比较。研究发现，运用这两者工具的结果有所不同，可以互为补充。此外，基于可行能力的测量工具也逐渐被开发运用在不同国家的公共卫生服务[93-94]以及骨关节炎[95]、心理疾病[96]和慢性疼痛[97]等不同疾病干预手段的结果研究中。近年来，也有研究在基于可行能力理论测算QOL结果的基础上，进一步挖掘研究充分能力和完整能力年等产出结果，为进一步开展健康经济学评价提供基础[87,89]。

　　目前，有关健康经济学评价中的结果分析方法的理论和实证研究层出不穷。虽然，以QALY为代表的CEA健康结果研究目前仍广泛应用于健康经济学评价中，但是由于其相关理论基础一直存在争议，大量研究正在不断开发和使用其他研究方法。以WTP为核心的CBA研究也随着DCE和BWS方法不断改进，得到了一定的推广。然而，由于WTP方法受到支付能力等的限制，其评价结果如何体现公平性，仍需要深入研究。以可行能力理论为基础度量社会福利状况和社会发展水平的基本思想和方法已广泛运用于人类发展研究中，如由联合国开发计划署构建的人类发展指数（Human Development Index,HDI）等指标，以及评价公平等公共政策。由于其在健康经济学评估的应用才刚刚起步，相关的研究主要集中在评价指标体系的开发以及信度和效度的检验上。虽然，基于可行能力的ICECAP指数的开发具有很强的理论基础。但是在实际操作中，反映总体福利的QOL会受到诸多因素的干扰，未来研究需要深入分析这些因素对结果影响的偏差，并进一步将其广泛应用在与人类福祉和生命质量相关的健康经济学评价研究中，为决策者提供从社会福利的角度研究和评价医养结合等公共项目的可行依据。目前，我国尚未运用可行能力理论开展健康经济学评价的研究，因此也需要探索符合中国国情的相关研究。

　　DCE已广泛应用于WTP、QOL以及QALY的权重研究中。与DCE相比，BWS的研究虽然起步较晚，但在测算健康结果方面研究的内容更丰富，而且更为简单，具有实际操作性，并且已应用在ICECAP的权重分析中。因此，有关BWS的研究方法在健康经济学评价研究中具有很大的发展空间。在今后的研究中，继续比较DCE和BWS在估计对不同健康状态的偏好权重上的一致性和准确性将是一个值得探讨的领域。

　　健康经济学评价是一个多交叉的学科，只有全面系统地开展多学科的交叉研究，未来健康经济学研究才能更好地为健康政策提供理论和实践依据。因此，未来的健康结果研究，首先需要明晰健康的界定，重新认识身体、心理和精神等多维度的关联，并深入分析健康和影响健康因素之间的关系，如人类不同生命周期中教育和社会关怀等的重要作用。其次，需要从经济学角度重新审视健康、幸福、效用以及财富等社会价值的判断。同时，需要进一步引进经济学前沿理论和方法，包括行为经济学和制度经济学等，更好地指导如何解决信息不对称等问题，指导个体健康行为的改变以及公共政策的制定。

　　①成本效用分析（Cost-Utility Analysis，CUA）本质上也是一种CEA，CUA和CEA唯一的差别仅在于前者测量了健康的多个构面、维度，故本文对两种评价方法不做区分

　　②由于权重提取技术是基于期望效用函数发展出来，此权重也经常被称为对不同健康状态的偏好权重，或偏好权重

　　作者简介：徐程（1971-），教授，博士学位。研究方向：卫生经济、健康治理、公共政策与管理、医药卫生体系