李朝：量化法治的权利向度--法治环境评估的构建与应用-法治政府网

法治政府研究

当前位置：首页 -> 学术资源 -> 行政法学前沿 -> 法治政府研究 -> 正文

李朝：量化法治的权利向度--法治环境评估的构建与应用

信息来源：《法制与社会发展》2019年第1期发布日期：2019-06-15

【摘要】当前，国内量化法治多集中于法治实施评估，在树立“典范”的同时，也受到规范法治路径与方式的“束缚”。与法治实施评估相比，法治环境评估在评估目标、内容设置、指标选用、方法技术上均有不同，侧重于“权利实现”中法治资源的供给、分配及具体应用。法治环境评估以权利为向度，可跳出公权力运作的“评估黑箱”，提供法治需求侧的真实讯息，激活公众的有效参与，加强国际交流与合作。以往评估实践忽略了法治环境评估的类型特征，存在忽视待评对象“专属身份”、与法治实施评估“混同处理”、“数据孤岛”以及评估质量管理“半程而止”等问题。中国法治环境评估应做到内外部“同步优化”，既要向内完善权利测度的指标建模、抽样方案修定以及评估质量管理，也要向外推动多元数据之间的深度合作，衔接法治大数据的资讯入口，不断拓宽评估的“成长空间”。

【关键词】量化法治；法治环境评估；权利指标；“数据孤岛”

一、量化法治的视角转换

法治作为国家治理的主要方式，受到世界各国的普遍认可。在不同国家的法治实践中，政府部门大都积极尝试建立法治常态化标准，明确区分法治的正常状态与异常值，以便发现、规避与改造其中的“非常态”事件。[1]在这一背景下，量化法治得以勃兴。量化法治是以指标技术和现代统计方法为分析工具，以数字化形式展现实践中法治运作的公共参考系统。早在1979年，美国斯坦福大学法学教授梅里曼等人在“法律与发展研究（SLADE）”中就以定量方式，从机构、工作人员、程序和消耗资源四个角度测算不同国家法律制度的实践运作状况。[2]上世纪90年代以来，“全球自由评估”、“全球廉政指标（GII）”、“世界正义工程（WJP）法治指数”等一大批量化法治项目相继涌现，通过知识图表简化了人们对法治实践形态的认识与理解，产生了巨大的国际影响。借助量化法治，人们期待可以更为精准地描述法治的整体样貌，控制法治进程中的“变异”因素，使法治发展变得更加有规可依、有迹可循。

在中国，量化法治的兴起不过十几年，但以量化方式展开的评估活动却呈现出规模化的“聚群效应”，出现了不同省市地区的多个法治评估类项目，建立了多个以量化法治为主题的研究基地，还有学者就量化法治的理论与实践进行了深入的调研、勘察与评价。为实现有效的干预调控，已有的量化法治多集中于法治实施评估，即通过指标技术建立计量性的评价标准，评测法治实施是否遵从制度安排，以及在多大程度上完成预期目标。[3]近年来，法治实施评估被广泛应用于评测、监督与管理法治建设过程中的关键环节与重点事项，查找现实运作与预设目标之间的差距，发现法治实施与执行中的具体问题。代表性项目有“浙江余杭法治指数”、中国政法大学法治政府研究院的“中国法治政府评估”以及四川、湖北等地的多个地方法治评估项目等。

法治实施评估在树立“典范”的同时，又“束缚”了量化法治在法治实证研究中的进一步拓展。其“典范”具体体现在两个方面：其一，以量化技术降低了法治运作的理解成本，为决策者全面了解不同阶段、时间的法治任务完成情况提供了测量可能。其二，采用统一的计量评价标准对法治末端事务进行监控，保证了法治建设的“全国一盘棋”。而“束缚”则体现于，法治实施评估会持续进入规范层面，沿着政策法规的顶层设计、规范体系展开操作化，要么分类别、分领域对立法、司法等活动作出专项评估，[4]要么在评估方法上大做文章，以数据获取的技术革新突破现有范式。[5]虽说这两种作法有重要意义，但却相对固定化，主要为了让量化技术与制度运作之间更加契合，确保法治建设的执行管理与监督更为精确、便利。但在对制度执行与科层管理进行查究与修正的同时，法治实施评估远没有延入法治的生活场景内，缺乏对法治社会的回应性关照。“制度必须和特定经济、政治、文化、社会中的人的行为相结合来展现其效果”。[6]封闭于体制内部的评估是否切实可靠？制度的有效运作能否真的增加公众的法治福祉？对此，评估无法自证，也难以给法治改革提供具有前瞻性的意见。

“法治是消耗资源的，包括法律资源，而任何社会的任何资源都是有限的，因此就有个问题，应当把这些资源放在法治的哪些方面?”[7]习近平总书记在学习贯彻党的十九大精神研讨班开班式上指出，“时代是出卷人，我们是答卷人，人民是阅卷人”。聚焦于法治供给上，人民群众的需求才是调配法治资源的决定性因素。为此，我们有必要转换一下视角，展开一场“换位”思考。“换位是一种‘看到’世界上隐藏着的事物的方法”。[8]要准确描绘中国法治的真实水平，判断法治资源供给与分配的合理性，我们有必要跳出既有制度的藩篱，从人民群众的视角看待、审视和评价法治的实践样态。那么，能否有一种评估类型，既能保持量化法治的先进性，又能跳出“对‘法治’保持的原教旨主义的僵化理解”，[9]不再囿于政法体制运作的绩效考核，在以实效为导向的法治位面从事知识生产，为国家干预提供更好的助益呢？

本文关注的是近些年出现的部分法治评估项目，有别于以“实施意见”等官方文件为指导，以绩效考核为主的法治实施评估，它们以量化法治为名，采用统计技术，但并不围绕着法治制度运作的规范性与严格性展开，而是转向法治资源为公众权利实现提供的整体化环境。我们从经验材料中将之剥离出来，概括为法治环境评估，[10]并将其作为与法治实施评估有着形式和功能分野的类型形态。那么，作为一种新式的评估类态，法治环境评估有哪些特征？其与法治实施评估的区别何在？我们如何看待、理解法治环境评估的正当性？既有中国法治环境评估的设计、操作与应用中又存在哪些问题和认知误区？主文分为四个部分，通过对国内外法治评估项目的实证考察，分别对这几组问题作出归纳与解释，然后对法治环境评估在中国语境中的精准应用作出构建，从中发现量化法治的“可成长性”。

二、法治环境评估的权利性侧重——与法治实施评估的区别

无可否认，法治实施评估将整个法治实施过程纳入到制度与规范的约束之下，使得法治部署与规划的执行落实处于可控范围之内，具有积极的现实意义。但是，该类评估一方面无法准确洞悉法治对社会塑造的实际效果，可能出现唯绩效化、数据失灵等一系列问题；[11]另一方面，也会遗漏来自法治实践中的知识生产，忽视改革转型之际人民群众日益丰富和多元化的权利诉求。正因如此，学者们也在不断呼吁和尝试其它形式的量化法治，以评估的多元化应对法治的复杂性，提高量化法治的包容性和应用效益。法治环境评估正是在这场量化法治的多元化运动中孕生的技术产品。其中，国内代表有中国政法大学法治政府研究院的“司法文明指数”、中国人民大学法治评估中心的“中国法治评估”等项目。

对比两类评估，在评估目标上，法治实施评估聚焦于公职部门及其人员的职权行为是否按照预先设定的法治目标完成任务。例如，《四川依法治省指标体系（试行）》开篇指明，“为科学评价依法治省目标任务的实施成效，根据《四川省依法治省纲要》的规定，结合实际，制定本指标体系”。[12]再如，“人民法院基本解决执行难第三方评估”将《关于落实“用两到三年时间基本解决执行难问题”的工作纲要》中的四个工作目标与八项任务化约为评价标准，测算司法执行工作的完成度。[13]但是，法治环境评估重在观测法治是否或在多大程度上为公众权利行使提供了可利用资源。例如，“司法文明指数”将“公众满意与认可”作为判断“公正司法”和“司法公信力”的最高标准，提出“从普通人的视角，调查和评估可能影响人民群众日常生活的司法文明状况”。[14]

在评估内容上，法治实施评估偏重于权力规制的有效性，将公权力是否依法行使，是否有不作为或权力滥用情况作为考察要点。例如，“四川依法治省指标体系”在“依法行政”一栏中列入“职责权限依法确定”、“行政执法行为规范”等维度。[15]诚然，部分法治实施评估也涉及到权利保护事项的考察，例如，“中国法治政府评估”包含了“社会公众满意度调查”维度，但观测点仍集中于“当地政府依法履职的情况怎样”、“当地政府‘乱收费’的情况怎样”等问题，[16]这实际上是从公众权利获得的角度审视与评价政府权力是否正当行使并受到有效规约。而法治环境评估则以不同权利的实现状态及权利保护的法治条件为重点。例如，“司法文明指数”在“民事司法程序”一栏中提出“法院对民事诉讼中贫富不同的当事人‘不偏不倚’的可能性”、“法官强迫当事人接受调解的可能性”等五个指标，将司法程序评价集中于当事人程序权益的保护上。[17]再如，“江苏法治社会建设指标体系”将“完备的法律服务体系”、“依法维权和化解纠纷”等作为主要议题，[18]对法治资源供给及其在个体维权中的运用状况作出考察。

在指标选用上，法治实施评估以“制度指标”和“绩效指标”为主，包括法律建制与机构增设、制度效益与程序遵从等。例如，“中国法治政府评估”在“行政执法”一栏中既设置“执法流程细化”、“执法信息平台建设情况”等制度指标，也设置了“执法人员清理状况”、“违法行为投诉体验情况”等绩效指标。[19]而法治环境评估以“权利指标”为主，集中在公众权利行使及实现效果等方面。例如，“中国法治评估”以“公开批评政府和官员的言论受到法律保护”、“公民享有法律所规定的结社自由”等权利指标测算公众实际获得的表达自由权等。[20]当然，法治环境评估也不排斥部分与权利保护有密切关联的绩效指标，例如，“司法文明指数”就纳入了“宣告无罪案件数”、“排除非法证据案件数”等指标。[21]这些用于控权的绩效指标也可以映射出权利保护的实际状态，提供判断法治环境优劣的某种参照。

在技术方法上，尽管多种统计技术可混同并用，但二者在数据来源上有所不同。法治实施评估以统计数据为主，例如，“基本解决执行难评估”主要通过司法信息平台获取“执行公开率”、“执行完毕率”、“信访投诉率”等方面的统计资料。[22]而法治环境评估以调研数据、专项访谈为主，例如，“中国法治评估”采用抽样问卷调查形式，收集内地29个省、直辖市、自治区的3983份公众问卷、231份专家问卷与211份执法者问卷，将公众和利益相关者的感受、体验与主张作为讯息来源。[23]

在形式与结构不同的背后，实则蕴含着二者的功能差别。在法治实施评估中，“党和政府是法治建设的设计者和指导者，同时政府权力也是法治的规范对象”，[24]所有评估目标、内容设置、指标选用与方法技术都被用于规范与限制公权滥用，服务于对党和政府规划与部署的考评监管。《四川省法治建设状况评估办法（试行）》就提出，“把评估结果运用到干部选任、绩效考核、约谈整改等方面，实现以评促改既定目标”。[25]而在法治环境评估中，“法治中国建设就是力图建立起法治与公民生活之间的内在真切联系，更加看重法治的实效性及其对公民寻求生活意义的促进作用”，[26]评估侧重于法治提供给人们的各种福利，以及社会风尚和法治氛围的总和。而这些法治供给集中体现在个体权利的践行之中。[27]只有对公众与利益相关者的正当权利诉求及实现状态作出全面考察，才可测算法治资源中“可定义和衡量的产出”，[28]甄别不同地区法治环境质量的优劣所在。

在国际评估场合中，“以权利为中心”的法治环境评估也是主流和发展方向。以“世界正义工程（WJP）法治指数”为例，该项目在2017年—2018年指标体系中设置了“开放政府”、“基本权利”等八项维度，与2008年首次发布相比，有两个明显的变化：[29]其一是与“权利保护”相关的指标的权重增大。与“权利保护”相关的二级指标不再限于“基本权利”维度内部，还分布在“有序与安全”、“民事司法”等多个维度之下，二级指标占比也从2008年的43.75%上升至2017年的52.27%。其二是实测重心向“权利可获得性”迁移。以与“权力行使”相关的指标为例，2008年的评测重点在于“政府及其官员、代理人能否依法行事”，而2017年的评估更关注“政府信息公开的可获得”、“公民参与公共决策”等，权力行使是否有助于权利的实际获得成为评测焦点。

在专项国际评估中，这一权利性特征更为明显。以自由之家的“全球自由评估”为例，该项目立项时就指明“并不针对政府或政府绩效，而是对公民实际享有的权利和自由进行评估”，[30]把“法治”维度分解为“免受警察的恐吓”、“不公正监禁的保护措施”、“法律面前是否人人平等”等司法人权问题，考察评估地区或国家能否提供便利个体自由的法治环境。这种做法也频现于“人权责任指标（HRI）”、“营商环境评估（DB）”等多个国际项目中。但凡涉及法治评估，评估重点大都被放在法治资源能否满足权利保护与维权行动上，对公众和利益相关者的政治、安全、自由及其它权利的实现条件、实现程度进行调研，使人们在区域内或跨区域交流中获得某种关于“法治环境”的参照标准。

三、基于权利向度的中国法治环境评估之正当性

“不论在何种情况下进行评估，都需要使其有意义的先决条件”。[31]在法治环境评估开启时，我们有必要论证此类评估展开的正当性与价值所在。否则，一旦出现不合理的评估产出，将会浪费评估者的大量时间、精力和资源而毫无意义。

（一）跳出公权力运作的“评估黑箱”

多数法治实施评估项目集中在“政府是否透过法律和在法律之下行事”，[32]其它法治价值标准几乎难以渗透到具体指标设项中。然而，公权力运作并非简单的“整齐划一”，而是长期处于结构性的动态变化中。以“依法执法”维度为例，法治实施评估主要测量“执法人员的法律水平”、“是否存在违规乱纪”等“共同在场要素”的权力分配与执行，[33]而隐匿于后台的执法变量，比如科层体制中不同部门的合作困境、执法者个体经验造成的执法差异，以及制度纵向传递中的法律损耗，[34]都会生成权力运作的多种面孔。法治实施评估对此却无从识别，这也成为法治实施评估尚未破译的“评估黑箱”。

法治环境评估集中于个体化权利的满足与实现。与公权力的运作不同，不同权利是相对独立的、公开的和明确的，没有价值上的位阶关系或优先顺序，[35]在实践中也不存在隐性的运作逻辑。就法治环境评估而论，权利保护虽已获得世界范围内的法治承诺，但从法定权利到实然权利的转化是一个无比艰巨的过程，甚至可以说公民权利没有完全实现的状态，而处于不断提升之中。从不同类型权利的可获得性、使用限度及具体实现角度去审视与评价法治环境质量，既可有效规避公权力运作的复杂关系，也可获知法治资源在不同权利主体之间分配、流转与利用的总体状况。尤其重要的是，“权利是与主体相关的”，[36]其种类、特征和应用依附于特定的权利主体。借助法治环境评估的观察和勘验，吸收和总结来自不同权利主体的感受、体验和判断，既可有效消解当前“权利话语”的情绪对抗，[37]亦可吸纳权利实践中的经验做法，赋予法治中国以新的意涵。

（二）提供“法治需求侧”的鲜活讯息

改革开放以来，以“法律移植”为主的建制方案得以推广，我国开始大规模、密集性地制定各项规范，创设不同机构部门。[38]政府主导的“自上而下”的法治路径，在短时间内促成了法律在制度市场上的垄断，实现了制度配置的“集群效应”，巩固了刚起步的市场经济，也提升了公众的法律意识。但时至今日，社会转型不断升级，批量生产的制度产品大幅闲置，社会矛盾却未得到准确回应，制度供给与法治需求之间出现一定程度的不匹配。然而，着力于制度绩效的法治实施评估更像是“过去政府法治工作总结和工作部署的某种延续”，[39]在承担制度执行监督的同时，几乎不能将触角伸出既有制度的边界，给法治供给侧改革提供有解释力的建议。

与之不同，法治环境评估立足于法治需求侧，从需求角度看待和理解不同外部条件约束之下的法治实践样态。[40]法治的根本目的在于对公民的生命、安全、尊严、自由等价值需求的满足，故而“观察我国的法治发展，不能看政府发了多少文件，而是要看老百姓权利及其实现状态的变化情况”。[41]由于地理区位、经济水平、历史传统、非法律规则等方面的不同，不同权利主体的法治观念、权利主张和维权行为有所差别，对不同法治资源的需求层次、关注重点也不尽相同。在法治需求侧，法治环境评估将公众作为法治产品的消费主体，从人们的心理认同、生活方式与行动实践中了解、发现有代表性的权利诉求及其实现状态，用以判断不同法治资源的分布与供应质量，可映射出有“法”无“治”的关键细节，助力决策者形成更有针对性、科学合理的法治资源分配方案。

（三）激活公众与利益相关者的有效参与

“公众的评论和利益相关者的会晤是保证程序民主和公正的最好方式”。[42] “世界正义工程（WJP）法治指数”受到赞誉的一个重要的原因就在于它更重视公众参与的动机和方式，并以公众与利益相关者的意见表达为全部讯息来源。在我国，公众多以外部主体的身份参与到法治实施评估中，并被视作社会治理民主化的一种表现。[43]然而，此类评估以官方数据为主，所得结论也多在政府内部使用，承载公众意见的指标数量不仅较少，且限于对既设制度执行落实与否的外部观察与评价。更重要的是，参与评估的公众具有随机性，由无从业经历、评判能力弱的普通公众来从事精密、专业的制度考核与监督，更像是为了获取委托方的好感而贴上法治与民主标签的“形象工程”，这阻断了公众的实质性参与。

在法治环境评估中，公众参与得到了重新诠释。“从利益迥异的‘私人’到具有一定公共性的‘公众’，在普遍意义上很难说只谈付出的公共精神的驱动。个人利益关联才是‘公众’的‘黏合剂’。”[44]质言之，评估只有集中优先服务于公众与利益相关者，才能最大限度地增强他们的参与动机，提升参与效果。法治环境评估以评估区域内部的公众和利益相关者为调研对象，始终围绕着与受访人群切身利益有密切关联，个体认知和行为体验最为熟悉、最为深刻的权利项展开,既激活公众的热情与兴趣，扩大了参与范围，又保证“问题的可回答性”，[45]提高了公众参与的质量，有效避免参与形式与实质的断裂。

（四）为加强国际法治交流与合作提供便利平台

伴随着现代文明进程，世界上已有180多个法治国家和地区，法治也已成为全球范围内的“公共话语”。以“世界正义工程（WJP）法治指数”为代表的国际项目，一方面对不同国家或地区作出法治排序，激励与共同推进法治全球化，缩小不同法治国家或地区之间的“法治差距”，为跨国贸易或交往建立某种稳定、可靠的社会条件；另一方面以有利于核心区国家的法治观为蓝本，不断向半边缘区、边缘区国家输出“标准”，来固化既有的国际关系格局。[46]

中国正在从半核心区国家步入核心区国家。如何树立国家的法治形象，在法治领域拥有更大的话语权和议程设置权，很大程度上将影响到我们在国际社会的合作空间和机会。由于地域、文化传统和政治体制的差异，我国在与其它国家之间的交往活动中难免出现分歧与误解。法治环境评估以国际社会共同追求的权利保护为切入点，以具体权利项的实现与否或实现程度为评测目标，可以“存异求同”的方式越过地方性差异，实现更大范围的、彼此可接受的法治交流与合作。比如，“司法文明指数”就提出“期冀在‘保证公正司法，提高司法公信力’方面发挥积极作用，以推动中国在‘世界法治指数’国家中排名的提升”，[47]对标国外法治评估，加强沟通交流也是该项目的应有之义。借助法治环境评估的公共平台，一方面，将中国法治建设置于国际法治的大框架之中，促使法治改革统筹国内外两个大局，为构建“人类命运共同体”调配好法治资源；另一方面，与其它国家在多元化法治道路上达成更多的理解与共识，让世界更好地了解中国在法治建设中作出的努力和成就，也便于为国际法治提供中国特色的知识贡献。

四、中国法治环境评估的认识与操作误区

法治环境评估并非简单的技术改良或优化，而是从公众与利益相关者角度出发，以权利实现问题审视法治资源的供给与分配，并与法治转型相匹配的新的知识生产方式。那么，面对这一新的评估类型，评估者们是否准确地认识了其与法治实施评估的区别，自觉践行了评估构架的全面转变？是否搭建起吸纳法治需求侧讯息的操作路径？在具体运作与实施中，又出现了哪些问题呢？

（一）忽略待评对象的“专属身份”，降低评估的内容效度

法治环境评估以公众与利益相关者为待评对象。抓住待评对象的身份特征，是反映评估情景，有效避免“样本缺失”与“信息污染”的关键。[48]但既有评估项目中指标与待评对象匹配度不高，导致内容效度大幅下滑。

首先，指标设置失格，弱化待评对象的内在差异。法治环境评估以“法律相关度”作为聚类与分类标准，[49]其前提是为不同待评对象配置恰当的权利指标，保证问题的“可回应性”。然而，现有项目多以相同或相似问题指标访问全部对象。以“司法文明指数”为例，其在“当事人诉讼权利”一栏中提出“警察通过刑讯、威胁等方式，强迫犯罪嫌疑人供述的可能性有多大”等问题，如果仅限于访问司法从业人员自无不妥，但受访者也包括大批缺乏相关知识背景的普通公众，即使作答也带有很强的随意或揣测成分。“一个好的评估问题应该得到有差别的答案”，[50]超出受访者认知、能力和生活场景的问题指标，易降低评价系统的有效性。

与此同时，“有权主体缺席”现象突出。以法人组织为例，法人组织是市场经济条件下最普遍的组织形态，其“财产权”、“创新权益”和“自主经营权”状况是衡量营商法治环境的主要维度。然而，国内法治环境评估多将待评对象限定于自然人。例如，“司法文明指数”将受访范围限于普通公众及法律从业人士，但与“合同执行”密切相关的法人组织并未被纳入评估范围。有权主体被排斥在受访序列之外，客观上导致评估覆盖面过窄，参照系数降低。

其次，抽样方案不合理，降低代表性并强化“样本偏见”。抽样是抽取样本以推测总体的过程。“如果无法从理论和技术上实际抽选到达到我们要求的典型样本”，[51]就会弱化样本的总体特征，使统计值偏离参数值。国内法治环境评估就存在此类问题，表现为：

其一，以行政区划为抽样单位，削弱集群组分布的异质性。集群抽样可简化抽样框，适用于组别之间高异质性、组别内部高同质性的样本。现有法治环境评估以行政区划为集群单元，但样本区分度不显著：一是不同集群组别之间过于同质化。例如，“司法文明指数”以人口规模为标准，从每个省级行政区抽取人口最多的三个城市，而忽略其它类型城市的典型特征。[52]二是同一个集群组内部未再次分组。在同一个集群组内部（市、区/县），法治环境因城乡结构、经济水平等因素存在差别，在公民自治、维权途径及法治产品供给上也有不同，[53]有必要再次分组以保证样本的代表性，但国内评估大都径行抽取成员样本，削弱了待评人群的异质分布。

其二，抹杀成员样本的群体规模，样本结构有所失衡。现有法治环境评估重视不同样本的数量均分，而忽视同类样本与实际人群规模的均衡比。以“司法文明指数”为例，该项目将职业类型作为分类/分层标准，划分“党政机关”、“企业”、“农民”等八类职业，规定每个职业类型的问卷不得超出10份。[54]然而，第五次全国人口普查数据显示，中国就业结构是“倒丁字型”，58%的就业者是社会经济地位较低的务农群体。[55] “集群规模不同的简单随机抽样会导致处于更小集群中比处于更大集群的成员更有可能被选中”，[56]不同职业的样本均等，可能导致人口规模更大的社会阶层无法充分展示其意见，甚至为人口占比少的其它群体的观点所掩饰、淡化，关键信息弥散于巨量数据中而无从甄别。

（二）错置与法治实施评估的相互关系，导致整体目标与具体指标的偏移

法治环境评估与法治实施评估有不同的表现。但在进入具体项目时，评估者并未理顺二者之间的关系，多是导入法治实施评估的“规范视角”，[57]以法律规范的内在逻辑与复杂系统为进路，出现三种典型的不当做法。

在评价标准上，错将“法治规划”化约为“理想化”的法治环境。为了目标在计划内实现，法治实施评估将法治规划与部署转换为评价标准自无不妥，但放在法治环境评估中却可能将“法治规划”与“理想化”的法治环境划等号，赋予法治规划或安排以不辩自明的正确性。事实上，法治规划出自决策者，是对辖区内法治动员及资源分配的实行方案，也是实现“理想化”法治环境的具体方式与策略；而法治环境位于法治需求侧，是法治规划的目标和服务对象，二者之间实为“供需”而非“同等”关系。但实践中却多将二者混同对待，比如，“中国法治评估”就将国家法治建设部署中的法治实施体系等建设方案直接化约为评价标准。[58]这样做，一方面有可能造成“教条主义”，让评估机械地服从于政策性指导文件，而忽视“法治规划”在社会主要矛盾变化之际的“可发展性”；另一方面也将弱化法治环境评估的“问诊”能力，使其难以为法治布局提供来自需求侧的具体指示。

在指标设置上，错将“绩效指标”同质于“权利指标”。以“中国法治评估”为例，该项目将“政府财政经费公开”、“审判活动能否抵制舆论的不当影响”等绩效指标与“公众受教育权得到落实”、“公众享有法律规定的结社自由”等“权利指标”同质化，混同处理。[59]但是，“绩效指标”反映的是“法治投入”对“法治产出”的激励，是制度干预之下法治收益的“净效果”，而“权利指标”是对具体权利在社会生活中实现程度的评测，本身并不排斥权利行使过程中其它因素的介入，甚至被评估地区的经济状态、社会机会、成员修养和文化条件也是法治环境评测的一部分。[60]将两类指标简单混同、不加区分地合并处理，极有可能忽略外部因素对法治环境的干预，得出看似乐观、但并不准确的评测判断。

在功能定位上，错将“目标管理”想象为“产品服务”。在实践中，评估者多以“目标管理”为指引来开启评估，却又将之视作是对法治产品与服务质量的测量，诸如“侦查人员出庭比率”等具有监督管理性质的问题指标频频出现于法治环境评估之中。但从“产品服务”的功能来看，法治环境评估聚焦于不同地理空间、社会结构和关系位置中人们的法治需求，所以，权利主体是否在运用权利的过程中获得最好的法治体验，才是衡量法治产品与服务的真正标准。将“目标管理”想象为“产品服务”，在凸显对制度运作与执行考核的同时，却有可能让法治环境评估偏离以人的权利需求与实现为中轴的功能指向，甚至导致“在巧妙运用不相匹配的数据后，你得到了自己想要的结论……实际情况越糟，你的结论却越让人欣慰”。[61]

（三）“数据孤岛”现象突出，限缩评估的可持续效益

任何评估都不可能穷尽所有讯息，解码法治环境还有赖于其它评估数据的支持。尽管如此，我国法治环境数据却处于“区隔化管理”之中，呈现出明显的“孤岛效应”，[62]即不同项目对数据的定义和使用存在差别，不同数据之间缺乏关联互动，无法及时交流、合作和高效利用。

“数据孤岛”现象表现为两个方面：首先，物理性孤岛。[63]这一现象出现在不同类型的法治数据之间。即便在相同或相似主题上，法治环境评估也与其它类型评估缺乏数据合作与交流。以“司法文明指数”和“司法透明指数”为例，前者将人权保障作为司法文明的标志，评价司法在权利保护上的实际贡献，后者以司法制度供给为对象，测算司法机关的制度执行效能，二者处于司法需求与供给侧的两端，在数据内容上有密切的对应关系。然而，实践中，不同项目组的数据采集、管理和使用都是封闭的，并未建立有效的数据沟通机制。其次，逻辑性孤岛。[64]这一现象出现在法治环境评估内部，不同项目组对同类主题的数据采集标准存在分歧。以“中国法治评估”与“司法文明指数”的“司法公开”维度为例，前者将“司法公开”的观测点放在“公众参与司法的便利性”上，采集“了解诉讼进程”、“申请旁听审判”等方面的数据；而后者将“司法公开”的重点置于“司法的严肃性”与“司法的可信赖性”上，围绕“裁判结果依法公开”、“司法裁判结果受到信任与认同”等方面采集数据。[65]数据采集标准差异过大，导致不同项目生产的法治环境数据无法直接对接，增加了跨项目合作的技术难度。

“数据孤岛”现象的蔓延产生了两个不利后果。一是大批数据闲置，数据挖掘不充分。数据可以在再加工过程中发现或创造新的价值，但国内法治环境数据在完成项目基本用途后，大多就处于闲置和未开发利用的“休眠状态”，以至于“数据的真实价值就像漂浮在海洋中的冰山……绝大部分则隐藏在表面之下”。[66]二是数据同质化与扩充渠道变窄。法治环境数据的扩展渠道越多元，与其它数据的兼容性越强，数据类型与信息含量就越丰富。而我国法治环境数据的扩展方式过于单一，大多限于单个项目内部的数据替换或插补，即便动态管理也限于不同项目组各自的历时数据更新，既无法吸纳其它项目发现与整理的数据素材，也无法延伸出新鲜的数据挖掘方案与技术，更勿谈开发同一数据集的多重用途。

（四）评估质量管理“半程而止”，数据质量失控且统计解释缺乏信服力

就法治环境评估而言，“测量的可靠性不是‘量与质’的问题，而是取决于对干扰因素所造成的结果失真的避免”。[67]不同阶段的干扰源不尽相同，在致力于前期指标免受干扰的同时，评估者们对后续阶段的干扰因素经常“视而不见”，使得数据质量缺乏有效控制，统计解释缺乏信服力。具体包括以下两个方面：

首先，调研监管缺位，数据的“真伪”与“优劣”难以辨别。为提高数据生产效率及生产透明度，法治环境评估习惯委托市场化的调研机构，评估者不参与实际调研。以“中国法治评估”为例，该项目将占比90%的问卷（公众卷）委托给“中国人民大学数据与调查中心”。[68]从表面上看，这种作法保持了评估者与测量者之间的“必要距离”，但“信息从拥有者向接受者转换的社会过程中，会由双方通过一个感知和解释的过程来加以‘筛查’并有意识或无意识地在一个或多个不同的方向上‘失真’”。[69]一旦数据全部由专业机构操盘，并由其负责采集、整理与统计分析，评估者势必远离经验，所接触的信息大多限于“制图术”生产和加工完毕的数字或图表。[70]对“问题指标的访问要求是否一致”、“被访者对问题指标的理解是否符合差别最小化原则”以及“问卷质量是否在合理误差范围”等关键事项，评估者并不知情，也无法核实修正，使得数据的“真伪”、“优劣”难辨，整个调研过程处于“失控”状态。

其次，统计论证隐退，数据发现与统计解释之间缺少必然关联。即便形成可靠的数据资料，也不意味着“从观察的结果中得出一个在逻辑上正确并包含着受观察者主观观点影响的‘意识’的推论”，[71]评估者须在多种可能性解释中作出选择。但是，已有的法治环境评估并未在数据发现与统计解释之间建立有效的推导关系，有时还出现不相符或矛盾的解释判断。以“中国法治评估”为例，该项目在“律师的数量是否充足”的提问中，得出“律师人数评价总体得分70.0分，处于中等水平……显示律师数量基本满足法治运行需要”的结论。[72]然而，在该项目关于“‘请不起律师’问题严重程度”的评价中，68.9%的受访人员认为“当事人‘请不起律师’现象较为普遍”。[73]另有统计数据显示，2015年，我国律师从业人数为30万余人，占国民人数的0.2%，承办诉讼案件330万件，占全国案件总数的18.3%。[74]统合以上数据，或许可得出截然不同的结论，即我国律师数量的配比不高，且律师资源的分配极不均衡。这一判断并非确凿，但至少证明未经论证的统计解释可能存在瑕疵，或许会出现“我们发现或建构了最好的，或最关键的或最重要的解释，但实际上我们在错误地描述所发生的一切”的局面。[75]

五、中国法治环境评估的精准化应用——内外部同步优化

为确保法治得以顺利推行，不遗漏正式规划之外的实践知识，[76]量化法治有必要走向法治的需求端，评测法治资源的供给、分配和应用的有效性。对于当前法治环境评估的操作误区，如不及时纠正，将有可能减损该类评估的应用价值，甚至还会切断其与其它评估之间的“交互关系”。为此，中国法治环境评估应该考虑将内外部同步优化，以最大限度地提升评估效益。

（一）内部调试

为避免经验惯习、研究便利支配评估者的思维和行动，[77]我们有必要进入法治环境评估内部，就指标模型、实施方案及质量管理三个关键环节的问题进行有针对性的调整和改进。

1．建立“权利测度”的法治环境指标模型

考虑到权利的有效性受制于多种因素的影响，法治环境指标模型应以“权利测度”为中心，重点测算在不同现实条件的约束下，不同权利项展开与实现过程中法治资源的供给、分配与实际使用。指标建模可分为两个步骤：

第一，架构类型化、层级化的权利指标框。不同权利项既有各自的独立内容所在，也有根权利与子权利、先行权利与派生权利的类属关系。为便于经验操作，法治环境指标可以《宪法》及相关法律的权利规定为蓝本，借鉴《2014年中国人权事业的进展》的分类办法，[78]将法定权利分解为“发展权利”、“人身权利”等权利大项，并在权利大项内部分解出若干权利小项，比如“发展权利”可分为“教育权”、“卫生权”、“就业权”等。同时，保持权利指标框的开放性，有能力吸纳得到法律确认的“新兴权利”类别。[79]

第二，为不同权利指标配置多角度的观测点。考虑到“权利实现”难以确定水平值，可围绕与之相对的“权利贫困”展开操作。在法治环境评估中，“权利贫困”可从两个维度理解：其一是法治资源的供给与分配，即是否存在“少数的被剥夺”；[80]其二是可行能力的高低，即权利人是否有能力、有条件动用法治资源维护自身权益。[81]这两个维度可被分解为法治资源的可获得与便利性、权利保护的规则体系、法治意识与维权选择、权利获得与冲突解决等观测点。下降到经验层面时，不同观测点还可进一步细化出丰富多样、具体可行的问题集。值得注意的是，“各个地方的权利主体对自己法律上权利的关切点以及关注程度存在很大差异，维护自己权利的热情和方式也都是非常不同的”，[82]评估也要考虑不同权利主体、权利类型在评估地区的特殊性与实际表现，以便处理好不同观测点的主辅关系。

需要说明的是，尽管法治环境评估不排斥与权利保护有密切关联的绩效指标，但使用时也应注意两点：一是找准合适的观测角度，尽量选用那些为权利保护提供制度福利而设置的绩效指标；二是控制绩效指标在整个指标群中的比重，避免将法治环境评估降格为纯粹的“政策工具”。

2．构设与“权利测度”相匹配的抽样实施方案

为避免抽样屈从于调研成本或便利而丧失随机性，评估应制定与“权利测度”相匹配的抽样计划，为科学评价提供必要条件。

第一，结合影响“权利实现”的内外部因素，建立多阶段集群的抽样标准。考虑到法治环境评估具有样本规模大、样本成员成分复杂的特点，集群抽样可被分为两个阶段：第一阶段，以影响权利实现的外部条件为分类标准，权衡不同地理区位、城乡结构、经济水平、人口分布、政治地位的差异，对不同行政地区作出聚类与再分类，建立异质性显著的集群组别。第二阶段，以影响权利实现的个体特征为分类标准，按照职业类型、收入状况、家庭结构、认知程度等个体差别，在不同集群组内部选择待访人群，确定成员样本框。此外，成员样本抽取还应当考虑到样本权重。不同集群组所在目标人群的总体规模有较大差距，可以采用与集群规模成比例的概率选择集群（PPS抽样），[83]保证样本与总体结构、规模比例基本相一致。

第二，明确“适格的”成员样本范围。为保证权利指标的“可回答性”以及成员样本的多样化，评估需对成员样本的适格与否作出判断：其一，为不同权利指标选配合适的成员样本。公众与利益相关者在不同权利的认知和使用上有所差别，应结合具体权利指标选定受访名单。例如，以司法环境为内容的评估中，鉴于“司法过程自身的高度程式化及其复杂性要求参与各方都有相当的知识积累和经验储备”，[84]可将成员样本范围限于利益相关的受访者，包括司法从业人员、专家学者以及有诉讼经历的公众等。其二，确保有权主体的“在场”。不同权利项关联的权利主体有所差别，评估应将评估指涉的所有类型主体纳入成员样本范围。比如，在营商法治环境评估中，评估关注的是“以贸易为基础的权利实现”，[85]除了从事经营活动的自然人外，法人与其它商业组织都需被纳入调研序列。[86]

3．贯穿评估“全过程”的质量管理

没有哪种指标结构、方法技术能一劳永逸地解决评估质量问题，这意味着，评估过程中要不断排除各种干扰，而不是将计划以及计划的付诸实施作为未检验的因素而置于封闭的黑箱之中。[87]在法治环境评估中，质量管理不能仅依靠指标筛查，而必须向后延伸，贯穿于评估全过程。

首先，深化调研活动的实施监管。在监管主体上，评估者为“避嫌”可委托第三方独立展开调研，但自身不应脱离法治环境数据的生产场所，可转变为监管者角色，会同项目外的统计学、社会学专家，对数据作出甄别验证。在监管内容上，依托已展开的数据收集工作，重点对“‘问答’标准的统一性”、“测量工具的有效性及外部一致性”等关键事项逐个排查，将数据质量问题解决在调研一线。在监管方法上，监管者可借助“面对面”访谈、计算机辅助访问、多级小组询问等方法，“以点验面”地作出实证复查，降低预期风险，减少不当耗损。

其次，强化评估项目的统计论证。为避免数据发现与统计解释之间的断裂，科学的统计论证必不可少。其中，最为有效的两种做法有：其一，将法治环境评估的数据发现放在相关数据的关系结构中解释。“如果没有项目对象变化的信息、相关人口和经济趋势等信息相配合，那么，对作为常规产出督导的一部分而收集的数据进行解释将十分困难”。[88]统计论证可将外在于法治的社会、经济发展指标作为并列坐标，在社会多元数据的相关分析中理解和推断评估结论。其二，引入经验研究进行验证性解释。对同一数据有可能产生不同的统计解释，对此，评估可参鉴相关的经验研究成果，在多种解释中甄别出最为可靠的评估结论。社科法学研究也在勘察不同法治事实之间的具体因果关系，[89]其中部分研究结果有助于验证、填补数据发现与统计解释之间的“不确定性罅隙”，丰富极简化的“数据解读”，[90]增强统计论证的完整性和可信度。

（二）外部联动

为消除“数据孤岛”现象，实现研究者们在不同数据上的交流与合作，法治环境评估需建立多元数据的联动关系，将法治环境数据逐层向外延伸，在更为广阔的数据空间之下对其加以理解与应用，实现数据的深度挖掘。具体可从以下三个方面依次展开：

1．整合不同法治环境数据源，推动同类数据的“异源并用”

为突破数据生产的“项目内循环”，可将不同项目的差异化数据进行重组与合并统计。在这方面，国际评估界已有先例，比如“世界治理指标（WGI）”就使用了多个数据源。这种做法的“利”在于引入“未可观测变量模型（UC）”，实现了跨数据源的数据共用，而“弊”在于极不相同的数据源之间缺少统计学意义上的相关性。[91]对此，法治环境评估应有所扬弃，限缩“异源”范围，提高“并用”效果。

“异源”范围应限于法治环境评估内部，对不同来源的法治环境数据进行统计分析。这主要考虑到：一方面，尽管不同项目的目标指向、测量方式上有所差别，但在指标设计、数据结构以及约束性条件上有相近性，合并统计的技术条件较为成熟。另一方面，法治环境数据具有稳定性，短期内不会有较大的变动，不会因时间不同步而出现严重的不匹配。

不同法治环境数据的“并用”，有助于实现两个效果：其一，优化已有的可观测统计方案。不同主体的权利主张、需求和争议焦点众多，而单个项目所指涉的可观测变量、数据类型与体量相对有限。引入多个数据源，既可扩大数据范围，丰富数据的信息含量，也可在同个权利指标之下扩展出更为多元的观测角度。其二，开启未可观测变量的估算。不同数据源的“法治变量”提供的信息都是不完整的，其中还蕴含着难以被观测到的法治信号。[92]借助“未可观测变量模型（UC）”，以可观测变量为条件，对不同数据源的个体指标进行加权平均与聚合计算，可以发现不同指标之间共同的、但不能观测的隐性变量，[93]可超越人们的统计直觉界限，[94]提供更为真实的法治环境估值。

2．构划“实效导向”的检验模型，为法治实施评估提供结果意义上的评判标准

用以检验法治实施评估效度的元/再评估已非新鲜事物，但元/再评估是从技术性角度，对法治实施评估结构、过程作出的“形式性审查”，其重在“评估指标结构是否科学、评估实施过程是否规范、评估数据采集是否准确、评估主体意见是否客观一致等”。[95]但是，法治现实不是“由制度干预引起的结果的测量值变化”的“净效果”，[96]而是进入具体时空中，由制度干预与多个外部约束性条件作用的综合结果。即便在评估技术上毫无偏差，也无法确保法治实施评估获取了关于制度干预的真实讯息，还有可能陷入“就事论事”之中，漏掉法治实施中的关键问题。

法治环境评估则不同，它跳出法治实施的既定框架，站在法治需求侧，以法治实效反观法治实施的执行效能，审视制度介入是否契合不同地方的社会、经济与文化传统，是否符合公众和利益相关者的切实需求。以法治环境评估为参照，可在“结果意义”上评判法治实施评估是否适当可用。如果二者一致，则意味着法治实施评估结论较为准确；如果二者相悖，评估者就不能轻下论断，而需强化论证乃至调整评估方案并复核检验，避免因结论不当而误导决策思路。在验证程序上，评估者可将法治环境评估结论化约为若干具体的评判标准，与同个地区主题相同或类似的法治实施评估作横向对比，进行“实质性审查”，发现与纠正法治实施评估的结论偏差，促使其有能力“正视和应对各个制度行为的现实状况”。[97]

3．衔接法治大数据的资讯入口，拓宽法治环境评估的“成长空间”

总体的、实时记录的、面板化的大数据，有能力全面捕获人们在生活场景中的行为痕迹，为法治环境评估提供体量更大、即时性更强的聚合性数据。[98]若能衔接大数据的资讯入口，法治环境评估或可超越技术局限，获取有突破性的成长。

首先，加强问题指标的动态化管理。法治环境评估中的问题指标，需要随着公众和利益相关者的权利主张、关注焦点的变化而删减、增添或重组，[99]而评估活动对此无法自纠。大数据技术可采集到储量丰富、实时更新的、与问题指标内在相关的非结构化数据，[100]亦可大致勘测出权利指标的焦点问题与前沿走向。引入法治大数据，有助于实现问题指标的“动态化管理”，既防止部分指标的固化和滞后，也避免了关键变量的遗漏与缺失。

其次，提高主观指标的适用性和稳定性。法治环境评估多采取主观指标，以获取公众和利益相关者对权利保护状态的概括判断，而主观指标易受到受访者情绪、记忆和外部场景的干扰。即便借助严格的项目监管以及统计检验，也无法完全控制统计误差。法治大数据是实时形成的，“它更能排除获取数据时人的不诚实、记忆误差及环境干扰等因素导致的误差”，[101]从中提取公众态度、经验等数据素材，借助聚类分析可凝聚更真实的观测焦点，便于验证已有指标信度，减少其中的偶或性与不确定性。

概言之，“我国正处于法治进路转型之中，亦即从偏重于学习和借鉴西方法律制度和理论的追仿型进路转向以适应中国国情、解决实际问题为目标的自主型进路”。[102]在这个转型过程中，人民群众的法治需求是衡量中国法治水平的根本标准，任何目标与规划、期待与理想都不能偏离这一标准。本文将法治环境评估从量化法治方案中剥离出来，作为独立的评估类型进行探讨，就是为了更好地测量中国法治资源的供给与分配、组织与动员，测量其在多大程度上完成了权利保护的法治承诺。诚然，法治环境评估还处于“探索”阶段，有不少操作问题尚待解决，但任何新鲜事物都是在“试错”和“纠正”中成熟起来的。通过项目实践的不断检讨与优化，我们有理由相信，在中国社会转型之际，法治环境评估将延展出更加丰富的“可成长性”，为中国法治事业新篇章的续写提供来自法治需求侧的支持与动力。

[1] [2] 下一页

上一条：陈科先：法治视域下人的尊严实现路径

下一条：余凌云：地方立法能力的适度释放——兼论“行政三法”的相关修改