高级检索

学术资源

行政法学

当前位置: 首页 -> 学术资源 -> 行政法学前沿 -> 行政法学 -> 正文

苏宇:公共数据质量的制度保障

信息来源:《行政法学研究》2025年第4期 发布日期:2025-07-06

摘 要公共数据质量不仅直接或间接影响公民和法人权益,也因影响数据驱动型判断和决策的结果而深刻影响公共利益。我国在保障公共数据质量方面已制定了系列法律规范和政策文件,并采取了一定治理举措,但公共数据质量的体系化保障依然面临法律关系界定、参与途径设置和监测体系扩展等方面的难题。解决这些难题应秉持通过设计的精细保护思路,建立公共数据法益确认制度、质量缺陷参与治理制度和数据质量深度监测制度,强化公共数据的质量保障。

关键词公共数据;数据污染;数据质量;数字行政法


数字政府需要高质量的公共数据。公共数据的质量缺陷不仅显著影响个人和组织的合法权益、损害相对人依法获取行政给付、行政奖励乃至行政许可的机会,更将深刻影响依赖公共数据的判断与决策,关涉数据驱动型政务决策和公共治理的能力。数据要素×”在国家治理和公共行政领域也将发挥杠杆作用乘数效应,公共数据质量的提升或下降日益可能产生倍数乃至指数级别的正负面间接影响,因而保障公共数据质量必将成为数字政府建设的重中之重。

全面保障公共数据质量并非易事。某一项特定公共数据质量的保障任务或许可以通过运动式治理、集中人力财力的方式完成,但对体量极其庞大的公共数据稳定实现整体的质量保障则需要法律制度的系统性支持。在未来数十年间,已基本可预见数字行政过程将逐步取代传统行政过程,然而行政法学对于公共数据质量保障问题尚未给予充分关注,导致相关方面的行政法治建设缺乏系统和清晰的理论指引。对此,强化相关理论与制度供给刻不容缓。


一、公共数据质量缺陷的来源与影响

公共数据质量缺陷主要是指公共数据在适用性、客观性、时效性等方面的欠缺,导致数据难以被正常利用,或者存在导致利用数据的判断或计算结果偏离正常值的风险。公共数据质量缺陷来源复杂,影响深远。法律治理必须首先辨识相关缺陷的来源及影响,方能因事制宜、精准施策。

(一)公共数据质量缺陷的主要形态与原因

公共数据质量缺陷的具体形态相当丰富,实践中广泛存在的主要缺陷形态包括数据粒度(granularity)不佳、时效性不足、客观性与完整性缺失等方面,其原因则主要包括数据收集不当、处理链条停滞和数据污染。

1.公共数据质量缺陷的主要形态

数据客观性与完整性的缺失是公共数据质量缺陷的最主要形态。此种缺陷广泛存在,部分数据的质量问题尤为突出。例如,四川省广元市在20236月专项工作开展之初,住房公积金数据的数据质量评估仅得48.66分,涉及数据12万余条,数据项合格率92.43%。数据指标合格率仅为45.26%。数据客观性缺陷的具体事例可谓随处可见:大件运输车辆因轴重等检测错误数据重复过磅,复检后数据正确,车辆重新驶入高速,但初始错误数据未删除,导致系统依然误判为超限数据。湖南文理学院大量学生的数据出现错误,多名学生名下被登记房产信息,被办公积金、经营许可证,名下办结的业务还包括出租汽车驾驶员从业资格注册”“防雷装修竣工验收,甚至还有领养证明等。这些基础性的缺陷广泛制约着公共数据质量的提升。

数据时效性不足是影响公共数据价值利用的关键原因。利用数据的本质是利用其中的信息,而信息的价值会随时间推移而变化。尽管时间推移对于信息价值变化的影响非常复杂,但一般情况下,信息会伴随时间推移而贬值;反过来,获取决策信息的成本通常会随时间推移而降低,因为越新近的信息越是稀缺和难以获取。每一项数据的价值时效性不同,部分数据的高价值时间窗口非常短,因而收集和利用过期数据几乎没有什么意义。公共数据时效性不足包括两个方面的问题:一是政府和公共机构获取的数据时效性不足,二是公众可获取的开放公共数据时效性不足,后者往往更为常见。在政务数据开放平台和统计部门发布的数据中,部分数据已无法发挥高价值时间窗口时期的价值。部分城市的政府数据开放平台的数据更新整体滞后。另一方面,不少城市在经济金融、劳动就业、教育科研、医疗卫生、科技创新等关乎群众切身利益、产业发展的重要领域的数据更新不及时。数据越接近实时,数据收集与后续处理成本越高,数据时效性不足的问题或许需要通过更强的制度激励解决。

数据粒度不佳是制约公共数据利用价值的另一重要原因。现实中的决策往往是基于不完备决策系统进行跨数据粒度的决策,而不完备多粒度标记决策系统存在最优粒度选择问题。在利用不同粒度信息进行挖掘、判断和决策时,需要遵循可证粒度原则(the principle of justifiable granularity),这一原则提供了两个关键标准用于评估信息粒度的合理性:覆盖标准衡量我们所关心的目标信息被信息粒度包含的程度,特异性标准则表示信息粒度的具体程度,这两个标准在实践中往往存在冲突,难以兼顾。因此,并非所有公共数据都处于最优粒度状态,数据粒度过粗的问题在人口统计数据等公共数据中不同程度地存在。数据的粒度与数据利用需求不匹配往往导致公共数据的价值利用受限。例如,传统交通检测数据由于检测粒度粗,只能在单一方面刻画交叉口的交通需求,无法全面表征交叉口的交通需求特征,也为后续的人工智能训练造成了不便;粗粒度的数据难以充分表达致灾因子、孕灾环境和承灾体的时空差异,不利于开展区域精细尺度极端气候事件风险识别与评估工作;等等。提升数据粒度亦受成本约束,很可能同时增加数据采集、存储、加工等各种处理成本,如果采取非自动化方式采集,还可能增加采集对象的治理负担,因此数据粒度不佳的问题在实践中并不容易克服。

2.公共数据质量缺陷的主要原因

实践中,数据收集方式、工具、程序以及数据来源等方面的缺陷是公共数据质量缺陷的最主要原因。数据收集缺陷既来源于通过登记、录入、扫描等方式向数据库输入数据过程中人为篡改、处理失误或操作不规范等情形,也来源于通过观测、爬取、检索等技术手段获取的数据本身不准确、不可靠。易言之,数据收集缺陷的主要原因包括对象和过程两方面,前者是数据来源本身的问题,后者则包括人为恶意影响、操作规范欠缺和技术工具缺陷等。迄今为止,数据收集缺陷过程中的操作性和技术性原因可能是导致公共数据质量缺陷的主要成因,由此而造成的数据连续性缺失等问题制约了公共数据质量的提升和保障。如后续数据清洗和管理不足,这些缺陷就将伴随公共数据持续存在。部分数据收集任务涉及跨区域协调难题。例如,对保障性住房进行数据采集相关流程而言,由于其在采集相关数据的过程中缺少规范上的统一,并且不同区域及相关机构之间出现信息孤岛等现象,相互难以进行相关数据传递,从而极易导致工作出现重复化,不但浪费了大量的人力资源,而且也难以有效保障数据采集质量。

在数据来源导致的质量缺陷中,爬取数据的缺陷比较复杂。利用技术工具自动化观测获得的数据,如果操作规程及工具本身并无问题,一般不会在获取数据方面出现明显缺陷。爬取数据则不然,爬取的数据既有可能本身不真实、不可靠,也有可能被投毒。特别是利用爬取数据训练模型时,机器获得的数据中可能隐含着各种形式的后门,在一定条件下触发模型的有害表现。尽管已有技术可以协助模型管理者发现和净化被毒害的参数,相关技术在不断变换的攻击方式面前仍然难言成熟,并且也将为政务类领域模型的运行带来不可忽视的安全负担。

在数字时代,数据污染正日益成为公共数据质量缺陷的重要来源。数据污染data contamination)主要包含两种含义:(1)数据集中存在异常值的情况,这些异常值可能来自由于记录错误、在非标准或预期条件下进行测量而产生的观测值;(2)(人工智能模型训练时)任何违反在实验规程中对数据集严格控制要求的情况,包括指导方针污染、文本污染和注释污染等。此外,训练数据中可能包含测试数据的情形也经常被作为大模型的数据污染讨论,但不在本文的研究范围。前述两种情形都有可能对公共数据质量造成影响,而以数据集记录错误、被人为篡改或发生处理失误之情形为甚。

人为篡改、删除和网络攻击都可以被视为对公共数据的污染。如果未经授权的人或系统对数据进行了更改,无论是故意还是意外,都可能导致数据完整度(integrity)丧失,不仅直接影响相对人和利害关系人的合法权益,也可能导致继续使用受污染的系统或损坏的数据形成不准确的判断或决策。外部攻击导致的公共数据污染则早已不乏实例,如20239月斯里兰卡政府云系统遭受一次大规模勒索软件攻击,导致长达三个多月的公共数据永久丢失;2017年兰州公安部门破获公安部督办网安专案,打掉了一支通过入侵政府网站、非法写入人员信息并制贩假证的犯罪团伙。犯罪嫌疑人共入侵政府网站获取管理员身份信息3000多条、非法写入办理假证人员信息7.3万余条,涉及甘肃、青海等28个省市、自治区的90余个政府网站。此种情形下,数据污染与网络安全问题交织,更考验防治责任主体的技术能力与管理水平。

在大模型时代,对公共数据的污染并不一定仅针对数据处理系统、平台及传输数据的网络节点进行,面向人工智能模型的数据投毒更具技术性,也在风险治理上更具挑战。数据投毒和数据集中的后门植入可以恶意影响乃至在特定条件下操纵大模型的表现。无论是基于开源还是闭源模型研发的政务类领域模型,此种后门在模型研发或更新参数时就已经留存、潜伏,待满足一定条件后再发动攻击。此种隐蔽的攻击为未来公共数据质量保障造成了不可忽视的潜在挑战。

上述种种可能影响公共数据价值可靠、充分利用的情形,都可以被笼统地归纳为公共数据质量缺陷。这一包罗甚广的概念为公共数据质量缺陷的治理带来了认知上的含混和复杂性,系统性梳理公共数据质量缺陷的影响尤为棘手。

(二)公共数据质量缺陷的主要影响

由于公共数据质量缺陷来源多样,产生影响的路径和特点自然亦有所差别。整体上,公共数据质量缺陷导致对组织、个人合法权益和社会公共利益的侵害路径相当复杂,需要根据影响链条的不同而区分对待。

1.直接影响

公共数据质量缺陷很有可能直接导致侵害相对人权益的结果。直接的侵害结果是对相对人合法权益的证实和行使形成障碍(需要通过一定程序修正数据再维护权益)。在修正数据不影响后续权益正常取得和行使的情况下,数据质量缺陷对相对人的影响就仅限于直接影响,即行权成本的提升,此种成本并不仅仅是可直接计量的一般性时间消耗,因为在纠正数据缺陷、维护自身权益而额外付出的时间可能是临时加急征调的时间,此种时间对比可计划的时间安排而言,经常包含更高的机会成本。如果数据难以被修正,或者修正所需时间成本过高,导致某些需要一定时效性的重要关联权益丧失,则可能产生更强的直接影响。如果行权障碍已经实质性地导致关联权益丧失,此种后果亦可被认为属于数据质量缺陷的直接影响。

2.间接影响

数据质量缺陷的间接影响包括对利害关系人合法权益的影响和对公共利益的影响。对利害关系人的间接影响主要存在于相关数据表征前置性法律关系或法律状态的情形,并不限于多阶段行政行为中的前置性阶段,也不限于个人信息处理场景。例如,错误的犯罪记录可能导致相对人的近亲属就业受影响;公共信用信息数据的污染不仅可能导致相对人被失信,也有可能侵害其子女的受教育权益,同样,此种污染不仅可能导致相关企业信用评级的异常下降,也可能在特定条件下恰好导致政府采购因此失去理论上最优的商品和服务来源。《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)和《中华人民共和国政府信息公开条例》(以下简称《政府信息公开条例》)等赋予信息主体自身以更正权,但受间接影响的其他利害相关方则难以寻求救济,尤其当此种质量缺陷并未构成对第三方主观公权利的侵害而仅影响反射利益时更是如此。理论上,只要某一行政决定的作出需要先查询某一数据库或信息平台,都有可能受数据质量缺陷的间接影响。

数据质量缺陷对于公共利益的影响更为深远,大数据分析、数据驱动决策乃至政务类领域模型的表现都受其影响。在数据存在污染的情形下,样本的统计特性不能被准确呈现,关键决策依据也可能出错,从而至少使得模型更加复杂、计算成本更高,重情况下会产生方向性的偏离乃至错误。存在质量缺陷的数据被模型学习后,可能干扰模型的正常表现,这在对数据质量要求较高的领域模型中影响尤其突出。如果数据质量缺陷仅限于个别数据,尚可通过稳健设计等技术方案进行弥补;但如果缺陷已经影响到数据的统计特征,对依赖数据的判断或决策准确度可能造成不易防范的损害。

根据特定时空的数据质量水准和经验性的证据,为防范数据质量缺陷而付出的成本同样也可以被理解为数据质量缺陷的间接影响。即便不存在数据的真实性、准确性问题,数据精度和完整度等问题也会产生此方面的影响,因为其包含了不同程度的信息稀缺(scarcity of information)。过于杂乱而无法高效分析的信息稀缺往往不会随着更多信息的产生而消失,而是需要投入决策资源来整理和理解信息。随着公共数据体量的快速增长,保持数据质量的算力、时间、技术和人力成本将日益不可忽略,在数据质量缺陷问题频发时,安全冗余可能会被提升,数据安全相关开销和负担即相应增长。当然,此种间接影响能够一定程度上消除由于缺陷造成的其他直接和间接影响,因而是相对应追求的选择。

数字政府建设必须充分考虑公共数据质量缺陷的直接和间接影响,但并不需要追求完全消除这些风险和影响,只能尽量将其限制在可接受的水平。关键是如何通过法律制度构筑数据质量保障的基础防线,结构化地维持较高水准的公共数据质量,这对于缺乏相应法学理论支持的数字政府基础法律制度而言,尚属有一定难度的考验。


二、公共数据质量保障实践评析:规范依据与现实举措

在数字政府建设和数据要素利用进程中,数据质量问题不可避免备受关注。尽管这一进程方兴未艾,我国相关法律规范已开始持续体现对公共数据质量保障的重视,也已就数据质量保障采取若干举措,但仍需要进一步加强数据质量保障,充分应对未来数字政府、智慧政务和智慧城市建设对公共数据质量的需求。

(一)规范依据

公共数据质量保障的法律依据在中央与地方层面已陆续出现。在中央层面,法律、行政法规及部门规章对公共数据质量保障的关注度尚属有限。《中华人民共和国统计法》等法律规范虽然已经注意到数据质量问题,但还没有应用相关术语和技术体系。行政法规层面首次提及数据质量当属2000年《第五次人口普查办法》,但仅有一条简单的总则式规定。2004年制定的《全国经济普查条例》两处提及数据质量,并在其第28条专门规定:地方各级经济普查机构应当根据国务院经济普查领导小组办公室的统一规定,建立经济普查数据质量控制岗位责任制,并对经济普查实施中的每个环节实行质量控制和检查验收。这一规定可谓早年公共数据质量保障方面的代表性规定。其后,统计调查方面的法律规范中有关数据质量保障的内容日渐丰富和精细,但在统计调查工作之外,中央层面法律、法规中对公共数据质量的关注仍然有限。值得注意的是,20241月公布的《碳排放权交易管理暂行条例》第11条第1款对公共数据质量控制进行了精细的规定:重点排放单位应当……制定并严格执行温室气体排放数据质量控制方案,使用依法经计量检定合格或者校准的计量器具开展温室气体排放相关检验检测,如实准确统计核算本单位温室气体排放量……”这一规定表明政府已关注到部分公共数据源头的质量问题,并以法治化的方式规范源头治理的需求。

在地方层面,不少地方性法规和地方政府规章已经意识到公共数据(包括政务数据)质量保障的重要性。早在2020年,《浙江省数字经济促进条例》第20条就对公共数据质量保障作出专门规定。2021年较有影响力的两部法规——《上海市数据条例》和《深圳经济特区数据条例》都关注到公共数据质量问题。2021年通过的《上海市数据条例》多条提及数据质量管理,其中第35条要求建立健全本系统、行业公共数据质量管理体系组织开展公共数据的质量监督,对数据质量进行实时监测和定期评估,并建立异议与更正管理制度。73条又将数据质量管理列入长三角区域数据标准化体系建设中需要建立的基础性标准和规范之范围。类似地,《深圳经济特区数据条例》也多处涉及公共数据质量保障,其第39条专门规定:市政务服务数据管理部门应当组织制定公共数据质量管理制度和规范,建立健全质量监测和评估体系,并组织实施。公共管理和服务机构应当按照公共数据质量管理制度和规范,建立和完善本机构数据质量管理体系,加强数据质量管理,保障数据真实、准确、完整、及时、可用……”同类规定迅速出现在其后多地的法规、规章条文中,为地方政府开展公共数据质量保障工作提供了规范依据。

随着地方性立法对公共数据质量日益重视,其中一些理念和措施尤为值得关注。在理念层面,2022年制定的《浙江省公共数据条例》第20条在规范层面明确提出数据全流程质量管控体系,与同年通过的《重庆市数据条例》《辽宁省大数据发展条例》《广西壮族自治区大数据发展条例》等法规中要求建立的质量检测和评估体系/机制等相得益彰,为公共数据质量保障提供了更系统的规范认知依据。在措施层面,《江西省数据条例》《苏州市数据条例》《杭州城市大脑赋能城市治理促进条例》《北京市公共数据专区授权运营管理办法(试行)》等规定了公共数据质量管控机制、数据质量实时监测机制、异议与更正管理机制、数据质量核查和问题数据纠错机制、数据质量逐级倒查反馈机制等,为公共数据质量保障工作提供了更具系统性的规则集合形式,便利系列具体规则的形成和调整。

(二)现实举措

与上述立法进程并行的是各类政策对公共数据质量问题的重视。围绕公共数据质量的保障与提升,中央层面已给予高度关注。2022年国务院办公厅印发的《全国一体化政务大数据体系建设指南》(国办函〔2022102号)明确指出,政务云平台建设与管理不协同,政务云资源使用率不高,缺乏一体化运营机制。政务数据质量问题较为突出,数据完整性、准确性、时效性亟待提升,总体上要求构建完善数据全生命周期质量管理体系,并且提出了一系列具体的目标和要求。20249月,中共中央办公厅、国务院办公厅又印发了《关于加快公共数据资源开发利用的意见》,明确要求不断提升政务数据质量和管理水平,并且专门强调强化数据源头治理和质量监督检查,实现数据质量可反馈、使用过程可追溯、数据异议可处置。在中央文件的指引下,各地采取了一系列举措,展示了地方政府提升公共数据质量的意向和目标。

在提升公共数据质量的实践举措中,以下三类尤为值得关注:一是数据质量方面的标准编制。例如,浙江省杭州市自2022年着手制定公共数据质量治理系列地方标准,其中《公共数据质量治理 第1部分:体系架构》(DB 3301/T 0364.1-2022)明确公共数据质量治理是指提升公共数据质量过程中能力建设、问题发现、数据整改、绩效评价等活动的集合,并形成了公共数据质量治理体系架构图。这一标准对于全面、系统地保障公共数据质量的政务实践而言可谓首开先河。二是数据质量保障和提升的专项行动。例如,泰州市数据局开展2024年度公共数据质量提升攻坚行动,其中包括编制高标准高可用数据目录、建立数据质量反馈整改责任机制,建立数据异议统一受理通道,建设个人数据空间、企业数据空间、行业数据空间等主专题库等措施。前述CG市专项治理工作开展后,数据质量评估得分提升至59.5分,数据项合格率提升至99.47%,数据指标合格率提升至81.37%,问题发生率降至0.03%三是数据质量保障方面的组织建设,如N市某区构建专班+专人的数据更新机制,区级成立数据管理专班,各数据提供单位安排专人负责按时按质完成数据更新,专班直接将数据要求和整改意见直接通知到专人。相关举措对数据质量的保障和提升已经产生了积极的效果。

整体上,我国已经形成公共数据质量保障从法律规范、技术标准到政策文件的一系列制度化要求,也积累了数据质量保障的有益经验。在此基础上,解决公共数据质量保障的若干关键共性难题是建立完备制度保障的重要前提。


三、公共数据质量保障的进路:通过设计的精细保障

前述法律与政策实践尽管已取得一定进展,但整个公共数据质量保障体系尚未全面建立,而三个关键问题仍然有待解决:一是数据质量保障相关法律关系的清晰界定;二是质量维护途径与法益影响结构的精准匹配;三是数据质量监控体系的深度扩展。这几个问题颇为棘手,或许都需要在通过设计的精细保障这一进路中得到解决。

(一)保障进路的待决难题:法律关系、维护途径与监控体系

国内公共数据质量保障法律与政策实践表明,数据质量系列术语正日渐超越统计管理领域,而法律和政策在数据缺陷治理方面正在由过去的信息维护范式转变为数据质量管理范式。然而,此种新的范式尚未全面进入公法学视野,无论是法理层面还是技术规则层面都仍然存在基础性的待决难题。

1.数据质量保障相关法律关系的清晰界定

行政法释义学尚未发掘数据中潜藏的法律关系。如果数据可以左右权利和合法利益的得失或损益,甚至影响决策方向,就有必要通过法律关系确认和保障其中值得保护的法益。对于其中复杂的直接与间接影响,行政法律关系的结构化功能可以发挥积极作用,为不同路径形成的法律关系建构出一个层级化的法律关系秩序。基于混合法律关系(gemischte Rechtsverhältnisse)和事物联系理论(Sachzusammenhangstheorie),基于履行公共职能过程中形成的公共数据对公共职能履行的密切关联性以及其中包含的公法义务,无论具体处理上述公共数据的机构为何种机构,这些数据法律关系均宜被认定具有公法性质。数据法律关系较之传统法律关系图式有其独特性:数据是可被复制的,而且数据利用并不必然需要控制数据,许多情况下接触者仅获悉其中的信息即足以实现数据利用目的,因此一项数据可能被无限次复用,而不同主体的利用对于法律秩序及公共利益目标而言利弊多有不同,其法律关系必然更多地架设于使用或利用层面。对此,私法研究中已不乏类似洞见,而公法已有类似的制度安排。例如在德国,为了有效地保障基本权利,数据保护法制要求在利用层面上实行严格目的限定:数据只能用于其被收集时的目的(访问、处理和使用期限的目的绑定);此种目的限定还通过透明度的要求得到保障,包括通知受影响者、报告义务、文档义务以及有效的处理控制(知情权、反对权、独立的监控机构等)。

然而,当前的行政法律关系理论框架尚较为粗疏,无论是人/物二分还是实体/程序二分,都难以涵盖数据之上的公法法律关系。行政法释义学仅仅认识到数据保护不仅仅是在数字化电子行政中的特定问题,而是整个行政管理领域的事务是不够的,必须引入适合的法律关系框架以承载公共数据污染治理的制度实践需求。例如,受数据质量缺陷影响的组织和个人应有机会有效参与数据质量缺陷发现和修复过程,此种道义上的应然性需要转化为法律上的请求权(甚至形成权和支配权)方能在行政法上得以完整展开,既包括查询、校验、更正乃至一定前提下撤回和删除的权利,也包括未来参与预防、发现和修复数据缺陷的更广范围权利束。这就要求公法建立某种数据法律关系的框架,全面发现和确认数据之上承载的法益及影响链条,并通过恰当的法律关系配置发挥其结构化功能,为各类主体防止和消除相应负面影响配置必要的程序公权,并确立侵犯相关数据法益的法律责任,使公共数据质量缺陷防范与修复进程在行政法治视野及行政法释义学框架内进行。

2.质量维护途径与法益影响结构的合理匹配

基于多元化的法益影响结构和缺陷发现能力,公共数据质量保障需要实现维护途径与法益影响结构的合理匹配。单纯自上而下的公共数据质量保障进路难以妥善、高效地解决三个现实问题:第一,公共数据质量保障动力有限。单凭有限的责任机制,不足以促使负有相应职责的部门或机构努力发现和消除数据质量缺陷,尤其是仅直接或间接影响个人、组织权益而几乎不会干扰行政决策的缺陷,也难以对抗部分情况下人为篡改相关记录的利益冲动。否则很难解释公共数据中的部分错误记录何以持续存在。第二,发现数据质量缺陷的信息源不足。仅靠自行检查并不能充分有效发现数据质量缺陷,尤其是不会引起系统报错及明显偏离数据分布的缺陷,也难以发现数据粒度不佳和时效性不足等往往在数据利用过程中暴露的缺陷,待数据质量缺陷风险外溢而延及权益侵害后果或数据空转局面发生时,很可能为时已晚。第三,应对数据质量缺陷的技术视野不足。相关部门和机构如有条件依托政务数据中台等系统和数据处理工具,可以应对传统形态和已预见的数据质量缺陷,但对于新型数据质量缺陷和攻击风险的防御能力尚属有限。对此,走向由众多利益关联方和技术服务提供者支持的参与式治理可谓势在必行。结构化的参与式治理可以回应公共数据质量保障动力与信息源的不足。信息和行动能力高度不对称条件下,参与式治理正是防范法益遭受隐蔽侵害的关键途径。根据利益的重要性区分参与程度和形式是公众参与的重要实践经验。通过确定特定行政过程涉及或者将要影响的各种利益,甚至进行利益评估与分层,以便界定相应的参与强度,才能实现公平、公正的治理过程。也唯有通过参与式治理,才可能引入更宽广的视角和信源,突破服务商对公共部门客户的单向透明玻璃,寻求数据质量缺陷的深层防治方案。

不过,在参与式治理中,质量维护途径与法益影响结构的合理匹配并非易事。行政过程中的参与关系(Partizipationsverhältnis)凸显了当事人间的衡平机制,但却在行政计划与规范制定方面呈现出难以用传统法律关系思维梳理的复杂图景。程序法上的各类衡平机制缺乏有效的盖然性量化判断,但在数据质量维护中却必须对此予以考虑。设想所有利害关系方(包括个人和组织)均可直接访问和修改数据是不可能的理想化方案。在保护合理访问与修改机会及效率的同时也需要防范藉由修改而可能产生的篡改数据风险、不正当竞争风险、侵害个人信息乃至数据安全风险(如窃取其他数据、发动SQL注入攻击等);对于受间接影响的利害关系方而言,法益影响程度、保护需求和访问乃至修改数据的风险与成本之间也存在微妙的平衡,应设置一定的参与门槛和参与路径以实现最优的行权效率与风险控制目标平衡,这就需要在参与结构中嵌入精准的、细粒度的权限控制和风险防控方案。不仅如此,对于受数据质量缺陷影响的公共利益而言,还需要在复杂的条块组织结构中寻求合适的行权代表和行权机制,尽可能恰如其分地代表受数据驱动型决策影响的多元视角与利益。

3.数据质量监测体系的深度扩展

既有法律规范与政策实践都关注到了数据质量监测体系,在技术视角中,这对于科学保障公共数据质量而言至关重要,能否发现数据质量存在问题是实现数据质量缺陷治理的关键前提。实践中,数据质量监控体系正在走向成熟,数据质量标准、数据感知工具、数据剖析工具、数据验证工具、数据清洗工具、血缘追踪(Lineage Tracking)工具、比对校验工具、元数据管理工具等已逐渐完备并在数据仓库等系统中集成。公法制度接纳日渐成熟的技术系统而构建数据质量监控体系并非难题,关键是如何确保公共数据处理和利用的全过程始终在法治框架内接受数据质量监控体系的保障,其中首要难题也是公共数据监测体系的发展。制约这一目标实现的主要因素不仅有公共数据的广泛分散,系统配置与运行成本压力,还包括公共数据处理的规模化发展、数据污染途径和数据污染发现与防御手段的持续升级迭代。这就需要建设动态发展的专门性机制实现复杂条件下大规模、分散化的公共数据质量监测任务。此种专门性机制应当有能力从纷繁复杂的巨大体量的数据中全方位挖掘数据质量信息,深入发现可能存在的质量缺陷,并为此提供进一步定位和治理缺陷的路径与建议。

前述种种待决难题要求数据质量保障制度具有显著的开放性、精确性与技术性,这就需要一条能够充分连接法律规则与技术架构的数据质量保障进路,并由数据质量保障相关法律制度给予认可与支持。

(二)通过设计的精细保障:基本理念与技术支持

上述所有待解决难题的解题之道都指向这样一个规则体系:能够有效识别公共数据的法益影响链条并确认不同主体在不同条件下的请求权、形成权与支配权,进而为此配置恰当的访问与更正权限;能够有效容纳开放性的数据利用与质量监测需求并提供确定性的回应与反馈链路;能够追溯和防控质量缺陷治理过程中的数据安全风险。通过法律3.0”的模式,此种规则体系可以基于一定的技术设计集成化、精细化实现。对于此种融合法律规则与技术支持的融合式设计,已有通过设计的隐私privacy by design通过设计的保护protection by design)等系列实践。公共数据质量保障的进路,也可以类似地表述为通过设计的精细保障。这一进路的基本理念是尽可能通过技术机制精细地在实现数据质量保障需求时控制伴生风险,使基于不同法律关系和法益影响的各类权能可以在数据质量控制体系内部高效精准行使。

这一进路除基础性的权益确认工作外,各种数据质量缺陷发现与治理措施都可以陆续集成到整个数据质量保障体系中来。数据和算法技术的发展已为此准备了必要条件。除常规的感知、清洗、剖析、验证、追踪、校验、容灾备份、自动恢复、权限控制、审计轨迹等工具外,即便是一些比较棘手的数据质量问题,也有了针对性的发现和保障技术,同时一系列有助于减轻数据质量缺陷对数据驱动决策影响的技术亦可集成到这一体系中。例如矩阵恢复算法能够对矩阵数据作补全或去噪处理;稳健设计可以通过选择最优参数组合或者改变估计方法来减少系统对噪声变化的敏感性,从而达到减少系统性能波动的目的。

通过设计的精细保障要求在公共数据处理系统或平台设计时即预留上述技术工具的加载空间和途径,待相关技术工具应用条件成熟时逐步加入数据处理过程。对于公共数据处理与利用的一般场景,法律规范只需要就公共数据质量保障过程规定若干基础性规则,例如同政府部门和公共机构的数据汇聚后,对数据真实性和准确性(或客观性与完整性)存在异议的,应当有畅通的渠道和机制接受投诉,数据处理平台应当就此专门设置数据校核请求权和数据更正请求权的行使途径;对于某些易被污染或质量缺陷高发的公共数据系统,需要通过技术标准确认专门的检测方法、过程和指标,实行数据质量实时或定期检测。进一步的质量控制与保障要求(尤其是数据利用层面对时效性和颗粒度的要求)可以诉诸法律规范指向的相关技术标准。对于数据质量保障及数据安全需求较高的场景,法律、法规或规章应针对性地作出专门规定,包括质量保障目标、主要措施与制定和完善相关标准的授权。

通过设计的精细保障进路与未来政务云平台建设和全国一体化政务大数据体系的形成趋势是相符的。2022年,国务院发布《国务院关于加强数字政府建设的指导意见》(国发〔202214号,以下简称《指导意见》),明确要求依托全国一体化政务大数据体系,统筹整合现有政务云资源,构建全国一体化政务云平台体系,实现政务云资源统筹建设、互联互通、集约共享。国务院各部门政务云纳入全国一体化政务云平台体系统筹管理。各地区按照省级统筹原则开展政务云建设,集约提供政务云服务。……”尽管《指导意见》中的要求未必迅速成为现实,但客观需求和发展规律使政务云建设势在必行。随着公共数据体量的日渐庞大、计算开销的大幅增长、智慧政务的持续发展、数据安全要求的不断提高以及云原生技术的成熟,政务数据乃至更大范围内的公共数据不断上云集约处理当属大势所趋。云平台对于精细划分权限、多用户多任务并发处理、保留访问和操作记录等已可谓驾轻就熟,并不需要成本高昂的额外软硬件工具即可实现大部分精细保护需求,还可以内置一般性的及按需定制的数据质量监测模块,为不同权限的使用者对相关数据实施质量监测提供便利。由此,在技术条件日益成熟的前提下,如何通过合理的法律制度支持通过设计的精细保障即为问题之关键。


四、公共数据质量保障的基础性制度设计

通过设计的精细保障在逻辑上要求先明确保护什么,继而回应谁来保护的问题,随后解决如何保护的具体措施安排,这就要求公共数据质量保障方面的法律规范包含若干关键基础性制度设计,形成质量保障制度的核心架构,进而在实践探索中逐渐引入更为丰富的规则和标准,形成日益完备的数据质量保障体系。保护什么意味着首先需要确认受公共数据质量影响的法益;谁来保护要求建立结构化的参与式治理制度;如何保护则需要全面吸纳不断发展的数据质量保障技术,探索建立能够应对不同场景下海量分散公共数据质量监控任务的规则和机制。

(一)公共数据法益确认制度

公共数据法益确认制度既有助于为保障数据质量提供动力,也有助于保护受数据质量缺陷影响的法益。行政法释义学并未对受公共数据质量缺陷影响的法益提供现成的法理,相关法益的辨识和确认需要探索合适的认知架构。总体上,受公共数据质量缺陷影响且法律予以保护的利益有两个方面:一是政府和公共机构利用数据处理相关事务的相对人,数据表征了相对人在数字空间中的某种状态;二是各类用户利用开放公共数据或公共数据授权运营产品、服务可能依法获取的经济利益。前一种利益包含了传统实体法益、程序法益和个人信息保护方面的法益,数据质量方面的缺陷可以影响当事人的法律状态,导致相关数据表征的法益遭受风险,可以借鉴德国法上保护个人或法人已经拥有的法律地位或权利的维持现状利益Bestandsinteresse)而称之为状态法益。后一种利益则包含了数据利用活动本可能产生的正当利益,本质上来源于数据的使用,可以称之为使用法益。公共数据相关法益的确认应该涵盖状态法益和使用法益。

对于状态法益而言,直接影响所对应的状态法益只需要概括性的法律规则即可确认,《个人信息保护法》和《政府信息公开条例》等法律法规甚至提供了部分直接行权途径。不过,既有法律法规的规定均仅针对个人或组织自身的信息,而不及于其他主体可能与特定个人或组织存在利害关系的信息,因此关键是如何确认受间接影响的状态法益。对此,需要全面辨识现行法律制度中各类超出个人或机构自身意志控制范围的确定性和高度盖然性连带影响(如犯罪记录对近亲属就业的影响、董监高违法犯罪记录对企业上市和股票发行的影响、特定职业禁入和禁止参与特定业务名单对部分单位正常开展业务的影响等),包括公法和私法上各种连带义务、连带责任、连带性权利取得与行使条件以及其他形态的利害关系,并为此专门列举行使数据质量缺陷修复请求权的前提条件,支持状态法益受间接影响的主体维护合法权益。确认受直接和间接影响的状态法益,将为利害相关方参与维护数据的客观性、完整性充分畅通权益保障与救济渠道。

对于使用法益而言,公共数据质量的缺陷将不同程度上影响用户利用开放公共数据或授权运营数据产品、服务的经济收益。受使用法益影响的主体不仅重视数据的客观性和完整性,也相对更有动力发现公共数据在时效性和颗粒度方面的缺陷。在公共数据的利用收益尚难以完全确定、社会利益与经济利益兼备的前提下,需要为用户参与发现和反馈质量缺陷提供更广阔的通道。只要使用者实际上直接参与了公共数据的开发利用,不论其直接期望从中获益多少,均应确认其使用法益存在,并且明确其有权反馈数据的时效性、颗粒度等影响利用价值方面的缺陷,为其参与数据质量缺陷发现和治理提供便利。

(二)质量缺陷参与治理制度

公共数据质量保障需要建立全方位的质量缺陷参与治理制度。在宏观层面上,这一制度可以嵌入信息行政法(Informationsverwaltungsrecht)。信息的收集和传递是合作知识生成和决策的基础,而完整、及时且可靠的知识提供是行政行为质量和合法性的中心条件之一。与行政联合体(Europäischen Verwaltungsverbundes)相应的信息联合体对此负有保密和数据保护的责任,这在今天已经成为信息行政法的一部分。尽管独立的主权国家不存在所谓的行政联合体或信息联合体,但相应的知识提供和数据保护责任也需要为公共事务处理的法理所确认。在微观层面上,这一制度需要根据受影响的法益类型和数据权属设计兼容多元主体参与的质量保障机制,确立体系化的公共数据更正(请求)权及权利行使程序,并有效控制数据安全风险。

原则上,状态法益受数据质量缺陷影响时,相关法律主体可以对来源自身的数据依法行使更正权,而对非来源于自身的数据行使更正请求权,相关数据系统应为各种行权途径预留技术支持空间,实现通过设计的精细保障在民法学的讨论中,基于数字劳动理论和洛克式的财产权限制要件,数据来源者权利的正当性得以证成,权利内容具体包括访问权(含控制权)、使用权、收益权。这一框架对于公法学而言有一定参考价值,但尚存在不足。数据来源者对于与来源自身的公共数据通常应当享有访问权和更正权(国防、国家安全、治安等领域列入保密范围的数据除外),但此种权利的来源并非数字劳动,而是基于程序公正和行权效率的公共利益考量,由数据来源者对自身数据进行核对与修改是最为合理的,但相关访问与修改必须留存记录且接受相应行政机关或公共机构的校核。状态法益受非来源于自身数据的质量缺陷影响时,如果访问相关数据不涉及国家秘密、商业秘密和个人信息保护等法律限制,法益主体应享有对整个法益影响链条上的数据的访问权和更正请求权;如访问相关数据受法律限制,而法益主体有理由认为自身的状态法益受数据质量缺陷的不利影响,则法律至少应当赋予其数据校核请求权,请求有权组织校核数据的客观性、完整性,并告知结果。

使用法益受数据质量影响时,由于利用公共数据已存在范围限制(如外部用户可利用的数据应为脱敏脱密数据),具备使用法益的主体应有权在安全可控的前提下对所利用公共数据的质量实施监测,并向对相关公共数据质量负责的部门或机构反馈结果。此种反馈结果并不限于数据客观性、完整性缺陷,诸如数据粒度过粗、数据时效性不足或数据统计方式不合理等亦可作为反馈内容。相关制度设计的关键在于要求系统设计时集成数据质量保障工具乃至预留安全可控的外部监测工具接口,支持数据使用者运用各种安全可控的监测工具对数据质量作深度观察分析,同时鼓励公共数据处理平台运用隐私计算、同态加密、零知识证明等技术,在原始数据不出域和计算负担合理的情况下,向用户提供部分不宜直接访问的数据的部分质量监测结果和关于特定数据集客观性、完整性的有效信息,便于用户基于自身所拥有及可访问的数据进行交叉验证,发现潜在的数据质量问题。鉴于提升数据粒度和时效性等关系利用价值的质量指标往往存在成本约束,相关反馈机制还应允许用户报告数据利用的具体质量需求与预期经济利益,以便政府部门与用户(有时还包括公共数据授权运营组织)之间就提升数据质量展开协商,针对性地改进公共数据质量。

支撑此种参与式治理的关键是需要构建兼具确定性与建设性的反馈回应机制。数据质量监控体系的完整建立需要在技术性数据质量监控系统之外全面、动态地强化符合数据质量提升规律的正向反馈循环。数据质量存在的缺陷与问题只有在使用中才会被充分发现和体验,而使用者发现问题是否有足够的意愿、能力和畅通的渠道提供反馈,反馈问题后是否会受到及时重视、回应与解决,相关主体是否有动力和资源处理相应问题,都制约着反馈循环的建立和数据质量的提升。关于问题是否可能得到有效解决的主观感知很可能受到实际回应态度、时间和解决问题概率的贝叶斯式影响,而且会在一定圈层内产生传播效应,因此实际回应和解决问题的比例下降,均可能引发反馈问题占发现问题比值的相应非线性下降。同时,使用者未必能精准地判断数据质量缺陷的来源与程度,往往也很难判断问题得到解决的准确概率,可能只能感受到一个模糊的概率区间,因此,法律制度应当明确要求相关质量保障部门对有具体内容的反馈作出包含明确判断的有效回应,并对有实质内容的模糊反馈作出建设性回应,既致力于维持有效回应率和畅通信息交互渠道,也致力于从交流中发现数据质量缺陷的线索。

在上述参与途径的基础上,参与式治理制度中还应包含数据修改意见冲突处理机制,由对相关公共数据质量负责的部门或机构对争议数据进行校核,听取各方当事人的意见,最终作出数据处理决定并说明理由。尽管公法学未必能够就公共数据处理一蹴而就地确立某种数据正当程序的法理,但通过此种制度安排,可以逐步形成数据正当程序的制度轮廓,进而在未来支撑更深入的数据质量参与式治理机制实施。上述数据处理需求均应在相关系统设计(包括开发阶段或升级迭代)时嵌入,实现法律技术过程的有效融合。

(三)数据质量深度监测制度

前述两方面的基础性制度设计主要是充分调动受数据质量影响的各方主体参与数据质量治理,尽可能在合理成本负担前提下发现并修正各种集中或分散存在的公共数据质量缺陷。伴随数字政府建设、公共数据体量持续膨胀和智慧政务、智慧城市等进一步发展,零敲碎打式的分散治理途径并不能承载公共数据质量保障的主要压力。公共数据质量保障的主干途径仍然应当聚焦集约化的数据质量监控与提升途径,建立和完善可由公共数据处理平台负责实施的数据质量深度监测制度,有效应对成规模、高负担的数据质量治理需求。

数据质量的深度监测需要深入考察数据间的相关性和因果性,引入多层次、多模型的交叉验证,维护数据的客观性、完整性和时效性。公共数据之间存在广泛的潜在相互关联,通过挖掘关联性可以实现对不同数据项的验证和估计。某指数用新增用电量、新增铁路货运量、新增银行贷款三项数据估计经济状况数据,本质上就是利用了公共数据之间的相关性和潜藏的因果关系。在不同数据源之间的数据进行交叉验证,并不局限于简单的数值比对,而是需要进一步扩展到模型级别的相互核验,相当于将各个数据源视为缺失数据集,进行广泛的因果关系发现,验证各模型之间的一致性,及时发现数据失真、缺漏及部分数据集时间滞后等导致数据一致性、联合分布和因果关系异常的问题。缺失数据集因果关系发现的研究成果在各个领域都有广泛的应用,最起码能够实现一定条件下的数据补全,这就足以实现一定程度上的交叉验证;基于各个数据源的因果发现,还可以进一步了解数据间不一致的可能成因及缺陷所在。即便自动化的数据质量保障工具无法确定和修复缺陷,也可以指引工作人员进行人工排查与修复。惟有模型级别的交叉验证才能应对海量多源数据的复杂质量保障需求,进而在公共数据得到相关数据平台的全面数字化处理时,实现涵盖各层次的数据质量动态监控。

当然,公共数据的大规模汇集可能引发越权决定、程序违法、数据操控等风险并放大数据隐私和安全风险,但此种数据质量深度监测方式并不要求数据的汇集,而只需要交换数据补全和因果发现后的比对结果,提供数据质量缺陷的可疑路径及分析证据,并不需要向各部门、各机构披露不属于其职能范围的原始数据,产生类似于隐私计算的结果。公共数据质量保障的法律制度仅需要为此种深度监测提供实施多方计算的授权和规定数据安全保障及个人信息保护要求,至于是否需要及何种程度上汇聚公共数据,则可以由立法者根据公共数据利用与数据安全、个人信息保护及相关权益保障之间的平衡具体决定,并以相应技术标准或指南指引未来公共数据处理平台的技术设计及数据处理过程管理规则的形成。


五、结语

在数字政府和数字社会的建设与发展进程中,公共数据的质量举足轻重。尽管数字行政法数据公权等重要的法理基础仍有待发展,强化公共数据的质量保障已属时不我待。随着公共数据规模的持续膨胀和数据利用方式的日益复杂,公共数据的质量保障必将成为一项支撑整个数字政府和智慧政务基础的大型制度工程。本文可以被视为抛砖引玉式的初步尝试,随着公共数据洪流自一苇可航发展至连山排海,亦必将催生更深入、更丰富的后续研究。数字行政法需要面向数据洪流构筑堤坝、挖掘引渠和布设滤网,始终防止公共数据的处理和利用非法或不当侵蚀公民和法人的合法权益,也防范数据质量缺陷对公共利益目标的种种危害,为数据价值在公共领域的释放竖立坚实屏障。