摘 要:一致性、兼容性和可信性的数据不仅是“开放性”和“责任性”互协演进治理框架的智能化底座,亦是“技术系统”与“职责体系”双向调适治理路径的数字化纽带。合成数据作为新兴的数据范式,兼具模拟性、预测性和经济性多重优势,其构成的仿真数据工具平台在智能决策、辅助执法、组织运行、绩效评测等典型数字法治政府应用场景中可有效补齐数据安全短板,防范“数据赤字—治理失灵”恶性循环,其产生的“技术—权力”耦合效应加速行政决策从经验驱动向数据驱动转型,产生技术赋权与权力结构化互构效应。合成数据的场景化嵌入虽能突破原始数据采集的物理边界与合规困境,但其衍生出的“虚拟—现实”双重治理维度,却加剧了法律事实认定标准的解构风险。为破解合成数据的赋能风险,亟需构建“技术可解释性审查”为程序性要件和“风险梯度响应”为实体性标准的双轨制衡机制,动态校准数字治理效能与法治核心价值间的制度均衡。
关键词:数字法治政府;合成数据;风险预防;过程性风险
一、问题的提出
作为重要的新型生产要素,数据在赋能政府治理机制再造、优化政府治理机构重塑以及拓展政府治理工具创新等方面充分展现了数字与法治相互融合、双向赋能的独特价值。《法治政府建设实施纲要(2021—2025年)》《国务院关于加强数字政府建设的指导意见》等政策文件均指出以技术工具为底层依托转向数据交互为核心承载牵引数字法治政府建设的发展路径。然则,随着大数据模型建设的不断推进,数据存量的增长速度远远落后于数据集规模的扩张速度。据人工智能研究机构Epoch AI的研究预测,语言数据可能在2030—2040年耗尽。为破解数据获取困境,亚马逊、微软等大型科技公司利用合成数据兼具模拟性、预测性和经济性多重优势,不断扩展合成数据的替代性应用场景。与传统数据保护利用模式不同,合成数据集访问、分析和保护数据隐私于一体,可解决匿名化失败导致的个人身份暴露和行为轨迹追踪等数据泄漏风险。这一变革不仅丰富了行政决策的数据维度,亦在训练执法模型、模拟复杂执法场景和跨部门数据交流等多个场景为数字法治政府的研究与实践提供了新的方法论和工具集。
合成数据在与现实数据迁移时既会面临差异化对齐和多样态补足的技术挑战,亦需适应从传统的主体—对象—工具单向流动模式转向更为复杂的多维互动模式。一方面,合成数据的信息脱敏性有利于形成数据流通的新范式。作为生成式人工智能训练的新型数据源,合成数据能够模拟真实数据的统计特性和分布特征,其结构化的生成机制既保留了数据统计特征,亦能实现个体可识别信息的定向剔除,由此催生出以群体特征模拟替代个体隐私监控、以公平性先验嵌入更替非均衡性算法预测和以场景生成技术突破结构性偏见的数据协作新模式。另一方面,合成数据的共生性有利于构建“虚拟沙盒”的协同治理范式。相较于传统数据提取宽泛、共享规模受限等不足,合成数据凭借算法合成的方式既可以“自动填充缺失数据并应用标签”实现对数据的补偿效应,亦能凭借高频次的迭代性可满足大模型数据收集和训练的需求,避免数据赤字现象的发生。这一迅捷性优势在统筹治理机制、动态调整机制和公允评价机制等方面为数字法治政府建设的持续性与均衡性发展注入新生力量。
然而,过度追求合成数据的真实度和多样性可能导致偏见承继和决策误导等过程性风险,触发新一轮算法侵害和数字避责。《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等相关管理规定中虽明确深度合成服务提供者和技术支持者应当加强训练数据管理,采取必要措施保障训练数据安全,但涉及合成数据参与政府监管应用场景的扩张性、叠加性和衍生性所形成的法律风险多以次生性论之,对于当前数据监管规范的适用范围窄化问题,并未像研究人工智能那样受到热烈关注,针对合成数据运行所形成的新的法律关系下政府治理风险鲜有思考。究其本因,除合成数据的新技术属性外,监管主体尚未意识到面向合成数据赋能作为一种加强方法在与行政权力耦合时可能出现逆目的性风险,过度合成判断权、更正请求权和合成处理拒绝权权利体系不明,导致现有规制理念和规制工具中并未对合成数据如何改变行政程序运行、影响行政决策生成乃至压缩行政救济路径提供有效解决方案。
二、合成数据赋能数字法治政府建设的多重维度
数字法治政府的构造呈现出“技术赋能—制度形塑—组织重构”的互动逻辑,其本质是通过数字技术实现法治要素的代码化转译,在提升治理效能的同时恪守权力制约、程序正义等法治底线,最终达成工具理性与价值理性的辩证统一。这一构造既需要应对算法“黑箱”、数据垄断等技术风险,亦面临着传统行政法体系数字化转型的制度挑战。依托多源异构政务数据的跨部门整合与特征融合,合成数据可通过提取数据源核心特征和适配差异化政务场景需求,以解决真实数据类别分布不均和大型生物特征数据集所引发的失衡性、偏向性以及无序性等安全问题。
(一)强化数据共享
循沿服务工具数字化-服务流程数字化-服务理念数字化的演进轨迹,数字法治政府建设从简单的线上化迈向大模型化阶段。政务大模型被广泛应用于公文自动化撰写、12345热线应答和公共服务优化决策等数字政务应用场景之中。国务院2024年1月颁布的《关于深化政务服务优化、强化行政效能并促进“一件事一次办成”高效推进的指导性意见》中,要求积极探索并应用自然语言处理领域的大型模型技术,优化智能问答、智能搜索以及智能导办等线上政务服务环节,实现政务服务事项高效精准办理。在此进程中,高质量、多样化的模拟数据有效解决了政务领域数据敏感性高、标注成本大等现实困境,显著提升了模型在复杂政务场景下的适应性和泛化能力。例如,在智能导办场景下,合成数据可构建多维度用户画像和服务路径,实现政务服务事项的精准匹配和个性化推荐。
传统治理模式受制于数据采集颗粒度粗放与共享机制阻滞等现实困境,导致行政资源配置效率与治理需求之间存在结构性张力。合成数据的敏捷生成特性为数字法治政府建设注入三重创新动能:一是借助多模态数据融合技术构建智能化决策支持系统,显著提升行政主体对于复杂行政场景的实时响应效能;二是重塑数据治理链条,在拓展公共数据共享边界的同时,将隐私保护规范深度融入数据处理全流程;三是依托合成验证基准构建算法公平性评估机制,有效破解传统评估体系中存在的系统性认知偏差。以中国地震局《防震减灾领域人工智能发展研究专项规划(2023—2035年)》为例,该规划明确提出构建地震监测预测预警训练数据库的战略目标,通过开发标准化合成数据集,不仅解决了敏感数据共享难题,更为人工智能模型训练提供了兼具多样性与代表性的基准测试平台。这种技术治理路径既符合行政法治的规范性要求,亦体现了数字政府建设的创新性维度。
实践中,数据治理普遍存在的采集行为泛化趋势与权利侵害的实体化倾向,其实质上折射出技术治理工具与法治控权逻辑尚未完成规范性调适的深层困境,最终导致治理效能的系统性折损与公信力的结构性耗散。合成数据技术在数据生成前阶段,采用多模态数据融合引擎对原始样本库实施异常值检测与分布均衡优化;在生成后阶段,通过对抗性验证网络对合成数据集进行语义一致性校验与隐私泄露风险评估。
(二)提升行政效能
社会演变的宏大试验场中,诸多能够影响中国社会演进的新元素以及这些元素间新的碰撞与联系的可能性已被释放。在这充满活力的“化学反应”过程中,新的社会秩序和社会结构正通过各种全新的社会问题和社会挑战的形式展现出来。数字法治政府的建构本质上是数字技术深度嵌入政府治理体系与行政法治框架的制度性变革,其在实现治理效能跃升与行政范式转型的同时,亦催生出技术理性与法治价值的结构性张力。由公民生物特征信息构成的隐私保护场域、企业核心数据形成的商业秘密保护场域以及公共部门数据权属划定的治理边界场域,共同构成了数字化转型中三重敏感性数据的模态叠加,该种复合型数据生态的生成暴露出传统科层制组织固有的信息不对称与权责离散化特征,在数据采集标准阙如与权限配置机制失序的双重作用下,法治政府的数据赋能需求与个体权利保障诉求之间产生规制盲区。
数据治理可分为两重维度:一是对数据进行治理,二是用数据进行治理。传统数字政府建设以建立可查、可用、可转的数据资源底座为目标,更关注管控数据的合规性、安全性、完整性和准确性,可能遭遇数据耦合度低、人工审查度高和过程协同低困境。以数据清洗阶段为例,从不合规数据的识别、问题反馈至修正的实施,构成了一个包含多方参与的闭环流程。在此过程中,建立数据使用者、数据治理者以及数据提供者等多主体之间的协同机制显得尤为复杂。合成数据不仅是解决生成式人工智能发展中高质量训练数据供给不足的新方案,其对敏感信息的剔除功能可以替代个人特征数据在数据流通新增了中介性功能,从而催生了一种新型的数据共享与合作范式,即借助合成数据所构建的模拟环境,行政决策者得以拥有一个实验与验证政策效应的虚拟测试平台,实现以群体画像模拟替代个人过度监控、以公平均衡性预测变更偏向窄度预防和以场景数据增强消弭结构性偏见固化,从而降低政务数据枢纽式汇集中法律责任归属的模糊化,消除政务数据汇集的“数字避责”风险。
三、合成数据赋能数字法治政府建设的风险隐忧
政府建设的数字化转型常陷入以工具理性为主导的机械性累积困境,将技术创新单纯视为风险解决的工具,同时将法律规范简化为仅限于事后的追责机制,在应对合成数据引发的多维风险时会显露出结构性缺陷。一方面,技术系统的迭代优化虽能提升数据生成效率,却难以通过算法透明化矫治过程性风险;另一方面,既有法治框架的制度主义路径依赖使得事后规制与惩罚性追责虽可维护形式正义,却因缺乏风险预判机制发生监管滞后效应,进而导致制度性耗损与创新动能衰减。均衡性原则的规范效力源自对行政目的必要性的严格检视,其制度功能不仅在于通过比例基准防止权利过度减损,更在于实现技术治理中公益增益与私益保障的动态平衡。为最大限度地减少均衡性判断中的非理性因素,我们应当从权衡者和当事人的共同视角出发,在合成数据责任配置中引入均衡性原则时既要避免将过重责任强加给数据生成主体,亦能明确数据应用中的责任归属条件,实现技术规制理性与数据正义价值的规范统合。
(一)规则植入风险
具有深度学习特性的技术演进深刻影响着法律价值体系,引发其呈现出高度的不确定性样态,传统规范与价值架构需在全新技术语境的参照系下进行全面且深入的重新考量与评估。作为行政权获得正统性的方法,行政机关在行使权力时适用业已颁布的法律规定,以此为根据证明权力行使具有合法性。而以合成数据为底座的智能政务网络构建起“法理型权威”下的规则体系,虽打破了传统科层制的行政威权运行的路径依赖,却并存数据分散而发生决策扭曲的可能性。
一是非预期性规则植入。合成数据来源的泛化特质衍生出算法驱动型、数据偏差型与系统集成型三类非预期规则。首先,算法模型在基于合成数据样本设计和运行时,其假设或技术逻辑可能在实际应用中导致算法驱动型非预期规则产生。例如,在社会福利分配系统中,基于机器学习算法的资格审核模型可能因合成数据中存在的地域、阶层或种族偏见而对某些特定群体产生不公平的审核结果,形成非预期的福利分配规则。其次,生成数据来源的多元性会衍生出数据偏差型非预期决策规则。相较于传统单一、可控的数据采集模式,合成数据的生成汇聚不乏商业数据库、网络公开信息以及第三方合作机构提供的数据片段。多元化的来源渠道往往秉持各异的利益诉求与数据标准,部分数据源受商业利益裹挟,存在严重的内生性偏差。基于偏差数据所构建的行政决策规则天然携带 “基因缺陷”,监管部门以这类失真数据为蓝本拟定执法标准时,易陷入错误认知“陷阱”,导致偏差性规则嵌入规则体系中。再次,合成过程的非均衡性和不兼容性使得政务系统在技术架构上存在显著差异,易触发系统集成型非预期决策规则。政务数据汇聚、整合、共享情境中,不同政务系统间数据接口、数据格式、业务逻辑等方面兼容性问题可能影响到政务协作机制。以税务征管与企业财务信息系统集成为例,一旦数据接口匹配失效,企业纳税申报数据在跨系统传输、转换环节便极易出现错误,税务部门基于错误数据反馈所拟定的征管规则必然失准失焦,不仅干扰税收征管流程的顺畅性,更侵蚀税收征管的准确性与公正性根基。
二是偏差性规则内化。传统治理模式的数字化重构本质上是技术系统对行政权力运行的结构性渗透,其通过将科层制程序理性转化为“数据输入—算法运算—决策输出”的自动化闭环,行政效率提升的同时却导致了程序正当性要素的隐性流失。这种技术嵌入过程引发双重治理悖论:算法不可解释性消解了行政说明义务的履行基础,而人工干预虽能部分修正技术偏差,却可能导致偏差性规则嵌入整个规则体系之中,削弱合成数据的可信度和可用度。虽然政务数据流通在优化行政程序、提升行政效能、改善公共服务质量等方面具有显著助益,然而潜藏在底层结构中的偏差性规则,在数据的流转过程与监管活动的复杂交互作用下,极有可能引发局部性乃至系统性的风险隐患,以静态防御、被动响应、单点控制为特征的安全防护范式,在应对人工智能和大模型技术引发的系统性安全风险时已呈现出显著的适配性危机。
《生成式人工智能服务管理暂行办法》通过确立算法备案与生成式人工智能服务备案的双备案机制,将监管节点从研发过程控制延伸至产品服务输出端,初步实现了从行为规制向风险预防的范式转型。然而,现行监管框架在训练数据全周期治理方面仍存在规制真空,尤其对合成数据在跨平台共享、多场景复用过程中可能引发的数据投毒、模型窃取、隐私泄露等次生风险缺乏前瞻性防控机制。鉴于此,有必要构建包含终端安全防护、网络边界控制、数据全流程治理、应用场景监控的四维协同防御体系,以动态监测机制、风险预警模型和精准干预策略等系统性规范体系为主轴,形成涵盖预防性规制、过程性控制、结果性救济的立体化风险治理范式。
(二)决策引导风险
数字政府是一种数据驱动的行政构架。“数字政府通过信息平台建设,将所有的信息数据汇集”,通过算法决策改变传统行政决策以人与人交往基于事实判断为基础的因果逻辑决策方式,转变为以数据为基础的统计学相关分析和因果推断型决策方式,对海量数据进行系统加工阐释的过程使得人们可以通过这些数据对个人或者群体及其行为进行深入的推断。如果过度追求合成数据的真实度和多样性,可能触发新一轮的隐私泄露问题,甚至产生决策偏私、决策循环和决策虚假等损害公共利益和个人权益等“后天畸形”的可能。
一是决策偏私风险。合成过程中满足既定标准的数据会被引入应用环节,而偏离预期的异常数据则需回溯至前期流程,重新接受优化处置,这一质量筛查机制构成了事实上的行政程序要件,即符合法定准入基准的合成数据依行政效能原则进入决策应用,而异常数据则依比例原则触发行政自我纠错程序,此举虽符合《中华人民共和国数据安全法》(以下简称《数据安全法》)第21条规定的数据分级分类保护要求,却因程序瑕疵导致裁量基准的技术黑箱化、正当程序原则虚置化和平等权保障形式化危机。由于缺乏客观的前置条件,合成数据生成主体无法对照《法治政府建设实施纲要(2021—2025年)》第15条要求的“透明可解释”机制对个人偏见和歧视提供客观说明,导致合成数据从起始阶段就在公正性方面存在“先天不足”的偏差。例如,在社会福利政策的制定过程中,若合成数据未能充分涵盖不同地区、种族、收入阶层等人群的特征和需求,这可能导致政府在分配福利资源时产生偏颇。
面对新兴科技的不确定性,政府负有充分权衡风险承受者的合法法益和避免因不当规制而抑制技术创新活力的双重责任。在实体层面,可探索创设数据质量异议程序,赋予合成数据影响主体行政复议和行政诉讼原告资格,以此拓宽救济范畴,夯实实体层面权利保障的制度基础。于程序层面,通过对《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)进行扩张性解释,推进算法影响评估机制的有效施行,进一步延展算法合成程序的监督边界。
二是循环决策风险。从数据主义角度观察,任何现象或实体的价值就在于对数据处理的贡献。利用生成模型产出的合成数据再次用于训练大型模型,这一看似内部循环的过程被隐喻为“AI贪吃蛇”,即将人工智能生成的内容作为输入再次提供给同一人工智能模型进行训练,会导致模型输出质量的显著下降,产生的“模型自噬障碍”(Model Autotroph Disorder, MAD)会催生循环决策风险。在采用模型自身初始输出作为训练数据的过程中,若该数据集中潜藏有虚假信息或捏造内容则会逐渐侵蚀模型的稳健性基础,长期累积之下会诱发模型结构的不可逆性损伤,进而致使模型性能出现难以修复的缺陷,严重影响其预测或决策的准确性及可靠性。
三是虚假决策风险。依托海量数据而生的市场主体“画像”、数字孪生和人工辅助决策等智能决策体系正逐步成为数字法治政府建设的核心动能。合成数据虽由原始数据生成,两者在语义、结构及生成逻辑上存在显著差异,其关系图谱的交叉性模糊了智能决策中行政行为真实性的辨识边界。《信息安全技术 个人信息去标识化指南》(GB/T 37964—2019)通过技术标准赋权机制,将数据合成技术纳入推荐性规范体系,形成“技术合规即授权”的特殊治理范式,使得技术企业在《数据安全法》第21条框架下可基于标准符合性声明实现敏感数据内部流转。然而,《个人信息保护法》第73条对匿名化的法律定义与《中华人民共和国网络安全法》(以下简称《网络安全法》)第42条存在规范裂隙:前者采用“不可识别+不可复原”的双重要件,却未明确“技术可能性”与“合理成本”等关键判定基准,导致《中华人民共和国民法典》第1034条规定的个人信息权益面临解释论困境。而具体的匿名化审查技术规范多散见于推荐性国家标准文件中,极易导致监管者难以通过强制性披露工具要求技术企业提供数据生成的全流程信息,政府部门作为合成数据的使用者则需定期评估并量化决策行为中采用合成数据所得预测结果的有效性与可靠性,进而完成数据驱动型决策模式的闭环优化。
(三)责任脱逸风险
数据转化活动并非必然能够径直构建起一个明晰且可供主张权益的框架。“合成数据生成器的架构愈趋繁复,往往导致其所生成数据中的相关性解释难度加大”,既面临原始数据采集主体的数据权益边界识别与保护判断,亦需解决原始数据加工主体与合成数据使用主体的责任划定问题。合成数据在法治政府建设中的多模态应用场景触发监管权属的规范困境,其本质源于数据生命周期管理与行政组织法架构的适配性断裂。合成数据涉及数据采集、信息提取与内容重构多阶段操作流程,其技术特征呈现出区别于既有法定类型的复合性特质,学界对其是否具备独立法律行为属性仍存理论争议,主要症结在于合成过程中原始数据与衍生数据的权利边界划分、处理行为的法律定性等规范要件认定有待进一步明确,监管部门需将风险发现—风险预警—风险消除的后发性治理逻辑更新为风险预测—风险排除—风险抑制的前置性治理脉络,由此衍生至是否将《互联网信息服务算法推荐管理规定》中确立的算法安全评估制度延伸至合成数据全生命周期监管等相关问题。
一是责任主体脱逸。随着国家和社会的多元化发展,承担行政任务的主体呈现多样化的态势,如何更好地统合、区分并规范国家行政权和公共组织的行政权能,成为理论界思考的一大重点。合成数据的生成内嵌原始数据收集、算法干预和质量筛选等一套逻辑缜密的操作流程。除原始数据持有主体外,各阶段参与主体的身份界定将影响到数据权利的分配。在“广东省深圳市腾讯计算机系统有限公司等与浙江搜道网络技术有限公司等不正当竞争纠纷案”中,法院经审理认为原始数据权益系用户信息权益的附属性权益,用户信息在数据化转换后虽然提升了信息利用效率,但并未提升信息的内在品质。原始采集主体只能依附于用户信息权享用有限权益。擅自使用少量由他人所控制的原始数据,数据控制主体不能因此主张损失赔偿。
《互联网信息服务深度合成管理规定》建立了深度合成服务提供者和技术支持者的双主体约束机制,而《网络数据安全管理条例》则采取单主体集中式归责,即规定提供生成式人工智能服务的网络数据处理者应当加强对训练数据和训练数据处理活动的安全管理。除责任主体确认归责模糊外,主体责任内容的规范化、一体化和整体化亦有待补缺。以数据修正合成场景为例,当数据汇集主体实施内容重构时需考量《人工智能生成合成内容标识办法》设定的技术性标识和程序性触发双重法律义务,即生成时不仅需将生成合成内容属性信息嵌入文件隐式标识层,还应参照《征信业务管理办法》构建“错误溯源—风险评级—标识更新”的自动化响应机制。当数据使用主体开展数据处理活动时,若检测到信息误差源于外部信息提供者,须启动瑕疵通知程序;若属内部技术处理错误,则需履行主动更正义务。如此既契合《个人信息保护法》中影响评估的要求,亦能实现《中华人民共和国电子签名法》规定的可追溯性技术标准。
进一步来看,合成数据生成器多以平台的形式展现,在通过平台交易合成数据的过程中,可能会遭遇一系列隐蔽性较强的问题与风险。由于合成数据蕴含高度科技含量,其生成平台或公司凭借掌握的核心技术和关键要素,于合成数据交易双方间构建起一种隐性的、不平等的关系格局,监管者很难判断合成过程中原始数据不再利用的确定性。如前文所述,实践中合成数据的交易一般是通过买卖平台的方式进行,虽然此种方式可以减少合成数据卖方对数据用途以及数据内容的干预,在一定程度上避免合成数据买方的数据信息泄露,但是卖方此时仍由于算法透明度低而存在算法优势位置,买方通过购入平台,输入样本数据库,利用算法模型加之自定义条件进行合成数据产出,但是其利用的算法模型本身就有可能已事先为卖方利用技术优势与算法的低透明度所干预或控制,导致产出的合成数据实际上是被控制下的瑕疵数据,并且输入进平台的原始真实数据以及最终进入应用阶段的合成数据可能都会被平台后端所知晓导致信息泄露,甚至可能产生匿名化信息再识别风险。同时,考虑到政府作为购买方可能面临的技术水平限制以及专业人员的短缺,平台的运维和适应性工作便需要供应商的深入参与,参与主体的复杂化无疑又为整个流程增添了潜在的风险点。
二是合成技术脱逸。依据《数据安全法》确立的数据分类分级保护规则,合成数据生成纳入强制性标识义务范畴,使得“人工干预与显著标识”要求面临适用困境。当合成数据与原生数据发生混同使用时,行政机关依据《网络安全法》第47条实施监管检查时将面临证明责任困境。由于数据来源属性难以有效辨识,导致行政机关在履行《中华人民共和国行政处罚法》第40条规定的“事实清楚、证据确凿”证明标准时存在制度性障碍。这种数据混同情形不仅削弱了行政监管权的实效性,更构成了对行政行为实质性合法的挑战。
此外,在强制性特殊标注方式的立法缺失下,合成数据与真实数据的交叉使用会导致两者之间的区分度不明,应用过程中的某一环节出现问题时,监管部门难以追溯和确定所使用的数据是否为合成数据。同时,涉及大量的隐私数据,特别是政务数据的深度合成语料是终端产出的合成数据的初始原料,其不仅包括了既定预训练数据库,更是将范围拓展到人工智能产品在交互过程涉及的信息数据资源,“收集语料的多途径性加剧了用户交互信息泄露的风险”,且泄露手段可能更为隐蔽。例如,某地政府的信息系统技术承包商在违规将政务数据置于互联网进行测试的过程中,相关存储端不慎暴露出高危漏洞,这一漏洞直接导致了大量公民数据的泄露成为境外不法分子窃取政务数据的“供应链”入口。基于对图像、视频和音频进行超现实的数字伪造,深度伪造依托算法深度学习和GAN技术快速发展,生成器网络会依据每一次迭代循环的反馈结果进行自我优化,逐步生成出愈发接近真实世界数据特征的样本,历经数千次乃至数百万次的迭代训练后,生成器网络的性能得到显著提升,以至于鉴别器网络难以准确辨识输入数据是真实数据还是由生成器网络生成的伪造数据。未经评估擅自部署算法模型的行为,已突破《新一代人工智能伦理规范》确立的“可控可信”原则,面临行政权力与技术权力的双重异化风险。合成数据在政务场景的迁移应用亟待构建有效的准入审查机制。
三是数据安全事件通知义务脱逸。合成数据生成模型可能面临过度拟合原始数据的风险,且该过程往往缺乏透明度,难以阐释合成数据的具体生成原理和依据,由此引发对合成数据可解释性和可信度的质疑,增加数据安全事件临界点的识别困难。
《个人信息保护法》第57条确立的“危害阻却例外”规则与《互联网信息服务深度合成管理规定》第10条设定的“合成信息审查处置义务”,虽在规范层面形成个人信息保护的双重屏障,却在制度衔接层面产生三重规范竞合:一是,《数据安全法》第29条确立的数据安全事件“双报告义务”与《个人信息保护法》第57条“有条件豁免通知义务”存在行为指引冲突;二是,深度合成场景下《个人信息保护法》第23条“单独同意”规则与《互联网信息服务深度合成管理规定》第10条“特别告知义务”产生程序性要求叠加;三是,《数据安全法》第32条数据分类分级保护制度与深度合成技术引发的数据形态变异之间存在制度适配断层。
四是数据授权经营责任脱逸。数字法治政府建设过程中汇集的公共数据以及由此形成的政务数据授权经营不仅是驱动数据要素流通的动力因素,也是推动的具体载体和组织机制。在公共数据发挥价值方面形成了公益性与市场性两种样态。公益性样态之下政府作为数据保管人承担的多为数据可访问性和可使用性义务。而在市场性样态中,对涉及公共安全和个人隐私的政务数据需以“可用不可见”等形式在相关主体授权下开发利用并拥有收益权,大量原始数据需要经过清洗加工、存储管理、脱密脱敏等环节,才能转化成供社会直接使用的高质量数据或数据中间产品,其中可能包含半虚拟化、仿真性的合成数据,对其类型识别、分类以及监管溯源等加工处理难以凭借常规检查手段予以实现。倘若政府作为数据持有方,对有效性与可控性尚未明晰的数据施行对外授权经营活动,便极有可能面临违反公共数据授权经营协议或合同所规定之内容与义务的潜在风险。在政务数据授权运营模式中,涵盖个人与单位数据主体、政府、运营主体、数据客户等四方主体,且存在政府向运营主体提供个人信息数据以及运营主体向客户提供个人信息数据两次数据加工流程。具体来看,政务数据授权运营模式中涉及个人与单位数据主体、政府、运营主体、数据客户四方主体以及政府向运营主体提供个人信息数据和运营主体向客户提供个人信息数据两次数据加工行为。
根据《个人信息保护法》中对“处理”的界定,合成应属于加工行为,政府为履行法定职责在履行合理注意义务下即使未取得明示的个人同意,也可直接对个人信息进行处理。但在政府向运营主体提供个人信息数据进行合成时需遵守《个人信息保护法》中个人信息处置的规则,即个人信息处理者向其他个人信息处理者提供其处理的个人信息的,应当向个人告知接收方的名称或者姓名、联系方式、处理目的、处理方式和个人信息的种类,并取得个人的单独同意。若以合成方式形成新数据样态,则需考虑政府在审核运营主体提出的数据需求清单后,是否可以拥有《个人信息保护法》第13条的概括豁免。实践中,各地对政府处理数据的责任多以合理注意义务抵消。例如,《关于推进北京市金融公共数据专区建设的意见》规定,数据汇聚单位按照法律法规和规章的规定提供、处理数据,并履行监督管理和合理注意义务。
四、合成数据赋能数字法治政府建设的风险治理路径
治理规则的可预期性和稳定性是政府法治化运行的正向型生态,传统权利义务关系因嵌入数字化、智能化要素而发生了根本性改变,并可能触发政府数字化实践的脆弱性,产生决策误判、执法错定以及协同失衡等一系列衍生风险。从样本数据的筛选、数据产出,再至生成的检测过程,合成数据的形成都可能因各种主客观因素而潜藏本源性和并发性风险,即生成中所采用的技术新增回旋镖效应。而“技术中心论”下对行政过程中国家秘密、政务信息等敏感数据的规范体系可能遭遇“一刀切”式工具理性的风控思路,如何避免逾越“基于规则的自动决策”中参数设定的原初角色定位,亦能实现行政决策的稳固性与适用性之间的平衡成为合成数据赋能数字法治政府建设有效性的必答题。
(一)风险治理框架补强:从“中心化”到“去中心化”
风险治理的核心是进行预防性判断,并以此为路径拓宽规制手段。审视前文所述各类风险,合成数据适用从浅层生成训练数据的散状风险逐步衍生为影响大模型运行的聚合风险,虽然穿透式监管具有理念—空间的双重内涵,但合成数据的底座性功能将行政责任风险传递至数据最终的应用主体,以行政权为中心的分析框架边缘化了训练数据、算法和大模型平台等行政履责替代者的责任划分,该责任分配体系难以应对多方参与时的算法行政风险。“分布式”治理则是一种适用于政府及各种社会组织的非层级式、网络化、有弹性的新型治理模式。由此衍生的分布式责任意味着从中心式的控制向全流程参与式的问责模态的转换,在无法明确主观故意的数据致害中,解决了多个主体责任混同化或模糊化的困境。
首先,构建全面性责任框架。既有的公私责任界限划分容易引发监管权责的分散与模糊,分布式责任制度将生成者、使用平台及政府等多个实体融入统一的监管框架中。原始数据持有者保持既有的基本数据权益;数据合成者对合成过程需为合成数据设置备用数据集,并适当提升合成过程的透明度,确保各参与方能够顺畅地进行风险信息的传递和预防手段的共享;政府则需基于促进开发利用的目标对“中间产品”的合成数据建立监督保护规则,暂不必对合成数据进行单独的价值确认和价值分配规则,避免限制合成数据在多模态等前沿领域的应用。
其次,建立合成知情权—过度合成判断权—合成处理拒绝权—更正请求权体系框架。算法歧视、误判的黑箱恐惧源于数据底座的失控性。在合成数据的创造、流通和应用应然流程中,前端实体运用的差分隐私、同态加密技术和可信执行环境(TEE)等安全保障手段能够为后端实体提供技术信任的证明,进而规避因重复技术审核而导致的效率低下问题。而片面追求效率必然牺牲提供初始数据的主体性权利。个人信息保护已覆盖到相关知情同意的权利层次,而公共信息的持有主体尚未被赋予对合成数据投“反对票”的权利,将依托合成数据形成的算法行政等数字化工具对基层政府的干预限度判断放任至结果生成易导致机器接管决策等不可测风险。因而,在统合深度合成、人工智能、大模型规制体系时,应适时赋予政府、公共事业单位等公权力主体对合成技术、合成方式和合成内容的知情、判断、拒绝和更正的完整权利体系。
最后,搭建动态化责任框架。动态化责任分布是分布式责任理论的核心特征之一,通过明确责任主体的多元性、实现责任分配的动态性、强化监管与问责以及利用技术手段支持等措施,可以有效解决复杂系统中责任不清的问题,推动系统的高效运作和可持续发展。合成数据支持的综合治理网络遍及公共安全、规划建设、城市管理、应急通信、交通管理、市场监管、生态环境、民情感知等多领域系统,随着系统运作的推进和情境的变化,责任主体和责任范围亦呈现动态化分配,应根据合成数据运用程度和作用大小建立灵活的责任调整机制。
(二)风险治理体系优化:从“静态监管”到“动态适应”
数据治理是一个特殊开放体系,既面临风险发生的高度不确定性又需提供不确定风险产生的确定性解决方案。在任何特定规制形式下,最终能赋予规制对象多大裁量空间,取决于规制对象能在多大范围内进行选择,以及特定的命令和结果将如何影响规制对象的选择。合成数据对生成对抗网络(GAN)和变分自编码器(VAE)等技术具有高度依赖性,需要设计一套严格且有效的数据合成模型评估体系,对合成数据生成模型进行指标化与标准化的评估与比较。在该体系下,生成主体、大模型平台的基础性责任为观察、验证与检测合成数据的质量与性能,使数据筛选与检测过程更加标准化与程序化。同时随着合成数据模型的自适应学习与增量学习技术的提升,各责任主体需将生成模型能够根据不断变化的数据情况做出相应的动态调整与优化,同时提高数据合成的速率和效率,实现优质数据的高效产出。随着数据应用场景的拓宽,全球范围内的人工智能与数据立法在对合成数据应用的潜在风险进行前瞻性评判后,采取建构性技术评估和多维度治理方式应对可能引发的法律与伦理挑战,从而构建一个既促进技术创新又保障法益平衡的法治环境。英国《人工智能(监管)法案》提出创建人工智能管理局与人工智能负责官员的方式,对人工智能的产品数据以及训练数据等隐私和知识产权设置机构+管理人员的双重监管模式。欧盟《人工智能法案》则是通过明确赋予特定人工智能系统的提供者和部署者的相关义务来对合成数据所可能造成的新风险进行规制。而经常与欧洲《人工智能法案》相比较的美国《关于安全、可靠和值得信赖的人工智能开发和使用的行政命令》中则专设了一个板块规定“降低合成内容引发的风险”,该部分要求了要明确现行标准、工具、方法和做法以及下一步具体发展情况,其内容涵盖认证与跟踪的溯源过程、标记、检测、审核以及维护合成内容。
立足于我国人工智能与合成数据的规制需求和特色路径,可在分类化基础上建立动态式规制体系,即在公私法维度下对合成数据的监管强度、监管工具和监管责任予以区分。在初始合成阶段,各应用场景均应设立隐私保护相关规范,对于合成数据来源中可能存在的个人数据要进行脱敏脱密处理,强化保护真实数据主体的知情权、控制权与删除权等相关权利。而对行政决策、行政行为或行政监督等公权力运行场景中则需建立更为严格的数据安全管理规范,从数据的产出、筛选、检测到应用,建立一套流程化、规范化的严格安全标准与评价体系,可对数据开发、运用主体设置更为严格的数据安全责任,如严格检测与审计、定期检查与评估,数据安全风险应急预案、设置可分辨性标准等。所谓明晰可分辨性标准,即监管规定既可提升合成数据和真实数据的分辨可视化程度,亦能对流程中的违法违规行为进行更好地追溯,有利于后续追责的取证固证。欧盟《人工智能法案》中“生成合成音频、图像、视频或文本内容的人工智能系统,包括通用目的人工智能系统的提供者应确保人工智能系统的输出以机器可读的格式进行标注,并且可检测其系人为生成或操纵”可作一定参考。
(三)风险治理流程再造:从程序规制到实体规制
风险预防措施引发的风险可能源自三个方面:产生替代性风险、阻止了承担风险可能带来的潜在收益及风险预防措施自身存在的风险。法治对数字技术的发展不是限制而是保护,法治政府建设成效也并不是监管规则套圈式无限累加,而是形成激励创新、保护创新、实现创新的理念和工具。作为数字法治政府衍射点的合成数据监管,既不能苛求监管部门神机妙算般预测全过程的所有风险,亦不能以未知搪塞或者推脱数据安全职责,而是从质量性监管与合法性监管双层维度筑牢监管体系。在质量监管层面,需确立明确的合成数据质量标准与评估指标体系,实施系统的筛查与检测流程,以剔除异常数据,确保合成数据的高品质输出。数据控制权的行使呈现出“载体控制优先于信息控制”的特征,即控制主体通过对数据物理载体的支配来实现对数据的管理,而非基于数据记录所涉及的信息主体权利。现行人工智能规制策略偏重于以“事件”为中心的应急管理视角,而将“风险”为中心的风险规制视角位移至合成数据应用触发的法律风险中,可能出现程序规制优于实体规制的数据治理导向,建议考虑对合成数据等新型数据形态采取相对宽松的权属认定标准,将因算法偏差或透明度缺失导致的数据质量缺陷及安全风险的预防机制防范前移,强化对生成模型算法的透明度要求和安全性评估。该“宽进严管”的规制思路既符合比例原则的要求,亦能有效平衡技术创新与风险防控之间的关系。
就合法性监管机制而言,考虑到合成数据交易公私并存的状态而不能将其混同于原有政府数据监管体系中,而需将涉及公共事务的合成数据全运行周期纳入审查范畴,对其生成、应用及处理的全过程实施严格的合法性审查。首先,设立具备跨部门、跨机构协调能力的专门监管机构或部门,专门负责合成数据在数字法治政府构建中的监管任务。这要求不仅制定合成数据使用的监管标准与操作指南,还需明确数据采集、处理、存储、共享等各环节的规范标准。其次,融合数字信息化技术,构建统一的数据监管平台,实现合成数据使用情况及监管信息的集中化管理。该平台应具备数据采集、处理、存储、共享等全链条的可视化监管功能,以增强数据的可追溯性与可控性。最后,有必要建立数据合成的反向限定清单制度, 禁止数据持有主体对涉敏感个人信息、 破坏市场竞争秩序和危及国家安全公共利益的数据进行商业开发。
五、结语
“科林格里奇困境”折射出技术应用效度与风险防控效率之间的结构性矛盾,当技术工具的可修正性、可控性与可替代性尚未明晰时,强制性规制介入的时序选择、强度适配与路径设计往往陷入技术预判能力不足的困境。现行数据—算法—大模型监管架构下传达的垂直性和递进性规制策略看似对数据利用的每一阶段套上规制镣铐,实则忽视数据渐进性运用中不同位阶的规制响应和工具的迥异性,暴露出传统科层制监管与数字空间治理需求之间的深层抵牾。作为生成式人工智能的基础性生产要素,合成数据已突破传统行政规制框架下“条块分割”的客体定位,其与训练模型、算法架构及算力资源深度耦合形成的 “数据—技术共生系统”在赋能数字法治政府建设时,需从“预防性规制”向“适应性治理”范式转型:即要求合成数据服务提供者在生成内容显著位置添加包含服务主体信息的不可移除合规标识,并依据数据的敏感程度、应用领域风险等因素,对合成数据实施差异化规范管理,从而在技术可控性与治理有效性之间建立动态平衡机制。