摘要:人工智能的快速发展及人工智能生成物的爆发式增长引发了数据风险及监管难题。为明确AIGC的溢出风险并确立相应的监管规则,通过梳理AIGC在各典型应用场景的发展现状,厘清了AIGC存在的数据污染风险、信息泄露风险、数据歧视风险和通用性伦理风险。通过对比国内外AIGC监管的制度内容,发现当前监管模式存在人力监管能力不足、“产品”质量标准缺失、数据歧视监管规则缺失、分级管理规则模糊四个方面的缺陷。相应地,提出了建立以技术监管规则、质量标准规则、无歧视规则、分类分级规则等为基本内容的AIGC监管体系。
关键词:人工智能生成物;风险溢出;技术监管;质量标准;无歧视规则
一、问题的提出
以ChatGPT、Sora为代表的生成式人工智能模型发生了由“判别式”转为“生成式”的变革,人工智能被赋予了“强拟人化”特点,人工智能生成物(以下简称AIGC)成为人们获取知识和信息产品的新渠道。AIGC的应用范围包含自动化技术、智慧图书馆、医学智库、智慧数字出版、计算机软件及其应用、教育实践等学科领域。学者们从AIGC的知识产权属性、主体界定、权利归属、法律保护、应用场景与伦理规制等方面进行了广泛而深入的研究。总体上,学者们对AIGC的客体属性及权利归属讨论较多:大多数学者认为AIGC在一定条件下具备最低限度的独创性,且与人类作品具有一致性与同质性,可以参照著作权进行保护,其权利主体根据不同情形可划归人工智能服务提供者、使用者或开发者,并可以根据职务作品、委托作品和合作作品等作品类型确定其著作权归属。国际上,英国较早提出了对AIGC的版权保护,而大陆法系国家大多数都拒绝将AIGC作为非人类作品进行保护。同时,Samuelson等学者对AIGC能否拥有版权持中立态度,认为可以等待通过司法判例的方式明确AIGC的保护规则,而不论AIGC是否能作为作品,源作品以及数据集都有受保护的必要。
世界各国对于AIGC的监管框架建立尚处于初步探索阶段。若直接套用著作权的权利行使方式,无法有效应对AIGC使用中存在的虚假信息、歧视言论、信息泄露以及伦理冲击等方面的问题。目前AIGC的规范化运作发展主要依靠政策指引和市场驱动,并未形成系统性、整体性的监管以及治理框架,需要进行相应整合与规制,以“软法”助力“硬法”治理人工智能。因此,除了“不侵权”的基本规则外,还应当构建AIGC特有的监管规则。有学者提出,应当根据AI的使用场景给使用人分配不同程度的义务。但对于如何设置这些义务并没有具体展开,AIGC监管规则有待学者们进一步研究。
本文从AIGC在各类特殊场景中的广泛应用出发,厘清了AIGC所带来的数据污染风险、信息泄露风险、数据歧视风险、通用性伦理风险等主要风险。通过对国内外现有法律法规制度框架的分析,指出了AIGC监管中存在的四个困境:人力监管能力不足、“产品”质量标准缺失、数据歧视监管缺位、分级管理规则模糊等。最后,溯源AIGC风险根基,进而提出建立以技术监管规则、质量标准规则、无歧视规则和数据分类分级规则为主体的监管规则体系,为国家和各行业领域建立人工智能生成物的监管制度和行业标准提供了参考。
二、人工智能生成物的应用场景及溢出风险
(一)人工智能生成物的应用场景
生成式人工智能模型不仅在文学创作、编辑出版、网络交互、计算机模拟等传统领域行业表现更为出色,在拥有多模态与跨模态大模型后还可以跨越生命科学、环境科学、化学、医学、法学、教育学等挑战性的领域,逐渐成为一种全新的信息资源获取方式与内容创作工具,帮助或代替用户完成指定的特殊工作任务。
在文学创作与编辑出版领域,生成式人工智能助力了信息采集、选题组稿、内容写作、整理设计、校样检查、审查出版与信息反馈以及文字的润色与改写,也激发了文生视频的创作;在科研与教育领域,为教育数字化转型提供了最新的工具与平台,助力了科研方法的转化,简化了获取资料和研究成果转化的过程,也增加了学术造假以及欺骗舞弊的风险,影响着现有科研评价机制;在医学领域,可以从电子病历中提取信息、生成病例报告,并通过生成代码来分析数据集,帮助研究人员推进新药物的发现与合成;在法学与法律实务领域,通过快速案例解析与法条检索,生成法律建议以及解决方案、自动化提供法律咨询、帮助用户拟订合同、进行文本审查、代写法律文书、模拟法律场景、预测案件发展;在税务领域,接替传统人工服务与繁杂程序,提供个性化、规范化、数据化服务,完善办税服务,辅助税务运行与管理;在舆情控制领域,通过分析网络舆情传播特征,以用户的输出、输入信息以及各种选择间接测试出用户的外在情感态度与内在真实反映,提前进行预测分析控制网络舆情。
(二)人工智能生成物的溢出风险
AIGC的产出经历了数据搜集和投喂、模型训练和模拟、内容生成和调整等阶段。由于投喂数据的质量差异、人工智能模型算法的能力缺陷、使用者的人为操控等因素,AIGC应用于各种场景的同时,其迅速发展也滋生了诸多风险与问题。AIGC所带来的主要风险有:数据污染风险、信息泄露风险、数据歧视风险与通用性伦理风险等。
1.数据污染风险
人工智能存在生成虚拟信息和错误信息的风险,造成数据污染。生成式人工智能模型的本质是通过海量数据库进行预训练,对关键词相关文本进行捕捉、关联、学习,根据任务进行更为准确的文本生成与内容表达等工作。生成式人工智能本身具有学习、统计、解决问题的功能,当出现尚未经过预训练的关键词、任务、概念时,生成式人工智能会强行捏造信息以完成任务,并在后续过程中不断对捏造信息进行补充,致使生成式人工智能在错误方向不断延展。模型所生成的内容从语言表达与表层数据来看可能是合理的,但对其进行数据溯源,可以发现里层存在大量错误数据与虚假信息,目前已出现ChatGPT输出虚假信息的诸多实例。由于缺乏对AIGC质量进行评判的科学标准,无法有效识别其是否属于人工智能产物,也无法准确识别内容真伪,更难以有效评判质量高低,制约了生成式知识内容的社会化传播与利用。
AIGC通过后续使用扩大数据污染。当使用者将AIGC应用于商业活动、学术科研、新闻报道、舆情调控等活动中时,会导致数据污染的进一步扩散。在自媒体与电子商务等活动中,经营者为了引流与收益,捏造各类虚假数据与错误信息,当此类数据生成的AIGC被投入公共领域,极大可能会引起用户对商品与服务的误解与混淆。AIGC被运用于科研与教育领域时,低成本的AIGC转化为学术论文,大量低质量内容以及虚假信息、错误信息将隐含于后续使用行为中,影响学术论文以及相关内容的真实性和可靠性。新闻报道与编辑领域,由于审核机制的缺位和审核资源的限制,虚构内容与错误信息会散发于公共领域,造成负面影响的扩散。生成式人工智能在介入网络舆情领域时,会在信息交互中通过信息转化的方式重构舆情,引起受众间的认知对立与价值冲突,造成网络舆情安全风险多样态。国际上也会有越来越多的主体将AIGC进行武器化以获取政治利益,引发舆论震荡,使虚假信息泛滥成灾,社会信任将会被严重破坏。
AIGC被操控和不法使用会加剧数据污染,引发数据安全事故。包含恶意信息事故与虚假信息事故。网络交互的私密性与自主性使诸多不法网络侵权行为更为隐蔽,用户利用不法手段恶意损害第三方权益,通过异化生成式人工智能寻找目标,在网上实施色情骚扰、敲诈勒索、暴力犯罪等行为,甚至通过对AIGC信息的掌控,利用网络实施政治操控等破坏网络信息安全以及国家安全的行为。而虚假信息事故具有隐秘性与随机性的特点,AIGC的生产者或使用者受到某种利益驱动,通过各种手段对生成内容进行变造与伪造,对重要事实进行隐瞒、夸大、改编等操作,利用网络传播快的特点散布变造或者伪造的不实信息,导致网络数据信息污染,引发信息事故。
AIGC可能产生误导性信息的问题已被证实。AI作为传播源头与中介,在三个层面可能会成为恶意传播的助推器。首先,由于AIGC生成的训练语料与事实的偏倚和模型算法的不完善使得本身无意中成为虚假传播的源头;其次,AIGC技术可能会被人为操纵,通过散布虚假信息或刻意传播等方式达到特定目的;最后,误导性知识如果被没有鉴别其真假能力的用户接收,并被无意传播甚至形成错误认知,则会产生更严重的影响。
2.信息泄露风险
数据训练中,大模型收集、承载了海量个人敏感信息。生成式人工智能模型的训练数据大量来源于文献资源库、服务场景以及用户人机对话中主动发布的数据,其中包含大量个人敏感信息。生成式人工智能模型经过能力训练,将海量源数据进行整合与解析,并在用户频繁使用中收集大量新输入的使用者信息。模型通过个人信息进一步推测使用者意图与决策,一旦被恶意使用,会带来用户身份信息盗用、商业秘密信息泄露等更严峻的安全问题。用户在虚拟世界中生成的各种数字形象、数字内容也会给不法分子提供更多可乘之机,从而加剧信息安全风险。
数据生成和利用中,生成物隐含、复现了个人敏感信息。信息泄露风险常发生在各领域AIGC生成以及被利用、传播的过程中。经过大型语言模型训练,当生成式人工智能收到指令时,会将关键词“嵌入”与转换,在源数据库中对海量信息进行提取与分析,完成任务并生成AIGC。同时,个人敏感信息也可能会被包含于AIGC生成信息与源信息中,并在后续AIGC的利用中不断再现,例如个人身份信息、医疗信息、财务信息等。特别在医疗领域,会对患者个人信息进行收集和存储,而AIGC在医疗服务使用过程中可能会泄露患者及相关亲属隐私信息。政府机构、市场主体、教育部门等在使用生成式人工智能时,不可避免地要与之分享关联信息,通过人工智能算法的解析与转换再现,可能会引发商业秘密甚至国家秘密泄露的风险。
3.数据歧视风险
人工智能训练的数据存在缺陷导致歧视。主要由数据偏见、偏差数据集以及隐性偏见所导致。第一,数据偏见会引发歧视。在生成式人工智能对相应数据库数据进行处理与分析时,不可避免地会将原本数据样本中的各项信息更为清晰地数值化。为了更为直观地展现结果,样本数据本身所包含的差距与偏见将会进一步放大。正如美国企业高管职位招聘中对黑人与白人存在种族偏见一样,生成式人工智能对数据内容的细化与分析,其结果更加凸显高管岗位任职的种族差距,招致更为严重的种族偏见。第二,偏差数据集会导致歧视。在训练生成式人工智能的过程中,往往会选择一定的数据库与数据样本。在选择数据样本或者数据库的过程中,选择人的主观偏见也会导致输入数据具有一定的不平衡与偏见。即使用偏差数据集时,也会影响生成内容的准确性,出现相应的差距与偏差,造成系统性歧视的产生与蔓延。第三,隐性偏见加剧歧视。隐性偏见,是指人做出决策时潜意识的偏向与倾向,并不会对数据集产生明显影响,但模型会学习信息中存在的隐性关联、固定印象,产生具有歧视内容的AIGC。如体现性别偏见的性别与职业对应联系,会引发经济信息孤立与泡沫化,导致不公平的决策。
人工智能的算法操控造成数据歧视。由于生成式人工智能的语料库缺乏代表性、数据来源不均衡,其所依赖的用户群、数据、文本等可能体现特定的政治倾向。加之机器学习可能习得人类偏见,这种算法偏见可能会导致内容生产环节出现种族、性别、地域、语言、职业等偏见,使生成式人工智能的立场更加倾向于社会中拥有话语权、影响力和传播力的人群。生成式人工智能在科学技术发展的过程中逐渐提升性能,GPT-4大语言模型的算法使其具备“强拟人化”特征,将各类交流方式融入生成式人工智能,其行为更为符合人类认知规律,实现大型语言模型的“拟人性”智慧。而相对于网络文字的输入,大型多模态模型在算法公平治理层面更可能引发算法歧视:一方面,图像与视频内容,更加明显地表露了性别、地域、种族、职业等特征,加剧引发算法偏见风险。谷歌AI(Gemini)与GPT-4就根据任务生成了大量基于性别、种族等带有歧视性的AIGC。另一方面,跨模态模型所产生的算法歧视相对文本内容而言更为隐蔽,GPT-4对图像的识别与分析更具“强拟人化”,AIGC无法仅通过表层算法进行解构与解释。如何平衡伦理价值与技术价值,改进AIGC技术及算法治理将成为一项复杂且艰巨的挑战。
4.通用性伦理风险
AIGC限制人类主观思考与决策能力,使人产生蜕化。生成式人工智能根据指令能够在较短的时间内,通过对既有语料的搜集、筛选、调取和整合,沿循人类的自然语言表达模式,辅助乃至代替人们完成文章写作、社会评论、创意编辑等本应建立在独立思考之上的观点生成和输出任务。生成式人工智能可能替代人们进行独立思考,人们的思考将由包含接收信息、回溯经验、诉诸理论、提出假设、情况调研、检验假设、推导结论等步骤的独立型形式进一步走向包含键入指令、复制粘贴等步骤的依赖型形式,由此诱发独立思考能力的蜕化。
滥用AIGC导致虚假宣传与舆论操控,诱发社会信任危机。AIGC本身所具有自动生成的属性注定了其易受舆论信息控制,各领域团体可以通过社交媒体、网络水军等方式进行舆论操纵。诸多GPT-4模型的实用案例中,也出现了生成相应虚假内容以及歧视性内容的情形,大量AIGC被有组织地恶意利用。为了在各类经济事件、政治事件中谋取利益,团体投放AIGC合成的虚假信息,违背社会伦理,造成了社会舆论失序的风险。
AIGC的过度使用扩大认知鸿沟。由于数据集的价值观偏向,严重影响到AIGC的质量,加深现有各种歧视、偏见与成见,带来新的伦理挑战。生成式人工智能也会在无意间或有意地固化“信息茧房”,转化为掌权者控制思想的工具,带来社会阶层的意识冲突。一系列社会实例表明,人工智能会对人的金钱观、审美观、择偶观等价值观产生一定的负面影响。一方面,相关实例显示,Gemini以及GPT-4所输出的内容都包含性别歧视与种族歧视等信息,
生成式AI受到人类的主观影响,可能对用户获取内容进行干预,输出不正当价值产物。另一方面,当生成式人工智能获取用户的要求与任务时,其大概率为了输出同用户偏好相契合的内容,采用表示赞同的态度进行内容生成,而当关键内容为负面信息或体现不良价值观时,输出内容将加深社会公众的主观偏见,产生不良价值观蔓延的风险。
三、人工智能生成物监管规则的现状及困境
(一)国外人工智能生成物监管规则的现状
为应对AIGC所带来的影响,欧盟领先建立了较为严格的人工智能治理体系。美国则采取较为温和的措施,形成了行业自律的人工智能管理体系。同时,英国以及加拿大的监管措施与经验也值得注意。
欧盟建立了由《通用数据保护条例》《可信赖人工智能伦理准则》《数据治理法案》《人工智能法案》等制度构成的人工智能治理体系。其中,《通用数据保护条例》主要解决数据搜集中的权利保护问题,旨在约束互联网和大数据公司对个人和敏感数据的处理,保障数据主体的合法权益。《数据治理法案》以数据利用和共享为重点目标。旨在加速数据资源的流动和使用,以达到更高的公共政策目的。《人工智能法案》认识到了人工智能可能存在的风险。采取风险分级管理思路,将人工智能风险分为4个级别:不可接受的风险、高风险、有限风险、最小或无风险。根据人工智能可能产生的风险级别为提供者和用户设定义务。另外,《人工智能法案》中的有关人工智能主体、限制、监管、抽检与反馈等方面都给国际各国建立AIGC监管与治理体系提供了思路。
美国形成了以《国家人工智能研究与发展战略规划》《为人工智能的未来做好准备》《2020年国家人工智能倡议法案》《人工智能风险管理框架》等制度构成的人工智能治理体系。其中,《国家人工智能研究与发展战略规划》与《为人工智能的未来做好准备》作为国家框架性文件,旨在促进人工智能快速发展,并未对其进行严格限制与约束。《2020年国家人工智能倡议法案》旨在确保美国在AI研发领域的领导地位,推进在全领域共同开发先进AI系统,整合AI监管与治理部门。《人工智能风险管理框架》(AI RMF)1.0版,旨在指导机构组织在开发和部署人工智能系统时降低安全风险,补正前两部国家框架性文件,对人工智能监管进行了原则性规定,为设计、开发、部署、应用AI系统的组织提供了指引
英国发布的《促进创新的人工智能监管方法》白皮书,建立了以安全性与稳健性、适当透明度与可解释性、公平性、问责制与管理、可争议性与补救性五项原则为基础的监管治理体系,授权了监管机构可于合理范围内提出监管办法,以监管AI在各领域的适用与服务。加拿大发布《人工智能与数据法案》,旨在规范国际及省级之间的人工智能系统交易,降低人工智能安全风险与数据风险,授权制定AI系统相关政策,为保护隐私数据与商业秘密数据,设计、开发、使用或提供先进、可信的人工智能系统。
(二)我国人工智能生成物监管规则的现状
我国现行的监管规则主要涵盖了数据治理、数据监管、数据权益和保护等相关内容,这些内容为人工智能的运行提供了一些行为导向,但并未形成完整的监管规则和监管体系框架。相关规则的渊源主要表现为部门规章、地方性法规、国家与行业标准。其中,三部监管特定技术服务的部门规章《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》为完善当前生成式人工智能的规制体系提供了一定思路。《互联网信息服务算法推荐管理规定》要求对生成AIGC的算法模型进行定期审核、评估、验证,同时要求服务提供者向网信部门进行备案,禁止设置违反法律法规或伦理道德的算法模型。《互联网信息服务深度合成管理规定》是AIGC领域较为核心的监管制度,确立了“深度合成技术”的管理规范和监督措施。《生成式人工智能服务管理暂行办法》作为全球范围内首部直接针对生成式人工智能进行规制的国家层面法律文件,代表我国在立法层面对AIGC高度重视,构建了技术治理与服务规范的基本规则,初步探索建立多领域AIGC的统一监管模式。另外,《关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”)提出了数据监管的基本任务;《新一代人工智能伦理规范》则从行业自律和专家建议层面确立了发展负责任的人工智能的基本原则;《数据安全技术 数据分类分级规则》给出了数据分类分级的通用规则,指导并规范数据分类分级的方法与标准,以保障数据的安全性和真实性。
(三)现行人工智能生成物监管规则的困境
统观国内外人工智能相关的制度体系发现,各国人工智能监管体现出以下特点:一是由多部法律法规进行规范,相应的监管职能也分散于各个部门,缺乏统一规则与机构,且延续了既往官僚体制中人力监管的传统。二是关于AIGC的监管理念和规则都处于初创期、内容多体现为基本原则,缺乏具体的行为指引和监管规则。三是偏向于事后规制,现行法律法规对AIGC事后侵权以及追责进行了规定,但事前的审查、预防与监管尚处于模糊地带。具体而言,现行的监管模式和规则又体现出以下缺陷。
1.人力监管能力不足
人力监管机构职能分散、尚未统一。以我国为例,在《生成式人工智能服务管理暂行办法》以及多部法律法规中提及,网信、发展改革、教育、科技、工业和信息化、公安、广播电视、新闻出版等部门,根据自身职能对生成式人工智能进行监管与治理。其中,国家网信部门统筹全国算法以及人工智能服务治理与监管等工作,而国务院电信、公安、市场监管等有关部门则依据其各自职能监督管理地方工作,地方下属部门亦是如此。表面上各部门进行协同监管,实质上也形成了对各领域监管职能的分割,在应对全国范围各层面的人工智能监管与治理时,分立运行的监管格局可能因知识水平参差不齐、监管方式形态各异形成监管竞次、监管真空等问题。
“成本”与“收益”不对等,致使人力监管乏力。国家对于AIGC的监管方式仍是以人力为主,纵然计算机提升了网络监管巡查速率,但仍无法弥补人力监管的不足。面对井喷式增长的AIGC,监管范围愈大,监管所需付出的资源愈多,但由于AIGC增长速率过快、监管规则缺失,任何以现场检查或人力筛查为核心的监管模式都可能会导致过度监管或监管不足;同时,AI技术快速革新,监管部门专业人才缺失,监管速率跟不上技术发展与迭代的速度,导致人工监管收效甚微。解决人力监管乏力的问题,需引入技术监管规则。通过引入人工智能分类治理“工具箱”等技术和措施,降低监管成本,提升监管效率。
2.“产品”质量标准缺失
AIGC作为一种特殊“产品”,尚未建立对其进行质量检测的准则。《生成式人工智能服务管理暂行办法》对训练数据提出了真实、准确、客观、多样等要求,但相关法律法规中并未对AIGC的“产品”质量进行明确规定,并且相关行业和企业规范文件中对其规定也较为模糊,并不具备强制性。正是由于缺乏AIGC质量规范的外部准则和自律措施,导致监管部门缺乏有力抓手,影响监管工作的效率,也导致了大量低质量的AIGC泛滥。
质量标准具有控制生产、筛选剔除、规范指引等重要功能。对于公共信息和公共服务领域而言,AIGC的生产和使用不仅影响用户体验和用户价值,还关涉到社会公共利益,明确质量标准更为迫切。因此,需构建质量标准规则,明确开发者、服务提供者与使用者的义务,控制AIGC的生产过程规范和产品质量标准,保证生成内容真实,保障监管有序,从而避免信息泄露和数据污染等风险。
3.数据歧视监管缺位
数据歧视的监管仍停留于原则层面。《中华人民共和国民法典》中的平等原则与公序良俗原则为解决涉AIGC民事纠纷确立了制度基础,但无法有效预防和治理AIGC引发的数据歧视风险。“数据二十条”及《新一代人工智能伦理规范》中都提及了反偏见和歧视的原则性内容和监管要求,并规定了生成式人工智能服务提供者对源数据的安全保障的义务。但由于缺乏法律法规与规章的具体规范,导致反歧视原则无法有效落实。
数据歧视源头治理规则缺失。反歧视规则主要对象是由于人工智能算法或者个体主观意志所导致的AIGC中产生的数据歧视。对于数据库所显示的正当差别,不能将其定义为数据歧视,而是数据总体所存在的一种自然差异,是社会运转与循环所形成的合理的社会现象。当生成式人工智能模型在压缩训练数据时,或分析问题的信息受限、过时、有矛盾时,会出现逻辑谬误、虚构事实、数据偏见,生成看似合理实则与提供的源内容不符或没有意义的内容,导致模型出现幻觉问题。另外,在训练数据偏差,模型无法访问实时或最新的信息,或者模型在训练中的固有局限性等因素的影响下,也会导致AIGC的歧视风险。由于缺乏对人工智能数据来源的清洗和纠偏规则,给AIGC歧视埋下了隐患源头,加之缺乏对算法透明的披露规则和算法审核的监督规则,放任了AIGC歧视的产生。因此,数据歧视监管规则的建立,不仅需对AIGC的使用进行监管,也需对其来源与形成过程进行评估和监测,并在AIGC生产、使用的各阶段进行治理,防止与控制数据歧视的不利影响。
4.分级管理规则模糊
对AIGC的分级管理,旨在对不同影响程度的生成物进行合理监管。根据“比例原则”,明确不同等级生成物的监管力度,帮助国家监管部门减轻监管压力,更为迅速地进行检查与管理。分级管理规则的建立不仅是对AIGC监管机制的完善,也可以为各行业领域使用AIGC提供指引,强化社会公众正确使用AIGC的观念,为避免舆论操控、保障信息安全奠定制度基础,同时也有助于提升AIGC的产品质量,降低通用性伦理风险。
《生成式人工智能服务管理暂行办法》确立了生成式人工智能服务的一般标准,但并未针对不同风险级别的AIGC形成监管规范。高风险人工智能与低风险人工智能并未得到区分,本应受到更为严格监管的高风险人工智能,在享受高利益回报的同时只需遵循一般审查标准,而低风险人工智能却承担了更多的审查义务,这一监管标准与社会价值、国家发展取向不尽一致。《数据安全技术 数据分类分级规则》以《中华人民共和国数据安全法》(以下简称《数据安全法》)《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》为基础,给出了数据分类分级的通用规则辅助数据和信息监管,但其与AIGC分类分级监管尚存一定隔阂,仍需对AIGC分类分级标准进行明晰与关联。
四、人工智能生成物监管规则的构建
生成式人工智能所呈现的超凡的技术力量以及对社会可能带来的全局性的冲击与影响,使其进一步成为数字时代关键基础设施,应该成为一种新的“公器”,或者也应该接受特殊的约束和监管。首先,引入整体性监管的理念,制定面向AIGC的原则性监管方法。其次,建立人工智能统一监管机构,提升监管效能和监管韧性。以网信为主,发展改革、教育、科技、工业和信息化、公安、广播电视、新闻出版等部门为辅,建立统一监管机构,整合监管权力,对AIGC全过程实施监管。最后,为确保监管效能与生成式人工智能的技术革新和应用风险相匹配,应当建立以内外协同、资源共享、统一规则为基础的全面监管风险识别与评估体系,同时连接外部各领域平台与用户反馈投诉机制,全面评估、监控AIGC监管框架运行。具体而言,又包含以下具体规则内容。
(一)技术监管规则
为克服人工监管的高成本、低效率等缺陷,应引入技术监管、推动敏捷治理,将AIGC来源与后续使用行为纳入监管体系,形成以生成记录保存规则、实名制规则、强制标记规则、周期性数据更新规则为内容的监管规则,从而为AIGC的风险追溯、风险排查和治理奠定基础。
生成记录保存规则。生成式人工智能在辅助内容生产的过程中,需要开发者与服务提供者采取版权保护措施与建立内容检测系统,确保生产的内容不会侵犯他人在先权利,同时对生成内容进行阶段性记录保存。对生成、存储、管理、访问、使用、销毁等全生命周期的各个环节进行数据保存并确立调用规则。通过生成记录保存规则的引入强化权利保障、促进数据流通,以保障后续成果侵权情景下进行追责的证据完整性,或者事故风险情景下补救治理的溯源可能性。
实名制规则。为提升技术使用的透明度,促使使用者能够合法、合规地运用生成物,明晰模型开发者和使用者权利义务,防范和打击利用生成物从事不法活动或损害个人及公共利益的行为,应当引入实名制规则。通过一体化身份认证机制,如身份证、手机号码和人脸识别等信息的联动验证,对用户身份进行验证与授权,以确保AIGC服务仅对被授权用户开放。同时对违法和滥用行为采取警示、限制功能、暂停或者终止向其提供服务等措施,对使用行为进行有效制约,维护公共利益。
强制标记规则。标记制度可在一定程度上对人类智慧创作产物与AIGC进行界分,达到提示与明确告知网络用户与其他使用者的效果。对于可能导致公众混淆或误认的生成内容,要求人工智能服务提供者和使用者对其生成或编辑的信息内容采取技术措施添加标识,通过文字、声音、图形等可识别的方式呈现,并确保能够被用户明显感知。同时开展数据标记质量评估,抽样核验标记内容的准确性,确保标记的可信度。来源强制标记机制还可预防侵权发生,对输出的AIGC进行数字管理,采取数字水印、区块链等技术明确AIGC来源,防止不法分子使用AIGC实施欺诈、假冒的行为。
周期性数据更新规则。应强化AIGC服务提供平台数据管理义务,利用人机协同监管机制,通过用户的访问与投诉,对负面数据、来源数据库进行及时更新、处理,并对更新流程与时限进行透明化处理,将虚假信息与数据问题进行更正与声明。同时,各平台与有关机构也应对AIGC进行定期评估和更新,以确保遵守法律与行业标准,并适应不断变化的技术、伦理和社会需求。
(二)质量标准规则
通过明确人工智能开发者与AIGC服务提供者、使用者的义务,构建AIGC生产过程控制和生成产品的质量标准规则,避免可能造成数据污染和信息泄露风险的生成内容流入公共领域,避免危及公共安全和公共利益的内容生成和使用。
明确开发者义务,设定过程控制标准。一方面,明确开发者的数据来源保证义务。确保投入训练模型的数据不构成侵权,同时应当在训练过程中强化AI识别侵权信息的功能,预防侵权,保障产品安全、合法。另一方面,为了保障用户以及接收者的合法权利,稳定社会信任机制,强制要求开发设计者、服务提供者提高人工智能系统的开发、部署和操作等方面透明度,保证其生成式人工智能符合合理的透明标准,包括AIGC生成过程透明、训练数据库透明、算法透明和人工智能系统决策透明。同时控制生成阶段AIGC的质量标准,要求服务提供者对生成内容进行筛选与清洗,输出符合质量标准的AIGC。
构建公共领域内以确保真实为核心的AIGC质量标准规则。通过制定法律与行业标准,保障生成内容的真实、准确,保证AIGC的最低质量底线,防止人工智能生成虚假信息误导公众,造成人工智能数据训练的连锁反应,导致虚假信息的迅速传播以及社会秩序紊乱。为确保AIGC最低质量标准,在生成式人工智能模型语料不足、算法缺陷的情况下,需要明确网络服务商的提示义务,在生成记录保存规则的基础上,对AIGC来源进行标注、对生成结果的缺陷进行提示,给使用者提供可靠的数据来源,并由使用者对流入公共领域的生成物质量进行把关。最后,由地方信息通讯和无线电管理机构对流入公共领域的生成物进行质量监管执法。
(三)无歧视规则
数据歧视发生的根源在于数据本身的偏见以及算法的偏差,有必要从源头入手,从数据来源、机器学习和模型算法等层面进一步明确AIGC反歧视的实施和监管标准。为进一步落实“数据二十条”及《新一代人工智能伦理规范》的要求,应当通过建立数据清洗和数据审计规则,推动算法透明,加强算法审核,从而实现对数据歧视的源头治理。
建立数据清洗和数据审计规则。一方面,对内需要对输入、输出算法的数据进行清洗。将具有歧视性的数据包含于数据清洗的范围内,通过计算机对输入以及输出的数据内容进行审查与检验,将明显带有数据歧视风险的内容进行排除。另一方面,对外应当建立数据审计制度,对输入人工智能大模型的训练数据进行事前的审查、评估与监管。首先需要设立独立的第三方数据审计专门机构,引入专业审计人才,给予机构独立的审计权,对数据原料与内容进行安全审查、影响评估、审计监督与风险评估。在横向上对不同领域生成的数据内容进行分类审计,在纵向上加强各环节的分步审计,明确审计周期,定期排除歧视性数据。
推动算法透明,加强算法审核。为了解决算法操控导致的数据歧视风险,需要加强对以大型多模态模型为主的各类算法模型的监管、规范,进一步推进算法透明规范,进行内外循环的算法监管与审查。对内推进算法透明制度,从算法的偏见性、有效性、技术性等方面进行评估,制定统一算法透明标准,要求生成式人工智能服务提供者履行算法透明的义务,避免算法黑箱所产生的歧视风险。同时,在外实行算法审核,由专门机构对人工智能大模型算法进行全过程审核。此外,国家、各大网络平台以及广大的用户群体应共同参与监管、投诉与反馈,并开展算法影响评估,以完善算法审核机制。
(四)分类分级规则
建立分类分级规则,对利用不同类型和重要程度的数据所形成的AIGC进行分级分类。构建对不同风险程度AIGC的梯次监管,设定服务主体对不可接受风险和重大风险的申报与备案义务,并进行安全评估,保障数据安全。
将AIGC分四类进行监管。以《数据安全法》《数据安全技术 数据分类分级规则》为基础,借鉴欧盟《人工智能法案》,将AIGC风险分为不可接受的风险、重大风险、一般风险和轻微风险四种类型。不可接受的风险,以违反人权与社会、国家基本价值或者涉及不当数据评估与分析为要件,这类AIGC会导致国家、社会、个人承受无法接受的风险,故应禁止将其投放市场、投入服务或者使用;重大风险类型的AIGC应当作为重点监管对象,包含社会各类基础设施领域进行服务与使用的AI产物,主要涉及重要数据与核心数据,应当规定完整全流程的风险监管措施,预防并控制其所产生的负面影响;一般风险与轻微风险类型的AIGC,主要涉及一般数据,使用者能意识到与对应AI进行交互时具有一定清晰认知并做出决定,其在监管框架下相对自由,监管限制与审查可相对宽容。当前市场上常见的聊天机器人、文字和图片识别及生成软件以及AI伴侣等的AIGC大多属于第三种风险类型。
依据分类分级规则,申报监管部门安全评估。应当根据AIGC分类分级的结果,将各类AIGC及其服务提供者、使用者划分到相应监管模块。对利用重要数据与核心数据生成的AIGC,由服务提供商向地方通信管理局和无线电管理机构申报数据安全风险评估,并在审查通过后,进行备案登记。而主要利用一般数据生成的一般风险与轻微风险类AIGC,在生成记录保存规则、实名制规则、标记规则等技术规则基础上自由流动,并受到通信管理局和无线电管理机构等机关的监管。通过分类分级保障AIGC“来”与“去”的安全性、合法性。
五、结语
本文通过对AIGC来源与应用领域的分析,提出了AIGC监管中存在的数据污染、信息泄露风险、数据歧视以及通用性伦理风险等风险;明确了现有监管模式中存在的人力监管能力不足、“产品”质量标准缺失、数据歧视监管规则缺失,以及分级管理规则模糊等问题;构建了以技术监管规则、质量标准规则、无歧视规则以及生成物分类分级规则为主体的监管规则体系,一定程度上为建立AIGC监管体系提供了理论上的框架与制度方案。但面对人工智能的迅速发展和巨大挑战,需要更为具体的应对措施以防范其带来的各种风险。未来还需从监管程序、监管基础设施、监管规制与监管机构运行等要素出发,探索国家AIGC监管体系发展之路,为保障国家人工智能产业蓬勃发展、社会秩序稳定、数据信息安全添砖加瓦。