摘 要:生成式AI的技术特性使其对《个人信息保护法》建构的个人信息保护体系产生了挑战,主要包括:生成式AI虽然解决了让语言模型使用超大体量无人工标注数据进行预训练的难题,但其采用的技术路线也使大语言模型成为完全的“技术黑箱”,进而使开发者难以遵守个人信息处理的知情同意规则;无论是依据“目的限定原则”还是“场景理论”,生成式AI的技术特性都使其难以满足在“合理范围”内处理已公开个人信息的法定要求;生成式AI的技术特性使大语言模型的输入端和输出端都存在对信息主体的敏感个人信息权益和个体隐私权的侵害风险。我们应该基于“包容审慎”的基本风险规制理念,通过调整生成式AI领域知情同意规则的适用方式、重塑生成式AI领域已公开个人信息的处理规则、设立生成式AI领域个人信息中人格权保护的行政规制措施等途径,实现创新技术发展和个人信息保护之间的平衡。
关键词:生成式人工智能;ChatGPT;个人信息;风险规制
一、引言
生成式AI(Generative AI)也即生成式人工智能,它是人工智能技术的一种下属类型,指“能够自主生成新的文本、图像、音频等内容的人工智能系统”。2023年8月15日生效的《生成式人工智能服务管理暂行办法》第22条将生成式AI技术界定为“具有文本、图片、音频、视频等内容生成能力的模型及相关技术”。生成式AI不同于传统上的决策式AI(Decision-making AI),后者的特性在于通过分析大规模数据集,研究数据集内存在的条件概率,总结出相对稳定的规律,并据此对未来作出预测,辅助人们作出相应的决策。可见,决策式AI偏重通过算法模型对大数据分析所总结的规律作出对未来可能性的预测,生成式AI则偏重通过算法模型对大数据分析所总结的规律生成全新的信息内容。简言之,传统决策式AI的主要功能在于“作出预测”,而新兴的生成式AI的主要功能在于“产出内容”。
正是由于两种不同人工智能的主要功能存在这种差异,因此,决策式AI通常被应用于需要对用户需求、周遭环境、风险概率进行预测的场景,如电商数字平台的个性化推荐服务、自动驾驶汽车的环境自动监测功能、金融行业的投资风险、借贷主体违约风险判断等。而生成式AI的主要应用场景则是需要高效、快速、自主生成特定数字信息内容的领域,如ChatGPT用于自主生成文字/代码类的内容、Midjourney用于自主生成图像类的内容、Sora用于自主生成视频类的内容、MuseNet用于自主生成音乐音频的内容等。
生成式AI的出现标志着新科技浪潮的兴起,是人工智能发展的全新阶段。它不但会成为推动数字经济高速发展的新引擎,而且还将深刻地改变人类生活领域的方方面面。然而,在生成式AI迅猛发展的背后,暗含的风险已经隐约可见。这主要包括:第一,由于生成式AI的类人化程度很高,人们常会对其产生深度信赖,这也就会导致诸如ChatGPT类的生成式AI可以“通过优秀的交互能力在情景化和个性化语境中对用户加以高效率、大规模、隐秘性地操纵、说服和影响”;第二,生成式AI的大语言模型预训练时使用的数据中包含了大量现有受到知识产权法保护的作品,在此基础上输出的数字内容可能会产生侵害他人知识产权的风险;第三,生成式AI所具有的深度合成功能使其可以产出以假乱真的虚假信息;第四,生成式AI是基于主流人群的语料数据库进行预训练的,这就使其中对少数人群的歧视性观念会被整合入输出的信息内容中;第五,生成式AI与下游互联网平台结合后会成为Web3.0时代的网络“权力工具”,导致平台权力的再中心化风险;第六,生成式AI中算法模型的预训练需要海量的数据“投喂”,这些海量数据中包含了大量的个人数据,由此会在个人数据的收集广度、处理深度及结果应用上存在侵害风险。
在这些可能由生成式AI引发的风险中,本文特别关注生成式AI对个人信息保护产生的挑战及其风险规制问题。这是因为,我国已于2021年11月1日正式施行《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》),其中对于数字时代个人信息的保护作出了全面系统的规定。然而,生成式AI却是勃兴于2022年的年底。这意味着在《个人信息保护法》的制定过程中并未纳入对生成式AI发展的相关考量,这就导致该法中关于个人信息保护的规定在生成式AI勃兴之后面临着诸多挑战。这些挑战不但可能会造成我国个人信息保护的新型风险,而且也可能会成为我国生成式AI产业发展的法律羁绊。因此,在生成式AI兴起的当下,亟须研究其对《个人信息保护法》建构的个人信息保护法律框架产生的挑战,并在此基础上探讨对应的风险规制路径。
以下本文将逐一分析生成式AI对个人信息处理的知情同意规则、已公开个人信息处理规则、敏感个人信息保护等三个方面带来的挑战及其技术成因。进而,本文将基于“包容审慎”的基本风险规制理念,探讨应对生成式AI侵害个人信息的具体风险规制路径,以期为《个人信息保护法》的修订与“人工智能法”的制定提供一些智识贡献。
二、生成式AI对知情同意规则的挑战及其成因
“告知—同意”是《个人信息保护法》中设定的处理个人信息的基本原则。它要求个人信息处理者在无法定例外的情形下,都应当告知信息主体并经其同意后,才能合法地处理个人信息,也被称为个人信息处理的“知情同意规则”。包含个人信息的数据是生成式AI在大语言模型预训练阶段最为重要的训练数据之一,因此,生成式AI开发者属于《个人信息保护法》中规定的个人信息处理者,在处理个人信息数据时也应当遵守知情同意规则。然而,生成式AI的技术特性对个人信息保护中的这一首要规则提出了挑战。
(一)生成式AI开发者难以遵守知情同意规则
根据《个人信息保护法》第13条的规定,除法定的6种情形之外,个人信息处理者都应在取得信息主体(个人)的同意之后,才能处理个人信息。同时,根据《个人信息保护法》第14条、第17条的规则设定,如果是基于个人同意处理个人信息,那么该同意必须是在信息主体充分知情的前提下作出。个人信息处理者必须真实、准确、完整地向信息主体告知个人信息处理目的、方式等内容。并且,如果个人信息处理目的、方式发生变更,应当重新取得信息主体的同意。
生成式AI的大语言模型预训练使用的超大体量训练数据中包含了大量的个人信息。这些超大体量的训练数据一方面来自开发者购买或者通过网络爬虫技术从互联网上获取的数据,如ChatGPT的大语言模型预训练阶段使用的就是从互联网上获取的超3000亿单词的数据,其中包含了大量的个人信息;另一方面这些数据来自开发者在提供大语言模型服务时获取的用户真实人机交互数据,如ChatGPT的全球用户使用后产生的人机交互数据会被OpenAI公司用来作为大语言模型升级迭代的训练数据,其中也包含了大量由用户自身输入的个人信息。
可见,生成式AI开发者使用包含个人信息的数据进行大语言模型预训练时,会涉及个人信息的收集、存储、使用、加工等活动,属于《个人信息保护法》第4条定义的个人信息处理行为。因此,生成式AI开发者属于《个人信息保护法》所界定的个人信息处理者,需要受到前述《个人信息保护法》第13条、第14条、第17条设定的知情同意规则的约束。也即,生成式AI开发者在大语言模型预训练阶段处理包含个人信息的数据时,除了法定例外情形,原则上都必须向信息主体真实、准确、完整地告知处理目的、方式等内容,在信息主体充分知情并同意之后才能将这些个人信息数据用于大语言模型的预训练活动。
不过,虽然《个人信息保护法》要求生成式AI开发者在大语言模型预训练阶段处理个人信息时应当遵守知情同意规则,但是,生成式AI的技术特性却决定了开发者事实上无法履行向信息主体真实、准确、完整地告知处理目的、方式等内容的义务,难以满足知情同意规则的法定要求。也即,生成式AI的技术特性已经使其对个人信息处理的知情同意规则在人工智能时代的适应性产生了严峻挑战。对此,下文将以生成式AI中最重要的GPT模型(Generaive Pre-trained Transformer)为例分析其中的技术成因。
(二)生成式AI挑战知情同意规则的技术成因
GPT模型是OpenAI公司开发的一款大语言模型,其开发目的就是提高模型在复杂情景中理解与生成自然语言文本的能力,我们熟知的ChatGPT就是在此之上开发的应用程序。GPT模型成功地获得了计算机精确识别人类自然语言的能力,其中解决的一个关键性难题就是如何让语言模型使用超大体量的无人工标注数据进行预训练。
数据是语言模型进行预训练必不可少的原料。理论上而言,数据体量越大,语言模型就能学习得越精确,学习成效也就越高。不过,传统语言模型的深度学习大多数都是使用人工标注数据进行预训练,因为人工标注数据能被计算机顺利读取并运用到语言模型的预训练中。然而,人工标注数据的最大问题在于获取成本很高且规模有限,这极大地限制了语言模型学习成效的提升。而在互联网上存在着超大体量的无人工标注数据,且数据体量在不断增长,几乎没有边界。如果能够有效地利用这些无人工标注数据进行语言模型的预训练,那么,就能够大幅度降低语言模型预训练的成本并提高预训练的成效,使语言模型进化为“大”语言模型。
GPT模型解决这一难题的基本技术路线是:将每个单词都视为一个超大词汇空间中的一个点,自然语言中关联越紧密的单词意味着在这个词汇空间中的位置距离就越近,反之亦然。在此基础上,再运用类似于经纬度标注地点的方式将每个单词都向量化,把每个单词在这个词汇空间中的位置都转化为一串长达上万数字的数列,表示这个单词与其他单词之间存在的所有可能性关联,继而运用超高强度的算力挖掘其中存在的自然语言统计规律,也即发现单词与单词之间在统计学意义上的概率分布规律。接着,GPT模型会根据这种自然语言统计规律,通过自回归(autoregressive)的方式依据用户给定的提示词(prompt)不断推测出后续的单词,进而形成用户能够理解的信息内容。换言之,GPT模型并非如搜索引擎那样从事先存储的数据中依据人们需求调取已有的信息内容,而是根据自身在预训练时掌握的自然语言统计规律,基于概率分布通过“预测下一个单词”的方式推测出人们所需要的信息。这种技术路线的运用使GPT模型可以利用互联网上几乎所有的无人工标注数据进行预训练,实现无监督学习(unsupervised learning),极大地降低了语言模型预训练的数据成本,提高了计算机自然语言学习的成效。
然而,在提高语言模型学习成效的同时,这种技术路线也导致了由此生成的大语言模型成为完全的“技术黑箱”。生成式AI通过上述预训练过程虽然掌握了自然语言中隐含的统计规律,但这种自然语言统计规律却保存在动辄数以千亿计的模型参数中,并非如硬盘介质中存储的数据那样一目了然,也就不能被包括开发者在内的其他主体所确知。也即,在生成式AI的技术开发中,就连开发者本身也无法详细了解大语言模型到底掌握了何种自然语言统计规律,这是人工智能所采用的多层级神经网络算法所必然导致的认知不透明性。这种完全“技术黑箱”的出现,意味着生成式AI的大语言模型在预训练过程中对个人信息的处理也同样被置于“技术黑箱”之中,即使开发者也无法确切掌握个人信息数据在模型中会被如何处理、模型会从中发现何种自然语言统计规律,以及模型会在下游应用中输出何种信息并被用于何种目的,更难以辨析大语言模型预训练时使用的个人信息数据的权利状态与隐私风险。
既然连开发者也无法了解在大语言模型的“技术黑箱”中个人信息是如何被处理的,那么,就更无法向信息主体进行详细告知,也难以遵守个人信息处理的知情同意规则。其实,即便我们将知情同意规则要求告知信息主体的内容最宽泛地界定为“用于生成式AI的大语言模型预训练活动”,生成式AI开发者也同样难以满足这一规则的要求。因为大语言模型预训练所使用的训练数据体量极为庞大,包含的个人信息数量也同样巨大,开发者客观上根本无法告知其中个人信息涉及的每一个信息主体并取得其同意。
由此可见,生成式AI为了在大语言模型预训练阶段处理超大体量的无人工标注数据而采用了特殊的技术路线,随之形成的“技术黑箱”导致开发者在客观上难以依法履行向信息主体真实、准确、完整告知个人信息处理目的、方式等内容的义务,更遑论保障信息主体充分知情和同意权利的实现,这就事实上导致《个人信息保护法》中的知情同意规则难以在生成式AI的情景下得到有效适用。
三、生成式AI对已公开个人信息处理规则的挑战及其成因
在生成式AI开发者建构大语言模型所使用的超大体量训练数据中,除了需要信息主体同意后才能处理的个人信息之外,还存在一种特殊的、无须经过信息主体同意就可以处理的个人信息,即已经依法公开的个人信息(以下简称已公开个人信息)。根据《个人信息保护法》第13条第1款第(6)项及第27条的规定,对于已公开个人信息(包括个人自行公开或通过其他合法方式公开的个人信息),个人信息处理者有权在“合理范围”内予以处理,无须得到信息主体的同意,这就确立了处理已公开个人信息的“默认规则”。由此,生成式AI开发者也就有权在合理范围内直接处理已公开个人信息,无须适用知情同意规则。至于如何判断已公开个人信息的处理行为是否属于“合理范围”,在传统法理上主要存在“目的限定原则”和“场景理论”两种标准。然而,在生成式AI的技术语境下,这两种判断标准都受到了严峻的挑战,以至于生成式AI的开发应用活动很难满足相应的要求。
(一)生成式AI挑战“目的限定原则”的技术成因
“目的限定原则”是指已公开个人信息的处理应当限定在信息主体公开个人信息的初始用途之上,依据这种初始用途界定的范围才属于处理已公开个人信息的合理范围。这意味着生成式AI开发者在进行大语言模型预训练时,只有将已公开个人信息的处理活动限定在信息主体公开个人信息的初始用途之上,才属于在“合理范围”内处理已公开个人信息。然而,生成式AI的技术特性导致其难以满足“目的限定原则”对于“合理范围”的这种要求。
正如前文所述,以GPT模型为代表的生成式AI的主要技术原理之一就是开发者使用超强算力与超大体量训练数据进行大语言模型的预训练,使模型掌握训练数据中包含的自然语言统计规律,并依据用户输入的提示词通过“预测下一个单词”的方式输出符合自然语言统计规律的信息,从而实现与用户之间通过自然语言接口形成人机互动关系。生成式AI的大语言模型通过这种技术路线掌握的自然语言统计规律是极端复杂的。为了对这种极端复杂性有更直观的感受,我们可以将大语言模型的参数量比喻为一个单词通向下一个单词的通道数量,参数量越大说明存在的通道数量就越多。例如,ChatGPT的参数量达到了1750亿个,这意味着一个单词与下一个单词之间存在着1750亿条通道。而且,这还仅仅只是两个单词之间的通道数量,预训练数据中包含的单词数量往往都是以亿为单位的,两两之间都可能存在这么多数量的通道。大语言模型在预训练时要掌握如此庞大规模的通道数量,并识别出其中概率最高的通道,计算量之庞大可想而知,这也是大语言模型预训练为何需要耗费超高强度算力的原因。
同时,我们也就能切实地感受到大语言模型预训练后掌握的自然语言统计规律的极端复杂性。这种极端复杂性意味着,对于生成式AI开发者自身而言,大语言模型如何处理包含已公开个人信息的训练数据是不可知的,且从其中挖掘出何种自然语言统计规律同样也是不可知的,大语言模型已经完全成为了“技术黑箱”。这种“技术黑箱”的存在决定了生成式AI开发者无法将已公开个人信息的处理限定在特定目的之上,更遑论将对已公开个人信息的处理限定在信息主体公开个人信息的初始目的之上。因此,生成式AI的开发活动难以满足“目的限定原则”对处理已公开个人信息的“合理范围”的要求。
(二)生成式AI挑战“场景理论”的技术成因
“场景理论”是指已公开个人信息的处理应当考虑各类具体场景的差异,依据场景的不同确定个人信息处理活动的合理范围。这意味着需要依据生成式AI建构的大语言模型的不同应用场景来确定其对已公开个人信息的处理是否属于合理范围。然而,生成式AI的技术特性导致其很难满足“场景理论”对于合理范围的这种要求。
以GPT模型为代表的生成式AI建构的大语言模型之所以被称为“大”,主要是因为模型包含的参数量极为庞大。例如,GPT-3的模型参数量已经达1750亿,OpenAI公司于2023年推出的GPT-4的模型参数量虽然并未公布,但学者预测可能会高达到1.8万亿。如此庞大规模的参数量使大语言模型出现了所谓的“涌现”(emergent)能力,它能够根据任务提示词自动完成对应的有效信息输出,而无需事先进行具有针对性的训练。例如,GPT-4在未进行事先针对性训练的情况下,已经能够顺利通过诸如美国律师执业资格考试、法学院入学考试(LSAT)等专业型考试,甚至取得了排名前10%的优异成绩。
这种“涌现”能力使大语言模型输出的信息内容满足了用户多样化的信息需求,也使大语言模型具有了极强的拓展性,能够结合不同应用场景实现广泛领域的人机交互,因此,也被认为是“通用人工智能”(General Artificial Intelligence)的雏形。事实上,生成式AI正是由于其建构的大语言模型可以作为各类具体应用场景的底层通用模型而被认为具备了数字时代的革命性意义。生成式AI的这种技术特性意味着大语言模型的应用场景可以近乎无限地进行拓展,同时也就意味着即使是生成式AI的开发者也不能确定大语言模型对已公开个人信息的处理会被应用于哪些具体的场景,因其本身就是为了“通用”场景而开发的模型。由此,依据“场景理论”同样难以判断生成式AI的大语言模型处理已公开个人信息是否属于“合理范围”。在无限拓展的生成式AI的大语言模型应用场景之中,根据特定场景判断已公开个人信息处理活动的合理范围只能成为理想化的判断标准,而并不具有实际的可操作性。
由此可见,在生成式AI的技术语境中,无论是“目的限制原则”还是“场景理论”,都不适合用于有效界定大语言模型处理已公开个人信息的合理范围。《个人信息保护法》中设定的已公开个人信息处理规则面临着严峻挑战,在生成式AI快速发展的当下,亟须对这一问题加以重视和解决。
四、生成式AI对敏感个人信息保护的挑战及其成因
在生成式AI开发者建构大语言模型所使用的超大体量训练数据中,还会存在着许多敏感个人信息。敏感个人信息主要指《个人信息保护法》第28条规定的“生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等信息,以及不满十四周岁未成年人的个人信息”。敏感个人信息往往与信息主体的个人隐私高度相关,因此,生成式AI开发者在处理敏感个人信息时,除了有可能会对敏感个人信息权益造成侵害,还有可能会对信息主体的隐私权造成侵害。生成式AI的技术特性决定了开发者在处理敏感个人信息时同样难以满足知情同意规则,其中的技术成因与前文第二部分所述一致。此外,更加需要注意的是,生成式AI的技术特性会导致大语言模型的输入端和输出端都可能产生对信息主体的敏感个人信息权益及个体隐私权的侵害风险。
(一)大语言模型输入端产生侵害风险的技术成因
生成式AI的大语言模型预训练数据中包含的敏感个人信息,除了来自于开发者通过购买或网络爬虫获取的数据之外,还来自于“机器学习即服务”(Machine learning as a service, MLaaS)方式获取的数据。MLaaS是指生成式AI开发者面向用户提供的在线云服务,通过使用这种服务,用户无须在本地部署就能通过网络使用开发者提供的大语言模型完成特定任务。这意味着用户在使用大语言模型的云服务时,输入的信息都会上传到开发者的云端服务器存储之中。而用户在缺乏对模型数据处理机制的清晰认知时,就可能会不经意间提交自己的敏感个人信息。这些包含敏感个人信息的用户输入信息与大语言模型的输出信息一道构成真实的人机交互数据,会被生成式AI开发者用作大语言模型迭代升级的训练数据。OpenAI公司在ChatGPT用户规则中就明确声明,ChatGPT用户与大模型交互产生的数据会被用来作为模型迭代的训练数据,用户甚至无法删除其中涉及自身的敏感个人信息。可见,生成式AI建构的大语言模型无论是在初次开发阶段使用的训练数据中,还是在后续迭代升级阶段使用的训练数据中,都会包含大量的敏感个人信息。
当包含敏感个人信息的数据用于生成式AI的大语言模型预训练时,模型就会牢牢“记住”这些敏感个人信息,并有可能使其遭到泄露,产生对信息主体的敏感个人信息权益及个体隐私权的侵害风险。例如,目前的研究已经表明,技术人员可以通过最新的技术手段从各类生成式AI的大语言模型中抽取出大量的原始训练数据,其中自然包括了存在敏感个人信息的原始训练数据。正因如此,2023年6月28日,有16位匿名人士对OpenAI公司和微软公司提起诉讼,认为ChatGPT及相关生成式AI产品收集了数百万人的个体隐私信息,包括姓名、电子邮件、支付信息、交易记录、聊天记录、搜索历史等,这些数据能够反映出信息主体的宗教信仰、政治观点、性取向、个性偏好等私密信息,违反了美国《电子通信隐私法》(Electronic Communications Privacy Act,ECPA)。这一诉讼从侧面反映了生成式AI对敏感个人信息权益及个体隐私权的侵害风险。正是出于对这种侵害风险的担忧与防范,意大利个人数据保护局在2023年3月暂停了ChatGPT在该国的使用,直到OpenAI公司更新了隐私保护政策并作出相应技术调整后,才许可其继续运营。法国和英国的数据隐私保护机构也对ChatGPT涉及的个人隐私保护问题表示了专门的关注。
(二)大语言模型输出端产生侵害风险的技术成因
生成式AI建构的大语言模型的输出端与输入端一样,也会产生对信息主体的敏感个人信息权益及个体隐私权的侵害风险。这是因为,大语言模型预训练在掌握自然语言统计规律的同时,也具备了强大的碎片化信息整合分析能力。通过类人神经网络的学习,生成式AI的大语言模型能够将训练数据中碎片化的信息进行分析整合并形成完整的信息内容。这种碎片化信息整合分析能力使其可以将信息主体散落在数字空间中的碎片化个人信息进行聚合,并基于此对信息主体进行深度用户画像,挖掘出隐藏在碎片化个人信息背后的敏感个人信息及深层的个体隐私内容,在“长尾效应”之下产生对信息主体的敏感个人信息权益及个体隐私权的巨大侵害风险。这种强大的碎片化信息整合分析能力甚至可能使生成式AI开发者对特定主体的个人信息(包括敏感个人信息)具有全知全控的能力。并且,正如前文所述,以GPT模型为代表的生成式AI已经具备“通用人工智能”的雏形,它在超大规模的模型参数支持下产生了“涌现”的能力,可以被整合入不同的应用场景进行广泛运用。这就使生成式AI强大的碎片化信息整合分析能力也会拓展到下游不同的应用场景中,使广大的终端用户具有了以极低成本获取他人敏感个人信息及窥探他人隐私的能力,这就进一步放大了对信息主体的敏感个人信息权益和个体隐私权的侵害风险。
更进一步而言,由于生成式AI的大语言模型并非像传统数据库一样通过硬盘介质存储数据,而是将预训练阶段掌握的自然语言统计规律以参数的形式存在于大语言模型中。因此,即使生成式AI开发者发现大语言模型输出了敏感个人信息进而侵害了信息主体的隐私权,也不能像操作传统数据库那样直接在大语言模型中删除敏感个人信息。也就是说,生成式AI的技术特性决定了无法在大语言模型中直接删除特定信息,而只能通过模型的后续迭代训练防止特定信息(包括敏感个人信息)的输出。同时,由于大语言模型迭代训练的成本非常高,并不能做到随时随地进行,这就导致敏感个人信息的泄露难以得到及时的制止,对信息主体的敏感个人信息权益和个体隐私权的侵害风险会持续存在。
五、生成式AI侵害个人信息的风险规制路径
生成式AI的革命性技术突破对我国的个人信息保护法律制度产生了诸多的挑战,这些挑战在事实上也显露出生成式AI对个人信息有可能产生的侵害风险。并且,随着生成式AI技术应用向经济社会各个领域的不断拓展,这种对个人信息的侵害风险不仅可能会对作为信息主体的个人造成灾难性后果,而且还可能给社会和国家带来重大安全隐患。因此,传统上“基于权利的方法”实施的个人信息保护逐步演变为“基于风险的方法”实施的个人信息保护。这种个人信息保护思路的改变,促使生成式AI时代个人信息保护的主要路径也随之发生转变。这主要体现在从以民事诉讼为主的私法保护路径,转变为以风险规制为主的公法保护路径。由人民法院实施的私法保护路径具有高成本、滞后性的缺陷,往往难以及时有效地防范个人信息的侵害,而由行政机关实施的公法保护路径则更具有专业性和实效性,更能回应人工智能时代飞速发展的科技变革对法律规制的适应性要求。因此,在生成式AI蓬勃发展的当下,为了更好地实现对个人信息的保护,我们应认真探讨相关风险规制的路径,以便为《个人信息保护法》的修订及“人工智能法”的制定提供一些建议。
(一)“包容审慎”的基本风险规制理念
虽然生成式AI存在侵害个人信息的潜在风险,但这并不意味着就应禁止其开发。在新科技革命的浪潮之下,生成式AI是技术革新的最前沿领域,它的发展水平将直接决定我国在数字经济竞争中所处的层级,是我国在下一个经济发展周期中能够立于不败之地的主要技术依托,是需要大力予以培育、扶持与促进发展的技术领域。因此,生成式AI侵害个人信息的风险规制应当在促进创新技术发展和个人信息保护之间保持必要的平衡,既不能因为推进生成式AI技术的发展而罔顾个人信息的保护,也不能因为保护个人信息而阻碍生成式AI技术的发展。
这种平衡在风险规制中就体现为“包容审慎”的规制理念,实现“包容审慎原则下义务与责任重构”。从“包容”的角度而言,风险规制应当确保我国生成式AI开发者更便利地合法处理个人信息数据。在生成式AI的发展过程中,面对超大体量的训练数据,如果严格要求大语言模型预训练中的个人信息处理活动都必须得到信息主体的知情同意,暂不论是否可以真正有效实现,即使假设能够真正有效实现,也会极大地降低我国生成式AI的开发效率,严重阻碍生成式AI的发展速率。在目前这样一个激烈的全球科技竞争时代,这就意味着我国在新科技竞争中处于劣势地位,甚至被其他国家远远甩在身后。因此,就生成式AI风险规制的包容性层面而言,应适当放宽个人信息处理的知情同意规则的限制,“控制超量安全亢余”,使生成式AI开发者能够更便利地运用个人信息数据进行大语言模型的预训练,从而实现个人信息本身所具有的社会价值。
与此同时,从“审慎”的角度而言,风险规制应更侧重于对信息主体人格权的保护。数字经济时代,个人信息对于信息主体而言不但具有人格权方面的利益,而且还具有财产权方面的利益。生成式AI对个人信息可能产生的侵害风险,既有可能是对信息主体财产权的侵害,也有可能是对信息主体人格权的侵害。生成式AI作为新科技时代的突破性技术,其产生的总体社会经济效益将会远超个人信息对于信息主体产生的财产性利益。因此,生成式AI发展过程中对于个人信息中的财产权可以适度降低保护力度,以便更好地实现个人信息对于生成式AI产业整体发展的贡献。但是,信息主体的人格尊严是不能用经济效益来衡量或替代的,它是生成式AI发展过程中不可突破的底线。也即,就生成式AI风险规制的审慎层面而言,必须守住保护信息主体人格尊严的底线,对于可能对信息主体人格权产生侵害的个人信息处理行为应当予以严格规制,切实保护个人信息中的人格利益。
简言之,关于生成式AI侵害个人信息风险规制的基本理念就是“包容审慎”,目的在于实现创新技术发展与个人信息保护之间的平衡。风险规制的总体思路应当是在便利我国生成式AI开发者运用个人信息数据从事大语言模型研发的同时,侧重于对信息主体的个人信息中人格权方面利益的保护,适当放宽对信息主体的个人信息中财产权方面利益的保护。
(二)具体的风险规制路径
依据“包容审慎”这一基本的风险规制理念,我们就可以继续探讨生成式AI侵害个人信息的具体风险规制路径:
1.调整生成式AI领域知情同意规则的适用方式。从目前《个人信息保护法》的规定来看,除了法定的例外情形(如已公开个人信息),大多数个人信息都需经过信息主体的明示同意才能进行处理,且并未明确生成式AI处理个人信息的特殊例外情形。这就意味着在目前的法律规定下,生成式AI大语言模型预训练中使用的极为庞大的个人信息数据,大多数都应先依法取得信息主体的明确同意后才能进行处理,这在很大程度上成为阻滞生成式AI高效发展的法律规则壁垒,需要调整规则的具体内容予以应对。
既然依据“包容审慎”的基本理念,生成式AI侵害个人信息风险规制的重点在于保障信息主体的人格权。那么,对于通常不涉及信息主体人格权的普通个人信息,我们就可以在法律上采用“默示同意”规则——只要信息主体不明确表示拒绝,生成式AI开发者就可以合法地处理这些个人信息。同时,应当将风险规制的重点置于更可能会危及信息主体人格权的“敏感个人信息”之上,对于此类个人信息应继续保留“明示同意”规则——敏感个人信息必须经过信息主体的明示同意后才能应用于生成式AI的开发活动。由于敏感个人信息更有可能涉及信息主体的人格权,且此类信息只是个人信息数据集中的一部分,因此,知情同意规则的这种调整就能够在尽可能保障信息主体人格权的前提下,最大限度地避免对生成式AI技术发展的阻碍。
因此,建议可以在今后的《个人信息保护法》修改中,加入生成式AI开发可以采用“默示同意”规则处理普通个人信息的规定(处理敏感个人信息仍保留“明示同意”规则),作为个人信息处理的知情同意规则的特殊例外。如果直接修改《个人信息保护法》较为困难,那么,也可以考虑在“人工智能法”的制定中解决这一法律障碍。例如,可以在“人工智能法”中明确规定生成式AI处理普通个人信息的默示同意规则。依据“特别法优于一般法”的法律适用规则,“人工智能法”中个人信息处理的这种特别规定将优先于《个人信息保护法》中个人信息处理规则的适用。这样就能在不修改《个人信息保护法》中知情同意规则的前提下,确保生成式AI中个人信息处理活动“默示同意”规则的实现。
2.重塑生成式AI领域已公开个人信息的处理规则。正如前文分析所显示,《个人信息保护法》中将已公开个人信息的处理限定在“合理范围”内,但生成式AI的技术特性决定了对已公开个人信息的处理很难满足现有判断标准下对“合理范围”的界定,无论是“目的限定原则”,还是“场景理论”都难以适用。因此,如果严格依据目前《个人信息保护法》的规定,生成式AI开发者处理已公开个人信息的活动将始终游走在违法的边缘,时刻处于可能被认定为违法的不确定状态中,这种风险将会极大地限制我国生成式AI技术与产业的快速发展。
规制这种风险的途径在于调整生成式AI处理已公开个人信息的法律规则。具体思路是:如果说从正面界定何为生成式AI处理已公开个人信息的合理范围十分困难,那么,或许从反面划定生成式AI处理已公开个人信息的底线更具有制定或调整法律规则的可行性。基于“包容审慎”的风险规制理念,我们可以考虑在《个人信息保护法》修订或“人工智能法”的立法中,将信息主体的人格权保护明确作为生成式AI处理已公开个人信息时不可逾越的底线,而在这一底线之上开发者就可以合法地处理已公开个人信息。这意味着,生成式AI开发者在使用已公开个人信息进行大语言模型预训练时,只要处理行为不对信息主体的人格权造成侵害,那么,其处理行为都应属于法律允许的范围。这一底线的划定侧重于对个人信息中信息主体人格权的保护,同时放松了对个人信息中信息主体财产权的保护。虽然对于信息主体个人而言,这样的规制方式降低了其依赖自身个人信息获益的可能性,但对于生成式AI的发展与数字经济时代社会总体收益的提升具有重要意义。
3.设立生成式AI领域个人信息中人格权保护的行政规制措施。目前我国对个人信息中人格权的保护大都是通过受害主体提起民事诉讼的方式予以实现,这种私法救济途径更适合应对前生成式AI时代对个人信息中人格权的个别性侵害。而在使用超大体量数据进行大语言模型预训练处理的生成式AI时代,对个人信息中人格权的侵害往往呈现批量性侵害,而非个别性侵害。如果此时仍然由受害主体通过私法救济途径追究生成式AI开发者的法律责任,那么,不但存在法律责任追究的滞后性,而且受高昂诉讼成本的约束,可以预见并不会有太多受害主体愿意提起诉讼,由此对个人信息中人格权的保护功能很有限。
因此,基于“包容审慎”的风险规制理念,我们需要通过设定有效的行政规制措施弥补私法救济在生成式AI时代对个人信息中人格权保护的不足。具体包括以下几种完善的途径:
第一,设立生成式AI开发者侵害个人信息中人格权的特别行政处罚措施。从目前我国《个人信息保护法》中有关行政处罚的责任设定来看,虽然已经规定了对个人信息处理者违反法定信息处理规则时的处罚制度,但这一规定过于笼统,且并未区分侵害个人信息中的财产权和侵害个人信息中的人格权。因此,在《个人信息保护法》修订或“人工智能法”的立法时,建议在生成式AI的相关条文中,明确设定生成式AI开发者侵害个人信息中人格权的行政处罚措施,同时规定侵害个人信息中其他权利(如财产权)的生成式AI开发行为不属于行政处罚的范围,从而体现特别保护个人信息中人格权的底线。
第二,设立责令生成式AI开发者进行赔偿的行政命令措施。虽然从法理上而言,当生成式AI开发者侵害了个人信息中的人格权之后,信息主体可以通过提起民事侵权诉讼要求其赔偿自身的损失。但是,作为个人的信息主体相对于通常是组织体的生成式AI开发者总体而言,前者是居于弱势地位。通过民事诉讼的途径要求赔偿,且不论其胜诉率的高低,即使能够胜诉,也仅能使单次诉讼中的原告获得赔偿,其他受侵害主体则并不能依此次诉讼获赔,只能另行提起诉讼,诉讼效益并不高。因此,为了加强对个人信息中人格权的特别保护,可以在《个人信息保护法》修订或“人工智能法”立法中,设立行政机关责令实施侵害行为的生成式AI开发者对信息主体的人格权损害进行赔偿的行政命令措施。通过行政机关的公权力主动为保护信息主体的人格权提供助力,减轻信息主体获得损害赔偿所需支出的成本,同时,也体现出风险规制中对信息主体个人信息中人格权的倾向性保护。
第三,设立生成式AI开发活动的行政许可措施。虽然生成式AI的发展需要市场主体间激烈的市场竞争予以快速推动,但不受约束的市场竞争也会导致生成式AI开发者良莠不齐,出现利用“技术黑箱”所导致的高度信息不对称肆意侵害个人信息权益及个体隐私权的情形。因此,可以考虑在《个人信息保护法》修订或“人工智能法”的立法中设定生成式AI开发的行政许可措施,要求符合一定条件的组织才能从事生成式AI的开发活动。例如,为了应对生成式AI所具有的高度技术复杂性,可以要求生成式AI开发者事先建立完善的内部规则保护信息主体的人格权,并将此作为颁发行政许可的条件之一。通过行政许可措施的设立,不但能够过滤掉不具备保护个人信息中人格权的能力与条件的开发者,减少侵害个人信息中人格权的概率。而且,行政许可措施还能使行政机关的风险规制对象更加明确和集中,便于行政机关对生成式AI开发者侵害个人信息中人格权的行为进行及时、有效的监管。
六、结语
综上所述,以GPT模型为代表的生成式AI超越了传统决策式人工智能的预测功能,已经具备了依据大语言模型预训练所掌握的自然语言统计规律产出全新内容的能力,这标志着通用人工智能的初步实现,是数字经济时代新科技浪潮的前奏。但是,生成式AI的出现引发了诸多新型风险,其中最重要的风险就是对个人信息保护产生的挑战。生成式AI对个人信息保护的挑战来源于其具有的技术特性,主要包括对个人信息处理的知情同意规则、已公开个人信息处理规则及敏感个人信息保护等三个方面的挑战。面对这些新型挑战,为了防范生成式AI对个人信息的侵害风险,我们应当在修改《个人信息保护法》或制定“人工智能法”的过程中,基于“包容审慎”的基本风险规制理念,建构具有针对性的规制措施,包括调整生成式AI领域知情同意规则的适用方式、重塑生成式AI领域已公开个人信息的处理规则、设立生成式AI领域个人信息中人格权保护的行政规制措施等,以便在数字经济时代真正实现生成式AI创新技术发展和个人信息保护之间的平衡。