[摘要]:算法认知偏差不仅扭曲事实,还影响人工智能法律规制质效。法学文献中的“算法”常用于指代影响权益的人工智能系统。不同于传统编程,机器学习算法是通过向数据学习以形成模型。数据、算力、AI框架、模型框架、人为干预等因素深刻影响算法作用的发挥。算法并不是对利益得失的精巧算计。大部分算法也不具有排他性的财产属性。算法是人工智能体系中相对透明和确定的因素。“算法黑箱”并非人为“黑幕”,而是因基本原理所限导致的验证性和解释性的不足。滥用算法概念会导致人工智能法律规制的失焦、失据、失鹄、失度。数据法与专门立法相结合是人工智能规制的恰当立法形态。过度强调算法不仅造成权利、产业和科技目标难以调和,还可能导致过度监管。算法只有在以人的责任为基础的人工智能系统中才能得到稳妥规制。我国未来应该制定人工智能专门立法。业已开展的算法治理不宜过度冒进,宜审慎处理好当前与未来、名义与实质、规范与发展的关系。在准确的算法认知指导下,算法备案和公示的问题能够得到良好解释和妥善解决。
[关键词]:算法治理;人工智能法律规制;机器学习;认知偏差;个人数据保护
让·鲍德里亚尝言:“人通过对事物的想象、命名和概念化而令事物存在,同时也加速了它们的消亡,在不知不觉中令它们脱离原初的真实状态。”“算法”已从内涵清晰的技术概念变成含义模糊且极具情绪煽动力的流行语汇。法学文献中层见叠出的“算法”表述往往脱离技术事实,在规范上也无准确所指,有些甚至是明显的张冠李戴。“算法”更像是对人工智能时代各种负面情绪的想象和命名,折射了普通人在信息时代无助的精神状态。实际上,算法并非是引起当前人工智能各种缺陷的主要原因。企业和平台等主体的“算计”,以及数据中蕴含的对现实世界的既有“看法”,才是人工智能各种问题的根源。正所谓“匹夫无罪,怀璧其罪”。准确认知是有效法律规制的重要前提。算法认知偏差不仅扭曲了技术事实,还可能影响法律对人工智能的有效规范。
一、算法认知偏差的主要表现及其纠偏
实定法秩序是法学研究的重要依据。在法律规范没有明确界定的情况下,学者可以对研究对象采取灵活定义。总体来说,法学研究者对算法采取了比较宽泛的界定:鲜有学者采用严格的技术性算法概念;大部分学者采用了将一切相关现象统统纳入的模糊表述;也有学者采用中义,将算法界定为“人类和机器交互的决策,即人类通过代码设置、数据运算与机器自动化判断进行决策的一套机制”。基于特定的研究主题与目的,这些界定都有其合理性。但2020年以来,国际组织、欧盟和美国推出的人工智能规范中都采用了尊重技术性算法定义的立场。在此情况下,以实定法为导向的研究应充分尊重现实,不宜过度扩展算法概念外延,否则易在认知偏差的作用下,形成对人工智能法律规制问题的误识。
认知偏差是指那些扭曲现实理解,干扰清晰、精确、客观思考能力的心理因素。近年来,信念偏差、消极偏见、可得性启发、从众心理等认知偏差严重扭曲了人们对算法的客观认识。人们依据人工智能应用的负面效果判定算法应承担主要责任。关于算法的负面信息已经被广泛扩散并广受认同。接受到这些消极信息的人们对自己随时都在遭受算法的迫害和算计感到不安与焦虑。大量以算法规制、算法治理为主题的论文缺乏技术知识与实践反思。出版社将其他主题的作品改头换面为“算法”书籍出版。媒体和市场陷入“技术炒作的怪圈”。在这种纷乱的背景下,不愿信任算法也不能容忍算法犯错的“算法厌恶”盛行。与此同时,“算法依赖”日益严重:“我们把大部分决策权交给了复杂的机器。资格自动认证系统、排名算法和风险预测模型决定了哪些社区会受到治安巡查,哪些家庭能获得所需资源,谁会被列入工作候选名单,谁又要接受欺诈调查。”
“算法厌恶”和“算法依赖”都采用了“提喻”手法,用“算法”这个局部存在指代整体性的“人工智能系统”。算法广泛存在于生产、生活中,甚至打开电脑的过程都是由一系列算法支撑的。但人们并不关心底层的基础算法以及与个体权益无直接关联的算法。法学文献中存在大量“提喻”性的“算法”,其真实所指是对自然人权益有直接影响的人工智能系统。然而,这种对算法的过分关注包含着严重的认知偏差。只有排除干扰,回归理性才能认清人工智能算法的本质并据此进行有效的法律规制。具体来说,当前亟需从以下几个方面对算法认知偏差进行纠偏。
(一)算法不是唯一
算法无疑是人工智能的核心要素。但本轮人工智能发展的契机是大数据和强算力。在大数据环境下,数据、算力、AI框架和模型框架对人工智能的重要性有明显提升。算法不仅不是唯一重要的因素,其在某些领域的重要性甚至有明显的降低趋势。
1.数据
当前人工智能系统中数据的作用更加根本,甚至决定了算法发挥作用的方式。以机器学习为例,汤姆米·切尔曾做过经典界定:“对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E中学习。”机器学习适于处理那些可能存在潜在规律,但用传统编程难以解决且有大量数据的问题。“学习”是计算机从数据学得最优模型的过程,因此机器学习算法也被称为“学习算法”。现实的机器学习系统构建通常会选择几种不同的算法来训练模型,比较其性能并从中选择最优的算法。而且,模型往往需要多次重新训练。算法选择的主要依据是需要解决问题的性质以及数据的情况。数据的规模和特征对机器学习的性能往往具有决定作用。例如在训练集样本量较小的年代通行的经典梯度下降法和牛顿法在处理大数据问题时的效率非常低下。正因为如此,随机梯度下降法这种在大数据条件下效率巨高的方法得到广泛运用和发展。训练数据对模型性能影响更大。即便获得算法的原始代码也不足以真正理解特定人工智能系统的工作原理,因为它实际上取决于输入其中的数据。由于数据无可取代的重要性,当前的技术趋势常被称为数据驱动的人工智能。
2.算力
很多前沿性大规模深度学习人工智能项目的算法框架并不神秘,但训练却需要超大的数据集与惊人的计算量。例如2020年Open AI公司推出的GPT-3模型的高性能以规模为代价,使用的最大数据集在处理前容量达到了45TB,参数多达1750亿个,计算需求高达3640pfs-day。GPT-3在一定程度上证明了超大数据加上超大算力确实能导致人工智能性能的极大跃升。强化学习的奠基人理查德·萨顿指出,人工智能70年发展的教训之一是所有试图简化人类思维无可比拟的复杂性的尝试都失败了。人工智能的未来在于通用的搜索和学习方法,而非依赖人类知识。在萨顿看来,算力的杠杆作用是对人工智能发展唯一重要的因素。尽管很多学者并不同意萨顿这种看似极端的看法,但人工智能近来迅猛的发展确实主要仰赖搜索和学习这些看似并不高明的“蛮力”,而搜索和学习性能的提升都是以算力的增长为前提。特别是在深度学习大模型的竞争性发展中,由于模型的总体框架基本定型,算力显得比算法更具决定性。例如,由于Transformer这类大模型的训练需要在短时间内投入巨大算力,近年来前沿性大模型项目都是由在算力方面准备充分的美国公司和机构主导研发。
3. AI框架
普通主体没有实力从零开始搭建人工智能开发所需的软硬件系统。实践中,大部分人工智能项目并不单独设计算法并围绕算法搭建软硬件环境,而是高度依赖既有AI框架进行开发。AI框架是AI算法模型设计、训练和验证的一套标准接口、特性库和工具包,集成了算法的封装、数据的调用以及计算资源的使用,同时面向开发者提供开发界面和高效的执行平台。AI框架是人工智能开发环节中的基础工具,发挥着AI技术生态操作系统的功能。目前最流行的AI框架是TensorFlow和PyTorch。TensorFlow更倾向于工业应用领域,具有强大的移植性,利于工业部署。PyTorch语法简便,开发周期短,已逐步成为科研领域主流平台。在绝大部分情况下,工程师在AI框架中部署算法时只需依据任务目标选择调用恰当算法,算法在屏蔽了底层硬件和操作系统细节的前提下发挥作用。
4.模型框架
人工智能项目的模型框架影响了算法的选择和使用。2017年以来在自然语言处理(NLP)领域出现了一系列以Transformer为基础架构的性能优异的大模型。这种新范式导致大型NLP项目在框架和模型方面有统一的趋势。开发者可以用预训练良好的模型,针对不同任务目标进行微调,使其同时适用于不同的下游任务。目前这种模式已经超越NLP,在计算机视觉、多模态任务等领域也表现优异。算法在特定任务领域的专门性和特异性已有所削弱。此外,在近年来兴起的联邦学习领域,各种经典学习算法都需要依据联邦学习框架进行有针对性的修改。这些都充分说明了模型框架对算法的深刻影响。
以上论述并不是否定算法的重要性,而是指出用“算法”笼统指代包含数据、算力、AI框架、模型框架以及人工干预等要素的人工智能系统是不恰当的。以偏概全的描述不仅扭曲了技术事实,而且混淆了不同层次和不同特性的对象。
(二)算法不是算计
算法往往被想象为针对无辜人群的精巧算计,而人们对自身利益受损的风险容易反应过度。这无疑加深了算法概念的消极色彩,但算法本身并不能赋予人工智能精巧算计的特征。
计算机处理特定问题时既可采取规范设计的方法,也可采取从数据中学习的方法。在传统编程中,人类将经验归纳为严谨的逻辑公式并用编程语言将其描述出来,编译成机器代码后由计算机精确执行。而作为从数据中学习的模式,机器学习则具有先天的不精确性和不确定性。机器学习的基本原理是“概率近似正确”(PAC)理论。在PAC原理下,只能希望计算机基于某种学习算法学得的模型所对应的假设尽可能接近目标概念。PAC也可直译为“可能近似正确”,其中有两个不确定的表述:“近似”指的是在取值上只要与真实值的偏差小于预设就是“近似正确”;“可能”则指只要“近似正确”的概率足够大就可认为“可能近似正确”。即便不能深入理解PAC的数学内涵,我们也能体会到学习算法需要处理大量的不确定性问题。以机器学习为原理的人工智能在算法选择和实现层面并没有多少进行精巧算计和利益分配的空间,反而充斥着大量依靠直觉和经验的调整参数的粗重工作。正是在这种看似很不智能的调整参数操作中,机器学习算法才能不断优化,最后学习到逼近目标的模型。真正赋予人工智能系统算计特征的往往是算法之外的因素,例如数据质量,尤其是数据本身蕴含的模式和偏见。此外,在主流的监督学习模式中,人类主体设定的预期输出往往是各种问题的根本来源。算法只是根据预期的输出在数据上找到最优模型。
(三)“黑箱”不是“黑幕”
算法实际上是人工智能系统内较为清晰透明的部分。所谓“黑箱”并不是算法不够透明,更不是人为故意隐瞒真相,而是主动采取的认知方法或客观存在的认知难题。科学界把关注内部结构和原理的认知方式称为“白箱(白盒)”,与其相反的认知方式被称为“黑箱(黑盒)”。在初步研究某种事物或需简化研究对象时往往主动采取这种暂时忽略其内部结构和机理,只关注其输入输出以及与周围环境关系的黑箱方法。另一种黑箱则是被动的。在机器学习领域就存在暂时无法逃避的“黑箱”。例如,目前被广泛采用的人工神经网络(ANN)的输入层和输出层之间就是一个黑箱,科学界至今仍不完全了解神经网络输出某种结果的确切原因。基于ANN的深度学习更像是“实验科学”而非“严格科学”,其实用效果良好的原理并没有得到彻底揭示。“人工智能黑箱”可定义为无法完全理解的人工智能决策过程以及无法预测的人工智能决策或输出。人工智能的可验证性与可解释性虽可通过一些技术手段进行,但这类黑箱问题暂时无法得到根本解决。然而,这是人工智能原理的黑箱而非算法的黑箱。毕竟算法是指可操作清晰的步骤。算法黑箱本来就是矛盾的概念。如果一种算法存在模糊和黑箱,它就是客观上不可操作的,就不是算法。
另外,不能把因认知能力不足产生的心理状态称为“黑箱”。否则黑箱将无处不在。医学界对很多有效的治疗方法和药物的原理依然没有完全认知,在这种性命攸关的领域也几乎没有“医疗黑箱”“药物黑箱”的说法。实际上,人类运用了很多基本原理不明的技术。例如科学界对超导基本原理的认知仍不够完整,很多常温和高温超导现象至今缺乏完备理论解释,但这并不影响人类将其广泛应用于磁悬浮列车等领域。现代社会是高度分工和专业化的,每个人都有大量知识盲区,如果没有对相关领域规范和技术起码的信任,社会将难以正常运行。
“算法黑箱”这类表达的流行与媒体的过度炒作有明显关联。媒体报道、普及性读物以及社会科学研究文献中的“黑箱”“算法黑箱”等“热词”在人工智能专业书籍中很少出现。研究者和规范制订者应当深知这并不是准确的表达,更不能据此进行推理和行动。
(四)算法不是私产
公众对算法的恶感还源自一种误解:算法是大公司打造出来用于谋利的财产。但单纯数学意义上的算法并没有直接的财产价值,原则上也不受法律的排他性保护。《中华人民共和国专利法》第25条规定对“智力活动的规则和方法”不授予专利权,而算法就属于解决特定问题的智力活动的规则和方法。当然,如果一个“解决技术问题、产生技术效果的技术方案”符合新颖性、创造性和实用性的要求,即便里面包含了算法,也可以被授予专利权。但被授权的是“技术方案”而非算法。实际上,基础和经典的算法从性质上看大部分属于排除授予专利权的“科学发现”。基础算法相当于数学的定律或公理,普通算法工程师没有能力发明独特算法,只是根据问题类型选择合适算法,并根据需要进行局部优化和改进,大部分情况下也会受到基础AI框架的限制。然而,很多人都错误地认为某些公司掌握了一些不为人知、拥有专利壁垒的算法,并据此赚取超额利润。例如,不少人认为Google的成功在很大程度上是因为其两位创始人在公司成立前发明了高效的PageRank算法。实际上,在Google成立之前,利用链接关系对网页排序已是比较成熟的技术领域。PageRank只是当时效果较好的多种链接分析排序算法之一,并非Google “独门绝活”。
当然,各国对算法作为专利的态度有所不同。总体而言,美国在算法专利审查和批准方面比较宽松。大公司经常申请单纯算法专利且屡获成功。面对业界和社会的批评,这些公司都承诺获取专利后不会禁止他人免费使用相关算法,申请专利只是一种防御性措施。例如,尽管PageRank算法于2001年获得美国专利,但专利所有者并未禁止其他主体免费使用该算法。随着技术和观念的发展,一些前沿性人工智能项目(甚至包括一些大公司的项目)还有开源算法的趋势。
二、算法认知偏差对人工智能法律规制的负面影响
规制是一种基于问题的活动,而问题的识别、分析、解决受制于我们对世界的认识和理解。准确认知是有效法律规制的重要前提。如果放任算法认知偏差泛滥,会造成人工智能法律规制在对象、依据、目的、程度等层面出现严重问题。
(一)规制失焦
问题识别的错误会导致规制的失败。算法仅仅是人工智能系统的一个组成部分。过分强调算法概念,势必会造成法律规制偏离焦点,并造成后续立法和实践方面的诸多困难。尽管目前学界和媒体偏爱“算法规制”这类术语,但现实中却极少有将“算法”作为专门规范对象的立法。已生效和拟议中的人工智能法律规制的文件中都没有将算法作为其主要的规制对象。
从全球范围来看,2021年11月25日联合国教科文组织发布的《人工智能伦理建议书》是首个针对人工智能伦理制定的全球规范框架。尽管该建议书不是严格意义上的法律,但表达了共识,势必对各国人工智能立法形成重大影响。在这部文件中“算法”(algorithms)出现了8次,“人工智能”(AI)出现了358次,“人工智能系统”(AI systems)出现了131次。
从区域范围来看,欧盟目前已生效和拟议中的法律并没有将算法作为其主要规制对象。由于人工智能极度依赖数据驱动,《欧盟通用数据保护条例》(以下简称:GDPR)实际上对人工智能有着极强的约束作用。GDPR中与算法直接相关的规范对象是“自动化决策和用户画像”。只要人工智能系统使用欧盟公民的个人数据就必须受到GDPR的规范。因此,GDPR虽不是人工智能规制的专门立法,却是当之无愧的人工智能重要规范。GDPR中没有出现一次“算法”的表述。2021年4月欧盟公布了新的框架《人工智能法案》(以下简称:AIA),以规范欧盟27个成员国对人工智能的使用。该提案可能仍需数年调整和修订才能成为正式法律,但它仍然是迄今为止全球范围内最雄心勃勃的人工智能立法,代表了未来法律规制的趋势。在这部法案的解释性备忘录中,“算法的”(algorithmic)出现了1次,在正文中“算法”出现了2次,而“人工智能”出现了737次,“人工智能系统”则出现了361次。
2022年,欧盟公布了《数字市场法案》(以下简称:DMA)和《数字服务法》(以下简称:DSA)。DMA的主要目标是规制超级公司和平台在欧洲的商业行为和市场主导地位。DSA旨在迫使科技公司对其平台上的内容承担更大的责任。DSA的解释性备忘录虽有几次提及“算法”,但措辞谨慎,并没有过分拔高算法地位。其正文出现了3次“算法”表述:第12条要求中介服务提供者向用户提供“用于内容审核的任何政策、程序、措施和工具的信息,包括算法决策和人工审查”;第54条规定欧盟委员会及其指定的审计员或专家在现场检查期间可以要求超大型在线平台和有关主体“就其组织、运作、信息技术系统、算法、数据处理和业务行为提供解释”;第57条规定欧盟委员会可以命令相关超大型在线平台“提供对其数据库和算法的访问和相关解释”。不难看出,普通用户与算法的关联仅仅在于内容审核的算法决策信息。关于算法解释,则属于监管方与平台企业之间的关系范畴,而且属于可选项目而非强制项目。另外,普通用户非常关心的推荐系统算法问题,DSA也选择了规制产品和服务而非算法的路径。DSA第29条规定超大型在线平台应以清晰、易于获取和理解的方式,公开其推荐系统中使用的主要参数,还应提供易于操作的选择和修改推荐系统在线界面首选项功能,这些选项决定了向用户呈现的信息排序。很明显,这些规定采取的是一种事后的整体规制立场,针对的是最后呈现给用户的系统界面,而非推荐系统的算法。
从国别范围看,立法制度和政治体制的差异是造成国内误解“算法”在欧美国家具有正式法律地位的重要原因。欧美国家议会提出法案(bill)相对容易,所以有不少以“算法”为名的法案。例如美国几位众议员于2022年初向众议院提起了一份《2022年算法责任法案》。但“算法责任法案”并非该法案的正式名称,其正式全称为《用以指导联邦贸易委员会对自动化决策系统和有人工智能参与的关键决策进行影响评估以及其他相关目的的法案》。这只是一份尚未生效的法案。2019年已有议员在116届众议院提出过简称为《2019年算法责任法案》的提案。2022年的这份提案针对的对象是美国联邦贸易委员会,即便顺利通过也不是普遍适用性立法。从议案全称不难看出其拟定的规范对象是自动决策和有人工智能参与的关键决策,只是出于迎合大众、吸引关注的目的才将其简称为“算法责任法案”。整个法案除了简称的标题中出现过一次“算法的”之外,通篇再无任何“算法”表述。欧美国家的政府机构也乐于迎合民众心理出台一些以“算法”为名的文件。但这些文件基本都是以指南(Guidance)或标准(Standard)形式出现,仅具有指导意义但并无法律强制力。其调整对象也多是人工智能系统而非算法。
(二)规制失据
法律规制不仅应合理界定对象,还应建立在坚实的规范依据之上。目前对人工智能有几条主要的规范路径。一是专门立法路径。这条道路起步较晚,以欧盟AIA为代表的相关立法仍处于探索阶段,尚未形成生效立法。但专门立法必成主流趋势。二是美国式的灵活运用现有法律应对人工智能挑战的路径。美国联邦政府认为现行法律框架能够应对人工智能的挑战,而且倾向于减少监管以保证美国人工智能产业保持领先地位。三是数据法路径。欧盟在AIA这类专门立法生效前,对人工智能进行法律规制主要还是依据GDPR这类数据法规范。例如基于个人数据保护的立场对涉及高风险数据处理的人工智能进行严格规范,对自动决策和用户画像这类依托人工智能的活动的效力和范围进行合理限制。这条路径看似间接,实则具有稳固的基础。可以预见,今后大部分国家都将采取专门立法加数据法的模式规范人工智能。可见,最可靠的规制路径是数据而非算法。这也是因为算法的法律性质仍然存在很大争议。通过算法规制人工智能缺乏现实的规范基础。即便强行将算法作为规制进路,也很难逃避数据的基础地位,主要表现为以下几个方面。
第一,机器学习是算法向数据学习,数据决定了人工智能系统的质量。2020年6月杜克大学的人工智能图像修复项目PULSE因涉嫌种族歧视引发争议。有网友将美国前总统奥巴马的模糊照片用PULSE处理后生成了一张男性白人照片。深度学习先驱、图灵奖得主杨立昆认为这种系统偏差是由于数据集主要由白人照片构成导致。PULSE项目基于StyleGAN算法开发。StyleGAN的开发者撰文承认:“这种偏见很可能是从StyleGAN接受训练的数据集继承而来的……尽管可能还有我们不知道的其他因素。”PULSE项目的问题说明数据集的质量和特征在特定情形下甚至可能成为主导人工智能项目成败的因素。
第二,关于数据和问题的先验知识是影响算法的重要因素。“没有免费的午餐定理”(NFL)指出:“如果一个算法在某类问题上表现得更好,那么它会以在其他类别的问题上性能下降的形式付出代价。”NFL定理对“算法崇拜”有警示作用:在缺乏对问题的认知、数据分布完全随机且平等的情况下,任何算法的预期性能都是相似的,但如果具备关于问题和数据生成的先验知识,就可以利用它们设计出更好的算法。因此,即便要对算法进行监管,也应结合更具决定性的数据要素一并监管。
第三,数据处理不当是人工智能领域很多问题产生的根源。实践中,算法工程师有约70%以上的时间都用于数据准备工作。人工智能不少规范层面的问题都是由数据预处理(Data Preprocessing)导致。作为最常见的数据预处理工作,特征工程通常包括特征建构、特征提取、特征选择等方法。其中特征选择是最常用的技术。实施特征选择有两个主要原因:一是现实数据的属性过多,容易造成“维数灾难”;二是去除与学习任务不相关的特征可以有效降低学习难度。实践中,特征选择往往蕴含了特定的价值偏向和利益算计。对数据特征的取舍在很大程度上决定了模型的取向。另外,考虑到现实中大部分人工智能系统都采取监督学习的方案,必须依靠大量的标注数据。获取大批量高质量的标注数据需要花费大量的人力和时间。在金融、法律、医学等领域,数据标注还需要行业专家或业务人员参与才能满足需求。这在提高了数据标注成本的同时也将现实世界的偏见和错误植入系统。
第四,数据在可信人工智能(Trustworthy AI)的发展中很可能会占据比算法更为重要的位置。近年来,越来越多的学者认为人工智能的主导方向应从以模型为中心转变为以数据为中心。例如,吴恩达认为过去人工智能的主流范式是下载数据集并专注于改进代码。得益于这种范式,深度学习网络有了显著的改善。大数据与大模型作为深度学习引擎已经成功运行多年且仍具有活力。但在某些场景下大数据并不适用,高质量的小规模数据才是更好的解决方案。以数据为中心的人工智能基于给定的标准模型开发平台,侧重于可通过数据清洗、筛选、标注、增强等过程来系统地改进数据,进而提升人工智能系统的性能和可信性。可信人工智能的发展当然离不开算法和模型的可靠性、透明性的提升。然而,在模型架构已基本固定、改善空间有限的情况下,数据改善的价值就更加凸显。虽然关于未来人工智能到底是继续延续大数据加大模型的范式,还是转向以数据为中心的范式仍有争议,但数据在可信人工智能建设中发挥更大作用的可能性很大。规制对象的发展趋势是规制政策制订的重要依据。法律界有必要紧密关注以数据为中心的人工智能发展走向。
基于以上考虑,数据的收集、储存和处理应是人工智能法律规制的关键问题。个人数据保护以及数据法制经过多年发展已经形成了相对成熟的规范体系和规制架构。只要抓住数据这个关键,人工智能法律规制可收到事半功倍的效果。相反,紧盯中性的算法,不仅缺乏规范依据,规制效果也很难得到提升。
(三)规制失鹄
成功的法律规制以目标的清晰和现实为前提。当前对人工智能进行法律规制必须兼顾权利、产业、科技三个方面的目标。三类目标很难进行价值排序,也不存在先天互斥的关系。只要规制路径设置得当,完全可以兼顾。但若将算法作为人工智能规制的重点,对三种目标来说都是不利的。
首先,过度强调算法不利于准确把握人工智能系统对人的尊严和权利的影响,还可能给相关主体卸责带来可乘之机。人工智能系统充斥着大量来自人类的决策、干预和管理。让人负起责任是人工智能规制的恰当途径。过度强调算法,容易走入“见物不见人”的盲区,忽视相关主体的法律责任,不利于权利的切实保护。以专家系统(Expert System)这类被广泛应用的传统人工智能为例,我们不难看出人类因素的重要性。专家系统适合处理那些依靠传统编程无法有效解决、偏重于运用不确定和不精确的启发式知识且需要人类专家有效参与的领域。算法在专家系统中并不是那么重要。专家系统并不按特定的步骤序列执行,且允许不精确的推理,也能处理不完整和不确定的模糊数据。专家系统的偏差主要是因为人类设定的目标和参与专家的判断失误导致。机器学习类的人工智能项目同样需要从目标设定、数据预处理到训练中的超参数调整以及系统维护等全过程的人为参与。基于这种认识,欧盟GDPR第13条至第15条基于个人数据保护权对自动决策进行限制,文本中完全没有提及算法,而是着重强调了数据控制者应向数据主体提供相关信息,尤其是数据处理的相关逻辑、包括相关处理对于数据主体的预期后果的有效信息。此处的相关逻辑绝不仅指算法,而是与自动决策处理数据相关的一切信息。此外,GDPR第22条规定数据主体有反对单纯自动化决策的权利,也是在强调机器之外人的责任。只有在以人的责任为基础的人工智能系统中,算法才能得到真正有效地规制。
其次,过度强调算法监管不利于人工智能产业发展。如前文所述,人工智能项目的实际研发往往需要尝试多种算法以寻求最佳模型,实际部署后仍有可能进行多次算法调整。算法备案、算法审计、算法解释等合规义务对处于探索期的产业级人工智能项目是非常沉重的成本。这不仅可能延长研发周期,还存在一定商业秘密泄露风险。大型企业或超大型平台具有成熟的合规部门还可应对自如,中小企业和初创企业面对这类监管门槛则会步履维艰。如果不区分企业规模,一味强调算法监管,不利于人工智能产业的自由竞争和良性发展。
最后,过度强调算法监管不利于科技发展。科技并非独立的现象,而是与众多因素息息相关。当前人工智能的发展高度依赖大数据和强算力。前沿性大型人工智能项目往往由大企业联合高校和研究机构进行开发。过度干预算法这类技术细节,容易造成连锁反应,最终影响科学研究。
(四)规制失度
规制方式和强度的选择与对现实的判断紧密相关。过度监管往往是由于判断错误导致。从远景来看,“随着算法社会的来临,人类正将决策权逐渐让渡给算法接管”的情况有可能发生。但迄今为止,大部分国家仅是部分进入“信息社会”,“算法社会”仍然只是比喻性说法。作为人工智能的组件,算法本身并没有决策能力,人类也不可能将决策权全面交给人工智能。社会对算法和人工智能的功能和形态存在模糊认知和夸张误读。这造成了对人工智能的过度心理防御,加上对算法的认知偏差,可能导致对算法的过度监管。实际上,“人工智能的能力被过分夸大了。现阶段,大多数深度学习系统都部署在一个非常受控的环境中,并给出了有限的决策边界”。人工智能并不是一种新技术,包括专家系统的各类人工智能系统早已广泛运用,且一直处于受控状态。由于大数据和算力提升,人工智能技术在近年得到井喷式发展,在成为重要产业的同时对人们的影响也不断增强。传统规制模式需要调整,但规制升级不应该是简单地加大力度,而应综合实际情况和对未来趋势的判断,谨慎选择规制路径和监管力度。
从客观层面看,将算法作为核心,容易过早介入,过深干预。在机器学习中,算法并不是人工智能的最终形态。对算法进行全面监管,就要对人工智能研发、调试、运行过程中所有的算法都进行调控。这明显是过深介入了本属技术层次的活动。另外,用户接触的是被产品化和优化的模型,而不是用以求解模型的算法。从可能投入的规制资源以及规制效率的角度出发,即便要对过程监管,也应基于结果对过程的回溯式调控,而不应过分关注某种过程要素。毕竟算法也仅仅是人工智能系统研发和部署过程中诸多要素之一。过分夸大算法风险,过度强调事前规制,无疑会给人工智能产业发展带来更大的研发、部署、合规成本。
从主观层面看,过分强调算法,过早介入调控也不利于打消对算法的疑虑。有研究表明,如果存在影响算法输出的可能性,普通用户会更乐于接受在他们眼里并不完美的算法结果。修改算法输出的机会比影响算法输入更能有效地减少算法厌恶。普通人对人工智能系统的技术细节没有能力也没有兴趣深入了解。只要能对人工智能系统的输出产生影响,自主调整人工智能服务的相关参数和选项,人们对算法和人工智能的厌恶就会得到很大程度的缓解。可信人工智能的建设在增强人们信任的同时也应注意调控力度,以期创造利于人工智能健康发展的环境。
三、我国算法治理需妥善处理三种关系
2021年我国相继出台了《关于加强互联网信息服务算法综合治理的指导意见》(以下简称:《意见》)和《互联网信息服务算法推荐管理规定》(以下简称:《规定》)。这两份文件提出的算法治理思路具有明显的创新性。有学者敏锐地指出:“在世界范围内,这都是从未有过的尝试。在未知领域的探索,往往‘道以多歧亡羊’。”我国算法治理可谓敢为天下先,但其中也存在一定风险。有三个方面的关系尤需妥善处理。
(一)当下与未来
按照《意见》计划,我国将“利用三年左右时间,逐步建立治理机制健全、监管体系完善、算法生态规范的算法安全综合治理格局”。发展眼光在人工智能规制领域特别重要。例如,在2019年根据当时情况认定“并不存在关于人工智能的一般化的法律规制”是没有问题的。但2021年4月欧盟推出AIA后,人工智能法律规制的格局发生了重大变化。我国未来应该也会走向专门人工智能立法的道路。这不仅是全球人工智能治理大势所趋,也符合系统治理的规律。因此,有必要认真思考当前算法治理框架与未来人工智能法律规制架构的关系。
从立法的一般规律来看,当前正在开展的算法治理作为一种有益探索,其很大一部分内容和经验会被吸收到将来的人工智能立法之中。但既然是探索,就不宜过分突进,否则容易走入“过拟合”(over fitting)的尴尬境地。“过拟合”是指模型在训练数据集上表现很好,但在测试数据集和真实数据上表现不好。出现过拟合的主要原因在于模型把样本数据的个别特点当成了一般规律。当法律把人工智能的问题过度归因于算法,循此路径形成的法律规制模式可能在与算法紧密相关的问题上表现不错,但对人工智能这个真实的问题域却没有很好的规范能力。因此,算法治理应留有余地,为人工智能法律规制留出充足的制度建构空间。
一方面,从术语使用角度看,出于习惯和方便,当前仍然可以相对模糊地使用“算法”术语。甚至可以借鉴美国《算法责任法案》的做法,在使用正式和准确法律描述的同时,将“算法”作为文件的简称或代称。这样不仅有利于吸引公众注意力,也能够更好地兼顾法律术语的严谨性。但另一方面,在描述欧盟和美国人工智能治理现象时应尊重客观事实,尤其是欧盟人工智能立法实际上采取狭义算法立场的事实,不宜进行过分宽泛模糊的描述。这样不利于我们分析和借鉴域外经验。出于路径依赖的考虑,我国人工智能立法的关键术语可能会保持自身特色,但算法治理的相关表述和机制设计可以更有预见性地考虑与未来立法的协调问题。
(二)名义与实质
《规定》中提出的算法治理模式的名义与实质需要进一步厘清。从文件名称看,《规定》规制的似乎是“算法推荐管理”或“算法”,但其真正的对象应是“算法推荐服务”。《规定》中设置的大部分义务都针对“服务”而非“算法”。此外,《规定》的调整类型范围包括“生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等”,几乎覆盖了用户日常接触的主流的互联网服务类型。看似我国已经通过算法治理全面调控人工智能。
然而,《规定》在实质层面并没有提供全面的算法治理和人工智能规制框架。目前我国人工智能规制主要由几个部委共同推进。国家互联网信息办公室主导信息内容领域人工智能监管,规制各种信息内容风险;工业和信息化部主导人工智能国家战略和行动方案,以促进和培育壮大产业发展,平衡创新与治理安全;科学技术部侧重于伦理准则层面的人工智能治理,推动科技企业建立内部审查机制。此外,中国人民银行、国家卫生健康委员会、人力资源和社会保障部在各自领域出台相关文件,重点解决本领域算法的可解释性和透明性问题。很明显,《规定》的性质仍然是基于内容的治理,其目的在于引导算法推荐活动“向上向善”,防止算法推荐活动不合理应用带来的各种问题,尤其是防止相关服务影响正常的传播、市场和社会秩序,危害意识形态安全和社会公平公正,避免损害公民合法权益等。《规定》设定的治理框架具有明显的阶段和范围限定。因此,不宜将《规定》理解为全面的算法治理框架,更不能将其视为完整的人工智能规制架构。
(三)规范与发展
经过一段缺乏规范的“野蛮生长”后,互联网服务和人工智能产业滋生了各种弊端,亟需规制。但合理的规制应注意平衡规范与发展的目标,尤其应当注意保护相关产业健康发展。目前我国人工智能产业规制已有比欧美更加严格的发展趋势。
以算法备案义务为例,国内有研究者认为欧盟AIA对高风险人工智能规定了算法备案义务。但仅从文本来看,这种义务似乎并不存在。AIA第51条规定高风险人工智能应用在投放市场或投入使用之前,其提供者或授权代表应在欧盟数据库中登记附件八要求的信息,且登记信息需向公众开放。附件八规定的登记信息共包括12类,全是诸如“提供商的名称地址和联系方式、人工智能系统预期目的描述、人工智能系统状态(是否处于服务状态)”等一般信息。如果不把“人工智能系统”等同于“算法”,那么AIA确实没有规定强制性的算法备案义务。然而,《规定》第24条要求具有舆论属性或者社会动员能力的算法推荐服务提供者应当在提供服务之日起10个工作日内,通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息,履行备案手续。很明显,这是一种没有区分项目风险等级的强制性算法备案义务。
2019年美国政府发布名为《保持美国在人工智能领域的领导地位》的行政令,2020年公布《人工智能应用规范指南》。这两份文件奠定了弱化监管以加强美国全球领导地位的总基调。美国人工智能产业领先优势有扩大趋势,这与其宽松的规制政策关系紧密。当前国际竞争加剧,如果我们在规制领域作茧自缚,很可能将在未来竞争中处于劣势。在人工智能法律规制框架方面,我国可以多借鉴欧盟,尤其是AIA的规范内容。但这种借鉴必须伴随清醒的产业发展意识,尤其应当避免不自觉地照搬欧盟针对美国巨头企业的严厉规制手段。由于过分细致的规制对象会对产业进程造成实质介入与干扰,欧美目前都未对算法技术进行专门规范。这一现象值得我国各界深思。面对严峻的国际竞争环境和复杂的国内经济态势,我们确实需要警惕过度监管的负面影响。
四、准确的算法认知是改善算法治理现状的重要前提
随着《意见》和《规定》的颁布,我国在2022年进行了算法备案公示工作并已取得初步成效。但30份算法公示报告也反映出《规定》及备案实践仍然存在一些明显的不足。不同的算法认知会对这些不足形成不同的解释和解决方案。以下将对备案和公示的主要问题进行简要分析,并指出对算法的恰当认知是理解和妥善解决这些问题的重要前提。
(一)备案和公示的基本情况
2022年8月,国家互联网信息办公室发布了《关于发布互联网信息服务算法备案信息的公告》及其附件《境内互联网信息服务算法备案清单》(2022年8月)。首批备案的共有24家企业的30种算法,涵盖阿里巴巴、腾讯、百度、网易、美团、快手、微博、字节跳动、小米等多家大型互联网企业,应用类型涉及APP、网站和小程序。从算法类型上看,有17种个性化推送类,4种检索过滤类,4种排序精选类、3种调度决策类和2种生成合成类。首批算法备案在监管范围、应用场景和算法类型方面都有较好的覆盖度。
(二)备案和公示的问题分析
1.公示信息质量
算法公示不可能呈现所有算法技术和部署实施细节。正如有学者指出:“算法透明并不要求算法源代码的公开,仅要求对算法基本原理、主要运行机制的公示。通过算法透明,可有效发挥公众监督、行业监督和政府监管的效力。”现行公示内容分为算法基本原理、算法运行机制、算法应用场景、算法目的意图和算法公示情况五个版块。其中最重要的无疑是基本原理和运行机制。但30份公示文档公示的信息质量堪忧。例如凤凰网公示的算法原理是:“凤凰网个性化推荐算法使用深度神经网络,根据用户的行为历史数据加以训练和计算,发掘出用户可能的兴趣并推荐感兴趣的内容,提高用户体验。”60余字的常识叙述包含的有效信息很少。新浪网公示的算法原理则是:“使用基于snvd日志、apache日志、画像团队offline特征日志、nlp/cv内容理解特征日志和推荐引擎snapshot日志数据生产的特征样本,利用画像召回模型、协同召回模型、双塔召回模型和deepfm模型等多种模型,根据ctr、时长、互动等多个目标进行模型训练,通过tf-serving服务进行部署,实现针对app用户的实时新闻个性化推荐功能。”通篇使用抽象技术语言,完全脱离普通人的知识和认知,实际上也没有提供任何有效信息。用户和公众很难根据公示信息加深对相关算法推荐服务的理解,遑论进行监督和保护权益。
2.算法分类框架
《规定》将算法推荐技术分为生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类五个类别。百度对其备案的三种算法的描述分别为“百度信息检索算法”“百度热搜榜排序精选算法”“百度内容安全算法”。在官方公告中将百度备案的内容安全和信息检索算法都归为“检索过滤类”。但从目标、性质和信息流向来看,这两类算法其实有很大区别。内容安全算法的目标在于“防范和抵制违法信息及不良信息的发布及传播”;其应用性质是一种内容审核机制;信息流向是从用户到互联网。这些特征明显不同于用户从互联网获取信息的检索类算法。企业基于现实没有严格依据现有分类体系对其算法进行描述。《规定》“削足适履式”的强行归类反而揭示了依据刚性分类对算法进行监管存在困难。
3.风险描述方法
《规定》中依据服务类型的分类体系明显不同于欧盟基于风险分级的体系。欧盟强调系统性地进行风险评估,对高风险应用重点监管,对中低风险应用则采取宽松规制。综合AIA第6条、第7条以及附件三文本可知,欧盟主要依据两个标准识别高风险。一是应用领域,包括如下8个领域:自然人的生物识别和分类,关键基础设施的管理和运营,教育和职业培训,就业、用工管理和自营职业机会,获得和享受基本的私人服务和公共服务及福利,执法,移民、庇护和边境管制管理,司法和民主进程。二是存在危害健康和安全的风险,或对基本权利造成不利影响的风险,而且其严重性和可能性等于或大于附件三中提到的8个领域的高风险人工智能系统所构成的危害或不利影响风险。不难看出,欧盟对高风险人工智能系统的界定兼顾了公共利益与个体权益。《规定》中“具有舆论属性或者社会动员能力”这个分类在功能上大致等同于欧盟的高风险标准。只有具备这种能力的算法推荐服务才需要进行包括备案公示在内的重点监管。但这种高风险是从特定公共利益角度进行描述,淡化了对用户权益的风险描述,而且也没有覆盖常见的高风险领域。
4.规制对象设定
《规定》第17条要求:“算法推荐服务提供者应当向用户提供不针对其个人特征的选项,或者向用户提供便捷的关闭算法推荐服务的选项。用户选择关闭算法推荐服务的,算法推荐服务提供者应当立即停止提供相关服务。”但在以算法为规制对象的情况下,这种要求很难做到。例如,美团仅备案公示了配送调度决策类算法。但普通用户使用美团APP首先涉及个性化推送类、排序精选类算法。如果进行商品和服务查询,还涉及检索过滤类算法。这些算法无疑与个人特征紧密相关,但在APP界面上并无便捷的关闭算法推荐服务的选项。这可能是因为相关要求还需时间逐步落实。但更重要的原因是对美团提供的服务而言,这几类算法是紧密关联和互相支撑的,很难单独剥离并关闭某项服务而不影响整体服务。这种状况凸显了以算法而不以人工智能系统为规制对象的缺陷。
(三)基于准确算法认知的算法治理优化方案
当前算法治理的不足很难通过局部和短期调整得到根治,只有在准确的算法认知指导下,综合考虑当下与未来、名义与实质、规范与发展这几对关系,通过稳妥规划和谨慎实施方可得到妥善解决。
首先,从提高公示信息质量角度出发,可基于不同的算法认知采用不同的解释和改善方案。一种方案是制订一个更具刚性的公示内容和质量要求。但算法推荐服务的情况千差万别,技术和市场瞬息万变,过于细致和具体的算法原理和机制展示会对企业施加过重义务。然而,即便在新浪网那样的技术性描述基础上,使用了普及性、符合大众知识背景的描述性说明,用户和公众仍然可能无法真正理解算法的原理和机制。目前算法公示信息的性质大致相当于前文所述的欧盟AIA规定的高风险人工智能系统登记信息。这类登记内容只能提供一些基础性和背景性的信息。如果采取严格的算法概念,现有公示内容并不是真正的算法原理和机制。真正的算法原理和运行机制对普通大众的意义不大。我们宜回归现实,正视名义与实质的偏离,采取另一种方案,即将公示内容定性或更名为人工智能系统或服务(产品)系统的一般信息。而对高风险服务(产品)和巨头企业服务(产品)信息,则可由监管部门根据需要向相关企业和主体进行索取并要求相应解释。这也是目前欧盟在DSA和DMA中采取的策略。
其次,为减少因算法分类和分级的不足带来的隐患,应防止过深介入治理对象。人工智能的研究和产业仍处于高速发展之中。对这类规制对象,最好不要过分干预技术细节,而应该采取更具弹性的规制方法。《规定》关于算法的分类虽然可以覆盖大部分应用和产品的情况,但也有明显的不足。对此,可以采取灵活介入的方式进行解决。主管部门完全可以利用规定中五类算法后的“等”字,更具弹性地适时更新分类体系。不过,更明智的解决方案是正视规范与发展的关系,不必过细规定算法类型,而是将服务(产品)的风险等级作为主要考量因素。对中低风险的服务(产品)宽松规制,将治理重点集中于对公共利益和个人权利影响较大的高风险服务(产品)。此外,完全可以借鉴欧盟通过应用领域确定风险程度的做法,对人工智能服务(产品)进行更为细致的风险分级描述。这种做法更符合风险治理和系统治理的理念,也更有益于保护公共利益和个人权利。
最后,为妥善解决规制对象缺乏系统性的问题,可从当下与未来的角度加以思考。实际上,这种问题是将作为组件的算法等同于人工智能系统所致。尽管当前重点治理算法有一定的合理性,但从长远来看,还是应该将人工智能系统作为规制对象。算法治理应具备未来视角,在未来人工智能专门立法的格局下审视和调整当前措施。否则算法治理的局限性很难破解,相关治理措施很难收到实效,用户和大众的权益也很难得到切实保障。
五、结语
从1956年达特茅斯会议至今,人工智能经历了几起几落,每一次衰落都是源于高峰期的承诺无法兑现。机器学习是本轮人工智能高潮的主力,围绕其产生的各种浮夸宣传甚嚣尘上。与此同时,在复杂系统中,法律的真实含义与字面含义之间的差异也难以辨识。法律在技术性的、复杂的、非线性的环境中更容易受人操控。法律界应充分认识到未来的不确定性与复杂性,冷静观察人工智能的发展动向,尽量不要仓促做出简单结论。尤其需要认真思考法律与人工智能之间多维多变的复杂关系。不宜采用还原论的思维方式,将人工智能问题化约为算法问题。相反,应该扩大视野,考虑到复杂现实,从产业、经济、社会发展等角度综合分析、谨慎处理人工智能的法律规制问题。人工智能已经成为深度影响人类生活的要素。不仅普通人不知所措,法学界也有才短思涩之感,于是才会出现对算法的认知偏差。但法律是社会变革的稳定舵。面对人工智能带来的规范层面的挑战,法律界应主动排除认知偏差干扰,客观理性分析相关现象,找出稳健有效的法律规制路径。