高级检索

学术资源

行政法学

当前位置: 首页 -> 学术资源 -> 行政法学前沿 -> 行政法学 -> 正文

汪庆华:算法透明的多重维度和算法问责

信息来源:《比较法研究》2020年第6期 发布日期:2021-02-24

【摘 要】 随着算法在社会经济中的广泛应用,算法如何向公众负责成为一个重要的法律议题。在算法引发的偏见、歧视和支配的讨论中,平等保护、正当程序和反不正当竞争机制将发挥重要的作用。作为算法规制的一般化原则,算法透明是实现算法问责的重要机制。我国《个人信息保护法(草案)》明确了算法自动化决策的透明度要求。就具体规制手段而言,算法透明包含着从告知义务、向主管部门报备参数、向社会公开参数、存档数据和公开源代码等不同形式,算法解释权也可以看成是算法透明原则的具体化体现。算法透明的目标在于化解人类对算法决策可能失控的风险的忧虑。算法监管需要将事前监管和事后监管结合起来,在事前监管中建立算法透明原则,监管强度需结合场景和目标,对现有算法引发的消费者保护、中小商户利益、公众知情权等问题进行有针对性的回应,基于比例原则,选择适当的透明化义务,通过多重维度的算法透明机制的构建实现算法问责。

【关键词】算法透明;报备参数;影响性评估;算法问责


算法已经广泛应用于社会的各个场景。平台利用算法对用户进行个性化推荐,警察运用算法预测某一地区犯罪的情形以决定警力配置,社会福利部门利用算法决定申请者能否获得失业补助,人事部门利用自动化程序对申请户籍的人进行审批,法院利用算法辅助量刑和作出假释决定。无论是商业运用还是政府决策、辅助司法,算法已经成为市场、政府之外的重要的泛在性技术力量。算法是技术理性的象征,它在社会中的广泛应用带来了自由意志和正义等具有主体性色彩的价值之间的紧张。


一、算法的运用与规制


算法可能的误用和滥用引发了规制的呼声和行动,而算法在政府自动化决策中的系统性失误直接引发了相关的诉讼。2019年,格兰特×包瑟曼(Grant Bauserman)、卡尔×威廉姆斯( Karl Williams)和泰迪×博尔(Teddy Bore)在密歇根法院提起了对该州失业保险局的集团诉讼,他们主张,在利奇×施耐德(Rich Snyder)州长任期内,利用密歇根融合数据自动化系统(Michagan Integrated Data Automated System, MIDAS)对申请失业补贴进行审核,由算法决定申请者是否欺诈,并施加处罚。这是一个自动化行政裁决的程序。

最后发现,这套系统存在着93%的出错率,40000人受害。澳大利亚社会保障部的智能催债(Robo-Debt)系统Centrelink发生了几乎类似的算法裁决错误,成千上万的福利申请者收到了Centrelink系统的邮件,要求他们证明未冒用资格获得社会福利,该系统存在20%的错误率,收件人或者根本没有获得过社会福利或者政府求偿数额超过当事人应当给付的。这一自动化算法受到了激烈的批评,国会工作小组建议暂停这一系统的使用。

密歇根融合数据自动化系统以及Centrelink的重大缺陷直接向我们呈现了算法裁决错误给民众社会福利权带来的系统性侵害。心理学研究表明,人类在面对计算机给出的正确解决方案的时候倾向于无视或不去搜索相反的信息,人类一般不太愿意偏离或者质疑算法形成的结果。这一人机互动形成的对自动化/算法的过度依赖被称之为自动化偏见,人类对计算机系统有一种过度的信任,在面对自动化形成的解决方案时往往无视那些和其方案相矛盾的信息,一般更不会去搜索和它相反的信息。

所以,在这两套系统最初出现错误,民众对错误反馈的时候,算法的运营者对这类信息基本采取无视的态度。除了官僚体制的惯性之外,对自动化决策的过度信赖也难辞其咎。算法决策日益普及,这将会带来行政程序的结构性调整。现有的法律规制框架应当确保受到算法决策影响的人能够理解和挑战这些决定。

在系统性风险之外,算法的应用还会带来算法歧视、算法支配以及算法黑箱的问题。数据本身反映了社会的现实状况、人民的心理和社会的偏见。数据驱动的算法/人工智能将会重复、再现乃至强化数据中的偏见。算法所利用的数据中隐含的偏见问题是一个社会事实。偏见进,必然是偏见出。输入的数据暗含偏见、测度偏差、变量不足以及不适当的标准等原因都有可能导致数据挖掘和算法带来对特定群体的不利影响。

弗吉尼亚×尤班克斯(Virginia Eubanks)在《自动化不平等》中指出,当大数据分析和算法应用于穷人和工人阶层的时候,数据和算法机制带来现状的自然演化,而非革命性变革,它进一步强化和延续了近代的济贫措施中的道德主义倾向和惩罚性后果。另外,算法也因为受众群体在性别、年龄、肤色、地域等问题上而产生不同的影响,带来差异性的后果,乃至直接的歧视;无论社会事实还是差异性后果都可以运用平等保护的原则和理论进行回应。

就算法支配而言,其可以分成两个层面:公民个体层面,应当以技术性正当法律程序去建构算法救济机制,用户在算法规制之外,应当有接近司法/正义的机会。任何一种决策机制,当它对相对人的权利义务造成直接影响的时候,赋予其救济的权利、听取其意见和陈述是正当法律程序最基本的要求。我们很难将算法本身界定为正当程序,将算法界定成正当程序是误会了正当程序本身和正当程序需要规制的对象。监管者执法是市场秩序维护的一种常规手段,或者说在某些行为具有外部性时进行干涉的手段。更为重要的机制,仍然应当放在对消费者/用户/公民个体行为的激励上。

在企业层面,如果算法改变了市场结构、损害消费者福利,这将引发反不正当竞争乃至反垄断的执法。平台企业利用算法完善定价模型、优化客户服务以及预测市场发展趋势。算法合谋成为监管者关注的现象,2017年OECD《算法与合谋:数字时代的竞争政策》报告中指出,因为算法的迅速发展,竞争对手之间可以即时互动、利用代码作为媒介,达成共同目标。

数字经济环境下,协议的概念应和传统的协议有所差别。2020年11月10日,国家市场监督管理总局公布的《关于平台经济领域的反垄断指南(征求意见稿)》针对平台经济的业务模式特点,细化了横向垄断协议和纵向垄断协议的概念,对滥用数据优势、算法合谋和轴辐协议进行了直接的规制。平台规则、数据和算法成为平台经济反垄断的重要考量因素。

算法黑箱这一隐喻对算法监管的影响非常关键。黑箱的隐喻表达了由于算法不透明而引发人类失去对决策过程控制这一风险的担忧。人类将影响自身权利义务的决策赋予了自己无从理解的黑盒子,这似乎意味着算法透明的困难乃至不可能。算法黑箱输出的结果就成为不可避免的事情,就像自然界的力量一样,只能被驯服,无法被控制。算法面纱也许是一个比算法黑箱更为合适的隐喻,将自动化决策背后的人类决定和价值判断披上了一层面纱。面纱的好处是它邀请人类随时把面纱揭开来,从而露出算法的真实面貌。

目前存在着算法透明的不同立场,有观点认为,算法透明是一种迷思,是法律人对技术不理解情况下的一种遐想,应当放弃算法透明的追求。反对算法透明,一般不外乎下面三个理由:算法透明不可能,算法透明无意义以及算法透明损害相关的利益。

对这三个理由的直接回应就是,不同程度的算法透明具有不同的意涵,从算法运用的告知义务、报备参数、公开参数到公开源代码,算法透明不仅可能而且可行;算法透明对于用户/公民的知情权以及其他权利的保障具有实质性意义;算法透明本身就是在公民和企业,以及公民和国家直接对失衡的天平的校正机制,算法透明的程度要求是在比例原则下作出。算法透明是实现算法问责的重要机制。正由于算法无法将环境的整体性作为决定的基础,而只能“看到”之前人类编程让它们看到的东西。算法无法将输入之外的信息作为其决策的依据。所以,算法透明机制显得愈发重要。

综合而言,算法透明仍然是法律回应的各种路径当中最直接、有效和恰当的方式。本文结合我国和欧盟在关于算法方面立法的情形,进行一个类型化的分析,由表及里,并结合这些透明性规则的实施效果,提出有关算法透明性规制进路、实施机制和救济机制的框架性主张。2020年10月21日全国人大常委会公布的《个人信息保护法(草案)》规定了自动化决策的透明度要求以及处理结果公平合理。这是我国在立法中对算法透明原则的确认,将对算法秩序的形成,数字正义的实现起到基础规范作用。算法透明包括两个面向,即对政府披露和向公众披露。算法透明具体包含着从告知义务、向主管部门报备参数、向社会公开参数、存档数据和公开源代码等不同形式,算法解释权也可以看成是算法透明原则的具体化体现。


二、算法部署的披露义务


在数字经济背景下,平台基于信息优势,借助用户画像, 对消费者实行差别化定价,最大程度地获取消费者剩余,从而可能会由于价格歧视而侵犯消费者权利。我国现行立法对此进行了相应的规制。《中华人民共和国电子商务法》(以下简称《电子商务法》)对平台利用大数据分析和算法技术进行个性化推荐的实践予以限定,明确电子商务经营者根据消费者的兴趣爱好、消费习惯等特征提供商品或者服务的搜索结果,需要同时向该消费者提供不针对其个人特征的选项。

我国文化和旅游部2020年7月20日发布的《在线旅游经营服务管理暂行规定》第15条对在线旅游平台的大数据杀熟行为进行了具体化的规制。该条规定,在线旅游经营者不得滥用大数据分析等技术手段,基于旅游者消费记录、旅游偏好等设置不公平的交易条件,侵犯旅游者权益。这两部立法层级各异、调整对象也有差异,但它们都反映了规制者对于算法技术向平台公司集中带来的企业滥用技术和数据优势的担忧及回应。

电子商务经营者基于消费者的消费行为记录、移动设备位置信息、计算机类型、拥有或使用过的设备、对相应商品和服务的偏好、用户信息和消费历史,将这些信息与物联网数据进行融合,比如汽车、打印机、健身器材、医疗器械中输出的信息,对用户的支付能力和意愿进行建模和预测,进行精准画像,推送广告、商品和服务,这是互联网企业的主要商业模式,但这一基于用户画像的商业模式也存在极大的滥用风险。如果平台基于占有的用户个人数据,利用双方高度的信息不对称,对用户进行价格歧视,将会损害用户的权益。

研究表明,尽管企业利用大数据和算法实现完美价格歧视有一定困难,比如存在数据的有限性,算法理性和人的非理性以及样本规模局限,平台仍然可以采用价格操纵、不完美意志力以及提升产品复杂性等方法采取近乎完美行为歧视。基于此,《电子商务法》对平台的算法这一技术性对象进行了事先规制,要求提供非个人画像的选项。从个人信息权的角度看,这个条款体现了用户在电子商务中免于自动化决策的权利。

国家互联网办公室2019年12月15日发布的《网络信息生态内容治理规定》第12条规定,网络信息内容平台运用个性化算法推荐技术推送信息的,应当设置符合本规定相关内容要求的推荐模型,建立健全人工干预和用户自主选择机制。这一条款和《电子商务法》第18条类似,赋予用户个性化推荐的退出权,接近免于自动化处理的权利。同时,对人机关系进行了相应的引导,强化人工的介入。

《电子商务法》规定,电商平台经营者应当根据商品或服务的价格、销量、信用等多种方式向消费者显示商品或服务的搜索结果;对于竞价排名的商品或服务,应当显著标明“广告”;违反标示义务的,依照《广告法》规定进行处罚。有学者将这一条款的前半部分概括为搜索结果的自然展示义务,价格、销量具有客观的色彩,它们似乎是很少受到人为的干预。但是,刷单炒信的普遍存在,实际上使得信用作为参数并不像我们想象的那么客观。

该条款的后半部分则是算法透明的一种最简单的要求,当商品或服务的排名是竞价的结果时,这意味着排名本身已经受到支付能力的影响,更不是自然展示的结果,为保护消费者的权利,立法者从消费者知情权的立场出发,对电商平台的垂直搜索课加了一种公开的义务。这是一种最低程度的透明度要求。这一义务和证券法上的信息披露义务相类似。法律设定这一义务的目的在于打破算法决策的秘密性,使得消费者知道其获取的信息是由算法形成的。

《电子商务法》大数据杀熟和搜索结果自然展示义务这两个条款在制定的时候具有一定的前瞻性,对算法进行了初步的回应。但这一事先规制只是披露了算法自动化决策的存在,并没有披露算法模型运行本身。这些条款并没有明确算法学习和决策过程中的监管方式,特别是在机器学习算法的规制上具有相当的局限性。但直接介入技术内部的监管进路在当前阶段稍显激进,在监管强度和密度上需要考虑数字经济的发展、算法技术的创新以及现有的监管能力。

欧盟要求互联网平台披露参数实质性,这一做法提高了透明化的水平,相较于目前电商法的监管模式更具实际意义。与深入算法技术内部的监管相比,对企业而言,更少侵入性,则更具可行性。此外,《个人信息保护法(草案)》明确规定,在公共场所安装图像采集、个人身份识别设备,需要满足三个要件:为了维护公共安全这一公共利益所必须,符合正当法律程序,同时要进行显著标示。显著标识的义务可以看成是人脸识别和算法部署的具有一般化效果的透明度要求,对于人脸识别技术的滥用有一定的防范作用。


三、参数规制和算法解释权


目前的立法已经就参数规制形成了两种模式:向行政机关报备和向社会公众披露。相比于向社会公众披露,向行政机关报备的模式能够兼顾商业利益与公众保护之间的平衡,竞争性的利益相对而言可以获得更好的保护。机器算法在金融、医疗卫生、食品药品等事关经济秩序、民众健康和社会稳定的行业得到越来越多的运用,在这些领域向主管机关报备参数不失为提升算法透明度的举措。

(一)向行政主管部门报备参数

2018年3月28日,中国人民银行、中国银行保险监督管理委员会、中国证券监督管理委员会、国家外汇管理局联合发布了《关于规范金融机构资产管理业务的指导意见》(以下简称《资管新规》)。该指导意见对人工智能在金融领域的应用进行了规制,从胜任性要求、投资者适当性以及透明披露等方面对智能投顾中的算法进行穿透式监管。

《资管新规》明确规定,运用人工智能技术开展投资顾问业务应当取得投资顾问资质。金融机构运用人工智能技术开展资产管理业务除了要遵守投资者适当性、信息披露、风险隔离等一般性规定外,金融机构还应当向金融监督管理部门报备人工智能模型的主要参数以及资产配置的主要逻辑。报备智能投顾模型的主要参数意味着算法黑箱的打开,算法透明得到了一定程度的贯彻。《资管新规》还要求在智能模型缺陷或者羊群效应的背景下,金融机构必须进行人工介入。无论《资管新规》还是《网络信息生态内容治理规定》关于人机关系的规定体现了一个重要的立法思路,即在特定情形下,人工对于算法/人工智能的介入/接管成为处理人机关系的一个重要准则。

自动化决策并不意味着算法替代了人,它只是改变了人工作的方式。设计者和工程师需要充分意识到,自动化决策不仅是一个技术问题,同时也是具有社会、伦理和法律后果的行为。这意味着自动化决策需要有伦理面向的考量。设计者在设计系统的时候必须要考虑自动化的程度,以及何时需要人工介入。对于封闭状态下无需灵活性的任务,系统性失灵的可能性较小时,可以实行完全的自动化,而对于动态环境下外在条件和约束明显,高度自动化可能就不是那么明智。在自动化程度这一因素之外,为实现价值导向,设计者需要将设计阶段的价值判断以可以理解的方式记录下来并方便后来的审查。算法规制应当随算法技术的迭代而升级,算法的设计、部署和运行都应当要贯彻透明原则的要求;应当将透明原则引入算法的设计和训练阶段,因为算法最初的价值设定对于算法结果有决定性的影响。

(二)向社会公众披露参数并说明理由

《电子商务法》规定不得利用技术优势排除或限制竞争,对二选一的行为进行了明确的禁止。在每年双十一大促销的时候,都会爆出很多企业强制二选一,平台可以利用技术优势对商家采取搜索降序、直接屏蔽等措施。商家在很大程度上依赖电商平台。对此,大部分的商家无法和平台进行平等对话,只能默默忍受这样不太合理的交易条件。由于商户在举证上的困难以及与该条款相对应的责任条款无法对违法者的行为形成有效的威慑,该条款在实施中并没有达到立法者预期的效果。

就法律关系的调整而言,电子商务法的重心一方面在平台和消费者之间的关系,另一方面在平台和平台内商户的关系的透明化,并且,以透明化促进公平性也是算法规制的重要目标。欧盟2019年6月19日通过的《平台和商户间公平性和透明度法》第5条的规定和我国《电子商务法》第35条的规定非常接近。就其规定的形式而言,是通过规制搜索算法的参数,要求向公众披露参数来实现对平台权力的有效规制。

《平台和商户间公平性和透明度法》第5条规定:“线上中介服务提供商应在其条款中列出决定排名的主要参数以及这些主要参数相对于其他参数的相对重要的理由。

1)在线搜索引擎的提供商应在其在线搜索引擎上列出并说明主要参数,这些参数在排名方面具有决定性并且相较其他参数具有相对重要性。说明应当是通俗易懂的,易于获得的,并时刻保持更新。

2)主要参数包括对商业用户或企业网站用户向各自提供商支付的直接或间接报酬可能对排名产生的影响,该提供商还应根据第1和第2款的要求,说明报酬对排名的影响。

3)如果一个在线搜索引擎提供商在特定情况下改变了排名,或者在第三方通知后将某个网站下架,企业网站用户应该有权能够查看该通知的内容。”电子商务领域之外,玛丽×杨(Mary L. Young)和阿尔弗雷德×赫米达(Alfred Hermida)在新闻算法领域提出了类似的主张。他们认为新闻应当完整地向公众公布在信息处理过程中涉及的参数、机器学习的规则和逻辑推理过程。在新闻算法中,研究者更担心这一技术带来的信息茧房效应。

(三)算法解释权

算法解释权也可以看成是算法透明原则的具体化体现。相对于形式化的算法部署告知,算法解释权更是一种实质性的算法透明度的实现方式。算法解释权在2018年5月25日生效的欧盟《通用数据保护条例》中被明确下来,成为了一项实证化的权利。这一权利在欧盟范围内得到了广泛认可,并在各国通过政策标准予以具体化。2020年5月20日,英国信息专员办公室与阿兰×图灵研究所共同发布了《人工智能决策说明指南》,为算法解释提供了指引。

我国《个人信息保护法(草案)》规定,个人认为自动化决策对其权益造成重大影响的,有权要求个人信息处理者予以说明。这一条款采用的是对个人权利的重要影响标准,相对于欧盟《通用数据保护条例》中将算法可解释权限定在影响公民权利义务的自动化决策,显得还要广泛些。这一解释权同时也是实现《个人信息保护法(草案)》所要求的自动化决策结果公平合理的权利机制。

由于法学研究对权利话语的路径依赖,尤其是在欧盟《通用数据保护条例》中明确了算法解释权条款后,相当的研究文献将算法规制和算法解释权联系起来,并期待通过可解释指向算法问责。用户对算法的解释权成为算法法学研究的核心命题之一。算法解释权领域积累有了大量的研究文献。算法解释最后的形态仍然是对算法决定的结果或者算法内在的逻辑作出具体的、合理的描述。对算法结果的解释和对算法相关的逻辑的解释是算法解释的一个重要分类。GDPR的算法解释权如要落实,数据处理者就需要承担算法逻辑解释的义务。

另有学者提出了“具体决策”的解释和“系统功能”的解释,这对应于前述划分,具有类似的效果。算法可解释性存在明显的限度,问题不在于算法的复杂性,而在于算法建立的数据可能是没有办法解释的。此外,在机器学习算法中,对于监督学习,我们能够知道输出和输入之间的关联;但非监督学习中,我们并不知道输入转化成输出的时候应用了哪些特征值和哪些相关的信息。尽管算法解释权面临技术上的困难,为了建立数据主体和数据控制者之间的信任,建构恰当的算法解释权体系仍然有助于帮助数据主体理解决策是如何作出的,如何获得对该决策的救济,以及如何通过改变自己的行为从而获得自己期待的结果。

算法决策和其他类型的决策存在的不同特征导致需要算法解释,算法存在难以理解(inscrutability)和非直觉性(non-intuitive)两大特点。欧盟《通用数据保护条例》第13条至第15条所要求的数据主体应当能够获得自动化决策逻辑相关的有意义的信息。美国《公平信用报告法》(FCRA)和《信用机会平等法》(ECOA)都规定了“不利行动告知”(adverse action notice)条款,要求贷方就不利的算法评分向金融消费者进行解释,包括拒绝提供信贷、拒绝录用或提供保险服务等其他信用评估输出结果的具体原因,这两部法律同时还建立了赋予金融消费者就信息的不准确或不充分获得相应救济的权利。

无论是美国《公平信用报告法》、《信用机会平等法》,还是欧盟《通用数据保护条例》,它们主要的都是在回应算法的难以理解。上述立法没有解决无监督学习下的输入和输出之间的非因果性,没有能够对算法的非直觉性进行回应。在很多情形下,直觉是对规范进行描述性陈述的桥梁。由于机器学习的价值恰恰在于它发掘的是有违直觉的统计学关系,而非因果关系。在特定情形中,哪一些统计学的关系是决策的基础是很明显的,但为什么存在这样的统计学关系犹如谜团。要理解算法决策为什么是它们所呈现的样子,现有的立法要求解释模型本身仍有不足。如果算法是可评估的,算法模型在输入和输出之间的非因果关系或者说非直觉性问题不能被忽视。


四、公开源代码的可能与限度


算法透明的最激进的主张,莫过于公开源代码。源代码是程序员所写的人类可读的指令。在复杂系统中,源代码由成千上万行代码组成。对于政府规制代码的争议一直存在。在互联网时代的早期,互联网基于端对端的交互,并没有规制的空间,那些为互联网的搭建作出巨大贡献的代码作者在观念上会对政府规制代码的行为加以抵制,为政府规制代码设置重重障碍,但是,当代码的编写日益商业化并且开始越来越集中于少数大公司的时候,它就能够而且应该被规制,因为商业机构能够被规制。

政府将通过直接规制代码以间接规制行为,利用对代码/架构的规制达成具体的目的。商业机构在设计正在到来的社会架构时,政府在商业利益之外确保公共利益和公共价值能够被纳入到架构之中,这应当是政府的职责所在。代码是价值观念的数字化。代码作者已经成为网络空间的立法者,他们决定互联网世界的默认规则是什么,匿名是否可能,隐私保护的程度。他们在一定程度上决定了互联网的面貌。代码已经成为网络空间的规制者,它在塑造着网络空间,决定了网民的自由的程度和范围,对于代码的规制是网络时代正义实践的主题。

2016年,纽约市尝试通过立法强制政府机构披露源代码。来自布鲁克斯东区纽约市议会的成员詹姆斯×瓦卡(James Vacca),提出算法立法议案要求,市政府机构运用自动化决策系统分配福利、维护治安和进行处罚的时候,必须公布源代码。这一立法动议直接监管到算法技术的核心——源代码——的披露而显示出其激进性。惟需注意的是,它规制的是政府自动化决策行为,而并非对市场主体算法的规制。立法背后的担忧仍然是政府公权力和技术性权力的结合而带来的对个人权利的侵犯和控制。

这一立法议案引发了多方的批评。企业认为这不仅损害了企业的经营自主权,也会伤害到企业的核心商业秘密。算法在知识产权法体系下受到的保护非常有限,但可能会收到商业秘密法的保护。有学者在研究法国关于算法法律保护的路径后指出,根据法国商业秘密保护法的规定,任何同时符合以下三个条件的信息,可以作为商业秘密而获得保护:(1)信息不为同一产业部门普遍认识;(2)由于信息的秘密性从而具有现实或潜在的商业价值;(3)信息受到合理措施的保护。

如果一种算法符合上述标准,并辅以相关措施保护其秘密性,该算法就可以被认定为是受法国商业秘密法所要保护的商业秘密。强制要求企业披露源代码,从激励角度来说将导致企业犹豫签订为政府提供公共服务的合约。还有企业主张,它们对于算法拥有财产性权利 (proprietary-information argument)。这种财产性权利或者是基于数据产品而生,或者是因为商业秘密所具有的财产价值而产生。一些企业组织了游说公司在纽约展开活动,以改变草案的内容。

另外,一些网络安全专家也指出,如果这些源代码被不法分子利用,则将会产生难以预料的后果,对公共安全造成难以修复的损害。纽约市最后通过的立法要求成立工作小组就自动化决策的下列相关问题提交建议:(1)公民对算法的可解释权;(2)公民是否遭受算法歧视;(3)对遭受歧视者提供救济;(4)存档算法和数据可行性。

纽约市的算法立法从动议到最终通过,对于算法的规制从一种实质性的约束成为一种政策倡导型的主张,突出表现了商业利益和公共利益之间的紧张。当越来越多的公共服务基础设施采购市场主体的软件商品和服务的时候,商业秘密的主张和政府决策的民主性透明性之间的冲突也愈发凸显。该法案通过之后,引起了法学界和舆论界的普遍关注和批评。

一些批评者认为立法已经被企业的利益所扭曲。茱莉亚×鲍威尔(Julia Powles)在纽约客发表的文章认为,纽约市规制算法的立法尝试是大胆的,但充满了遗憾和错误。弗兰克×帕斯奎尔(Frank Pasquale)认为,商业秘密对于效率和创新有一定的激励作用,但政府的合法性和公共利益拥有压倒性考量。重要的公共决定如果由黑箱作出,这是政府的失职。凯西×奥尼尔(Cathy O’Neil)在《算法霸权:数字性杀伤武器的威胁》中强调,算法世界是一个丑陋的虫洞世界。算法应当接受公众的审视;否则,算法的霸权将成为人们生活的宰制者。

在公布源代码之外,还有反向工程学(reverse engineering/output testing)的方法可以打开黑箱。反向工程学是实现算法透明的重要技术手段。反向工程学在算法新闻领域有比较充分的讨论。法国工程师纪尧姆×沙洛(Guillaume Chaslot)曾为谷歌工作三年,他认为YouTube让人们看到的事实是扭曲的,而且其算法是以增加用户黏性为导向,他建议公司改进未果,后被公司辞退。2018年他创办了算法透明网站(algotransparency.org),向社会公开了他运用反向工程学的方法解码YouTube的算法偏见,将平台如何扭曲事实的技术公之于众。

反向工程学根据输出结果逆向测试、推演算法的运行逻辑,目的在于解决算法在输入数据和输出结果之间的统计学关系,而非因果关系,回应算法的非直觉性特征的挑战。反向工程学是算法透明的一种技术手段,但这一技术手段必须要考虑各国具体法律的限制。反向工程学存在着很多法律上的挑战。尽管美国在《数字千年版权法》之外,没有法律直接禁止和限制反向工程学,甚至《数字千年版权法》也有例外。但是,软件供应商在终端用户许可协议中都会有专门的禁止反向工程学的条款,实施反向工程学行为可能会面临违约的问题;但更大的法律障碍是在《计算机欺诈和滥用法》。我国刑法中的非法侵入计算机信息系统罪,以及个人信息的刑法保护都会对实施反向工程学行为进行直接的规制。


五、算法影响性评估


影响性评估广泛地运用于个人信息保护、数据安全以及算法的设计、运用和部署中。影响性评估是对数据项目的数据风险进行分析、辨识和最小化的制度。它不可能根除所有的危险,但是会有助于决定在特定环境下风险的水平是否可接受。影响性评估使得风险在很早的时候就可以被发现,因此成为风险社会中被广泛采用的一种风险防范机制。一般认为,持续的影响性评估会有助于提升数据处理者隐私和数据保护的意识。

另外的效果就是,影响性评估使得设计阶段就参与进来的人员在开始设计项目的时候就会考虑到隐私,并有助于采取设计隐私的进路。根据欧盟GDPR的要求,数据控制者必须对那些对自然人的权利和自由造成高风险的操作采取数据保护影响评估。当数据处理是基于自动化系统作出的,或者是在大规模地处理特殊类别的数据,以及大规模系统地监控公开区域时,应当要进行数据影响评估。影响性评估制度作为风险防控方式,相当于给数据处理加了一把安全锁,是一种比较常见的个人信息和数据安全的保护机制。

在技术中立的背景下,算法往往由于价值缺失、设计缺陷或信任危机而产生严重的算法风险。作为计算机程序,价值目标的混乱或者扭曲轻则引发算法侵扰,重则带来系统性的权利侵犯。深度伪造对于人脸识别的滥用、机器生产新闻对于言论市场的扭曲、大数据杀熟对消费者剩余价值的获取,所有这些不过是算法价值目标丧失带来的诸多负面效应之一。此外,因软件设计模块的缺陷而产生的算法系统性安全风险,因数据残缺或数据偏见而带来的内生性的算法偏见,因算法结果歧视而引发的信任危机,等等,这些都是算法风险的具体表现。

为了回应这些风险,算法影响性评估成为算法问责的一个重要的制度设计。建立算法影响评估制度和建立健全算法问责方案成为机器学习算法有效规制的途径。美国算法立法就将影响性评估作为最重要的算法规制手段。2019年4月10日,美国参议院科瑞×库克(Cory Cooker)和罗恩×韦登(Ron Wyden)提出了《算法问责法(草案)》,要求对算法进行系统和数据保护的影响性评估。违反该法的行为将会被认定为不公平商业行为或实践,引发竞争法的规制。

《算法问责法(草案)》认为,算法指的是基于机器学习、统计学、其他数据处理或人工智能技术的计算过程作出的决定或辅助人工决定。该法的管辖对象包括:(1)连续三年营业额达到500万美元;(2)处理或控制的个人信息超过100万人次或100万台终端设备;(3)收集、归集、持有非其用户的个人信息作为主营业务的数据中间商或商业实体。以其管辖对象的具体内容来说,《算法问责法(草案)》的覆盖范围是非常广泛的,几乎所有的互联网企业都会成为该法适用的目标。

高风险算法在该法案中引发了特别的关注,《算法问责法(草案)》基于算法的特点、应用的领域、处理数据信息的内容而将以下算法认定为高风险算法:(1)由于算法的新颖性以及性质、范围、内容和目的,对消费者个人信息隐私和安全带来高风险的算法;(2)带来歧视性后果的算法;(3)基于个人的工作表现、经济状况、健康、个人偏好、地理位置和行为轨迹而作出的影响个人权利的算法;(4)涉及相当数量消费者的种族、肤色、政治观点、宗教、工会身份、生物数据、健康、性别、性倾向、犯罪记录、逮捕记录的算法;(5)系统性监控大型公共场所的算法。

《算法问责法(草案)》中的算法影响性评估的内容包括:(1)算法的详细描述,包括设计、训练、数据及其目标。(2)数据最小化的要求、个人信息及决策结果存储的时间。(3)消费者对决策结果的获取权、修改权。(4)评估算法对个人信息隐私和安全影响,以及歧视性后果方面的风险。(5)算法主体采取的降低风险的措施。

就算法影响性评估机制的构成而言,其最重要的面向仍然在于算法的透明化要求,这一透明化兼顾数据和算法本身,可以看作穿透式监管在算法领域的一个运用。算法影响性评估可以运用在新闻算法、搜索算法、自动化行政等不同场景当中,作为算法规制的一个共同进路,应当结合具体领域的安全敏感性并考虑技术特点,将算法划分成自由使用、限制使用和禁止使用等不同等级。在影响性评估机制的设计中,算法透明是其中的重要要求,犹如美国《算法问责法(草案)》所明确的那样,但就透明化的程度仍应结合算法的具体运用场景考虑透明度的具体形式。


六、结语


社会经济活动和关键基础设施基于算法的自动化运用日益普遍。自动驾驶汽车依赖机器学习算法作出决定和“看到”路上的障碍物。机器学习算法被用于精准医疗/个体化医疗(personalizing medicine)、辅助手术和优化电网系统。作为回应,政府行政规则制定和决策的自动化程度也将更为深入。在监管主体方面,算法监管需要政府统一规制、专家判断、事先监管,因此可以模仿FDA模式建立专门的算法规制机构。为了更好地促进数据驱动的算法数字经济,政府需要发展出以算法透明为目标的自动化的规制体系。

算法黑箱是一个常见的隐喻。这个隐喻会误导人们的认识,遮蔽民众的认知。黑箱似乎是无从打开,打开了也是没有意义的。这一对算法黑箱的隐喻实际在强调算法系统的复杂性以及这种复杂性让外行人无法理解。有效的学习算法模型包含海量的数据和大量的代码,根据输入的数据,动态调整内在的决策模式并更新代码内容,代码一直处于迭代的过程中,这时候设计者和运营者很难说明算法的决策过程。

反对者将算法透明等同于打开黑箱,披露源代码,从而反对算法透明的主张。这是将算法透明原则的最严格情形普遍化,从而反对作为一般性原则的算法透明,实际上并不能成立。在算法问责的工具箱中,从法律角度而言,算法透明仍然是最为恰切的手段之一。就人类立法的经验而言,对于主体、行为和后果进行调整仍然是最为普遍的立法模式。算法作为一种技术,算法开发者、利用者、部署者的责任,算法带来的歧视性后果以及算法可能引发的垄断问题都可以作为法律规制的对象。

透明度是算法规制可欲的目标,目前已为我国《个人信息保护法(草案)》所接受和采纳。算法透明作为一种信息监管机制,是数字社会化和社会数字化趋势下的必然选择,它有助于打消公众对决策自主性丧失的忧虑。这种透明度并不等同于打开黑箱,公布源代码。就目前世界各国的立法实践而言,并不存在公布源代码的立法例。从标示义务到向监管部门报备参数,一直到向社会公开参数都是算法透明的重要方式。

《个人信息保护法(草案)》为决策自动化设定了透明度的要求,透明成为个人信息处理、决策自动化的原则要求。在不同的场景和商业模式中,对于算法透明度的要求存在着披露程度上的差异,从一般人能够理解的算法解释决策的结果或者解释算法决策的内在逻辑,从技术人员可以理解的参数再到公布源代码都可以成为算法透明的具体化实践。算法透明是算法规制的重要原则,法律应基于不同的场景对算法设定差别化的透明度要求。