[摘 要]:网络爬虫包含爬取工具和“反反爬措施”,容易引起多方面的法律风险。网络爬虫的法律治理跨越多个法律部门,在民事与刑事法律责任之外,行政规制亦不可少。依据现有法律规定,对爬虫的行政规制可以从以下几方面着手:通过行政立法明确规制立场及爬虫的具体合法性边界;平衡刑事处罚与行政处罚的运用;以制定技术标准等多种手段引导爬虫技术的合理利用;提升公共数据与智慧公共服务的供给能力以减少数据爬取压力。行政规制所包含的立体化治理能力对于网络爬虫的法律治理可以起到不可替代的作用。
[关键词]:网络爬虫;个人信息保护;网络安全;数据安全
前言
网络信息的搜集与利用已经成为信息时代最基本的日常活动之一,几乎所有网络用户都直接或间接利用过网络爬虫所提供的信息资源。最初,网络爬虫活动以各种搜索引擎及针对全网信息的通用爬虫为主,但随着第三方库的发达和Python、JavaScript等计算机程序语言的流行,搜索引擎以外针对特定主题信息的各种聚焦爬虫活动迅速增长。爬虫在搜索引擎、舆情分析、大数据挖掘、违法行为监测、犯罪预测、暗网探知等领域所发挥的积极作用已受到法学界的关注和肯定,甚至直接为政府文件所支持;与此同时,爬虫的负面影响亦逐渐凸显。一方面,爬取工具的滥用可能导致被爬网站过载乃至瘫痪,进而削弱普通人对网站资源的使用能力;另一方面,在突破反爬机制后,爬虫所取得的数据有可能大规模侵犯商业秘密、个人信息或个人隐私等权益,非法侵入内网获取政府工作秘密,或者逃避支付利用网站资源的对价,还可能利用未经同意而爬取的数据进行不正当竞争、助力违法放贷和催收活动等等。不仅如此,爬虫的滥用还造成了影响深远的流量黑灰产及数据污染问题,容易使正常的用户访问和操作数据被污染,从而失去其作为大数据应有的价值。此外,恶意利用爬虫干扰正常市场秩序的活动已屡见不鲜,如部分所谓“机票代理公司”利用爬虫抢占航空公司通过官网放出的低价票,并反复订票、退订,直至将票加价卖出,从而掠夺正常客户获得特价票的机会。随着爬虫相关风险的不断增长,对爬虫的法律规制亦随之日显必要;《个人信息保护法》《数据安全法》等重要法律的制定,更是不仅凸显了规制爬取个人信息等爬虫活动的迫切性,也为规制爬虫提供了更充分的制度支持。
当前,对爬虫的法律研究及相关法律实践主要集中于民法和刑法领域,然而来自行政法的理论关注与规制安排亦具有不可忽视的重要性。在全球范围内的网络治理与网络风险规制中,大量行政规制措施的组合运用,对于维持良好市场竞争秩序、保护企业与公民合法权益直至国家战略利益已经起到不可替代的作用。新近制定的《个人信息保护法》及《数据安全法》中与行政规制相关的条款并不鲜见,这意味着未来我国数据利用活动的法治化进程必然与行政规制密不可分。对此,根据爬虫活动的基本原理和技术特点,基于法律规范的有效授权,对网络爬虫的风险进行全面而精准的行政规制,将是网络爬虫治理的关键任务。
一、网络爬虫的基本原理与行政法治理需求
(一)网络爬虫概念的再认识
网络爬虫(Web Crawler/Spider)本质上是由机器模仿人的行为抓取数据的工具,爬虫的活动一般表面显现为正常用户的操作。业界对网络爬虫的认知可以分为狭义与广义两种理解方式:狭义的“网络爬虫”仅仅是自动化的数据抓取程序,广义的“网络爬虫”则还包括抓取数据过程中突破反爬机制的技术手段,包括但不限于验证码的自动识别(反向图灵测试)、数据解密、代理IP池、模拟浏览器访问、伪造用户代理、JS逆向解析等。迄今为止,学界对爬虫相关法律问题的探讨对此往往并无清晰的交代,狭义与广义的界定方式均不罕见。例如,杨志琼认为“网络爬虫的违法性判断取决于是否‘未经授权’”,此处的“未经授权”包括“规避技术访问屏障、绕开认证”等,显然是将突破反爬机制的技术手段囊括在内;张平、丁晓东等学者对爬虫相关法律问题的分析,则自始至终未将突破反爬机制的行为纳入视野,整体上可以视为在狭义上使用这一概念;张一献则一方面在狭义上对网络爬虫作技术性的界定和描述,另一方面将能够破解技术防范措施的爬虫有条件地划入“恶意网络爬虫”的范围。此种“恶意爬虫”概念更准确的对应外文术语为“Web Scraper”(网页抓取者),其未经许可的网页及数据抓取行为与受许可的网页爬取行为在性质上有显然的区别。
如果仅分析爬虫协议的法律性质或数据权益的归属,确实只须讨论狭义的爬虫概念;但若试图探讨网络爬虫的行政规制路径,则以广义的爬虫概念为研究对象更为适宜。因为仅从狭义上界定爬虫,不仅远离现实中大部分企业和专业个体的爬虫应用实践,也会使学理探讨及法律实务中大量的爬虫相关违法案件被排除于讨论范围之外,如此规制爬虫的理论思考与制度设计即有失焦之虞。因此,本文将在广义上界定并运用爬虫的概念。这一概念具有可变的构成:其固定部分为基于计算机程序、面向网络数据来源自动抓取数据的工具(下文简称之为“爬取工具”);其可变部分为排除各种反爬技术之障碍的方法和工具(俗称“反反爬措施”),并不必然出现在所有爬虫之中。在反爬机制日益发达和普遍的当今信息技术条件下,引起大量法律问题的爬虫越来越多地呈现为“爬取工具+反反爬措施”的结构,其中“反反爬措施”部分因反爬机制的设计而不断变化发展,形成了“反爬—反反爬”的复杂对抗,下文对爬虫法律风险及规制路径的分析即以此种可变的构成为基础。
(二)网络爬虫与反爬机制的基本原理
网络爬虫中爬取工具部分的基本活动模式是:首先选取作为“种子”的统一资源定位符(Uniform Resource Locator,通常简写为URL),下载相关网页,随后从该网页开始发现和提取更多的URL, 基于所获得的URL,利用正则表达式等工具提取内容并存储有用的新信息,一直重复上述操作直至达到一定标准为止。爬虫技术的不断发展成就了强大的搜索引擎和便利的互联网,但不加控制的爬虫也往往会给被爬的网站带来巨大的负担及不利影响。例如,2018年春运期间,12306网站最高峰时1天内页面浏览量达813.4亿次,其中近90%是爬虫所为;在所谓“首宗爬虫软件案”中,元光公司大量爬取谷米公司开发的智能公交APP “酷米客”的实时数据,日均300万至400万条,造成谷米公司20多万元的直接经济损失。因此,网站的管理者往往会设置各种反爬机制防止爬虫(尤其是以获取和利用特定数据为目的的聚焦爬虫)的滥用和恶意利用。
最简单的反爬机制是在网站的robots.txt文件(即所谓“爬虫协议”)对爬虫的部分或全部操作设为“不允许”(Disallow),但此种设置无论从法律效力还是实际防御作用而言均较弱,几乎无法防止爬虫活动。大型搜索引擎往往会因其能带来潜在的流量利益而受到被爬网站的欢迎,往往也会遵守爬虫协议,但大量其他爬虫并不一定遵守爬虫协议的要求。对此,网站往往还会采取技术性的反爬机制识别和阻止自动爬取行为。在激烈的“反爬—反反爬”对抗中,反爬机制已经发展为一个庞大的工具集。这些机制从客户端或服务端采取不同策略进行反爬,主要可以分为以下几大类:(1)识别机制,即发现非人类操作行为的机制,主要是对网络请求的传输信息分析(Headers字段识别)和操作规律进行分析,致力于从爬虫活动的各种痕迹中识别出爬虫。其中,最常见就是验证码,验证码可以被认为是一种“区分人与计算机的全自动公共图灵测试”(Completely Automated Public Turing test to tell Computers and Humans Apart,简写为CAPTCHA),常规情形下可以将人与机器的操作相区分。(2)限制操作机制,例如要求注册和登录(必要时可以限制特定账号的活动直至封禁账号)、限制操作频率和次数、限制流量等,致力于降低爬虫的活动能力。(3)欺骗机制,即对爬虫进行针对性的欺骗,例如设置“蜜罐”(专门针对爬虫的陷阱URL)、在响应自动化请求而提供的数据中掺入通常不会被人类用户接触的假数据、生成大量垃圾URL阻塞爬虫的任务队列等。(4)前端处理机制,即用JavaScript等前端常用语言对网页上的内容进行混淆、加密和渲染,通过动态生成数据、自定义字体或利用前端的其他技术工具和JavaScript语言的技术特征设置障碍等手段,致力于使人类用户能够正常访问网络的同时阻止爬虫正常抓取数据。
对此,“反反爬措施”亦在因应反爬机制的发展而不断演化。例如,对于识别机制,爬虫设计者可以通过伪造相关字段、模拟浏览器访问等手段应对,又可以借助机器学习或专业的打码平台突破验证码的限制;对于限制操作机制,爬虫设计者可以通过代理IP池、分布式爬虫、自我限制频率和次数等手段应对;对于欺骗机制和前端处理机制,爬虫设计者往往通过选择内置浏览器引擎的爬虫,采集在浏览器中显示的页面,或深入分析网站的程序设计,发现破解反爬策略的其他突破口,从而突破反爬机制或迫使网站花费大量成本不断变更和升级反爬策略。部分爬虫并不满足于爬取公开数据,在突防能力较强的“反反爬措施”支持下,突破防御机制而大量抓取非公开的后端数据,引发更严重的侵权乃至犯罪风险。
这些风险难以通过纯技术的手段消除。理论上只要是为向网络用户而设计的数据输出,都可以通过多种措施爬取;为便利用户使用而设计相当规范的输出结构之网站,尤其有利于爬虫爬取数据。无论采取何种反爬措施,由于网络访问者总能通过常规的访问手段有意识地测试和积累从网站返回的数据,进而分析网站所使用的反爬措施,从而针对性地攻破反爬机制。诸如帆布指纹识别(Canvas Fingerprinting)一类旨在深入区分机器与人类操作痕迹的技术尚未成熟,便已出现多种反制手段,亦无法提供一蹴而就的防御方案。当然,网站管理者可以通过不断更换反爬策略以防针对性的分析和攻击,但这样就需要专门的反爬工程师和较高的维护成本,大量中小企业、事业单位和行政机关(尤其是基层单位)并不一定能够具备此种条件。在技术层面缺乏低成本的长期反爬方案时,自法律层面对爬虫进行规制就显示出其必要性,而对网络爬虫的行政规制更是不可或缺。
(三)网络爬虫的行政规制需求
网络爬虫既有不可替代的积极功能,也可造成一系列不可低估的风险。对此,法律实践中追究滥用爬虫技术者的民事或刑事法律责任均已不罕见,但尚不足以对相关风险实现精准治理,亟需行政规制的介入。
针对爬虫的民事诉讼主要由管理网站的企业提起。起诉的企业往往为腾讯、百度、淘宝、天猫、微梦创科(新浪微博)、前锦(前程无忧)等大型网络平台企业,这些企业拥有大量有价值的商业数据,也是被爬虫侵犯的主要对象,往往只有这些企业才能负担爬虫侵权诉讼的较高取证成本。例如,微梦创科网络技术有限公司(下称“微梦公司”)诉湖南蚁坊软件股份有限公司一案判决书中显示,微梦公司提交的证据至少包括二十份公证书及可信时间戳认证证书,此外还需要负担18万元的代理律师费用;又如,浙江淘宝网络有限公司(下称“淘宝公司”)诉上海载和网络科技有限公司、载信软件(上海)有限公司一案的判决书显示,原告主张为两个爬虫侵权案件共支付律师费10万元、鉴定费8万元、公证费6万元和差旅费6万元。此种诉讼成本诚然与被爬数据的规模及商业价值相关,但爬虫类不正当竞争案件的诉讼成本下限亦不低,足以阻却公共机构及大量中小企业寻求民事法律救济。不仅如此,网络平台企业提起的相关诉讼主要集中在侵犯商业秘密和反不正当竞争领域,主要起诉对象是有一定经济赔付能力的侵权企业,对于大量小企业及个人使用爬虫违法抓取个人信息等行为则未必有动力进行起诉。此外,大量公共平台并未设置精准的反爬机制,对于滥用爬虫抓取公共数据的情形既可能缺乏防范,导致网站过载,也可能实施了过度防御,影响自然人对网站公共资源的正常使用。以最高人民法院的中国裁判文书网为例,2018年5月初以来,大量技术公司通过爬虫系统无限制并发访问非法获取裁判文书数据,一度造成网站负荷过大、大量正常用户请求堵塞,访问出现速度慢或部分页面无法显示等现象,影响了司法公开的效果和公开裁判文书的正常利用。网络爬虫造成的此种负面后果系由不同主体的爬虫活动复杂叠加所致,涉及大范围的公共利益,显然难以通过民事诉讼消除。
非法爬虫活动的刑事法律责任主要集中于非法获取计算机信息系统数据罪与侵犯公民个人信息罪,理论上亦可涉及非法侵入计算机信息系统罪、非法控制计算机信息系统罪以及提供侵入、非法控制计算机信息系统程序、工具罪等。然而,刑法仅能规制爬虫的严重非法运用,需要遵循谦抑性的原则,相当一部分违法的爬虫活动不应径行付诸刑罚。首先,在事实层面,并非所有违法的爬虫活动都符合相关犯罪的犯罪构成。在《刑法》有关规定的基础上,最高人民法院、最高人民检察院2011年联合发布的《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》及2017年联合发布的《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》明确规定了相关犯罪的入罪标准,未满足入罪标准的行为当然不应被追究刑事法律责任。其次,在价值层面,并非所有需要法律调整的爬虫活动都具备需要刑法介入的社会危害性前提。爬虫活动往往利弊交织,通过爬虫搜集数据并基于爬取数据聚合为有价值的(大)数据资源,在一定条件下对充分整合分散数据资源、利用数据价值亦有积极意义。我国的司法审判实践在有关民事判决中已经明确承认互联网的“互联、互通、共享、开放精神”,并反对因爬虫协议禁止搜索引擎爬取数据而使“互联网变成信息相互隔绝、无法自由流动的信息‘孤岛’”,可见人为阻止爬虫爬取数据并不一定符合互联网之法理,若不涉及非法获取公民个人信息等特殊数据或产生破坏计算机信息系统等严重后果,其合法性状况就需要根据具体场景详加斟酌。再次,如果爬虫仅为提升获取公开数据效率的手段,未对被爬网站造成实质性的不利影响,似乎亦不宜径直认为其构成非法获取计算机信息系统数据罪。大量反爬机制的设置仅仅是为了防止网络过载,保障网络的正常使用,爬虫往往也会自我限制访问频率和总量,如果爬虫并未在此方面造成实质性的不利影响,被爬方还可以通过封禁IP等手段进行自我救济,此时追究刑事法律责任并无太大必要。
与民事及刑事法律手段相比,行政法的规制进路理论上不仅能覆盖更广范围的违法爬虫活动,还能对合法的爬虫活动进行适当引导,达成“立体化”的规制效果。当代公共行政的规制工具库极为发达,除常见的许可、处罚、强制等手段外,行政指导、行政奖励、信息披露、信用评价、标准化等一系列其他手段亦可灵活运用于对爬虫的规制。理论上,行政规制相当适合于以爬虫为代表的新兴信息技术应用:一方面,爬虫技术及业态均在迅速发展演化之中,“反反爬措施”所借助的“打码平台”(致力于突破验证码限制的专业平台)、第三方库、模拟浏览器、专用抓包工具等不断更新换代,相关反反爬技术或第三方平台的业务利弊兼备,需要通过丰富而精准的行政规制手段及其组合进行快速、灵活的处置与引导。另一方面,“数字经济时代,爬虫行为的存在已是普遍现象”,从事爬虫活动的中小企业及个体不断增加,日渐成为利用爬虫的主要市场主体,且实施了大量介于合法与轻微违法之间的爬虫活动。前述民事或刑事法律机制均不足以有效调整此种活动,需要由政府运用有效的行政规制措施,结合企业、行业协会、其他社会组织和知识社区的第三方力量,形成治理合力,全方位把握爬虫技术利用与滥用爬虫风险之间的复杂平衡。行政规制的上述特点已经在当前立法进程中得到明确体现,例如,《个人信息保护法》第61条至64条规定的宣传教育、行政指导、接受投诉和举报、组织测评(并公布测评结果)、制定规则和标准、支持技术研发、支持评估和认证、约谈、要求合规审计等多种灵活的工作机制以及第66、67、71条的行政法律责任,既包括引导和约束等不同向度的规制措施,又包含行政主体与社会第三方力量的多种联动机制,可以应对不同场景和不同价值考量下的爬虫规制需求。
二、国内网络爬虫行政规制的实践状况
网络爬虫的行政规制并非在世界各国普遍存在,而与一国的行政法律制度及互联网治理路径密切相关。在我国,由于行政法已经成为互联网治理中的重要法制基础,我们需要首先检视网络爬虫行政规制的法律依据,继而观察与思考既有的行政规制执法实践,致力于深入探索和发现可能的规制模式及工具,形成法律与技术深度交融的规制框架。
(一)法律依据
网络爬虫的民事及刑事法律实践最先进入国内学界的视野,而行政法中尽管早已存在对此实施规制的法律依据,但迄今为止仍未受到充分的关注。目前与网络爬虫治理相关的行政法依据主要可以归结为以下数个方面:
一是治安管理处罚方面的法律规范。《治安管理处罚法》第29条明确规定了数种与爬虫相关的违法行为及其罚则,其中前三项与爬虫活动关系较为密切。这三项均以“违反国家规定”为前提,包括“侵入计算机信息系统,造成危害”、“对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行”以及增、删、改系统数据的情形。这一规定保护的法益与《刑法》中的有关条款相似,但其实际适用反而不如《刑法》中相关条款常见,其主要原因或许有三:(1)爬虫自动抓取的数据量较大,企业一旦报案,很容易触及2011年《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》及2017年《最高人民法院最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》的刑事立案标准。(2)调查网络爬虫违法往往需要一定的技术手段,办理治安案件的合法行政调查手段不如刑事侦查手段(尤其是技术侦查手段)有力,此方面的网侦措施在使用主体和程序上又有若干明确的限制,并非所有警种及机构均可任意运用。(3)采取网侦措施的取证固证成本较高,高昂的办案成本将使治安案件的办理面临办案经费等现实顾虑的考验。
二是网络安全和数据安全方面的法律规范。中央层面的相关法律规范包括《网络安全法》《数据安全法》《计算机信息系统安全保护条例》《计算机信息网络国际联网安全保护管理办法》《网络安全审查办法》《互联网安全保护技术措施规定》等;地方层面的法律规范包括广东省、山西省、辽宁省、宁夏回族自治区等地制定的计算机信息系统安全保护条例等。此方面法律规范对爬虫治理所起作用暂时较为间接,例如《网络安全法》尽管也包含对违法爬虫活动的禁止(第27条)及法律责任(第63条),但实践中往往并不直接作用于发现和惩治非法爬虫活动,而是通过网络安全等级保护等合规义务促使网络运营者建立一系列网络安全措施,间接防范数据需求方恶意利用SQL注入、植入后门或撞库攻击等网络攻击的方式突破反爬机制(甚至突破访问权限的限制)爬取数据。值得注意的是,2019年公布的《数据安全管理办法(征求意见稿)》尝试对爬虫风险进行针对性的防范,其第16条规定:“网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。”尽管这一规定尚非现行有效的规章,但随着《数据安全法》的制定,未来类似规定大概率将见诸配套立法或技术标准,为相关行政规制提供授权基础和规制依据。
三是个人信息保护方面的法律规范。《个人信息保护法》的制定为行政机关治理网络爬虫提供了权威的法律依据及灵活的规制措施。在《个人信息保护法》正式颁行前,此方面的法律规范已有《未成年人保护法》《儿童个人信息网络保护规定》《电信和互联网用户个人信息保护规定》等法律及规章,以及在实践中具有“软法”性质的若干标准或指南(如《信息安全技术个人信息安全规范》《互联网个人信息安全保护指南》《常见类型移动互联网应用程序必要个人信息范围规定》等)。上述规范对行政机关保护公民个人信息有零散的规定,但总体上难以支持此方面的行政规制体系。《个人信息保护法》第六章赋予履行个人信息保护职责的部门的前述系列规制措施及第七章规定的行政处罚与信用惩戒,为对爬虫活动的行政规制提供了强有力的制度支持,尤其是第61条第四项“调查、处理违法个人信息处理活动”之职责,理论上可以将所有违法爬取个人信息的爬虫活动涵盖在内。不仅如此,个人信息保护方面的法律规范亦通过网络运营者的合规义务体系对防范恶意爬虫起间接作用。相关规范对网络运营者提出了较高的保护程度要求,例如《个人信息保护法》第五章的系列法律义务、《儿童个人信息网络保护规定》中的最小授权、严格设定访问权限、加密存储、转移信息的安全评估等要求,客观上可以间接防止儿童个人信息被违法爬取。此外,“软法”性质的重要技术标准《信息安全技术个人信息安全规范》(GB/T 35273—2017、35273—2020)中对个人信息设置访问限制、去标识化处理及保存时间最小化等要求,也有助于减少个人信息被恶意爬取的风险。
以上法律依据为控制爬虫风险的相关行政规制提供了有意义且有限度的授权。在国内相关执法实践中,上述法律依据的运用程度有所差异,形成有一定侧重方向的行政规制框架。
(二)执法实践
在当前网络治理的执法实践中,针对网络爬虫活动的行政处罚并不多见,能够直接对网络爬虫活动进行规制的法律条文亦较少被适用。《治安管理处罚法》第29条、《网络安全法》第27条与第63条在行政执法实践中的运用较为罕见;《个人信息保护法》与《数据安全法》刚刚制定,在此方面尚未产生有影响力的行政执法案例。不过,行政执法仍然从三个方面对网络爬虫的相关活动进行了间接的规制,压缩了网络爬虫违法利用的空间:
一是公安机关基于落实《网络安全法》中网络等级保护制度要求而作出的一系列行政处罚。例如,北京山顶洞商贸中心的网站存在代码执行漏洞,被北京市公安局房山分局认定为未落实网络安全保护义务,根据《网络安全法》第21条及59条给予警告的处罚(京公房行罚决字〔2021〕50915号);中电标讯科技有限公司未采取防范计算机病毒和网络攻击、网络侵入等危害网络安全行为的技术措施行为,亦被根据类似条款给予警告的处罚(京公房行罚决字〔2021〕50913号);农商帮网络技术有限公司因未依法落实计算机信息系统安全等级保护制度,致使其管理的网站被恶意程序控制,也受到类似的处罚(京公西行罚决字〔2021〕50765号)。尽管《网络安全等级保护基本要求》(GB/T 22239-2019)并无直接针对爬虫的安全措施,但只要企业严格落实其规定,3级以上的安全计算环境要求对一般情形下的恶意网络爬虫即可具有较强的防御能力,足以防止国家安全受威胁或致使社会秩序、公共利益受严重侵害;即便只有1级或2级的安全等级,也能为防范爬虫技术的滥用提供有利的技术与管理制度基础。
二是市场监督管理部门、证券监督管理机构等对基于爬虫进行的不正当竞争、传播误导性信息等行为实施的严厉处罚。例如,原无锡市工商局针对某外卖平台利用爬虫技术获取竞争对手商户信息、强制商户“二选一”的不正当竞争行为,作出高达100万元的行政处罚;又如,市场监管总局对唯品会(中国)有限公司不正当竞争一案,也基于类似原因作出了罚款300万元的行政处罚决定(国市监处〔2021〕3号)。此种严厉的处罚尽管并非针对爬虫本身,却可以对爬虫的不当利用形成有力的威慑,从而减少滥用网络爬虫的可能性。
三是网信、公安、金融管理等部门对违规爬虫的排查和告诫,从征信、区块链等行业中消除违法爬虫的生存空间。例如,在区块链业务项目申请备案时,地方公安网监部门会上门检查,并专门提醒“不要违法使用爬虫技术爬数据”;魔蝎公司等企业因爬虫业务构成犯罪被调查后,“‘爬虫业务调查风暴’席卷大数据风控行业”,北京市金融局窗口指导摸排区内大数据企业是否存在违规爬虫业务,央行亦要求各机构排查自身及合作第三方是否涉及违法爬虫活动。这些举措并不一定伴随正式的行政决定,更多地体现为一种事先的行政指导或“助推”(Nudge)式的规制,但对预防网络爬虫的违法应用亦起到了一定积极作用。
整体上,当前行政执法实践对爬虫本身采取了一种中性的立场,仅采取了有限的预防性措施,并对违法使用爬取信息的行为施加处罚。此种立场与网络爬虫的本质相契合。网络爬虫毕竟是一种技术或工具,其本身并不处于当然的合法或违法状态;爬虫相关行为是否违法,应根据“反反爬措施”对计算机信息系统的影响及所爬取信息的使用情况作判断。在违法爬虫容易触及入罪门槛的前提下,行政机关从爬取方和潜在被爬方两边同时着手开展低成本、有限度的风险预防工作,对技术本身保持一定的宽容和中立态度,实可谓明智之选。
然而,若自包含行政立法在内的立法论视角观之,网络爬虫的行政规制尚有较多可完善之处。首先,爬虫的刑法规制正日益清晰地界定“罪与非罪”的边界,同样需要清晰界定的是“法与非法”的边界,特别是严谨界定爬虫活动违法但又未构成犯罪的范围。通过行政法规则清晰界定爬虫在各种应用场景的合法行为边界,不仅有利于明确网络爬虫规制的基本立场并对违法的网络爬虫进行精准规制,也有利于对合法的网络爬虫进行积极引导。其次,在“法与非法”的边界和“罪与非罪”的边界同样清晰以后,网络爬虫刑事与行政法律责任的失衡状态也应有所改变。如能适当强化办理网络爬虫行政违法案件的调查权或完善刑事案件向治安案件的转化机制,在行政处罚与刑事处罚之间建立合理的衔接梯度,将有机会使刑罚的使用更加符合谦抑性原则的要求。再次,处罚与引导、“堵”与“疏”之间的失衡状态亦应有所调整,网络爬虫的各种处罚均属威慑性的、负担性的措施,而行政法的优势之一在于包含大量积极的引导手段,甚至在行政形态上已经形成综合性的“引导行政”(Lenkungsverwaltung)类型。行政机关通过制定通用爬虫与聚焦爬虫应用标准,同时灵活利用各种积极引导手段,可以更好地引导爬虫技术的合理利用。最后,行政机关还可以通过超越爬虫本身的给付行政手段推动对网络爬虫的间接规制,包括进一步完善市场数据的供应渠道与机制,通过各种措施促进公共数据的便利获取,加强智能化公共服务的供给等,为市场主体及公民合法获取数据或便利地获取公共服务提供畅通渠道,尽可能减少滥用爬虫技术非法获取数据的需求。网络爬虫行政规制体系的充实与完善,正可以从上述数个方面着手,从而提供兼及预防、引导与惩戒的综合性规制方案。
三、网络爬虫行政规制体系的充实与完善
对于网络爬虫的法律风险,目前世界范围内仍是以民事和刑事法律实践的回应为主,尚无成熟的专门行政规制方案。例如,在美国,规制爬虫的最主要法律依据之一《计算机欺诈与滥用法案》(Computer Fraud and Abuse Act)是通过判断爬虫的活动是否构成“计算机黑客攻击”(Computer Hacking)而触犯联邦刑事法律的行为。只要不构成犯罪,又不因侵权遭遇民事诉讼,普通企业及个人进行的爬虫活动基本上不受行政规制的约束。然而,行政规制的介入并非必然单纯增加市场主体,也可能带来更有效、更温和的精准治理对策。在我国行政规制实践早已全面介入互联网领域并屡有创举的背景下,在应对网络爬虫规制等新问题、新挑战时,亦无须等待国外的成熟实践经验,完全可以直接基于前述制度完善需求,实事求是地提出网络爬虫行政规制的“中国方案”。可以预见,行政规制在网络爬虫治理中将发挥日益重要的作用,从比较灵活而专业的行政立法着手,完善行政规制的法律依据及执法机制,将是未来完善网络爬虫治理的关键。
(一)明确规制的基本立场及合法性边界
规制爬虫活动的立法(包括行政立法)应当首先明确规制的基本立场,进而据此确定爬虫活动的合法性边界。理论上,网络爬虫规制的基本立场可以有三种不同的“理想类型”(Ideal Type):一是保守立场,即最大限度强调风险控制导向,对网络爬虫活动严加限制,对所有可能侵害公共或私人合法权益的情形一禁了之,持续监测违法爬虫活动并对其追究严厉的法律责任;二是开放立场,即最大限度强调实现数据流通与利用价值的发展导向,网络运营者不能对未构成犯罪或违反法律明文规定的爬虫设置障碍,法律亦仅禁止可能导致严重后果的“反反爬措施”;三是平衡立场,即致力于在爬虫的风险控制和价值利用中尽可能取得最优平衡,法律规范需要尽可能精确地界定爬虫活动的合法性边界,积极引导爬虫的合法化运用,并且针对不同程度的违法行为采取符合比例原则的限制与惩戒措施。当然,平衡立场中也有倾向于保守与倾向于开放之分。例如,许可副教授基于“技术赋权”等理由,在“平衡立场”中更倾向于允许爬取,此即平衡模式中倾向于开放的取向。
目前学界及实务界对允许爬取的范围(例如公开的政府数据)及禁止爬取的范围(例如不公开的个人敏感数据)正在逐渐形成共识。一方面,在提升社会数据资源价值的整体政策取向下,允许企业及个人在一定范围内利用聚焦网络爬虫充分挖掘数据价值几可谓必然趋势;另一方面,网络安全法制、数据安全法制及个人信息保护法制均越来越完善,不可能允许爬虫突破一定范围的网络安全保护措施、非法抓取受保护的数据、非法获取个人信息等,社会公平理念在网络法领域的贯彻也不可能允许爬虫挤占普通人利用公共网络服务及数据资源的机会。因此,平衡立场将是较为合宜的选择,关键是平衡立场中更倾向于开放还是保守。基于“技术赋权说”及“法无禁止即自由”的原则,倾向于开放的平衡立场总体上是可接受的方案,但决非任意条件下均应倾向于开放。由于阿列克西式的价值衡量方式是以法律原则之冲突为前提的,体现法律原则的典型特性,在进行价值衡量之前,必须首先确定爬虫所面对的限制条件来源于法律规则抑或原则。为法律规则明确禁止者,很难借助对立的法律原则使之合法化。因此,对于法律规则中明文禁止的行为,即便学者可能认为在法价值上处于对立价值的平局状态,也应认为不具备合法性。价值平局状态不能使原则具备突破规则的规范作用力。惟有当法律无禁止性规定时,规制者方可进行个案权衡。
因此,网络爬虫的合法性边界将主要由法律规范中的禁止性规定构成,行政立法于此可谓举足轻重。当前立法中,这些禁止性规范主要包括非法侵入他人网络、窃取网络数据、危害网络安全(或“危害计算机信息网络安全”)、非法收集个人信息、侵害隐私权、侵犯著作权、危害计算机信息系统的安全、侵犯通信自由和通信秘密等。上述禁止性规定中,大量具体规定直接来源于行政立法,例如“危害计算机信息网络安全的活动”即由《计算机信息网络国际联网安全保护管理办法》及一系列地方政府规章作出了具体界定;法律中的若干规定如无配套司法解释或权威的审判实践,亦有赖于行政立法的进一步明确界定,例如何为“窃取网络数据”、何为“非法收集个人信息”等。上述禁止性规定不可能全由狭义上的法律规则直接明确其文义边界,行政法规、规章乃至其他规范性文件等将以两种方式对此起到关键作用:一是对网络安全、数据安全、个人信息等法益的正面精确界定,例如通过中央网信部门等规制主体制定个人信息分类保护目录,有助于为企业利用数据资源提供更具体的合法性判断标准;二是通过一定形式的“软法”规范区分“反反爬措施”在不同情形下的合法性状况,特别是借助公安、工信等部门主导制定的技术标准,明确“危害网络安全”、“窃取网络数据”或“危害计算机信息系统的安全”等违法行为的具体构成。此种外延式的调整尽管外观上较为庞杂,却有利于清晰刻画网络爬虫乃至类似网络活动的合法性边界,进而引导精准的执法活动、司法审查与企业合规体系建设,在稳定社会预期、减少误解误判的同时节约大量社会经济成本。
(二)平衡行政处罚与刑事处罚之运用
如前所述,在网络爬虫的法律责任追究中,行政处罚与刑事处罚的运用处于一定程度的失衡状态。对网络爬虫的行政处罚尽管有包括《个人信息保护法》《治安管理处罚法》《网络安全法》《数据安全法》在内的众多法律规范之授权,使之转化为必要的行政处罚却需要一定的机制支持。欲使行政处罚与刑事处罚之运用各得其所而臻于平衡,可以从四个方面着手强化行政处罚的适用。
一是引入合规激励。在刑事诉讼法制中明确合规激励的空间,对于充分发挥行政处罚的作用甚为必要。合规激励包括行政监管激励和刑法激励,此二者不必同时运用;在实施刑法激励的同时不折不扣地实施行政处罚,一定条件下有助于加强刑法激励的效果。如果调查违法爬虫案件缺乏必要的技术侦查手段,而采取网侦、特侦措施的条件又不宜太宽松,则对于企业所进行的、社会危害性不大的网络爬虫违法活动,在立案侦查取得一定证据后,可以考虑建立和运用合规不起诉结合行政处罚的机制,使涉案企业切实感知法律的威慑力而及时规范爬虫活动。《公安机关办理行政案件程序规定》中已明确公安机关办理刑事案件过程中收集的证据材料可以在行政案件中使用。由此,未来的刑事诉讼法制在正式建立合规制度时,可以结合合规不起诉的试点经验设计专门的刑事案件转化程序,使行政处罚在适当的时机发挥精准的惩戒与威慑作用。此种机制必须具备明确的不起诉条件、合规标准、整改期限及审查与监督机制等,防止以行政处罚简单代替追究刑事责任。
二是建立证据标准。公安机关可以通过部门规章或类似内容的其他规范性文件建立专门的证据标准,通过接受企业举报的案件及报送的证据材料,作出对违法网络爬虫的行政处罚。企业对于违法爬虫活动的证明较为困难,但亦非全无手段。以爬虫相关民事诉讼中具有典型代表性的“前锦诉逸橙”一案为例,一审法院要求举证证明全国范围代理IP地址直接来源于涉嫌侵权方,明显超出了企业的举证能力范围。但是,企业也可以通过一定技术手段识别和追踪侵权者,例如网站可以通过要求账号密码登录及数据埋点等常规手段,对每个登录账号及其IP地址的行为进行记录及分析,并利用新兴的互联网数据取证系统固定爬虫方或第三方非法利用爬取数据的可见证据;还可以通过图片隐写术(Steganography)等方式对特定的数据写入可追踪的秘密信息,用以追踪恶意爬取和使用的图片、视频等,并形成电子证据。企业通过以上技术手段获取的侵权信息理论上可以经由一定标准转化为行政案件可接受的证据,助力公安机关或网信部门追究网络爬虫的行政法律责任。
三是合理延伸处罚范围。如基于《网络安全法》制定针对性的实施条例或实施办法,行政处罚即可进一步延伸至非法经营的打码平台、代理IP池等对网络爬虫有关键支撑作用的中间服务。地方各级公安机关可以充分利用《网络安全法》第63条所包含的“没收违法所得+大额罚款”的法律责任,在侦查网络爬虫相关刑事案件的同时,对尚不构成犯罪的违法中间服务作出行政处罚,并借公开行政处罚的适当时机,利用此种行政处罚的威慑力进行违法业务排查清理,从而对网络爬虫技术的滥用作“釜底抽薪”式的预防和控制。
四是有效实施《个人信息保护法》的行政处罚。《个人信息保护法》第66条对于“违反本法规定处理个人信息,或者处理个人信息未履行本法规定的个人信息保护义务”规定了高额的行政处罚,第67条规定了相应的信用惩戒措施(记入信用档案并予以公示),第71条又规定了治安管理处罚(与《治安管理处罚法》第29条相衔接)。上述行政法律责任的引入对于爬虫活动的行政规制而言将起到有力的支持作用,尤其第66条所规定行政处罚的实施主体主要是并不具备刑事司法职权的各级网信部门,如其能充分运用《个人信息保护法》的行政处罚授权,将为行政处罚与刑事处罚的平衡带来积极的变化。侵害个人信息的爬虫活动在违法爬虫活动中占据相当大的比例,因此,在坚守刑法谦抑性立场的同时,充分运用第66条对侵害个人信息的爬虫活动实施行政处罚,有利于平衡爬虫治理的法律责任结构,强化行政规制的实施效果,提升爬虫规制的整体合比例性。
(三)引导爬虫技术的合理利用
行政规制除通过负担行政的方式遏制违法活动外,更可以通过给付行政(Leistende Verwaltung)、转介行政(Vermittelnde Verwaltung)乃至引导行政等方式引导相对人作出合法且符合公共利益的选择。引导性的行政规制手段理论上较为丰富,包括补贴、认证、奖励、税费减免、资源配置等,但就网络爬虫的业务特性而言,由于其本身就有较强的经济动机,不需要通过额外的经济手段形成激励,更多地需要注重对行为合法性的判断准则及合法获利空间的精准把控。此方面的规制手段主要包括技术标准制定、负面信息披露及监管沙盒等。
技术标准可以更为清晰、精确地界定爬虫的合法性边界。《个人信息保护法》第62条对国家网信部门的授权中就包含“制定个人信息保护具体规则、标准”,及针对部分特殊保护对象及场景“制定专门的个人信息保护规则、标准”。技术标准往往带有部分规范内涵,即便是纯粹的技术标准也有助于明确合法性的界限。在审判实践中,技术标准对行政、民事、刑事审判均早已在事实认定构成要件方面发挥实质性作用,协助司法机关判断合法与非法、罪与非罪的边界。不仅如此,技术标准实际上经常包含有规范性的内容。例如,前述推荐性国标《信息安全技术个人信息安全规范》(GB/T 35273-2020)中就包含了较多规范性的内容,如规定何为“个人信息”、“个人敏感信息”,规定个人信息安全基本原则,规定收集个人信息的最小必要要求等等。目前,相关技术标准更多地是基于网络信息安全及通信技术对网络数据的传输、认证、访问控制及个人信息保护等方面提出防御性要求,直接规定爬虫相关内容的仅有《互联网新技术新业务安全评估要求信息搜索查询服务》(YD/T 3743-2020)等寥寥可数的行业或地方性标准,且均针对基本无害的通用爬虫。《数据安全法》第17条明确支持多方主体参与组织制定数据开发利用技术、产品和数据安全的相关标准,在国务院标准化行政主管部门及网信、公安、工信等有关部门的推动下,爬虫方面的技术标准将有能力为合法的爬虫活动提供专业、清晰而精细的全面指引。
负面信息披露对于违法主体以外的企业及个人而言,可以起到事实上的行为指引作用。一定前提下,负面信息披露可以成为高效的风险规制手段,其警告危险功能可以灵活、有效地达成规制目的。尽管从事网络爬虫活动的中小企业和个人大多可能对商誉损失及舆论压力并不敏感,但较高级别的行政机关对网络爬虫方面违法犯罪信息的充分披露却可以使相关市场主体认识行为合法性边界所在,也可以使一线执法部门更清晰、准确地形成有关各种新兴业态的合法性判断。针对“反反爬措施”的负面信息披露尤其重要。完全不包含“反反爬措施”的企业级聚焦爬虫可谓相当罕见,丰富多样的各种“反反爬措施”能否被认定为违法、违法性程度如何,对于相关新兴数据业务的从业者而言是非常有用的风控信息,公安机关及网信部门如能在此方面持续动态整理和发布具有一定权威色彩的负面案例,亦有助于未雨绸缪,使本无故意违法犯罪倾向的从业者避免陷入法律风险之中。
监管沙盒(Regulatory Sandbox,又称监管沙箱)是一种新兴的监管手段,对于合法性边界不完全明晰的新型业务,可以通过组合性的条件设置限定参与者的业务开展范围及规模,从而为从业者和监管者双方提供相对安全的试验环境。监管沙盒可以针对被监管对象的特点进行专门设计,甚至提供一定的沟通机制,使监管者和被监管者可以共同探索业务合规的空间,形成针对性的监管制度和风控要点,并已在区块链领域获得广泛应用。对于鱼龙混杂的(大)数据行业及不断更新的网络爬虫技术,获得相应法律法规授权或政策性试点权限的地方政府亦可引入监管沙盒,探索精准的合法性评价机制和业务合规框架,同时积累针对性的监管方案及监管经验,为进一步的立法工作奠定基础。例如,不同“反反爬措施”的潜在危害实际上差异较大,对其进行风险分级实属必要;但此种风险分级不仅要考虑技术因素,也要考虑“反反爬措施”对被爬方计算机信息系统及数据安全造成干扰的价值损失,实践中不易形成成熟的风险等级认定标准。此类监管措施正好可以借助监管沙盒获得初步的探索与验证,待其相对成熟后再全面推广直至纳入相关法律规定。
在上述三种机制中,技术标准是对合法性边界的静态界定,负面信息披露可被认为是对合法性边界的动态反馈,而监管沙盒则是有关合法性边界的即时评判和互动沟通机制。此外,行政机关还可以推动相关行业协会或其他社会组织形成自律机制。中国互联网协会2012年发布的《互联网搜索引擎服务自律公约》就包含了对通用爬虫技术的自我约束。类似的自律机制即便尚未面世,行政机关在此方面也可以有所作为。
(四)提升公共数据供给及智能公共服务能力
对于某些涉及公共服务的网络爬虫,行政机关或具有公共管理职能的组织还可以采取更加主动的方式,主动提供公共数据及数据处理或相关计算服务,减少滥用爬虫技术的可能性。例如,火车票在我国具有较强的公共物品和社会福利属性,为破解大量第三方爬虫自动抢票收取高额额外费用、公民正常购票渠道不通畅的难题,12306网站及App推出自动抢票、余票候补等一系列功能,既为普通用户提供了普遍的便利条件,又大幅度地消除了滥用爬虫技术的空间。
类似地,如果政府数据开放及智慧政务得到进一步推动,企业及个人比较容易通过应用程序编程接口(API)等方式获取数据或自动化服务,政府网站及政务数据就将一定程度上免遭爬虫技术滥用之害。诸如中国裁判文书网等往往被市场主体及学术机构需求全数据的站点,还可以对特定单位提供包含身份验证的实名数据共享请求与传输机制,甚至建立外部镜像,在强化主站点反爬措施的同时实行按需的数据共享,减轻网站的反爬压力。此方面的相关工作已受到部分地区的重视。例如,贵州省质量技术监督局从2016年开始接连制定了13项有关政府数据开放的地方性标准,清晰地规定了政府数据分级分类标准、共享数据资源目录、主要数据类别、管理机制以及工作流程。其中,《政府数据数据分类分级指南》(DB52/T 1123—2016)就规定了对于公开数据“政府部门无条件共享;可以完全开放”和对于内部数据“原则上政府部门无条件共享”的要求,企业如果能较为集中、便利地从政府数据开放平台取得上述数据,也就不必再致力于爬取各政府部门网站及其他市场主体的相同数据,进而减轻后二者的反爬压力。当然,相关网站也可以采取对账户的超限计费机制,在要求实名认证账户登录操作的前提下对每个账户超出一定次数和流量的操作实行按次加按量计费,既保证普通公民正常利用数据资源的机会和能力,又减轻网站运行负荷并获得用以维护网站的合理费用。相关计费条件和费用水平可以根据正常人的一般操作需求及机制设计理论中用以发现真实需求价值的VCG机制设定。
即便如此,企业对爬取数据的需求仍然有相当一部分集中在商业数据(如商户及商品报价)与个人信息方面,扩大公共数据与智能公共服务的供给并不能解决此部分需求。爬取受法律保护的商业数据及个人信息之行为较易触及违法乃至犯罪的边界,对此仍应通过前述民事、刑事及行政法律机制的综合运用,全面防范滥用爬虫技术的法律风险。
结语
网络爬虫的法律治理涉及多方面的利害关系,必然需要民事、刑事与行政法律机制的共同运用。行政立法对合法性边界的具体调控作用、行政处罚相对于民事和刑事法律责任的独特威慑作用、多元行政形态中包含的积极引导作用、政府数据开放和智慧政务对爬取数据需求的分流与转化作用,使得行政规制在网络爬虫治理中有着远远超出单一威慑维度的“立体”效果。
诚然,由于网络爬虫(尤其是聚焦爬虫)的兴起时间甚短,其法律治理之道亦尚在探索之中,前述各种行政规制手段大多数仍然只是现行法律制度及公共行政实践背景下有待进一步研究和检验的备选方案。然而,此种行政规制框架即便并未立即在爬虫治理领域成为现实,也很可能在未来针对新兴信息技术活动的规制中以不同的名目出现。网络爬虫一定程度上能够代表具有一定商业价值而又包含复杂法律风险的新兴信息技术应用,探索网络爬虫的行政规制方案,某种意义上也是探询行政法如何回应层出不穷的新兴信息技术风险之挑战。如何充分利用行政规制超越单一威慑维度的立体化治理能力,全面回应复杂的法益保护要求,平衡风险控制、技术发展与商业创新的需要,当属信息时代颇具基础意义的重要论题。