最近不少金融信息服务机构因「爬虫」而被整肃,爬虫技术到底有没有罪?来看看法律专家石钛戈的详细解读。

原文标题:《罪与非罪:被污名化的「爬虫」》
作者:石钛戈,金茂凯德律师事务所合伙人

如果人们使用「网络爬虫」作为关键词在搜索引擎上搜索,最多的搜索结果将导向最近由公安机关和金融监管机构发动的一系列整肃「爬虫」的行动。在媒体报道中,多家知名的金融信息服务机构,例如 51 信用卡、同盾科技、公信宝等,都在被立案调查之列。有报道称,「央行日前发文紧急调研银行与第三方数据公司合作情况,同时要求各机构排查自身业务中是否存在违规爬虫行为」。一时间可谓闻「爬」色变,本来作为一项互联网技术名称的「爬虫」转眼间成了金融企业眼中的敏感词。

在这样的大治理环境下,互联网企业是否还能安全地运用爬虫技术,如何划清爬虫技术应用中的罪与非罪的界线,成为一个值得探讨的话题。本文拟从已有的刑事案例出发,简要梳理涉及爬虫应用的刑事司法认定,在此基础上,结合既有的法律规范和实践,为爬虫技术的应用划出红线与安全线。

「爬虫」到底有没有罪?法律视角专业解读

「爬虫」本无罪

虽然近期对金融大数据和互联网征信类企业的治理整顿或多或少都有「爬虫」牵涉其中,但严格从法律角度看,爬虫技术并不当然非法,对爬虫技术的使用也并不一定涉嫌犯罪。在既有已公布的刑事判决中,直接涉及爬虫技术应用的案例并不多见。从法院判决定罪的角度看,爬虫技术本身并不是构成罪与非罪的的关键性要素,最终导致被告人被定罪量刑的还是在于被告人利用包括爬虫技术在内的技术手段实施了不法行为。

案例 1:利用网站漏洞使用了爬虫程序获取用户信息(非法获取计算机信息系统数据罪)

在(2014)杭余刑初字第 1231 号案中,被告人黄某某和翁某某被法院认定利用淘宝店铺存在的漏洞,编写了一套 javascript 代码植入其负责提供服务的店铺的网页,从而获取访问该店铺的买家和卖家的 cookie (即用户使用淘宝帐号密码登陆时产生的一组身份认证信息),继而使用网络爬虫程序携带 cookie 信息来执行对应帐号有权限的所有操作,从而实现所编写的 javascript 代码被复制到其他访问该店铺的卖家店铺源代码中,并以此不断扩散。两个被告人借此方式获取了大量的用户 cookie,之后再使用自己编写的订单同步程序(也是一个爬虫程序)获取了相应的用户的订单信息(包括昵称、交易时间、商品信息、收货人姓名、电话、地址等大量个人数据)。基于上述事实,法院认为两被告人的行为系「侵入计算机信息系统,获取该计算机信息系统中存储、处理、传输的数据」,进而认定他们构成非法获取计算机信息系统数据罪。

在这个案例中,爬虫程序只是被告人利用网站漏洞侵入淘宝店铺网络系统获取订单数据所采用的一些列技术手段中的一种。法院在认定犯罪事实的时候只是客观地查明了被告人所使用的技术手段,而并未对这些技术手段进行评价,定罪的着眼点在于被告人利用了技术手段所实施的侵入计算机系统获取数据的非法行为。有趣的是,在这个案例中法院虽然查明并且纠正了检察机关有关究竟是谁编写了爬虫程序的指控,但这一事实并未对那个编写了爬虫程序的被告人的量刑产生任何不利影响。由此可见,在这个案例中,爬虫程序并不被法院视为一种本身即非法的技术工具。

案例 2:在软件系统中植入爬虫程序导致数据被删除(破坏计算机信息系统罪)

在(2018)津 01 刑终 300 号案中,被告人王某受托对十三届全运会组委会的接待服务管理系统的美工进行改善,从而获得了该系统的管理员账户和密码。在此过程中王某和他委托的黄某发现该系统存在安全漏洞,继而为了获取对该系统的安全维护业务而指使黄某对该系统进行攻击。黄某为此编写了一个爬虫程序植入到接待服务管理服务系统,以期利用爬虫程序自动抓取网站页面而拖慢网站的运行速度,却未预料到该爬虫程序在运行中自动点击了系统中的「删除」按钮,导致该系统内存储的 4000 余条信息被删除,使得全运会的接待服务工作遭受严重影响。法院认为两被告人「侵入计算机信息系统,造成计算机信息系统中存储的数据被删除,且后果严重」,因而认定「其行为均已构成破坏计算机信息系统罪」。

在这个案例中,法院确认了黄某所编写的爬虫程序系导致系统内数据被删除的原因,但仍然没有对爬虫程序本身做任何评价。在定罪时,法院所考虑的事实主要还是集中在王某和黄某的主观犯罪方面(攻击系统以获取安全维护的业务)、犯罪的行为(利用管理员账户植入了用以攻击的程序)以及后果(数据被删除,接待工作受影响)这些要素上。

案例 3:利用爬虫程序窃取个人信息并出售(侵犯公民个人信息罪)

在(2018)沪 0116 刑初 924 号案中,马某被指控使用自己编写的爬虫程序窃取 APP 及网站的用户信息,后将其中包含的公民个人信息(包括姓名、联系方式等)出售给其他人而获利。法院对马某行为的定性为,「侵犯公民个人信息罪」。在法院的判决中,爬虫技术也仅仅被作为马某的作案工具而一笔带过。

案例 4:利用爬虫技术对视频网站的影视作品实施聚合链接(侵犯知识产权罪)

在(2017)沪 0104 刑初 325 号案中,被告人段某某被指控在网上开设视频网站期间,利用爬虫技术,针对乐视、土豆等视频网站的影视作品进行聚合链接,从而吸引用户的点击,并通过在该网站发布广告等方式获利。法院认为,段某某的上述行为系通过信息网络向公众传播 (视为发行) 大量他人影视作品,非法经营额达 53 万余元,属情节特别严重,其行为已构成侵犯著作权罪。

相比起在其他几个案件中对于爬虫技术的一带而过,法院在该案判决中花费一定的篇幅对于如何看待技术应用在犯罪行为中的角色进行了分析,特别强调「任何技术的发展和应用不应该引发对行为是否构成犯罪的质疑,技术本身是不存在任何价值选择的,需要判断的是行为人利用技术实施了什么行为,该行为的本质和对法益的侵害是否已经符合犯罪的构成要件。」对于基于爬虫技术而实现的聚合链接,法院进一步指出,「链接技术本身是中立的,但技术中立并不代表采用该技术就不构成侵权或严重情况下不触犯刑律。只有主观上不明知或应知被链作品系侵权作品,客观上未故意避开或破坏技术措施,仅是基于用户指令为查找、定位、浏览、获取相关信息而实施的客观的网页和目标间的转换连接,才有可能豁免其相关责任。」

从上述几个典型案件的判决来看,司法裁判者对于爬虫技术及其应用的评判还是持中立的立场。特别是案例 4 中上海徐汇区法院的论述,清晰地阐明了爬虫技术的中立性,并未将罪错归咎于技术本身。因此,虽然陷于在舆论上被污名化的困境,但在法律意义上,「爬虫」是无罪的。

避免触雷,爬虫技术应该怎么用?

在肯定爬虫技术本身中立性的同时,也需要看到近期这一波看似针对「爬虫」的整肃行动的起因正是因为这本来「无罪」的技术已被滥用。当然,近期的治理行动本身有一定的特殊背景,由于爬虫技术常常作为不良企业用来侵害公民个人信息、从事非法金融活动的典型工具,因此在治理行动中多被提及。但这并不意味着爬虫技术已被监管机关认定为非法,也不应当影响在合法合规的前提下,对爬虫技术的应用与创新探索。在监管日益强化和精细化的背景下,互联网企业对于爬虫技术的应用应该更加谨慎,具体而言,笔者建议可以从如下几个方面入手防控合规风险:

遵守相关法律、法规和规章中适用于爬虫技术应用的规则

在已有法律体系中,对于爬虫技术应用有比较直接适用性的条文并不多,一些法律规定虽未提及爬虫技术,但同样可能规制涉及该项技术的应用。例如《反不正当竞争法》第十二条所规定的,经营者不得利用技术手段,通过影响用户选择或者其他方式,实施妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为,该等行为包括「未经其他经营者同意,在其合法提供的网络产品或者服务中,插入链接、强制进行目标跳转」。如上述案例 4 中,就涉及以爬虫程序在其他服务者所提供的视频作品中建立聚合链接。

又如,国家网信办于 2019 年 5 月 28 日发布的《数据安全管理办法(征求意见稿)》第十六条明确规定,「网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。」这一尚未正式定稿生效的《办法》中的条款是来自监管机关对于爬虫技术的自动搜索和数据收集功能的第一次直接规制,这里所确立的不得妨碍正常运行的基本原则,以及对访问收集流量所划定的界限,在实际操作中具有很强的指导和参考意义。

充分尊重并遵守爬取对象网站对爬虫所明确设定的规则

虽然在国际上和国内商业实践中,对于「爬虫协议」(robots.txt)的效力包括其限定范围的合理性,存在诸多争议,但从合规角度看,如果爬取对象网站已设置了明确的爬虫协议,以充分尊重遵守该等爬虫协议中的限制作为爬虫技术使用者抓取该网站信息的基本规范,仍然不失为一种防控合规风险的有效措施。

早在 2014 年,北京市第一中级人民法院即在著名的「百度诉奇虎案」((2013) 一中民初字第 2668 号案)中,就曾指出,奇虎在推出搜索引擎的伊始阶段没有遵守百度的 Robots 协议,其行为明显不当,应当承担相应的不利后果。在该案法院为 Robots 协议纠纷所确立的「协商-通知」程序中,也是要求搜索引擎服务商对其认为设置不合理的爬虫协议,首先应向网站所有者提出书面修改的请求,后续还需要遵循协商、协会调解、诉诸保全措施和法律诉讼的步骤,而并不认可爬虫技术使用者可以迳行绕开爬虫协议进行抓取的做法。这一里程碑性质的判例所确立的原则,对于爬虫技术的使用者规范自己的行为,降低使用爬虫技术的合规风险,也是有很强的指导意义。

严格区分和控制爬取的对象

如果说爬虫技术使用者未能严格遵守上述两个原则而可能面临的主要还是民事侵权范畴内的责任,那么滥用爬虫技术、不加甄别甚至别有用心地对那些受到法律保护的数据内容进行爬取,则很有可能带来严重的刑事责任。因此,爬虫技术的使用者应当针对不同的爬取对象制订不同应用准则。例如,对于本身就是公开并且处于公共领域的信息,遵循网站本身的爬虫规则(如有)可能就已经尽到了合理足够的义务。但若爬取的对象可能包含如下内容时,爬虫的使用者就必须相当谨慎:受保护的作品(例如受保护的出版物、音乐和影视作品等)、受保护的商业信息和商业秘密、公民个人信息(特别是《个人信息安全规范》中界定的个人敏感信息)。面对这些特殊的对象,爬虫技术使用者在抓取有关信息前必须确保获得权利人(而不仅限于网站的运营方或所有者)合法充分的授权,同时采取必要的安全技术措施。

特别需要注意的是,有一类涉及公民个人信息的爬取场景是,爬虫技术使用者可能获得了第三方机构的授权,从而可以利用爬虫技术抓取这些第三方机构处所存储或处理的个人信息。这种情况下,爬虫使用者在爬取个人信息前需要满足三个前提条件:(1)该第三方机构收集个人信息时已经获得了信息主体的明确同意或授权;(2)该第三方机构已经获得了信息主体的事先授权,可以向爬虫技术使用者分享或披露有关个人信息(如果涉及个人敏感信息,还需要信息主体的明确同意);(3)该第三方机构给予爬虫机构相应的授权以进行数据的爬取。在此基础上,爬虫使用者需要承担对所获得的个人信息的保护义务,不得超出许可的范围而使用爬取的信息,也不得再向其他第三方转让、分享爬取的个人信息(已经进行匿名化处理而无法识别个人的信息除外)。

和互联网时代层出不穷的技术创新一样,作为中立技术的爬虫技术本身具有广泛的应用场景,其应用过程中也面临着各种风险。在大胆探索技术创新、追求业务增长的同时,合规经营也应当是互联网企业生存的一条红线,这一原则也应当被贯彻在爬虫技术的应用上,只有这样,才能远离犯罪和违规的泥潭,让爬虫摆脱被污名化的命运。