政府数据开放引发的风险尚未引起高度关注。本文深入揭示了政府数据开放风险的内涵、类型以及表现形式,并结合国内外政府数据开放实践,指出认知观念、组织体系与文化、政府数据管理水平、数据结构与开放技术以及公务员信息技能等是导致政府数据开放风险的主要原因。同时,提出了政府数据开放风险管理的目标,认为应建立政府数据开放风险识别与评估机制,提高政府数据风险内控机制和培育社会数据风险应对能力。
“尽管公众和政治家们对基于信息的开放政府战略成功寄予较大期望,但要使政府数据适合利用并产生经济和社会价值的话,仍然还存在着重大挑战。”[1]从当前各国政府数据开放的实际看,数据发布与出版过程仍有缺陷和硬伤,数据开放与利用风险更加隐秘复杂,并成为国家安全与公民权益保障的威胁。对此,2013年奥巴马总统发布的行政命令(第13642号)《政府信息的默认形式就是开放和机器可读》中明确要求,联邦政府数据开放过程中,“各部委要详尽分析个人隐私、国家机密和安全风险,以确定哪些信息可以发布”。在开放成为公共治理主旋律的时代,理清数据开放风险,建立数据开放的风险评估与管理体系对于实现政府数据开放的预期效益、维护国家数据主权刻不容缓。
1 政府数据开放风险的内涵与分类
1.1 政府数据开放风险的基本含义
顾名思义,风险意味着不确定性因素和未来可能遭受的损失,是一个系统而多维度的概念,总是与“安全”一词相对应。现代社会是风险社会,充满了因技术、经济、政治发展以及种族民族融合等因素带来的一系列不确定性和安全隐患。尽管“数据信息具有不可否认的潜在价值,但也存在着有效性、相关性和信任性等实质性风险”[2],数据风险是
信息管理与信息资源开发利用活动不容回避的现实问题。政府是开放数据的主要来源,从广义角度理解,政府数据开放风险系指因政府数据开放可能引发的对国家、社会和个人造成危害的所有不确定性。狭义地理解,则涉及因技术开发、信息制度以及信息管理等不当缺位而导致的数据安全漏洞和隐私泄露问题。
1.2 政府数据开放风险分类
国外学者从数据出版流程、对象以及应用的角度将政府开放数据风险具体划分为11类(表1)[3]。也有学者将政府数据风险分为与数据获取问题、治理问题、成本问题、数据自身问题、法律问题、技能问题以及与元数据问题有关的风险[4]。笔者认为,从宏观角度分析,更有助于人们深化对政府数据开放风险的认识和把握,具体而言,政府数据开放需要重点关注的风险隐患主要有以下几个方面。
1.2.1 国家安全风险
一方面,政府数据开放可能会造成国家机密的泄露。尽管单一的数据集披露往往不会产生安全问题,但来自不同数据集的“海量数据经过采集和分析会产生巨大的情报信息价值,成为西方国家对我开展网络空间监视和控制的重要抓手”[5]。例如,美国学者通过跟踪政府公共开支网站(usaspending.govdata portal),大量获取国防部军事设备采购等有关信息,区分活动开支模式,同时结合
媒体对伊拉克局势等报道,借助数据汇集整合技术,发现国防部具体的军事采购时间、金额以及采购单位等信息量的激增与伊拉克战争爆发时间高度吻合,据此可以推论战争的进程、规模等机密性军事信息[6]。可见,当混合不同数据集进行信息集成时,各种直接或间接地保密侵害就在所难免;另一方面,对于发展中国家而言,由于信息基础设施薄弱,计算机网络和信息系统等主要软硬件大都从西方国家进口,“这些软硬件极易留下嵌入式病毒、隐性通道、可恢复密钥的密码等,存在较大的安全漏洞,数据遭损和泄漏的风险较大”[7]。一旦发生数据泄露,则意味着国家数字主权与国家公共安全出现危险。
1.2.2 政治风险
人们推进开放政府数据往往基于这样的前提假设,即数据是客观中性的,政府数据开放有利于提高透明度和政府责任、促进参与。然而,“信息并不是中立的,其控制、使用和调节始终处在权力的操练之下”[8]。政府数据披露的背后常常隐藏着不易察觉的意识形态侵入,例如西方国家各类数据库总会带有强烈的西方价值观导向,会无声地进行意识形态渗透,冲击并消解我国主流意识形态话语权。对于开放数据隐含的政治风险,国外学者曾深刻指出:“实现了数据的获取而忽视了数据本身的政治,(忽视了)该数据揭示了什么,或者如何使用它们以及他们代表了谁的利益?”[9]。
除却意识形态风险,未经审核、不加选择以及忽视配套条件保障的数据披露,在一定程度上会导致公众对政府数据的错误解读,激化社会矛盾,甚至危及政权稳定。对此,哈佛大学肯尼迪学院Archon Fung深刻指出,忽视背景条件,政府数据开放有可能导致“赤裸政府”的出现。因为政府数据开放的主要用户之一就是新闻记者,他们利用开放数据,积极寻求和揭露公共资金浪费或政府失职行为,无意中系统地加强了公众对政府和政治选举等负面看法[10]。也就是说,政治精英与公众之间的信任问题可能会受到开放政府数据的影响,即潜在的政府透明度可能会强化并导致政治空心化情形的出现[11]。
1.2.3 行政风险
有人担心“提高透明度的期望可能过高,开放数据至少在短期内,可能会对政府公信力流失等有负面影响”[12]。一方面,政府数据开放本身具有一定的治理风险:
一是跨部门的数据开放与流动使得政府数据的所有权与治理权变得更加模糊,强烈冲击着原有的政府信息监管体系(如何从原有的数据把关人过渡到数据出版人和数据导读人?),也在数据开发与利用上,“凸显了目前以及将来政府与公众关系的关键和薄弱问题”[13],一旦解决不当,就会导致政府信息监管能力与数字治理能力被削弱。
二是原始数据的大量披露可能导致碎片化行动的风险。“当数据从以往共享的社会经验中被移除,而以过于结构化的数值为主形式出现,会将人们的注意力转移到狭隘的和不相关的(但可量化的)关注上去”[14]。换句话讲,原始形式的数据共享并不仅仅揭示了公正客观的真理,还在一定程度上使数据偏见透明,并允许有更多的所谓“真理”解释。其结果是难以统一认识,容易造成政策误导与政府执行力的弱化。
三是政府责任风险的增加。政府机构不得不接受的事实是,面向公众开放数据就不可避免地要放弃一定程度的控制权[15]。单方面开放海量政府数据而没有配套的数据解释与引导,必然会导致人们对数据内容解读的不确定性,为公共数据的人为操纵和误导预留了空间。国外研究发现,政府数据的开放与透明会使人们“更加关注对政府错误的敏感性,而对政府执行情况的反馈则几乎是盲区”[16],因而会加剧对政府的不信任,严重的还会引发舆情风险。
四是数据利用中的社会分层加剧会损害公共利益。有学者通过对印度班加罗尔地区土地信息管理的调研发现,土地记录数字化的成果主要由中高收入人群和企业使用,进而从边缘化和贫穷的人们那里获得土地所有权[17]。可见,简单的政府数据开放而没有公众可参与和理解的语境及条件保障,数据开放的初衷就会适得其反。对此,有学者警告特殊利益群体,如政治精英、游说者以及利用开放政府数据谋取商业利益的群体,这种有能力支付服务的特权会损害那些由公共部门递送的服务[18]。
另一方面,政府数据开放还会对行政组织结构形成挑战。在开放数据下,数据提供者、加工者、所有者和维护者等角色的交叉重叠使得部门机构与人员的权责归属变得极为复杂,难以清晰界定。一旦各类行政数据公之于众,就将政府决策与执行过程置于公共视野,随着公众对行政流程、组织效率的期望与跟踪则加大了对政府机构合法性、职能履行公正性的质疑,并要求对科层式部门化组织体制、制度弹性和组织文化进行重大调整。
1.2.4 隐私风险
隐私权与信息权是人权的重要组成部分。任何再利用政府数据的机构在一定程度上都要面临与隐私风险有关的活动[19],其中,个人身份识别的隐私保护和地理位置隐私保护是开放政府数据活动亟待解决的重要问题。因为,随着越来越多的数据集被披露公开,通过混合不同数据集,进行汇聚整合与关联分析可以间接地追踪到他人工作生活等隐私,不恰当使用个人数据的机会也随之攀升。
卡内基-梅隆大学的计算机科学家亚历山德罗·阿奎斯蒂和拉尔夫·罗格斯利用社交网站等各类开放数据,成功推测出1989~2003年间8.5%的美国境内新出生人口的9位社保号(接近500万人)[20],从技术手段上揭示了开放数据冲击隐私风险的可能性。无独有偶,希腊学者运用爬虫技术,从开放的公共数据源中成功收集和抓取企业和个人税务登记号码,由此较为准确地推断出企业和个人的商务活动内容,进而得出结论,随着大量政府数据在互联网上公开,会出现具体的和严重的隐私问题[21]。不仅如此,公众对隐私泄漏的担心又反过来影响到人们向政府提供数据的态度与数据的准确性及时性和完整性。
1.2.5 社会风险
开放意味着降低数据利用门槛,促进更多人的数据获取与共享。但在实际中,开放政府数据可能带来的潜在风险就是机会不平等/社会分化。因为信息获取所需要的知识与能力并不是每个公民都具有或负担得起的,商业性再利用者以及技术精英可以利用分析工具获益,普通公众特别是弱势群体则束手无策,“无法处理数据显现的复杂性和开放数据平台呈现的数据。提供的数据越多就越难以从数据分析中得出结论”[22],进而形成新的数据分化。美国人口调查局的开放数据案例表明,有些可视化数据工具对研究人员有用,但普通市民则几乎没有欲望去操控处理复杂的数据[23],开放政府数据的主要用户仍然是企业和技术精英。在一些发展中国家,特权和不公平已嵌入到数据活动,仅凭大规模的数据开放并不能完全纠正现象背后的阶层分化。同时,由于“公众不能理解数据,更多的数据发布只会导致更大的混乱和不信任”[24],数据开放可能会加剧社会冲突的爆发。
1.2.6 经济风险
一是从成本效益角度分析,暂且抛开人员培训、技术研发以及跨部门协商等巨大的隐性支出,数据开放不仅没有直接收入,大多数效益是间接的,而且还需要有较大的一次性成本投入和持续的人财物支出(表2)。对于奉行紧缩政策的国家而言,财政投入削减或波动的结果可能会导致数据质量、响应速度和功能的下降,并对政府开放数据的承诺及后续执行产生威胁;二是从政府数据开放的再利用情况看,尽管麦肯锡的研究宣称,开放数据的运用将在全球产生30000亿美元的经济附加值[25],但这一结果仍停留在推测阶段,并未在应用层面得到验证,“还没有强有力的迹象表明开放数据能够在发展中国家创造出巨大的企业价值”[26]。同时,从开放数据再利用的市场结构来看,“尽管披露政府开放数据的初衷是通过数据的免费供给而实现民主和市场多元化,但开放数据实际上产生了相反的效果,导致更多的市场垄断”[27]。从欧洲开放政府数据再利用市场结构判断,一些大公司依托以往的数据开发基础和市场优势,已经成为决定性的市场力量,并不断加大与中小企业的经济差距。
2 政府数据开放风险的表现形态与原因分析
2.1 政府数据开放风险的表现形态
2.1.1 数据泄露
意指将部分或全部未经批准公开的政府数据透露给某个未经授权的用户、软件或实体机构。目前,“政府机构与军事机构泄露的数据多为内部文件、相关邮件等,这类数据对于在竞争中掌握主动权有很大的帮助作用”[29]。引发数据泄露的原因有多种,如政府数据管理系统和数据平台存在高危漏洞,内部人员恶意披露以及数据
存储与管理控制上的缺陷等。2011年,切尔西·曼宁从美国国务院窃取了七十多万份文件提供给维基解密公布;2013年,斯诺登则从美国国家安全局窃取了大批未知数量的文件,并向媒介公开;2015年,维基解密公布了来自沙特阿拉伯外交部超过一半的秘密电报和其他文件[30]。除却内部人员以及黑客攻击的有意泄露外,在大数据时代,政府部门单方面的信息公开与数据披露也许符合部门职责要求,但各部门的数据整合与数据挖掘则可能则触及国家安全、个人隐私和商业秘密。荷兰学者的研究发现,人们有可能从开放数据源获取能源、交通等关键基础设施数据,并可借助视觉分析技术等手段将敏感信息编译到单一可配置的多个数据集中。由此认为,对于触及国家稳定和安全的重要基础设施,应该豁免其数据开放的要求[31]。
2.1.2 数据权侵害
随着数据发掘、监控和跟踪能力的空前发展,开放政府数据为“个人行为被预测”创造了机遇,即通过算法归类和内容分析就可有效预测出更为精准详细的个人数据和商业秘密,特别是来自不同数据集的数据整合可能会损害原有数据匿名的隐私/秘密保护举措,客观上为“数据窥探者”和“数据侦探业”的繁荣及其个人信息的过度采集和不被告知的采集等侵权行为提供了契机;同时,由于非授权的增加、删除和修改等操作使得人们在利用开放数据平台获取公共数据时,很容易造成开放数据平台中的关键数据被窃取、篡改或破坏,如身份盗用、数据欺诈等数据滥用,从而危及用户利益。此外,出于知识产权和公共利益保护的考虑,有些政府数据平台需要用户(主要针对企业等再利用者)接受使用许可协议才可以访问原始数据,但非授权用户使用或者某些数据资源被用户以非授权方式使用的情况并不少见。
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。