“数据垃圾”是信息时代的产物,用来比喻已经失去价值或有不良作用的数据。比如垃圾邮件、垃圾短信,比如曾经有用、现在无用的数据信息,再比如由于数据割据所形成的处于休眠状态或者近乎死亡状态的数据孤岛。
在过去,数据垃圾是数据存储和应用过程中产生的废弃物,会影响数据存储的效能和数据运用的效率,因而对于数据管理者来说,是必须清除或抛弃的。而现在,人类正进入大数据时代,大数据运用正深刻影响和改变着我们的生产生活和思维方式。在这样的背景下,数据垃圾开始展现出新的面貌和价值,越来越多的计算资源被用于从数据垃圾中提炼敏感信息,获取涉密内容和重要情报,这应当引起信息安全保密工作者的高度警惕。
数据垃圾将成为新的泄密源
大数据时代,所有数据都是有价值的,这当然也包括数据垃圾。有价值就有保密的需要,当然也存在泄密的风险,数据垃圾的泄密风险主要来自于大数据本身和大数据再利用。
一是积小致巨的数据垃圾存在泄密风险
数据垃圾一般来说呈现碎片化、少量和不重要的特征,由于很难体现使用价值因而容易被人忽视和舍弃。但大数据基本理论告诉我们:如果将极大样本的碎片化数据汇聚到一起,积少成多、聚沙成塔,形成大数据,那么其中一些很难发现的重要价值就能被挖掘出来,尤其当数据样本逼近于总体样本时,所有数据都会“发声”。这一基本理论对于数据垃圾来说同样适用。比如,如今美国和欧洲部署的一些智能电表每6秒钟采集一个实时读数,这样一天所得到的数据比过去传统电表收集到的所有数据还要多。因为每个电子设备通电时都会有自己独特的“负荷特征”,比如热水器不同于电脑,而它们与日光灯又不一样,所以能源使用情况就能暴露诸如一个人的日常习惯、医疗条件和非法行为这样的个人信息。再比如,麻省理工学院的两位经济学家,通过应用软件在互联网上每天收集超过50万种商品的公开价格,形成大数据,然后再把大数据和好的分析法结合,成功预测了2008年9月雷曼兄弟破产之后发生的通货紧缩趋势。事实上,当用户在使用浏览器查看网上新闻、浏览网页时,看似无意的点击浏览动作,在被浏览器收集分析之后,就可以推断出用户的兴趣爱好、职业特点等关键信息。这样的应用技术表明,以前人们所忽视的碎片化数据垃圾,经过信息挖掘和整理之后,同样可以变废为宝。如果我们只是一味地忽视、舍弃当前所认为的数据垃圾,就容易被别有用心的不法分子轻易获取,从而被不法分子利用大数据技术从数据垃圾中掘取有用情报。
二是数据垃圾的再利用存在泄密风险
大数据再利用的基本理论告诉我们:数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可以用于其他目的。判断数据的价值需要考虑到未来它可能被使用的各种潜在方式,而非仅仅考虑其目前的用途。比如,在英国学者维克托·迈尔-舍恩伯格所著《大数据时代》一书中,有一则关于“莫里的导航图”案例,就是数据垃圾再利用的典型案例之一。该案例讲述的是年轻的航海家马修·方丹·莫里利用海军图表和仪器工厂库房里存放的航海书籍、陈旧的地图和图表,以及多年前海军上尉撰写的大量航海日志制作全新航海图的故事。虽然莫里能够接触到的航海日志都是陈年旧货,内容上也无章可循,里面还有很多打油诗和信手涂鸦,但莫里和他的助手硬是把看似垃圾的航海日志里记录的信息绘制成表格并重新整合利用,成功创建了一张全新的更安全、更有效的航海图,取得了空前成功。由此可见,数据垃圾并不是没有价值,而只是处于休眠状态。数据垃圾一旦被再次利用或整合利用,就会重新释放能量,显现数据的隐藏价值。自步入信息化时代以来,在各行各业已经形成大量的所谓数据垃圾,这些数据曾经也被使用过,甚至是反复使用过,数据的基本价值已被挖掘殆尽,然后就被束之高阁,成为“数据孤岛”或“数据坟墓”。由于暂时无法挖掘和体现其后续的使用价值,也由于硬件资源的有限或者人力资源的不足,现实中这些数据垃圾还处于一种失管失控的状态,极易引发数据再利用而导致的失泄密事件。
保密工作如何应对
大数据时代,数据垃圾既能显示其特有价值,同时又不能忽视其泄密风险。对于保密工作者来说,不能再像以往一样把眼光局限在主体数据上,而应在紧盯主体数据的基础上,清醒地认识到数据垃圾存在的泄密风险,并做好防范。
要改变以往对数据垃圾的偏差认识和处理方式
大数据的潜在价值隐藏在无数的个体样本之中,保密工作者再也不能把当前所认为的数据垃圾当作真正的废弃物处理。你所忽视和舍弃的数据虽然渺小,但很有可能正是敌特分子求之不得的重要线索和数据情报来源,保密工作者必须重视所谓的数据垃圾并对之加强管控。同时,数据收集者和拥有者无法想象数据再利用的所有可能方式,也无法估量其潜在价值,大数据的价值永远只能体现在部分挖掘的基础上。因此,保密工作者要认识到包括老旧数据、信息孤岛数据、多次利用的数据甚至是已经公开的数据在内的所有数据,都有其基本价值和潜在价值,而其全部价值的挖掘从理论上来讲只能尽量逼近,而无法穷尽。正如《大数据时代》中指出的一样:“数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。”可以大胆地讲,真正意义上没有任何价值的数据垃圾是不存在的,我们很有可能只是坐在尚未开发的数据喷泉上,或许数据垃圾这一词本身就将在大数据时代自然消亡。保密工作者决不能忽视这些处于休眠状态的“数据孤岛”和“数据坟墓”,应当尽可能多地使用这些数据并保存尽可能长的时间,防范这些似乎没有任何价值的数据垃圾在大数据时代造成失泄密。
要通过延展数据价值阻滞生成所谓的数据垃圾
大数据时代虽然没有真正意义上的数据垃圾,但是“数据割据”“数据孤岛”“数据休眠”“数据坟墓”“数据折旧”仍将长期存在。由于对这些“贬值”的数据缺乏足够重视,引发数据失泄密的事件时有发生,并将随着信息技术的发展在大数据时代很有可能愈演愈烈。防范这类泄密行为的关键在于数据的重复利用,延展其使用价值,也就是要让“老数据展现新的生命力”。一些数据虽然“过时了”或者“封存了”,但只要有了新的使用价值,就会由“僵尸数据”转换成“活跃数据”,而这类“活跃数据”恰恰能够更好地引起保密工作者的重视,促使保密工作者做好相关数据保密工作。因此,对于所谓的数据垃圾,要利用大数据的“数据再利用”“数据重组”“可扩展数据”“数据废气开发”“开放数据”等大数据运用方式来不断挖掘其使用价值,使其保持一定合理状态的“生命特征”,这也是阻滞生成所谓数据垃圾的一个良方。
要权衡好数据再利用与确保信息安全两者的关系
信息共享与保密是一对天生的矛盾,这一矛盾在大数据时代将会更加突出。一方面,为了更为有效地开发和利用大数据,减少和避免数据资源的闲置和浪费,要求在不同区域、不同人群最大限度地实现数据共享与合作,充分挖掘数据的潜在价值。可以预见,在大数据时代,数据共享与再利用将成为一种数据运用的新常态。另一方面,保守秘密要求知悉范围越小越好,人员越少越好。这就要求必须定义严格的数据信息边界,防止知悉范围人为扩大、数据过度扩散,这就不可避免地会在一定程度上对大数据运用和价值挖掘产生反作用力。恰当地平衡好两者的关系,是大数据时代必须解决的问题。因此,应当认识到上文提到的对“僵尸数据”的再利用不是无原则滥用,无原则的数据共享更有可能引发失泄密事件。从这个角度来说,“共享”是有条件的,共享共用的数据必须是非涉密的;而“保密”是无条件的,大数据的共享共用必须确保涉密信息的绝对安全,不能因为要对数据再利用和挖掘潜在价值,就放弃保密原则。要做到既不因为共享共用大数据而降低保密要求,也不能片面追求绝对安全而浪费数据资源。