深网,是指区别于表面网,不为搜索引擎搜索到的网络内容,又称隐藏网、不可见网。深网占据的网络范围极广,或许我们难以感受到,但是我们所浏览的表面网只是冰山一角,深网占据了超过百分之九十的互联网内容。
2001年,Michael K. Bergman将互联网上的搜索服务比喻为像在地球上的海洋表面拉起一个大网的搜索,许多表面信息网络内容或许可以被获取,但是那些有价值的数据在都深网中,并且因此被错失。
深网(来源于网络)
信息时代的发展使我国积累了丰厚的数据资源,大数据时代的到来使数据利用达到了一个峰值。但是由于深网的限制,大多数网络数据被隐藏起来,一般标准搜索引擎不能找到。在一些数据收集中,可能会囿于那些隐藏网络的限制,降低了所得大数据的指向精准度,还可能会降低效率。
同样由于技术限制、利益冲突、数据安全保障等原因,深网的大部分数据资源是不开放共享的。当然,有一些深网的数据对公众隐藏并不代表没有被利用。因为这部分数据信息通常是隐藏的,所以对其可见者是可以有利用价值的。例如一些有资金支持的医院,会利用医疗数据整合大数据以提高效率,而这些医疗数据一般是不会对公众直接开放的。
2016年12月10日,京东被曝泄露12G用户数据,据称,数据包括用户名、密码、邮箱、QQ号、电话号码、身份证等多个维度,数据多达数千万条。这次曝光事件把数据交易黑市推上了风口浪尖,数据黑市,是指法律明确禁止的一些数据的交易。此次事件曝光后,社会各界纷纷表达对于数据安全的忧虑,在数据交易黑市中,首当其冲的莫过于普通民众,在这个互联网时代,被泄露大量个人信息及隐私,就相当于‘裸奔’,严重者甚至面临着财产与人身安全的风险。实际上,有些法律明确禁止公布带用户隐私信息的数据,有的法律则有比较模糊的规定。但是就目前的状况,对数据黑市交易的约束还较多地停留在道德舆论层面。
关于数据交易黑市的新闻报道
AlphaBay上的个人信息买卖
深网的特性更是给这些数据交易黑市提供了便利,一大部分参与非法数据交易的买卖方会利用深网的隐蔽性进行线上数据交易,有些人甚至搭起专门的深网网站进行非法的数据交易。而数据黑市的来源,除了一些拥有大量用户信息的网络平台,还有非法窃取数据,例如制作一些病毒传播以盗窃中毒用户的数据。而数据黑市卖出的,通常是没有进行任何隐私处理等加工的原始数据,这就造成了极其严重的隐私侵犯和数据泄露。
搜索引擎运营者一直试图解决“深网海量数据共享”这个问题,数据泄露越来越严重,深网中的数据就越难以开放共享挖掘利用,这就陷入了恶性循环中。如何在深网数据共享与保护隐私、数据安全中找到一个平衡点,就是问题的关键所在。
完善相应的法律、制定市场准入规则、探索合理的数据交易运营模式,从源头保证数据隐私保护与数据安全,解决大数据的数据来源问题,促进大数据市场趋于完善与规范,从而打击数据交易黑市。突破这一瓶颈,未来,大数据的发展也许会打通任督二脉,得到一个新的发展机遇。