返回首页
当前位置: 主页 > 互联网技术 > 数据挖掘 >

大数据安全及隐私保护概述

时间:2016-07-13 22:21来源:电脑教程学习网 www.etwiki.cn 编辑:admin

 大数据是近年来非常热的一个话题,目前IT科学问题基本三年为一个周期,但是大数据据预计会有6~9年的话题周期,因为云计算话题从成熟到应用,已经走过约八九年的历程。

  大数据分析挖掘的价值

  从大数据本身来看,存在有很多观点。比如2010年Science上刊文指出,能够根据个体之前的行为轨迹预测他/她未来行踪的可能性,即93%的人类行为可预测。大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。从“数据”到“大数据”,不仅仅是数量上的差别,更是数据质量上的提升,即从量变到质变。

  随着计算机的处理能力的日益强大,人们能获得的数据量越大,能挖掘到的价值就越多。实验的不断反复、大数据的日渐积累让人类发现规律,预测未来不再是科幻电影里的读心术,这也是大数据分析可见的价值之一。

  从大数据分析挖掘的价值角度来看,大数据分析挖掘和数据融合的异同在于:大数据分析挖掘因为有极其丰富的数据作为基础,可以让“有规律的随机事件”在大量重复出现的条件下,呈现几乎必然的统计特性。而数据融合其实是在一定的数据量条件下,通过多源传感器的协同,改进测量和预测的结果,在发现规律、预测未来的准确性方面和大数据分析挖掘不在一个数量级上。我们认为,从数据融合到大数据分析挖掘,其实是从小智能到大智慧,这也是大数据分析挖掘的核心价值。

  大数据国家发展战略机遇

  无论是从个人、行业、国家可能已都把数据看成一种有效的资源,大数据的开放和开发如今已经上升到一个国家的战略。2015年是中国大数据发展高峰期,我国政府部门颁布了大数据开放行动的战略。2015年底,《中共中央关于制定国民经济和社会发展第十三个五年规划的建议》通过并提出了发展“互联网+”、分享经济和大数据等创新战略,更是将大数据开放、开发提到了国家战略高度。大数据作为社会的又一个基础性资源,将给社会进步、经济发展带来强大的驱动力。大数据代表了先进生产力方向,已经成为不可阻挡的趋势。

  大数据安全现状

  从斯诺登事件曝光美国全球监控计划来看,实际它曝光的不仅是一个所谓的监控,很大程度说明网络安全中攻防的行为,包括个人上网的行为、习性、轨迹,很多数据都可以精确的定位并找到数据源。大数据的安全问题表现在:

  一是网络攻击成愈演愈烈之势。如今的网络攻击,往往是通过各种手段获得政府、企业或者个人的私密数据。因此在大数据时代,数据的收集与保护成为竞争的着力点。从隐私的角度来看,大数据时代把网络大众带入到了一种开放透明的“裸奔”时代。

  二是DT(数据技术)时代是开放与安全的二元挑战。在大数据获得开放的同时,也带来了对数据安全的隐忧。大数据安全是“互联网+”时代的核心挑战,安全问题具有线上和线下融合在一起的特征。传统解决网络安全的基本思想是划分边界,在每个边界设立网关设备和网络流量设备,用守住边界的办法来解决安全问题。但随着移动互联网、云服务的出现,网络边界实际上已经消亡了。信息安全的危险正在进一步升级,在APT、DDos、异常风险、网络漏洞等威胁下,传统防御型、检测型的安全防护措施已经力不从心,无法适应新形势下的要求。

  三是难以用有效的方式向用户申请权限,实现角色预设;难以检测、控制开发者的访问行为,防止过度的大数据分析、预测和连接。在大数据时代,很多数据在收集时并不知道其用途是什么,往往是二次开发创造了价值,公司无法事先告诉用户尚未想到的用途,而个人也无法同意这种尚是未知的用途。所以这样一种威胁状态是值得我们去面对和需要思考的问题。

大数据带来的网络安全和用户隐私问题

  一是大数据依托的NoSQL(非关系型数据库)缺乏数据安全机制。从基础技术角度来看,大数据依托的基础技术是NoSQL。当前广泛应用的SQL(关系型数据库)技术,经过长期改进和完善,在维护数据安全方面已经设置严格的访问控制和隐私管理工具。而在NoSQL技术中,并没有这样的要求。大数据数据来源和承载方式多种多样,如物联网、移动互联网、PC以及遍布地球各个角落的传感器,数据分散存在的状态,使企业很难定位和保护所有这些机密数据。NoSQL允许不断对数据记录添加属性,其前瞻安全性变得非常重要,对数据库管理员提出了新的要求。

  二是社会工程学攻击带来的安全问题。社会工程学的特点是:无技术性、成本低、效率高。该攻击与其他攻击的最大不同是其攻击手段不是利用高超的攻击技术,而是利用受害者的心理弱点进行攻击。因为不管大数据多么庞大总也少不了人的管理,如果人的信息安全意识淡薄,那么即使技术防护手段已做到无懈可击,也无法有效保障数据安全。由于大数据的海量性、混杂性,攻击目标不明确,因此攻击者为了提高效率,经常采用社会工程学攻击。该类攻击的案例很多,如黑客先攻击某论坛的网站,使用户无法正常登录。然后再假冒管理员,以维护网站名义向用户发送提醒信息,索要用户的账号和密码,一般用户此时会将密码和账号发送给黑客。此外,还有采用冒充中奖、假冒社交好友、信用卡挂失等欺诈手段获得合法用户信息。

  三是软件后门,也会成为大数据安全的软肋。在软件定义世界的时代,云计算、大数据的基础,软件是IT系统的核心,也就是大数据的核心,所有的后门可能都是开放在软件上面的。据了解,IBM、EMC等各大巨头生产制造的存储、服务器、运算设备等硬件产品,几乎都是全球代工的,在信息安全的监听方面是很难做手脚的。换句话说,软件才是信息安全的软助所在。软件供应方只要在主板上加入特殊的芯片,或是在软件上设计了特殊的路径处理,检测人员只按照协议上的功能进行测试,根本就无法察觉软件预留的监听后门。换言之,如果没有自主可控的信息安全检测方案,各种安全机制和加密措施,就都是形同虚设。所以近期代码审计会是安全领域一个非常重要的领域。对于现代信息安全而言,最危险的行为是将自主控制的权力交给“他人”。这就好比将自家的钥匙全部交到了外人手里,安全问题又从何谈起呢?

  四是文件安全面临极大挑战。文件是整个数据和运行些核心。大多数的用户文件都是在第三方的运行平台中存储的和处理的,这些文件往往包含了很多部门和个人的敏感信息,在安全性和隐私性自然成为一个重要的问题。尽管文件的保护提供了对文件的访问控制和授权,例如Linux自带的文件访问控制机制,通过文件访问控制列表来限制程序对文件的操作。然而大部分文件保护机制都存在一定程度的安全问题,它们通常使用操作系统的功能来实现完整性验证机制,因此只依赖于操作系统本身的安全性。但是作为网络攻击,操作系统才是最大的一个攻击点。

  五是大数据存储安全问题。大数据会使数据量呈非线性增长,而复杂多样的数据集中存储在一起,多种应用的并发运行以及频繁无序的使用状况,有可能会出现数据类别存放错位的情况,造成数据存储管理混乱或导致信息安全管理不合规范。现有的存储和安全控制措施无法满足大数据安全需求,安全防护手段如果不能与大数据存储和应用安全需求同步升级更新,就会出现大数据存储安全防护的漏洞。

  六是大数据安全搜索挑战和问题。我们需要更高效更智慧的分割数据,搜索、过滤和整理信息的理论与技术,以应对大数据越来越庞大的处理量,特别是实时性数据变化加快,以及非结构化数据品种增多。大数据安全搜索服务将上述浩瀚数据整理分类,可以帮助人们更快更高效地从中找到所需要的内容和信息。大数据安全搜索挑战涉及通信网络的安全、用户兴趣模型的使用安全和私有数据的访问控制安全,包括传统搜索过程中可能出现的网络安全威胁,比如相关信息在网络传输时被窃听以及恶意木马、钓鱼网站等,也包括服务器端利用通信网络获取用户隐私的危险。

  七是基于大数据的威胁发现技术挑战。借用中共中央办公厅机要局副局长冯登国的观点,“棱镜”计划可被理解为应用大数据方法进行安全分析的成功故事。通过收集各个国家各种类型的数据,利用该技术发现潜在危险局势,在攻击发生之前识别威胁。基于大数据的威胁发现技术虽然具有上述的优点,但它目前存在一些挑战:一方面,大数据的收集很难做到全面,它的片面性会导致分析结果的偏差。为了分析企业信息资产面临的威胁,不但要全面收集企业内部的数据,还要对一些企业外的数据进行收集;另一方面,大数据分析能力的不足,影响分析的准确性。

  八是大数据带来的高级可持续攻击挑战。传统的检测是基于单个时间点进行的基于威胁特征的实时匹配检测,而高级可持续攻击(APT)是一个实施过程,无法被实时检测。此外,大数据的价值低密度性,使得安全分析工具很难聚焦在价值点上,黑客可以将攻击隐藏在大数据中,给安全服务提供商的分析制造很大困难。黑客设置的任何一个会误导安全厂商目标信息提取和检索的攻击,都会导致安全监测偏离应有方向。

  前文中提到的APT,也就是基于大数据这样一种高级可持续的威胁攻击,比如量子网攻。美国《纽约时报》2014年1月15日曝光了美国网络战新技术量子项目,可入侵未联网的电脑、iPhone和大型网络服务器,从2008年开始,已操控全球10万台计算机,主要窃密中俄核心军方网络。“量子”计划的诞生,意味着个人隐私的终结,全球信息安全陷入危机。量子网攻可能是近几年全球最完美的一个攻击技术,它也是可以看得到的一系列经典攻击的杰作。总体来讲量子网攻是近年来高级可持续威胁当中最具代表性的,也是世界各国的网军包括黑客非常关注的一个主流攻击。

  九是大数据支撑平台--云计算安全。云计算的核心安全问题是用户不再对数据和环境拥有完全控制权,云计算的出现彻底打破了地域的概念,数据不再存放于某个确定的物理节点,而是由服务商动态提供存储空间,这些空间有可能是现实的,也可能是虚拟的,还可能分布在不同国家及区域。用户对存放在云中的数据不能像从前那样具有完全的管理权,相比传统的数据存储和处理方式,云计算时代的数据存储和处理,对于用户而言,变得非常不可控。云环境中用户数据安全与隐私保护难以实现。

  十是大数据用户隐私保护考验问题。大数据分析预测带来的用户隐私挑战。从核心价值角度来看,大数据关键在于数据分析和利用,但数据分析技术的发展,对用户隐私产生极大的威胁。在大数据时代,想屏蔽外部数据商挖掘个人信息是不可能的。目前,各社交网站均不同程度地开放其用户所产生的实时数据,被一些数据提供商收集,还出现了一些监测数据的市场分析机构。通过人们在社交网站中写入的信息、智能手机显示的位置信息等多种数据组合,已经可以以非常高的精度锁定个人,挖掘出个人信息体系,用户隐私安全问题堪忧。

  十一,大数据共享安全性问题。我们不知道该如何分享私人数据,才能既保证数据隐私不被泄漏,又保证数据的正常使用。真实数据不是静态的,而是越变越大,并且随着时间的变化而变化。当前没有一种技术能在这种情况下产生任何有用的结果。

  许多在线服务要求人们共享私人信息,但是,在记录级的访问控制之外,人们根本不知道共享数据会意味着什么,不知道共享后的数据会怎样被连接起来,更不知道如何让用户对共享后的数据仍能进行细粒度控制。

------分隔线----------------------------
标签(Tag):大数据安全 隐私保护
------分隔线----------------------------
推荐内容
猜你感兴趣