由于大数据分布式平台的特殊性,传统的防火墙、病毒防控等安全机制无法保障大数据服务的安全,往往会出现以下安全问题存在于大数据的应用过程中。(1)分布式计算的安全性。一个执行多个计算阶段的分布式程序必须获得双重安全保护,一方面是对程序本身的安全保护,另一方面是对程序中数据的保护。(2)分布式数据的安全性。NoSQL非关系型数据库系统自身存储的安全问题,以及分布式节点数据的自动分发、聚合等管理所需的额外安全机制。(3)数据源安全。数据源的来源越来越复杂。当系统接收到海量多源异构数据时,大数据采集平台必须解决每一个输入数据的安全可信问题。(4)安全监控和审计问题。互联网大数据云平台和存储海量数据的关键基础信息系统成为网络攻击的重要目标。与此同时,数据所有权问题也日益突出。有必要研究实时确保大数据安全使用的监控和审计系统。(5)加密和访问控制问题。大数据安全需要解决终端和云端两种加密模式及其应用;与此同时,黑客攻击、内部人员未授权访问等导致的信息泄露事件时有发生,大数据的访问控制模型也面临挑战。(6)大数据安全和隐私问题。随着大数据时代的到来,与安全和个人隐私相关的问题层出不穷,这将极大地困扰人们的生活安全和隐私保护,必须从技术和法规等多角度加以解决。人们普遍认为,最令人担忧的是您永远不知道您的隐私何时会被无意中泄露。大数据时代,隐私泄露成为人们最关心的问题。大数据可以将互联网上的数据转化为有价值的资源,但是当大数据让人们的生活变得更加方便快捷的同时,隐私泄露的问题也随之爆发。随着大数据采集和分析技术的发展,数据泄露的风险也越来越大,人们应该正视和规避此类风险。1、肆意采集带来的隐私问题在大数据环境下,用户信息可以通过医疗记录、购物和服务记录、网站搜索记录、手机通话记录、手机定位轨迹记录等方式获取。在采集这些用户时'个人信息,通常未经用户同意,或者用户很少有机会考虑并同意对其数据的使用;谁收集了他的数据;谁两次使用了他的数据;如果谁将对滥用自己的数据负责;自己的数据是否在互联网上被恶意传播;自己的数据什么时候会被销毁等等。因此,对于大数据平台来说,首先应该对数据采集进行脱敏处理。任何公民的个人信息都是“隐私”的一部分。未经个人许可或司法许可,如果以原始状态收集数据,则必须明确超出边界的范围。原始数据脱敏包括屏蔽姓名、身份证号、联系方式、地址等关键信息。数据脱敏用于统计分析和处理,是大数据安全分析的基础。2.集成与融合带来的隐私问题集成与融合通常采用链接操作,将多个异构数据源汇集在一起??,并识别出对应的实体。小数据源通常可以反映用户的某项活动,如接受的医疗、购买的商品、搜索的网站、手机留下的位置特征、与社交网络的交互信息、政治活动等,整合不同的小数据可以更好地服务数据分析和管理。通过整合线上、线下和销售目录数据库,零售商可以获得更多消费者的个人描述信息,预测消费者的购物偏好等;GPS服务提供商可以获得更好的道路规划和交通路线。然而,多数据源的融合融合几乎可以推断出所有个人敏感信息,这无形中对个人隐私保护提出了严峻挑战。因此,大数据的集成和集成应该在用户知情授权的前提下进行。啤酒和纸尿裤的经典关联分析案例,现在看来是一个大数据应用场景,并不针对任何个人销售。然而,当我们对消费者的个人消费习惯进行大数据分析,获得针对性极强的个性化营销策略时,消费者的隐私实际上已经在他们不知情和未经授权的情况下被使用,所以要整合整合个性化数据,需要以用户的知识为前提。3、数据分析带来的风险目前,基于大数据的计算框架,其计算分析能力几乎达到了“大海捞针”的水平。通过分析,数据科学家可以挖掘出大数据中的异常值、频繁模式、分类模式、数据之间的相关性以及用户行为规则等信息。然而,大数据分析的最大障碍是数据隐私问题。从某种程度上说,隐私并不可怕,可怕的是通过大数据分析可以预测用户行为。基于大数据的个性化推荐系统是电子商务网站根据用户的兴趣特征和购买行为向其推荐感兴趣的信息和商品。但是,用户的商品购买信息和行为模式很可能被商业网站挖掘,从而导致隐私信息泄露。因此,数据分析应该针对群体对象,而不是针对个人。大数据分析可以发现同质性和趋势性、相关性和耦合性。通过对大量脱敏数据的综合分析,可以发现一个社会群体的某些特征;通过一些共同的行为轨迹,可以发现事物之间的关系。例如,购物网站上在线购买最多的产品是什么,视频网站经常发布的热门剧是什么,搜索网站经常发布春运期间人口迁移的热度指数和人口迁移的方向和趋势。.对于特定个人,不透露任何个人信息。
