您好, 访客   登录/注册

基于Hadoop的电信大数据平台安全研究

来源:用户上传      作者: 何美斌 胡精英

  【 摘 要 】 以BAT为代表的互联网公司及OTT企业对电信运营商传统业务的冲击,传统电信运营商收入和业务发展增速放缓,产业结构升级面临关键窗口机遇期,对大数据的运营能力直接关系着企业今后的发展。由于电信数据特有的真实性、敏感性,数据安全已成为制约大数据运营和发展的关键因素。论文在介绍了电信运营商如何采用Hadoop构建大数据平台支撑大数据运营的基础上,给出了一种保障数据安全的解决方案。
  【 关键词 】 大数据;电信运营商;数据安全;Hadoop
  1 引言
  随着移动互联网的兴起,以BAT为代表的互联网公司和OTT企业对电信运营商传统业务的冲击越来越大,产业结构升级面临关键窗口机遇期,通过大数据技术可以有效提升精准营销水平和客户感知,对大数据的运营能力直接关系着运营商今后的发展。
  由于电信数据特有的真实性、敏感性,数据安全已成为制约运营商运用大数据的关键因素。本文在介绍了运营商如何采用Hadoop构建大数据平台支撑大数据运营的基础上,给出了一种保障数据安全的解决方案。
  2 电信大数据的特点
  电信运营商拥有大量网络侧、用户侧的数据,具有非常高的商业价值。电信大数据具备几个明显的特点。
  (1)真实性、敏感性。电信运营商拥有海量用户真实的信息,这类数据属于敏感数据,必须保证数据安全。
  (2)数据量大。用户每时每刻都在产生大量的通话、短信、流量、业务等数据,同时网络侧也在时刻产生大量数据,数据量在TB级别。
  (3)数据种类多。电信运营商拥有海量结构化的业务数据,海量半结构化的网络数据,海量非结构化的图片、语音、视频数据,数据种类繁多。
  (4)商业价值高。通过对电信大数据进行整体的分析和挖掘,提取出有价值的部分应用于提升精准营销水平、提升客户感知、提升数据服务能力等方面,提升企业竞争力。
  (5)低密度。大数据具备低密度这一特性,只有经由审慎的挖掘,才会解析得来实用特性的潜在信息,供应最佳价值。
  3 大数据平台面临的数据安全挑战
  随着大数据时代的到来,电信运营商都在从网络侧、业务侧搜集大量的数据进行分析,并且基于分析的结果做出决策。由于电信数据特有的真实性、敏感性,数据安全保护已成为衡量运营商大数据运营能力的关键因素。
  基于Hadoop的大数据平台常见的安全隐患有几点:(1)如何强制所有接入大数据平台的客户端上的用户及应用进行验证;(2)如何确保服务不是流氓服务冒充的;(3)如何实现基于属性的访问控制或基于角色的访问控制;(4)怎么才能将大数据平台跟已有的企业安全服务集成到一起;(5)如何控制谁被授权可以访问、修改和停止MapReduce作业;(6)如何加密静态数据。
  4 基于Hadoop的安全大数据平台设计
  采用开源软件Hadoop+Hive+Impala+Kerberos +Sentry架构构建电信大数据平台,提供海量数据的存储、计算服务,服务电信大数据运营。其中,Hadoop负责整个大数据平台数据的存储和资源的管理,Hive适合于长时间的批处理查询分析,Impala适合于实时交互式SQL查询,Impala给数据分析人员提供了快速实验、验证想法的大数据分析工具,选择Kerberos作为Hadoop的认证机制,通过Sentry可以在用户操纵Hive和Impala时进行安全控制。
  保障Hadoop数据安全主要包括七个部分:数据保护措施、网络安全、系统安全、存储安全、计算引擎设计、授权中心、客户端。
  4.1 数据保护措施
  在数据入大数据平台之前,明确数据隐私保护策略,充分考虑企业的隐私政策、相关行业规定及政府法规等因素,明确企业中需要进行安全保护的数据,同时根据数据的敏感程度进行安全等级划分。对于已经存储在大数据平台中的数据,需要全面梳理和核实是否有安全系数高的敏感数据。明确业务分析是否需要访问纳入安全保护的数据,或此类数据“脱敏”后能否使用。然后选择合适的敏感信息遮挡和加密等矫正技术。
  4.2 网络安全
  考虑到大数据的安全问题,大数据平台采用环形网络拓扑结构部署在企业的DCN网中,采用万兆防火墙进行访问控制,只有经过授权的用户才可以访问。
  4.3 系统安全
  采用开源集群监控工具Ganglia进行大数据平台的系统性能指标采集。采用开源网络监视工具Nagios进行大数据平台告警。
  4.4 存储安全
  采用NameNode主备的配置,主备节点可以在不影响业务使用的情况下1~2秒内完成自动切换,避免单点故障问题。数据保存3个副本,分散存储在大数据平台的不同节点上。选择合适的加密算法采用大数据技术进行数据加密。NameNode元数据定时备份到备份服务器上面,同时配置大数据平台垃圾回收站,确保数据可以在一定时间内可以恢复。
  4.5 计算引擎设计
  采用统一资源调度框架YARN进行大数据平台计算资源的管理和分配,它是为了更好的进行集群资源的管理而产生的,它的基本设计思想是将MapReduce中的JobTracker拆分成了两个独立的服务:全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster,其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster则负责管理一个在 YARN 内运行的应用程序的每个实例的管理。用户通过大数据平台接口机提交数据处理任务到大数据平台,任务在运行过程中由于各种原因失败的情况下,YARN框架可以实现任务的自动重启,保证计算任务的稳定性。
  4.6 授权中心
  采用Kerberos作为Hadoop的认证机制,可以实现RPC连接上做相互认证,为HTTP Web控制台提供“即插即用”的认证,强制执行HDFS的文件许可,用于后续认证检查的代理令牌,用于数据块访问控制的块访问令牌,用作业令牌强制任务授权, 网络加密。
  采用Kerberos+Sentry技术或者单独采用Sentry技术可以实现用户在使用Hive和Impala接入大数据平台时的安全管控,当前最细粒度可到表级别的访问控制,可以满足企业基于角色访问大数据平台的需求。
  4.7 客户端
  将客户端加入到堡垒机中,用户通过堡垒机登录客户端,可以有效监控和阻止合法用户的非法操作,以及非法用户的恶意操作,便于问题追踪。
  5 结束语
  通过运用大数据技术可以有效支撑电信运营商大数据运营,提升运营商精准营销水平和客户满意度。本文对基于Hadoop构建的电信大数据平台提出了一整套数据安全解决方案,保证电信运营商大数据的安全。
  参考文献
  [1] 李战克,丁梦娟.大数据环境下的数据安全研究[J].信息安全与技术,2015,02:7~9.
  [2] 大数据安全: Hadoop安全模型的演进. http://www.infoq.com/cn/articles/HadoopSecurityModel/,2013.
  [3] 保障Hadoop数据安全的十大措施. http://www.ctocio.com/ccnews/12016.html,2013.
  作者简介:
  何美斌(1977-),男,江西南昌人,高级工程师;主要研究方向和关注领域:大数据。
  胡精英(1989-),男,江西南昌人,初级工程师;主要研究方向和关注领域:大数据。
转载注明来源:https://www.xzbu.com/8/view-7905085.htm