您好, 访客   登录/注册

基于云计算的大数据处理技术探讨

来源:用户上传      作者: 龚旭

  信息爆炸时代,大数据超大体量、离散性和非(半)结构化的特点已经远远超出了传统数据管理方式所能够承载的范畴。大数据要求全面革新原有的数据处理架构和有关技术,实现超大体量和复杂数据的存储、高效传输和有用信息提取。围绕大数据,云计算技术营运而生。云计算的出现为大数据的存储和处理提供了可能,也为数据处理系统的功能扩展提供了重要保障。本文主要分析了大数据和云计算之间的关系,以及云计算环境下大数据处理技术。
  【关键词】云计算技术 大数据 数据处理
  随着物联网、网络、移动通信等的快速发展,特别是互联网的普及使得信息传播的规模和速度呈现几何增长,人们获取信息的途径和方式开始变得异常丰富,人们事实上已经进入了“信息大爆炸”时代。与此同时信息传播的大容量、高效性和准确性也对现有的数据处理体系提出了更高要求。根据大数据摩尔定律,人类世界的数据产生量将按照每两年一倍的速率增长,预计2020年世界数据量将超过35亿GB,“大数据”时代迫在眉睫。“大数据”具有离散型、随机性、发散性、爆发性等特点。近年来,随着云技术的兴起全面革新了传统的数据技术,大容量、多样化、快速处理、信息价值性和准确性为了云技术背景下大数据处理的五大主要特征。如何利用云计算技术对大数据进行高效处理已经成为了信息技术发展亟待解决的关键问题。
  1 大数据和云计算的关系
  云计算技术是指利用集中式远程计算资源池,通过按需分配的方式,为终端用户提供强大而廉价的计算服务技术。云计算技术作为一种数据处理方式,其技术特点包括:一是资源池在物理上是对终端用户完全透明的;二是能够为任何行业提供规模化计算服务,其服务能力可看做是“无限”的;三是其应用部署快速便捷,服务能力和方式是可以完全按照终端客户要求定制的,具有极强的弹性伸缩能力;四是云端数据获取方便,能够资源共享,用户使用成本低廉。
  云计算技术是目前最强大的数据存储、传输和处理平台,它是大数据处理的最优选择。云计算能够为大数据提供几乎“无限”的存储空间和处理能力,满足其超大容量存储和超级复杂的处理需求,也是传统存储方式无法实现的。云计算侧重数据的计算处理,而大数据需要强大数据处理能力,因而它是云计算的处理对象。此外大数据所产生的业务需求也为云计算的实现提供了更多的形式。
  2 基于云计算的大数据处理技术
  2.1 大数据的采集技术
  目前数据采集方式主要分为集中式和分布式两大类。其中分布式的灵活性较强,而集中式的全局性较好。实际上大数据采集的对象通常包括组织内部和相互独立组织间的各类数据,而云计算恰好具有并行处理的优势,因而可采取混合式采集方式能够更加有效地完成数据采集任务。即在各个组织内部采用集中式数据采集方式,通过在组织内配置中心服务器,作为集中式数据注册机构,用于存储和共享内部的数据。在相互独立组织间,采用云计算的集群技术、虚拟化技术等在各独立组织中心服务器间采用分布式采集方式实现数据采集、组织间对接和共享。大数据结构类型包括结构化、半结构和非结构化数据,因而在应用云计算技术进行分布式采集时,可依托其超强的扩展性和容错力,将数据池内数据进行同构化,从而实现数据进行分类存储。
  2.2 大数据的存储技术
  由于超大体量、离散、复杂的数据特点,传统数据存储模式已经难以满足大数据存储要求。一方面单结点的数据仓库在容量上难以满足呈几何增长的数据量,在运行效率上也难以满足大数据的分析处理需求。另一方面传统数据仓库按行存储模式,虽然可以实现大容量索引和视图,但实际操作中其时间和空间过高。而云计算主要采取列式存储模式,即区分数据不同属性,不同属性列都单独存放。云计算中列式存储的优势在于在投影数据时只需查询其属性列,系统处理量和处理效率显著提升。此外按数据属性进行列式存储,数据仓库中相邻列数据的相似性更高,因而能够得到更高的数据压缩率,进一步减少存储所需空间。
  2.3 大数据的挖掘技术
  联机分析能够完成数据的复杂处理,得到直观结果,实现决策性分析。云计算并行模式下联机分析能够基于数据全局,建立多维分析模型对数据进行多维度分析,从而尽可能获得全面的分析结构。由此可见多维度分析是联机分析的重要特征,而云计算技术下数据仓库正好是通过多维数据组织的。
  联机分析对数据的处理仅仅只是表面的,其获取的信息价值并不高,难以得到数据深层次的含义与内在关联。而数据挖掘正是在联机分析的基础上,从超大体量的数据仓库中提取数据所蕴含的隐性信息,并将这些信息用规律、概念或是模型等表现出来。基于云计算的数据挖掘主要采用分布式并行挖掘技术。与其他串行方式相比,云计算技术下并行数据挖掘能够利用机器集群拆分分布式系统中的并行任务,并将拆分后的各个任务分别交由不同的机器去处理,从而实现大规模数据处理,其时间成本也大大降低。
  2.4 大数据的可视化技术
  上文所述数据挖掘可实现大数据的深层次、多维度分析,获取更多有用信息。而云计算平台下可视化技术则能够将上述信息具体化,从而使数据及其有关结构的相关信息能够更直观地表现出来,更容易被发觉和理解。可视化技术是指在存储空间中,将数据库及其中数据以图像(图形)的形式表示出来,并在其中再采用其他的分析手段获取图像中所蕴含的未知信息。而原有的数据处理仅仅只能够从数据本身入手,分析和观察数据中的内在信息。云计算下的可视化技术不但能够实现非空间数据的多维度图像显示,而且能够实现检索过程的直观图形显示,从而帮助人们更好地挖掘和理解信息,信息检索效率也大大提升。
  3 结语
  在数据爆炸时代,云计算的出现为大数据的存储和处理提供了可能,也为数据处理系统的功能扩展提供了重要保障。以往的数据管理将收集和存储作为重点,而在云计算模式下,大数据管理将更多地侧重数据分析、挖掘及管理模式的创新。目前数据采集和统计技术已经较为成熟,利用云计算进一步丰富大数据的存储和处理方式,实现更高层次的数据挖掘和可视化将是今后需要解决的问题之一。
  参考文献
  [1]孟小峰,慈祥.大数据管理:概念,技术与挑战[J].计算机研究与发展,2013,50(1):146+169.
  [2]吴雪琴,基于云计算的大数据信息检索技术研究[J].电脑知识与技术,2014,10(10):38-41.
  [3]迪莉娅.基于云计算的电子政务大数据管理研究[J].信息管理与信息学,2013(12):50-51.
  作者单位
  湖北工业大学自动化学院 湖北省武汉市 430000
转载注明来源:https://www.xzbu.com/1/view-7037153.htm