您好, 访客   登录/注册

对大数据处理技术的分析研究

来源:用户上传      作者: 张营军 李仕华 侯哲威

  摘要:随着信息化技术的不断发展,大数据处理技术给人们的生活和工作带来了很多改变,要充分发挥大数据处理技术的作用,就要求深入、全面研究大数据处理技术,摸索出大数据处理技术的改进与完善对策。基于此,本文首先分析大数据的特征,然后探讨大数据处理技术的Hadoop架构和Storm架构,并对比分析两种架构的优缺点。
  关键词:大数据处理技术 Hadoop架构 Storm架构
  中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2015)07-0000-00
  大数据时代的超大数据体量以及占据一定比重的半结构化和非结构化数据的存在,就决定了传统数据库管理难以满足需求。大数据技术将会成为IT领域的新一代技术和架构,会帮助人们存储并管理好大数据,从复杂、庞大的数据里筛选出有价值的数据,加之各种技术以及产品的出现,很可能促使IT行业步入新的黄金时代。因此,分析研究大数据处理技术极具现实意义。
  1 大数据特征
  大数据具有以下四个特征:一是数据量庞大。大数据计算要存储以及处理的数据量是十分庞大的,而且这些数据都处于不断变化、增长以及更新的状态,所以数据量就会越来越庞大。这就要求承担处理数据任务的硬件设备必须具备很大的存储能力和良好的处理技能。二是数据多样化。在大数据时代需要处理的不单单是各种结构化数据,还有图片、文字、声音等非结构化数据,要识别并处理这些非结构化数据要耗费很大力量,而且识别度也需要进一步提升。三是数据快速型。大数据处理技术的目就是要能处理变化迅速的数据,摸索出其变化规律为决策提供辅助作用,确保数据的时效性以及各项决策的有效性。四是数据准确性。在处理数据的过程中必须要控制数据来源,确保数据准确性,而且要结合现实所需不断更新数据处理技术,确保数据处理结果具备准确性和有效性。
  2 大数据处理技术
  2.1 Hadoop 架构
  Hadoop架构的核心构成部分是HDFS,即Hadoop分布式文件系统,全称Hadoop Distributed File Sytstem,以及Map Reduce分布式计算架构。其中HDFS以Master/Slave体系结构为基础,在集群里任命一个主节点担任Name Node,主要负责管理文件系统元数据,其余子节点担任Datanode,主要负责保存具体的数据块[1]。
  Hadoop架构的关键点就是借助大量PC构成一个PC群以实现对数据的处理。在处理数据的时候,先分解数据,然后结合分配的相应电脑处理数据,最后整合数据处理结果。通过Hadoop平台实际操作发现,在Hadoop平台运行的时候,系统初始化需要较长的时间,如果是处理更新速度快的数据这是不容忽视的一个问题。并且,在处理某些小数据的时候,系统初始化时间就更久,对数据处理准确性的影响也就更大。所以,系统不适合处理较小数据。基于Hadoop架构对reduce任务进行处理的时候,各种技术问题就更加突出,在利用相应技术把数据转为存储实施处理的时候,不仅数据处理速度慢,还会占用很多的带宽。所以,Hadoop架构在处理变化速度较快的非离线数据时还存在很多问题。
  2.2 Storm架构
  和Hadoop主从架构相同,Storm架构也是以Master/Slave体系结构为基础,通过Nimbus与Supervisor两种服务进程实现分布式计算机,其中Nimbus进程在集群主节点运行,主要负责分派与分发任务,Supervisor进程在集群从节点运行,主要负责任务的具体执行。Storm架构利用Spout/Bolt编程模型通过流式方式处理消息。消息流是Storm架构里对数据的基本抽象,一个消息流对应一条输入数据封装,不断输进的消息流通过分布式方式得到处理。Spout组件是消息的生产者,在Storm架构里属于数据输入源头,能从多种异构数据源里获得数据,同时发射消息流。Bolt组件主要负责对Spout组件发射的信息流进行接收,同时完成相应的处理逻辑。如果业务逻辑比较复杂,就可串联多个Bolt组件,并且在每个组件里都编写相应的功能,进而呈现出整体的处理逻辑。
  2.3 架构对比
  就总体结构而言,Hadoop和Storm是相似的,具体构成部分对比如表1所示。
  通过对比,Storm架构具有以下优点:在Storm架构实际运行时,系统不用每次都初始化,数据处理效率较高,在处理较小数据时这一优势更加显著;Storm架构的信息处理模式能确保数据的高效处理,更好地满足人们对UI数据的需求;spout组件能读取不同形式数据里的消息流,并把读取的消息流传递给bolt组件进行处理;结合处理业务量的大小以及业务难度的高低,Storm架构能串联多个bolt组件实现消息流的有效处理,进而实现数据处理的高效性与快速性。
  3 结语
  在互联网发展迅速的今天,新业务对数据处理的要求不断提升,当传统离线处理架构不能满足需求时,就可以使用大数据处理技术架构。但信息社会的最大特点就是瞬息万变,因此,对大数据处理技术我们也要不断变革与创新,使大数据处理技术得到更好地完善,这样才能更好地服务于社会、服务于人们。
  参考文献
  [1]任桂禾,王晶.浅谈大数据处理技术架构的演进[J].信息通信技术,2014(06):47-51.
  [2]李银英.大数据处理技术与探索[J].电子制作,2015(05):140-140.
  收稿日期:2015-06-18
  作者简介:张营军(1973―)男,浙江余姚人,硕研,讲师,研究方向:后勤与装备保障研究。
转载注明来源:https://www.xzbu.com/8/view-6937333.htm