您好, 访客   登录/注册

基于海量数据优化管理的分布式文件存储系统应用研究

来源:用户上传      作者:

  摘  要:大数据时代数据成为了企业非常有价值的资源,对实时产生的海量大数据进行价值最大化挖掘成为了企业当前非常重要的一项工作和追求目标。而针对如此海量的数据,首先要解决的一个问题就是采取何种方式进行存储。基于此,文章结合当前大数据时代企业经营数据信息的实际,就如何管理好这些海量大数据进行了分布式文件存储系统的应用研究,以期通过充分发挥分布式文件存储系统的优势实现对海量数据资源处理的水平和能力,让企业数据资源发挥了最有效的价值。
  关键词:海量数据;分布式文件存储;优化管理
  中图分类号:TP311.1        文献标志码:A         文章编号:2095-2945(2020)18-0181-02
  Abstract: The data of big data era has become a very valuable resource for enterprises, and it has become a very important work and goal for enterprises to maximize the value of the massive big data generated in real time. In view of such a large amount of data, the first problem to be solved is how to store it. Based on this, combined with the reality of enterprise management data information in big data era, this paper makes a research on the application of distributed file storage system on how to manage these massive big data well. In order to achieve the level and ability to deal with massive data resources by giving full play to the advantages of distributed file storage system, so that enterprise data resources play the most effective value.
  Keywords: massive data; distributed file storage; optimal management
  前言
   对于企业信息化数据的存储来说,以往由于企业的数据量不是很大,传统的集中式存储以其功能丰富、稳定可靠性高优势就可以很好的实现数据存储,然而随着数字化时代的到来,企业每天都实时产生了相当的数据,这些数据海量冗杂且实时更新,数据量也从GB级一直往ZB级上飙升,再用传统的集中式存储就出现了各种问题,主要表现为存储系统难以横向扩展、硬件成本居高不下、数据有效连通性不足等,导致企业数据存在诸多孤岛,难以有效实现数据管理。而以云存储为代表的分部署存储则有效避免了因为常规集中式存储难以高效的处理海量数据所出现的问题,不仅实现了数据管理的高效化,也大大降低了企业数据管理运行成本。因此,针对当前大数据时代企业的数据管理应用分布式文件存储系统非常合适且必要。
  1 分布式存储的定义
  数据的存储按照物理存储形态的分类来说在应用中最多的就是集中式存储以及分布式存储。作为一种数据存储的技术,两种存储的实现方式完全不同,传统的集中式存储主要是通过设备的增加来增大数据容量,而分布式存储则主要以软件服务的方式来完成,是服务器、服务、软件的综合体,它是通过非标准协议的方式整合企业各类服务器上的存储资源,并进行存储资源池化和虚拟化处理,最后呈现给用户某种形式(块存储或者文件存储)的存储空间。具体来说就是将企业中分散在每台机器设备上的磁盘空间数据通过网络和运行存储软件的形式整合起来形成一个可以扩展的结构系统在进行的一种存储服务,其可以让这些服务器都可以对数据存储进行负荷承担,这样不仅对数据的处理能力大大提高,而且更加高效更加实用更加节约成本。
  2 分布式文件存储系统的主要特征分析
  传统的集中式存储主要是通过存储矩阵来实现数据存储管理,其虽然功能丰富,稳定性和可靠性也都很不错,但是在应对海量数据时却缺陷明显,不仅无法针对各类数据进行有机衔接,同时需要花更多的成本来进行硬件存储设备的购置,这些都导致了数据处理的效率低下和成本居高不小。然而分布式文件存储系统就很好的避免了这些问题的出现,因为分布式文件存储系统并不是完全靠存储设备来实现对数据的管理的,它主要是以非标准协议的方式来对企业各类设备上的数据进行有效的资源整合,并通过专业的存储软件来实现数据的有效存储和管理,彻底解决了数据孤岛和设备硬件成本高的问题。
  总结起来说,分布式文件存储系统具有以下几个方面的特性:
  2.1 可拓展性
  分布式文件存储系统的一个显著特点就是可拓展,这是传统集中式存储系统无法比拟的,它通过将企业内所有的存储有数据的设备有机连接起来,其可以通过扩展性将数据存储资源扩展形成数百台甚至几千台的设备存储集群,并且通过扩展性让存储系统性能呈线性增长。
  2.2 成本较低
  一般的常规服务器就可以满足分布式文件存儲系统的需要,存储设备要求比较低,常规的就能有效利用,这也是分布式存储系统优势的具体体现,那就是具有的自动负载均衡、自动容错机制。由于在常规的普通服务器上既可有效的运行分布式存储系统,那么数据存储运行成本就大大降低了。此外,扩展性的优势也降低了分布式存储系统对设备服务器的需求,进一步降低了成本。   2.3 性能优越
  分布式文件存储系统高性能是其运行的一个显著特点,在企业数据管理中,无论是单一的服务器应用还是整个企业数据集群存储应用,分布式文件存储系统数据存储能力及效果都非常明显。
  2.4 实用性强
  对于用户来说,实现分布式存储系统的应用简单便捷是其性能发挥的又一特点,但是要想使这个系统使用起来非常实用便捷高效,对外接口的设计非常重要,在进行分布式存储系统选择使用时需要对用户提供简单好用的接口。此外,为了更好的与其它系统进行集成,可以提前设置好监控、运维等工具系统。
  2.5 容错性
  对服务器故障能够实现快速的检测,并且能够实现对发生故障服务器上的数据进行自动化迁移。
  分布式文件存储系统虽然具有诸多的优势,但是在文件数据存储管理过程中也面临着一定调整,那就是持久化的保持数据和数据信息状态,这是因为分布式存储系统比较复杂的存储拓扑结构,这样就会增加系统出现故障的机率。要避免这样的问题发生,数据一致性是首先要解决的问题,而要确保数据的一致性,需要系统在自动容错、自动迁移以及并发读写的过程中来实现,并且要提前实现基于网络控制下的数据保护、数据冗杂、数据容错等功能,这就可以确保在企业设备各种服务器、磁盘或者交换机等出现故障或者某些异常情况时存储系统仍能保持非常好的可靠性和可用性。
  3 常用的分布式文件存储系统
  目前在用的分布式文件存储系统比较多,它们在各个领域的应用中其侧重的点不尽相同,在市场中应用中较多的为企业应用级,系统级的相对不多,主要的有GFS、HDFS、Lustre、Ceph、GridFS、mogileFS、TFS、FastDFS等等。
  4 典型的分布式文件存储的架构
   在众多的分布式文件存储系统的应用中,开源的应用最为广泛,本文以hadoop的HDFS为例,就其系统结构的设计进行了详细阐述。
  Hadoop是当前应用非常广泛的一种文本搜索库系统之一,它的来源是Apache Nutch,由Doug Cutting开发,其是Doug Cutting开发的Apache Lucene项目中的一部分,作为Google系统的重要组成部分,其实现的是网络搜索引擎开源化。其中的Aapche Hadoop架构作为一种开源应用,其根本算法是MapReduce。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。作为一个容错性非常高的分布式文件系统,其一般会被优化设计而在常规的机器设备上就可以运行的,特别是一些同样的硬件设备都可以高效的运行,其性能的发挥主要体现在通过应用在规模庞大的数据集上而表现出访问吞吐量非常高的价值体现。
  4.1 大规模数据集
  在HDFS系统上进行文件存储系统的运行,数据集规模庞大是最显著的特点,特别是对于大文件的存储尤其为特点,并且能有效实现高数据带宽的功能。一个单一的HDFS就可以支持以千万量级计的文件,这些文件的大小通常都在G字节至T字节。
  4.2 简单的一致性模型
  为确保HDFS系统进行文件存储时进行海量数据的访问,文件访问模型的建立非常关键,模型形式具体是“一次写入多次读取”,而且这个模型通常在进行了创建、写入和关闭操作之后就不需要进行改变了,同时这个模型是一个相对简化的模型。现在各分布式文件存储系统都进一步提升了这个模型的实用性,可以在此基础上对模型进行优化,使之可以对支持的文件进行写操作处理。
  4.3 异构软硬件平台间的可移植性
   文件存储系统对文件数据进行存储时就对平台的可移植性进行了结构设计,这样的功能就对于提高HDFS系统的应用具有明显的优势,特别是在海量大数据的存储方面具有突出的优势。
  5 结束语
  通过分布式文件存储系统的应用,有效的实现了企业海量数据的管理和利用,避免了数据孤岛及数据分散的问题,同时由于可以弹性扩展使数据储存空间的利用率大大提高,大大降低了软硬件运行成本,非常适合数字化时代企业大数据存储。
  参考文献:
  [1]王梅,张四平.基于分布式系统的大数据管理平台技术架构研究[J].电脑与电信,2019(10):10-13.
  [2]喬萌萌.基于Hadoop的云存储技术在档案馆的应用研究[J].信息与电脑,2019(24):163.
  [3]王大志.基于HDFS的跨集群分布式文件系统研究[J].信息技术与信息化,2018(08):230.
转载注明来源:https://www.xzbu.com/1/view-15252039.htm