您好, 访客   登录/注册

大数据技术在遥测数据处理中的应用展望

来源:用户上传      作者:

  [摘    要] 在大数据、人工智能、云计算、物联网等新技术的推动下,人类文明进入智能时代。遥测数据是典型的“小数据”,大数据突破了传统遥测数据处理的一系列观念,开启了许多新领域新应用。在对大数据技术现状及发展趋势分析的基础上,对大数据时代的遥测数据处理技术的发展进行了展望。
  [关键词] 大数据;遥测;数据处理
  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2019. 05. 060
  [中图分类号] TP311.5    [文献标识码]  A      [文章编号]  1673 - 0194(2019)05- 0156- 02
  0      引    言
  当前,在大数据、人工智能、云计算、物联网等新技术的推动下,人类文明进入智能时代。发展大数据已经上升为国家战略,成为推动经济社会发展的新引擎,如何获取、存储、分析、应用这些大数据将是这个时代最热门的话题。在飞行器试验中,遥测数据常用于其内部载荷状态分析和故障诊断。传统遥测数据是典型的“小数据”,随着飞行器种类、试验频率、测量站点等的增多,遥测数据也在飞速增长,数据总量已经达到TB量级[1-2]。考虑到遥测数据本身的容量和应用价值,需要从大数据的角度来思考遥测数据处理的发展。
  1      大数据技术的现状与发展趋势
  1.1   大数据技术现状分析
  1.1.1   大数据采集与预处理
  数据收集是大数据分析和处理的第一步。大数据收集包含:系统日志收集,网络数据收集(采用网络爬虫实现)和其他数据收集(通过特定的接口)。通过收集生成新数据集以提供数据的统一视图,供后续查询和分析处理。通过对收集来的大数据预处理,可以纠正错误或损坏的数据,移除冗余数据,选择所需的数据,并执行数据集成。数据清理、集成和转换是数据预处理常用的方法。数据清理可视为一个包括两个步骤的过程:检测偏差和纠正偏差。检查偏差可以使用现有的数据性质知识来查找需要检查的噪声,异常值和异常值。该知识或“关于数据的数据”称为元数据。纠正偏差通常需要定义和使用一系列变换来纠正偏差。但是,这些工具仅支持有限的转换,因此通常需要为数据清理过程的这一步骤编写自定义程序。数据集成主要涉及模式集成和对象匹配,数据值冲突的检测和处理。数据转换是平滑,匯总或聚合数据,推广数据和规范化数据,以及将数据转换为适合挖掘的形式的过程。
  1.1.2   大数据存储与管理
  大数据存储技术有三种类型:第一种是采用Shared Nothing架构(MPP)的分布式数据库。MPP (Massively Parallel Processing),大规模并行处理系统,它是由许多松耦合的处理单元组成的,在每个单元内都有操作系统和管理数据库的实例复本,且每个单元内的CPU都有自己私有的资源,如总线,内存,硬盘等。这种结构最大的特点在于不共享资源。它与传统数据库有巨大区别,针对行业大数据的新数据库集群,通过列存储,粗粒度索引和其他大数据处理技术,并结合高效分布式计算模式,完成了对PB级别的结构化数据分析应用程序的支持,适用于企业的新一代数据仓库和结构化数据分析应用。第二种是基于Hadoop的技术。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System,HDFS),HDFS具有高容错性、高吞吐量、采用流形式访问的特点。Hadoop平台更适用于非结构化,半结构化数据处理,复杂数据挖掘和计算模型。第三种是大数据一体机,它是由一组集成的服务器,存储设备,操作系统,数据库管理系统和软件组成,这些软件已预先安装并针对数据查询,处理和分析进行了优化。新型数据库将逐步与Hadoop生态系统结合混搭使用,用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事务支持能力;用Hadoop实现半结构化、非结构化数据处理。这样可同时满足结构化、半结构化和非结构化数据的处理需求。
  1.1.3   并行计算、分布式计算、云计算与虚拟化
  并行计算,是指允许同时执行多个指令的计算模式。时间并行使用多个管道同时工作。并行计算使用多个计算资源来解决计算问题。为了执行并行计算,计算资源应该包括具有多处理器(并行处理)的计算机,连接到网络的计算机专用号码,或者两者的组合。并行计算主要目的在于两个方面:(1)加速求解问题的速度;(2)提高求解问题的规模。
  分布式计算是需要非常大量的计算能力来解决的问题。最后,将这些计算结合起来得到最终结果。分布式计算和集中计算的概念。分布式计算是可以在同一台计算机上运行的两个或多个软件之间的信息共享。它也可以在通过网络连接的多台计算机上运行。分布式计算与其他算法相比有几个优点:(1)稀有资源可以共享。(2)通过分布式计算可以在多台计算机之间平衡计算负荷。(3)可以把程序放在最适合运行它的计算机上。其中,共享稀有资源和平衡负载是计算机分布式计算的核心思想之一。并行计算和分布式计算都是不同的和相关的。从解决问题的角度来看,无论是大任务还是小任务,都是他们的共同点。但并行计算强调及时性,而分布式计算则强调独立性。
  云计算则是通过互联网提供动态、可扩展且虚拟化的资源。云计算是个概念,而不是具体技术。虚拟化是一种具体技术,指把硬件资源虚拟化,实现隔离性、安全性、资源可充分利用等。现在云平台的大部分软件和硬件都对虚拟化有一定的支持,各种资源要素通过虚拟化设置放入云平台虚拟资源池中进行统一管理,具有高灵活性、高可靠性和高性价比的特点。目前已有多家商业化云平台,如微软的Azure平台、GoogleAppEngine、IBMCloud和国内的阿里云、腾讯云、百度云、华为云等。   1.1.4   数据挖掘与可视化
  目前大量资源浪费在非有效计算上,如通信、等待和协调,而用户真正关心的是大数据分析的结果,而这些结果通常以可视化的形式呈现。数据可视化技术是一种理论、方法和技术,它使用计算机图形和图像处理技术将数据转换为图形或图像形式并将其显示在屏幕上。它涉及计算机视觉,图像处理,计算机辅助设计,计算机图形学等许多领域,并成为研究数据表示,数据处理,决策分析等问题的综合技术。目前,常用的数据可视化学品很多,这里不再一一介绍。
  可视化技术与数据挖掘密切相关。大数据时代,大规模、高纬度、非结构化数据层出不穷,可视化与这些数据的结合是下一步研究的一个重要方向。
  1.2   大数据技术发展趋势
  1.2.1   数据分析和挖掘成为大数据的核心
  大数据的价值体现在通过大规模数据集合的智能处理获取有用的信息,这就必须对数据进行分析和挖掘,而数据的采集、存储和管理都是数据分析的基础。数据挖掘技术可分为:统计方法(多元回归、自回归等)、机器学习、神经网络和数据库方法(多维数据分析或OLAP)等。
  1.2.2   广泛采用实时性的流处理方式
  人们要求更快地获取信息,因此大数据特别重视数据的实时性。实时流处理一般是将业务系统产生的数据进行实时收集,交由流处理框架进行数据清洗,统计,入库,并可以通过可视化的方式对统计结果进行实时的展示。主流的框架和平台有Flume、Logstash、kafka、Storm、SparkStreaming等。
  1.2.3   基于云的数据分析平台将更加完善
  云计算为大数据提供了平台和技术支持。云计算采用分布式计算方法更加灵活且可弹性扩展、存储成本更加便宜。随着云平台的日益成熟将有利于促进大数据处理水平和效益的提升[3]。
  2      大数据时代的遥测数据处理技术
  传统意义上的遥测局限于对飞行器及其载荷状态和环境的内部监测,大数据时代的遥测应包括所有监控手段获取的飞行全过程、全系统的信息感知,包括:传统遥测信息、外测信息、目标特征信息、飞行实况景象等。下面对可用于遥测数据处理的大数据技术进行探讨。
  2.1   实时数据库技术
  遙测处理软件都是基于数据库系统开发的,包括测量原始数据和处理结果、处理过程中的测试信息、各类参数信息和校准数据等需要存储在数据库。各型号间遥测数据格式差异很大,遥测数据处理的难度显著增大,把数据格式固化在程序中或用简单设计的数据库描述数据格式的方式严重制约了处理软件的通用性。
  InSQL作为一款基于时间序列的高性能实时关系型数据库,很适合处理过程数据。它具有高速采集、高效存储压缩、可内嵌事件系统、高速查询、支持冗余和接口友好的优点,使用基于InSQL的数据库技术,可以满足实时记录,海量存储和遥测数据快速读取的要求,还可为后续数据可视化和数据提取分析等应用奠定基础[4]。
  2.2   遥测数据的知识挖掘
  随着遥测数据量和采样的率增加,待分析的遥测数据量呈指数级增长,因此需要借鉴目前主流的大数据处理技术,如Hadoop以及HBase等大数据存储及计算平台实现遥测数据存储及计算。另外由于遥测参数反映内部各系统的工作条件,通过有效集成分布式挖掘、流式挖掘、可扩展挖掘技术及方法,建立挖掘模型,实现对异常数据的快速有效识别。
  2.3   多源融合的视景仿真技术
  通过多站数据融合得到完整遥测数据后,有效地结合专家经验和数据驱动方法进行建模,通过数据接口发送给可视化仿真系统,场景模型在接收到数据后驱动三维模型开始实时仿真,得到的飞行器轨迹并实时显示在可视化终端上。通过将多通道数据融合技术应用于遥测监测视景仿真系统,不仅能够对飞行过程进行实时仿真,还能够实现多视角多次数的重复播放,从真正意义上做到了实时再现飞行器飞行全过程,对满足相关研究人员的分析需要和模拟训练,具有重要的参考价值。
  2.4   云平台的多站虚拟资源池
  目前遥测网络的典型拓扑结构是“一对多”模式,一个数据处理中心对应多个分布在不同地方的遥测地面站,各站之间缺少互联互通的功能。未来可考虑建设信息互通、配置灵活、可动态扩展、存储计算能力更强的网络化系统,基于云平台将多个站点虚拟成统一的资源池,将软硬件资源以服务的方式通供,用户通过终端申请各项资源。
  3      结    语
  面对大数据时代的挑战,应当建立大数据思想,改进各种数据的采集、存储和处理方式,优化多源数据融合技术,挖掘数据中包含的潜在价值,提高信息化服务能力和水平。数据化是信息化建设的高级阶段,遥测数据处理需要根据自身行业特点考虑在大数据时代的发展。
  主要参考文献
  [1]谭维炽.大数据时代给遥测遥控带来什么——贺第十八届中国遥测遥控科技大会[J].遥测遥控,2014(9):1-3.
  [2]于志坚,侯金宝.大数据时代的航天靶场遥测思考[J].遥测遥控,2015(3):1-5.
  [3]薛志东.大数据技术基础[M].北京:人民邮电出版社,2018.
  [4]朱玛.基于InSQL数据库的航天器遥测数据存储方法研究[J].电子技术与软件工程,2015(17):194-195.
转载注明来源:https://www.xzbu.com/3/view-15168241.htm