大数据中心计量自动化系统数据存储及应用设计研究

作者:未知

  摘  要:随着企业信息化、智能化的深入和新信息技术的广泛应用,集团化的企业级业务管理系统产生的海量数据不断涌向数据中心,实时运行的计量自动化系统设备数据对数据中心的存储和应用支撑面临诸多问题。本文介绍基于云南电网大数据中心的计量自动化系统数据存储、大数据分析应用场景支撑关键设计,对大数据中心广泛的海量的数据存储和应用提供设计思路。
  关键词:大数据中心;计量自动化系统;数据存储
  中图分类号:TM762    文献标识码:A    文章编号:1671-2064(2019)24-0000-00
  0 引言
   随着信息云计算、大数据及物联网等信息技术的发展,利用云计算平台的分布式存储架构和分布式处理系统实现智能电网海量数据的大规模存储,为数据挖掘与辅助决策等高级应用提供高性能的分布式计算环境,利于实现不同区域之间的资源与信息共享[1]。云南电网大数据中心是实现全省包括营销、调度、财务、资产等核心业务域的集中存储和大数据应用场景分析支撑。
   省级计量自动化系统是对电网网架结构设备运行数据的统一“采集、存储、应用”,是全面服务企业生产、营销、规划、建设等业务应用的核心基础系统平台。计量自动化系统采集的原始数据可通过CDMA/GPRS等网络获取,每天采集的数据量大多以TB为单位进行存储,每次采集间隔的时间大约为15分钟[2]。目前按照云南电网公司大数据平台的数据分析应用需求,开展省级计量自动化系统包括计量运行、设备终端运行及检测类的采集和事件数据,以及计量资产、终端管理和相关的统计类数据。
  1 大数据平台架构
   云存储是一种网络在线存储模式,其核心技术之一是存储虚拟化,核心是运用分布式存储技术,对不同形式的异构存储设备通过虚拟化计算进行整合,实现云存储中多个存储设备之间的协同工作,共同为用户提供数据存储服务[3]。云南电网大数据平台采用云存储的方式,其逻辑架构如图1所示。
   大数据平台逻辑架构各业务系统通过数据同步(CDP或OGG等方式)进入贴源层(ODS),需经过的数据整合、加工、聚合和挖掘,形成数据仓库层(DW)和数据集市层(DM)数据,为各类综合性的查询统计辅助分析决策应用系统提供业务数据。数据贴源层(ODS层)核心数业务系统同步进来的原始数据,经过一系列的数据整合处理(清洗、转换、映射等)复杂操作将数据传输至数仓层(DW层),可以有效避免或减少对业务源系统的影响。数据仓库层(DW层)长期(或永久)存储规范的、全局逻辑关联一致的业务明细数据,经过规范化整合处理、宽表加工或数据加工聚合,形成对象化的业务明细数据或者是各种层级各种口径的统计汇总数据,数仓层可直接向集市层(DM)或分析型应用系统提供数据。数据集市层(DM层)面向应用分析主题构建、存储根据业务分析需求将数据经数据挖掘、数据分析、复杂计算等加工处理后的数据集合,包括指标型数据、高度汇总型数据或算法挖掘后的明细数据。
  2 计量数据存储设计
  2.1 大数据平台数据存储基本原则
   在大数据平台中对各业务系统数据按照数据量、类型及实际业务需求的表在大数据平台的的存储也有一定差异,基本数据存储原则如:(1)主数据表存储方式:以日期为分区,每天增加一个分区存储一份最新的主数据,每个分区的生命周期通常以天为固定周期,也就是一张表最多有固定周期天的个分区。(2)小业务表存储方式:以日期为分区,每天把增量数据合并到昨天的全量分区,以此叠加。(3)采集量测数据存储方式:由于采集量测数据数据量极大,如果以日期分区进行储存,每天存储一份,会占用太多的存储空间,且数据量大,使用时会造成过多的平台资源被占用以及数据查询效率很低,严重影响数据的正常使用。所以存储方式改为以单位(如地市)和年月为分区的二级分区表,生命周期为永久,只保留一份数据。例如:某个地市某个月的数据,就存储在这个地市和这个月的分区,如:dsbm=.../sjny=yyyymm。这样数据占用内存将大大减少,用户查询数据只要条件命中地市和年月就大大提高数据的查询效率。
  2.2 计量自动化系统数据存储
   按照大数据平台架构设计,计量自动化系统在大数据平台中ODS层、DW层及DM层所存储的逻辑如图2所示。
   计量自动化数据存储逻辑设计中:(1)从计量业务系统中依据CDP数据全量方式进行同步抽取,并在ODS层安装一天一个分区进行数据存储,主要针对数据量小于500M的主数据设备台帐及其他统计数据,DW层存储同理。(2)从计量业务系统中依据CDP数据增量方式进行同步抽取,ODS仅按照分区存储每天的增量数据(目前按照4天分区存储),最后通过对DW的历史地市+年月分区数据4天的数据进行删除后再插入最近4天数据,主要包括采集量测数据。(3)从计量业务系统中依据OGG数据增量方式进行同步抽取,ODS层存储历史全量数据表、增量数据表,并进行两张表合并到新全量表分区中,增量分区表数据与原历史数据合并同步到数仓存储,主要针对大于500M的设备台帐数据、业务应用数据(电量计算、采集率、抄表率)、采集量测数据等。(4)依据分析库按照域数据进行分类存储,计量自动化数据中的DW层数据最终同步至DM层市场域(主要包括营销管理系统和计量自动化系统数据)中进行存储。
  2.3 支撑数据应用清洗转换
   针对业务系统同步过来的原业务系统数据,对某些应用的分析需要进行处理操作,如计量设备某个点数据未采到,则需要通过处理进行补全的清洗转换操作,通常针对操作简单、易修改直接通过大数据平台ODPS的SQL进行数据清洗转换,难的需要进行逻辑脚本或程序进行处理;通过MapReduce进行数据清洗转换,ODPS提供了MapReduce编程接口,用户可以使用MapReduce提供的接口(Java API)编写MapReduce程序处理ODPS的中的数据;最后可使用Python中的Pyodps第三方库,能有效支持odps读写等操作,但会存在数据量处理较小、处理速度较慢等方面的影响,在通常情况下数据清洗转换有以下几种规则:
   (1)数据类型转换:如datetime和String相互转换,根据应用需求进行数据类型转换。(2)数据过滤:针对脏数据、空数据、无用数据进行数据过滤,让数据更加具有实用性。(3)数据填充修改:针对空数据、脏数据等相关数据,与数据关口部门协商,进行缺值填充和更改脏数据。(4)表合并:将主表和字表以一定的業务逻辑合并成一张大表,方便应用需求取数、减少取数代码和逻辑。(5)枚举转换:将各业务系统独有的枚举,通过业务逻辑编制一套各系统统一共用的枚举代码,将原系统枚举替换为新的枚举代码,加强数据整合性。
  3 结语
   本文对大数据中心计量自动化系统数据存储及应用支撑设计进行技术研究,通过对大数据平台架构设计的设计介绍,依据平台架构对各种业务系统的数据同步至云数据中心后的存储方式进行设计和技术研究,有效解决各业务系统不同增量和数据量在大数据平台中存储的问题,以计量自动化系统按照CDP全量、CDP增量和OGG增量数据同步上云后,依据云南电网大数据平台的分层架构,对ODS贴源层、DW数仓层进行进行数据同步后的按日分区存储、增量数据与历史数据表合存储等设计思路,对企业级业务系统在大数据平台中的存储方式具有可移植性和广泛的应用性。
  参考文献
  [1] 戚伟强,蒋鸿城,裴旭斌,等.基于云平台的电力数据中心自动运维体系研究[J].电力信息与通信技术,2016(7):97-101.
  [2] 徐振中.电网计量自动化系统的建设与应用[J].电子世界,2016(17):157+159.
  [3] 邓维,刘方明,金海,李丹.云计算数据中心的新能源应用:研究现状与趋势[J].计算机学报,2013(3):582-598.
  收稿日期:2019-11-04
  作者简介:李辉(1991—),男,云南玉溪人,研究生,研究方向:应用技术、数据的挖掘与分析、数据资产运营。
转载注明来源:https://www.xzbu.com/8/view-15217308.htm

服务推荐