基于云计算的地铁大数据分析方法研究

> 中国论文网 >
政治论文 >
基于云计算的地铁大数据分析方法研究

基于云计算的地铁大数据分析方法研究

来源:用户上传作者:丁军

　　【摘要】地铁轨道交通信息化水平随着城市轨道工程的发展而持续提升，而伴随着地铁轨道交通的持续运行，其形成的数据量规模也逐渐庞大。在此背景下，若基于传统数据处理方法展开操作，会存在成本高、管理难度大等问题，并且不利于程序的编写。对此，本文将地铁信息系统作为基本出发点，对地铁轨道交通发展需求进行分析，基于云计算平台创建出高度成熟化的轨道交通数据挖掘平台，同时展开有关于地铁轨道交通大数据的深度分析工作。
　　【关键词】地铁工程云计算大数据分析方法
　　当前，我国多数大中型城市都纷纷推行了地铁工程，总体建设运营里程正在持续增加。就地铁运营企业而言，需要做好客流分析工作，这是线网规划以及运营组织的关键前提。在当前信息技术持续发展的大背景下，地铁系统已经累积了大量的乘客出行信息，基于对地铁AFC刷卡数据的分析，能够达到资源合理配置的效果，并且可以更好地满足地铁客流的基本需求，有效缓解了供需不平衡的问题，从根本上满足了地铁客流需求。而基于云计算技术，能够为此项工作提供有效指导，所以本文重点对云计算技术展开探讨。
　　一、云计算介绍
　　在当前的地铁客流大数据分析工作中，重点围绕政策性、前沿性两大方面展开，由此探寻出客流的基本特征。相较于传统的交通数据而言，现代化的交通大数据与之存在明显的区别，在大数据特征描述时涉及到了3V、4V和5V这3方面内容。除此之外，加之交通大数据基本特性的影响，可以进一步延展出6V特征，具体为：体量巨大、处理快速、模态多样、真假共存、价值、可视化[1]。
　　二、大数据分析方法
　　（1）数据读取。基于Jave展开编程操作，在此基础上实现对原始数据集的分析，读取其中的数据结构，主要涉及到行与列的分隔符，此时能够确保数据集顺利的上传到云端数据库中，诸如“2aa2a04|/N|104.063028|30.508351|双流县|1|104.127465|30.26802|双流县|1|27459.749617”，则列分隔符为“|”，行分隔符为“/n”。（2）数据存储。基于MapReduce分布式上传功能可以实现对大数据的读取工作，以便将丰富的大数据完整的存储于云端数据之中。（3）数据清洗。基于云平台展开对数据的清洗工作，例如，对String类型的值进行转换，使其变更为Int类型，此举能够为后续的匹配计算提供良好的条件，如果列中存在一些不规则字符，则可以对其格式统一操作。将其中的无效数据筛除，以统计客流情况为例进行分析，则可以将员工卡进出站这一无效数据隔离出来，此后再对缺失部分做以自动填充处理。（4）数据分析。当完成对数据的清洗操作后，便可以展开SQL分析操作，对AFC数据记录进行全面筛选，从中获得客流情况、高峰期分布特性等多方面内容。（5）在上述的基础上，将会得到相关数据结果，对其进行存储并基于百度地图API作进一步的程序开发，以展开可视化分析。
　　三、云计算技术效率测试
　　云计算的方式具有更强的适应性，能够从根本上避免资源集中消耗的现象，而分布式的处理机制则可以创造出更为优良的数据处理效率。本次分析工作围绕阿里云计算服务大数据平台展开，将其与传统数据库展开对比分析，探寻二者在效率方面的差别。在阿里云大数据服务体系之中，可以有效地支持SQL等相关模型，其可以在极短的时间内做好相关计算任务。其中Tunnel服务发挥出重要的作用，其每天都可以满足TB/PB级的数据传输要求，这点对于历史数据的导入导出尤为适用，且吞吐量高，具有优良的可扩展水平，能够为数据的批量处理提供良好的条件。MaxCompute SQL建立在标准SQL算法的基础上，所带来的计算框架能够有效地服务于SQL计算模型，相较于常规的MapReduce模型而言，带来的执行效率得到了显著的提升，借助于在线运维以及离线任务调度等一系列丰富功能，离线调度任务量可以达到百万级别。若PC的内存为4G，同时配置有AMD处理器（其主频可以达到2.2GHz），将此作为硬件条件展开各方法对于SQL运算速度的分析工作，具体操作对象均为成都地铁AFC刷卡数据。实际结果表明，相较于常规的SQL Server数据库，基于MaxCompute所带来的运算效率明显提升，如果SQL语句复杂度较高，此时运行优势将会更为明显。在实际操作中，如果基于云MaxCompute展开首次运算，此时所需要的时间将长达4s，而相比之下SQL Server仅需1s便可以完成[3]。对此现象进行分析可得，在阿里云计算平台的作用下，将会对MaxCompute进行拆分处理，使其变为一个分布式的任务以便后续调用，但相比之下，MapReduce在初始化过程中便会耗费大量的时间，尽管SQL较为精简，但依然需要得到充足的时间支持。在上述基础上持续进行SQL运算，发现SQL Server需要的运算时间表现出了成倍增长的特性，但无论运算次数如何发生变化，MaxCompute需要的运算时间都处于相对稳定的状态。由此可以得知，在数据规模持续扩大的背景下，加之SQL复杂度的提升，基于云计算平台所需要的初始化时间明显缩短，其在整体时间中占比较低，相比于传统的数据库技术而言，通过云计算平台展开的分布式调用方法具有高度的可行性。
　　结束语：综上所述，当前的城市居民交通出行半径表现出明显的规律性，即普遍集中在地铁45min区域内，日常出行时间主要以15～30min居多，部分情况下將会达到30～45min。无论是工作日还是非工作日，地铁车站的人流量都相对较大，此时运营管理部门的监管工作至关重要，需要为之制定可行的疏导方案。在可视化技术的作用下，能够推相较于传统数据处理技术而言，基于云计算技术可以创造更高的效率，在运行过程中不会占用过多的计算机资源，在此背景下围绕大数据的地铁客流分析工作具有高度的现实意义。而大数据发展需要得到云计算的支持，换言之，在云计算的作用下能够提供弹性可拓展设备，以便大数据分析工作的顺利展开。
　　参考文献
　　[1]殷玮川，何世伟，李玉斌，等.基于云计算的地铁大数据分析方法研究[J].铁道科学与工程学报，2018，15（11）：2995-3002.
　　[2]朱建生，汪健雄，张军锋.基于NoSQL数据库的大数据查询技术的研究与应用[J].中国铁道科学，2014（01）：135-141.
　　[3]蔡昌俊，姚恩建，张永生，等.基于AFC数据的城轨站间客流量分布预测[J].中国铁道科学，2015（01）：126-132.
转载注明来源:https://www.xzbu.com/1/view-15143448.htm

查看更多→

基于云计算的地铁大数据分析方法研究

相关文章