您好, 访客   登录/注册

运用大数据提升交通管理能力

来源:用户上传      作者:

  摘 要:随着大数据时代的到来,大数据的分析与利用已渗透交通、汽车等多个领域。文章拟搭建Hadoop、Spark大数据处理平台,利用多种数据处理语言,对城市道路和公共交通网络数据、道路交通流检测数据、出租车GPS数据和公交刷卡数据等海量数据进行处理与计算,通过建立各种模型与算法对城市交通系统运行状态进行多方面的分析,基于复杂网络理论研究城市公共交通子网之间的级联关系,为城市交通管理和资源的优化配置提供理论和实证依据。
  关键词:大数据;交通管理
  中图分类号:F503 文献标识码:A 文章编号:1006-8937(2015)21-0127-03
  1 研究背景及意义
  目前,“大数据”一词成为热点关键词之一,预示着大数据时代的到来。大数据分析已经不仅仅是信息革命的新阶段,更关系到诸多实体企业在电子商务、公共服务及安全上的应用,企业的发展革新已经离不开大数据的应用。如今,企业对于大数据已经不再局限于了解大数据是什么阶段,大数据已经开始切实运用于实际。云计算和大数据将携手,共同掀起生产力大解放,与以蒸汽机的使用和电气的使用为代表的第一次工业革命和第二次工业革命不同的是,这次是以数据为材料,计算为能源。未来国家的发展战略将会以数据储备及数据分析为核心。
  城市交通已面临诸多严重问题,必须采取更有效的措施,保证城市交通系统有效运行。为了应对城市交通运行困境,第一届智能交通大会于1994年在巴黎召开,从此,智能交通日益成为人们热衷探讨的话题,随着时间流逝,智能交通研究与应用在美、欧、日三国取得了长足发展,这三个国家及地区也成为了世界智能交通研究应用的主要基地。
  同时,一些发达国家级地区例如新加坡、香港、澳大利亚等在此方面的研究也取得了相当的成果。我国近年来也一直在充分利用物联网、云计算、大数据、移动互联等技术,大力推进我国交通运输领域的信息化。
  目前,云计算、大数据、移动互联等新技术已被广泛运用到车路协同系统、公众出行便捷服务、车联网等领域的研究和实践中。随着大数据技术的广泛研究及应用,智能交通上已经可以运用大数据手段,对交通运输的需求进行分析,得出精确的需求数据,在这样的形势之下,交通网络优化、智能化出行服务以及交通应急保障等方面将形成巨大的市场,大数据技术将成为市场新趋势。
  2 研究内容
  借助大数据技术,可以对多源、异构、海量、时变的海量交通数据进行分析和处理,挖掘其隐含的时空知识,为交通管理部门和出行者提供有利于公共系统调度和车主出行的决策信息,以便主动干预各类可能的交通问题,而不再被动接受,主要内容包括以下内容。
  2.1 构建交通大数据的时空模型,对交通流状态分析和
  趋势预测
  利用聚类分析方法,构建交通流大数据时空模型。利用对海量交通数据(包括静态和动态数据:交通基础设施数据是相对静态的,如桥梁、城市道路、立交、轨道网、停车场等。各类动态交通运行信息即为动态交通数据,包括交通事故、施工占道、道路实时车速、流量、停车位使用等)。进行空间聚类分析,根据道路节点收集的数据,将数据内部隐含的信息特征找出来,将这些相似度高、关联性大的数据聚合。运用这一聚类分析方法,人们可以发现数据中交通网络的分布模式,从数据结果出发,实现交通流状态的分析及预测。
  道路网通达性对于交通流量序列有着极大影响,处于同一时空之内的道路之间,必然存在时间差异关系极大的流量序列。所以,各个流量序列之间的时间相关性,可以通过空间权重矩阵和时间延迟做出明确的表达,按照相关系数,将预测相关因子选取出来,以多种算法模型为手段,对交通流趋势进行预测。
  2.2 基于交通流大数据时空模型,分析交通路网拥堵状
  态的趋势和成因
  交通拥堵趋势及成因可以通过分析拥堵状态的数据、时空特征、语义,以时空关联性为基本方法,采用时空关联规则做出分析。
  在这一过程中,还应该提高时空关联规则的获取效率,可以通过过滤无效数据,降低时间空间杂乱数据的干扰。按照这种思路,首先可以对频繁项集产生过程中的时空数据进行时间、空间段上的划分,分析时间与空间的有效性及关联性,在形成事务表之后,链接时空规则之间的项集,以拥堵状态的时空关联规则为基础,分析交通网的拥堵趋势。
  2.3 基于复杂网络的各公共交通子网之间级联关系的
  研究
  公共交通是城市交通管理的主要对象,利用大数据手段分析公共交通数据(公交车、地铁等数据),探寻交通运行规律,研究各公共交通子网之间的级联关系。
  3 关键问题
  3.1 大数据平台的搭建
  交通信息数据具有海量异构的特征,需要采用大数据手段、搭建大数据平台,本项目拟搭建HADOOP大数据环境,既需要对HADOOP环境本身的调试和配置,也需要对海量异构的交通数据进行分类梳理。
  因此,搭建HADOOP大数据环境需要解决描述数据之间的连接关系及其相互影响,以及在分布式条件下数据的分类、聚合及其参数的设定。因此,解决了这一问题,将为后续大数据算法模型的运行提供基础环境。
  3.2 多目标多因素算法和模型建立和优化方法
  城市交通运行特性异常复杂,尤其是在拥堵情况下,受到的约束条件更多(如地铁客流、公交车客流等),因此,需要在课题建立的模型基础上制定适应多目标多时间尺度的协调优化方法。
  3.3 交通复杂网络拓扑
  城市交通运行涉及交通路网、地铁、公交、出租等复杂数据,这些数据各自成网,又相互作用。
  因此,建立交通复杂网络拓扑结构,对模拟现实交通运行状况,探寻交通运行规律至关重要。
  4 研究步骤
  可以采用理论分析、数值计算和试验相结合的方法,取得研究效果。   4.1 清洗数据
  交通数据的组成包括动态数据以及基础设施数据,运用大数据手段来提升交通运行效率,就要对数据进行清洗。
  首先,动态交通数据的采集可以通过移动通信、视频、波频等方式进行。例如,路口交通流量数据的收集,可以通过固定的视频监控、感应线圈等方式进行;车辆行驶轨迹以及车辆型号、流量、车速等信息可以采用RFID技术,从而获得关键断面的相关信息;车辆位置、速度、行程轨迹等信息可以通过GPS等移动定位设备收集;此外,用户线路、速度信息的收集还可以采用手机信令手段。
  动态交通数据的收集离不开基础设备,合理使用这些设备,可以将交通数据动态表现出来,有着很强的优越性,能够为交通运行实时监控以及动态分析提供必要的数据基础。
  但是,这些数据在收集过程中必然存在极大的复杂性,庞大的数据量以及噪声数据会严重影响到数据质量,直接收集的数据必然无法为交通数据分析的数据基础,因此,有必要对这些直接数据进行清洗,清洗方法主要有以下几种:
  ①数据清洗首先要确定干扰在哪里,干扰作用的地方。团队可以运用已有的大数据分析方法,对交通基础数据做出针对性分析,基于数据属性以及分析目的,从数据中获取需要的元数据,找出质量问题。
  ②数据清洗需要以规范的手段为保障,进行数据清洗必须定义清洗转换规则。通过上一步工作,团队可以获得相应的元数据,获得存在的质量问题,针对这些问题,团队可以定义转换规则以及工作流。
  ③在数据收集之后,要对数据进行标准化处理,从而获得标准化的直观数据。可以运用统计方法、聚类方法、关联规则等。
  ④用清洗数据替换源数据。
  4.2 提取并分析数据
  要对动态交通流以及交通网络拥堵状况进行分析,必须对交通数据进行有效组织,然后对交通数据进行提取分析。首先,数据分析应该以交管部门以及用户需求为出发点,且工作必须具有相当时效性。在这一过程中,工作团队可以将交通流以及拥堵状态为工作导向,结合数据的时空特征,运用聚类、预测、异常检测等方法,深入分析数据之间的关联性,实现多维度、多粒度特征分析,最后运用降维技术进行数据处理。
  4.3 基于大数据分析的智能交通模型
  4.3.1 预测模型1(L1正则化模型)
  对线性回归进行1范数的正则化,在经验风险上加上一个正则化项(regularizer)或罚项(penalty term)。正则化一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。
  正则化一般具有如下形式:
  min1Ni=1NL(yi,fxi+λJ(f))
  其中,第1项是经验风险,第二项是正则化项,λ≥0是为调整两者之间关系的系数。
  回归问题中,损失函数是平方损失,正则化项可以是参数向量L1范数:
  L(w)=1Ni=1N(fxi;w-yi)2+λw1
  这里,w1表示参数向量w的L1范数。
  第1项的经验风险较小的模型可能较复杂(有多个非零参数),这时,第2项的模型复杂度会较大。正则化的作用是选择经验风险与模型复杂度同时较小的模型。
  4.3.2 预测模型2(L2正则化模型)
  对线性回归进行L2正则化。正则化一般具有如下形式:
  min1Ni=1NL(yi,fxi+λJ(f))
  其中,第1项是经验风险,第二项是正则化项,λ≥0是为调整两者之间关系的系数。
  回归问题中,损失函数是平方损失,正则化项可以是参数向量L2范数:
  L(w)=1Ni=1N(fxi;w-yi)2+λw2
  其中,w2表示参数向量w的L2范数。
  4.3.3 预测模型3(M5P模型)
  M5P模型,是指利用系统变量分析特定变量值的预测模型,这种模型所运用的思想主要为决策树思想。首先,工作者需要将变量分布的特征分析出来,按照变量分布特征,将样本空间划分为平行的长方形区域,然后利用剪枝、平滑的方法,将每一个分区确立对应的回归模型,这样按照不同数据特征建立的模型合理性将更大。在这个模型中,决策树构建的思想十分直接,只需按照决策树生成算法构建树,然后以最大化信息增益为节点分支准则即可。在M5P之中,由于模型使用的是最小化子集属性差异,因此引入剪枝策略,剪枝策略包括构造时的预剪枝、构造后的后剪枝。一般情况之下,预剪枝一般在最小样本数上进行,后剪枝一般在估计误差置信水平上进行。特殊的,如果存在节点子树性能低于内部节点性能的情况,可以讲内部节点转换为叶节点。
  决策树的分类一般分为两个步骤。①数据中知识获取,进行机器学习,这个过程就是决策树模型建立,一般以训练集为基础。②利用已经生成的决策树,对数据进行分类。这种分类应该首先龚根节点开始,应该对数据对象的属性进行逐步测试,测算得出相应的值,然后按照决策树分支往下走,以叶节点为终点,形成相应分类。值得注意的是,在对给定数据集进行计算时,普通典型的线性回归算法只能给出单一的回归等式,无法将样本空间划分为平行空间,无法确定相应空间回归模型,在这种情况之下,工作者就可以采用决策树方法。
  本研究将原始样本按8:2的比例分别划分为训练集、测试集,并对全体样本利用上述预测模型进行多时段的预测,然后对比预测效果。
  4.4 模型评估
  在本文中,给出方案的评价指标采用预测准确度,在这里,我们可以引用平均绝对误差(Mean Absolute Error,简称MAE),以此将预测与实际流量之间的相似度表示出来。
  其中C代表预测次数、预测流量、实际流量。采用MAE有两个优点:①这一方法的计算方法较为简单,且计算结果便于理解;②由于在计算中,绝对平均误差的值是唯一的,系统之间不存在多个误差值,因此,这种方式能够很好地区分系统绝对平均误差的差异。
  4.5 基于复杂网络理论研究各公共交通子网级联关系
  基于复杂网络理论分析各公共交通子网的运行规律和机理。在此基础上,研究各公共子网之间的级联关系,探究各子网之间的相关关系和影响机理。
  参考文献:
  [1] 迈尔-舍恩伯格,库克耶(英).盛杨燕,周涛(译).大数据时代[M].杭州:浙江人民出版社,2013.
  [2] 吴忠泽.迎接中国智能交通的新时代[J].科学,2010,(1).
  [3] 毕然,党梅梅.智能交通系统标准化现状及发展趋势[J].电信网技术,2011,(4).
转载注明来源:https://www.xzbu.com/1/view-11722547.htm