您好, 访客   登录/注册

政务大数据之数据治理

来源:用户上传      作者:

  摘要:政务数据治理的定义:何谓数据治理?有两种定义,一种是“依靠数据进行治理”,也就是通过对数据的利用、应用,完成一些流程规范、效率提升、社会治理的过程;另一种解释则是“对数据进行治理”,即采取一定的方法或者形式,对数据本身进行整理、规范、标准化、统一化,提升数据的质量,提高数据的价值,有利于后续对数据的利用。本文所采用的是后一种解释,同时限定了数据的范围,仅对目前智慧城市建设中所涉及到的政务数据的数据治理进行一些粗浅的讨论。
  关键词:数据治理 必要性 数据落地 数据治理经验 数据治理模型
  引言
  政务数据,其实就是政府单位在执行对城市、社会、公众的服务、管理等行政职能过程中,拥有和管理的数据,如典型的公安、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、环境、金融、统计、气象等数据。可以说,自从开始履行行政管理职能之时,就在不断地产生政务数据(数字化之前的纸质资料,如档案,也可算作政务数据的一种),而自政府部门IT信息化建设开始之后,政务数据则呈现爆炸式增长,积累了这么多年,早已形成了海量的数据,自然也就形成了“政务大数据”。
  政务数据中,包括了多种类别的数据,如自然信息采集测量类数据(包括地理、资源、气象、环境、水利、矿藏、植被等),城市建设类数据(包括交通设施、旅游景点、住宅建设,名胜古迹等),城市管理类数据(包括工商、税收、人口、机构、企业、商品、环保、团体等),民生服务类数据(包括水、电、通讯、医疗、社保、燃气、污水、出行等),社会政治经济类数据(宗教、金融、法律、保险、工业、商业、服务业等)……可以说是包罗万象。
  政务数据相对于其他数据而言,具有很大的特殊性和几个明显的特点,即:它是可信度最高的数据,是最有价值的数据,是价值密度最高的数据,是延续性最好的数据,同时也是最为敏感的数据。
  1 政务数据治理的必要性
  那么,为何要对政务数据进行治理?它的必要性在哪里?
  政务数据,既是城市管理与服务过程中产生的数据,同时也是完成城市管理与服务所依赖的数据。
  举一个简单的例子,仅就市民的婚姻登记信息而言,就可能涉及到生育(一孩二孩)、房产(购买商品房、政策房)、教育(小孩上学)、继承(遗产继承资格)、金融(配偶账户销户和资金转移)、养老(虚领养老金)、收养、就业、医疗等各个方面。不同的信息将导致所能适用的完全不同的政策条款和依据。而就该信息而言,可能令其产生变化的,又涉及到民政(结婚离婚登记)、司法(离婚判决)、医院(配偶死亡开具证明)、公安(配偶可能的非正常死亡)等多个部门。
  在这种情况下,如果民政司法公安等部门的信息系统不互通,市民又无意或者有意地不去派出所及时变更,便可能造成房产、教育、继承方面的错误处理,这种由于信息错误所带来的管理失误,往往很难纠正,甚至牵连更广,引发一些社会问题。
  同样,由于信息不互通,不准确所带来的诸如同一身份证结婚两次,离婚后债务分担,丧偶后死者依然领养老金之类的情况也偶有发生。
  通过对政务数据进行整理和规范,解决可能出现的问题,建立全网统一的、实时的、准确的权威数据资源以供各部门、职能单位共享,是数据治理的核心目标。
  2 政务数据治理需要解决的问题
  完成政务数据治理,需要解决当前政务数据存在的一些问题,包括但不限于以下几个方面:
  (1)数据互联互通:数据治理的前提是完成跨职能部门间的政务数据互联互通,一方面互联互通的数据才能够进行比较,查看是否存在数据值冲突的问题,另一方面也需要将完成治理的政务数据反馈到各职能部门的系统中,对原系统中的数据进行更新、纠正。
  (2)清除空白数据:职能部门的信息化系统中,存在一些空白数据,这些数据可能由于测试、误操作等原因而输入,没有经过删除而遗留在原系统中,可能影响到一些服务事项的办理、统计分析的结果。
  (3)去除重复数据:在各部门的信息化系统中,由于重复录入,或者由于录入错误而重新录入而造成的重复数据大量存在。
  (4)修正错误数据:政务数据中存在不少错误数据是显而易见的现象,有无意输入错误的,有故意篡改的,有历史遗留的,都有可能造成数据的错误。
  (5)规范不统一数据:同样的数据,在不同的系统可,可能使用不同的规范,例如身份证号码的15位和18位,例如对于性别,其属性可能是“男女”的字符属性,可能使用“M”和“F”,也可能直接使用0和1来替代,甚至也可能使用“是”和“否”这样的逻辑值。为构建能够为全网所“信赖”的权威数据资源池,需要将同一物理含义的数据规范为唯一的一种数据格式或属性。
  3 完成政务数据治理需要注意的几个方面
  政务数据的治理,是一个繁琐、枯燥而又不得不一点一点认真细致完成的过程,丝毫没有捷径可言。在这一过程中,需要重点注意几个方面
  (1)需要数据落地
  数据互联互通是件非常困难的事,因此在某些地市,采取折中的方式,即仅开发互联互通的接口,并不将各职能部门信息化系统中的数据取出来集中构建数据平台,而采取“随用随取”的方式,即“数据不落地”。这种方式虽然也构建模型完成一定的数据治理操作,但一方面数据的多源性(同一数据来源于多个部门的从外系统)、调取数据的随机性(这次和下次从多源中获取数据的顺序不一样)、数据本身的质量误差都会最终导致数据治理的失败,另一方面,这种“随用随取”的方式无法实现历史数据的积累(数据不落地)和更新(无需求则不取最新数据),对于基于大数据分析的大量应用都成了无源之水,无从谈起。
  (2)需要对政务数据有较为清晰的理解
  政务数据大多是有明确的物理含义的,数据之间有错综复杂的相互关系,这种相互关系是对数据进行复核校验的逻辑依据,并非一堆毫无关联的数据的堆砌。只有对政务数据有较为清晰的理解,才能更为有效和无误地完成数据治理,无论是对于数据合理性的判断(如身份证号18个数字有着明确的定义,某地就曾有出现过1865年出生日期的身份证号,明显是错误的),还是对于多源数据对比校验的逻辑的定义(以哪个部门的数据为主,或如何比较多个冲突数据间的时间记录,以便于获取最新更新的数据值),都依赖于对这些数据的深刻理解。
  (3)需要有丰富的数据治理经验
  这一点与(2)一样,都是基于对数据的理解而取得的。这种理解和经验,没有太多的理论依据,完全需要实践的摸索,一点一点积累经验而成。城市信息化建设中,很多职能部门的信息化系统建成多年,对于数据没有相关的文档留存,甚至于连建设方都已注销解体,或根本不配合,在这种情况下,如何快速地分辨数据的含义、数据之间的关联关系,都需要依靠长期积累的实践经验,才能迅速找到路径,否则只能“望洋兴叹”。
  (4)需要有大量数据治理模型的积累
  我国政体上下统一,从中央到地方,部门划分、部门职责、服务与管理事项基本统一,对于某些垂管部门,甚至于“国家-部委-省-市-县-乡镇”全盘一体,这也就意味着各地市的职能部门信息化系统基本一致,哪怕是由不同的企业承建的,但其中重要的数据内容也会大部分相同,跨部门的数据间的逻辑关系也基本一致,这就意味着可以使用几乎相同的数据治理模型。这种数据治理模型本质上也就是数据治理经验积累的物理载体(成熟的开发人员是经验载体)。这种数据治理模型积累得越多,政务大数据平台的开发(数据治理是其中的最耗时的重要一环)则效率越高、失误越少、可靠性越大。
  4 结语
  国家层面,越来越重视政府部门的服务职能,越来越重视服务的高效性、精准性,浙江的“最多跑一次”是典型的代表,而“互联网+政务”建设则是由国家推动的一波建设浪潮,再加上推动大数据产业、建设信用城市等,越来越多的地市都在推动城市政务大数据平台的构建。
  基于政务大數据平台,提升政府服务办事效率,推动精准社会治理,离不开一个权威的、可信的、全网统一的政务数据资源池。未经过数据治理的数据,很难谈得上“权威”和“可信”,基于错误数据带来的错误事项,将浪费大量的时间和服务资源,甚至于有可能引起社会事件。从这个角度来说,数据治理是构建城市政务大数据平台不可缺少的关键步骤,而如何更好地完成数据治理,则是可能影响到城市未来信息化、智慧化发展的大事。
转载注明来源:https://www.xzbu.com/1/view-14974507.htm