您好, 访客   登录/注册

电子文件元数据智能分析与可视化呈现

来源:用户上传      作者:

  摘要:本文提出将元数据智能分析的理念引入电子文件的开发利用工作中的创新思路,通过数据挖掘流程与技术创新的有机结合,自动化、智能化、高效率、低成本地将电子文件中的浅层信息变为深层信息,将隐性知识转化为显性知识,力求加速知识创新,为电子文件的深度开发与利用奠定基础。
  关键词:电子文件元数据数据挖掘智能分析可视化
  本文将从社会关系的角度探讨电子文件元数据智能分析的思路、对象和方法,继而以可视化的形式展示这一思路的系统实现,以期为电子文件的深度开发和利用奠定基础。
  一、电子文件元数据智能分析的理念与思路
  (一)电子文件元数据智能分析的基本理念
  电子文件元数据智能分析是指在有噪音、模糊的大量非结构化电子文件中,基于《文书类电子文件元数据方案》(DA/T46-2009)中元数据(本文称之为标准元数据)及本课题组提出的扩展元数据,通过图形直观地显示、比较数据中的复杂关系,识别出有效、新颖、可用的数据分析模型,并发现隐藏于数据之中知识的过程。
  电子文件元数据智能分析的目的在于向利用者屏蔽原始数据的噪音,洞察、解释错综复杂的数据关系,从原始数据中提炼出有意义的知识,并用可视化的图形简洁、生动地展示出来,以便为业务提供经过挖掘、提炼、梳理并能反映规律和本质的信息,有效辅助决策。由于电子文件元数据中包含了社会关系的主体(人物、组织),因而在可视化智能分析中特别重视分析并显示个人与个人的关系、个人与组织机构的关系、个人与主题的静态和动态关系。通过数据挖掘方法揭示上述关系有助于量化人物、组织、主题之间广泛、深入、直接的联系,从而为决策提供数据支撑。
  (二)电子文件元数据智能分析的核心对象
  电子文件元数据智能分析的对象主要是《文书类电子文件元数据方案》中列为“内容描述元数据”的主题词、关键词、人名以及“业务实体元数据”中的行为依据。在此基础上,课题组基于上述社会关系研究,又拓展了其他命名实体元数据,包括空间、组织、引语等“内容描述元数据”的扩展项,其中“组织”是指电子文件内容涉及的所有组织机构,主要分析存在于电子文件中的各种社会组织关系。特别予以说明的是,将主题词作为分析对象,主要基于以下考虑:
  1.主题词地位至关重要。主题词是内容描述元数据的核心,是电子文件核心内容的概括和提炼。国家电子政务标准化总体组制订的首批6个电子政务标准项目中,《基于XML电子公文格式规范》《电子政务数据元和电子政务主题词表编制规则》都包含了主题词的内容;以主题词为代表的内容描述元数据在《文书类电子文件元数据方案》中也占据重要地位。尽管2012年国家标准《党政机关公文格式》(GB/T9704-2012)在格式要素中取消了“主题词”,但课题组认为全文检索的原理无法展现主题词之间运用“用、代、属、分、族、参”等参照项所建立起来的隐蔽的分类体系,因此不能深刻揭示公文中的语义关系。语义关系无法揭示,电子文件的数据挖掘也无从谈起。
  2.主题词方面的研究成果在实践中已得到很好的验证。课题组的前期研究成果《电子政务主题词表编制及应用系统》获2005年度“北京市科学技术二等奖”,基于上述主题词研究成果开发的“北京外事网站内容分析和发布系统”实现了友好城市新闻自动采集、分析和发布,较大提高了北京外事网站内容的更新效率;基于上述研究开发的“全球最新科技情报数据挖掘系统”在专利、期刊、论文、科技新闻的元数据整合中发挥重要作用。
  (三)电子文件元数据智能分析的方法
  智能分析法中的相关关系法、回归分析法和时序分析法在数据挖掘、信息分析、趋势预测等领域应用比较广泛,所以课题组将之选为电子文件“内容描述元数据”和“业务实体元数据”的智能分析方法,其中相关分析法是核心。相关分析法侧重探讨变量间关系的密切程度,回归分析法侧重探求变量间的因果关系,时间序列分析法则考虑研究对象与时间之间的相关关系,即将时间作为自变量来看待。同时,本文还以词语同现概率理论为基础引入主题词智能标引技术,从词语的角度研究并度量社会关系,用可视化技术显示“内容描述元数据”和“业务实体元数据”在社会影响力、社会发展趋势、社会热点问题等方面的影响。
  通过技术手段自动采集出目标分析对象的主题词、关键词、人名、行为依据、空间、组织、引语等元数据并以此作为分析对象,运用相关分析法以上述元数据在电子文件集合中出现的频次作为第一个变量进行研究,以上述元素在电子文件集合中同时出现的概率作为第二个变量进行研究。在回归分析中,为探求变量间的因果关系,例如以“世界城市”的相关内容元数据作为第一项多个变量,以公认的世界城市“纽约”的相关内容元数据作为第二项多个变量,通过寻找这两项多个变量的交集,发现世界城市的自变量。在此基础上,提出时序数据随时间推移而变动的四种类型:趋势变动、周期变动、季节变动和随机变动。
  二、电子文件元数据智能分析的系统实现
  电子文件元数据智能分析的系统实现包括:电子文件元数据自动采集体系和系统开发、电子文件元数据智能分析与实际业务需求的无缝对接、电子文件元数据智能分析及其可视化展示。其中,电子文件元数据自动采集体系主要描述如何根据大数据特点设计电子文件扩展元数据以及如何通过流程、模板、技术这三种方法在电子文件中自动采集元数据及扩展元数据,这部分内容是将非结构化文本半结构化处理的关键环节;对电子文件元数据智能分析与实际业务需求的无缝对接,课题组将通用的数据挖掘流程与北京市人民政府外事办公室的具体业务需求进行对接,围绕电子文件元数据智能分析系统的设计展开对业务的需求分析,这是将技术与业务结合的关键;在电子文件元数据智能分析系统设计过程中,课题组根据数据挖掘原理,围绕社会关系,对电子文件元数据和扩展元数据进行了智能分析,这是课题组研究的核心内容,目的是探索一条开发和利用电子文件的新思路和新方法;在电子文件智能分析结果的可视化展示研究中,课题组根据视觉认知原理,对电子文件标准元数据和扩展元数据的表现形式以及智能分析结果的表现形式进行创新设计,将枯燥的数据分析结果予以直观展示。
转载注明来源:https://www.xzbu.com/4/view-11697901.htm