您好, 访客   登录/注册

网络科技信息结构化监测的思路和技术方法实现

来源:用户上传      作者:

  摘  要:随着社会经济的发展和科学技术的进步,计算机已经成为了人们日常生活中的重要部分,计算机具有计算速度快、信息传递速度快的特点,正因为这样的特点,使得计算机技术结合互联网技术推动信息的快速共享和传递。由于互联网中的信息数量巨大,并不具有语义性,这给相关的信息分析带来了巨大的难度,实现网络科技信息的结构化,能够让海量的网络信息变得可分析,实现对互联网信息的监控目标。本文主要讲解了网络信息的结构化检测系统的框架搭建和实现的技术方法。希望通过本文的阅读,能够给网络信息检测相关领域的研究工作者提供一定的帮助和启发。
  关键词:网络科技信息;结构化监测;技术方法
  前言:
  互联网信息技术给我们的生活带来了巨大的便利,改变着人们的生活方式和生产方式。经过了多年的演变,目前的互联网信息也具有开源、和极速(发布和获取)两个最大的特点,这两个特点虽然给我们的信息发布和获取提供了巨大的便利。但是却也为信息的分析带来了巨大的难度,这就给舆情监控、数据追踪等工作带来了一定的难度,尤其是相关科研信息的获取。
  1结构化监测的思路和技术框架
  结构化监测系统主要运用在针对科研网络中的各种信息的分析,以便抓取网页中的重点信息,实现对科研成果的信息分析、事态分析和情报跟踪等,帮助情报人员建立更加贴合实际的监测模型,从整体上对科研情报进行掌控。
  在传统的科研信息监控工作中,情报人员需要针对科研机构或者科研人员发布到网络的信息进行人工阅读、整理,提取有用情报,进行合理分析,从而掌握该领域的整体科研进展,实现对科研态势的掌握。但是可想而知的是,这样的方式工作效率很低,而且随着科学技术的发展,科研机构的增多,各种各样的科研信息充斥在了互联网当中,如果还按照传统的工作方式,那么对于情报人员来讲,其工作就如同大海捞针,难以真正的了解科研信息的全貌,得到的情报也就失去了实际作用。而如上文所说,互联网信息具有开源和极速的特点,非结构化的无语义的信息描述让监测模型的建立十分困难,在这样的情况下,需要先将采集到的网页信息进行结构化的处理,使其变成可分析的语义信息,这样就能根据实际信息建立合理的切合实际的检测模型,从而达到适应网络发展、提高工作效率、切实掌握舆情、正确预测发展势态的目的,这也是结构化监测系统大家的基本思路,因此,结构化监测系统的框架可以分为四个层级:监测源层级、信息采集层级、信息处理和計算层级以及结论层级。
  监测源层级是预先通过输入站点、IP地址等来实现定点监测;信息采集层级是利用信息采集器对目标站点或者网页中的HTML文件、PDF文件或者WORD文件进行抓取;信息处理和计算层级是整个系统的核心,通过结构化的语义抽取和对象关系抽取等方式,使其变成可分析的信息;结论层级是最终的结论层面,也叫服务层级,通过计算得到的结果帮助我们建立正确的监测模型,便于进行热点追踪、舆情监控等。
  2 结构化监测关键技术方法实现
  2.1 构建监测本体指导结构化的目标内容监测
  首先我们需要清楚的是,战略情报团队对于某一国家的科研机构的检测,往往不是漫无目的的,而情报团队希望获得的情报也是针对于某一科研领域的各种相关情报,即目标内容。通过长期的调查研究我们发现,对于情报监测人员来讲,为了不错过重要的信息内容,他们对于目标内容的关注点也非常复杂,我们通过对这些目标内容的各种属性进行整理总结之后,发现可以通过结构化的方式来进行监测本体的构建。例如:针对监测对象的科研机构发布的各种信息而言,通过监测发布的国家、地区进行识别,也可以通过监测科研机构、负责人、研发团队、科学家等进行监测,也能通过国家领导人的一些行为进行监测,例如提及重要科研项目的讲话,科研费用的签发,相关科研团队的接见和表彰等。我们通过研究发现,情报人员对于网站信息中一些表示‘发表’‘宣布’‘发现’之类的动词非常敏感,因为这些动词之后往往是重点的科研项目,同时也会对一些表示进展程度的词汇例如‘解决’‘成功’‘失败’‘尝试’等等,通过这些特定的标签能够指导结构化监测本体的搭建。
  2.2 基于对象及对象关系抽取实现网页内容的结构化表示
  首先需要通过一些开源工具例如:GATE或者SP对名词词组进行分析,通过对词性、语义等的分析,得到候选名词词组,而在这之前,需要先建立指示词典。
  然后,这些候选词组的实际情况会与指示词典或者实例词典进行比较,进行一个初步的筛选和判断。
  这之后根据实际情况如词组位置、上下文的语境等,进行进一步的判断。
  在得到的各种信息中,需要将具有共指性的名词进行合并处理,例如网页中同时出现了‘唐纳德·川普’和‘川普总统’所指的是一个人,所以在对他们进行监测的时候,也应该作为同一个目标对象进行检测和结构化分析,共指性合成能够帮助我们减轻下一步的工作量。
  在进行了上述的工作之后,就可以进行对象关系的最终抽取工作,以‘对象、对象、关系、来源和时间’的方式进行抽取,就能够成功的实现网页内容的结构化表达。
  结束语
  总之,对于情报人员来讲,检测目标科研机构的相关科学信息具有非常重要的意义,而随着科学技术的发展,网络信息技术得到了长足的进步,在这样的背景之下,信息的频繁共享和交流给情报人员提供了一定的便利的同时,更多的是工作量的指数倍的提升。在这样的情况下,有必要开发一种新的监测系统,来增强情报人员对目标内容提取的工作效率和准确性,笔者简要的阐述了结构化监测系统的搭建思路和技术要点,该系统对于情报人员的工作具有很大的帮助作用。
  参考文献
  [1]  邹益民,张智雄. 基于对象计算的情报价值判断方法[J]. 科研管理,2016,37(10):129-136.
  [2]  张智雄,刘建华,邹益民,谢靖,钱力,王颖. 网络科技信息自动监测服务系统的建设[J]. 科研信息化技术与应用,2013,4(02):9-17.
  [3]  张智雄,刘建华,谢靖,钱力,张敏,于改红. 科技战略情报监测服务云平台的设计与实现[J]. 现代图书情报技术,2014(06):51-61.
转载注明来源:https://www.xzbu.com/1/view-14930197.htm