您好, 访客   登录/注册

基于熵权的搜索引擎评价指标体系的构建

来源:用户上传      作者:

  摘要 在回顾搜索引擎评价研究现状的基础上,分析搜索引擎评价指标的基本构成因素。创造性地将熵权理论引入搜索引擎评价领域,建立熵权值模型,并通过科学计算,构建出基于熵权的搜索引擎评价指标体系。
  关键词 搜索引擎 熵权 评价指标 模型
  分类号 G250
  
  1 引言
  
  搜索引擎评价指标体系的构建,是科学评价搜索引擎质量的重要基础。对搜索引擎进行全面、客观、公正、系统的评价,不仅可以为用户选择合适的搜索引擎提供科学的依据,而且可以促进搜索引擎的提供者改进服务质量,提高服务水平。本文拟将熵权理论引入搜索引擎评价领域,通过建立熵权值模型,构建出合理的搜索引擎评价指标体系。
  
  2 搜索引擎评价指标的确立
  
  2,1搜索引擎评价指标体系研究的现状
  搜索引擎评价指标体系的研究,起始于1996年。短短十几年的时间里,国内外学者们在搜索引擎评价指标体系研究方面取得了诸多的成果。如美国南加州大学教授Robert Harris提出了8条标准;Da-vid Stoker和AlisonCooke也提出了与Harris完全不同的8条标准;H.Vernon Leighton和J.deep Srivastava将查准率和查全率引入,并提出了“相关性范畴”的概念;Bar-Ha提出应从数据库覆盖范围、查询响应时间、用户所需努力和检索效果来评估;Heting Chu和Marilyn Rosenthal则提出应从标引、检索能力、检索效果、输出、用户负担5个方面来评价;Bell提出用户为中心的评价理念。
  国内学者张莉扬提出了重复率、互链接率两个新指标;曾民族在综合国内外搜索引擎评价研究成果的基础上提出7项评价指标;南开大学的李培和刘淑华将评价标准归纳为“10C”原则和“CARS”检验体系两种;陶跃华等根据系统工程的基本思想,提出了评价指标体系并建立了评价模型;郭晓苗则引入了层次分析评价法;刘正春提出了量化评价模型;王静江对现有的指标体系做了比较研究;朱庆华提出了基于层次分析法的评价指标体系。
  
  2,2搜索引擎评价指标的确立
  2,2,1搜索引擎评价指标的确立原则 要确立科学、合理、有效的搜索引擎评价指标,就必须建立相应的指导原则,以保证我们确立的搜索引擎评价指标有一个客观、统一的基础。由于搜索引擎终究是为用户检索服务的一种网络工具,确立搜索引擎评价指标最基本的出发点就是把用户放在第一位,凸现“人性化”理念。因此搜索引擎评价指标的确立应该符合以下三原则:科学、合理、实用。
  ・科学原则。确立的搜索引擎评价指标要能客观、真实、全面地反映搜索引擎的主要性能以及各相关因素之间的内在联系。
  ・合理原则。确立的搜索引擎评价指标是对传统评价指标体系的扬弃。既要摈弃传统评价指标中存在的严重缺陷,又要适应信息技术的发展,增加新性能指标。使得其能够充分体现现代网络信息检索技术发展的基本特点。
  ・实用原则。确立的搜索引擎评价指标要具有实用性和高效性。既要简明扼要,便于识别,又要实用方便操作。
  2,2,2搜索引擎评价指标的确立基于2,2,1节提出的理念与原则,搜索引擎评价指标应该包括:
  ・用户感觉。包括用户舒适度与智能化程度。舒适度主要包括:搜索引擎网站界面的外观设计是否符合美学原则;用户操作是否方便,是否有帮助系统、是否提供特色服务等;智能化程度则表现为搜索引擎的人性化服务水平,主要包括是否提供网页快照功能、在保证检索精度的前提下,搜索引擎能否对网页按重要性排序以及能否对信息进行智能过滤等。
  ・数据库。搜索引擎数据库是搜索引擎工作的基础,也是搜索引擎评价的重要对象。搜索引擎数据库包括数据资源库与资源索引库两方面。数据资源库的评价指标主要有数据库内容性质、规模、学科范围、信息的权威性、时效性、更新周期,分类体系和信息抓取方式等;资源索引库的评价指标主要是索引的标引数量、标引深度和标引方式与方法等。
  ・检索功能。是搜索引擎技术能力的综合体现,直接影响着检索结果质量的高低。搜索引擎检索功能的评价指标主要包括:基本检索、目录式浏览检索、高级检索和多媒体检索。
  基本检索通常是指布尔逻辑检索、截词检索、邻近词检索、字段检索、通配符检索和区分大小写(英语)等功能;高级检索主要是指加权检索、模糊检索、概念检索、自然语言检索、聚类检索、跨语言检索、不同格式文件检索以及相关信息反馈检索等。
  ・检索结果。是用户使用搜索引擎所产生的直接产品。其评价指标主要包括输出结果与检索效率两方面。前者包括查全率(漏检率)、查准率(误检率)、显示内容的完整率和显示方式的标准化程度;后者则包括响应时间、死链接率以及搜索系统的稳定性等。
  
  3构建基于熵权的模糊综合评价模型
  
  3,1“熵”概念的引入
  熵(shannon)是自信息的数学期望,系统的不确定性被定义为信息熵(简称“熵”),其物理含义是指对信源整体的统计特征体的平均不确定性的量度(即平均自信息量)。对于某一特定的信息源,其信息熵只有一个。由于信息的获得意味着不确定性的减少或消除,所以人们将接受某一信号所获得的信息熵的减少值,称为“负熵”。
  
  
  
  4,2构建基于熵权的搜索引擎评价指标体系
  依据本文2.2节设计出专家调查表,然后以电子邮件形式邀请“零点论坛”资深会员对调查表进行评价,依重要程度标注出5、4、3、2、1之中的代码。本次调查共发出调查表50份,收回有效调查结果35份。通过对收回的调查结果汇总整理,构建出各级指标的模糊评价矩阵,然后利用Matlab 7.0编程计算出各级指标权重值。最后得出基于熵权的搜索引擎评价指标体系,如表1所示:
  
  5 结论
  
  本文创新之处在于将熵权计算模型引入搜索引擎评价领域。由于熵值赋权可以综合考虑多个专家信息和指标蕴含的信息量,因此该计算模型对传统评价中的权重系数进行了科学的修正,有效地避免了传统方法中权重系数确定过程的主观色彩,同时更加注重评价指标体系中指标自身的重要程度,而且充分利用了被评价指标的信息量,因此有效地弥补了传统评价方法的缺陷,因此使得其最终评价结果比其他传统评价方式更客观、更科学、更合理,达到了科学评价的目的。


转载注明来源:https://www.xzbu.com/1/view-153063.htm