您好, 访客   登录/注册

基于层次分析法的网页排序技术

来源:用户上传      作者:

  摘 要:在大数据时代,网页搜索的效率和质量要求越来越高,本文在研究分析层次分析法原理的基础上,提出了基于此的网页搜索排序技术和处理方法,通过仿真实证了该方法的可行性和有效性。
  关键词:搜索引擎;层次分析法;网页排序
  1 概要
  经过多年的探索发展,向量空间模型、语言模型、布尔模型、链接分析算法、相关性排序模型等都曾或正被应用到搜索引擎中。目前用得比较多的排序算法是在链接分析算法的基础上加入更多的排序因素:关键词在网页中出现的位置、点击次数和网页被引用次数等。这些方法最大的不足是不同用户搜索得到的网页结果排序是一样。
  2 层次分析法
  2.1 层次分析法原理
  层次分析法(AHP),其主要思想是通过对复杂系统的有关要素及其相互关系进行分析,将其简化为有序的递阶层次结构,使这些要素归类到不同的层次,形成一个多层次的分析结构模型,最终把系统分析转化为确定最低层(决策方案)相对于最高层(总目标)的相对重要性权值的问题。
  AHP使用时先将问题中的因素划分到不同层次中,利用一致矩阵法确定各层次因素间的权重,经过归一化得出由同层次因素对于上一层次某因素的相对重要性的权值所组成的矩阵。然后计算某层次所有因素对最高层相对重要性的权值。两次相对重要性权值计算都需进行一致性检验。
  AHP实现网页排序的原理是以网页和搜索关键词之间的相关度为最高层,点击次数、词频、词位置、引用次数、浏览时间和用户个人信息作为中间层,搜索的结果网页为最底层。通过结合搜索和层次分析法排序完成搜索任务。
  2.2 基于层次分析的网页排序
  首先对用户提交的关键词进行同义词查询,基于关键词及其同义词进行扩展查询,查询返回关键词在页面中的位置、浏览平均时间、点击率、被引用次数等信息,然后对返回的结果页面结合AHP分析得出相关性排序网页,最终向用户反馈排序结果。
  假设用户提交关键词后得到5个页面,为得到的页面创建SearchedPage实例。该实例有以下字段:id(页面在DB中的编号),relevance(关键词与页面的相关程度),hitWeight(页面被点击次数权重,/100),refWeight(页面被引用次数权重),posWeight(关键词位置权重,根据关键词第一次出现的位置判断,标题部分取20,正文按每10%减1,正文前10%取10),freWeight(关键词频率权重,*100),readTWeight(页面平均浏览时间权重,*100),cusWeight(用户个性化相关权重,页面类别与用户爱好匹配取3,否则取1),synWeight(词义距离权值,取值0-5,直接匹配取0)。假设这5个页面:(hitWeight,refWeight,posWeight,freWeight,readTWeight,cusWeight,synWeight)
  5个页面取值分别为:P1(9.6,24,20,0.93,2.7,1,1),P2(3.1,7,9,0.2,1.76,1,1),P3(8.2,13,10,0.98,0.84,3,1),P4(9.7,8,10,1.15,0.79,1,0),P5(5.4,36,20,0.81,0.8,3,2)。利用AHP求解relevance。
  根据中间层因素对relevance取值的影响程度,建立比较矩阵T,其中t12= 1/3表示作者认为关键词在页面中的位置比其出现频率更重要。
  通过计算,得比较矩阵T的最大特征根λ=7.3,相应特征变量为W=(0.11,0.34,0.05,0.24,0.10,0.08,0.09)T,一致性检验指标CI = (λ- n)/(n - 1) = 0.05,n = 7。查表知随机一致性指标为RI=1.32,一致性比率CR=CI/RI=0.038<0.1,通过一致性检验。
  根据SearchedPage属性值,构建P1到P5实例对freWeight等指标的判断矩阵,如下。
  因为篇幅有限,本文不列出K2―K10,只给出K2―K10比较矩阵的最大特征值λi(i=1,2,3,……,7)与对应的特征向量Wi(i=1,2,3,……,7)。
  λ1=10.04 W1=(0.14,0.05,0.16,0.14,0.12)
  λ2=10.86 W2=(0.13,0.02,0.08,0.10,0.17)
  λ3=10.09 W3=(0.17,0.03,0.14,0.17,0.11)
  λ4=10.11 W4=(0.19,0.07,0.07,0.05,0.04)
  λ5=10.12 W5=(0.12,0.03,0.08,0.04,0.25)
  λ6=10.01 W6=(0.03,0.04,0.19,0.03,0.18)
  λ7=10.29 W7=(0.11,0.03,0.12,0.13,0.07)
  算出K1―K10最大特征值、特征向量对应的CI、CR知通过一致性检验,层次总排序一致性比率:CR=(t1CI1+t2CI2+L+a7CI7)/(a1RI1+a2RI2+L+a7RI7),其中:(t1,t2,t3,t4,t5,t6,t7)T=(0.11,0.34,0.05,0.24,0.10,0.08,0.09)T,算得CR=0.032,CR<0.1通过检验。
  因此,通过同义词和个性化搜索后得到SearchedPage的5个实例P1、P2、P3、P4、P5排序为P1、P5、P3、P4、P2。
  3 结语
  基于层次分析的搜索排序技术可以较好的解决传统的同义词扩展方式又会带来更多的查询结果难以合理排序的问题,并有利于提高搜索的精确率和覆盖率。
  参考文献:
  [1]常璐,夏祖奇.搜索引擎的几种常用排序算法[D].图书情报工作,2003(06).
  [2]金祖旭,李敏波.基于用户反馈的搜索引擎排名算法[Z].计算机系统应用,2010(12).
  作者简介:吕嘉慧(1993-),女,广东佛山人,本科,研究方向:搜索引擎。
转载注明来源:https://www.xzbu.com/1/view-11773787.htm