您好, 访客   登录/注册

基于文本及内容的图像混合搜索系统的发展现状及一种解决方案

来源:用户上传      作者:

  摘  要:图像搜索通常包含基于文本的搜索和基于图像内容的搜索,两种图像搜索技术各有优劣。基于文本的图像搜索技术的信息准确性有待改进,而基于图片内容的图像搜索技术无法有效保证信息的全面性。另外一方面,相比纯文本,图像处理算法具有较大的差异性,其更加复杂多变,使得图像搜索过程更加复杂。为了解决两个算法的不足,作者提出一种解决方案,即采取基于文本搜索为主,同时结合基于图像内容的混合搜索方式,吸纳两者的优势,一方面使图像搜索过程高效、迅速,另一方面也使搜索结果更加全面、准确,并在此基础上作进一步研究和探索。
  关键词:文本;内容;图像;混合;搜索系统
  中图分类号:TP75        文獻标志码:A         文章编号:2095-2945(2019)07-0121-02
  Abstract: Image search usually includes text-based search and image-content-based search. the two image search technologies have their own advantages and disadvantages. The information accuracy of text-based image search technology needs to be improved, but the image search technology based on picture content cannot effectively ensure the comprehensiveness of information. On the other hand, compared with plain text, image processing algorithm has great differences, which is more complex and changeable, which makes the image search process more complex. In order to solve the shortcomings of the two algorithms, the author proposes a solution, that is, text-based search is adopted, and the hybrid search method based on image content is combined to absorb the advantages of the two. On the one hand, the image search process is efficient and rapid. On the other hand, it also makes the search results more comprehensive and accurate, and makes further research and exploration on this basis.
  Keywords: text; content; image; mixing; search system
  2018年8月,我国互联网信息中心发布了第42次《中国互联网络发展状况统计报告》,其对国内互联网行业发展作出了全面评估,数据显示:截至2018年6月,我国网民规模为8.02亿,上半年新增网民2968万人,较2017年末增加3.8%,互联网普及率达57.7%。并且这一态势仍在扩张。
  目前来看,网络在现实生活中已变得触手可及,人们可以借助互联网与全球用户进行信息交流。在信息化时代,交互环节增多的同时,数据量也爆发式增长,这使得信息搜索变得异常复杂。在该背景下,凭借列表查找的方式查找所需的内容变得几乎不可能,因此搜索引擎技术应运而生,并不断发展。当前,文本数据作为一种信息传递的载体,其优势性逐渐减弱,越来越多的数字图像信息开始为人所用[1]。
  近年来,人们的信息交互方式更加多样,各类影视、图像信息也大幅增长,用户如何有效定位到自己需要的信息,值得进入深入研究。尽管影视、音频等多媒体信息泛滥,但无法否认的是,图像和文字在信息传递过程中仍然是主要载体。图像可以直观形象地向人们传递其内在含义,并且图像内容易于理解,用户接收信息速度快,效率高。为有效缓解这一困境,我们引进了图像搜索引擎,它均有不同于文本搜索的搜索技术和多样化的标注方式,能够帮助人们迅速找到所需的网页图像[2]。
  随着网络科技的深入推进,图像的信息交流作用将逐渐增强,优化图像搜索技术也将推动我国互联网的纵深发展。近年来,诸多学者纷纷投入到该领域研究中,并取得了丰硕成果。国内外关于该方向的研究现状如下:
  1 基于文本的图像搜索技术研究现状
  在各类文本信息的标注方面,许多学者也提出了不同的观点。图像上下文信息主要包括以下几种类型:网页标题、标题文本、图像标题、图像名、标题标记、图像标记等。对于各类文本信息的标注,学者们提出了以下主要研究思路:
  (1)在进行文本数据的候选词选取时,应遵循规则策略。通常而言,若某一词语在文章主题表达中的作用越大,其在文本出现的次数就越多,权重就越大。
  (2)对不同的文本类型进行分析时,应考虑到图像所处位置和其标签的干扰。
  (3)当借助DOMTree技术进行文本信息的获取时,应结合候选词权重及类型有所区分,并进一步构建加权回归模型。
  现有的研究成果主要集中于对图像信息标注的研究。在进行图像文本分析时,许多学者仅考虑到图像关联信息所处位置的影响,而鲜有考虑这些信息的权重大小以及其在文本中的重要程度。   2 基于内容的图像搜索技术的研究现状
  当前,许多学者对这一搜索技术投入了更多的精力与关注度,并深入开展了一系列技术研发活动。国外已经出现一些较为先进的图像搜索系统,如Visual SEEK和WebSEEK。两个系统均借助图像外观颜色的不同进行搜索。在图像视觉特征的确定上,主要使用的是颜色集和小波变换的纹理特征。
  与国外相比,我国在该领域的研究尚处于起步阶段,还存在许多不足。目前已经开发的这类图像搜索技术有国防科技大学的MIRC以及浙江大学的WebscopeCBR等系统。这些技術普遍借助图像的视觉特征,也即纹路和颜色进行图像搜索。在基于内容的搜索技术方面,图像的视觉特征一直是科学研究的重点与热点。然而,仅借助这一基本特征,人们并不能把握图像的深层次含义,并且其搜索算法也较为复杂、精确程度不高。
  3 基于文本和内容融合问题的研究现状
  技术之间的融合即是充分吸纳不同技术的优势性,并规避各方的缺陷,使得技术效果最优。通常采用的统合方法包括因子分析法、层次分析法、线性融合法等。在进行图像研究时,我们通常要克服视觉与文本信息之间的差异性,这也即是融合问题。为实现最佳的视觉和文本信息的融合效果,目前已采用了如下方法[3-8]:
  (1)借助图像的视觉特征,结合多特征融合算法,如基于SVM或支持向量机的算法。
  (2)采用线性融合法。将各个特征变量的权重进行融合分析,测算各个特征概率数值。
  (3)借助线性级联特征融合法优化算法性能。
  (4)构建非连通图模型,实现图像视觉与文本特征的融合:依据两种图像特征的权重及其内在联系,构建非连通图模型。在此基础上,采用聚类分析法,获图像确切的融合特征以及重要参数。
  综合以上情况,笔者提出一种基于文本和图片内容的混合搜索技术的思路和方案,并在此方向进行了进一步的探索和研究,拟解决的问题包括:包括文本和图像信息数据的特征提取,提出一种适合的特征选择框架,包括图像特征、文本特征,并赋予恰当的权重;在特征选择的基础上,进行特征赋权,然后提出搜索引擎框架;实现搜索引擎框架的基础上,针对某一应用采用特定的技术,具体设计与实现。涵括以下方面:
  (1)基于文本的图像搜索技术:课题拟引入对各类文本信息的权重标注方法,分析各类信息在文本中的重要程度。在候选词确定方面,比如采用基于权重的TF/IDF算法。此外,联系候选词的主题特征,对图像的深层次含义作出进一步分析。
  (2)基于内容的图像搜索技术:对于一幅图像而言,其最基本也是最浅层的特征即是颜色和纹路,这些因素也构成了图像的视觉特征。在研究中,这些信息是不可遗漏的。因此,拟采用遗传算法,深入研究图像的视觉特征,确定各项因素的权重,并将其进行线性加权,使结果精度最优。
  (3)基于文本和内容的混合图像搜索技术:我们通常借助图像的文本和视觉特征揣摩其深层次含义,然而,由于两种特征的表现形式不同,将其进行直接融合具有一定难度。由此,拟引入分层搜索技术,使图像搜索性能得以显著优化。完成测试用例编写,包括测试环境、测试用例、功能测试过程以及性能测试过程,最后进行系统测试结果总结分析。
  如何在海量数据文件中定位到目标图像,是近年来研究的热点与难点。随着信息技术的深入推进,图像搜索系统发展前景良好。在现有研究成果的基础上,对传统搜索引擎框架进行重构,利用实验算法实现搜索引擎应用,探究基于内容和文本的混合图像搜索技术,将会对信息搜索起到一定的推进作用。
  参考文献:
  [1]钟逸,邓晖,张慧.基于内容的图像搜索基本理论及比较[J].中国新通信,2015(14):106-106.
  [2]朱凌云,朱征宇,齐新勇.融合多种内容特征的图像搜索算法[J].计算机与现代化,2015(9):17-21.
  [3]李永芳.基于颜色相关图和纹理矩的图像搜索[J].计算机应用与软件,2011,28(10):38-42.
  [4]孙君顶,毋小省.基于颜色分布特征的图像搜索[J].光电子·激光,2006,17(8):1009-1013.
  [5]张刚,马宗民.一种采用Gabor小波的纹理特征提取方法[J].中国图象图形学报,2010,15(2):247-254.
  [6]侯刚.基于内容的图像搜索中特征表示与搜索策略研究[D].吉林大学,2014.
  [7]王凯.基于图像纹理特征提取算法的研究及应用[D].西南交通大学,2013.
  [8]邢春.基于多特征融合图像搜索系统设计与实现[D].哈尔滨理工大学,2012.
转载注明来源:https://www.xzbu.com/1/view-14800526.htm