您好, 访客   登录/注册

短文本分类技术研究综述

来源:用户上传      作者:

  摘  要: 短文本由于特征稀疏并且多歧义等特点,导致难以对其进行高效的分类。本文首先针对短文本的特点,介绍了短文本分类的研究现状,其次对短本文分类涉及到的技术及相关理论进行了阐述,并对文本预处理技术、Word2vec以及LDA模型等文本表示方法进行了重点分析。最后总结了短文本分类未来的发展趋势。
  关键词: 短文本分类;主题建模;分类器;文本表示
  中图分类号: TP391. 41    文献标识码: A    DOI:10.3969/j.issn.1003-6970.2020.02.030
  【Abstract】: It is difficult to classify the short text efficiently because of its sparse features and multiple ambiguities. In this paper, according to the characteristic of short text, this paper introduces the research status quo of short text classification. Second, the classification of involved technology and related theory are expounded, and the text pretreatment technology, Word2vec and LDA model focuses on text representation methods are analyzed. Finally, summarizes the trend of the development of short text classification.
  【Key words】: Short text Classification; Topic modeling; Classifier; Text representation
  0  引言
  隨着社交网络的迅速发展,每秒都会产生大量的数据,如Facebook、微博、Twitter、Instagram等[1],这些数据通常以短文本的形式出现,包含各种用户相关信息,如潜在需求、行为、兴趣、意图等。相对于长文本,短文本具有特征非常稀疏,并且存在高噪声、上下文依赖性强等问题,导致短文本处理很难达到人们预期的要求。
  而如何提取有用的知识将短文本数据应用于辅助决策[2]、话题跟踪[3]、舆情监测[4]、情感分析[5]和个性化推荐[6]等领域,是解决大数据时代下数据难以高效挖掘的途径之一。同时新兴的知识抽取技术也促进了计算语言学的迅速发展,如知识图谱[7],神经网络模型[8]等,这也对基于短文本的数据挖掘提供一个新的研究方向。
  1  国内外研究现状
  对短文本进行向量化,构建合适的文本表示模型,是解决大规模数据环境下短文本数据挖掘的重要手段之一。而由Salton等人提出的向量空间模型(Vector Space Model,VSM)[9],已广泛应用于各领域的词表示之中,由于VSM把文档作为一组特征项的随机排列,因此也被称为词袋模型(Bag of Words, BoW),它通过把单词表示成可计算的向量,大大提高了模型表示的效率,并在实际应用中也取得了不错的效果。
  在过去几十年中,VSM模型由于其简单、易于使用等特点,在普通文本的分类中发挥着重要的作用,并且取得了不错的效果。但是对于短文本来说,由于样本所包含的单词少,并且具有歧义性,导致VSM不再直接适用短文本向量化表示中。近年来,很多学者都提出了一些巧妙的策略来构建适用于短文本分类的表示模型,挖掘短文本中蕴含的潜在信息。第一种观点是使用基于搜索引擎(Search Engine,SE)的短文本分类方法[10],基于搜索引擎可以生成文本关键词的集合,并且能够让原始特征词和拓展特征词之间具有高度相关性,从而将短文本转化为长文本进行后续处理,提高分类准确率。但是这种方式与搜索引擎密切相关,分类结果的准确性很大程度上依赖于搜索引擎,并且,分类过程需要搜索引擎的参与,耗时长,不能实现短文本高效、快速地分类。第二种观点则通过引入外部数据库,如比较成熟的Wikipedia和CNKI等知识库[11],通过知识库一方面可以挖掘出单词之间的语义、语序等关系,另一方面挖掘出词语同义词等信息,用于辅助分类。然而,由于拓展的效果由外部知识库的质量决定,对于知识库中没有的关键词,无法直接进行拓展,并且它的计算相对复杂,计算量较大,不具备对大规模短文本数据快速分类的能力。
  在上述研究的基础上,一些学者尝试利用概率生成模型来提取短文本的潜在特征,如LSA模型(潜在语义分析)[12]、PLSA模型(概率潜在语义分析)[13]和LDA模型(隐含狄利克雷)[14]。和以往的方法相比,概率生成模型通过推理策略获取短文本的主题特征,并将其与文档的原始特征进行融合,从而实现较好的分类效果。例如,张志飞等人,提出一种基于主题相似度的方法[15],通过主题相似度判断实现分类。Phan,Chen等人,利用LDA模型在Wikipedia上进行隐藏主题挖掘[16],通过挖掘出隐含主题来完成短文本扩展。该扩展过程虽然能够减少文本稀疏给分类带来的影响,但是其耗时长,分类效果仍取决于所建立语料库的质量,并且这种模型的构建仍然停留在文本层面,没有将短文本语义信息考虑到分类模型之中,因此不能大规模的使用。
  Mikolov等人在2013年提出了计算词向量的Word2vec模型[17],作为比较流行的文本建模方法,随着Google的开源,目前也被越来越多的研究者使用,在分词[18]、分类[19]、句法依赖分析[20]等领域得到了广泛的应用。如汪静、罗浪等人提出的基于Word2Vec的中文短文本分类方法[21],通过引入词性来改进特征权重计算方法,并且在复旦大学语料库中取得了不错的效果。   目前针对短文本分类,文本表示方法正由单一词向量表示转变成使用语义信息融合、主题模型拓展等方法,一方面通过抽取文本的语义信息实现更全面的语义表达,另一方面通过使用关键词拓展的方法,将短文本转化为长文本,从而解决短文本表示、处理上的难题。随着计算机算力的提升以及神经网络的发展,以Word2vec为基础的神经网络模型与短文本表示相结合也是目前研究的一个方向。
  2  短文本分类相关技术与理论基础
  短文本分类按照流程一般分为文本预处理、文本向量化表示以及分类器选择等阶段。在各个阶段均有不同的流程。文本预处理阶段,主要是对文本进行去噪,剔除文本中的标点以及停用词等,其次通过分词算法对文本进行切分操作。文本表示阶段的主要工作是得到文本分词后的集合,通过文本特征选取算法以及词向量表示等相关算法,将文本表示为欧式空间中的向量。最后通过选择合适的分类器,如朴素贝叶斯、SVM等分类器,把样本划分到正确的类别中。本文主要对文本预处理、文本表示模型进行综述。
  2.1  文本预处理
  文本预处理作为文本向量化的基础,是实现分类不可或缺的步骤,通过分词可以将文本切割成单词集合,并提取出关键词集合。目前,比较成熟的如jieba分词、中科院ICTCLAS分词等中文分词工具,经过开发者的迭代,在分词方面都已经达到了很好的效果。
  在数据预处理阶段,主要工作是去除对文本分类过程无意义的词以及标点等,这些词在文档中通常都会大量出现,如“为”,“的”,“这些”,“由”,“我”等词。这些词由于不具备深层次的语义信息,甚至它的加入还会引入噪声,并且对于向量化表示研究也没有帮助,间接导致分类性能的下降。因此,需要在数据预处理阶段对这些词进行去除,进一步的提高特征选取的效率以及准确率。
  除了去除相关停用词之外,还需要根据词频信息来进行去噪。在研究中我们可以发现,文档中的高频词和低频词同样不能表达出文本的特征[22]。对于高频词,每篇文档出现的概率相差不大,如虚词、语气助词等,因此不具备实际的参考价值,低频词由于词语出现的频率太低,不能表达出文档的特征,因此也需要舍弃。所以通过文档频率和逆文档频率等方式来设定相关的阈值,实现对文本词语的二次筛选,是文本预处理关键步骤之一。
  2.2  文本表示模型
  如何表示非结构化的文本数据,构建适用于短文本分类的向量表示方法,是实现短文本准确分类的理论基础。
  在向量空间模型(VSM)中,通过将文本转化为能够计算的词向量表示,使其能在欧式空间中进行数学处理。这种方式不仅可以减少问题的复杂性,还可以进行各种运算。与VSM不同,Word2vec则通过将每一个词映射为一个向量,从而抽取出词与词之间的语义关系。该模型有两个主要实现:CBOW模型和Skip-Gram模型(如图1所示),这两个模型都是基于词的信息进行预测,因此需要针对不同的场景来选取。目前模型在语义抽取、词义表达等方面也得到了广泛的应用。
  LDA模型则是一个文档主题抽取模型,其假设文本都是由各个不同的主题组成的,LDA通过抽取文本中潜在的主题,来实现对文本的分析与表达。如图2所示,各参数的含义如表1所示。
  在LDA模型中,词的生成过程包括两个步骤。第一步是从主题集中选择一个主题,第二步是根据所选主题下的的主题词分布来选择一个词。其中产生t概率的公示可以描述为(1):
  3  结语
  本文介绍了短文本分类的概念、研究现状与发展趋势以及相关的理论和技术。综述了现有的研究和解决方法,并对常见的文本建模方法如VSM模型、Word2vec以及LDA模型等方法进行了介绍,其在实际应用中也取得了不错的效果。总结了短文本分类的发展趋势,如下:
  (1)由于短文本的稀疏性,如何在短文本中加入特征,对其进行拓展,从而将短文本问题转化为熟悉的长文本问题,是目前研究的一个热点之一,该方法能有效的解决短文本表示过程中的稀疏性问题。
  (2)基于深度学习理论,将短文本的学习由单一模式转化为多维模式,通过学习句子的语法结构、上下文依赖等信息,从而提高文本的语义表达能力,实现对文本的理解由浅层分析转向深度融合,是目前研究发展的一个趋势。
  (3)将主题模型引入短文本建模也是目前发展的趋势之一,主题模型具有坚实的理论基础,通过在算法中引入主题模型能很好的解决隐藏信息丢失、词语歧义等问题。
  参考文献
  Issa, Naiem T, Byers, Stephen W, Dakshanamurthy, Sivanesan. Big data: the next frontier for innovation in therapeutics and healthcare[J]. Expert Rev Clin Pharmacol, 2015,7(3): 293- 298.
  Murray, Karen, Yasso, Sabrina, et al. Journey of Excellence: Implementing a Shared Decision-Making Model[J]. American Journal of Nursing, 2016, 116.
  黃畅, 郭文忠, 郭昆. 基于双向量模型的自适应微博话题追踪方法[J]. 小型微型计算机系统, 2019, 40(06): 1203- 1209.
  Johannes V. Lochter,Rafael F. Zanetti,Dominik Reller,Tiago A. Almeida. Short text opinion detection using ensemble of classifiers and semantic indexing[J]. Expert Systems With Applications,2016,62(1): 243–249.   Kilimci, Z. and ?lhan Omurca, S. Extended Feature Spaces Based Classifier Ensembles for Sentiment Analysis of Short Texts. Information Technology And Control, 2018, 47(3): 457-470.
  Zhou, W. and Han, W. Personalized recommendation via user preference matching. Information Processing & Management, 2019, 56(3): 955-968.
  李濤等. 知识图谱的发展与构建[J]. 南京理工大学学报(自然科学版). 2017, 41(1): 22-34.
  万圣贤, 兰艳艳, 郭嘉丰, 等. 用于文本分类的局部化双向长短时记忆[J]. 中文信息学报, 2017, 31(3): 62-68.
  Salton G. A vector space model for auto- matic indexing [J]. Communications of the ACM, 1975, 18(11) : 613-620.
  Yih W,Meek C. Improving similarity measures for short segments of text[C]// Proceedings of the 22nd Conference on Artificial Intel- ligence. Menlo Park: AAAI Press, 2007: 1489-1494.
  王荣波. 基于Wikipedia的短文本语义相关度计算方法[J].计算机应用于软件. 2015, 32(1): 82-85.
  Dumais ST. Latent semantic analysis. Annual Review of Information Science and Technology[J], 2015, 38(1): 188- 230.
  Christos H. Papadimitriou,Prabhakar Raghavan,Hisao Tamaki, Santosh Vempala. Latent Semantic Indexing: A Probabilistic Analysis[J]. Journal of Computer and System Sciences, 2000, 61(2): 217-235.
  Blei DM, Ng AY, Jordan MI.  Latent dirichlet allocation[J]. Machine Learning Research Archive,2003, 3(Jan): 993–1022.
  张志飞. 基于LDA主题模型的短文本分类方法[J]. 计算机应用, 2013, 33(6): 1597-1590.
  Mengen Chen, Xiaoming Jin, Dou Shen. Short Text Classification Improved by Learning Multi-Granularity Topics[C]// IJCAI 2011, Proceedings of the 22nd International Joint Conference on Artificial Intelligence, Spain: AAAI Press , 2011: 1776–1781.
  Mikolov T, Sutskever I, Chen K , et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems, 2013: 3111-3119..
  王飞, 谭新等. 一种基Word2Vec的训练效果优化策略研究[J]. 计算机应用与软件, 2018(1): 97-102.
  王勤勤, 张玉红, 李培培, 等. 基于word2vec的跨领域情感分类方法[J]. 计算机应用研究, 2018, 35(10): 50-53.
  王红斌, 郜洪奎. 基于word2vec和依存分析的事件识别研究[J]. 软件, 2017(06): 70-73.
  汪静, 罗浪, 王德强. 基于Word2Vec的中文短文本分类问题研究[J]. 计算机系统应用, 2018, 7(05): 211-217.
  王浩然. 基于词向量的短文本主题建模研究[D]. 吉林: 吉林大学计算机科学与技术学院, 2017.
转载注明来源:https://www.xzbu.com/8/view-15233961.htm