您好, 访客   登录/注册

基于指针机制与门控卷积单元的抽象式文本摘要方法

来源:用户上传      作者:王子牛 汤灿 高建瓴

  摘  要: 为了提高生成摘要的连贯性和可读性,同时避免传统抽象式摘要方法的未登录词和生成摘要的自我重复问题。本文在注入注意力机制的序列到序列模型基础上,加入了指向生成器网络且在编码器和解码器之间加入了一个门控卷积单元。通过指针从原文中拷贝词,在正确复述原文信息的同时,使用生成器生成一些新的词,解决未登录的问题;通过门控卷积单元控制信息流,解决摘要重复问题。实验数据主要依赖于LCSTS中文摘要数据集。根据实验结果显示,该模型的ROUGE模型分数高于传统的Seq2seq模型,提高了文本摘要的质量。
  关键词: Seq2seq;注意力机制;指向生成器网络;卷积门控单元
  中图分类号: TP391.1    文献标识码: A    DOI:10.3969/j.issn.1003-6970.2020.10.066
  本文著录格式:王子牛,汤灿,高建瓴. 基于指针机制与门控卷积单元的抽象式文本摘要方法[J]. 软件,2020,41(10):260263
  【Abstract】: In order to improve the coherence and readability of the generated abstract, and to avoid the problem of unregistered words and phrase duplication in the traditional abstract abstract method. This article uses the traditional sequence-to-sequence method of adding attention mechanism. On the basis of the model, a pointer-generator network PG is added and a gated convolution unit is added between the encoder and the decoder. Copy the word from the original text with the pointer,while repeating the original information correctly, use the generator to generate some new words to solve the problem of unregistered words.Gated convolution unit controls information flow and solves the problem of duplicate abstracts. The experimental data mainly depends on the LCSTS Chinese abstract data set. According to the experimental results, The ROUGE score of this model is higher than that of the traditional Seq2seq model, which improves the quality of text abstracts.
  【Key words】: Seq2seq; Attention mechanism; Points to generator network; Convolution gating unit
  0  引言
  随着近几年大数据时代的高速发展,文本信息的爆发式增长,从海量的文本信息如新闻、博客、论文、微博等提取重要的内容,已经成为人类的一个迫切需求,面对巨大资源中非关键和冗余信息,机器的自动文本摘要很好的提高了人们的阅读效率。
  文本摘要任务分为好几种,其中按照文档数量可以分为单文档摘要和多文档摘要问题,按照按照实现方式可以分为提取式(extractive)和抽象式(abstractive)[1]。人类做文摘的时候也需要具备很强的语言阅读理解能力和归纳总结能力,因此机器的文本摘要是自然语言处理中较难的任务。简单的传统摘要方法都是提取式,即从原文中提取关键信息然后组合起来。随着深度学习在NLP中的深入[2],更加注重了摘要的 连贯性、一致性,更接近于人类的摘要思维。具有编码器和解码器结构的seq2seq模型[3]正好可以运用在文本问题中,再加上注意力机制(attention)的注入,文本摘要的研究已经上升到很高的层次。在当前的研究上,文本摘要仍然存在一些问题,首先不能像抽取式那样准确的获取文本的重要信息,在测试数据中存在未登录词,即训练词表中没有的词(OOV),从而生成的摘要遗漏重要的信息。其次就是生成的摘要经常会存在重复的问题,因为传统的seq2seq+attention模型在解码的过程中,容易在不同时间步多次关注同一词语而导致重复。
  在现已有的模型基础上,本文将指向生成器网络(pointer-generator network)通过指针从原文中拷贝词,在正确复述原文信息的同时,使用生成器生成一些新的词,解决了未登录的问题。再在seq2seq的encoder和decoder之间加入了一个门控卷积单元(CGU),负责控制编码器到解码器的信息流,考虑了摘要过程的全局信息,解决了前面attention机制可能导致的词语重复的问题。
  1  相关研究
  抽象式文本生成的思路是根据人类习惯,以不同于原文表诉而将文章的中心内容和概念表达出来。随着循环神经网络和seq2seq+attention在機器翻译上表现很好,相应的模型也出现在文本摘要领域。抽象式的问题都可以归结为求解条件概率问题p(word| context),在上下文(context)的条件下,将训练的词表中每一个词的概率值都算出来,用概率最大的那个词作为生成的词,依次生成摘要中的所有词。抽象式摘要本身是一个语言成成的问题,不可能将所有的词都放到词表中,从而造成未登录词(OOV)的问题。Rush[4] 提出了一种encoder-decoder结构的基础上加入注意力机制的生成式摘要方法,是个纯数据驱动的模型Attention-Based Summarization(ABS),之后又提出了抽象式与抽取式融合的模型,在ABS模型的基础上增加了特征函数,修改了评分函数,得到了效果更佳的ABS+模型[5]。2018年J. Gu[6]等人提出的copy机制,其encoder采用了一个双向的RNN模型,在生成词时存在两种模式,分别是生成和拷贝模式,很好的解决了未登录词的问题,但是整个模型较复杂,在copy机制之前提出有提出过一种架构来增强标准的seq2seq+ attention模型,即2015年Brain[7]等提出的指针网络(pointer network),传统带有注意力机制的seq2seq模型输出的是针对输出词汇表的一个概率分布,而Pointer Networks输出的则是针对输入文本序列的概率分布,特别适合用来直接复制输入序列中的某些元素给输出序列。Lin[8]等人提出的全局编码框架,在seq2seq的encoder和decoder之间加入了一个门控卷积单元。   3.3  对比实验
  本文主要解决的是文本摘要存在OOV和生成摘要词语重复问题,针对这两个问题分别加入了指向生成网络和卷积门控单元两个模块。因此,对比实验选择了传统的注入注意力机制的seq2seq模型(atten tion),CopyNet模型,增加了卷积门控单元的seq2seq模型(attention+CGU),增加了卷积门控单元和指向生成网络的seq2seq模型(attention+CGU+PG)总三种中文文本摘要的方法。
  3.4  实验参数
  本实验所用配置为linux操作系统openSUSE Leap 42.3,选用intel(R) Core(TM)i5 -7500的CPU,GeForce RTX2080Ti的GPU,深度学习框架为Tenorflow。神经网络隐藏单元数和词嵌入[17]维数均为512,使用包含50000个词语的词汇表。实验设置批大小处理数为64,学习速率为0.0003,迭代次数为20次。随着参数更新的总距离的增加,其学习速率也随之减慢。在测试阶段,使用束大小为 10的束搜索(beam search)来产生摘要。
  3.5  实验结果分析
  在LCSTS数据集上分别使用三种基于seq2seq模型做抽象式文本摘要实验,得到的ROUGE分数结果如表1所示。
  从表1的对比可以看出,在各种基于seq2seq方法中,融合卷积门控单元和指向生成网络(Attention+ CGU+PG)的模型在ROUGE的评判体系结果要优于其他模型,其中ROUGE分数分别比前者(Attention+ CGU)提高了0.08、0.12、0.21。另外,CopyNet是在序列到序列模型基础上加入指针网络的一个表现突出的模型,但是对比本文的模型,ROUGE分数分别低了5.20、5.15、6.51。最后与传统基于注意力机制的seq2seq模型对比可以看出,ROUGE得分大大提升。综合对比这几种抽象式的方法,本文所提出的模型能够有效提升中文文本摘要的效果。
  实验对三种不同模型的摘要结果输出,得到同一篇短文本生成的不同摘要如表2所示。
  从表2可以看出,在源文本中出现很多重复的词语的时候,只注入Attention的摘要模型会对其过分关注,其中“愿意”和“走多远”两次词出现了两次,导致生成的摘要语句重复。由于本实验使用的是50000的词表,若文本出现词表中没有的词,且有的标点符号或特殊符号在实验的预处理上做得不够,存在很多未被模型识别的[UNK]标记。摘要模型在加入卷积门控单元后,对源文本的信息流有了全局的控制,基本解决了语句重复的问题,但是因为词表的问题,对解决文本摘要的OOV问题表现不足。最后,在同时加入卷积门控和指针网络后,既可以控制全局的信息,又可以在词表固定的限制下,指针直接从文本的输入调用词汇,在解决语句重复的基础上,也很好的解决了未登录词的问题,生成的摘要更符合参考摘要表达的意思。
  4  结语
  本文通过对抽象式文本摘要任务的学习和研究,针对当前文本摘要出现的OOV和摘要片段重复的问题,在传统的seq2seq+attention的模型上再加入了卷积门控单元和指向生成网络,使得生成摘要准确度有较高的提高。首先,卷积门控单元用到了卷积神经网络,这个是文本摘要的一个新思路,其结构是一个一维的卷积单元,主要提取句子中的n-gram信息从而考虑了文本的全局信息,保证输出的语义通顺,提高了模型的语言理解能力,降低生成摘要的重复。其次,本文单纯使用指针网络的思想,每个指针对应一个输入序列,從而可以直接操作输入序列而不需要特意输出词汇表,很好的解决了测试集中出现没有训练到词表中的词汇。最后,结合两种模型,通过ROUGE评价结果得到,本文的模型分数高于传统的Seq2seq模型,提高了文本摘要的质量。
  本文还存在不足之处,例如本文的数据集都是都是150字以内的短文本,生成一个更短的摘要或标题,但是长文本的情况还有待验证,另外文本的输入序列是以字作为单位输入的,然后每一行是一条数据,若将其分词之后再输入,实验结果可能有差异。
  参考文献
  [1]侯圣峦, 张书涵, 费超群. 文本摘要常用数据集和方法研究综述[J]. 中文信息学报, 2019, 33(5): 1-16.
  [2]刘腾飞, 于双元, 张洪涛, 尹鸿峰. 基于循环和卷积神经网络的文本分类研究[J]. 软件, 2018, 39(01): 64-69.
  [3]SUTSKEVER I, VINYALS O, LE Q V. sequence to sequence learning with neural network [C]//Proceedings of 2014 annual conference on neural information processing systems (NIPS). Montreal: Neural Information Processing Systems Foudation , 2014: 3104-3112.
  [4]RUSH A M, CHOPRA S, WESTON J. A neural attention model for abstractive sentence summarization [EB/OL]. [2017-12-30]. https: //arxiv. org/pdf/1509. 00685.
  [5]CHOPRA S, AULI M, RUSH A M. Abstractive sentence summarization with attention recurrent neural network[C]// Conference of the North American chapter of the Association for Computational Linguistics. San Diego: Human Language Technologies 2016: 93-98.   [6]GU J, LU Z, LI H, ET AL. Incorporating copying mechanism in sequence-to sequence learning [C]//Proceedings of the 54th annual meeting of the Association for Computation Linguistics. Berlin: ACL, 2016: 1631-1640.
  [7]Oriol Vinyals, Meire Fortunato, and Navdeep Jaitly. 2015a. Pointer networks. In Advances in Neural Information Processing Systems, pages 2674-2682.
  [8]Junyang Lin, Xu Sun, Shuming Ma, Qi Su. Global Encoding for Abstractive Summarization[C]// Proceeding of the 56th annual Meeting of the Association for Computational Linguistics. Melbourne: ACL, 2018: 15-20.
  [9]孫承爱, 丁宇, 田刚. 基于GLU-CNN和Attention-BiLSTM的神经网络情感倾向性分析[J]. 软件, 2019, 40(07): 62-66.
  [10]孙承爱, 赵瑞, 田刚. 基于Aspect带有CNN注意力机制的门控卷积网络与情感分析[J]. 软件, 2019, 40(07): 8-15.
  [11]Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning total ignand translate[J]. arXiv Preprint arXiv: 1409. 0473, 2014
  [12]Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the incep- tion architecture for computer vision[C]/ /Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016. [DOI:10. 1109/CVPR.2016.308]
  [13]刘腾飞, 于双元, 张洪涛, 尹鸿峰. 基于循环和卷积神经网络的文本分类研究[J]. 软件, 2018, 39(01): 64-69.
  [14]Vinod Nair and Geoffrey E. Hinton. 2010. Rectifified linear units improve restricted boltzmann machines. In ICML 2010, pages 807-814.
  [15]HU B, CHEN Q, ZHU F. LCSTS: A large scale Chinese short text summarization dataset[C]// Proceeding of the 2015 conference on empirical methods in natural language processing. Lisbon: EMNLP, 2015: 2667-2671.
  [16]FLICKC. ROUGR: a package for automatic evaluation of summaries[EB/OL]. [2017-12-30]. http://www.aclweb.org/ anthology/w04-1013.
  [17]王红斌, 郜洪奎. 基于word2vec和依存分析的事件识别研究[J]. 软件, 2017, 38(06): 62-65.
转载注明来源:https://www.xzbu.com/8/view-15374211.htm