您好, 访客   登录/注册

基于两层BiLSTM的问题回答技术研究

来源:用户上传      作者:

  摘要:针对答案选择任务,在基于注意力机制的双向长短时记忆(BiLSTM)的基础上,探索了两层BiLSTM网络的应用。我们在2016NLPCC DBQA任务数据集上进行实验,此模型MRR可以达到75.51%。两层网络的效果优于单层网络,证明了两层网络的有效性。
  关键词:答案选择;注意力机制;多层网络;双向长短时记忆网络
  中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2020)03-0095-02
  0 引言
  互联网时代的快速发展,每天都有大量的互联网数据产生与传递。怎么高效且精准地从大量且杂乱无章的数据中查找到回答用户所提出问题的信息成为如今研究的热点。自动问答系统的便利之处在于根据用户所提出的问题从大量数据中反馈最为匹配的答案。答案选择任务是自动问答系统中的重要组成部分。近年来,深度学习技术发展迅速,其在自然语言处理领域的运用也十分广泛。神经网络的出现简化了答案选择任务初始阶段的特征抽取环节,使得答案选择任务不再需要人工抽取特征。循环神经网络(RNN)是一种专门用来处理序列的神经网络,因此其非常适合用于文本任务。不过因为可能会导致梯度消失和梯度爆炸等问题,研究人员对其结构进行改进提出了长短时记忆网络(LSTM)[1]。同时,Melamud[2]发现高层的LSTM的输出可以更好的表示单词的含义,综合多层的信息效果可能会很好。
  面对中文答案选择任务,此前很多研究都是基于单层BiLSTM网络的答案选择模型,使用单层BiLSTM提取到的都是表层的特征,为了能够到提取更深层的特征,我们探索使用两层神经网络来进行特征提取。本文搭建了基于注意力机制的两层双向长短时记忆网络的答案选择模型,探索了两层BiLSTM对于特征提取的优势,并取得了较好的实验效果。
  1 模型构建
  本模型一共分为三个模块:向量化模块、深度网络模块以及相似度评分模块。模型结构图如图1所示。
  向量化模块:本任务的源数据都是文本形式,而深度网络是处理不了文本的,在把源数据送入神经网络之前,我们需要把问题和答案文本转化为向量形式,且意思相近的词需要被映射到向量空间相近的位置。在本模型中,我们所用的向量是用Word2Vec模型下的Skip-Gram模式训练得到的,训练语料使用的是中文维基百科。
  深度网络模块:此模块的输入时向量化模块的输出也就是文本的向量表示。我们将文本向量送入深度网络中,通过网络提取深层语义信息,得到问题和答案的突出特征,获得特征向量。在本模型中,深度网络模块指的是两层双向长短时记忆网络的组合,具体结构如图2所示。
  特征向量的公式如下:
  Oq=Oq1*0.8+Oq2*0.2
  Oa=Oa1*0.8+Oa2*0.2
  相似度评分模块:本模块的输入是深度网络模块的输出,我们将深度网络输出的特征向量Oq和Oa进行相似度匹配,衡量两个文本之间的相似性。本论文采用的相似度度量算法是余弦相似度。公式如下:
  score(q,a)=cosine(Oq,Oa)=
  socre(q,a)是问题和答案的语义相似度评分,Oq和Oa代表的是问题和答案的特征向量。
  在模型进行训练的时候我们还需要选择损失函数,在本模型中我们选择铰链损失函数来进行训练优化,具体公式如下:
  L=max(0,M-cosine(Oq,Oa+)+cosine(Oq,Oa-))
  其中,Oq表示问题向量,Oa+表示正确答案的向量,Oa-表示错误答案的向量。M是一个是为了优化目标函数而设定的常数。
  2 模型参数
  经过实验,损失函数中的常数M我们设为0.1。双向长短时记忆网络中的隐藏层单元数我们选择的是300。词向量的维度我们设为50,句子长度设为100。深度学习网络的学习率决定着损失函數能否收敛到局部最小值以及何时收敛到最小值。当学习率过小时,模型收敛的非常慢。当学习率过大时,可能无法收敛。因此,一个合适的学习率可以使得模型可以在合适的时间内收敛到局部最小值。我们发现设置学习率设置为0.2实验效果最好。
  3 实验
  在2016 NLPCC DBQA数据集上,我们对改进的答案选择模型进行了评估,选用评测指标MRR。单层BiLSTM模型ACC为75.12%,而使用我们改进的两层BiLSTM模型效果可以达到75.51%,验证了模型改进的可行性和有效性。
  4 结语
  我们在本文中探索了两层biLSTM网络在答案选择任务中的应用。实验采用公开数据集以及常用评价标准,加强了实验的说服力。通过实验效果对比,验证了两层网络在特征提取时的有效性。
  参考文献
  [1] Hochreiter S,Schmidhuber J.Long Short-Term Memory[J]. Neural Computation,1997,9(8):1735-1780.
  [2] Melamud O,Goldberger J,Dagan I.context2vec:Learning generic context embedding with bidirectional lstm[C].Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning,2016:51-61.
  Abstract:For the answer selection task, the application of multi-layer network is explored on the basis of BiLSTM. We conducted experiments on the 2016NLPCC DBQA task data set, and the MRR of this model can reach 75.51%. The effect of multi-layer network is better than that of single-layer network, which proves the effectiveness of multi-layer network.
  Key words:answer slection; attention; two layer network; BiLSTM
转载注明来源:https://www.xzbu.com/8/view-15232931.htm