您好, 访客   登录/注册

基于BLSTM-CNN-CRF的中文命名实体识别方法

来源:用户上传      作者:刘宇鹏 栗冬冬

  摘 要:传统的命名实体识别方法依赖大量的人工选择的特征和专业领域的外部知识,针对这一问题,提出了一种新颖的神经网络结构,该算法结合了双向LSTM,CNN和CRF可以同时自动获取到基于字符级别和词语级别的表示,是一种真正意义上的端到端的结构,不再需要人工选择特征和数据的预处理,可以应用到各个领域的命名实体识别任务中去。最后,通过实验证明该算法在医疗领域和新闻领域的F1值分别达到了90-97%和92-19%。
  关键词:命名实体识别;长短期记忆网络;卷积神经网络;条件随机场
  DOI:10.15938/j.jhust.2020.01.017
  中图分类号: TP391.1
  文献标志码: A
  文章编号: 1007-2683(2020)01-0115-06
  Abstract:Traditional algorithms of named entity recognition rely on a large number of artificial features and external knowledgeTo solve this problem, we propose a novel neural network structure which combines the bidirectional LSTM(Long Short-Term Memory), CNN(Convolution Neural Network) and CRF(Conditional Random Field)This algorithm can also automatically get both character-level and word-level representationsIt is a truly end-to-end system, requiring no feature engineering and data processingThus, it can be easily applied to various fields of named entity recognition taskFinally, the experimental results show that the F1 measure of the algorithm in the medical and news field is 90-97% and 92-19%, respectively-Keywords:named entity recognition; long short-term memory; convolution neural network; conditional random field
  0 引 言
  命名实体识别(named entity recognition, NER)作为自然语言处理的一项基础任务,在自然语言处理领域有着很重要的作用[1-2],分为在不同语言上的命名实体识别[3-4],微博上的命名实体识别[5]和Twitter上的命名实体识别[6-8]等。在机器对话、问答系统、机器翻译等任务中都有着重要的应用。传统方法中表现最优的就是基于统计的模型,例如隐
  马尔可夫模型(hidden markov models HMM)、条件随机场模型(conditional random fields, CRF)[9],这些方法需要大量的人工选择的特征和外部知识信息,例如字典信息,很难直接解决一个全新领域的命名实体识别问题。近年来,利用神经网络获取词语表示作为模型的输入(例如词向量)在自然语言处理领域取得了巨大的成功[10-12]。循环神经网络以及其变形长短期记忆网络(long-short term memory, LSTM)在解决序列标注任务中表现优异[13-15]。
  本文提出了一种结合双向LSTM、卷积神经网络(convolutional neural network, CNN)、CRF的方法,首先利用CNN获取词语基于字符的表示,然后结合词向量加入到双向LSTM中,最后利用线性CRF联合解码标签。该模型不需要外部知识和手工选择特征,在不同领域的数据上进行实验验证了其可行性和有效性。
  1 问题描述
  NER是指从一段文本中提取出具有特定含义的词语,即实体[16]。实体的类型有很多种,常见的有人名、地名、机构名等,在一些特定领域会有其独特的实体,例如医疗领域的病症名称、药物名称等。这些实体信息对进一步分析句子含义有很大的帮助。
  一般会把NER问题看成序列标注问题,标注问题一般是监督学习问题,也可以看成是一种复杂的结构预测问题的简单形式[17]。NER任务分为学习和标注两个过程,首先有一个带标注信息的数据集作为训练数据。
  2 神经网络结构
  2-1 CNN提取字符级别的表示
  之前的研究表明卷积神经网络(convolutional neural network, CNN)在提取局部特征方面十分有效[18],因此在本系统中先利用CNN提取出词语基于字符的特征将其编码到神经网络中。其结构表示图如图1所示,CNN的输入为字符的embedding,图1中虚线部分为dropout層。
  4-3 实验结果分析
  通过在两组不同领域的数据集上进行实验,本文中混合模型在各组实验中均取得了高于单一模型的预测效果。且在新闻领域和医疗领域中,实体类别区别非常大,使用本文中的模型,不需要任何的数据预处理和引入外部知识信息。验证了该模型可以很好的应用到不同领域的命名实体识别任务中,模型的通用性较好。
  5 结 论
  针对命名实体识别在不同领域中的类型千差万别,传统的命名实体识别方法中需要大量人工选择的特征和引入外部的知识信息,本文提出了一种结合CNN、BLSTM、CRF的模型,可以直接应用到不同类型的实体标注中去。通过在新闻领域和医疗领域数据集上的多组对比实验,该系统均取得了高于传统单一模型的结果。在接下来的工作中,可以对模型进一步改进,探索多任务学习方法,针对不同的领域结合更多有用的相关信息。   参 考 文 献:
  [1] DAVID N,SATOSHI S.A Survey of Named Entity Recognition and Classification[J]. Logistical Investigations,2007,30(1):3.
  [2] 劉浏, 王东波. 命名实体识别研究综述[J]. 情报学报, 2018, 37(3): 329.LIU Liu, WANG Dongbo. A Survey of Named Entity Recognition)[J]. Journal of the China Society for Scientific and Technical Information, 2018, 37(3): 329.
  [3] 王路路, 艾山, 吾买尔. 基于 CRF 和半监督学习的维吾尔文命名实体识别[J]. 中文信息学报, 2018, 32(11): 16.WANG Lulu, AI Shan, WU Maier. A Semi-supervised Approach to Uyghur Named Entity Recognition Based on CRF)[J]. Journal of Chinese Information Processing, 2018, 32(11): 16.
  [4] 徐广义, 严馨, 余正涛, 等. 融合跨语言特征的柬埔寨语命名实体识别方法[J]. 云南大学学报(自然科学版), 2018, 40(5): 865.XU Guangyi, YAN Xin, YU Zhengtao,et al. A Khmer Named Entity Recognition Method Incorporating Cross-lingual Features)[J]. Journal of Yunnan University(Natural Sciences Edition), 2018, 40(5): 865.
  [5] 朱颢东, 杨立志, 丁温雪, 等. 基于主题标签和 CRF 的中文微博命名实体识别[J]. 华中师范大学学报(自然科学版), 2018, 52(3): 316.ZHU Haodong, YANG Lizhi, DING Wenxue,et al. Named Entity Recognition of Chinese Microblog based on Theme tag and CRF)[J].Journal of Central China Normal University(Natural Sciences) , 2018, 52(3): 316.
  [6] RITTER A, CLARK S, ETZIONI O. Named Entity Recognition in Tweets: an Experimental Study[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2011: 1524.
  [7] LIU X, ZHANG S, WEI F, et al. Recognizing Named Entities in Tweets[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2011: 359.
  [8] LI C, WENG J, HE Q, et al. Twiner: Named Entity Recognition in Targeted Twitter Stream[C]//Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval, New York: ACM Press, 2012: 721.
  [9] 张祝玉,任飞亮,朱靖波.基于条件随机场的中文命名实体识别特征比较研究[C]//第四届全国信息检索与内容安全学术会议,2008:8.ZHANG Zhuyu,REN Feiliang ZHU Jingbo.A Comparative Study of Chinese Named Entity Recognition Features based on Conditional Random Fields)[C]//NCIRC,2008:8.
  [10]WU Y,JIANG M,LEI J ,et al.Named Entity Recognition in Chines Text Using Deep Neural Network[J].Studies in Health Technology and Information,2015, 15(1):624.
  [11]刘树杰,董力,张家俊.深度学习在自然语言处理中的应用[J].中国计算机学会通讯,2015,18(2):11.LIU Shujie,DONG Li,ZHANG Jiajun.The Application of Deep Learning in Natural Language Processing[J].Communications of the CCF,2015,18(2):11.   [12]WU Y,JIANG M,LEI J,et al.Named Entity Recognition in Chinese Clinical Text using Deep Neural Network[J].Studies in Health Technology and Informatics,2015,216:624.
  [13]CICERO D,VICTOR G,RJ N,et al.Boosting Named Entity Recognition with Neural Character Embeddings[C]//In Proceedings of NEWS 2015 The Fifth Named Entities Workshop,2015:25.
  [14]WU Y,JIANG M,LEI J,et al.Named Entity Recognition in Chines Text Using Deep Neural Network[J].Studies in Health Technology and Information,2015, 18(1): 462.
  [15]HUANG Z , XU W , YU K . Bidirectional LSTM-CRF Models for Sequence Tagging[J]. Computer Science, 2015, 4(1):1508.
  [16]ANDO R,ZHANG T.A Framework for Learning Predictive Structures from Multiple Tasks and Unlabeled Data[J].The Journal of Machine Learning Research,2005(6):1817.
  [17]陳锋, 翟羽佳, 王芳. 基于条件随机场的学术期刊中理论的自动识别方法[J]. 图书情报工作, 2016, 60(2): 122.CHEN Feng, ZHAI Yujia, WANG Fang. Automatic Theory Recognition in Academic Journals Based on CRF)[J]. Library and Information Service, 2016, 60(2): 122.
  [18]CHIU J, NICHOLS E. Named Entity Recognition with Bidirectional LSTM-CNNs[J]. Transactions of the Association for Computational Linguistics, 2016(4): 357.
  [19]曲春燕,关毅,杨锦锋,等.中文电子病历命名实体标注语料库构建[J].高技术通讯,2015(2):143.QU Chunyan,GUAN Yi,YANG Jinfeng,et al.The Construction of Annotated Corpora of Named Entities for Chinese Electronic Medical Records [J].Chinese High Technology Letters,2015(2):143.
  [20]PENG N,DREDZE M.Named Entity Recognition for Chinese social Media with Jointly Trained Embeddings[C]//Proceedings of EMNLP,2015:548.
  (编辑:温泽宇)
转载注明来源:https://www.xzbu.com/8/view-15209817.htm