简介:中文词汇的语义存在一定的模糊性,在中文文本中,存在一些与命名实体识别相关性较低的特征,同一个词汇在不同语境中具有不同的含义,不同的词汇和短语对命名实体的识别具有不同的贡献度,若不进行加权或掩码操作,这些特征则会干扰模型的识别准确率.为此,本文提出一种软注意力掩码嵌入的中文命名实体识别(CNER)算法.首先,建立多层次CNER模型,在模型的词向量表示层,借助jieba技术对输入层传递过来的中文文本进行分词处理,并利用Word2Vec方法获取各词汇的词向量,形成词向量序列.其次,在BiLSTM层对词向量序列进行双向长短期记忆处理,得到每个词向量对应的融合了前后文信息的特征向量.再次,在BiLSTM层后嵌入一个软注意力掩码模块,利用该模块的软注意力机制对BiLSTM层输出的特征向量进行加权和掩码操作,关注对实体识别有重要贡献的特征,去除和抑制不重要的特征,提高识别的精度.最后,在条件随机场(CRF)层对经过软注意力掩码模块处理后的特征向量进行标签标注与解码,从而得到最佳实体标签序列,该序列即为中文命名实体识别结果.实验结果表明,该算法可以精准识别中文命名实体,在实体标签标注覆盖性和F1 值方面均有较好的表现.展开