首页 > 期刊导航 > 自动化技术与计算机技术软件导刊 > 2023年4期 > 基于Albert与TextCNN的中文文本分类研究
基于Albert与TextCNN的中文文本分类研究
简介:互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT).该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Albert生成的词向量进行向量拼接,构成一个融合关键词信息的多义词向量.并且,在传统TextCNN基础上根据中文语言特点调整卷积核窗口大小以提取文本数据的深层局部特征.实验表明,ATT模型相较于未加入TF-IDF关键词表、未调整卷积核大小的传统模型,F1值分别提升1.88%和2.26%,为中文文本分类提供了一种新方法.展开
学者:李飞鸽王芳黄树成
关键词:向量文本特征提取多标签文本分类
分类号:TP391.1(计算技术、计算机技术)
资助基金:国家自然科学基金;61772244
论文发表日期:2023-04-20
在线出版日期:2023-05-12 (网站首发日期)
页数:5(27-31)
软件导刊
ISSN:
年,卷(期):2023,22(4)
所属栏目:自动化技术与计算机技术