首页 > 期刊导航 > 航空航天北京大学学报(自然科学版) 2025年6期 > 2023年1期 > 依据《中国图书馆分类法》的英文图书分类探索
依据《中国图书馆分类法》的英文图书分类探索
简介:针对带有中图分类号的英文图书数据量小以及类别不平衡的问题,将图情领域的文本增强策略(《美国国会图书馆分类法》到《中国图书馆分类法》的类目映射方法和基于中-英文平行的《汉语主题词表》的语义增强方法)与一般领域文本增强策略(向原始英文文本插入标点或连词)相结合,旨在增强模型泛化能力.实验表明,综合后的策略能有效地提高模型在测试集的表现,正确率和宏F1值分别上升3.61和3.35个百分点,效果优于其他单一的文本增强方法.最后,通过BERT词向量可视化与词语信息熵计算,分析出丰富的邻近词和语法上的连缀功能是插入标点或连词方法有效的原因.展开
学者:蒋彦廷
关键词:预训练语言模型中国图书馆分类法类目映射汉语主题词表文本增强
分类号:G254.1(图书馆事业、信息事业)
资助基金:
论文发表日期:
在线出版日期:2023-02-16 (网站首发日期)
页数:10(11-20)