首页 > 期刊导航 > 自动化技术与计算机技术软件导刊 > 2025年5期 > 基于稀疏子空间的分布外文本检测
基于稀疏子空间的分布外文本检测
简介:分布外(OOD)检测的目标是识别潜在的不符合训练过程中数据分布的样本,以规避模型对于异常情况的预测.基于预训练语言模型的OOD检测方法面向文本分类任务时通常过度依赖数据标签,因此在实际应用中性能受到限制,而无监督OOD检测的相关研究目前尚不充分.为突破这一局限性,提出新的OOD文本检测框架:基于稀疏子空间的分布外文本检测(SSOD).该框架无需标注数据,利用稀疏子空间联合建模已知数据的特征分布,构建观测样本在最相邻子空间的概率密度函数并将其作为OOD检测的评分指标.实验结果表明,SSOD面对不同分布偏移的平均AUROC和平均FAR95分别优于基准线2.2%和4.1%,在综合性能上超过现有的监督方法.展开
学者:王祉苑彭涛杨捷
关键词:分布外检测预训练语言模型深度学习稀疏子空间聚类文本分类
分类号:TP391(计算技术、计算机技术)
资助基金:中国高校产学研创新基金
论文发表日期:2025-05-15
在线出版日期:2025-05-29 (网站首发日期)
页数:9(70-78)
软件导刊
ISSN:
年,卷(期):2025,24(5)
所属栏目:自动化技术与计算机技术