简介:分布外(OOD)检测的目标是识别潜在的不符合训练过程中数据分布的样本,以规避模型对于异常情况的预测.基于预训练语言模型的OOD检测方法面向文本分类任务时通常过度依赖数据标签,因此在实际应用中性能受到限制,而无监督OOD检测的相关研究目前尚不充分.为突破这一局限性,提出新的OOD文本检测框架:基于稀疏子空间的分布外文本检测(SSOD).该框架无需标注数据,利用稀疏子空间联合建模已知数据的特征分布,构建观测样本在最相邻子空间的概率密度函数并将其作为OOD检测的评分指标.实验结果表明,SSOD面对不同分布偏移的平均AUROC和平均FAR95分别优于基准线2.2%和4.1%,在综合性能上超过现有的监督方法.展开