首页 > 期刊导航 > 航空航天北京大学学报(自然科学版) 2025年6期 > 2023年1期 > 多模态与文本预训练模型的文本嵌入差异研究
多模态与文本预训练模型的文本嵌入差异研究
简介:为了详细地分析文本单模态预训练模型RoBERTa和图文多模态预训练模型WenLan文本嵌入的差异,提出两种定量比较方法,即在任一空间中,使用距离一个词最近的k近邻词集合表示其语义,进而通过集合间的Jaccard相似度来分析两个空间中词的语义变化;将每个词与其k近邻词组成词对,分析词对之间的关系.实验结果表明,图文多模态预训练为更抽象的词(如成功和爱情等)带来更多的语义变化,可以更好地区分反义词,发现更多的上下义词,而文本单模态预训练模型更擅长发现同义词.另外,图文多模态预训练模型能够建立更广泛的词之间的相关关系.展开
学者:孙宇冲程曦苇宋睿华车万翔卢志武文继荣
关键词:多模态预训练文本表示文本嵌入分析
分类号:TP311.13(计算技术、计算机技术)
资助基金:北京高校卓越青年科学家计划项目
论文发表日期:
在线出版日期:2023-02-16 (网站首发日期)
页数:9(48-56)