简介:在当前物联网飞速发展的背景下,处理来自各种信息采集设备的多模态数据,尤其是视觉、听觉信号和文本等多元感官信息的数据,对于机器学习落地应用至关重要.Transformer架构和其衍生的大模型在自然语言处理和计算机视觉中的卓越表现推动了对复杂多模态数据处理能力的追求.然而,这也带来了数据隐私安全和满足个性化需求的挑战.为解决这些挑战,提出一种基于多模态Transformer的个性化联邦学习方法,它支持异构数据模态的联邦学习,在保护参与方数据隐私的前提下为其训练更符合其个性化需求的多模态模型.该方法显著提升了多模态个性化模型的性能:相较于对比方法,准确率提高了15%,这标志着多模态个性化联邦学习在应用场景限制上的突破.展开