简介:现有的情感识别研究未充分考虑语音信号中的局部-全局信息和长期时间依赖关系,文本特征提取也存在特征稀疏和信息丢失的问题.为解决上述问题,提出动态时间序列建模的多模态情感识别方法.设计动态时间窗口模块分割语音信号从而捕捉局部-全局信息,并通过双向序列建模捕获信号中的空间信息.考虑到文本信息对情感分析的重要性,采用基于Transformer模型的卷积神经网络捕捉文本中不同位置间的依赖关系建模较长的上下文信息,最后将两种模态进行融合得到最终的情感分类.模型在IEMOCAP数据集上的实验结果表明,相比其他主流模型具有更好的多模态情感识别效果.展开