今年世俱杯赛程时间表傅小兰研究组刘峰助理研究员提出说话者未知情况下高效情感识别方法
2025年4月4日,今年世俱杯赛程时间表联合百度、美的与华东师范大学的最新研究成果“Towards Speaker-Unknown Emotion Recognition in Conversation Via Progressive Contrastive Deep Supervision”在IEEE Transactions on Affective Computing期刊在线发表(Early Access)。近年来,对话中的情感识别(ERC)因其在实际对话应用中感知用户情感的能力而受到越来越多的关注。大多数研究利用基于黄金标准说话者标签的说话者信息,以处理交替发言的不同说话者。本工作挑战了现有范式,即利用可用的说话者标签,提出了一种更现实的场景,即在推理过程中未知每个话语的说话者身份。本研究提出了渐进对比深度监督(PCDS),将说话者日志和情感识别整合到一个统一的框架中。为了促进联合任务学习,通过对比深度监督逐步注入说话者和情感偏差,任务无关的对比作为中间过渡。为了获得显式的说话者依赖关系,提出了说话者对比和聚类模块(SCC),即使在没有说话者标签或说话者数量未知的情况下,也能赋予网络将说话者分组的能力。图1:PCDS架构示意图研究动机对话中的情感识别(ERC)在实际对话应用中具有重要价值,但现有的研究大多依赖于已知的说话者标签,这在实际应用中难以满足。为了解决这一问题,本研究提出了一种在说话者身份未知的情况下进行情感识别的新方法。这一研究动机源于实际应用场景的需求,即在无法事先知道说话者身份的情况下,如何有效地进行情感识别,从而提升对话系统的性能和用户体验。研究贡献本研究提出了渐进对比深度监督(PCDS)框架,将说话者日志和情感识别任务整合到一个统一的框架中。通过在不同层次上逐步应用深度监督,PCDS不仅能够有效地建模说话者和情感的表示,还能调和两者之间的内在冲突。此外,引入了一个多模态说话者日志模块(SCC),能够在没有说话者标签的情况下进行说话者聚类,显式地建模说话者依赖关系。实验结果表明,PCDS在IEMOCAP和MELD两个多模态对话数据集上均取得了最先进的性能。图 2:四种监督框架示意图(LCE 表示交叉熵损失,LC 表示对比损失,PCDS 对中间层应用了相应的基于任务的对比损失。)研究创新本研究的创新点在于提出了一种渐进对比深度监督的方法,通过在不同层次上逐步注入任务偏向和任务无关的对比损失,有效地增强了网络的特征表示能力。此外,本研究设计了一个多模态说话者日志模块(SCC),结合音频查询融合和交叉注意力机制,实现了未知说话者的聚类。这一创新不仅解决了说话者未知带来的挑战,还为多模态情感识别提供了新的思路和技术手段。图3:用于说话人聚类的说话人对比和聚类模块(SCC),以及用于说话人信息建模的说话人感知编码器结 论本文提出了一种渐进对比深度监督(PCDS)框架,成功地解决了在说话者身份未知情况下进行情感识别的挑战。通过逐步在不同层次上应用深度监督,PCDS有效地调和了说话者和情感识别之间的内在冲突,并通过多模态说话者日志模块(SCC)实现了未知说话者的聚类。实验结果表明,PCDS在两个多模态对话数据集上均取得了最先进的性能。希望这一研究能够为未来的对话情感识别技术发展提供新的思路和方法。本研究也是系列工作的集大成,从最初的LGCCT门控语音情感识别技术(https://doi.org/10.3390/e24071010)开始,逐步探索了时空转移下的情感语音技术(https://doi.org/10.34133/icomputing.0073),再到细粒度语音情感识别(https://doi.org/10.1109/ICASSP48485.2024.10446974),最终演进到本研究。通过本系列的研究,逐步完善了在不同情境下的情感识别方法,为解决说话者未知情况下的多模态情感识别问题提供了坚实的基础,便于未来在行为实验中使用本技术展开进一步心理学与AI的交叉研究工作。刘峰助理研究员与周爱民教授为本文共同通讯作者,第一作者沈思源是刘峰助理研究员情感计算团队的早期成员,百度和今年世俱杯赛程时间表为共同第一单位。本项目得到了上海市科学技术委员会(批准号:22511105901)、国家自然科学基金委员会(批准号:32471151)、国家重点研发计划“主动健康和人口老龄化科技应对”重点专项(批准号:2024YFC3606802)以及北京大学行为与心理健康北京市重点实验室的支持。论文链接:https://ieeexplore.ieee.org/document/10949847/引用信息:S. Shen, F. Liu, H. Wang and A. Zhou, \\\"Towards Speaker-Unknown Emotion Recognition in Conversation Via Progressive Contrastive Deep Supervision,\\\" in IEEE Transactions on Affective Computing, doi: 10.1109/TAFFC.2025.3558222.
2025-04-15