用于情境感知情绪识别的深度学习技术
延世大学和洛桑联邦理工学院(EPFL)的一组研究人员最近开发出一种新技术,通过分析人物在图像中的面部以及背景特征来识别情感。他们在arXiv上发表的一篇论文中介绍并概述了他们基于深度学习的架构,称为CAER-Net。
多年来,全世界的研究人员一直在尝试开发通过分析图像,视频或音频剪辑来自动检测人类情感的工具。这些工具可以具有许多应用,例如,改善机器人 - 人类交互或帮助医生识别精神或神经障碍的迹象(例如,基于非典型语音模式,面部特征等)。
到目前为止,大多数识别图像情绪的技术都是基于对人们面部表情的分析,基本上假设这些表达最能传达人类的情绪反应。因此,用于训练和评估情绪识别工具(例如,AFEW和FER2013数据集)的大多数数据集仅包含人脸的裁剪图像。
传统情绪识别工具的一个关键限制是,当人们脸上的情绪信号模糊不清或无法区分时,它们无法达到令人满意的表现。与这些方法相比,人类能够不仅基于他们的面部表情而且基于语境线索(例如,他们正在执行的行为,他们与他人的交互,他们在哪里等)来识别他人的情绪。
过去的研究表明,分析面部表情和与情境相关的特征可以显着提高情绪识别工具的表现。受这些发现的启发,Yonsei和EPFL的研究人员着手开发一种基于深度学习的架构,可以根据面部表情和上下文信息识别人们在图像中的情绪。
研究人员在他们的论文中写道:“我们提出了深层网络,用于情境感知的情感识别,称为CAER-Net,它不仅可以利用人类的面部表情,还可以以联合和提升的方式利用情境信息。” “关键的想法是在视觉场景中隐藏人脸,并根据注意机制寻找其他环境。”
CAER-Net是由研究人员开发的架构,由两个关键的子网络和编码器组成,它们分别提取图像中的面部特征和上下文区域。然后使用自适应融合网络将这两种类型的特征组合并一起分析以预测给定图像中的人的情绪。
除了CAER-Net之外,研究人员还引入了一种用于情境感知情感识别的新数据集,他们将其称为CAER。该数据集中的图像描绘了人们的面部及其周围环境/背景,因此它可以作为评估情绪识别技术的更有效的基准。
研究人员使用他们编制的数据集和AFEW数据集,在一系列实验中评估了他们的情绪识别技术。他们的研究结果表明,分析面部表情和情境信息可以大大提高情绪识别工具的表现,正如之前的研究所表明的那样。
研究人员写道:“我们希望这项研究的结果能够促进情境感知情绪识别及其相关任务的进一步发展。”