论文学习——《Affective Computing：A Review》

it2024-11-12 30

本文主要介绍了在情感计算方面近些年来的一些关键技术，分别从情感语音处理，面部表情，身体姿势与动作，多模式系统和情感理解和生成这几个方面进行讲述。还介绍了目前世界上一些相关项目，和前沿研究。

关键技术的现状

情感语音处理

在做情感语音处理时所用到的声学特征是有所不同的，一些研究人员对一些韵律特征进行了分析，例如，音调变量、说话率，等参数被广泛应用在模式识别方法中的情感识别研究中。例如，Dellaert 使用韵律特征并比较了三个分类器：最大似然贝叶斯分类，核回归和k-最近邻在情感识别中的悲伤，愤怒，幸福和恐惧感。 Petrushin 使用语音参数和计算机代理进行情绪识别。 Lee 使用高斯分类条件概率分布和k最近邻方法进行的liear判别分类将话语分为消极和非消极两种基本情绪状态。Yu 使用SVM进行情绪检测。据报道平均准确度为73％。尼克提出了情感性语音发声的感知模型。

在语音合成产生情绪方面，Mozziconacci在调音方法的基础上添加了情绪控制参数，从而提高了语音合成的性能。Cahn通过可视化的声学参数编辑器，通过手动推理实现了情感语音的输出。近来，关于大型语料库的想法有了一些进展，坎贝尔完成了一个典型的系统，他用五年的大型语料库创建了一个富有表现力的语音合成器。Schroeder，Eide生成了一个富有表现力的TTS引擎。Chuang和Tao使用情感关键词和情感触发词来生成情感TTS系统。

面部表情

面部表情诸如微笑，点头之类的可以实现一定的语义功能、传达感情或者还可以作为对话线索。它与语音处理类似，面部表情的研究包括编码、识别和生成，方面的工作，例如，Etcoff 通过37行参数化了人脸主要部分的结构，使人们可以大致分辨出人脸的情感状态； Ekman建立了面部动作编码系统。当前，大多数面部特征可以从MPEG-4的定义中找到。MPEG-4通过提供与视听内容的各种交互级别，通过允许系统配置的灵活性，允许用户为许多应用程序配置和构建系统。在该标准中，网格模型或肌肉模型都用于创建3-D面部模型。

为了进行面部表情分析，大多数面部特征都是通过光流或者活动外观模型捕获的。例如，Lyons应用监督的Fisher线性判别分析（FDA）。对于面部表情识别还有许多方法，例如，Gabor小波，神经网络，隐马尔可夫模型（HMM），点分布模型（PDM），光流，几何跟踪方法，EGM方法等。

关于面部动画的开创性工作由弗雷德里克·帕克（Frederic I. Parke）在1970年代完成。但是虽然相应的硬件软件一直在进步，但做出逼真的动画面孔仍然是很难解决的一个问题。许多研究人员使用了基于图像，Visemes，FAP，PC，3D坐标，3D距离测量或光流的方法产生面部表情。还讲述了关于面部表情与语音同步，采用视听映射的两种合成办法：1、将语音信号划分为语言单位，例如音素，音节，单词，然后将这些单位直接映射到唇形并将它们连接起来。2、通过统计学习模型对双峰数据进行分析，找出连续的声学特征与面部控制参数之间的映射关系，从而通过新颖的语音直接驱动面部动画。最近出现了新的一种映射方法就是通过串联训练数据库中存储的数据单元来构造新的数据流。其优点在于合成结果看起来非常自然和真实。但是尽管如此还是无法触摸到完整的面部表情，依旧是目前研究的难题。

身体姿势和动作

身体姿势和动作由人体关节位置及其随时间的变化来定义，当前对手势处理的工作主要集中于手部追踪，传统上有两种方法：表观方法和3-D建模方法。现有的方法通常都会有一些限制。还通过人体解剖学知识确定人体框架，通过一些计算机方法捕获面部和身体运动的数据等等。但这对计算机视觉来说依旧是一个挑战，如何获得更精确的数据是情感计算目前的紧迫难题。

多模态系统

人与人之间的交互定义为多模态交互，其中会有源源不断的有意义的面部表情，身体姿势，头部单词，语言等等，大多数研究人员都相信多模式系统可以改善情感识别的结果，并且可以在人机交互中产生更生动的表达。而多模式技术是近年来兴起的，大多数系统都缺乏有效的方法来集成不同的通道。

情感理解与认知

情感理解模块在逻辑上是情感识别模块的下一步，情感理解包含一下功能：吸收信息，记住信息，对用户当前的情绪进行建模，对用户的情感生活进行建模，应用用户情感模型，更新用户情感模型，建立和维护用户偏好的可编辑分类法实现与系统识别模块的双向通讯，最终建立和维护一个更完整的用户模型，对用户内容进行进行建模，为生成综合系统提供基础依据，并确保其安全感和机密性。在这项工作中，做的最好的就是OCC模型了。但是OCC模型只是把人们对事物的反应分为三组情绪，实际上人们在面对不一样的事情会有很复杂的情绪反应，很多小组进行了实验使得我们确定了情感与认知的关系，有了从初步框架到初步实验，能够帮助我们更好的深入大脑，理解情绪

目前的项目

（一） HUMAINE（欧盟项目） HUMAINE(人机情感互动网络)，该项目旨在奠定欧洲开发可注册，建模和/或影响人类情绪以及与情绪相关的状态和过程的系统的基础-“面向情绪的系统”。它确定了跨越传统分组的六个主题领域，并为适当的划分提供了框架-情感理论；信号/信号接口；具有情感色彩的互动的结构；认知和行动中的情感；交流和说服中的情感；面向情感的系统的可用性。（二）学习和决策的情感认知框架（麻省理工学院情感计算研究小组）该项目旨在解决许多经典问题，但是大多数机器学习和决策模型均基于旧的纯粹认知模型，通过开发将情感与认知结合在一起的新模型，适应起来缓慢，脆弱，笨拙。最终，此类改进将使机器能够做出更明智，更像人的决策，从而实现更好的人机交互。（三） Oz Project（CMU） Oz项目（CMU）Oz是一个计算机系统，允许作者创作和演示互动戏剧。该项目的体系结构包括一个模拟的物理世界，几个角色，一个交互器，一个演示理论和一个戏剧管理器。（四）青少年家庭的情绪，压力和应对：在实验性计算机游戏中评估人格因素和情境方面（日内瓦情绪研究小组）该项目研究青少年针对面对不同类型压力环境而制定的行为应对策略，重点是应对功能，并通过实验室中的对照研究通过问卷补充应对研究。（五）认知与影响项目（伯明翰大学）该项目的主要目标是了解能够解释人类（和非人类）心理状态和过程的全部范围的架构类型，不仅包括智能能力，，还包括情绪，情感，欲望等。（六） BlueEyes（IBM）该项目旨在创建具有人们认为理所当然的感知能力的计算设备。（七）人与机器人（CMU）该项目针对社会中服务机器人的三个鲜为人知的方面：服务机器人的设计和行为；人与机器人互动的方式；服务机器人如何作为工作团队的成员发挥作用。（八）情感敏感的人机协作（范德比尔特大学）该项目涉及为人机协作开发一种新颖的情感敏感架构，该机器人有望识别人的心理状态（例如压力，恐慌，恐惧，参与任务）在眼前。该技术涉及使用可穿戴传感器实时监测人类受试者的生理信号。（九）富有表现力的视觉语音合成（中国科学院自动化研究所，NLPR）该项目旨在通过适应用户的意图和行为来增强多模式界面。

目前研究面对的挑战

（一）情感理解与适应

现有的情感模型都使用高度程式化的人格类型刻板印象和情绪反应，与人类真实反应严重不符，关于如何定义情绪有很多争论。可能有人认为无法建立情感模型，也无法进行情感理解。使用情感模型，情感计算的最终目的是帮助计算机在理解用户的情感和含义之后做出正确的反应，然后习惯于用户情感的变化。目前，有一些工作用途一种人工评估用户感觉的方法。根据情感信息的识别结果，如何分析用户情感的动态特性以及如何使计算机做出适当的反应仍然是一个重要的问题。（二）基于多模型的情感信息处理在多模型条件下缺乏情感参数的协调机制极大地限制了情感理解和情感提示。不同渠道的融合不仅仅是它们的结合，而是在所有渠道信息之间寻找相互关系。相互关系可以在交互阶段为识别/理解和信息生成提供更好的整合。（三）实际环境中的情感特征捕捉当前大多数情感特征捕捉仍受实验室或工作室的限制，它们不那么复杂，背景噪音也较小。当前可用的信息只能用于信息检索和公共特征识别，这太粗糙了，无法对复杂的情感变化进行情感计算。（四）多智能体系统中的情感交互（五）情感数据库情感数据库的不足是当前对情感计算的研究受到限制的原因之一。建立存储大量情感数据，尤其是多模型情感数据的数据库，对于情感计算是必要的，也是深入研究情感机制的前提。

结论

综上所述，情感计算的概念提出时间虽然很久了，但是现有研究局限在语音和肢体语音等详细而分散的领域，还缺少大量的情感数据资源、没有有效的多特征情感计算机制以及相关的学习和控制算法，还缺少对自然场景的适应性，计算机无法准确判断和产生类似人的情感状态，并具有真实的效果。总之，设计情感计算的各种理论问题并不完善。但是，仍然存在一些应用程序，利用计算机检索系统中的情感概念分析功能，提高信息检索的准确性和效率。此外，情感计算也可以应用于数字娱乐，机器人和智能玩具等相关行业，以实现更个性化的风格并建立更生动的场景。

最新回复(0)