这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
描述了一组面部刺激,称为Umeå大学面部表情数据库。模特由30名女性和30名男性组成,年龄17-67岁(男= 30.19,标准差= 10.66)。每个模型展示七种不同的面部表情(愤怒、惊讶、高兴、悲伤、中立、害怕和厌恶)。大多数模特是瑞典人,但也包括中欧、阿拉伯和亚洲血统的模特。
创建并验证一个新的面部表情数据库,可用于科学实验。
这些图片以随机的顺序一次呈现一张,526名志愿者对平均125张图片进行了验证,他们用李克特式的7个10分制量表对每种情绪进行了评分,从“完全不同意”到“完全同意”。
聚合结果被正确分类的比例被认为较高(M = 88%)。
研究结果为这组面部表情的有效性提供了实证支持。这套仪器可供科学界免费使用。
有大量已发表的关于面部感知、面部处理和面部表情的研究,这些研究使用了情绪的面部表情图像[
人脸是日常生活中不可分割的一部分。面部肌肉支持多种表情和功能。
Ekman和Friesen在1976年发表了他们开创性的面部影响图片(PFA),成为研究中最常用的集合[
研究表明,如果评估情绪表达的人与表达者具有相同的种族、国家和地区背景,那么对情绪的理解和感知就会更加准确。这可能是因为不同种族的人在表达上有不同的细微差别。然而,当不同文化群体在一起的时间越长,群体内优势就会降低。
NimStim面部表情集[
该项目试图解决在之前的面部表情和验证研究中发现的问题。创建Umeå大学面部表情数据库的目的是为基于互联网的研究创建一个数据库,其中包含大量不同年龄、种族和性别的图像。
这个数据库有几个优点。首先,它包含了大量的彩色图像——总共424张,由60个模型(2720x4080像素)组成。这些模型所表达的情绪表情最为一致,包括愤怒、惊讶、快乐、悲伤、恐惧和厌恶。
这项验证研究的目的是检查图像中描绘的面部表情在多大程度上被正确地解释为预期的情绪。它是通过互联网进行的,目的是招募年龄、性别和种族尽可能广泛的参与者。然而,瑞典法律不允许个人族裔登记。然而,在没有这一限制的国家,研究人员在检查照片后可以自由地报告个人种族。
模型和评分者的性别都可能影响面部表情的评价[
每张图片都由参与者进行评估。在验证研究中使用了微妙的答案选项,以降低影响对特定表达的反应的风险。采用固定响应选项的响应量表可能存在问题,因为不同的响应量表格式可能会影响所获得的结果[
我们假设基于互联网的验证研究将提供足够的数据来支持Umeå大学面部表情数据库的有效性。
数据收集自526名参与者。平均年龄37.7岁(18 ~ 73岁,SD =13.0)。70%(369/526)为女性,30%(157/526)为男性。参与者是通过瑞典当地报纸传播有关研究的信息来招募的。所有志愿者都被允许参加这项研究,没有任何经济补偿或报酬。
刺激是来自Umeå大学面部表情数据库的424张面部图像。共有60名受试者作为业余模特参与(30名女性,30名男性;17-67岁;M = 30.19, SD = 10.66)。这些模特大多是瑞典人,但中欧、阿拉伯和亚洲血统的模特也包括在内。在拍摄过程中,模特们被要求展示七种不同的面部表情(愤怒、惊讶、高兴、悲伤、中立、害怕和厌恶)。关于如何做出面部表情的说明是基于Ekman [
这些照片拍摄了8000多张照片。从每个模型中选取每个表情的最佳图像进行实证验证。然而,有四种情况下无法做出明确的决定,因此这些图像被添加到验证阶段,总共有424张。
验证过程是在互联网上进行的。在访问这些图片之前,潜在的参与者必须注册他/她的年龄、性别和电子邮件地址。确认电子邮件,包括唯一的登录链接,被发送到注册的电子邮件地址,以确保所有参与者都注册了有效的电子邮件地址。参与者被要求独自坐在一个安静、私密的环境中,根据自己的意见进行评估。参与者可以按照自己的节奏对图片进行评估,并可以自由地评估尽可能多的图片。他们被允许在任何时候停止评估,并在2011年10月的两周内自由返回并在另一个时间继续评估。图像随机呈现给每个参与者。然而,424张图片中的每一张都只展示了一次。526名参与者开始了验证过程,在424张面孔中平均给125.5分(SD=137.4)。
424张图片(320x480像素,彩色)中的每一张都是单独呈现的,每张图片上方都有文字“这个人似乎是……”如
我们使用二值逻辑模型(通过广义线性方程指定),并且假设所有模型的方差-协方差是块对角的,但在个体定义的块内是独立的,这意味着我们假设一张图像的评分不影响该个体对下一张随机图像的评分。
七个结果变量被定义为每一个“真实”情绪的1/0。独立因素是评分者和模特的性别和年龄,以及7种情绪的评分得分。我们研究了每个结果与11个独立因素之间的校正相关性。我们提出了估计的比值比及其95% Wald置信区间(ci)及其显著性(见附录表1-7)
如果给与真实情绪相对应的情绪打最高分,我们就认为图像被正确分类了。例如,如果情绪“悲伤”得到7分,其他情绪在0到6分之间,那么悲伤将被算作反应。在计算命中率时,该反应将与预期的情绪进行比较。此外,为了获得解释可靠性的衡量标准,我们还计算了与真实情绪不相对应的情绪得分之和,以及被评级的情绪数量。
对每张图像进行有效性测量(正确解释的比例)。这424张图片的数据分别在互联网数据库中显示。然而,每种情感的正确解释比例显示在
如
基于web的验证的屏幕截图。
总结正确感知的图像比例,意外情绪得分的数量和意外情绪的总分。
情感表达 | 的数量 |
正确感知比例(%) | 意外情绪的数量 |
意外情绪的总分(0-9) | ||||||
的意思是一个 | 最小值b | 马克斯c | 的意思是一个 | 最小值b | 马克斯c | 的意思是一个 | 最小值b | 马克斯c | ||
愤怒(n = 9581) | 61 | 94 | 72 | One hundred. | 0.25 | 0.07 | 0.73 | 0.87 | 0.12 | 2.57 |
惊喜(n = 9357) | 60 | 94 | 76 | 99 | 0.33 | 0.14 | 0.66 | 1.25 | 0.42 | 3.26 |
幸福(n = 9721) | 62 | 98 | 85 | One hundred. | 0.13 | 0.05 | 0.44 | 0.38 | 0.08 | 1.65 |
悲伤(n = 9393) | 61 | 78 | 25 | 98 | 0.54 | 0.14 | 1.23 | 2.41 | 0.45 | 6.55 |
中性(n = 9406) | 60 | 91 | 56 | 99 | 0.38 | 0.14 | 0.94 | 1.21 | 0.36 | 4.21 |
恐惧(n = 9211) | 60 | 73 | 39 | 95 | 0.65 | 0.33 | 1.08 | 3.15 | 1.43 | 6.32 |
厌恶(n = 9325) | 60 | 90 | 60 | One hundred. | 0.36 | 0.10 | 0.86 | 1.42 | 0.22 | 4.23 |
总(n = 65994) | 424 | 88 | 25 | One hundred. | 0.38 | 0.05 | 1.23 | 1.52 | 0.08 | 6.55 |
注:将与真实情绪相对应的情绪给予最高分,则认为图像分类正确。
一个正确感知的平均比例(n= 9211-9721)。
b正确感知比例最低的图像的值。
c正确感知比例最高的图像的值。
表达情绪和评分者反应的图像混淆矩阵(仅显示7-9分)。
情感表达 | 评分者反应(7-9)(%) | ||||||
愤怒 | 惊喜 | 幸福 | 悲伤 | 中性 | 恐惧 | 厌恶 | |
愤怒 | 74.6一个 | 0.4 | 0.2 | 0.9 | 0.5 | 0.8 | 0.9 |
惊喜 | 0.2 | 81.7一个 | 1.0 | 0.2 | 0.5 | 3.7 | 0.3 |
幸福 | 0.2 | 0.3 | 92.5一个 | 0.3 | 0.5 | 0.2 | 0.2 |
悲伤 | 1.1 | 1.0 | 0.4 | 55.6一个 | 5.9 | 3.9 | 2.3 |
中性 | 1.0 | 0.8 | 0.4 | 1.7 | 81.6一个 | 0.6 | 0.1 |
恐惧 | 2.6 | 14.2 | 0.6 | 0.9 | 0.5 | 55.5一个 | 1.7 |
厌恶 | 2.2 | 0.9 | 0.3 | 2.5 | 0.2 | 0.8 | 71.8一个 |
一个目的的情感。
优势比(列于
与四个背景变量(模型年龄、模型性别、评分者年龄和评分者性别)相关的最值得注意的结果在附录中列出
与男性面部模型相比,女性面部模型更频繁地与三种预期表情显著相关。这些是愤怒的表达(OR=1.2,
本研究的目的是提出一个面部表情数据库和基于互联网的验证研究的结果。该数据库包含了424张不同年龄、种族和性别的模特的彩色照片,表达了各种不同的情绪。该数据库可免费用于在线和离线的科学实验。
数据库的有效性是基于评分者在识别所呈现图像中的表情时的准确性。分数普遍很高。该数据库被正确解释的总体平均比例为88%。NimStim的对应值为79% [
无论是在模型中还是在验证参与者中,结果都没有显示出任何与年龄或性别相关的一致优势。当单独研究七个表达时,有显著差异,但四个背景变量之间的强和弱关联有所不同。Hall和Matsumoto发现,当使用多个量表时,女性的解释比男性更正确。
以往研究的结果[
我们的研究结果表明,年龄≥46岁的人表现出愤怒、恐惧和悲伤的面部表情,比年龄≤25岁的年轻人表现出的面部表情更不可靠。与年龄≤25岁的年轻人相比,年龄在26-45岁的参与者表现出愤怒、中立和厌恶的面部表情的可靠性更低。这与Ebner等人的发现是一致的[
验证研究是基于互联网的。来自不同年龄组的大量参与者对图像进行了评估,这使得本研究的评分人群比以往的研究更具异质性[
由于具有固定响应选项的响应规模可能存在问题,Russell [
有些表情比其他表情更容易识别。在验证性研究中,快乐的面部表情通常比消极的面部表情更容易被识别。
悲伤和恐惧的正确识别比例最低,这也与之前的研究一致[
创造面部表情的方法会影响他们的解读。目前已有的数据库是通过两种不同的方式来指导照片拍摄模型来生成的。一种是指导模型在做面部表情的同时运动特定的肌肉群[
要求模型移动特定的肌肉群的一个好处是,它创建了统一的表情。缺点是可能会影响生态效度[
由于我们希望模型能够做出真实的表情,并且在相同的情感表达中仍然保持一致性,所以给模型的指令是以前研究中使用的指令的组合。Umeå大学面部表情数据库中的模型被指示做出他们认为合适的表情,观察面部表情的图片,并活动特定的肌肉群。
然而,这个数据库也有一些缺点。首先,由于验证研究是基于互联网的,因此很难控制参与者回答和其他上下文变量的真实性,例如,参与者是否严格遵循说明。但是,对姓名、年龄、性别和电子邮件地址等个人信息的要求应该降低了无效答案的风险。此外,相对较大的参与者数量(n=526)会减少故意错误回答的影响。没有报酬也意味着提供错误回答没有经济回报。
其次,模型可能已经验证了自己的图像,这可能会夸大数据库中正确识别的比例。然而,与每张图像的大量评级相比,可能验证了自己图像的模特数量很少。
第三,可能存在对反应量表含义的主观解释。0到9之间的刻度步骤可以被解释为强度、真实性或纯度的衡量标准。然而,让参与者有机会对连续的每张图像和几个表情进行评分,提供了关于每张图像的重要信息。有价值的信息可以在网上找到,这些信息包括每张图片在多大程度上被评定为不同的表情,以及每张图片正确识别的比例。
第四个限制是使用强制选择量表来计算正确识别的比例。得分最高的回答量表即为被调查者的回答。由于没有包含“以上都不是”选项,这可能会导致正确识别的比例比包含该选项时更高。
第五个缺点是,研究团队中没有人在拍摄照片时指导模特,而选择用于验证的图像是根据面部动作编码系统(FACS)进行认证的[
最后,并不是所有的参与者都遵守了不化妆的指示,这可能会对图像的解释产生偏见。然而,生成的图像可能更接近于现实生活中看到的面部表情。
创建Umeå大学面部表情数据库的目的是为科学界提供一个在线科学实验数据库。该数据库包含大量当代的图片,展示了不同年龄、种族和性别的模特。与之前的验证研究相比,基于互联网的有效性研究为每张图像获得了更多的评级,与许多现有的数据库相比,它具有更高的正确识别比例。然而,Umeå大学面部表情数据库的有效性需要通过类似或不同设计的进一步验证研究来检验。最后,我们邀请科学界帮助扩大数据库,允许包括更多的模型,以提供更有代表性的人群样本。显然,任何添加的人脸都需要首先进行验证,以确保高标准。
补充表1-7。与图像相关的因素。
该研究由瑞典社会研究理事会和瑞典工作生活研究理事会资助(2009-0222)。资助者在研究设计、数据收集和分析、发表决定或手稿准备中没有任何作用。亚历山大Alasjö感谢优秀的网络编程和Hans Pettersson的统计帮助。
没有宣布。