这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
COVID-19大流行在全球范围内引发了严重的公共卫生危机,政策制定者正在利用封锁来控制病毒。然而,威胁社会稳定的攻击性社会行为明显增加。封锁措施可能会对心理健康产生负面影响,导致攻击性情绪增加。发现封锁和攻击性增加之间的关系对于制定适当的政策以解决这些不利的社会影响至关重要。我们将自然语言处理(NLP)技术应用于互联网数据,以调查封锁对社会和情感的影响。
本研究旨在了解封锁与攻击性增加之间的关系,利用NLP技术分析了美国推文时空范围内的以下3种攻击性情绪:愤怒、攻击性语言和仇恨言论。
我们对11455名推特用户进行了纵向互联网研究,分析了他们在2019年至2020年发布的1281362条推文中的攻击性情绪。我们选择了互联网上3种常见的攻击性情绪(愤怒、攻击性语言和仇恨言论)作为分析的主题。为了检测推文中的情绪,我们训练了一个来自变形金刚的双向编码器表示(BERT)模型来分析每个州和每周攻击性推文的百分比。然后,我们使用差异中的差异估计来衡量锁定状态对不断增加的攻击性推文的影响。由于大多数其他可能影响结果的独立因素,如季节和区域因素,已被时间和状态固定效应排除,这种差异中的差异分析的重要结果不仅可以表明具体的正相关,而且还可以指出因果关系。
在2020年封锁的前6个月里,所有用户的攻击水平与2019年同期相比有所上升。值得注意的是,被封锁的用户比未被封锁的用户表现出更强的攻击性。我们的“差异中的差异”估计发现,在封锁和攻击性增加(愤怒:
了解封锁和攻击之间的关系可以帮助政策制定者解决封锁对个人和社会的影响。应用自然语言处理技术和在社交媒体上使用大数据可以为这项工作提供关键和及时的信息。
2020年3月13日,美国宣布进入紧急状态,以应对COVID-19大流行。许多州都采取了封锁措施,以减缓病毒的传播。然而,封锁政策影响到人类生活的许多方面。人们在长时间的监禁中所经历的沮丧和孤独可能会产生负面的心理影响。
在个人层面上,研究表明,封锁与自杀意念、焦虑障碍、噩梦、抑郁、孤独和心理健康状况不佳有关[
心理学的其他研究集中在封锁前和封锁后心理健康的恶化[
情感是人类行为的主要驱动力之一。更有攻击性的心态会导致家庭暴力和性暴力等攻击性行为,这是合理的。有影响的挫折-攻击理论[
值得注意的是,一项研究调查了封锁和攻击性增加之间的相关性[
使用自然语言处理(NLP)对推文进行在线分析,为健康相关研究提供了有价值的信息。对封锁期间人们的情绪进行了一般情绪分析[
有些与特定主题有关,例如疫苗接种[
本文针对目前心理学和自然语言处理研究的不足之处。大多数最近的心理学文献都没有提供有意义的证据来证明封锁和攻击性情绪之间的因果关系。另一方面,目前在情感分析方面的NLP研究主要集中在优化方法,使机器能够在大量的数字化人类话语中捕捉情感。然而,目前公共卫生领域的NLP文献很少探讨社会现象的因果关系。
我们使用新的NLP技术对在线Twitter用户及其推文进行了虚拟纵向研究,以调查封锁对以下3种攻击行为的影响:愤怒、攻击性语言(offensive)和仇恨言论(hate)。我们的信息监测方法使我们能够发现攻击水平的趋势,为决策者和卫生专业人员提供重要信息。此外,封锁前后的数据使我们能够使用差异中的差异分析来估计封锁与攻击性增加之间的潜在因果关系,这是一种既定的计量经济学方法,用于理解非实验时间序列数据中的因果关系[
首先,我们选取了一组美国各地的推特用户作为分析对象。然后,我们使用Twitter的应用程序编程接口获取抽样用户在2019年1月1日至2020年10月1日之间发布的所有推文。我们的目标是使用神经网络模型来检测这些推文中不同时期不同程度的攻击性情绪。我们选择了来自变形金刚(BERT)模型的双向编码器表示,这是一种最先进的语言模型,可以通过上下文和细微差别更好地理解情感的含义,而不是以前基于词典的模型[
在美国,各州保留实施封锁政策的权力。因此,本研究使用状态锁定状态来确定个人用户是否在特定时间处于锁定状态。我们随机抽取了美国各州的推特用户作为我们纵向互联网研究的参与者。在对用户进行采样后,我们对他们在2019年和特朗普总统于2020年3月宣布全国进入紧急状态后的前6个月发布的每条推文进行了采样。我们的抽样产生了一个时空数据集,其中包括从2019年1月1日到2020年10月1日由11455名推特用户发布的1281362条推文。抽样用户来自美国各地,包括来自所有50个州的用户。在这项研究中,我们使用这些推文来调查封锁和社交媒体攻击性之间的关系。所有推文都遵循数据预处理协议[
为了检测推文中的攻击性情绪,我们对三种攻击性情绪分别训练了BERT神经网络二元分类模型。对于每个模型,我们收集了不同的训练数据集。我们对每种情绪的定义与训练数据集的定义相同。
每种情绪的定义。
积极的情感 | 定义 |
愤怒 | 强烈的不满或敌意[ |
攻击性的语言 | 含有不可接受的语言(亵渎),并可能对弱势群体造成伤害的言论[ |
仇恨言论 | 对目标群体表达仇恨并带有贬损、侮辱和羞辱性的语言[ |
包含每种攻击性情绪的示例文本。
积极的情感 | 手机文字输入的软件 |
愤怒 | 我希望这一切能尽快结束。这是地狱 |
攻击性的语言 | 人们真的这么蠢吗? |
仇恨言论 | @user腐烂从顶部开始......特朗普的混蛋都是种族主义者......去他妈的! |
我们选择GoEmotions数据集来训练愤怒分类模型[
攻击性语言是指包含不可接受的语言(亵渎),对弱势群体有潜在伤害的言论。我们选择了“自动侦测仇恨言论及冒犯性语言问题”[
与一般的攻击性语言不同,仇恨言论是一种更具体的语言,会造成故意伤害。为了训练我们的仇恨模型,如前所述,我们将AHSD数据集与大规模人群Sourcing [
我们使用BERT模型[
我们首先在测试集上测试我们的模型预测(火车-测试分割)。结果显示在
在测试集上建模性能。
模型 | 精度 | 回忆 | F1 |
愤怒 | 0.869 | 0.826 | 0.847 |
攻击性的语言 | 0.953 | 0.988 | 0.970 |
仇恨言论 | 0.956 | 0.920 | 0.933 |
我们的模型的困惑矩阵:愤怒(A),攻击性(B)和仇恨(C)。右下和左上象限是模型正确预测的地方,分别代表真消极和真积极。象限颜色越深,预测能力越强。
科恩kappa评级者之间的协议。
情感 | 卡巴 |
愤怒 | 0.928 |
攻击性的语言 | 0.937 |
仇恨言论 | 0.890 |
在抽样的Twitter数据集上建模性能。
模型 | 精度 | 回忆 | F1 |
愤怒 | 0.795 | 0.888 | 0.839 |
攻击性的语言 | 0.843 | 0.922 | 0.880 |
仇恨言论 | 0.810 | 0.872 | 0.839 |
为了理解推文中的攻击性水平,我们测量了所有随机采样的推文中包含攻击性的推文的比例。首先,我们为每种攻击性情绪(即愤怒、攻击性和仇恨)使用单独的BERT模型来分析我们采样的Twitter数据。分析结果是3个数据集,每个数据集代表一种攻击性情绪。在每个数据集中,对于50个州中的每个州,我们计算了从2019年1月到2020年10月的92周内包含攻击性情绪的推文的百分比。该分析得到3个数据集,每个数据集有4600个数据点。
虽然我们的数据由不同时空设置下的攻击性推文数量组成,但我们分析了攻击性推文在总推文中的比例,而不是攻击性推文的数量,以调查推特上的攻击性水平。这是因为攻击性推文数量的增加可能是由于推文总量的增加,这并不一定意味着攻击性水平更高。测量攻击性推文的比例可以更准确地描述推特上的攻击性水平。
经过3个阶段的观察和分析,我们从不同的角度看待数据。在第一部分中,我们比较了大流行前6个月不同封锁状态组之间的攻击水平。在那之后,我们把注意力集中在那些经历了封锁的州,我们观察了他们封锁前后的攻击水平。最后,我们使用差异中的差异分析来估计封锁对攻击性增加的影响。
为了了解封锁对攻击性情绪的影响,我们调查了每个特定时间和地点的攻击性推文比例,并比较了处于封锁状态下和未处于封锁状态下的人的比例。为此,我们设计了第一个目标。在2019年1月1日至2020年10月1日的92周内,我们将封锁州和非封锁州分为两组。然后,我们分别汇总了攻击性推文的数量和推文总数。基于综合数据,我们计算了这两个组每周的攻击性推文百分比,持续了92周。请注意,每个州的用户代表处于封锁状态的患者,而不是基于该州当前的封锁状态而处于封锁状态的患者。
在前一节中,我们观察并比较了被封锁和未被封锁的组之间的攻击性情绪。在本节中,我们重点了解了封锁州的趋势。更具体地说,我们通过比较封锁前后的数据,研究了封锁后攻击性的增加。我们根据封锁的第一周按时间顺序排列了每个封锁州的数据。更具体地说,对于每个经历过封锁的州,封锁开始的那一周被记为第0周。其他的周也相应地编号(例如,第0周之后的第一周是第1周,第0周之前的第一周是第- 1周,依此类推)。使用这种方法,我们可视化了封锁后攻击性的增加。请注意,这仅仅是对封锁前后侵略趋势的观察。它没有衡量封锁状态对侵略程度的净影响。为了具体衡量影响并调查因果关系,我们在下一节中应用了差异中的差异估计,以统计方式量化封锁组和非封锁组之间的攻击水平差异。
研究因果关系的传统方法是在随机分配的受试者中进行实验,参与者随机分为两组。一组接受治疗,另一组不接受。然而,在许多情况下,包括我们的实验,由于实际或伦理原因,实验是不可行的。例如,我们不能随机分配人员,并将他们长期封锁。一些社会科学研究人员使用多元回归来解决这个问题,当感兴趣的自变量,
正如Callaway和Sant 'Anna指出的那样,“差异中的差异(DID)已成为用于评估政策干预中的因果效应的最流行的研究设计之一”[
为了实现时间序列数据中的差分估计,我们使用固定效应模型。固定效应模型通过控制每个地理和时间数据组(简称数据组)中的平均值来处理不可见变量。每个数据组的平均值由许多因素构成,包括那些我们可能知道或不知道的Z变量。换句话说,我们需要控制的Z变量的影响是在每个数据组的平均值中捕获的。通过从每个数据组的结果中减去平均值,固定效应模型控制了杂Z变量的影响,并测量了X变量对Y变量的贡献的净增加。以“国家的固定效应”为例,不同政治倾向和种族构成导致的侵略水平差异体现在各州的平均侵略水平中。在减去平均值之后,我们现在测量了相对于每个州的标准,攻击性水平是如何增加的。本研究中使用的固定效应模型“比普通回归分析更接近于实现无偏倚的因果效应估计”[
为了实现上面的固定效应模型,我们需要将固定效应添加到最适合我们数据的回归模型中。因为我们最初的观察是在特定时空设置中发布的攻击性推文的数量,所以我们的数据代表了一种计数数据。因此,对于固定效应的计数数据,我们选择了经典的泊松模型[
在这种情况下,
然而,正如前面提到的,攻击性推文数量的增加可能是由于发布的推文总数的增加,这并不一定表明攻击性水平更高。测量攻击性推文的比例可以更准确地描述推特上的攻击性水平。因此,为了使用这种基于计数的模型来测量攻击性推文的比例,我们通过添加术语ln(
为了理解ln(
我们的模型更接近于捕捉观察数据中感兴趣的自变量对因变量的无偏因果效应[
该分析比较了处于封锁状态和未处于封锁状态的各州之间的侵略水平。2020年3月13日,美国宣布进入紧急状态。在曾实施封锁的42个州中,有40个州在2020年3月20日至4月4日的两周内实施了封锁。
自2020年4月1日以来,所有3种攻击性情绪(愤怒(A)、攻击性(B)和仇恨(C))的每周攻击性推文百分比。表示封锁州(洋红色)和未封锁州(青色)。
自2019年1月1日以来,所有3种攻击性情绪(愤怒(A)、攻击性(B)和仇恨(C))的每周攻击性推文百分比。显示的是被封锁的州(洋红色)、未被封锁的州(蓝绿色)和任何封锁开始前的数据(黄色)。
就强烈的不满或对抗感而言,2020年5月推文数量突然增加,在封锁期间尤其明显。自4月以来的前9周,被封锁的一组的平均愤怒水平比另一组高出2%-3%。
对于可能伤害弱势群体的不可接受的语言,自2020年4月以来的7周内,推文的比例急剧上升(
对于旨在向目标群体表达仇恨的贬损、羞辱和侮辱性言论,推文比例在2020年4月1日起的第8周达到峰值(
三种攻击性情绪的攻击性水平都大幅上升,在2020年4月1日起的6-8周左右达到峰值(
我们选择了实施封锁的州,并比较了封锁前后的侵略水平。我们看到了封锁后不断增加的攻击趋势。
在封锁前后,愤怒(A)、攻击性(B)和仇恨(C)的攻击性推文百分比。第0周的垂直红线表示开始封锁。请注意,由于各州可能在不同的时间开始封锁,因此第0周在不同的州可能不同。尽管如此,各州通常在2020年3月20日至4月4日之间开始封锁。
在本节中,我们使用泊松回归模型进行了差异中的差异分析。封锁与所有三种攻击性情绪的攻击性推文比例的增加有关。在对数线性模型中,原始系数,
情绪推文比例和锁定状态的泊松回归结果。
锁定状态 | 发病率比 | 标准错误 |
|
|
95%可信区间 |
被封锁(愤怒) | 1.049745 | 0.0163949 | 3.11 | .002 | 1.018099 - -1.082375 |
封锁(进攻) | 1.168261 | 0.0319202 | 5.69 | <措施一个 | 1.107345 - -1.232529 |
被封锁(恨) | 1.114432 | 0.0432653 | 2.79 | .005 | 1.032780 - -1.202541 |
一个STATA回归得到
了解攻击性情绪的趋势是理解大流行期间与攻击性行为相关的各种社会问题的第一步。受Killgore等人的问卷研究启发[
通过使用全州封锁状态来分析推文,我们可以在很长一段时间内捕捉攻击水平的峰值和低谷。我们还可以确定具有不同锁定状态的组之间的攻击水平差异。在观察的时间段内,有几个特别明显的攻击性水平峰值。这些偏差或许可以解释各种社会事件对公众情绪的影响。从2020年4月初大多数州实施封锁到同年5月下半月,攻击水平上升的幅度是2019年所没有的,被封锁的人比其他人表现出更严重的上升。全国新冠肺炎死亡者从3月末的每天100人以下激增到4月中旬的2000多人,情绪和生活方式受到了前所未有的冲击。通过封锁,死亡人数在接下来的几个月里稳步下降,并在6月达到较低的平衡。所有三种攻击性情绪都在全国大流行最严重的月份达到顶峰,当时各州正在经历高死亡人数和内乱。
经过大约2个月的封锁后,侵略程度有所下降。这种下降可能是由于流行疲劳,使人们感到压力更小,表现出更少的攻击性[
尽管这三种攻击性情绪的攻击趋势大致遵循相同的模式,但每种情绪都有一些略有不同的特征,这揭示了每种情绪的独特性。愤怒是三种情绪中最常见的情绪。在最初的高峰之后,不同封锁状态组之间的攻击线在接下来的几个月里交织在一起。攻击性和仇恨比愤怒更常见。然而,在大流行的前6个月里,被封锁者的攻击性和仇恨水平一直高于未被封锁者的水平。
我们的信息监测研究捕捉了人们在特定时间段内情绪的波动,为政策制定者和公共卫生专业人员提供了重要信息。
我们的估计表明,封锁和攻击性增加之间存在因果关系。用于计数数据的泊松回归分析适用于估计在一段时间内发布的攻击性推文的数量。时间和状态固定影响能够解决除锁定状态以外的因素对结果的不希望看到的影响。使用这个严格的统计模型,我们可以展示封锁状态对攻击性推文增加的净影响。在所有三种攻击性情绪(愤怒:
统计数据和科学证据在大流行期间的理性决策中发挥着至关重要的作用[
基尔戈尔等[
之前的NLP情感分析研究主要集中在使用机器来理解大量文本中的情感[
我们的研究有一些局限性,也有在未来工作中改进的潜力。首先,Twitter的数据过度反映了更年轻的用户,这些用户更容易使用移动应用程序,并且生活在一个促进社交媒体的文化中。这些用户可能无法准确反映整个人口,因为某些具有不同人口和社会经济地位的群体可能代表性不足[
信息监视研究在现代世界中非常有用。随着NLP的最新进展,模型可以被训练成准确理解文本中的情绪。NLP技术可以应用于分析大量社交媒体数据中的情绪。这种大规模的公众情绪时空数据可以进一步分析,以研究情绪趋势与某些政策(如封锁)之间的相关性和因果关系。计算机技术在社会科学研究中的应用前景广阔。
自动仇恨言论检测和攻击性语言问题
来自变压器的双向编码器表示
发病率比
自然语言处理
作者感谢张允坚博士、何汉伟博士、林长青博士、陈伯伟博士、杨殿汉博士、廷昊轩博士、吕信恩博士、周立芬博士、潘伟力博士、蔡佩琴博士、林钦博士、梁志轩博士和张志礼博士对本文的帮助。这项研究得到了美国国家科学技术委员会的部分资助,资助金额为109-2221-E-008-062-MY3和109-2221-E-008-058-MY3。
本研究的源代码可在GitHub [
没有宣布。