发表在第22卷11号(2020): 11月

本文的预印本(早期版本)可在,首次出版
从阿拉伯语推文中识别和排名常见的COVID-19症状:内容分析

从阿拉伯语推文中识别和排名常见的COVID-19症状:内容分析

从阿拉伯语推文中识别和排名常见的COVID-19症状:内容分析

原始论文

1沙特阿拉伯麦加乌姆库拉大学人工智能创新与发展中心

2吉达大学,吉达,沙特阿拉伯

通讯作者:

Eisa Alanazi,理学学士,理学硕士,博士

人工智能创新与发展中心

Umm Al-Qura大学

太子路

麦加,11343

沙特阿拉伯

电话:966 55 601 4171

电子邮件:eaanazi@uqu.edu.sa


相关的文章这是更正后的版本。见更正声明://www.mybigtv.com/2020/12/e26446/

背景:Twitter用户每天都会生成大量与covid -19相关的数据。推特上对COVID-19症状的自我报告可以在很大程度上揭示这种疾病及其在社区中的流行情况。特别是,自我报告可以作为一种宝贵的资源来了解更多关于常见症状的信息,以及它们的出现顺序在社区中不同群体之间是否存在差异。这些数据可用于开发针对特定人群的COVID-19风险评估系统。

摘要目的:本研究的目的是通过检查阿拉伯语的推文,确定COVID-19患者报告的最常见症状,以及症状出现的顺序。

方法:我们搜索了2020年3月1日至5月27日期间用阿拉伯语发布的关于COVID-19症状的个人报告。我们确定了463名在推特上发布COVID-19检测呈阳性的阿拉伯用户,并提取了他们与该疾病相关的症状。此外,我们通过个人信息直接要求他们对他们在COVID-19诊断之前(或之后)立即经历的前3种症状的外观进行排名。最后,我们跟踪了他们的推特时间线,以确定从他们的COVID-19诊断的第一条推文起±5天内提到的其他症状。总共收集了270份COVID-19自我报告,并对症状(至少部分)进行了排名。

结果:收集的自我报告包含来自201名(74%)男性和69名(26%)女性Twitter用户的893种症状。大多数被追踪的用户(n= 270,82%)生活在沙特阿拉伯(n= 125,46%)和科威特(n= 98,36%)。此外,收集到的报告中有13% (n=36)来自无症状个体。在234名有症状的使用者中,66% (n=180)提供了至少3种症状出现的时间顺序。发热(n=139, 59%)、头痛(n=101, 43%)和嗅觉丧失(n=91, 39%)是自述中提到的前3个症状。此外,28% (n=65)的人报告说,他们的COVID-19经历是从发烧开始的,15% (n=34)的人头痛,12% (n=28)的人嗅觉丧失。在沙特阿拉伯110例有症状的病例中,最常见的3种症状是发热(n=65, 59%)、嗅觉丧失(n=46, 42%)和头痛(n=42, 38%)。

结论:这项研究从阿拉伯语的推文中确定了COVID-19最常见的症状。这些症状可在临床环境中进一步分析,并可纳入COVID-19实时风险评估器。

[J] .中国医学信息学报,2016;22(11):1183 - 1183

doi: 10.2196/21329

关键字



持续的COVID-19大流行极大地影响了人类的健康和福祉,并从根本上迫使人们严格改变生活方式。为了应对这场灾难,我们目睹了来自不同研究团体的巨大努力,以研究这种疾病的各个方面。

近年来,社交网络已经成为一个重要的信息来源,用户可以在这里公开和分享关于众多主题的想法、观点、想法和经验。有几项研究利用社交平台提供的丰富信息进行非临床医学研究。例如,Twitter一直是许多健康和医学研究的数据来源,例如对流感和癌症的时间线和分布在美国的监测和监测[1],基于地理标记的阿拉伯语推文分析了流感在阿拉伯联合酋长国的传播[2],以及基于阿拉伯语和英语推文的阿拉伯联合酋长国流感监测[3.]。此外,Twitter数据已被用于沙特阿拉伯的症状和疾病识别[4],最近,检查推特上报道的COVID-19症状[5]并分析美国受感染推特用户的时间和地理分布[6]。

Twitter平台允许研究人员通过数据挖掘和分析技术获得年龄、性别、地理位置等数据,以及信息丰富的帖子;这可能会导致对特定健康状况的有用见解[7]。从公开可用的数据中提取与疾病相关的常见症状有可能控制疾病的传播并确定高风险用户。它还提出了要求早期干预和控制的新见解。例如,图1呈现一条推文的翻译(来自沙特阿拉伯;可追溯到2020年5月初),其中明确提到嗅觉和味觉丧失是COVID-19的一个独特症状。有趣的是,沙特阿拉伯的官方COVID-19问卷应用程序于2020年5月底更新,将突然失去嗅觉和味觉作为感染COVID-19的一个风险指标[8]。通过推特上的公共数据实时跟踪COVID-19症状可能会缩短差距。

图1所示。一名COVID-19患者在推特上说,失去嗅觉和味觉是他们所有家庭成员唯一的共同症状。这条推文是匿名的,并被翻译成英文。
查看此图

在本文中,我们研究了阿拉伯推特用户报告的COVID-19症状。首先,我们用阿拉伯语梳理推文,搜索具有COVID-19症状的推文,并收集(通过临床测试)自我报告诊断为阳性的用户的推文。接下来,我们通过私人信息发送的自愿调查向受感染的用户询问了他们经历的前3种症状。


我们的数据收集方法概述于图2。首先,我们使用2个阿拉伯关键词在推特上搜索2020年3月1日至2020年5月27日关于COVID-19的个人报告,大致翻译过来就是“我被诊断出来了。”这样的关键字可能会过滤掉与正式测试结果不相关的报告。收集了463名用户的初步名单,并要求2名独立自由职业者进一步阅读用户的时间轴,提取明确提到的与COVID-19相关的症状以及出现的顺序。还收集了用户性别、感染日期和居住国等其他信息。如果没有其他信息,我们假设COVID-19诊断推文的日期为感染日期。

图2。数据收集步骤。
查看此图

总共有270名用户被确定患有COVID-19,其中80人公开分享了他们的症状。为了进一步了解症状的时间顺序,我们通过推特个人信息要求用户对他们在COVID-19检测呈阳性之前或之后经历的前3种症状进行排名。

我们根据收到的响应和用户页面上的公开可用数据记录了症状排名(从第一到最后)。如果没有给出顺序,则假定按照用户提到症状的顺序进行隐式排序。

跟踪包含特定关键词的推文不足以获得疾病动态的概述[9]。许多患者详细描述了他们感染时的经历;因此,了解他们的健康状况和情绪,并跟踪有用的信息,可能会导致更好地了解疾病症状。特别是,我们发现在感染日期±5天内发布的推文包含有关早期症状的宝贵信息,使我们能够对症状进行处理和排名。举个例子,图3重点介绍了3名不同的COVID-19患者的3条推文,这些推文间接传达了被诊断为COVID-19之前或之后的症状。为简单起见,我们使用TweetGen[]为所有3条推文设置了一个假日期(2020年4月28日)。10]。用户. . 14月29日,也就是他们发推特希望能够品尝食物的一天后,检测结果呈阳性;用户2 . .在抱怨头痛3天后,于5月1日检测呈阳性;和用户3 . .4月26日检测呈阳性,4月28日发推文称失去嗅觉。

图3。在用户发布有关covid -19阳性诊断的推文前后5天内收集的推文示例。
查看此图

中突出显示的示例图3证明在Twitter上挖掘COVID-19症状需要的不仅仅是简单的关键字搜索。原则上,由COVID-19用户叙述的推文背景也很重要。因此,重要的是不仅要检查推文,还要检查其上下文。为了基于阿拉伯语推文构建高质量的COVID-19症状数据库,我们依赖于手动提取症状。


2020年5月病例最多(n=210, 78%),其次是4月(n=39, 14%)和3月(n=21, 8%)。由于全球大多数国家的确诊病例数量大幅增加,5月份报告中的这种激增是可以理解的。不用说,为防止病毒进一步传播而采取的一些战略(例如,沙特阿拉伯卫生部的积极筛查)[11)可能也有助于在5月份找到比其他月份更多的报告。我们亲眼目睹了这一点,因为一些无症状报告主要是早期积极筛查的结果。

来自沙特阿拉伯、科威特和阿拉伯联合酋长国的用户占报告的85% (n=230)。近一半的报告来自沙特阿拉伯(n=125, 46%),这并不奇怪,因为它是Twitter用户最多的国家之一,拥有超过1500万用户[12]。其他国家(埃及、伊拉克、巴林、卡塔尔、英国、美国、比利时和德国)构成了剩余的15% (n=40)。

我们从270份自我报告中收集了893种症状(见表1)。每日收集的推文数量突出显示在图4

表1。推特用户经历的症状数(N=270)。
症状数 报告数,n (%)
0 36 (13)
1 19日(7)
2 35 (13)
3. 65 (24)
4 50 (19)
5 35 (13)
6 11 (4)
7 8 (3)
8 5 (2)
9 3 (1)
10 3 (1)
图4。2020年3月至5月每日从Twitter收集的报告数。
查看此图

表1表明大多数推特用户经历了2至5种症状,而13% (n=36)的报告病例无症状。表2列出每种症状的出现频率,顺序从最常见到最不常见。只有近60% (n=139)的用户出现发烧。男性和女性患者出现症状的频率似乎一致(相关系数=0.966)。此外,表3按出现的顺序列出前8个症状(即第一、第二和第三个);这是指在收集的自我报告中被列为第一、第二或第三个最常见症状的8个症状。发烧和头痛通常是最初报告的症状。与发热同时出现的前4位症状依次为头痛(33例,23.7%)、咳嗽(20例,14.4%)、嗅觉丧失(19例,13.7%)、耳鸣(17例,12.2%)。其他症状出现的频率相对较低,伴有发烧。表4列出了沙特阿拉伯和科威特最常见的8种症状,占报告的81.2% (n=190)。两国症状相关系数为0.835。

表2。用户报告的最常见症状。
症状 所有用户(n=234), n (%) 男性(n=171), n (%) 女性(n=63), n (%)
发热 139 (59) 98 (57) 41 (65)
头疼 101 (43) 68 (40) 33 (52)
嗅觉缺失症 91 (39) 63 (37) 28 (44)
味觉丧失 72 (31) 51 (30) 21 (33)
乏力 68 (29) 54 (32) 14 (22)
咳嗽 62 (26) 48 (28) 14 (22)
喉咙痛 42 (18) 30 (18) 12 (19)
呼吸困难 33 (14) 26日(15) 7 (11)
腹泻 27日(12) 22 (13) 5 (8)
流鼻涕 23日(10) 17 (10) 6 (9)
关节痛 16日(7) 10 (6) 6 (9)
胸部疼痛 15 (6) 13 (8) 2 (3)
背部疼痛 14日(6) 11 (6) 3 (5)
厌食症 14日(6) 11 (6) 3 (5)
身体疼痛 12日(5) 八(5) 4 (6)
恶心想吐 12日(5) 八(5) 4 (6)
Osteodynia 11 (5) 八(5) 3 (5)
干燥的喉咙 9 (4) 6 (3) 3 (5)
肌痛 9 (4) 7 (4) 2 (3)
头晕 8 (3) 6 (3) 2 (3)
发冷 7 (3) 5 (3) 2 (3)
鼻塞 7 (3) 4 (2) 1 (2)
鼻窦炎 7 (3) 3 (2) 4 (6)
表3。用户报告的前8个症状,按第一、第二和第三个顺序排列。
数量 第一个 第二个 第三
1 发热 发热 发热
2 头疼 头疼 头疼
3. 嗅觉缺失症 乏力 嗅觉缺失症
4 乏力 咳嗽 味觉丧失
5 咳嗽 味觉丧失 乏力
6 喉咙痛 嗅觉缺失症 咳嗽
7 流鼻涕 喉咙痛 厌食症
8 腹泻 关节痛 呼吸困难
表4。沙特阿拉伯和科威特的8大常见症状。
症状 沙特阿拉伯(n=110), n (%) 科威特(n=80), n (%)
发热 65 (59) 45 (56)
头疼 42 (38) 38 (48)
嗅觉缺失症 46 (42) 21 (26)
味觉丧失 36 (37) 19 (24)
乏力 31 (28) 19 (24)
咳嗽 21 (19) 19 (24)
喉咙痛 22 (20) 11 (14)
呼吸困难 14 (13) 11 (14)

最后,我们将本研究的症状患病率与Sarker等人提供的数据进行了比较[5],以评估不同人群所经历的COVID-19症状的异同。正如在表5图5,我们的发现补充了Sarker等人的发现[5](相关系数=0.72)。

表5所示。本研究发现的常见症状与Sarker等人的比较[5]。
症状 我们的研究(n=234), n (%) Sarker et al (n=171), n (%)
发热 139 (59) 113 (66)
头疼 101 (43) 64 (37)
嗅觉缺失症 91 (39) 49 (29)
味觉丧失 72 (31) 48 (28)
乏力 68 (29) 72 (42)
咳嗽 62 (26) 99 (58)
喉咙痛 42 (18) 41 (24)
呼吸困难 33 (14) 62 (36)
腹泻 27日(12) 15 (9)
流鼻涕 23日(10) 16 (9)
关节痛 16日(7) 2 (1)
胸部疼痛 15 (6) 39 (23)
背部疼痛 14日(6) - - - - - -一个
厌食症 14日(6) 23日(14)
身体疼痛 12日(5) 73 (43)
恶心想吐 12日(5) 19 (13)
Osteodynia 11 (5) - - - - - -
干燥的喉咙 9 (4) - - - - - -
肌痛 9 (4) 10 (6)
头晕 8 (3) 15 (9)
发冷 7 (3) 43 (25)
鼻塞 7 (3) - - - - - -
鼻窦炎 7 (3) 7 (4)

一个不适用。

图5。我们的研究与Sarker等的症状患病率比较[5](相关系数=0.72)。
查看此图

主要研究结果

这项工作从推特上的阿拉伯人个人报告中确定了常见的COVID-19症状。这些发现补充了最近其他研究的结果[569,专注于英语或特定人口群体的推文。这项研究不仅报告了症状,而且还报告了用户叙述的时间线。社交网络已经成为许多人事实上的沟通渠道。世界各地的许多人每天无数次地写作、互动,甚至只是浏览社交网络内容。社交网络具有不断更新其他全球公民提供的新信息的特性。因此,监测其内容以识别健康问题至关重要[1314]。分析社交网络的一个潜在好处是了解COVID-19症状并识别高危人群[7]。

嗅觉缺失是报告的前三大症状之一,在39%的报告中提到,这是我们研究的一个令人惊讶的结果。几位推特用户抱怨嗅觉缺失的持续时间太长。我们的样本量仍然相对较小,无法在这方面做出任何合理的判断。然而,最近的临床研究报告称,在35.7%的COVID-19轻度病例中发现嗅觉缺失,这与我们从本研究中检查的推文中得出的估计相对接近[15]。事实上,自我报告的数量反映了不同国家的检测能力。截至2020年6月9日,沙特阿拉伯完成了近100万次测试,科威特进行了超过35万次测试[16]。

值得注意的是,一些用户因COVID-19而体重下降;一名用户声称因为这种疾病瘦了20公斤。另一个有趣的观察是,一些用户经历了他们所说的只有几个小时的短期轻度发烧。根据一位用户的推文,戒烟是新冠肺炎的积极结果。4月初,一些用户声称自己感染了COVID-19,这让我们感到惊讶,后来证明这是愚人节的恶作剧。这些发现促使人们进一步研究不同社区如何应对大流行及其如何影响他们的生活。

限制及未来工作

有几个限制需要承认。拥有近1亿人口的最大阿拉伯国家埃及的自我报告在本研究中没有充分体现。这可能是由于埃及人更喜欢其他社交媒体平台(如Facebook),以及不同的方言和当地习语的使用等因素造成的。

我们的研究追踪了两个广泛使用的关键词,以识别推特上的阿拉伯COVID-19患者,然后手动提取症状。更复杂的关键字可以揭示有关症状的其他有趣模式。此外,我们使用现代标准阿拉伯语(MSA)关键字来获得阿拉伯语Twitter内容的总体视图。然而,文献中很好地指出,许多阿拉伯用户在社交媒体上用自己的方言写作。因此,为了更好地捕捉用阿拉伯语写的有关新冠肺炎症状的推文,不仅要考虑MSA形式的关键词,还要考虑针对不同阿拉伯语方言量身定制的关键词。这也许可以解释为什么埃及在这项研究中代表性不足。因此,需要开发多方言COVID-19阿拉伯语词典和基于自然语言处理的算法来检测和分析阿拉伯语推文;为不同的阿拉伯方言建立一个全面的医学词典是冠状病毒大流行期间的重要研究方向[17]。

我们从可能接受筛查测试的用户中提取了症状,因此根据测试结果发布了推文;但是,我们没有测试的确认。在本研究中,我们没有使用其他COVID-19来源;具体来说,研究Facebook和Twitter上的阿拉伯语个人报告将提高研究结果。

与其他月份相比,5月份报告的病例明显增加,这表明根据阿拉伯语Twitter帖子中报告的症状建立实时监测系统的重要性。它还表明,需要进一步研究不同社区和不同人口群体(即按年龄、性别、地理位置等分组的用户)的信息共享行为[18]。

我们的分析中有一个有趣的观察结果与性别分布有关。所收集的报告中约有25%来自女性用户。这可能是由于几个原因。其中一个原因可能是阿拉伯男性COVID-19患者多于女性;然而,我们不知道有任何可靠的来源来支持这一说法。然而,在沙特阿拉伯,2020年4月和5月,男性报告的病例数一直超过女性报告的病例数[19]。需要进一步的见解和研究来调查信息共享行为的性别差异,并分析男性和女性阿拉伯用户在社交媒体上披露健康信息的方式是否存在显着差异。

隐私是利用社交媒体进行公共卫生监测之前需要解决的关键问题之一。除了每个网络的隐私政策外,在从社交媒体网络收集健康信息时应该披露哪些信息,目前还没有全球共识。文献中的一些尝试提出了从Twitter收集健康信息时应遵循的最佳做法[20.]。这些做法包括避免直接引用用户的推文,以及避免提及用户的id。此外,一些社交媒体网站更新了他们的隐私政策,以进一步控制内容的再分发。例如,Twitter的更新政策只允许将tweet的ID重新分配给第三方,而不允许将其内容逐字分发给第三方[21]。

结论

这项研究从阿拉伯语的推文中确定了最常见的自我报告的COVID-19症状。我们的研究结果表明,发烧、头痛和嗅觉丧失是用户经历的3种最常见的症状,并且我们展示了在我们的推特数据库中发现的两个最大集群(沙特阿拉伯和科威特)的症状患病率。

致谢

本研究由阿卜杜勒阿齐兹国王科技城资助(资助号:5-20-01-007-0033)。

作者的贡献

EA和A Alashaikh设计了这项研究并撰写了手稿。SA开发了社交网络分析方法,并使用Twitter API收集相关tweets。A Alanazi将从个人报告中收集的症状提取并翻译为它们的学名。所有作者都认可了手稿的最终版本。

利益冲突

没有宣布。

  1. Lee K, Agrawal A, Choudhary A.基于Twitter数据的实时疾病监测:流感和癌症的演示。2013发表于:KDD '13:第19届ACM SIGKDD知识发现与数据挖掘国际会议论文集;2013年8月;芝加哥,伊利诺斯州,美国第1474-1477页。[CrossRef]
  2. Alkouz B, Al Aghbari Z.基于阿拉伯语推文的阿联酋流感分析与预测。2018年IEEE第三届大数据分析国际会议(ICBDA);2018年3月9日至12日;上海,中国,第61-66页。[CrossRef]
  3. alkuz B, Aghbari ZA, Abawajy JH。推特流感:从推特数据预测流感趋势。大数据分析2019年12月;2(4):273-287。[CrossRef]
  4. Alotaibi S, Mehmood R, Katib I, Rana O, Albeshri A. Sehaa:基于Twitter、Apache Spark和机器学习的医疗保健症状和疾病检测大数据分析工具应用科学2020 Feb 19;10(4):1398 [j]免费全文] [CrossRef]
  5. 杨玉成,刘建军,刘建军,刘建军,刘建军。推特上自我报告的COVID-19症状:一种分析和研究资源。医学信息学报,2020,01;27(8):1310-1315 [J]免费全文] [CrossRef] [Medline]
  6. Klein A, Magge A, O'Connor K, Cai H, Weissenbacher D, Gonzalez-Hernandez G.推特上新冠肺炎个人报告的时间和地理分析。medRxiv 2020 4月22日[免费全文] [CrossRef] [Medline]
  7. Sinnenberg L, Buttenheim AM, Padrez K, Mancheno C, Ungar L, Merchant RM。推特作为健康研究的工具:系统回顾。中华卫生杂志,2017;07(1)。[CrossRef] [Medline]
  8. 沙特阿拉伯卫生部。中央预约系统(Mawid)。卫生部电子服务。URL:https://www.moh.gov.sa/en/eServices/Pages/cassystem.aspx[2020-05-27]访问
  9. Mackey T, Purushothaman V, Li J, Shah N, Nali M, Bardier C,等。机器学习检测Twitter上与COVID-19相关的症状、测试访问和恢复的自我报告:回顾性大数据信息监测研究JMIR公共卫生监测2020年6月08日;6(2)[免费全文] [CrossRef] [Medline]
  10. Tweetgen》2020。URL:https://www.tweetgen.com/[2020-06-02]访问
  11. 沙特阿拉伯的积极大规模检测遏制了COVID-19的传播。阿拉伯新闻,2020年4月21日。URL:https://www.arabnews.com/node/1662856/saudi-arabia[2020-05-25]访问
  12. 根据截至2020年4月的推特用户数量排名。Statista》2020。URL:https://www.statista.com/statistics/242606/number-of-active-twitter-users-in-selected-countries/[2020-05-28]访问
  13. Paul M, Sarker A, Brownstein J, Nikfarjam A, Scotch M, Smith K,等。利用社交媒体进行公共健康监测和监督。生物计算2016:468-479 [j]免费全文] [CrossRef]
  14. 朱娜拉R,波顿L,艾尔斯JW,布朗斯坦JS。评估监测肥胖流行的在线社会环境。PLoS One 2013年4月24日;8(4)[免费全文] [CrossRef] [Medline]
  15. Levinson R, Elbaz M, Ben-Ami R, Shasha D, Levinson T, Choshen G,等。轻度SARS-CoV-2感染患者嗅觉障碍和认知障碍的时间过程medRxiv。预印本于2020年4月14日在线发布[免费全文] [CrossRef] [Medline]
  16. Worldometer。2019冠状病毒病大流行。URL:https://www.worldometers.info/coronavirus/[2020-06-09]访问
  17. 郭晓,李军。基于基线相关性的推特情绪分析模型在金融市场预测中的应用。2019,发表于2019年第六届社交网络分析、管理与安全国际会议(smnams);2019年10月22-25日;格拉纳达,西班牙。[CrossRef]
  18. Neiger BL, Thackeray R, Burton SH, Thackeray CR, Reese JH。地方卫生部门使用twitter:信息共享、参与和行动分析。医学互联网研究,2013年8月19日;15(8)[J]免费全文] [CrossRef] [Medline]
  19. 沙特阿拉伯冠状病毒病(COVID-19)情况。KAPSARC。2020.URL:https://datasource.kapsarc.org/explore/dataset/saudi-arabia-coronavirus-disease-covid-19-situation/information[2020-07-22]访问
  20. 使用Twitter进行公共卫生监督和研究的伦理问题:从研究文献中发展伦理概念的分类。医学互联网研究2014年12月22日;16(12)[J]免费全文] [CrossRef] [Medline]
  21. Twitter。Twitter开发者政策。URL:https://developer.twitter.com/en/developer-terms/policy[2020-04-15]访问


MSA:现代标准阿拉伯语


G·艾森巴赫编辑;提交12.06.20;A Sarker, A Alasmari, J Li, M Adly, A Adly同行评议;对作者的评论13.07.20;修订版本收到26.07.20;接受26.10.20;发表18.11.20

版权

©Eisa Alanazi, Abdulaziz Alashaikh, Sarah Alqurashi, Aued Alanazi。原载于医学互联网研究杂志(//www.mybigtv.com), 2020年11月18日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map