发表在gydF4y2Ba在gydF4y2Ba9卷gydF4y2Ba,9号gydF4y2Ba(2021)gydF4y2Ba:9月gydF4y2Ba

本文的预印本(早期版本)是可用的gydF4y2Bahttps://preprints.www.mybigtv.com/preprint/27670gydF4y2Ba,第一次出版gydF4y2Ba。gydF4y2Ba
社交媒体监测COVID-19大流行性流感和流感流行与适应的非正式语言阿拉伯语Twitter数据:定性研究gydF4y2Ba

社交媒体监测COVID-19大流行性流感和流感流行与适应的非正式语言阿拉伯语Twitter数据:定性研究gydF4y2Ba

社交媒体监测COVID-19大流行性流感和流感流行与适应的非正式语言阿拉伯语Twitter数据:定性研究gydF4y2Ba

原始论文gydF4y2Ba

1gydF4y2Ba信息技术部门,计算机与信息科学学院,沙特国王大学,利雅得,沙特阿拉伯gydF4y2Ba

2gydF4y2Ba计算和通信学院的兰开斯特大学,英国兰开斯特gydF4y2Ba

通讯作者:gydF4y2Ba

喇嘛Alsudias,本科,硕士,博士学位gydF4y2Ba

信息技术部门gydF4y2Ba

计算机与信息科学学院gydF4y2Ba

沙特国王大学gydF4y2Ba

费萨尔亲王Bin Abdulaziz Al Awwal道路gydF4y2Ba

利雅得,12371gydF4y2Ba

沙特阿拉伯gydF4y2Ba

电话:966 118051044gydF4y2Ba

电子邮件:gydF4y2Balalsudias@ksu.edu.sagydF4y2Ba


相关的文章gydF4y2Ba这是一个修正版本。看到更正声明:gydF4y2Bahttps://medinform.www.mybigtv.com/2023/1/e45742/gydF4y2Ba

背景:gydF4y2BaTwitter是一个实时消息传递平台被人们广泛使用在许多主题和组织共享信息。系统监控社交媒体的文章(infodemiology或infoveillance)可能有助于发现错误疫情以及减少报告滞后时间和提供一个独立的补充来源的数据相比,传统的监测方法。然而,这种分析是目前不可能在阿拉伯语世界由于缺乏研究和方言变异的基本构建块。gydF4y2Ba

摘要目的:gydF4y2Ba我们收集约4000阿拉伯tweet COVID-19和流感。我们清洗和标记微博相对于阿拉伯传染病本体,其中包括非标准术语,以及11个核心概念和21的关系。本研究的目的是分析阿拉伯语微博为卫生监测评估其效用,理解非正式条款的影响分析,表明深学习方法的效果在分类过程中,并确定感染的地方蔓延。gydF4y2Ba

方法:gydF4y2Ba我们应用以下multilabel分类技术:二进制相关性、分类器链,标签幂集,适应算法(multilabel改编再邻居[MLKNN]),支持向量机与朴素贝叶斯特征(NBSVM),从变压器(BERT)双向编码器表示,AraBERT比起(的基于变压器模型为阿拉伯语语言理解)来识别tweet来自感染者出现。我们也使用了命名实体识别预测微博中提到的地名。gydF4y2Ba

结果:gydF4y2Ba我们实现了F1分数高达88%的流感案例研究和COVID-19的94%。调整为非标准术语和非正式的语言有助于提高精确度高达15%,平均提高8%。深入学习方法实现了F1在分类过程中高达94%的分数。我们的地理位置检测算法平均预测的准确性为54%用户根据微博内容的位置。gydF4y2Ba

结论:gydF4y2Ba本研究确定了两个阿拉伯语社交媒体数据集监测流感和COVID-19相关微博。它证明包括非正式术语的重要性,这是经常使用的社会媒体用户,在分析。也证明了伯特达到好的结果在使用新条款COVID-19 tweet。最后,微博内容可能包含有用的信息,以确定疾病传播的位置。gydF4y2Ba

地中海JMIR通知2021;9 (9):e27670gydF4y2Ba

doi: 10.2196/27670gydF4y2Ba

关键字gydF4y2Ba



背景gydF4y2Ba

虽然每天数以百万计的数据项出现在社交媒体上,通过自然语言处理(NLP)人工智能和机器学习(ML)算法提供了机会来自动化分析许多不同领域,包括健康。卫生信息学领域的文本挖掘,社交媒体数据,比如Twitter数据,可以分析计算大规模的估计数量的感染和疾病的传播,或有助于预测流行病事件(gydF4y2Ba1gydF4y2Ba];这个领域被称为infodemiology,系统监控社交媒体的文章和网络信息对公共卫生目的称为infoveillance。然而,先前的研究已经几乎只关注英语数据。gydF4y2Ba

时间是明确卫生监测领域的一个重要因素。换句话说,尽快发现传染病是有益的对于许多组织和人口,正如我们所看到的与COVID-19国际。同样重要的是要有多个独立的消息来源证实的证据传染病的传播。gydF4y2Ba

Twitter是实时的一个主要平台,可用于健康监测。然而,它包含噪声和无关的信息;因此,这里存在一个关键的需要信息收集、预处理、滤波技术来丢弃无关信息,同时保留有用的信息。一个关键任务是区分微博写的原因各不相同,有人感染或担心疾病,考虑一些词语的比喻用法相关的疾病或感染的传播(gydF4y2Ba2gydF4y2Ba]。gydF4y2Ba

尽管这些任务显然是相关的在全球范围内,几乎没有为阿拉伯语国家先前的研究。有一些阿拉伯语的特点,使其更难以分析与其他语言相比,和NLP资源和方法为阿拉伯语比英语还不太理想。阿拉伯语,超过26方言,是全世界超过4亿人(gydF4y2Ba3gydF4y2Ba]。我们假设说阿拉伯语的人会用自己的方言在非正式的话语表达自己的痛苦,忧虑,和感受而不是用现代标准阿拉伯语(gydF4y2Ba4gydF4y2Ba]。gydF4y2Ba表1gydF4y2Ba描述了与健康相关的一些阿拉伯语的例子可能代表不同的含义由于方言的差异。例如,这个词gydF4y2Ba可以被理解为流感赫亚兹纳杰迪方言和感觉冷方言(gydF4y2Ba3gydF4y2Ba]。gydF4y2Ba

表1。一些例子的阿拉伯语词汇有不同的意义。gydF4y2Ba
用阿拉伯语单词gydF4y2Ba 潜在的意思混淆集gydF4y2Ba
流感(冷)/感觉冷gydF4y2Ba
疫苗接种/阅读恳求gydF4y2Ba
流鼻涕、鼻出血gydF4y2Ba
药膏/油漆gydF4y2Ba
打喷嚏(冷)/过滤液体的/被提名为一个位置gydF4y2Ba
抗生素/相反gydF4y2Ba
平板电脑/粉刺/某种食物gydF4y2Ba
x射线/阳光gydF4y2Ba
缺点/双gydF4y2Ba
止痛药/家庭gydF4y2Ba
处方/方法gydF4y2Ba
药物(如维生素C汽酒)/闪闪发光的春天(饮料)gydF4y2Ba

这个工作的真实动机是减少延迟时间和提高精度检测传染病提到为了支持减少传播专业组织,规划医学推出,在一般人群和增加知名度。我们还希望显示阿拉伯语微博Twitter上可以提供宝贵的数据,可用于健康监测领域通过使用非正式,非标准,代表社会媒体的使用和方言的语言更准确。gydF4y2Ba

我们专注于COVID-19和流感特别是由于季节性流感流行期间快速传播或阿拉伯语世界大流行。大多数人一到两周内恢复。然而,儿童,老年人和那些有其他严重潜在的健康状况可能经历严重的并发症,包括感染,肺炎和死亡(gydF4y2Ba5gydF4y2Ba]。而需要专业医学知识区分人们感染COVID-19和流感症状相似,跟踪和计划对这两种疾病的疫苗接种和隔离是很重要的。此外,可能会有一些被感染的人不参加考试,因为个人问题和缺乏城市的可用性的测试,或者那些需要支持self-isolate。gydF4y2Ba

整个问题是回答本文是NLP可以提高分析传染病通过社交媒体的传播。我们的第一个主要贡献是创建一个新的阿拉伯Twitter COVID-19和流感相关的数据集,这是标有12类,包括11名来自阿拉伯传染病本体(gydF4y2Ba6gydF4y2Ba)和一个新的感染。我们使用这个本体,因为没有现有的医学本体,如国际疾病分类(ICD)和/或系统化Medicine-Clinical术语的术语(snom),可用,起源于阿拉伯语(gydF4y2Ba1gydF4y2Ba]。至关重要的是,我们还展示了第一次非正式非标准的有用性疾病相关条款使用multilabel分类方法找到个人微博相关COVID-19用阿拉伯语或流感。我们比较评估的结果,而非正式条款和显示的影响包括在我们的研究中。此外,我们显示毫升的力量和深度学习算法在分类过程。最后,我们开发的方法来识别传染病传播的位置使用推特的内容,这也帮助通知方言变异和选择。gydF4y2Ba

相关工作gydF4y2Ba

先前的研究已经证明,NLP技巧可以用来分析微博监控公共卫生(gydF4y2Ba7gydF4y2Ba- - - - - -gydF4y2Ba12gydF4y2Ba]。这些研究分析了社交媒体的文章,支持监测疾病在不同的语言如日语,汉语,英语。疾病进行了分析包括李斯特菌、流感、猪流感、麻疹、脑膜炎等。是合理的在前面的小节中,我们将关注以前的工作相关监测流感和COVID-19使用Twitter的数据。gydF4y2Ba

相关研究gydF4y2Ba

模型(ATAM)疾病主题方面是一个模型设计的保罗和Dredze [gydF4y2Ba13gydF4y2Ba]。它使用Twitter信息来衡量流感在美国。后来扩展到考虑在12个疾病和应用几个症状监测和地理疾病监测等任务。同样,流感从Twitter创建语料库[gydF4y2Ba8gydF4y2Ba]。微博需要满足以下两个条件,包括他们的训练数据与感染者和时间:(1)发微博的人或密切接触感染了流感,(2)紧张的应该是现在时态或最近的过去时态。gydF4y2Ba

一项研究的目标(gydF4y2Ba2gydF4y2Ba从感染者)是区分流感tweet和其他人担心感染为了提高流感监测。在监督学习框架应用多个特性找到微博表明流感。同样,情感分析方法是使用[gydF4y2Ba14gydF4y2Ba)对微博进行分类,包括12个疾病,包括流感。预测单词模型设计(gydF4y2Ba15gydF4y2Ba)用几个词,如症状,出现在微博流行预测病人感染流感的数量。gydF4y2Ba

一项研究[gydF4y2Ba16gydF4y2Ba)使用嵌入的无监督方法基于词分类与健康有关的微博。分类的方法实现了87.1%的精度的微博相关或不相关的话题。另一项研究[gydF4y2Ba17gydF4y2Ba)得出的结论是,之间有高度的相关性流感twitter和谷歌趋势数据。gydF4y2Ba

最近的一项调查研究[gydF4y2Ba1gydF4y2Ba]表明本体可能是有用的在收集数据由于结构化信息中所包含的信息。然而,有严重挑战医疗本体可能包括医学术语,而文本本身可能包含俚语术语。非正式的语言的研究表明将社交媒体在分析过程中,为了提高流行病情报的质量在未来,但这并没有实现。gydF4y2Ba

COVID-19-Related研究gydF4y2Ba

许多研究人员在计算机科学中广泛的努力,向他们展示如何帮助在流行病。在NLP和社交媒体方面,有各种各样的研究,支持不同的语言与多个目标。社会媒体,这些目标包括定义的话题检测假新闻,分析情绪的tweet,并预测病例数(gydF4y2Ba18gydF4y2Ba]。gydF4y2Ba

已经有多个阿拉伯语数据集最近发表(gydF4y2Ba19gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba]。作者解释了收集消息的方法,如时间、关键字、和软件图书馆使用的搜索过程,总结了统计数据收集的tweet。然而,他们只包括统计分析和聚类生成总结与未来工作的一些建议。然而,有一些研究与特定的目标,如分析大流行期间市民的反应(gydF4y2Ba21gydF4y2Ba最常见的unigrams]和识别,三元,三元模型相关的微博COVID-19 [gydF4y2Ba22gydF4y2Ba]。此外,考虑到研究Alanazi et al (gydF4y2Ba23gydF4y2Ba)确定COVID-19从阿拉伯语tweet的症状,作者指出的限制他们使用现代标准阿拉伯语的关键词,和这将是重要的考虑辩证关键词为了更好地抓住tweet COVID-19症状用阿拉伯语写的,因为一些阿拉伯用户发布在社交媒体在自己的本地方言。gydF4y2Ba

在先前的研究中,我们分析了COVID-19推在以下三种不同的方式:(1)确定期间讨论的主题,(2)检测谣言,和(3)预测微博为了调查的来源可靠性和信任gydF4y2Ba24gydF4y2Ba]。gydF4y2Ba

至关重要的是,以上研究使用阿拉伯语监测疾病的传播。有一些阿拉伯语研究使用Twitter的目的确定健康信息的正确性(gydF4y2Ba25gydF4y2Ba),分析卫生服务(gydF4y2Ba26gydF4y2Ba,证明使用Twitter卫生专业人员(gydF4y2Ba27gydF4y2Ba]。此外,其他研究,没有涉及阿拉伯语,收集微博时只使用正式语言术语,我们认为这不是代表语言的使用在社会媒体的文章。gydF4y2Ba

阿拉伯语命名实体Recognition-Related研究gydF4y2Ba

先前的研究在命名实体识别(尼珥)旨在实现以下两个主要目标:(1)命名实体的识别,(2)这些实体的分类,通常为粗粒度的类别,包括个人的名字(每),组织(机构)、地点(LOC),日期和时间(日期)。在这项研究中,我们的兴趣是在评估这些类别之一,它是在Twitter上的信息位置的元素。尼珥方法使用不同的方法,包括基于规则的,ML-based,基于深度学习和混合方法。这些方法可以用于阿拉伯语,虽然具体的问题,如缺乏资本,名义confusability凝集,没有短元音(gydF4y2Ba28gydF4y2Ba,gydF4y2Ba29日gydF4y2Ba]。此外,还有更多的挑战而言,社交媒体内容,包括阿拉伯语方言和非正式的条款。缺乏注释数据尼珥的方言。NLP的应用工具,最初设计用于现代标准阿拉伯语,在方言导致大幅降低效率,因此,我们看到了需要开发专门为阿拉伯语方言(资源和工具gydF4y2Ba29日gydF4y2Ba]。gydF4y2Ba

一项研究的目标(gydF4y2Ba30.gydF4y2Ba)是为了说明地理定位的一种新方法阿拉伯语和英语微博基于内容通过收集上下文tweet。事实证明,只有0.70%的用户实际使用自己的推文的地理标签功能;因此,应该使用其他信息。gydF4y2Ba

数据收集和过滤gydF4y2Ba

缺乏一个可用的和可靠的Twitter用阿拉伯语语料库在健康领域,这使得我们有必要创造自己的语料库。我们获得的数据使用Twitter的应用程序编程接口(API) 2019年9月至2020年10月,大约收集了600万条信息,其中包含流感或COVID-19关键词。代码中的关键字,我们将发布在GitHub (gydF4y2Ba31日gydF4y2Ba]。我们收集以来每周微博Twitter API不否则使我们能够获取足够的历史推文。我们利用关键字相关的流感和COVID-19阿拉伯传染病本体(gydF4y2Ba6gydF4y2Ba),包括非标准术语。我们使用一种疾病本体,因为它已被证明有助于找到所有相关的术语和同义词疾病(gydF4y2Ba14gydF4y2Ba]。gydF4y2Ba

先前的调查gydF4y2Ba1gydF4y2Ba)建议使用的非正式文本包含在医疗本体的社交媒体和搜索过程收集数据以提高流行病情报的质量。因此,我们假设非正式术语可能有助于找到相关的微博相关的疾病。此外,在阿拉伯语的场景中,我们假设我们需要考虑方言的条款。gydF4y2Ba

我们过滤排除重复的微博,广告和垃圾邮件。使用Python,我们还打扫了微博通过删除符号,链接,非阿拉伯字,url,提到,标签,数字,和重复字符。从生成的数据集,我们样品花了4000的微博(2000 COVID-19流感和2000条tweets)。然后,我们使用一套方法预处理tweet,应用以下流程顺序:标记化,规范化,障碍清除。gydF4y2Ba表2gydF4y2Ba显示了微博的数量与每个标签过滤和预处理后的本体。gydF4y2Ba

表2。微博的数量在每个标签。gydF4y2Ba
标签gydF4y2Ba 微博gydF4y2Ba一个gydF4y2BangydF4y2Ba

流感gydF4y2Ba COVID-19gydF4y2Ba
疾病的名称gydF4y2Ba 1544年gydF4y2Ba 1795年gydF4y2Ba
疾病的俚语gydF4y2Ba 456年gydF4y2Ba 327年gydF4y2Ba
症状gydF4y2Ba 398年gydF4y2Ba 789年gydF4y2Ba
导致gydF4y2Ba 178年gydF4y2Ba 530年gydF4y2Ba
预防gydF4y2Ba 666年gydF4y2Ba 209年gydF4y2Ba
感染gydF4y2Ba 51gydF4y2Ba 15gydF4y2Ba
器官gydF4y2Ba 2gydF4y2Ba 202年gydF4y2Ba
治疗gydF4y2Ba 152年gydF4y2Ba 97年gydF4y2Ba
诊断gydF4y2Ba 25gydF4y2Ba 2gydF4y2Ba
疾病的传播gydF4y2Ba 17gydF4y2Ba 415年gydF4y2Ba
受感染的分类gydF4y2Ba 52gydF4y2Ba 12gydF4y2Ba
感染了gydF4y2Ba 907年gydF4y2Ba 915年gydF4y2Ba

一个gydF4y2Ba每个tweet可以有多个标签。gydF4y2Ba

手工编码gydF4y2Ba

为了创建一个黄金标准语料库,我们的流程开始推特标签由两个阿拉伯语母语,包括论文的第一作者,在指南中描述的注释过程gydF4y2Ba多媒体附录1gydF4y2Ba。我们手动标注每个tweet 1或0,表示阿拉伯传染病本体类、传染性疾病的名称(例如,流感和COVID-19)在我们的例子中,俚语,症状,原因,预防感染、器官、治疗、诊断、疾病传播,和被感染的类别。我们也贴上每个tweet 1如果写微博的人感染流感或COVID-19,如果不是0。gydF4y2Ba表3gydF4y2Ba描述了一些阿拉伯语的例子流感和COVID-19 tweet的标签。gydF4y2Ba

表3。微博的例子分配标签(1或0)。gydF4y2Ba
推特在阿拉伯语gydF4y2Ba 微博用英语gydF4y2Ba 的名字gydF4y2Ba 俚语的名字gydF4y2Ba 症状gydF4y2Ba 导致gydF4y2Ba 预防gydF4y2Ba 感染gydF4y2Ba 器官gydF4y2Ba 治疗gydF4y2Ba 诊断gydF4y2Ba 疾病传播的地方gydF4y2Ba 受感染的分类gydF4y2Ba 感染了gydF4y2Ba
有什么解决方案流感,发烧和冷杀了我gydF4y2Ba 1gydF4y2Ba一个gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 1gydF4y2BabgydF4y2Ba
流感疫苗接种活动与Al-Kharj哈立德国王医院的合作gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba
流感的早晨gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 1gydF4y2Ba
当你有流感或感冒的症状,鼻子和喉咙的诊所取一个样本检查其细菌或病毒gydF4y2Ba 0gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba
我的经验与我感染Covid-19病毒被确认后,最初我不关心吃的食物,足够的水,还有食品补充剂,因为这些症状是轻微的,我注意到病毒的工作阶段,起初我注意到出汗、头痛,然后眼睛疼痛。gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 1gydF4y2Ba
用肥皂和水洗手,戴着面具医疗……这里有一些预防措施,还防止电晕的最好方法gydF4y2Ba 0gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba
让我震惊的第一件事就是嗜睡,骨骼和肌肉疼痛,一种奇怪的头痛,没有痛苦,但麻烦的,然后有腹泻。我没有想到电晕因为症状是轻微的,不像人们说什么。但我确信我的睡眠变得很奇怪,好像我没睡着,醒来之后我睡着了一两个小时,有时我没有睡觉。。gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 1gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba 1gydF4y2Ba

一个gydF4y2Ba我们与1或0指示标记每个tweet阿拉伯传染病本体类。gydF4y2Ba

bgydF4y2Ba我们标记每个tweet 1如果写微博的人被感染,如果不是0。gydF4y2Ba

评分者间信度gydF4y2Ba

我们使用了Krippendorffα系数统计,支持multilabel输入,测试数据集的分类方案的鲁棒性(gydF4y2Ba32gydF4y2Ba]。结果表明,流感的Krippendorffα得分是0.84 COVID-19数据集的数据集和0.91,这表明强烈的两个手动程序员之间的协议。剩下的注释器之间的分歧是由于非正式条款和阿拉伯语方言在社会媒体中找到。例如,gydF4y2Ba可以被理解为“冷玩我们,”代表一个未受感染的人或流感玩我们(指示感染者)。另一个例子是gydF4y2Ba,这英文的意思是“比封锁与电晕更容易相处。“这可能是归类为感染者或一个未受感染的人,因为这个词gydF4y2Ba有不同的意思。gydF4y2Ba


概述gydF4y2Ba

为了创建方法来找到那些被认同为感染,以确定其地理位置在Twitter的数据集,我们应用标签的数据集上的多个监督学习算法和使用尼珥的微博内容。gydF4y2Ba

Multilabel分类gydF4y2Ba

管道的整体架构寻找感染者所示gydF4y2Ba图1gydF4y2Ba。使用监督范式,我们首先标注语料库的标注信息如上所述,在继续分类之前微博运用机器和深度学习算法。我们使用这种方法对流感和COVID-19案例研究。每个tweet分配有不同的标签。例如,第一个例子gydF4y2Ba表3gydF4y2Ba流感名称(包含标签gydF4y2Ba),俚语的流感(gydF4y2Ba)和症状(gydF4y2Ba)。它也代表了人感染流感。因此,我们这些标签赋值为1。另一方面,微博不包括标签的原因、预防感染、器官、治疗、诊断、疾病传播,和被感染的类别。因此,这些都是用0。gydF4y2Ba

‎gydF4y2Ba
图1所示。系统架构。API:应用程序编程接口;比起AraBERT:的基于变压器模型为阿拉伯语语言理解;伯特:双向编码器表示从《变形金刚》;MLKNN: multilabel改编再邻居;NBSVM:支持向量机与朴素贝叶斯的特性。gydF4y2Ba

从gydF4y2Ba表3gydF4y2Ba,我们可以看到,我们有一个multilabel分类问题在多个标签分配给每个tweet。基本上,可以使用以下三种方法来解决这个问题:问题转换,适应算法,和整体的方法。对于每一个方法,可以使用不同的技术。我们应用下面的算法,它代表毫升和深度学习算法,分类推文:(1)二进制相关性,将每个标签作为一个单独的单类分类问题;(2)分类器链,每个标签都会被视为条件链的一部分股份,分类问题,它是有用的处理类标签之间的关系;(3)标签幂集,将问题转化为一个多类问题多级分类器训练在训练数据中发现的所有独特的标签组合;(4)适应算法(MLKNN),这是一个multilabel改编再邻居(资讯)与贝叶斯分类器之前修正;(5)支持向量机与朴素贝叶斯特征(NBSVM),生成和判别模型结合起来通过添加NB log-count比例特性支持向量机(gydF4y2Ba33gydF4y2Ba];(6)双向编码器从变形金刚(BERT)表示,这是一个条件,所有左、右两层含义是用来pretrain深双向表示从标记文本gydF4y2Ba34gydF4y2Ba];比起和(7)的基于变压器模型阿拉伯语语言理解(AraBERT),这是一个pretrained伯特模型专门为阿拉伯语(gydF4y2Ba35gydF4y2Ba]。gydF4y2Ba

因为一些标签是0对于大多数微博,我们删除了这些标签,以避免过度拟合。换句话说,我们把标签没有出现在大多数微博所示gydF4y2Ba表3gydF4y2Ba。剩下的重要标签确定取决于疾病的案例研究,因为他们代表不同的值不同的微博是有道理的gydF4y2Ba表2gydF4y2Ba。流感,他们是流感的名字,俚语的流感症状,预防、治疗、感染。而对于COVID-19,它们的名字,俚语COVID-19,症状,原因,地方,感染。我们也两次重复实验显示结果中的非正式条款的有效性。其中一个标签“病”的名字,“俚语的传染病,”和“感染”,和其他所有标签,除了“传染病的俚语”在这两个案例研究。gydF4y2Ba

在我们的研究中,我们使用Python scikit-multilearn [gydF4y2Ba36gydF4y2Ba]和ktrain [gydF4y2Ba37gydF4y2Ba库和应用不同的模型。从加工训练数据中提取特征,我们使用一个单词频率的方法。我们把整个样本分成75%的训练,25%的测试集。gydF4y2Ba

尼珥gydF4y2Ba

我们跟着尼珥ML算法系统,用来学习NE标签决定从注释文本。我们使用了条件随机域(CRF)算法,因为它实现了更好的结果比其他监督尼珥毫升技术在先前的研究gydF4y2Ba29日gydF4y2Ba]。gydF4y2Ba

我们的地理位置检测算法有三个阶段中所示gydF4y2Ba图2gydF4y2Ba。在第一阶段,从指定的感染者是multilabel在前一节中描述的分类算法。然后,我们检索的历史推文这个人(平均每人约3000微博)并把它们提供给下一个阶段。gydF4y2Ba

‎gydF4y2Ba
图2。地理位置检测算法的三个阶段。gydF4y2Ba

第二阶段由两个连续的阶段。首先,信息已提交给一个命名实体检测算法从多个全集和地名表选择位置记录,包括ANERCorp [gydF4y2Ba38gydF4y2Ba,gydF4y2Ba39gydF4y2Ba],ANERGazet [gydF4y2Ba40gydF4y2Ba]。一组位置名称需要过滤掉来自通用名称和模棱两可的。例如,这个词gydF4y2Ba英文(巴厘岛)可以在印度尼西亚一个省或用阿拉伯语“我”作为一个非正式的词汇。这一步是非常重要的,以确保所有无关的位置名称不包括在最后阶段。第二,确定位置测定通过应用我们的新实体检测地名,代表沙特阿拉伯地区,城市,地区。公布的数据,将在GitHub (gydF4y2Ba31日gydF4y2Ba),是公共数据收集从沙特邮政网站gydF4y2Ba41gydF4y2Ba]。gydF4y2Ba

在第三阶段,共同特征,比如最常见的位置,以及其他功能,如发生时间,提供更高的得分位置在过去6个月。然后,每个位置是得分的一个数字,它允许我们排名列表和确定最佳估计主用户的位置。gydF4y2Ba

每个tweet设定一个可预见的位置之后,我们将这个位置与位置字段中提到的用户帐户,这并不总是设定的用户,因为它是一个可选的字段。在这里,我们只保留用户有价值的位置信息的位置或描述字段。gydF4y2Ba

道德的考虑gydF4y2Ba

尽管Twitter取得知情同意从用户分享信息,有必要获得科研伦理批准我们的大学,特别是考虑到我们的关注与健康有关的话题gydF4y2Ba42gydF4y2Ba]。伦理批准本研究从兰开斯特大学获得6月21日,2019gydF4y2Ba43gydF4y2Ba]。gydF4y2Ba


Multilabel分类gydF4y2Ba

multilabel分类问题是更复杂的比二进制和多类分类问题。因此,计算各种性能措施评价的分类过程,如准确性、F1得分,还记得,精度,接受者操作特征曲线下面积(AUC)和汉明损失(gydF4y2Ba44gydF4y2Ba]。所有这些措施,除了汉明损失,分数越高越好。汉明损失较小的值反映了更好的性能。重要的是要注意,multilabel分类准确性评分函数计算精度只有子集,这意味着一个样本的标签将在计算过程中,正如前面所提到的(gydF4y2Ba36gydF4y2Ba]。gydF4y2Ba

表4gydF4y2Ba说明了七个模型的性能措施对我们的训练数据集有六个,五个,三个标签的流感案例研究。的6个标签,“流感的名字,”“俚语的流感,”“症状”,“预防”,“治疗”和“感染”,分类器链算法实现最高的结果在大多数措施相比其他算法。F1得分86.1%,召回81.0%,精度为91.8%,AUC为88.6%,准确性为56.2%,和汉明损失8.9%。标签幂集算法结果略低于分类器链提供了约2%。NBSVM F1得分最低的是观察到的,是58.9%。gydF4y2Ba

七模型的重复实验结果对我们的训练数据集和三个标签,是“流感的名字,”“俚语的流感,”和“感染”,和五个标签,是“流感的名字,”“症状”,“预防”,“治疗”和“感染”,是中描述gydF4y2Ba表4gydF4y2Ba。有20%增强七算法的准确性。F1最高得分是通过分类器链算法,这是88.8%。回忆和精度从60%到92%不等。因此,非正式条款所示表示分类过程中的关键因素。gydF4y2Ba

表5gydF4y2Ba七个模型显示的性能措施对我们的训练数据集有六个,五个,三个标签COVID-19案例研究。这里,六个标签不同于之前的案例研究,因为他们决定根据每个标签的微博数量的结果解释gydF4y2Ba表2gydF4y2Ba。6个标签“COVID-19名称”、“俚语COVID-19”,“症状”,“原因”,“疾病传播,”和“感染类别。“最好的结果是通过伯特算法的F1得分88.2%,召回86.7%,精度为89.7%,AUC为90.3%,准确性为62.0%,和汉明损失8.8%。gydF4y2Ba

重复实验结果为七个模型训练数据集上有三个标签,这是“COVID-19名字,”“COVID-19俚语,”和“感染”,和五个标签,这是“COVID-19名字,”“症状”,“原因”,“疾病传播,”和“感染”中描述gydF4y2Ba表5gydF4y2Ba。有20%增强七算法的准确性。F1最高得分是通过伯特算法,这是94.8%,AraBERT紧随其后,为93.3%。的非正式术语COVID-19案例研究显示增强评价结果的15%左右。gydF4y2Ba

表4。培训结果的七个算法有六个,五个,和三个标签的流感案例研究。gydF4y2Ba
数量的标签和multilabel分类技术gydF4y2Ba F1的分数(%)gydF4y2Ba 回忆(%)gydF4y2Ba 精度(%)gydF4y2Ba AUCgydF4y2Ba一个gydF4y2Ba(%)gydF4y2Ba 精度(%)gydF4y2Ba 汉明损失(%)gydF4y2Ba
六个gydF4y2BabgydF4y2Ba






二元关联gydF4y2Ba 73.1gydF4y2Ba 74.4gydF4y2Ba 71.9gydF4y2Ba 79.7gydF4y2Ba 39.6gydF4y2Ba 18.7gydF4y2Ba

分类器链gydF4y2Ba 86.1gydF4y2Ba 81.0gydF4y2Ba 91.8gydF4y2Ba 88.6gydF4y2Ba 56.2gydF4y2Ba 8.9gydF4y2Ba

标签幂集gydF4y2Ba 85.7gydF4y2Ba 83.8gydF4y2Ba 87.6gydF4y2Ba 88.7gydF4y2Ba 56.2gydF4y2Ba 9.7gydF4y2Ba

适应算法(MLKNNgydF4y2BacgydF4y2Ba)gydF4y2Ba 76.9gydF4y2Ba 75.5gydF4y2Ba 78.4gydF4y2Ba 82.3gydF4y2Ba 39.9gydF4y2Ba 15.5gydF4y2Ba

伯特gydF4y2BadgydF4y2Ba 78.1gydF4y2Ba 83.4gydF4y2Ba 73.4gydF4y2Ba 85.4gydF4y2Ba 38.9gydF4y2Ba 13.7gydF4y2Ba

AraBERTgydF4y2BaegydF4y2Ba 79.7gydF4y2Ba 72.7gydF4y2Ba 88.2gydF4y2Ba 83.9gydF4y2Ba 49.2gydF4y2Ba 12.5gydF4y2Ba

NBSVMgydF4y2BafgydF4y2Ba 58.9gydF4y2Ba 46.3gydF4y2Ba 81.2gydF4y2Ba 70.9gydF4y2Ba 26.8gydF4y2Ba 18.9gydF4y2Ba
五gydF4y2BaggydF4y2Ba






二元关联gydF4y2Ba 75.5gydF4y2Ba 76.9gydF4y2Ba 74.1gydF4y2Ba 80.7gydF4y2Ba 45.1gydF4y2Ba 18.3gydF4y2Ba

分类器链gydF4y2Ba 88.0gydF4y2Ba 85.7gydF4y2Ba 90.5gydF4y2Ba 90.2gydF4y2Ba 64.9gydF4y2Ba 8.5gydF4y2Ba

标签幂集gydF4y2Ba 87.6gydF4y2Ba 86.2gydF4y2Ba 89.2gydF4y2Ba 90.0gydF4y2Ba 63.9gydF4y2Ba 8.9gydF4y2Ba

适应算法(MLKNN)gydF4y2Ba 79.9gydF4y2Ba 76.4gydF4y2Ba 83.9gydF4y2Ba 84.0gydF4y2Ba 47.9gydF4y2Ba 14.0gydF4y2Ba

伯特gydF4y2Ba 84.1gydF4y2Ba 83.1gydF4y2Ba 85.0gydF4y2Ba 88.0gydF4y2Ba 57.5gydF4y2Ba 10.3gydF4y2Ba

AraBERTgydF4y2Ba 87.3gydF4y2Ba 86.3gydF4y2Ba 88.4gydF4y2Ba 90.0gydF4y2Ba 64.3gydF4y2Ba 9.0gydF4y2Ba

NBSVMgydF4y2Ba 61.6gydF4y2Ba 49.7gydF4y2Ba 81.2gydF4y2Ba 72.0gydF4y2Ba 26.8gydF4y2Ba 20.2gydF4y2Ba
三个gydF4y2BahgydF4y2Ba






二元关联gydF4y2Ba 80.8gydF4y2Ba 80.0gydF4y2Ba 81.7gydF4y2Ba 81.2gydF4y2Ba 60.4gydF4y2Ba 18.8gydF4y2Ba

分类器链gydF4y2Ba 88.8gydF4y2Ba 85.7gydF4y2Ba 92.2gydF4y2Ba 89.3gydF4y2Ba 72.4gydF4y2Ba 10.7gydF4y2Ba

标签幂集gydF4y2Ba 88.3gydF4y2Ba 88.0gydF4y2Ba 88.6gydF4y2Ba 88.4gydF4y2Ba 70.8gydF4y2Ba 11.6gydF4y2Ba

适应算法(MLKNN)gydF4y2Ba 80.9gydF4y2Ba 84.7gydF4y2Ba 77.5gydF4y2Ba 80.2gydF4y2Ba 54.0gydF4y2Ba 19.8gydF4y2Ba

伯特gydF4y2Ba 87.6gydF4y2Ba 93.9gydF4y2Ba 82.1gydF4y2Ba 88.9gydF4y2Ba 68.1gydF4y2Ba 11.7gydF4y2Ba

AraBERTgydF4y2Ba 85.9gydF4y2Ba 81.5gydF4y2Ba 90.9gydF4y2Ba 86.8gydF4y2Ba 66.9gydF4y2Ba 13.1gydF4y2Ba

NBSVMgydF4y2Ba 79.5gydF4y2Ba 75.1gydF4y2Ba 84.3gydF4y2Ba 82.1gydF4y2Ba 59.9gydF4y2Ba 17.1gydF4y2Ba

一个gydF4y2BaAUC:接受者操作特征曲线下面积。gydF4y2Ba

bgydF4y2Ba6个标签“流感名称”、“俚语流感”,“症状”,“预防”,“治疗”和“感染”。gydF4y2Ba

cgydF4y2BaMLKNN: multilabel改编再邻居。gydF4y2Ba

dgydF4y2Ba伯特:双向编码器从《变形金刚》表示。gydF4y2Ba

egydF4y2Ba阿拉伯语比起AraBERT:的基于变压器模型的理解。gydF4y2Ba

fgydF4y2BaNBSVM:支持向量机与朴素贝叶斯的特性。gydF4y2Ba

ggydF4y2Ba五个标签“流感名称”、“症状”,“预防”,“治疗”和“感染”。gydF4y2Ba

hgydF4y2Ba三个标签”流感名称”、“俚语流感,”和“感染”。gydF4y2Ba

表5所示。培训结果的七个算法有六个,五个,和三个标签COVID-19案例研究。gydF4y2Ba
数量的标签和multilabel分类技术gydF4y2Ba F1的分数(%)gydF4y2Ba 回忆(%)gydF4y2Ba 精度(%)gydF4y2Ba AUCgydF4y2Ba一个gydF4y2Ba(%)gydF4y2Ba 精度(%)gydF4y2Ba 汉明损失(%)gydF4y2Ba
六个gydF4y2BabgydF4y2Ba






二元关联gydF4y2Ba 54.6gydF4y2Ba 52.8gydF4y2Ba 56.6gydF4y2Ba 64.0gydF4y2Ba 15.6gydF4y2Ba 33.3gydF4y2Ba

分类器链gydF4y2Ba 53.9gydF4y2Ba 49.8gydF4y2Ba 58.7gydF4y2Ba 64.2gydF4y2Ba 18.5gydF4y2Ba 32.3gydF4y2Ba

标签幂集gydF4y2Ba 58.6gydF4y2Ba 59.4gydF4y2Ba 57.9gydF4y2Ba 66.5gydF4y2Ba 22.2gydF4y2Ba 31.8gydF4y2Ba

适应算法(MLKNNgydF4y2BacgydF4y2Ba)gydF4y2Ba 54.5gydF4y2Ba 51.0gydF4y2Ba 58.4gydF4y2Ba 64.4gydF4y2Ba 10.0gydF4y2Ba 32.4gydF4y2Ba

伯特gydF4y2BadgydF4y2Ba 88.2gydF4y2Ba 86.7gydF4y2Ba 89.7gydF4y2Ba 90.3gydF4y2Ba 62.0gydF4y2Ba 8.8gydF4y2Ba

AraBERTgydF4y2BaegydF4y2Ba 82.0gydF4y2Ba 84.4gydF4y2Ba 79.8gydF4y2Ba 86.0gydF4y2Ba 50.5gydF4y2Ba 13.6gydF4y2Ba

NBSVMgydF4y2BafgydF4y2Ba 64.3gydF4y2Ba 51.7gydF4y2Ba 85.0gydF4y2Ba 73.1gydF4y2Ba 20.7gydF4y2Ba 21.7gydF4y2Ba
五gydF4y2BaggydF4y2Ba






二元关联gydF4y2Ba 57.0gydF4y2Ba 56.0gydF4y2Ba 58.1gydF4y2Ba 63.1gydF4y2Ba 15.8gydF4y2Ba 35.9gydF4y2Ba

分类器链gydF4y2Ba 56.2gydF4y2Ba 53.0gydF4y2Ba 59.9gydF4y2Ba 63.3gydF4y2Ba 18.3gydF4y2Ba 35.1gydF4y2Ba

标签幂集gydF4y2Ba 60.8gydF4y2Ba 63.4gydF4y2Ba 58.4gydF4y2Ba 65.0gydF4y2Ba 22.0gydF4y2Ba 34.8gydF4y2Ba

适应算法(MLKNN)gydF4y2Ba 56.5gydF4y2Ba 54.6gydF4y2Ba 58.7gydF4y2Ba 63.1gydF4y2Ba 10.4gydF4y2Ba 35.7gydF4y2Ba

伯特gydF4y2Ba 87.3gydF4y2Ba 87.9gydF4y2Ba 86.7gydF4y2Ba 88.9gydF4y2Ba 59.0gydF4y2Ba 10.9gydF4y2Ba

AraBERTgydF4y2Ba 86.3gydF4y2Ba 92.7gydF4y2Ba 80.7gydF4y2Ba 88.6gydF4y2Ba 53.9gydF4y2Ba 12.1gydF4y2Ba

NBSVMgydF4y2Ba 55.2gydF4y2Ba 40.6gydF4y2Ba 86.4gydF4y2Ba 67.9gydF4y2Ba 17.9gydF4y2Ba 28.0gydF4y2Ba
三个gydF4y2BahgydF4y2Ba






二元关联gydF4y2Ba 68.5gydF4y2Ba 69.0gydF4y2Ba 68.0gydF4y2Ba 69.2gydF4y2Ba 36.9gydF4y2Ba 30.8gydF4y2Ba

分类器链gydF4y2Ba 69.7gydF4y2Ba 68.1gydF4y2Ba 71.4gydF4y2Ba 71.2gydF4y2Ba 39.9gydF4y2Ba 28.7gydF4y2Ba

标签幂集gydF4y2Ba 70.3gydF4y2Ba 69.0gydF4y2Ba 71.5gydF4y2Ba 71.6gydF4y2Ba 40.1gydF4y2Ba 28.3gydF4y2Ba

适应算法(MLKNN)gydF4y2Ba 71.6gydF4y2Ba 70.7gydF4y2Ba 72.6gydF4y2Ba 72.8gydF4y2Ba 41.4gydF4y2Ba 27.1gydF4y2Ba

伯特gydF4y2Ba 94.8gydF4y2Ba 96.4gydF4y2Ba 93.3gydF4y2Ba 94.9gydF4y2Ba 93.2gydF4y2Ba 5.1gydF4y2Ba

AraBERTgydF4y2Ba 93.3gydF4y2Ba 94.8gydF4y2Ba 91.9gydF4y2Ba 93.5gydF4y2Ba 85.3gydF4y2Ba 6.5gydF4y2Ba

NBSVMgydF4y2Ba 70.6gydF4y2Ba 59.6gydF4y2Ba 86.5gydF4y2Ba 75.4gydF4y2Ba 46.5gydF4y2Ba 24.2gydF4y2Ba

一个gydF4y2BaAUC:接受者操作特征曲线下面积。gydF4y2Ba

bgydF4y2Ba6个标签“COVID-19名称”、“俚语COVID-19”,“症状”,“原因”,“地方疾病的蔓延,”和“感染类别。”gydF4y2Ba

cgydF4y2BaMLKNN: multilabel改编再邻居。gydF4y2Ba

dgydF4y2Ba伯特:双向编码器从《变形金刚》表示。gydF4y2Ba

egydF4y2Ba阿拉伯语比起AraBERT:的基于变压器模型的理解。gydF4y2Ba

fgydF4y2BaNBSVM:支持向量机与朴素贝叶斯的特性。gydF4y2Ba

ggydF4y2Ba五个标签“COVID-19名称”、“症状”,“原因”,“地方疾病的蔓延,”和“感染类别。”gydF4y2Ba

hgydF4y2Ba三个标签”COVID-19名称”、“COVID-19俚语,”和“感染”。gydF4y2Ba

尼珥gydF4y2Ba

注意的一个重点是,我们的地理位置检测评价是基于他们的推特用户的位置。我们过滤微博,没有任何信息在位置字段和/或nonplausible地点,如月球和太空。我们创建了一个手工注释设置从位置字段中的信息以证明更大的准确性。这是由于中的模棱两可的信息能被探测到的位置字段。例如,我们发现了一些形容词的位置,gydF4y2Ba和gydF4y2Ba,指的是在沙特阿拉伯吉达城市。gydF4y2Ba

在流感的研究中,大约907用户分为感染流感,和397个用户提供有价值的信息在他们的帐户,可以用来确定位置。因此,我们的算法实现了预测的准确性为45.8%的位置。gydF4y2Ba

关于COVID-19研究中,915人被认为是感染,约358用户帐户有有用的信息的位置。因此,在应用该算法,精度63.6%确定感染用户的位置。gydF4y2Ba


主要研究结果gydF4y2Ba

理解深刻的学习算法在分类过程的影响,我们需要比较ML算法的结果与深度学习的流感和COVID-19的两个案例研究。在流感的研究中,深入学习算法和ML的结果接近对方。换句话说,没有改善的结果在应用深度学习方法,如伯特和AraBERT。另一方面,COVID-19案例研究中,有多达25%的增强结果应用伯特和/或AraBERT时。这些结果有助于确认深学习方法显示良好的回报在处理新条款或未知代表COVID-19术语的词汇表。gydF4y2Ba

通过应用我们的以前的工作gydF4y2Ba45gydF4y2Ba),微博的来源分为以下五种类型:学术、媒体、政府、卫生专业人员和公众,我们发现非正式语言是用于公共类型(示例1、3和7gydF4y2Ba表3gydF4y2Ba),而其他类型(学术、媒体、政府和卫生专业人员)使用更正式的样式(例子2、4、5、6gydF4y2Ba表3gydF4y2Ba)。因此,疾病俚语名称或其他症状发挥重要作用在疾病检测提到社交媒体。人们不仅使用俚语术语,也表达了他们的感情使用隐喻等其他条款(gydF4y2Ba46gydF4y2Ba]。例如,“gydF4y2Ba”,这意味着“你好流感,”表明,人,谁写的微博,是受到流感的影响。在这里,71.9%的微博证明有一个非正式flu-infected人所使用的语言之间的关系。gydF4y2Ba

我们还发现有一个关系“症状”,“预防”和“感染”的标签。总的来说,有64.3%的人感染流感发送微博提到的症状,如打喷嚏、头痛、咳嗽和发烧。微博对预防、69.3%是由一个人写的不是感染了流感。然而,有很多的tweet,打破了这些模式。换句话说,我们观察到的微博写的感染症状,并不代表一个人或微博写预防代表一个被感染的人。gydF4y2Ba表6gydF4y2Ba给出了一些示例,这些关系描述的tweet。gydF4y2Ba

表6所示。微博的例子描述症状之间的关系,预防、地方,感染了标签。gydF4y2Ba
推特在阿拉伯语gydF4y2Ba 微博用英语gydF4y2Ba 描述gydF4y2Ba
感冒头痛是不好的gydF4y2Ba 和感染流感症状之间的关系gydF4y2Ba
我想我将死于流感;我打喷嚏10倍的时间醒来gydF4y2Ba 和感染流感症状之间的关系gydF4y2Ba
流感疫苗不能预防感冒,一些人认为,A和B,但可以阻止严重的流感感染,杀死大量世界各地的gydF4y2Ba 与流感预防和未感染之间的关系gydF4y2Ba
电晕,你为我做什么?两周的时间,我将无法感觉的味道gydF4y2Ba 症状和COVID-19感染之间的关系gydF4y2Ba
利雅得记录320个新的冠状病毒病例,15人死亡gydF4y2Ba 地方和COVID-19未感染之间的关系gydF4y2Ba
坚持预防措施和预防从电晕,随着波的真正开始,所以戴着面具,远离集会,消毒和用肥皂和水洗手在一段时间内不少于30秒gydF4y2Ba 与COVID-19预防和未感染之间的关系gydF4y2Ba

猎隼等的研究(gydF4y2Ba47gydF4y2Ba),最近出版,证明用户COVID-19阳性也报告了他们的症状使用Twitter。Alanazi et al (gydF4y2Ba23gydF4y2Ba)描述了最常见的COVID-19症状从阿拉伯语微博在他们的研究。这些症状可以进一步评估在临床设置和用于COVID-19实时风险评估在附近。gydF4y2Ba

有很多方法可以知道Twitter用户的位置,如geocoordinate,位置字段,用户位置和微博内容。最准确的方法是使用网络地理定位系统推或用户。然而,因为它是一个可选的字段,只有不到3%的用户提供这些信息(gydF4y2Ba19gydF4y2Ba,gydF4y2Ba48gydF4y2Ba]。此外,还有嘈杂的信息在用户位置字段,因为用户可以输入任何像“家”或“在我爸爸的心。“作为一个结果,我们使用微博内容通过假设用户推时提到的有用的信息。gydF4y2Ba

另一方面,一些研究人员试图预测用户的位置使用方言识别从微博内容gydF4y2Ba49gydF4y2Ba]。虽然这可能是卓有成效的,在我们的场景中,它可能不反映需要的当前位置,因为一个人可能推在埃及方言但住在沙特阿拉伯。gydF4y2Ba

结论gydF4y2Ba

第一次,本文表明,阿拉伯语社交媒体数据包含各种合适的信息监测流感和COVID-19,更为关键的是,它改善了以前的研究方法包括非正式的语言和标准术语从社交媒体,这已经被证明有助于过滤无关的微博。应该注意的是,我们不是试图提供一个单一的信息来源对公共卫生机构使用,但要提供可比信息来源确定和证实的估计对其他更传统的疾病传播源。gydF4y2Ba

我们也引入了一个新的阿拉伯社交媒体数据集分析微博与流感和COVID-19有关。我们标记类别的tweet阿拉伯传染病本体,其中包括非标准术语。然后,我们使用multilabel分类技术复制手动分类。结果显示高F1分数分类任务,展示了非标准术语和非正式的语言是很重要的在分类过程中,平均提高8.8%。的数据集,包括tweet id、手动指定标签,和其他资源的使用,释放自由的学术研究用途,DOI通过门户(兰开斯特大学的研究gydF4y2Ba50gydF4y2Ba]。gydF4y2Ba

此外,我们应用一个尼珥算法在微博内容确定的位置和传播感染。虽然用户的数量是有限的,结果显示良好的精度分析的过程。gydF4y2Ba

有几个方向进一步增强系统的性能在未来,包括扩大使用的数据训练分类器,分析不同的传染病,使用更多的NLP技巧和语言特征。gydF4y2Ba

确认gydF4y2Ba

作者感谢Nouran Khallaf,利兹大学博士生(mlnak@leeds.ac.uk),对她帮助标签tweet。这个研究项目的资助支持的“计算机与信息科学学院研究中心”,院长职科研、沙特国王大学。gydF4y2Ba

的利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba
多媒体附录1gydF4y2Ba

注释tweet指南。gydF4y2Ba

多克斯文件,22个KBgydF4y2Ba

  1. 乔希,卡里年代,火花R,巴黎C,麦金太尔CR。基于文本的流行病情报的调查。ACM第一版。Surv 2020年1月21日,(6):52 -。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  2. 羊肉,保罗•M Dredze M .区分事实与恐惧:在Twitter上跟踪流感感染。:学报2013年大会北美的计算语言学协会章:人类语言技术。2013年发表于:2013年大会北美的计算语言学协会章:人类语言技术;2013年6月;美国亚特兰大,乔治亚州,p . 789 - 795。gydF4y2Ba
  3. Versteegh k .阿拉伯语。英国爱丁堡:爱丁堡大学出版社;2014年。gydF4y2Ba
  4. Hadziabdic E, Hjelm k .阿拉伯语移民的经验的使用在医疗口译员:一个定性的探索性研究。Int J股本健康2014年6月16日,13 (1):49-12 [gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  5. 世界卫生组织。URL:gydF4y2Bahttps://www.who.int/gydF4y2Ba[2020-03-01]访问gydF4y2Ba
  6. Alsudias L, Rayson p .开发一个阿拉伯语传染病本体包括非标准术语。:《12日语言资源和评价会议。2020年发表于:12日语言资源和评估会议;2020年5月;法国马赛的p。4842 - 4850网址:gydF4y2Bahttps://aclanthology.org/2020.lrec - 1.596 /gydF4y2Ba
  7. Dredze保罗·M·M·你推特:分析微博对公共卫生。学报》国际AAAI网络和社会化媒体会议上2021;5 (1):265 - 272。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  8. Aramaki E, Maskawa年代,盛田昭夫m . Twitter就会染上流感:检测流感流行使用Twitter。在:EMNLP 11:会议的程序在自然语言处理的经验方法。2011年发表于:会议经验方法在自然语言处理;第27 - 31 7月,2011;英国爱丁堡p。1568 - 1576网址:gydF4y2Bahttps://dl.acm.org/doi/10.5555/2145432.2145600gydF4y2Ba(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  9. 施耐德KL, Breland司法院,Quintiliani LM可能CN, Pagoto美国社交媒体作为一种工具来增加公共卫生研究的影响。公共卫生2017年12月,107 (12):1890 - 1891。(gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  10. Sinnenberg L, Buttenheim, Padrez K, Mancheno C,安格L,商人RM。Twitter作为卫生研究工具:系统回顾。107年1月;公共卫生2017 (1):e1-e8。(gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  11. 查尔斯·史密斯LE,雷诺兹TL,卡梅隆,康威M,刘EHY,奥尔森JM,等。使用社交媒体的疾病监测和疫情管理:一个系统的文献回顾。《公共科学图书馆•综合》2015年10月5日,10 (10):e0139701 [gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  12. 保罗M,衬衣,Brownstein J时,Nikfarjam,苏格兰M,史密斯K, et al。社交媒体挖掘公共卫生监测和监督。2016发表于:太平洋研讨会上生物运算;2016;美国夏威夷p。468 - 479。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  13. Dredze Paul M M .矿业从Twitter公共卫生议题的典范。健康2012;11:16。gydF4y2Ba
  14. 霁X,春,盖勒j .知识型疾病人气微博分类监测。陈:Pedrycz W,年代,编辑。情绪分析和本体工程。研究计算智能,第639卷。可汗:施普林格;2016:425 - 454。gydF4y2Ba
  15. Iso H, Wakamiya年代,Aramaki大肠预测模型:基于流感监测和预测。:科尔学报》2016年,第26届国际会议在计算语言学:技术论文。2016年发表于:26日计算语言学国际会议:技术论文;2016年12月;日本大阪p。76 - 86网址:gydF4y2Bahttps://aclanthology.org/C16-1008/gydF4y2Ba
  16. 戴X, Bikdash里,迈耶b从社交媒体到公共卫生监测:基于词嵌入twitter分类的聚类方法。2017发表于:SoutheastCon 2017;2017年3月,4月30日2;康科德、数控、美国1 - 7页。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  17. 香港Y,总指挥r .传染病分析社交媒体平台。:Gervasi O,编辑器。计算科学及其应用- ICCSA 2018。ICCSA 2018。课堂讲稿在计算机科学中,第10960卷。可汗:施普林格;2018:526 - 540。gydF4y2Ba
  18. Chandrasekaran R,梅塔V, Valkunde T,工程大肠话题,趋势,和情绪有关COVID-19流行的微博:颞Infoveillance研究。J地中海互联网Res 2020 10月23日,22 (10):e22624 [gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  19. 卡齐啊,伊姆兰M, Ofli GeoCoV19。SIGSPATIAL特殊2020 6月05;12 (1):6 - 15。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  20. 舒贾J, Alanazi E, Alasmary W, Alashaikh Covid-19开源数据集:一个全面的调查。应用智能2020:1-30。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  21. Addawood, Alsuwailem, Alohali, Alajaji D, Alturki M, Alsuhaibani J, et al .跟踪和理解公众的反应在COVID-19:沙特阿拉伯作为一个用例。:学报第一车间在NLP COVID-19 EMNLP 2020(第2部分)。2020年发表于:1车间在NLP COVID-19(第2部分)EMNLP 2020;2020年11月20日;网上。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  22. Hamoui B, Alashaikh Alanazi大肠COVID-19阿拉伯语高音谈论什么?:Chellappan年代,Choo K,表象N,编辑。计算数据和社交网络。可汗:施普林格国际出版;2020:425 - 436。gydF4y2Ba
  23. Alanazi E, Alashaikh Alqurashi年代,Alanazi A .识别和排名普遍COVID-19症状从微博在阿拉伯语:内容分析。J地中海互联网Res 2020 11月18日,22 (11):e21329 [gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  24. Alsudias L, Rayson p COVID-19和阿拉伯语Twitter:阿拉伯世界各国政府和公共卫生组织学习如何从社交媒体?:学报第一车间在2020年COVID-19 NLP的ACL。2020发表于:1日研讨会NLP在ACL COVID-19 2020;2020年7月;在线网址:gydF4y2Bahttps://aclanthology.org/2020.nlpcovid19-acl.16/gydF4y2Ba
  25. Alnemer K, Alhuzaim W, Alnemer Alharbi B, Bawazir, Barayyan O,等。基于健康相关微博的证据吗?审查和分析在Twitter上与健康有关的微博。J地中海互联网Res 2015 10月29日,17 (10):e246 [gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  26. Alayba, Palade V,英格兰M,伊克巴尔r .阿拉伯语情绪分析卫生服务。2017年发表于:1国际研讨会上阿拉伯脚本分析和识别(ASAR);2017年4月3 - 5日;南希,法国p。114 - 118。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  27. Alsobayel h .使用社会媒体的专业发展卫生保健专业人员:横断面网络调查。地中海JMIR建造2016 9月12;2 (2):e15 [gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  28. Shaalan K, Oudah m .阿拉伯语命名实体识别的混合方法。信息科学杂志》2013年10月16日,40 (1):67 - 87。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  29. Zirikly,迪亚布m .命名实体识别为阿拉伯语社交媒体。:学报第一车间为自然语言处理向量空间建模。2015年发表于:1号车间对自然语言处理的向量空间模型;2015年6月;美国科罗拉多州丹佛市p。176 - 185。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  30. Khanwalkar年代,Seldin M,斯利瓦斯塔瓦,库马尔,Colbath美国基于内容定位检测将微博与地图上的热门新闻。2013发表于:第四国际矿业无处不在的研讨会和社会环境;2013;布拉格,捷克共和国。gydF4y2Ba
  31. 喇嘛Alsudias。GitHub。URL:gydF4y2Bahttps://github.com/alsudiasgydF4y2Ba[2021-08-27]访问gydF4y2Ba
  32. Artstein R, Poesio m . Inter-Coder协议计算语言学。计算语言学2008年12月,34 (4):555 - 596。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  33. 王,曼宁c .基线和三元:简单,良好的情绪和主题分类。:《50的计算语言学协会年度会议(卷2:短论文)。2012发表于:50计算语言学协会的年度会议;2012年7月;济州岛,韩国p。90 - 94网址:gydF4y2Bahttps://aclanthology.org/P12-2018/gydF4y2Ba
  34. Devlin J, Chang M,李K, Toutanova K·伯特:训练的语言理解的深度双向变形金刚。出来了。预印本网上发布2019年5月24日(gydF4y2Ba免费的全文gydF4y2Ba]gydF4y2Ba
  35. Antoun W,英航F,比起朝圣h . AraBERT:的基于变压器模型阿拉伯语的理解。:第四届研讨会院刊开源阿拉伯语语料库和处理工具,共有一个任务攻击性语言检测。2020年发表于:4日研讨会开源阿拉伯语语料库和处理工具,共有一个攻击性的语言检测任务;2020年5月;法国马赛的9 - 15页。gydF4y2Ba
  36. Szymanski P, Kajdanowicz t scikit-based Python环境中执行多标记分类。出来了。预印本网上发布2018年12月10日(gydF4y2Ba免费的全文gydF4y2Ba]gydF4y2Ba
  37. Maiya ktrain: Low-Code图书馆增强机器学习。出来了。预印本网上发布2020年7月31日(gydF4y2Ba免费的全文gydF4y2Ba]gydF4y2Ba
  38. Benajiba Y,罗索p .阿拉伯语命名实体识别使用条件随机域。2008发表于:车间在阿拉伯世界,停止& NLP LREC;2008;Citeseer p。143 - 153网址:gydF4y2Bahttp://personales.upv.es/prosso/resources/BenajibaRosso_LREC08.pdfgydF4y2Ba
  39. 弟子奥贝德O, N,哈利法塔,塔基D, Oudah M, Alhafni B, et al .骆驼工具:一个开放源码的Python工具包为阿拉伯语自然语言处理。:《12日语言资源和评价会议。2020年发表于:12日语言资源和评估会议;2020年5月;法国马赛的p。7022 - 7032。gydF4y2Ba
  40. Benajiba Y,罗索P, BenediRuiz j . ANERsys:一个基于最大熵的阿拉伯语命名实体识别系统。:Gelbukh,编辑器。计算语言学和智能文本处理。2007年的轮轴。课堂讲稿在计算机科学中,第4394卷。柏林,海德堡:施普林格;2007:143 - 153。gydF4y2Ba
  41. 国家的地址映射。URL:gydF4y2Bahttps://maps.splonline.com.sa/gydF4y2Ba[2021-08-27]访问gydF4y2Ba
  42. 艾哈迈德·W浴P, Demartini g .使用Twitter作为数据来源:概述的伦理、法律和方法论的挑战。:Woodfield K,编辑器。在线的伦理研究(研究伦理的进步和完整性,卷。2)。彬格莱先生,英国:翡翠出版有限;2017:79 - 107。gydF4y2Ba
  43. 研究伦理。兰开斯特大学。URL:gydF4y2Bahttps://www.lancaster.ac.uk/sci-tech/research/ethicsgydF4y2Ba[2019-06-01]访问gydF4y2Ba
  44. 周吴X, z的一个统一视图多标记性能的措施。:ICML 17:美国第34机器学习。2017年国际会议上发表于:第34机器学习国际会议;8月6尺11寸,2017;悉尼新南威尔士、澳大利亚p。3780 - 3788网址:gydF4y2Bahttps://dl.acm.org/doi/10.5555/3305890.3306072gydF4y2Ba
  45. Alsudias L, Rayson p分类信息来源在阿拉伯语Twitter支持在线监测传染病。2019年发表于:3日阿拉伯语语料库语言学研讨会;2019年7月22日;英国卡迪夫p。比如22 - 30 URL:gydF4y2Bahttps://aclanthology.org/w19 - 5604. - pdfgydF4y2Ba
  46. Semino E, Demjen Z, Demmen J,科勒V,佩恩年代,辛苦地,等。在线使用暴力和旅程隐喻的癌症患者,与卫生专业人员:一个混合方法研究。BMJ支持Palliat保健2017 3月05;7 (1):60 - 66 (gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  47. 袍,Lakamana年代,Hogg-Bremer W,谢,Al-Garadi M,杨y自述COVID-19症状在Twitter上:一个分析和研究资源。J是通知协会2020年8月1日,27日(8):1310 - 1315 (gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  48. Dredze M,保罗•M Bergsma年代,Tran h·卡门:twitter对公众健康地理定位系统和应用程序。2013发表于:AAAI研讨会扩大卫生信息学的边界使用AI (HIAI);2013;Citeseer。gydF4y2Ba
  49. Abdul-Mageed M,张C Bouamor H,哈巴什n楠迪2020:第一个微妙的阿拉伯语方言识别共享任务。:《第五阿拉伯语自然语言处理车间。2020年发表于:第五阿拉伯语自然语言处理车间;2020年12月12日;西班牙巴塞罗那(在线)p。97 - 110网址:gydF4y2Bahttps://aclanthology.org/2020.wanlp-1.9.pdfgydF4y2Ba
  50. 喇嘛Alsudias。兰开斯特大学研究门户|》2021。URL:gydF4y2Bahttps://www.research.lancs.ac.uk/portal/en/people/lama-alsudias (2 b6a561a - ef0f - 4058 a713 c454fb133694) / datasets.htmlgydF4y2Ba[2021-02-01]访问gydF4y2Ba


‎gydF4y2Ba
API:gydF4y2Ba应用程序编程接口gydF4y2Ba
AraBERT:gydF4y2Ba阿拉伯语语言理解transformer-based模型gydF4y2Ba
AUC:gydF4y2Ba接受者操作特征曲线下的面积gydF4y2Ba
伯特:gydF4y2Ba从变压器双向编码器表示gydF4y2Ba
ML:gydF4y2Ba机器学习gydF4y2Ba
MLKNN:gydF4y2Bamultilabel改编再邻居gydF4y2Ba
NBSVM:gydF4y2Ba支持向量机与朴素贝叶斯的特性gydF4y2Ba
尼珥:gydF4y2Ba命名实体识别gydF4y2Ba
NLP:gydF4y2Ba自然语言处理gydF4y2Ba


编辑C洛维斯;提交02.02.21;同行评议的年代Doan D黄;评论作者06.04.21;修订版本收到20.04.21;接受20.06.21;发表17.09.21gydF4y2Ba

版权gydF4y2Ba

©喇嘛Alsudias,保罗Rayson。最初发表在JMIR医学信息学(https://medinform.www.mybigtv.com), 17.09.2021。gydF4y2Ba

这是一个开放分布式根据条知识共享归属许可(https://creativecommons.org/licenses/by/4.0/),它允许无限制的使用、分配、和繁殖在任何媒介,提供原工作,首次出版于JMIR医学信息学是正确引用。完整的书目信息,原始发布在https://medinform.www.mybigtv.com/上的链接,以及这个版权和许可信息必须包括在内。gydF4y2Ba


Baidu
map