JMIR医学信息学——社交媒体监测COVID-19大流行性流感和流感流行与适应的非正式语言阿拉伯语Twitter数据:定性研究gydF4y2Ba

原始论文gydF4y2Ba

^1gydF4y2Ba信息技术部门,计算机与信息科学学院,沙特国王大学,利雅得,沙特阿拉伯gydF4y2Ba

^2gydF4y2Ba计算和通信学院的兰开斯特大学,英国兰开斯特gydF4y2Ba

通讯作者:gydF4y2Ba

喇嘛Alsudias,本科,硕士,博士学位gydF4y2Ba

信息技术部门gydF4y2Ba

计算机与信息科学学院gydF4y2Ba

沙特国王大学gydF4y2Ba

费萨尔亲王Bin Abdulaziz Al Awwal道路gydF4y2Ba

利雅得,12371gydF4y2Ba

沙特阿拉伯gydF4y2Ba

电话:966 118051044gydF4y2Ba

电子邮件:gydF4y2Balalsudias@ksu.edu.sagydF4y2Ba

相关的文章gydF4y2Ba这是一个修正版本。看到更正声明:gydF4y2Bahttps://medinform.www.mybigtv.com/2023/1/e45742/gydF4y2Ba

背景:gydF4y2BaTwitter是一个实时消息传递平台被人们广泛使用在许多主题和组织共享信息。系统监控社交媒体的文章(infodemiology或infoveillance)可能有助于发现错误疫情以及减少报告滞后时间和提供一个独立的补充来源的数据相比,传统的监测方法。然而,这种分析是目前不可能在阿拉伯语世界由于缺乏研究和方言变异的基本构建块。gydF4y2Ba

摘要目的:gydF4y2Ba我们收集约4000阿拉伯tweet COVID-19和流感。我们清洗和标记微博相对于阿拉伯传染病本体,其中包括非标准术语,以及11个核心概念和21的关系。本研究的目的是分析阿拉伯语微博为卫生监测评估其效用,理解非正式条款的影响分析,表明深学习方法的效果在分类过程中,并确定感染的地方蔓延。gydF4y2Ba

方法:gydF4y2Ba我们应用以下multilabel分类技术:二进制相关性、分类器链,标签幂集,适应算法(multilabel改编再邻居[MLKNN]),支持向量机与朴素贝叶斯特征(NBSVM),从变压器(BERT)双向编码器表示,AraBERT比起(的基于变压器模型为阿拉伯语语言理解)来识别tweet来自感染者出现。我们也使用了命名实体识别预测微博中提到的地名。gydF4y2Ba

结果:gydF4y2Ba我们实现了F1分数高达88%的流感案例研究和COVID-19的94%。调整为非标准术语和非正式的语言有助于提高精确度高达15%,平均提高8%。深入学习方法实现了F1在分类过程中高达94%的分数。我们的地理位置检测算法平均预测的准确性为54%用户根据微博内容的位置。gydF4y2Ba

结论:gydF4y2Ba本研究确定了两个阿拉伯语社交媒体数据集监测流感和COVID-19相关微博。它证明包括非正式术语的重要性,这是经常使用的社会媒体用户,在分析。也证明了伯特达到好的结果在使用新条款COVID-19 tweet。最后,微博内容可能包含有用的信息,以确定疾病传播的位置。gydF4y2Ba

地中海JMIR通知2021;9 (9):e27670gydF4y2Ba

doi: 10.2196/27670gydF4y2Ba

关键字gydF4y2Ba

阿拉伯语gydF4y2Ba;gydF4y2Ba COVID-19gydF4y2Ba;gydF4y2Ba 传染性疾病gydF4y2Ba;gydF4y2Ba 流感gydF4y2Ba;gydF4y2Ba infodemiologygydF4y2Ba;gydF4y2Ba infoveillancegydF4y2Ba;gydF4y2Ba 社会听gydF4y2Ba;gydF4y2Ba 非正式的语言gydF4y2Ba;gydF4y2Ba multilabel分类gydF4y2Ba;gydF4y2Ba 自然语言处理gydF4y2Ba;gydF4y2Ba 命名实体识别gydF4y2Ba;gydF4y2Ba 推特gydF4y2Ba

背景gydF4y2Ba

虽然每天数以百万计的数据项出现在社交媒体上,通过自然语言处理(NLP)人工智能和机器学习(ML)算法提供了机会来自动化分析许多不同领域,包括健康。卫生信息学领域的文本挖掘,社交媒体数据,比如Twitter数据,可以分析计算大规模的估计数量的感染和疾病的传播,或有助于预测流行病事件(gydF4y2Ba1gydF4y2Ba];这个领域被称为infodemiology,系统监控社交媒体的文章和网络信息对公共卫生目的称为infoveillance。然而,先前的研究已经几乎只关注英语数据。gydF4y2Ba

时间是明确卫生监测领域的一个重要因素。换句话说,尽快发现传染病是有益的对于许多组织和人口,正如我们所看到的与COVID-19国际。同样重要的是要有多个独立的消息来源证实的证据传染病的传播。gydF4y2Ba

Twitter是实时的一个主要平台,可用于健康监测。然而,它包含噪声和无关的信息;因此,这里存在一个关键的需要信息收集、预处理、滤波技术来丢弃无关信息,同时保留有用的信息。一个关键任务是区分微博写的原因各不相同,有人感染或担心疾病,考虑一些词语的比喻用法相关的疾病或感染的传播(gydF4y2Ba2gydF4y2Ba]。gydF4y2Ba

尽管这些任务显然是相关的在全球范围内,几乎没有为阿拉伯语国家先前的研究。有一些阿拉伯语的特点,使其更难以分析与其他语言相比,和NLP资源和方法为阿拉伯语比英语还不太理想。阿拉伯语,超过26方言,是全世界超过4亿人(gydF4y2Ba3gydF4y2Ba]。我们假设说阿拉伯语的人会用自己的方言在非正式的话语表达自己的痛苦,忧虑,和感受而不是用现代标准阿拉伯语(gydF4y2Ba4gydF4y2Ba]。gydF4y2Ba表1gydF4y2Ba描述了与健康相关的一些阿拉伯语的例子可能代表不同的含义由于方言的差异。例如,这个词gydF4y2Ba可以被理解为流感赫亚兹纳杰迪方言和感觉冷方言(gydF4y2Ba3gydF4y2Ba]。gydF4y2Ba

表1。一些例子的阿拉伯语词汇有不同的意义。gydF4y2Ba

用阿拉伯语单词gydF4y2Ba	潜在的意思混淆集gydF4y2Ba
	流感(冷)/感觉冷gydF4y2Ba
	疫苗接种/阅读恳求gydF4y2Ba
	流鼻涕、鼻出血gydF4y2Ba
	药膏/油漆gydF4y2Ba
	打喷嚏(冷)/过滤液体的/被提名为一个位置gydF4y2Ba
	抗生素/相反gydF4y2Ba
	平板电脑/粉刺/某种食物gydF4y2Ba
	x射线/阳光gydF4y2Ba
	缺点/双gydF4y2Ba
	止痛药/家庭gydF4y2Ba
	处方/方法gydF4y2Ba
	药物(如维生素C汽酒)/闪闪发光的春天(饮料)gydF4y2Ba

这个工作的真实动机是减少延迟时间和提高精度检测传染病提到为了支持减少传播专业组织,规划医学推出,在一般人群和增加知名度。我们还希望显示阿拉伯语微博Twitter上可以提供宝贵的数据,可用于健康监测领域通过使用非正式,非标准,代表社会媒体的使用和方言的语言更准确。gydF4y2Ba

我们专注于COVID-19和流感特别是由于季节性流感流行期间快速传播或阿拉伯语世界大流行。大多数人一到两周内恢复。然而,儿童,老年人和那些有其他严重潜在的健康状况可能经历严重的并发症,包括感染,肺炎和死亡(gydF4y2Ba5gydF4y2Ba]。而需要专业医学知识区分人们感染COVID-19和流感症状相似,跟踪和计划对这两种疾病的疫苗接种和隔离是很重要的。此外,可能会有一些被感染的人不参加考试,因为个人问题和缺乏城市的可用性的测试,或者那些需要支持self-isolate。gydF4y2Ba

整个问题是回答本文是NLP可以提高分析传染病通过社交媒体的传播。我们的第一个主要贡献是创建一个新的阿拉伯Twitter COVID-19和流感相关的数据集,这是标有12类,包括11名来自阿拉伯传染病本体(gydF4y2Ba6gydF4y2Ba)和一个新的感染。我们使用这个本体,因为没有现有的医学本体,如国际疾病分类(ICD)和/或系统化Medicine-Clinical术语的术语(snom),可用,起源于阿拉伯语(gydF4y2Ba1gydF4y2Ba]。至关重要的是,我们还展示了第一次非正式非标准的有用性疾病相关条款使用multilabel分类方法找到个人微博相关COVID-19用阿拉伯语或流感。我们比较评估的结果,而非正式条款和显示的影响包括在我们的研究中。此外,我们显示毫升的力量和深度学习算法在分类过程。最后,我们开发的方法来识别传染病传播的位置使用推特的内容,这也帮助通知方言变异和选择。gydF4y2Ba

先前的调查gydF4y2Ba1gydF4y2Ba)建议使用的非正式文本包含在医疗本体的社交媒体和搜索过程收集数据以提高流行病情报的质量。因此,我们假设非正式术语可能有助于找到相关的微博相关的疾病。此外,在阿拉伯语的场景中,我们假设我们需要考虑方言的条款。gydF4y2Ba

我们过滤排除重复的微博,广告和垃圾邮件。使用Python,我们还打扫了微博通过删除符号,链接,非阿拉伯字,url,提到,标签,数字,和重复字符。从生成的数据集,我们样品花了4000的微博(2000 COVID-19流感和2000条tweets)。然后,我们使用一套方法预处理tweet,应用以下流程顺序:标记化,规范化,障碍清除。gydF4y2Ba表2gydF4y2Ba显示了微博的数量与每个标签过滤和预处理后的本体。gydF4y2Ba

表2。微博的数量在每个标签。gydF4y2Ba

标签gydF4y2Ba	微博gydF4y2Ba^{一个gydF4y2Ba}ngydF4y2Ba
	流感gydF4y2Ba	COVID-19gydF4y2Ba
疾病的名称gydF4y2Ba	1544年gydF4y2Ba	1795年gydF4y2Ba
疾病的俚语gydF4y2Ba	456年gydF4y2Ba	327年gydF4y2Ba
症状gydF4y2Ba	398年gydF4y2Ba	789年gydF4y2Ba
导致gydF4y2Ba	178年gydF4y2Ba	530年gydF4y2Ba
预防gydF4y2Ba	666年gydF4y2Ba	209年gydF4y2Ba
感染gydF4y2Ba	51gydF4y2Ba	15gydF4y2Ba
器官gydF4y2Ba	2gydF4y2Ba	202年gydF4y2Ba
治疗gydF4y2Ba	152年gydF4y2Ba	97年gydF4y2Ba
诊断gydF4y2Ba	25gydF4y2Ba	2gydF4y2Ba
疾病的传播gydF4y2Ba	17gydF4y2Ba	415年gydF4y2Ba
受感染的分类gydF4y2Ba	52gydF4y2Ba	12gydF4y2Ba
感染了gydF4y2Ba	907年gydF4y2Ba	915年gydF4y2Ba

^{一个gydF4y2Ba}每个tweet可以有多个标签。gydF4y2Ba

手工编码gydF4y2Ba

为了创建一个黄金标准语料库,我们的流程开始推特标签由两个阿拉伯语母语,包括论文的第一作者,在指南中描述的注释过程gydF4y2Ba多媒体附录1gydF4y2Ba。我们手动标注每个tweet 1或0,表示阿拉伯传染病本体类、传染性疾病的名称(例如,流感和COVID-19)在我们的例子中,俚语,症状,原因,预防感染、器官、治疗、诊断、疾病传播,和被感染的类别。我们也贴上每个tweet 1如果写微博的人感染流感或COVID-19,如果不是0。gydF4y2Ba表3gydF4y2Ba描述了一些阿拉伯语的例子流感和COVID-19 tweet的标签。gydF4y2Ba

表3。微博的例子分配标签(1或0)。gydF4y2Ba

推特在阿拉伯语gydF4y2Ba	微博用英语gydF4y2Ba	的名字gydF4y2Ba	俚语的名字gydF4y2Ba	症状gydF4y2Ba	导致gydF4y2Ba	预防gydF4y2Ba	感染gydF4y2Ba	器官gydF4y2Ba	治疗gydF4y2Ba	诊断gydF4y2Ba	疾病传播的地方gydF4y2Ba	受感染的分类gydF4y2Ba	感染了gydF4y2Ba
	有什么解决方案流感,发烧和冷杀了我gydF4y2Ba	1gydF4y2Ba^{一个gydF4y2Ba}	1gydF4y2Ba	1gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	1gydF4y2Ba^bgydF4y2Ba
	流感疫苗接种活动与Al-Kharj哈立德国王医院的合作gydF4y2Ba	1gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	1gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba
	流感的早晨gydF4y2Ba	1gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	1gydF4y2Ba
	当你有流感或感冒的症状,鼻子和喉咙的诊所取一个样本检查其细菌或病毒gydF4y2Ba	0gydF4y2Ba	1gydF4y2Ba	1gydF4y2Ba	1gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	1gydF4y2Ba	0gydF4y2Ba	1gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba
	我的经验与我感染Covid-19病毒被确认后,最初我不关心吃的食物,足够的水,还有食品补充剂,因为这些症状是轻微的,我注意到病毒的工作阶段,起初我注意到出汗、头痛,然后眼睛疼痛。gydF4y2Ba	1gydF4y2Ba	0gydF4y2Ba	1gydF4y2Ba	1gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	1gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	1gydF4y2Ba
	用肥皂和水洗手,戴着面具医疗……这里有一些预防措施,还防止电晕的最好方法gydF4y2Ba	0gydF4y2Ba	1gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	1gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba
	让我震惊的第一件事就是嗜睡,骨骼和肌肉疼痛,一种奇怪的头痛,没有痛苦,但麻烦的,然后有腹泻。我没有想到电晕因为症状是轻微的,不像人们说什么。但我确信我的睡眠变得很奇怪,好像我没睡着,醒来之后我睡着了一两个小时,有时我没有睡觉。。gydF4y2Ba	1gydF4y2Ba	0gydF4y2Ba	1gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	1gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	1gydF4y2Ba

^{一个gydF4y2Ba}我们与1或0指示标记每个tweet阿拉伯传染病本体类。gydF4y2Ba

^bgydF4y2Ba我们标记每个tweet 1如果写微博的人被感染,如果不是0。gydF4y2Ba

评分者间信度gydF4y2Ba

我们使用了Krippendorffα系数统计,支持multilabel输入,测试数据集的分类方案的鲁棒性(gydF4y2Ba32gydF4y2Ba]。结果表明,流感的Krippendorffα得分是0.84 COVID-19数据集的数据集和0.91,这表明强烈的两个手动程序员之间的协议。剩下的注释器之间的分歧是由于非正式条款和阿拉伯语方言在社会媒体中找到。例如,gydF4y2Ba可以被理解为“冷玩我们,”代表一个未受感染的人或流感玩我们(指示感染者)。另一个例子是gydF4y2Ba,这英文的意思是“比封锁与电晕更容易相处。“这可能是归类为感染者或一个未受感染的人,因为这个词gydF4y2Ba有不同的意思。gydF4y2Ba

概述gydF4y2Ba

为了创建方法来找到那些被认同为感染,以确定其地理位置在Twitter的数据集,我们应用标签的数据集上的多个监督学习算法和使用尼珥的微博内容。gydF4y2Ba

Multilabel分类gydF4y2Ba

管道的整体架构寻找感染者所示gydF4y2Ba图1gydF4y2Ba。使用监督范式,我们首先标注语料库的标注信息如上所述,在继续分类之前微博运用机器和深度学习算法。我们使用这种方法对流感和COVID-19案例研究。每个tweet分配有不同的标签。例如,第一个例子gydF4y2Ba表3gydF4y2Ba流感名称(包含标签gydF4y2Ba),俚语的流感(gydF4y2Ba)和症状(gydF4y2Ba)。它也代表了人感染流感。因此,我们这些标签赋值为1。另一方面,微博不包括标签的原因、预防感染、器官、治疗、诊断、疾病传播,和被感染的类别。因此,这些都是用0。gydF4y2Ba

图1所示。系统架构。API:应用程序编程接口;比起AraBERT:的基于变压器模型为阿拉伯语语言理解;伯特:双向编码器表示从《变形金刚》;MLKNN: multilabel改编再邻居;NBSVM:支持向量机与朴素贝叶斯的特性。gydF4y2Ba

从gydF4y2Ba表3gydF4y2Ba,我们可以看到,我们有一个multilabel分类问题在多个标签分配给每个tweet。基本上,可以使用以下三种方法来解决这个问题:问题转换,适应算法,和整体的方法。对于每一个方法,可以使用不同的技术。我们应用下面的算法,它代表毫升和深度学习算法,分类推文:(1)二进制相关性,将每个标签作为一个单独的单类分类问题;(2)分类器链,每个标签都会被视为条件链的一部分股份,分类问题,它是有用的处理类标签之间的关系;(3)标签幂集,将问题转化为一个多类问题多级分类器训练在训练数据中发现的所有独特的标签组合;(4)适应算法(MLKNN),这是一个multilabel改编再邻居(资讯)与贝叶斯分类器之前修正;(5)支持向量机与朴素贝叶斯特征(NBSVM),生成和判别模型结合起来通过添加NB log-count比例特性支持向量机(gydF4y2Ba33gydF4y2Ba];(6)双向编码器从变形金刚(BERT)表示,这是一个条件,所有左、右两层含义是用来pretrain深双向表示从标记文本gydF4y2Ba34gydF4y2Ba];比起和(7)的基于变压器模型阿拉伯语语言理解(AraBERT),这是一个pretrained伯特模型专门为阿拉伯语(gydF4y2Ba35gydF4y2Ba]。gydF4y2Ba

因为一些标签是0对于大多数微博,我们删除了这些标签,以避免过度拟合。换句话说,我们把标签没有出现在大多数微博所示gydF4y2Ba表3gydF4y2Ba。剩下的重要标签确定取决于疾病的案例研究,因为他们代表不同的值不同的微博是有道理的gydF4y2Ba表2gydF4y2Ba。流感,他们是流感的名字,俚语的流感症状,预防、治疗、感染。而对于COVID-19,它们的名字,俚语COVID-19,症状,原因,地方,感染。我们也两次重复实验显示结果中的非正式条款的有效性。其中一个标签“病”的名字,“俚语的传染病,”和“感染”,和其他所有标签,除了“传染病的俚语”在这两个案例研究。gydF4y2Ba

在我们的研究中,我们使用Python scikit-multilearn [gydF4y2Ba36gydF4y2Ba]和ktrain [gydF4y2Ba37gydF4y2Ba库和应用不同的模型。从加工训练数据中提取特征,我们使用一个单词频率的方法。我们把整个样本分成75%的训练,25%的测试集。gydF4y2Ba

尼珥gydF4y2Ba

我们跟着尼珥ML算法系统,用来学习NE标签决定从注释文本。我们使用了条件随机域(CRF)算法,因为它实现了更好的结果比其他监督尼珥毫升技术在先前的研究gydF4y2Ba29日gydF4y2Ba]。gydF4y2Ba

我们的地理位置检测算法有三个阶段中所示gydF4y2Ba图2gydF4y2Ba。在第一阶段,从指定的感染者是multilabel在前一节中描述的分类算法。然后,我们检索的历史推文这个人(平均每人约3000微博)并把它们提供给下一个阶段。gydF4y2Ba

第二阶段由两个连续的阶段。首先,信息已提交给一个命名实体检测算法从多个全集和地名表选择位置记录,包括ANERCorp [gydF4y2Ba38gydF4y2Ba,gydF4y2Ba39gydF4y2Ba],ANERGazet [gydF4y2Ba40gydF4y2Ba]。一组位置名称需要过滤掉来自通用名称和模棱两可的。例如,这个词gydF4y2Ba英文(巴厘岛)可以在印度尼西亚一个省或用阿拉伯语“我”作为一个非正式的词汇。这一步是非常重要的,以确保所有无关的位置名称不包括在最后阶段。第二,确定位置测定通过应用我们的新实体检测地名,代表沙特阿拉伯地区,城市,地区。公布的数据,将在GitHub (gydF4y2Ba31日gydF4y2Ba),是公共数据收集从沙特邮政网站gydF4y2Ba41gydF4y2Ba]。gydF4y2Ba

在第三阶段,共同特征,比如最常见的位置,以及其他功能,如发生时间,提供更高的得分位置在过去6个月。然后,每个位置是得分的一个数字,它允许我们排名列表和确定最佳估计主用户的位置。gydF4y2Ba

每个tweet设定一个可预见的位置之后,我们将这个位置与位置字段中提到的用户帐户,这并不总是设定的用户,因为它是一个可选的字段。在这里,我们只保留用户有价值的位置信息的位置或描述字段。gydF4y2Ba

道德的考虑gydF4y2Ba

尽管Twitter取得知情同意从用户分享信息,有必要获得科研伦理批准我们的大学,特别是考虑到我们的关注与健康有关的话题gydF4y2Ba42gydF4y2Ba]。伦理批准本研究从兰开斯特大学获得6月21日,2019gydF4y2Ba43gydF4y2Ba]。gydF4y2Ba

Multilabel分类gydF4y2Ba

multilabel分类问题是更复杂的比二进制和多类分类问题。因此,计算各种性能措施评价的分类过程,如准确性、F1得分,还记得,精度,接受者操作特征曲线下面积(AUC)和汉明损失(gydF4y2Ba44gydF4y2Ba]。所有这些措施,除了汉明损失,分数越高越好。汉明损失较小的值反映了更好的性能。重要的是要注意,multilabel分类准确性评分函数计算精度只有子集,这意味着一个样本的标签将在计算过程中,正如前面所提到的(gydF4y2Ba36gydF4y2Ba]。gydF4y2Ba

表4gydF4y2Ba说明了七个模型的性能措施对我们的训练数据集有六个,五个,三个标签的流感案例研究。的6个标签,“流感的名字,”“俚语的流感,”“症状”,“预防”,“治疗”和“感染”,分类器链算法实现最高的结果在大多数措施相比其他算法。F1得分86.1%,召回81.0%,精度为91.8%,AUC为88.6%,准确性为56.2%,和汉明损失8.9%。标签幂集算法结果略低于分类器链提供了约2%。NBSVM F1得分最低的是观察到的,是58.9%。gydF4y2Ba

七模型的重复实验结果对我们的训练数据集和三个标签,是“流感的名字,”“俚语的流感,”和“感染”,和五个标签,是“流感的名字,”“症状”,“预防”,“治疗”和“感染”,是中描述gydF4y2Ba表4gydF4y2Ba。有20%增强七算法的准确性。F1最高得分是通过分类器链算法,这是88.8%。回忆和精度从60%到92%不等。因此,非正式条款所示表示分类过程中的关键因素。gydF4y2Ba

表5gydF4y2Ba七个模型显示的性能措施对我们的训练数据集有六个,五个,三个标签COVID-19案例研究。这里,六个标签不同于之前的案例研究,因为他们决定根据每个标签的微博数量的结果解释gydF4y2Ba表2gydF4y2Ba。6个标签“COVID-19名称”、“俚语COVID-19”,“症状”,“原因”,“疾病传播,”和“感染类别。“最好的结果是通过伯特算法的F1得分88.2%,召回86.7%,精度为89.7%,AUC为90.3%,准确性为62.0%,和汉明损失8.8%。gydF4y2Ba

重复实验结果为七个模型训练数据集上有三个标签,这是“COVID-19名字,”“COVID-19俚语,”和“感染”,和五个标签,这是“COVID-19名字,”“症状”,“原因”,“疾病传播,”和“感染”中描述gydF4y2Ba表5gydF4y2Ba。有20%增强七算法的准确性。F1最高得分是通过伯特算法,这是94.8%,AraBERT紧随其后,为93.3%。的非正式术语COVID-19案例研究显示增强评价结果的15%左右。gydF4y2Ba

表4。培训结果的七个算法有六个,五个,和三个标签的流感案例研究。gydF4y2Ba

数量的标签和multilabel分类技术gydF4y2Ba			F1的分数(%)gydF4y2Ba		回忆(%)gydF4y2Ba		精度(%)gydF4y2Ba		AUCgydF4y2Ba^{一个gydF4y2Ba}(%)gydF4y2Ba		精度(%)gydF4y2Ba	汉明损失(%)gydF4y2Ba
六个gydF4y2Ba^bgydF4y2Ba
	二元关联gydF4y2Ba	73.1gydF4y2Ba		74.4gydF4y2Ba		71.9gydF4y2Ba		79.7gydF4y2Ba		39.6gydF4y2Ba		18.7gydF4y2Ba
	分类器链gydF4y2Ba	86.1gydF4y2Ba		81.0gydF4y2Ba		91.8gydF4y2Ba		88.6gydF4y2Ba		56.2gydF4y2Ba		8.9gydF4y2Ba
	标签幂集gydF4y2Ba	85.7gydF4y2Ba		83.8gydF4y2Ba		87.6gydF4y2Ba		88.7gydF4y2Ba		56.2gydF4y2Ba		9.7gydF4y2Ba
	适应算法(MLKNNgydF4y2Ba^cgydF4y2Ba)gydF4y2Ba	76.9gydF4y2Ba		75.5gydF4y2Ba		78.4gydF4y2Ba		82.3gydF4y2Ba		39.9gydF4y2Ba		15.5gydF4y2Ba
	伯特gydF4y2Ba^dgydF4y2Ba	78.1gydF4y2Ba		83.4gydF4y2Ba		73.4gydF4y2Ba		85.4gydF4y2Ba		38.9gydF4y2Ba		13.7gydF4y2Ba
	AraBERTgydF4y2Ba^egydF4y2Ba	79.7gydF4y2Ba		72.7gydF4y2Ba		88.2gydF4y2Ba		83.9gydF4y2Ba		49.2gydF4y2Ba		12.5gydF4y2Ba
	NBSVMgydF4y2Ba^fgydF4y2Ba	58.9gydF4y2Ba		46.3gydF4y2Ba		81.2gydF4y2Ba		70.9gydF4y2Ba		26.8gydF4y2Ba		18.9gydF4y2Ba
五gydF4y2Ba^ggydF4y2Ba
	二元关联gydF4y2Ba	75.5gydF4y2Ba		76.9gydF4y2Ba		74.1gydF4y2Ba		80.7gydF4y2Ba		45.1gydF4y2Ba		18.3gydF4y2Ba
	分类器链gydF4y2Ba	88.0gydF4y2Ba		85.7gydF4y2Ba		90.5gydF4y2Ba		90.2gydF4y2Ba		64.9gydF4y2Ba		8.5gydF4y2Ba
	标签幂集gydF4y2Ba	87.6gydF4y2Ba		86.2gydF4y2Ba		89.2gydF4y2Ba		90.0gydF4y2Ba		63.9gydF4y2Ba		8.9gydF4y2Ba
	适应算法(MLKNN)gydF4y2Ba	79.9gydF4y2Ba		76.4gydF4y2Ba		83.9gydF4y2Ba		84.0gydF4y2Ba		47.9gydF4y2Ba		14.0gydF4y2Ba
	伯特gydF4y2Ba	84.1gydF4y2Ba		83.1gydF4y2Ba		85.0gydF4y2Ba		88.0gydF4y2Ba		57.5gydF4y2Ba		10.3gydF4y2Ba
	AraBERTgydF4y2Ba	87.3gydF4y2Ba		86.3gydF4y2Ba		88.4gydF4y2Ba		90.0gydF4y2Ba		64.3gydF4y2Ba		9.0gydF4y2Ba
	NBSVMgydF4y2Ba	61.6gydF4y2Ba		49.7gydF4y2Ba		81.2gydF4y2Ba		72.0gydF4y2Ba		26.8gydF4y2Ba		20.2gydF4y2Ba
三个gydF4y2Ba^hgydF4y2Ba
	二元关联gydF4y2Ba	80.8gydF4y2Ba		80.0gydF4y2Ba		81.7gydF4y2Ba		81.2gydF4y2Ba		60.4gydF4y2Ba		18.8gydF4y2Ba
	分类器链gydF4y2Ba	88.8gydF4y2Ba		85.7gydF4y2Ba		92.2gydF4y2Ba		89.3gydF4y2Ba		72.4gydF4y2Ba		10.7gydF4y2Ba
	标签幂集gydF4y2Ba	88.3gydF4y2Ba		88.0gydF4y2Ba		88.6gydF4y2Ba		88.4gydF4y2Ba		70.8gydF4y2Ba		11.6gydF4y2Ba
	适应算法(MLKNN)gydF4y2Ba	80.9gydF4y2Ba		84.7gydF4y2Ba		77.5gydF4y2Ba		80.2gydF4y2Ba		54.0gydF4y2Ba		19.8gydF4y2Ba
	伯特gydF4y2Ba	87.6gydF4y2Ba		93.9gydF4y2Ba		82.1gydF4y2Ba		88.9gydF4y2Ba		68.1gydF4y2Ba		11.7gydF4y2Ba
	AraBERTgydF4y2Ba	85.9gydF4y2Ba		81.5gydF4y2Ba		90.9gydF4y2Ba		86.8gydF4y2Ba		66.9gydF4y2Ba		13.1gydF4y2Ba
	NBSVMgydF4y2Ba	79.5gydF4y2Ba		75.1gydF4y2Ba		84.3gydF4y2Ba		82.1gydF4y2Ba		59.9gydF4y2Ba		17.1gydF4y2Ba

^{一个gydF4y2Ba}AUC:接受者操作特征曲线下面积。gydF4y2Ba

^bgydF4y2Ba6个标签“流感名称”、“俚语流感”,“症状”,“预防”,“治疗”和“感染”。gydF4y2Ba

^cgydF4y2BaMLKNN: multilabel改编再邻居。gydF4y2Ba

^dgydF4y2Ba伯特:双向编码器从《变形金刚》表示。gydF4y2Ba

^egydF4y2Ba阿拉伯语比起AraBERT:的基于变压器模型的理解。gydF4y2Ba

^fgydF4y2BaNBSVM:支持向量机与朴素贝叶斯的特性。gydF4y2Ba

^ggydF4y2Ba五个标签“流感名称”、“症状”,“预防”,“治疗”和“感染”。gydF4y2Ba

^hgydF4y2Ba三个标签”流感名称”、“俚语流感,”和“感染”。gydF4y2Ba

表5所示。培训结果的七个算法有六个,五个,和三个标签COVID-19案例研究。gydF4y2Ba

数量的标签和multilabel分类技术gydF4y2Ba			F1的分数(%)gydF4y2Ba		回忆(%)gydF4y2Ba		精度(%)gydF4y2Ba		AUCgydF4y2Ba^{一个gydF4y2Ba}(%)gydF4y2Ba		精度(%)gydF4y2Ba		汉明损失(%)gydF4y2Ba
六个gydF4y2Ba^bgydF4y2Ba
	二元关联gydF4y2Ba	54.6gydF4y2Ba		52.8gydF4y2Ba		56.6gydF4y2Ba		64.0gydF4y2Ba		15.6gydF4y2Ba		33.3gydF4y2Ba
	分类器链gydF4y2Ba	53.9gydF4y2Ba		49.8gydF4y2Ba		58.7gydF4y2Ba		64.2gydF4y2Ba		18.5gydF4y2Ba		32.3gydF4y2Ba
	标签幂集gydF4y2Ba	58.6gydF4y2Ba		59.4gydF4y2Ba		57.9gydF4y2Ba		66.5gydF4y2Ba		22.2gydF4y2Ba		31.8gydF4y2Ba
	适应算法(MLKNNgydF4y2Ba^cgydF4y2Ba)gydF4y2Ba	54.5gydF4y2Ba		51.0gydF4y2Ba		58.4gydF4y2Ba		64.4gydF4y2Ba		10.0gydF4y2Ba		32.4gydF4y2Ba
	伯特gydF4y2Ba^dgydF4y2Ba	88.2gydF4y2Ba		86.7gydF4y2Ba		89.7gydF4y2Ba		90.3gydF4y2Ba		62.0gydF4y2Ba		8.8gydF4y2Ba
	AraBERTgydF4y2Ba^egydF4y2Ba	82.0gydF4y2Ba		84.4gydF4y2Ba		79.8gydF4y2Ba		86.0gydF4y2Ba		50.5gydF4y2Ba		13.6gydF4y2Ba
	NBSVMgydF4y2Ba^fgydF4y2Ba	64.3gydF4y2Ba		51.7gydF4y2Ba		85.0gydF4y2Ba		73.1gydF4y2Ba		20.7gydF4y2Ba		21.7gydF4y2Ba
五gydF4y2Ba^ggydF4y2Ba
	二元关联gydF4y2Ba	57.0gydF4y2Ba		56.0gydF4y2Ba		58.1gydF4y2Ba		63.1gydF4y2Ba		15.8gydF4y2Ba		35.9gydF4y2Ba
	分类器链gydF4y2Ba	56.2gydF4y2Ba		53.0gydF4y2Ba		59.9gydF4y2Ba		63.3gydF4y2Ba		18.3gydF4y2Ba		35.1gydF4y2Ba
	标签幂集gydF4y2Ba	60.8gydF4y2Ba		63.4gydF4y2Ba		58.4gydF4y2Ba		65.0gydF4y2Ba		22.0gydF4y2Ba		34.8gydF4y2Ba
	适应算法(MLKNN)gydF4y2Ba	56.5gydF4y2Ba		54.6gydF4y2Ba		58.7gydF4y2Ba		63.1gydF4y2Ba		10.4gydF4y2Ba		35.7gydF4y2Ba
	伯特gydF4y2Ba	87.3gydF4y2Ba		87.9gydF4y2Ba		86.7gydF4y2Ba		88.9gydF4y2Ba		59.0gydF4y2Ba		10.9gydF4y2Ba
	AraBERTgydF4y2Ba	86.3gydF4y2Ba		92.7gydF4y2Ba		80.7gydF4y2Ba		88.6gydF4y2Ba		53.9gydF4y2Ba		12.1gydF4y2Ba
	NBSVMgydF4y2Ba	55.2gydF4y2Ba		40.6gydF4y2Ba		86.4gydF4y2Ba		67.9gydF4y2Ba		17.9gydF4y2Ba		28.0gydF4y2Ba
三个gydF4y2Ba^hgydF4y2Ba
	二元关联gydF4y2Ba	68.5gydF4y2Ba		69.0gydF4y2Ba		68.0gydF4y2Ba		69.2gydF4y2Ba		36.9gydF4y2Ba		30.8gydF4y2Ba
	分类器链gydF4y2Ba	69.7gydF4y2Ba		68.1gydF4y2Ba		71.4gydF4y2Ba		71.2gydF4y2Ba		39.9gydF4y2Ba		28.7gydF4y2Ba
	标签幂集gydF4y2Ba	70.3gydF4y2Ba		69.0gydF4y2Ba		71.5gydF4y2Ba		71.6gydF4y2Ba		40.1gydF4y2Ba		28.3gydF4y2Ba
	适应算法(MLKNN)gydF4y2Ba	71.6gydF4y2Ba		70.7gydF4y2Ba		72.6gydF4y2Ba		72.8gydF4y2Ba		41.4gydF4y2Ba		27.1gydF4y2Ba
	伯特gydF4y2Ba	94.8gydF4y2Ba		96.4gydF4y2Ba		93.3gydF4y2Ba		94.9gydF4y2Ba		93.2gydF4y2Ba		5.1gydF4y2Ba
	AraBERTgydF4y2Ba	93.3gydF4y2Ba		94.8gydF4y2Ba		91.9gydF4y2Ba		93.5gydF4y2Ba		85.3gydF4y2Ba		6.5gydF4y2Ba
	NBSVMgydF4y2Ba	70.6gydF4y2Ba		59.6gydF4y2Ba		86.5gydF4y2Ba		75.4gydF4y2Ba		46.5gydF4y2Ba		24.2gydF4y2Ba

^{一个gydF4y2Ba}AUC:接受者操作特征曲线下面积。gydF4y2Ba

^bgydF4y2Ba6个标签“COVID-19名称”、“俚语COVID-19”,“症状”,“原因”,“地方疾病的蔓延,”和“感染类别。”gydF4y2Ba

^cgydF4y2BaMLKNN: multilabel改编再邻居。gydF4y2Ba

^dgydF4y2Ba伯特:双向编码器从《变形金刚》表示。gydF4y2Ba

^egydF4y2Ba阿拉伯语比起AraBERT:的基于变压器模型的理解。gydF4y2Ba

^fgydF4y2BaNBSVM:支持向量机与朴素贝叶斯的特性。gydF4y2Ba

^ggydF4y2Ba五个标签“COVID-19名称”、“症状”,“原因”,“地方疾病的蔓延,”和“感染类别。”gydF4y2Ba

^hgydF4y2Ba三个标签”COVID-19名称”、“COVID-19俚语,”和“感染”。gydF4y2Ba

尼珥gydF4y2Ba

注意的一个重点是,我们的地理位置检测评价是基于他们的推特用户的位置。我们过滤微博,没有任何信息在位置字段和/或nonplausible地点,如月球和太空。我们创建了一个手工注释设置从位置字段中的信息以证明更大的准确性。这是由于中的模棱两可的信息能被探测到的位置字段。例如,我们发现了一些形容词的位置,gydF4y2Ba和gydF4y2Ba,指的是在沙特阿拉伯吉达城市。gydF4y2Ba

在流感的研究中,大约907用户分为感染流感,和397个用户提供有价值的信息在他们的帐户,可以用来确定位置。因此,我们的算法实现了预测的准确性为45.8%的位置。gydF4y2Ba

关于COVID-19研究中,915人被认为是感染,约358用户帐户有有用的信息的位置。因此,在应用该算法,精度63.6%确定感染用户的位置。gydF4y2Ba

主要研究结果gydF4y2Ba

理解深刻的学习算法在分类过程的影响,我们需要比较ML算法的结果与深度学习的流感和COVID-19的两个案例研究。在流感的研究中,深入学习算法和ML的结果接近对方。换句话说,没有改善的结果在应用深度学习方法,如伯特和AraBERT。另一方面,COVID-19案例研究中,有多达25%的增强结果应用伯特和/或AraBERT时。这些结果有助于确认深学习方法显示良好的回报在处理新条款或未知代表COVID-19术语的词汇表。gydF4y2Ba

通过应用我们的以前的工作gydF4y2Ba45gydF4y2Ba),微博的来源分为以下五种类型:学术、媒体、政府、卫生专业人员和公众,我们发现非正式语言是用于公共类型(示例1、3和7gydF4y2Ba表3gydF4y2Ba),而其他类型(学术、媒体、政府和卫生专业人员)使用更正式的样式(例子2、4、5、6gydF4y2Ba表3gydF4y2Ba)。因此,疾病俚语名称或其他症状发挥重要作用在疾病检测提到社交媒体。人们不仅使用俚语术语,也表达了他们的感情使用隐喻等其他条款(gydF4y2Ba46gydF4y2Ba]。例如,“gydF4y2Ba”,这意味着“你好流感,”表明,人,谁写的微博,是受到流感的影响。在这里,71.9%的微博证明有一个非正式flu-infected人所使用的语言之间的关系。gydF4y2Ba

我们还发现有一个关系“症状”,“预防”和“感染”的标签。总的来说,有64.3%的人感染流感发送微博提到的症状,如打喷嚏、头痛、咳嗽和发烧。微博对预防、69.3%是由一个人写的不是感染了流感。然而,有很多的tweet,打破了这些模式。换句话说,我们观察到的微博写的感染症状,并不代表一个人或微博写预防代表一个被感染的人。gydF4y2Ba表6gydF4y2Ba给出了一些示例,这些关系描述的tweet。gydF4y2Ba

表6所示。微博的例子描述症状之间的关系,预防、地方,感染了标签。gydF4y2Ba

推特在阿拉伯语gydF4y2Ba	微博用英语gydF4y2Ba	描述gydF4y2Ba
	感冒头痛是不好的gydF4y2Ba	和感染流感症状之间的关系gydF4y2Ba
	我想我将死于流感;我打喷嚏10倍的时间醒来gydF4y2Ba	和感染流感症状之间的关系gydF4y2Ba
	流感疫苗不能预防感冒,一些人认为,A和B,但可以阻止严重的流感感染,杀死大量世界各地的gydF4y2Ba	与流感预防和未感染之间的关系gydF4y2Ba
	电晕,你为我做什么?两周的时间,我将无法感觉的味道gydF4y2Ba	症状和COVID-19感染之间的关系gydF4y2Ba
	利雅得记录320个新的冠状病毒病例,15人死亡gydF4y2Ba	地方和COVID-19未感染之间的关系gydF4y2Ba
	坚持预防措施和预防从电晕,随着波的真正开始,所以戴着面具,远离集会,消毒和用肥皂和水洗手在一段时间内不少于30秒gydF4y2Ba	与COVID-19预防和未感染之间的关系gydF4y2Ba

猎隼等的研究(gydF4y2Ba47gydF4y2Ba),最近出版,证明用户COVID-19阳性也报告了他们的症状使用Twitter。Alanazi et al (gydF4y2Ba23gydF4y2Ba)描述了最常见的COVID-19症状从阿拉伯语微博在他们的研究。这些症状可以进一步评估在临床设置和用于COVID-19实时风险评估在附近。gydF4y2Ba

有很多方法可以知道Twitter用户的位置,如geocoordinate,位置字段,用户位置和微博内容。最准确的方法是使用网络地理定位系统推或用户。然而,因为它是一个可选的字段,只有不到3%的用户提供这些信息(gydF4y2Ba19gydF4y2Ba,gydF4y2Ba48gydF4y2Ba]。此外,还有嘈杂的信息在用户位置字段,因为用户可以输入任何像“家”或“在我爸爸的心。“作为一个结果,我们使用微博内容通过假设用户推时提到的有用的信息。gydF4y2Ba

另一方面,一些研究人员试图预测用户的位置使用方言识别从微博内容gydF4y2Ba49gydF4y2Ba]。虽然这可能是卓有成效的,在我们的场景中,它可能不反映需要的当前位置,因为一个人可能推在埃及方言但住在沙特阿拉伯。gydF4y2Ba

结论gydF4y2Ba

第一次,本文表明,阿拉伯语社交媒体数据包含各种合适的信息监测流感和COVID-19,更为关键的是,它改善了以前的研究方法包括非正式的语言和标准术语从社交媒体,这已经被证明有助于过滤无关的微博。应该注意的是,我们不是试图提供一个单一的信息来源对公共卫生机构使用,但要提供可比信息来源确定和证实的估计对其他更传统的疾病传播源。gydF4y2Ba

我们也引入了一个新的阿拉伯社交媒体数据集分析微博与流感和COVID-19有关。我们标记类别的tweet阿拉伯传染病本体,其中包括非标准术语。然后,我们使用multilabel分类技术复制手动分类。结果显示高F1分数分类任务,展示了非标准术语和非正式的语言是很重要的在分类过程中,平均提高8.8%。的数据集,包括tweet id、手动指定标签,和其他资源的使用,释放自由的学术研究用途,DOI通过门户(兰开斯特大学的研究gydF4y2Ba50gydF4y2Ba]。gydF4y2Ba

此外,我们应用一个尼珥算法在微博内容确定的位置和传播感染。虽然用户的数量是有限的,结果显示良好的精度分析的过程。gydF4y2Ba

有几个方向进一步增强系统的性能在未来,包括扩大使用的数据训练分类器,分析不同的传染病,使用更多的NLP技巧和语言特征。gydF4y2Ba

确认gydF4y2Ba

作者感谢Nouran Khallaf,利兹大学博士生(mlnak@leeds.ac.uk),对她帮助标签tweet。这个研究项目的资助支持的“计算机与信息科学学院研究中心”,院长职科研、沙特国王大学。gydF4y2Ba

的利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba

多媒体附录1gydF4y2Ba

注释tweet指南。gydF4y2Ba

多克斯文件,22个KBgydF4y2Ba

乔希,卡里年代,火花R,巴黎C,麦金太尔CR。基于文本的流行病情报的调查。ACM第一版。Surv 2020年1月21日,(6):52 -。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
羊肉,保罗•M Dredze M .区分事实与恐惧:在Twitter上跟踪流感感染。:学报2013年大会北美的计算语言学协会章:人类语言技术。2013年发表于:2013年大会北美的计算语言学协会章:人类语言技术;2013年6月;美国亚特兰大,乔治亚州,p . 789 - 795。gydF4y2Ba
Versteegh k .阿拉伯语。英国爱丁堡:爱丁堡大学出版社;2014年。gydF4y2Ba
Hadziabdic E, Hjelm k .阿拉伯语移民的经验的使用在医疗口译员:一个定性的探索性研究。Int J股本健康2014年6月16日,13 (1):49-12 [gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
世界卫生组织。URL:gydF4y2Bahttps://www.who.int/gydF4y2Ba[2020-03-01]访问gydF4y2Ba
Alsudias L, Rayson p .开发一个阿拉伯语传染病本体包括非标准术语。:《12日语言资源和评价会议。2020年发表于:12日语言资源和评估会议;2020年5月;法国马赛的p。4842 - 4850网址:gydF4y2Bahttps://aclanthology.org/2020.lrec - 1.596 /gydF4y2Ba
Dredze保罗·M·M·你推特:分析微博对公共卫生。学报》国际AAAI网络和社会化媒体会议上2021;5 (1):265 - 272。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Aramaki E, Maskawa年代,盛田昭夫m . Twitter就会染上流感:检测流感流行使用Twitter。在:EMNLP 11:会议的程序在自然语言处理的经验方法。2011年发表于:会议经验方法在自然语言处理;第27 - 31 7月,2011;英国爱丁堡p。1568 - 1576网址:gydF4y2Bahttps://dl.acm.org/doi/10.5555/2145432.2145600gydF4y2Ba(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
施耐德KL, Breland司法院,Quintiliani LM可能CN, Pagoto美国社交媒体作为一种工具来增加公共卫生研究的影响。公共卫生2017年12月,107 (12):1890 - 1891。(gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Sinnenberg L, Buttenheim, Padrez K, Mancheno C,安格L,商人RM。Twitter作为卫生研究工具:系统回顾。107年1月;公共卫生2017 (1):e1-e8。(gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
查尔斯·史密斯LE,雷诺兹TL,卡梅隆,康威M,刘EHY,奥尔森JM,等。使用社交媒体的疾病监测和疫情管理:一个系统的文献回顾。《公共科学图书馆•综合》2015年10月5日,10 (10):e0139701 [gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
保罗M,衬衣,Brownstein J时,Nikfarjam,苏格兰M,史密斯K, et al。社交媒体挖掘公共卫生监测和监督。2016发表于:太平洋研讨会上生物运算;2016;美国夏威夷p。468 - 479。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Dredze Paul M M .矿业从Twitter公共卫生议题的典范。健康2012;11:16。gydF4y2Ba
霁X,春,盖勒j .知识型疾病人气微博分类监测。陈:Pedrycz W,年代,编辑。情绪分析和本体工程。研究计算智能,第639卷。可汗:施普林格;2016:425 - 454。gydF4y2Ba
Iso H, Wakamiya年代,Aramaki大肠预测模型:基于流感监测和预测。:科尔学报》2016年,第26届国际会议在计算语言学:技术论文。2016年发表于:26日计算语言学国际会议:技术论文;2016年12月;日本大阪p。76 - 86网址:gydF4y2Bahttps://aclanthology.org/C16-1008/gydF4y2Ba
戴X, Bikdash里,迈耶b从社交媒体到公共卫生监测:基于词嵌入twitter分类的聚类方法。2017发表于:SoutheastCon 2017;2017年3月,4月30日2;康科德、数控、美国1 - 7页。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
香港Y,总指挥r .传染病分析社交媒体平台。:Gervasi O,编辑器。计算科学及其应用- ICCSA 2018。ICCSA 2018。课堂讲稿在计算机科学中,第10960卷。可汗:施普林格;2018:526 - 540。gydF4y2Ba
Chandrasekaran R,梅塔V, Valkunde T,工程大肠话题,趋势,和情绪有关COVID-19流行的微博:颞Infoveillance研究。J地中海互联网Res 2020 10月23日,22 (10):e22624 [gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
卡齐啊,伊姆兰M, Ofli GeoCoV19。SIGSPATIAL特殊2020 6月05;12 (1):6 - 15。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
舒贾J, Alanazi E, Alasmary W, Alashaikh Covid-19开源数据集:一个全面的调查。应用智能2020:1-30。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Addawood, Alsuwailem, Alohali, Alajaji D, Alturki M, Alsuhaibani J, et al .跟踪和理解公众的反应在COVID-19:沙特阿拉伯作为一个用例。:学报第一车间在NLP COVID-19 EMNLP 2020(第2部分)。2020年发表于:1车间在NLP COVID-19(第2部分)EMNLP 2020;2020年11月20日;网上。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Hamoui B, Alashaikh Alanazi大肠COVID-19阿拉伯语高音谈论什么?:Chellappan年代,Choo K,表象N,编辑。计算数据和社交网络。可汗:施普林格国际出版;2020:425 - 436。gydF4y2Ba
Alanazi E, Alashaikh Alqurashi年代,Alanazi A .识别和排名普遍COVID-19症状从微博在阿拉伯语:内容分析。J地中海互联网Res 2020 11月18日,22 (11):e21329 [gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Alsudias L, Rayson p COVID-19和阿拉伯语Twitter:阿拉伯世界各国政府和公共卫生组织学习如何从社交媒体?:学报第一车间在2020年COVID-19 NLP的ACL。2020发表于:1日研讨会NLP在ACL COVID-19 2020;2020年7月;在线网址:gydF4y2Bahttps://aclanthology.org/2020.nlpcovid19-acl.16/gydF4y2Ba
Alnemer K, Alhuzaim W, Alnemer Alharbi B, Bawazir, Barayyan O,等。基于健康相关微博的证据吗?审查和分析在Twitter上与健康有关的微博。J地中海互联网Res 2015 10月29日,17 (10):e246 [gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Alayba, Palade V,英格兰M,伊克巴尔r .阿拉伯语情绪分析卫生服务。2017年发表于:1国际研讨会上阿拉伯脚本分析和识别(ASAR);2017年4月3 - 5日;南希,法国p。114 - 118。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Alsobayel h .使用社会媒体的专业发展卫生保健专业人员:横断面网络调查。地中海JMIR建造2016 9月12;2 (2):e15 [gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Shaalan K, Oudah m .阿拉伯语命名实体识别的混合方法。信息科学杂志》2013年10月16日,40 (1):67 - 87。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Zirikly,迪亚布m .命名实体识别为阿拉伯语社交媒体。:学报第一车间为自然语言处理向量空间建模。2015年发表于:1号车间对自然语言处理的向量空间模型;2015年6月;美国科罗拉多州丹佛市p。176 - 185。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Khanwalkar年代,Seldin M,斯利瓦斯塔瓦,库马尔,Colbath美国基于内容定位检测将微博与地图上的热门新闻。2013发表于:第四国际矿业无处不在的研讨会和社会环境;2013;布拉格,捷克共和国。gydF4y2Ba
喇嘛Alsudias。GitHub。URL:gydF4y2Bahttps://github.com/alsudiasgydF4y2Ba[2021-08-27]访问gydF4y2Ba
Artstein R, Poesio m . Inter-Coder协议计算语言学。计算语言学2008年12月,34 (4):555 - 596。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
王,曼宁c .基线和三元:简单,良好的情绪和主题分类。:《50的计算语言学协会年度会议(卷2:短论文)。2012发表于:50计算语言学协会的年度会议;2012年7月;济州岛,韩国p。90 - 94网址:gydF4y2Bahttps://aclanthology.org/P12-2018/gydF4y2Ba
Devlin J, Chang M,李K, Toutanova K·伯特:训练的语言理解的深度双向变形金刚。出来了。预印本网上发布2019年5月24日(gydF4y2Ba免费的全文gydF4y2Ba]gydF4y2Ba
Antoun W,英航F,比起朝圣h . AraBERT:的基于变压器模型阿拉伯语的理解。:第四届研讨会院刊开源阿拉伯语语料库和处理工具,共有一个任务攻击性语言检测。2020年发表于:4日研讨会开源阿拉伯语语料库和处理工具,共有一个攻击性的语言检测任务;2020年5月;法国马赛的9 - 15页。gydF4y2Ba
Szymanski P, Kajdanowicz t scikit-based Python环境中执行多标记分类。出来了。预印本网上发布2018年12月10日(gydF4y2Ba免费的全文gydF4y2Ba]gydF4y2Ba
Maiya ktrain: Low-Code图书馆增强机器学习。出来了。预印本网上发布2020年7月31日(gydF4y2Ba免费的全文gydF4y2Ba]gydF4y2Ba
Benajiba Y,罗索p .阿拉伯语命名实体识别使用条件随机域。2008发表于:车间在阿拉伯世界,停止& NLP LREC;2008;Citeseer p。143 - 153网址:gydF4y2Bahttp://personales.upv.es/prosso/resources/BenajibaRosso_LREC08.pdfgydF4y2Ba
弟子奥贝德O, N,哈利法塔,塔基D, Oudah M, Alhafni B, et al .骆驼工具:一个开放源码的Python工具包为阿拉伯语自然语言处理。:《12日语言资源和评价会议。2020年发表于:12日语言资源和评估会议;2020年5月;法国马赛的p。7022 - 7032。gydF4y2Ba
Benajiba Y,罗索P, BenediRuiz j . ANERsys:一个基于最大熵的阿拉伯语命名实体识别系统。:Gelbukh,编辑器。计算语言学和智能文本处理。2007年的轮轴。课堂讲稿在计算机科学中,第4394卷。柏林,海德堡:施普林格;2007:143 - 153。gydF4y2Ba
国家的地址映射。URL:gydF4y2Bahttps://maps.splonline.com.sa/gydF4y2Ba[2021-08-27]访问gydF4y2Ba
艾哈迈德·W浴P, Demartini g .使用Twitter作为数据来源:概述的伦理、法律和方法论的挑战。:Woodfield K,编辑器。在线的伦理研究(研究伦理的进步和完整性,卷。2)。彬格莱先生,英国:翡翠出版有限;2017:79 - 107。gydF4y2Ba
研究伦理。兰开斯特大学。URL:gydF4y2Bahttps://www.lancaster.ac.uk/sci-tech/research/ethicsgydF4y2Ba[2019-06-01]访问gydF4y2Ba
周吴X, z的一个统一视图多标记性能的措施。:ICML 17:美国第34机器学习。2017年国际会议上发表于:第34机器学习国际会议;8月6尺11寸,2017;悉尼新南威尔士、澳大利亚p。3780 - 3788网址:gydF4y2Bahttps://dl.acm.org/doi/10.5555/3305890.3306072gydF4y2Ba
Alsudias L, Rayson p分类信息来源在阿拉伯语Twitter支持在线监测传染病。2019年发表于:3日阿拉伯语语料库语言学研讨会;2019年7月22日;英国卡迪夫p。比如22 - 30 URL:gydF4y2Bahttps://aclanthology.org/w19 - 5604. - pdfgydF4y2Ba
Semino E, Demjen Z, Demmen J,科勒V,佩恩年代,辛苦地,等。在线使用暴力和旅程隐喻的癌症患者,与卫生专业人员:一个混合方法研究。BMJ支持Palliat保健2017 3月05;7 (1):60 - 66 (gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
袍,Lakamana年代,Hogg-Bremer W,谢,Al-Garadi M,杨y自述COVID-19症状在Twitter上:一个分析和研究资源。J是通知协会2020年8月1日,27日(8):1310 - 1315 (gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Dredze M,保罗•M Bergsma年代,Tran h·卡门:twitter对公众健康地理定位系统和应用程序。2013发表于:AAAI研讨会扩大卫生信息学的边界使用AI (HIAI);2013;Citeseer。gydF4y2Ba
Abdul-Mageed M,张C Bouamor H,哈巴什n楠迪2020:第一个微妙的阿拉伯语方言识别共享任务。:《第五阿拉伯语自然语言处理车间。2020年发表于:第五阿拉伯语自然语言处理车间;2020年12月12日;西班牙巴塞罗那(在线)p。97 - 110网址:gydF4y2Bahttps://aclanthology.org/2020.wanlp-1.9.pdfgydF4y2Ba
喇嘛Alsudias。兰开斯特大学研究门户|》2021。URL:gydF4y2Bahttps://www.research.lancs.ac.uk/portal/en/people/lama-alsudias (2 b6a561a - ef0f - 4058 a713 c454fb133694) / datasets.htmlgydF4y2Ba[2021-02-01]访问gydF4y2Ba

‎gydF4y2Ba

API:gydF4y2Ba应用程序编程接口gydF4y2Ba

AraBERT:gydF4y2Ba阿拉伯语语言理解transformer-based模型gydF4y2Ba

AUC:gydF4y2Ba接受者操作特征曲线下的面积gydF4y2Ba

伯特:gydF4y2Ba从变压器双向编码器表示gydF4y2Ba

ML:gydF4y2Ba机器学习gydF4y2Ba

MLKNN:gydF4y2Bamultilabel改编再邻居gydF4y2Ba

NBSVM:gydF4y2Ba支持向量机与朴素贝叶斯的特性gydF4y2Ba

尼珥:gydF4y2Ba命名实体识别gydF4y2Ba

NLP:gydF4y2Ba自然语言处理gydF4y2Ba

编辑C洛维斯;提交02.02.21;同行评议的年代Doan D黄;评论作者06.04.21;修订版本收到20.04.21;接受20.06.21;发表17.09.21gydF4y2Ba

这是一个开放分布式根据条知识共享归属许可(https://creativecommons.org/licenses/by/4.0/),它允许无限制的使用、分配、和繁殖在任何媒介,提供原工作,首次出版于JMIR医学信息学是正确引用。完整的书目信息,原始发布在https://medinform.www.mybigtv.com/上的链接,以及这个版权和许可信息必须包括在内。gydF4y2Ba

本文在以下gydF4y2Bae-collection /主题问题:gydF4y2Ba

社交媒体监测COVID-19大流行性流感和流感流行与适应的非正式语言阿拉伯语Twitter数据:定性研究gydF4y2Ba

社交媒体监测COVID-19大流行性流感和流感流行与适应的非正式语言阿拉伯语Twitter数据:定性研究gydF4y2Ba

原始论文gydF4y2Ba

通讯作者:gydF4y2Ba

文摘gydF4y2Ba

关键字gydF4y2Ba

介绍gydF4y2Ba

背景gydF4y2Ba

相关工作gydF4y2Ba

相关研究gydF4y2Ba

COVID-19-Related研究gydF4y2Ba

阿拉伯语命名实体Recognition-Related研究gydF4y2Ba

数据收集和过滤gydF4y2Ba

手工编码gydF4y2Ba

评分者间信度gydF4y2Ba

方法gydF4y2Ba

概述gydF4y2Ba

Multilabel分类gydF4y2Ba

尼珥gydF4y2Ba

道德的考虑gydF4y2Ba

结果gydF4y2Ba

Multilabel分类gydF4y2Ba

尼珥gydF4y2Ba

讨论gydF4y2Ba

主要研究结果gydF4y2Ba

结论gydF4y2Ba

确认gydF4y2Ba

的利益冲突gydF4y2Ba

引用gydF4y2Ba

缩写gydF4y2Ba