原始论文gydF4y2Ba
摘要gydF4y2Ba
背景:gydF4y2Ba社交媒体平台(smp)经常被各种制药公司、公共卫生机构和非政府组织(ngo)用于沟通健康问题、新进展和潜在的疫情。尽管将其作为一种工具的好处已被广泛讨论,但在COVID-19期间,各种医疗保健组织在smp上的在线活动在参与和情绪预测方面尚未得到彻底调查。gydF4y2Ba
摘要目的:gydF4y2Ba本研究的目的是分析Twitter上分享的信息的性质,了解在Twitter上产生的公众参与度,并预测各种组织的情绪得分。gydF4y2Ba
方法:gydF4y2Ba数据收集自2017年1月1日至2021年12月31日期间5家制药公司、10家美国和加拿大公共卫生机构以及世界卫生组织(WHO)的推特账户。以2020年2月26日确认的北美首例COVID-19社区传播病例为基础,将181469条推文分为COVID-19之前和COVID-19期间两个阶段进行分析。我们使用基于自然语言处理(NLP)的主题建模技术进行内容分析,生成与健康相关的主题,分析Twitter上的公众参与度,并使用16个单变量移动平均和机器学习(ML)模型进行情绪预测,以了解公众意见与推文内容之间的相关性。gydF4y2Ba
结果:gydF4y2Ba我们使用非负矩阵分解(NMF)从选择用于分析的医疗保健组织撰写的推文中建模主题gydF4y2Ba马塞诸斯州大学的gydF4y2Ba= -3.6530 = -3.7944。主题包括慢性病、卫生研究、社区卫生保健、医学试验、COVID-19、疫苗接种、营养和福祉以及心理健康。就用户影响而言,世界卫生组织(用户影响=4171.24)的总体影响最高,其次是公共卫生机构,疾病控制和预防中心(CDC);用户影响=2895.87),以及美国国立卫生研究院(NIH;用户影响= 891.06)。在制药公司中,辉瑞的用户影响力最高,为97.79。此外,对于情绪预测,自回归综合移动平均(ARIMA)和季节性自回归外生因素综合移动平均(SARIMAX)模型在大多数数据子集(按医疗机构和时期划分)上表现最佳,平均绝对误差(MAE)在0.027 ~ 0.084之间,均方误差(MSE)在0.001 ~ 0.011之间,均方根误差(RMSE)在0.031 ~ 0.105之间。gydF4y2Ba
结论:gydF4y2Ba我们的研究结果表明,人们更多地关注COVID-19等话题,而不是医疗试验和客户体验。此外,不同组织的用户粘性水平也存在显著差异。全球组织,如世卫组织,随着时间的推移在参与水平上表现出很大的差异。所讨论的情绪预测方法为组织提供了一种构建其未来内容以确保最大用户参与度的方法。gydF4y2Ba
doi: 10.2196/37829gydF4y2Ba
关键字gydF4y2Ba
介绍gydF4y2Ba
背景gydF4y2Ba
社交媒体平台(SMPs),如Twitter、Facebook和Reddit,通常被人们用来获取健康信息。在美国,80%的互联网用户在线获取健康信息,其中74%的人使用smp。与此同时,公共卫生机构和制药公司经常使用社交媒体与公众接触[gydF4y2Ba
]。smp通过为公众、患者和卫生保健专业人员(HCPs)提供交流平台来讨论健康问题,最终导致更好的结果,从而对社区做出了重大贡献[gydF4y2Ba ]。此外,smp还通过促进保健教育和向社区提供最新信息,作为激励患者的媒介[gydF4y2Ba ]。分析医疗保健领域的社交媒体内容可以揭示重要的维度,例如受众范围(例如,关注者和订阅者)、帖子来源(例如,制药公司、公共卫生机构)和帖子交互性(例如,点赞、转发的数量)[gydF4y2Ba ]。最近的一项研究讨论了一种机器学习(ML)方法来检查Twitter上的COVID-19 [gydF4y2Ba ]。虽然它确定了讨论主题,但没有研究如何理解公共卫生机构和私人组织共享的内容。gydF4y2Ba相关的工作gydF4y2Ba
患者和医务人员使用smp的积极影响先前已讨论过[gydF4y2Ba
]。患者感到被赋予了权力,并与他们的医护人员建立了积极的关系。例如,Ventola [gydF4y2Ba ]讨论了smp作为分享和促进健康习惯、分享信息和与公众互动的工具。Li等[gydF4y2Ba ]对社交媒体对公众的影响进行了分析。他们的研究讨论了公众对健康相关内容的看法,分为真实、有争议或虚假;研究表明,人们在社交媒体上分享与健康相关的言论时,有一种接受集体观点的强烈倾向。gydF4y2Ba有不同的主题聚类和内容分析技术可用于识别smp上利益相关者的特征(例如,制药公司的药物信息推文)[gydF4y2Ba
,gydF4y2Ba ]。先前的一项研究概述了医疗保健中用于情感分析的技术[gydF4y2Ba ]。研究人员讨论了多种基于词典和基于机器学习的方法。此前对制药企业的讨论主要集中在COVID-19疫苗相关的舆论上[gydF4y2Ba ,gydF4y2Ba ]。研究人员使用潜在狄利克雷分配(LDA)和价感知字典和情绪推理器(VADER),研究了随着时间的推移主题,趋势和情绪[gydF4y2Ba ]。gydF4y2Ba之前的研究工作还集中在七国集团领导人在COVID-19期间在Twitter上的反应[gydF4y2Ba
,gydF4y2Ba ]。该研究将病毒式推文分为适当的类别,最常见的是gydF4y2Ba信息丰富的gydF4y2Ba。此外,研究人员最近就COVID-19期间使用Twitter的利弊进行了讨论[gydF4y2Ba ]。2020年进行的一项流行病学研究调查了推特上的新闻分享行为。虽然它的结论是,包含分享大流行信息的新闻文章的推文很受欢迎,但它们不能取代公共卫生机构、组织或卫生保健提供者[gydF4y2Ba ]。此外,通过人工智能(AI)研究公众情绪可以为制定公共卫生政策提供一种方法[gydF4y2Ba ]。gydF4y2BaCOVID-19在短时间内导致了公众情绪的迅速变化[gydF4y2Ba
]。人们表达了对身体健康的喜悦和感激之情,以及对生命的丧失和居家命令的悲伤和愤怒[gydF4y2Ba ,gydF4y2Ba ]。了解公众对健康相关内容的看法很重要。虽然大多数人对社交媒体持积极态度,但有些人认为需要更多的关注来提高共享信息的可信度[gydF4y2Ba ]。人们试图捕捉人们对这一流行病的反应;然而,它们的范围有限。一项研究通过主题建模调查了北美对公共卫生干预措施的关注[gydF4y2Ba ],而另一项研究则研究了信仰和易感性信息在Twitter公众参与中的作用[gydF4y2Ba ]。统计分析还表明,医疗机构必须主动与消费者进行更多接触[gydF4y2Ba ]。在使用smp时,风险沟通策略的重要性不容忽视[gydF4y2Ba ]。gydF4y2Ba虽然一条推文的参与度和情绪只有在发布后才能计算出来,但预测提供了一种提前预测情绪的迷人方式。基于时间序列的策略,如自回归综合移动平均(ARIMA)和向量自回归(VAR),已被用于预测smp的情绪[gydF4y2Ba
,gydF4y2Ba ]。季节性自回归外生因素综合移动平均(SARIMAX)模型最近被用于通过Twitter上的情绪临近投射来洞察人们当前的情绪状态[gydF4y2Ba ]。gydF4y2BaML和自然语言处理(NLP)算法最近已在各种实例中使用;例如,贝叶斯脊和脊回归模型被用于大规模数据集的情绪预测和医疗保健分析[gydF4y2Ba
,gydF4y2Ba ]。弹性网和套索回归先前已用于医疗保健访问管理和信息交换[gydF4y2Ba ,gydF4y2Ba ],而线性回归、决策树和随机森林模型通常用于流行病水平的疾病跟踪[gydF4y2Ba ]。不同的回归增强算法,如AdaBoost、光梯度增强和梯度增强,也已用于疾病爆发预测[gydF4y2Ba ]。Prophet是一个Python库包,最近被用于COVID-19爆发预测[gydF4y2Ba ]。gydF4y2Ba客观的gydF4y2Ba
社会媒体传播对医护人员的影响已被广泛讨论[gydF4y2Ba
,gydF4y2Ba ]。虽然他们专注于从社交媒体中提取健康和疾病相关内容的优势和方法,但目前对公共卫生机构、非政府组织(ngo)和制药公司如何使用社交媒体与社会产生共鸣缺乏了解。此外,对推文情绪的研究可以补充现有的模型,为未来的推文生成内容。预测推文的情绪是实现这一目标的一种方法。因此,将这些文本内容转化为信息,以制定未来战略,并获得对社交媒体用户看法的宝贵见解,这一点至关重要。gydF4y2Ba本文的其余部分结构如下:首先,在方法部分中提出了使用性能最佳的聚类算法对主题建模进行初步分析,然后使用CardiffNLP的情感和参与分析gydF4y2Batwitter-roberta-base-sentimentgydF4y2Ba模型。然后,我们在完整的数据集上使用16个单变量模型进行了基于时间序列的情绪预测。Results部分概述了获得的模型主题,这些主题用于生成热图,以深入了解主题相关的tweet。接下来,我们讨论了用户粘性及其影响,以了解是否有更高水平的用户粘性受到任何离线事件的影响。此外,我们还讨论了表现最好的情绪预测模型的结果。最后,在讨论部分,我们得出结论,并对未来的工作提出了纲要。gydF4y2Ba
方法gydF4y2Ba
数据集gydF4y2Ba
本研究的数据(181469条推文)是从美国和加拿大主要医疗机构、制药公司和世界卫生组织(WHO)的账户中收集的,使用Twitter学术API for Research v2 [gydF4y2Ba
在2017年1月1日至2021年12月31日期间。排名前五的制药公司是根据医疗保健专业人员在Twitter上提出的建议选出的[gydF4y2Ba ]。gydF4y2Ba 列出为每个Twitter句柄抓取的tweet数。每个组织被称为gydF4y2Ba用户gydF4y2Ba,将组织类型(即制药公司、公共卫生机构、非政府组织)称为本研究范围内的用户组。gydF4y2Ba完整的时间线分为两个阶段进行分析,gydF4y2Ba之前gydF4y2BaCOVID-19和gydF4y2Ba在gydF4y2Ba基于2020年2月26日确认的北美首例COVID-19社区传播病例[gydF4y2Ba
]。gydF4y2Ba 介绍了研究框架的概述。gydF4y2Ba组织名称(Twitter句柄)gydF4y2Ba | 在COVID-19之前,n (%)gydF4y2Ba | 在COVID-19期间,n (%)gydF4y2Ba | 推文总数,NgydF4y2Ba | |
公共卫生机构gydF4y2Ba | ||||
美国疾病控制与预防中心(cdc)gydF4y2Ba | 8435 (58.6)gydF4y2Ba | 5963 (41.4)gydF4y2Ba | 14398年gydF4y2Ba | |
美国疾病控制与预防中心gydF4y2Ba | 1376 (86.3)gydF4y2Ba | 219 (13.7)gydF4y2Ba | 1594gydF4y2Ba | |
加拿大土著政府(gcindig土著人)gydF4y2Ba | 3505 (54.0)gydF4y2Ba | 2989 (46.0)gydF4y2Ba | 6494gydF4y2Ba | |
加拿大卫生部和PHAC(加拿大健康政府)gydF4y2Ba | 7878 (17.2)gydF4y2Ba | 37907 (82.8)gydF4y2Ba | 45785年gydF4y2Ba | |
美国卫生与公众服务部(HHSGov)gydF4y2Ba | 7890 (56.9)gydF4y2Ba | 5969 (43.1)gydF4y2Ba | 13859年gydF4y2Ba | |
印度卫生局(IHSgov)gydF4y2Ba | 1090 (44.7)gydF4y2Ba | 1346 (55.3)gydF4y2Ba | 2436gydF4y2Ba | |
加拿大食品检验局(InspectionCan)gydF4y2Ba | 4145 (62.2)gydF4y2Ba | 2516 (37.8)gydF4y2Ba | 6661gydF4y2Ba | |
美国国立卫生研究院gydF4y2Ba | 5837 (71.6)gydF4y2Ba | 2314 (28.4)gydF4y2Ba | 8151gydF4y2Ba | |
印度国家卫生委员会(NIHB1)gydF4y2Ba | 1247 (51.1)gydF4y2Ba | 1195 (48.9)gydF4y2Ba | 2442gydF4y2Ba | |
美国食品和药物管理局(US_FDA)gydF4y2Ba | 5810 (59.7)gydF4y2Ba | 3925 (40.3)gydF4y2Ba | 9735gydF4y2Ba | |
总计gydF4y2Ba | 47213 (42.3)gydF4y2Ba | 64343 (57.7)gydF4y2Ba | 111555年gydF4y2Ba | |
制药公司gydF4y2Ba | ||||
阿斯利康(阿斯利康)gydF4y2Ba | 3462 (78.2)gydF4y2Ba | 963 (21.8)gydF4y2Ba | 4425gydF4y2Ba | |
生原体(生原体)gydF4y2Ba | 1819 (61.9)gydF4y2Ba | 1120 (38.1)gydF4y2Ba | 2939gydF4y2Ba | |
葛兰素史克(GSK)gydF4y2Ba | 4200 (69.3)gydF4y2Ba | 1857 (30.7)gydF4y2Ba | 6057gydF4y2Ba | |
强生公司(JNJNews)gydF4y2Ba | 4813 (71.4)gydF4y2Ba | 1926 (28.6)gydF4y2Ba | 6739gydF4y2Ba | |
辉瑞(Pfizer)gydF4y2Ba | 3637 (64.1)gydF4y2Ba | 2039 (35.9)gydF4y2Ba | 5676gydF4y2Ba | |
总计gydF4y2Ba | 17931 (69.4)gydF4y2Ba | 7905 (30.6)gydF4y2Ba | 25836年gydF4y2Ba | |
非政府组织gydF4y2Ba一个gydF4y2Ba | ||||
世卫组织gydF4y2Ba | 24775 (56.2)gydF4y2Ba | 19303 (43.8)gydF4y2Ba | 44078年gydF4y2Ba |
一个gydF4y2BaNGO:非政府组织。gydF4y2Ba
内容分析gydF4y2Ba
将每个用户的内容分为COVID-19之前和期间2个阶段。我们使用表现最好的主题模型产生的主题对组织撰写的推文进行主题建模,以便在热图的帮助下探索谈论最多和最少的主题。此外,我们还研究了这些组织使用的十大话题标签。gydF4y2Ba
预处理gydF4y2Ba
首先,所有非字母(数字、标点、换行字符和额外的空格)和统一资源定位器(url)都使用正则表达式模块(gydF4y2Ba再保险2.2.1gydF4y2Ba) [gydF4y2Ba
]的所有推文。清理后的文本然后使用gydF4y2Banltk 3.2.5gydF4y2Ba图书馆(gydF4y2Ba ]。接下来,删除停止词,然后使用PorterStemmer进行词干提取,然后使用WordNetLemmatizer从gydF4y2BanltkgydF4y2Ba。gydF4y2Ba主题建模gydF4y2Ba
研究人员使用术语频率逆文档频率(TF-IDF)为tweet创建文档嵌入[gydF4y2Ba
]。根据他们的方法,我们对推文进行预处理并生成文档嵌入,并将其输入5种不同的聚类算法:LDA、并行LDA、非负矩阵分解(NMF)、潜在语义索引(LSI)和分层狄利let过程(HDP)。这些聚类算法以不同的随机种子值执行了5次。种子值解释了tweet的简短和嘈杂的性质。我们计算了主题模型的一致性分数,cgydF4y2Ba马塞诸斯州大学的gydF4y2Ba[gydF4y2Ba ]和cgydF4y2BavgydF4y2Ba[gydF4y2Ba ],以确认多次运行后的性能一致性。gydF4y2Ba我们使用Gensim LDA [gydF4y2Ba
]、Gensim LDA多核(并行LDA) [gydF4y2Ba ], Gensim LSI [gydF4y2Ba ,gydF4y2Ba )模型。对于NMF和HDP模型,我们对大型语料库使用在线NMF [gydF4y2Ba ]和在线变分推理[gydF4y2Ba ,gydF4y2Ba ]模型。gydF4y2Ba的热图gydF4y2Ba
生成热图使用gydF4y2BaseaborngydF4y2Ba分析每个主题的推文数量。利用每个时间阶段(即COVID-19之前和期间)表现最佳的主题模型产生的主题来生成热图。每个单元格表示组织针对特定主题的tweet总数。例如,在制药公司中,阿斯利康(AstraZeneca)在COVID-19之前的慢性病推文数量最多(n=1729, 49.9%)。gydF4y2Ba
标签gydF4y2Ba
用户推文中提到的前10个标签使用gydF4y2Baadvertools 0.13.0gydF4y2Ba模块(gydF4y2Ba
]。这个工具提取社交媒体帖子中的话题标签。利用该模型分析疫情前和疫情期间推文行为的异同,进行话题分析。gydF4y2Ba情绪分析gydF4y2Ba
情感分析是一种NLP方法,用于根据每条tweet中使用的关键字对Twitter消息中出现的情感进行分类。我们测试了不同的模型,将用户的推文分为3类:积极、消极和中性。虽然对于应该采样多少条推文没有共同的阈值,但我们看到了大约2000条推文的范围[gydF4y2Ba
-gydF4y2Ba ]到几千条推文[gydF4y2Ba -gydF4y2Ba 在测试模型时。在这项研究中,我们在数据收集时间框架内均匀分布了3000条推文,这些推文来自所有Twitter句柄。然后,推文被3个不同的注释者标记,投票最高的情绪类别被选为整体情绪。CardiffNLP的gydF4y2Batwitter-roberta-base-sentimentgydF4y2Ba模型(gydF4y2Ba ],它是在6000万个Twitter语料库上训练的,用于获得采样数据集上的情感标签。我们检查了人类注释和模型标签之间的相似性,CardiffNLP模型的相似性百分比为69.96%;因此,该模型被用来预测用户对剩余推文的情绪。gydF4y2Ba参与分析gydF4y2Ba
对于给定的用户,Twitter定义了用户粘性[gydF4y2Ba
]如式(1)所示:gydF4y2Ba,“gydF4y2Ba订婚gydF4y2Ba是每条推文的点赞数、回复数、转发数、媒体浏览量、推文扩展数、个人资料数、标签数、URL点击数和新关注者数的总和,以及gydF4y2Ba印象gydF4y2Ba是一条推文在推特上被看到的总次数,比如通过关注者的时间轴、推特搜索,或者因为有人喜欢你的推文。”gydF4y2Ba
研究人员通过提出启发式和基于神经网络的模型,分析了Twitter句柄的影响(受欢迎程度)[gydF4y2Ba
-gydF4y2Ba ]。我们将其定义为关注者、关注者、tweets总数和个人资料年龄的函数,并使用式(2)进行计算:gydF4y2Ba在哪里gydF4y2BalistedCountgydF4y2Ba此用户所属的公共列表的个数。gydF4y2Ba
用户发布的tweet总数被认为与用户的影响力成反比,因为偶尔发布tweet并获得较高参与度的用户比经常发布tweet但参与度较低的用户更有影响力。gydF4y2Ba
参与分析是为了量化所产生的话题的受欢迎程度。每个用户的参与度定义为每天平均参与度与其影响力的乘积,如式(3)所示。每天平均参与度计算为每天点赞、回复、转发和引用的总和。这些反应汇总自2017年1月1日至2021年12月31日。gydF4y2Ba
指数移动平均线(EMA)计算每个用户的窗口跨度为151天,使用z-score去除异常值,然后使用Savitzky-Golay过滤器将每天的平均参与度平滑到8度[gydF4y2Ba
]。gydF4y2Ba情绪预测gydF4y2Ba
为了预测每天的情绪,我们首先需要量化每个用户每天发布的推文的整体情绪。我们利用了CardiffNLP的gydF4y2Batwitter-roberta-base-sentimentgydF4y2Ba模型(gydF4y2Ba
]来计算收集到的用于我们分析的所有推文的情绪,然后根据当天推文数量最多的情绪类别计算每日情绪得分,如式(4)所示,然后根据情绪:0为分配情绪得分gydF4y2Ba中性gydF4y2Ba情绪,正面推文数与总推文数之比gydF4y2Ba积极的gydF4y2Ba情绪,以及负面推文数与总推文数之比gydF4y2Ba负gydF4y2Ba情绪。gydF4y2Ba然后将每日情绪得分重新采样为每月平均情绪得分,这也有助于我们处理缺失值(如果有的话)。如前所述,将完整的时间线分为2个阶段(即COVID-19之前和期间),并在每个时期对所有用户组的20%数据集进行情绪评分预测。gydF4y2Ba
使用网格搜索找到最优超参数,并对每个模型进行5次交叉验证。的gydF4y2BastatsmodelgydF4y2Ba图书馆(gydF4y2Ba
]用于ARIMA [gydF4y2Ba ]及SARIMAX [gydF4y2Ba 模型,以及gydF4y2BapycaretgydF4y2Ba[gydF4y2Ba ]用于基于回归的模型。我们还报告了gydF4y2Ba先知gydF4y2Ba[gydF4y2Ba 在数据集上建立模型。gydF4y2Ba选择平均绝对误差(MAE)、均方误差(MSE)和均方根误差(RMSE)三个指标来评价模型的预测精度。我们在本研究中考虑提前一步预测,因为它有助于避免与前一时期累积误差相关的问题。gydF4y2Ba
计算资源gydF4y2Ba
这项研究是利用加拿大计算机(现称为加拿大数字研究联盟)的资源进行的,这些资源提供了对先进研究计算(ARC)、研究数据管理(RDM)和研究软件(RS)的访问。以下是国家服务(数字研究联盟)的一个集群提供的计算资源列表,Graham:gydF4y2Ba
- CPU: 2x Intel E5-2683 v4 Broadwell@2.1 GHzgydF4y2Ba
- 内存(RAM): 30gbgydF4y2Ba
结果gydF4y2Ba
内容分析gydF4y2Ba
每个模型所使用的参数细节见gydF4y2Ba
表1。gydF4y2Ba 显示了平均连贯分数(cgydF4y2BavgydF4y2Ba和cgydF4y2Ba马塞诸斯州大学的gydF4y2Ba)。虽然HDP有最高的cgydF4y2BavgydF4y2Ba在两个时间阶段(即COVID-19前和期间分别为0.696和0.650),NMF得分最高gydF4y2Ba马塞诸斯州大学的gydF4y2Ba得分(分别为-3.653和-3.794),并为数据集生成最有意义的主题(见gydF4y2Ba 表S2和表S3)。因此,选择NMF生成的前5个话题在Google搜索结果的第一页进行搜索。然后检索结果内容来解释提取的主题关键字,以提出合适的主题名称。例如,对于主题模型生成的关键字集gydF4y2Ba社区卫生gydF4y2Ba,gydF4y2Ba护理gydF4y2Ba,gydF4y2Ba社区卫生服务gydF4y2Ba,gydF4y2Ba健康中心gydF4y2Ba,gydF4y2Ba家庭保健中心gydF4y2Ba,gydF4y2Ba社区计划gydF4y2Ba,gydF4y2Ba社区诊所gydF4y2Ba,gydF4y2Ba家庭保健gydF4y2Ba,gydF4y2Ba合格的保健中心gydF4y2Ba,gydF4y2Ba卫生服务gydF4y2Ba,我们布置了题目gydF4y2Ba社区卫生服务gydF4y2Ba。gydF4y2Ba显示不同Twitter句柄的主题分布的缩放热图如图所示gydF4y2Ba
。在COVID-19之前,慢性病是最活跃的话题,来自制药公司和世卫组织的推文共有9488条(见gydF4y2Ba a).然而,在COVID-19期间,我们观察到COVID-19、健康研究和慢性病是讨论最多的话题,来自所有数据集的推文加起来有52148条(见gydF4y2Ba ,图S1b和S1d)。gydF4y2Ba在整个数据集中观察到了推文内容的这种变化,我们进一步做出了以下推论:gydF4y2Ba
- 在2019冠状病毒病之前:慢性病是制药公司谈论最多的话题(阿斯利康,1729,推特占49.9%;辉瑞,1168,32.1%,推文)和世卫组织(4831,19.5%,推文),其次是关于卫生研究的推文(世卫组织,1703,6.9%,推文;阿斯利康(AstraZeneca, 1037, 29.9%)。这是由gydF4y2Ba A,它显示#癌症,#肺癌,#阿尔茨海默氏症,#艾滋病毒和#ms在推文中被显著使用。在公共卫生机构中,美国国立卫生研究院(NIH)和美国疾病控制与预防中心(CDC)的推特账号最活跃,分别有1840条(31.6%)和1742条(20.6%)推文讨论健康研究和慢性疾病,并得到了最常用的标签#原生健康和#食品安全(参考)的强烈支持gydF4y2Ba ,图S2a和S2c)。gydF4y2Ba
- 在2019冠状病毒病期间:慢性病和健康研究分别是阿斯利康(680条,推特70.6%)和葛兰素史克(GSK, 655条,推特35.2%)最活跃的话题。此外,GSK(398条,21.4%)和辉瑞(396条,19.4%)在推特上谈论最多的是COVID-19和疫苗接种。gydF4y2Ba B显示了支持这一观点的标签:#covid - 19、#阿尔茨海默氏症、#癌症、#多发性硬化和#疫苗。GovCanHealth是迄今为止Twitter上最活跃的公共卫生机构,有16,832条(87.2%)关于健康研究的推文,16,449条(85.2%)关于疫苗接种的推文,14,260条(73.8%)关于COVID-19的推文,# COVID-19, #冠状病毒和#covid - vaccine是热门标签。世卫组织的大部分推文都是关于COVID-19(8911条推文)和疫苗接种(2131条推文),# COVID-19、#冠状病毒和#疫苗公平经常出现在推文中(参见gydF4y2Ba 图S2d)。gydF4y2Ba
聚类算法gydF4y2Ba | cgydF4y2BavgydF4y2Ba | cgydF4y2Ba马塞诸斯州大学的gydF4y2Ba | 耗时(分:秒)gydF4y2Ba | |
之前COVID-19gydF4y2Ba | ||||
乔治。gydF4y2BabgydF4y2Ba | 0.352gydF4y2Ba | -5.526gydF4y2Ba | 17:11gydF4y2Ba | |
平行发展gydF4y2Ba | 0.396gydF4y2Ba | -3.709gydF4y2Ba | 5:48gydF4y2Ba | |
NMFgydF4y2BacgydF4y2Ba | 0.493gydF4y2Ba | -3.653gydF4y2Ba | 7:38gydF4y2Ba | |
大规模集成电路gydF4y2BadgydF4y2Ba | 0.316gydF4y2Ba | -5.921gydF4y2Ba | 0:16gydF4y2Ba | |
黄芪丹参滴丸gydF4y2BaegydF4y2Ba | 0.696gydF4y2Ba | -18.668gydF4y2Ba | 3:24gydF4y2Ba | |
在COVID-19gydF4y2Ba | ||||
乔治。gydF4y2Ba | 0.456gydF4y2Ba | -5.688gydF4y2Ba | 14:01gydF4y2Ba | |
平行发展gydF4y2Ba | 0.446gydF4y2Ba | -3.990gydF4y2Ba | 6:08gydF4y2Ba | |
NMFgydF4y2Ba | 0.567gydF4y2Ba | -3.794gydF4y2Ba | 7:04gydF4y2Ba | |
大规模集成电路gydF4y2Ba | 0.381gydF4y2Ba | -5.356gydF4y2Ba | 0:16gydF4y2Ba | |
黄芪丹参滴丸gydF4y2Ba | 0.650gydF4y2Ba | -17.610gydF4y2Ba | 3:01gydF4y2Ba |
一个gydF4y2BaCPU:中央处理器。gydF4y2Ba
bgydF4y2Ba潜狄利克雷分配。gydF4y2Ba
cgydF4y2BaNMF:非负矩阵分解。gydF4y2Ba
dgydF4y2Ba潜在语义索引。gydF4y2Ba
egydF4y2Ba层次狄利克雷过程。gydF4y2Ba
参与分析gydF4y2Ba
世卫组织(用户影响=4171.24)的总体影响最高,其次是公共卫生机构(CDC用户影响=2895.87;NIH用户影响=891.06)。在制药公司中,辉瑞的用户影响力最高,为97.79。用户影响在0到1的范围内归一化,见gydF4y2Ba
。gydF4y2Ba在制药公司中,辉瑞的用户参与度远高于其他公司(gydF4y2Ba
),在2019冠状病毒病之前和期间,在2020年11月其COVID-19疫苗取得成功时观察到的参与度最高。2021年5月,辉瑞宣布了帮助印度抗击第二波冠状病毒的计划,双方的参与度也大幅上升gydF4y2Ba (表S4)。gydF4y2Ba在公共卫生机构中也观察到类似的趋势,疾病预防控制中心的账户显示,在2020年3月至6月,即COVID-19大流行的最初几个月,用户参与度最高。2021年5月,当疾病预防控制中心宣布放松对完全接种疫苗的个人的社交距离和掩盖规则时,观察到用户参与度急剧上升。随着时间的推移,世卫组织账户的用户参与度变化很大。其参与程度在2020年2月至4月(大流行的最初几个月)的时间框架内最高,与公共卫生机构的情况相似。2020年10月,在宣布世界精神卫生日之后,以及2020年底,世卫组织宣布开发COVID-19疫苗(见gydF4y2Ba
(图S3)。gydF4y2Ba情绪预测gydF4y2Ba
显示了数据集上使用的16个模型的MAE、MSE和RMSE。总体而言,ARIMA(单变量)和SARIMAX模型在大多数数据子集(按组织和时期划分)上表现最好,我们进一步得出以下推论:gydF4y2Ba
- 在新冠肺炎之前,ARIMA和SARIMAX模型对制药公司的均方根误差最低(0.005),均方根误差最低(0.072)。当通过MAE测量模型性能时,ARIMA的表现优于其他所有模型(0.063)。在公共卫生机构中也观察到类似的趋势,ARIMA具有最低的MAE (0.027), SARIMAX具有最低的RMSE(0.031),两者之间的MSE(0.001)相等。在WHO数据集中,SARIMAX的MAE(0.054)、MSE(0.004)和RMSE(0.080)最低。gydF4y2Ba
- 在COVID-19期间:使用CatBoost回归因子给出了最低的MAE(0.072)和RMSE(0.086),而k邻居回归因子产生了最低的MSE(0.008)。在所有使用的模型中,使用AdaBoost进行回归产生的MAE(0.084)和RMSE(0.105)最低,而SARIMAX对公共卫生机构的MSE(0.011)最低。对于WHO,弹性网、套索回归和光梯度增强模型均表现良好,3种模型的MAE(0.046)和RMSE(0.059)相同,其中SARIMAX模型的MSE最低(0.004)。gydF4y2Ba
a是使用ARIMA对制药公司在COVID-19之前的1步预测。该模型在2017年1月至2019年6月的情绪得分上进行了训练,并在2019年7月至2020年2月的数据上对2019冠状病毒病之前的推文进行了测试。提前一步的预测与观察到的情绪得分非常吻合,我们在公共卫生机构和世卫组织获得了类似的结果。各企业在新冠疫情期间进行超前一步预测时,与观察到的情绪存在一定偏差,难以准确预测企业情绪gydF4y2Ba ,图S4。gydF4y2Ba
为了验证这些模型的预测性能,我们检查了它们的残差的性质(即,模型的残差是否呈正态分布,平均值为0,SD为1,并且不相关)。从gydF4y2Ba
图S5,与公共卫生机构的情况一样,在COVID-19之前,我们使用ARIMA确认了上述情况gydF4y2Baplot_diagnosticsgydF4y2Ba。绿色的核密度估计(KDE)线紧跟着右上角的正态分布(N{0,1})线gydF4y2Ba ,图S5,这是一个积极的指标,残差是正常分散的。左下角的分位数-分位数(Q-Q)图显示,残差(蓝点)的分布近似遵循标准正态分布n中样本的线性趋势,这再次证实了残差是正态分布。随时间变化的残差(左上)gydF4y2Ba (图S5)没有明显的季节性,平均值为0。自相关图(即相关图)证明了这一点,表明时间序列残差与自身的滞后形式表现出最小的相关性。因此,这些发现鼓励我们相信我们的模型提供了充分的拟合,这可能有助于我们理解组织的情绪并预测它们的值,而不会使我们的硬件负担过重。gydF4y2Ba模型gydF4y2Ba | 制药公司gydF4y2Ba | 公共卫生机构gydF4y2Ba | 谁gydF4y2BabgydF4y2Ba | |||||||||||||||||||||
之前COVID-19gydF4y2Ba | 在COVID-19gydF4y2Ba | 之前COVID-19gydF4y2Ba | 在COVID-19gydF4y2Ba | 之前COVID-19gydF4y2Ba | 在COVID-19gydF4y2Ba | |||||||||||||||||||
美gydF4y2BacgydF4y2Ba | 均方误差gydF4y2BadgydF4y2Ba | RMSEgydF4y2BaegydF4y2Ba | 美gydF4y2Ba | 均方误差gydF4y2Ba | RMSEgydF4y2Ba | 美gydF4y2Ba | 均方误差gydF4y2Ba | RMSEgydF4y2Ba | 美gydF4y2Ba | 均方误差gydF4y2Ba | RMSEgydF4y2Ba | 美gydF4y2Ba | 均方误差gydF4y2Ba | RMSEgydF4y2Ba | 美gydF4y2Ba | 均方误差gydF4y2Ba | RMSEgydF4y2Ba | |||||||
华宇电脑gydF4y2BafgydF4y2Ba | 0.063gydF4y2BaggydF4y2Ba | 0.005gydF4y2BaggydF4y2Ba | 0.072gydF4y2BaggydF4y2Ba | 0.098gydF4y2Ba | 0.013gydF4y2Ba | 0.112gydF4y2Ba | 0.027gydF4y2BaggydF4y2Ba | 0.001gydF4y2BaggydF4y2Ba | 0.032gydF4y2BahgydF4y2Ba | 0.240gydF4y2Ba | 0.082gydF4y2Ba | 0.286gydF4y2Ba | 0.066gydF4y2BahgydF4y2Ba | 0.006gydF4y2BahgydF4y2Ba | 0.080gydF4y2BahgydF4y2Ba | 0.106gydF4y2Ba | 0.012gydF4y2Ba | 0.111gydF4y2Ba | ||||||
SARIMAXgydF4y2Ba我gydF4y2Ba | 0.065gydF4y2BahgydF4y2Ba | 0.005gydF4y2BaggydF4y2Ba | 0.072gydF4y2BaggydF4y2Ba | 0.084gydF4y2Ba | 0.011gydF4y2Ba | 0.104gydF4y2Ba | 0.028gydF4y2BajgydF4y2Ba | 0.001gydF4y2BaggydF4y2Ba | 0.031gydF4y2BaggydF4y2Ba | 0.709gydF4y2Ba | 0.011gydF4y2BaggydF4y2Ba | 0.106gydF4y2BahgydF4y2Ba | 0.054gydF4y2BaggydF4y2Ba | 0.004gydF4y2BaggydF4y2Ba | 0.061gydF4y2BaggydF4y2Ba | 0.047gydF4y2BahgydF4y2Ba | 0.004gydF4y2BaggydF4y2Ba | 0.066gydF4y2Ba | ||||||
贝叶斯脊gydF4y2Ba | 0.083gydF4y2Ba | 0.010gydF4y2Ba | 0.100gydF4y2Ba | 0.102gydF4y2Ba | 0.018gydF4y2Ba | 0.119gydF4y2Ba | 0.031gydF4y2Ba | 0.001gydF4y2Ba | 0.037gydF4y2Ba | 0.141gydF4y2Ba | 0.037gydF4y2Ba | 0.163gydF4y2Ba | 0.075gydF4y2BajgydF4y2Ba | 0.009gydF4y2BajgydF4y2Ba | 0.087gydF4y2BajgydF4y2Ba | 0.061gydF4y2Ba | 0.008gydF4y2Ba | 0.075gydF4y2Ba | ||||||
岭回归gydF4y2Ba | 0.069gydF4y2Ba | 0.008gydF4y2Ba | 0.085gydF4y2Ba | 0.079gydF4y2Ba | 0.011gydF4y2Ba | 0.094gydF4y2Ba | 0.030gydF4y2Ba | 0.002gydF4y2Ba | 0.038gydF4y2Ba | 0.124gydF4y2Ba | 0.029gydF4y2Ba | 0.147gydF4y2Ba | 0.076gydF4y2Ba | 0.009gydF4y2Ba | 0.091gydF4y2Ba | 0.056gydF4y2Ba | 0.007gydF4y2Ba | 0.068gydF4y2Ba | ||||||
CatBoost回归量gydF4y2Ba | 0.066gydF4y2Ba | 0.007gydF4y2BajgydF4y2Ba | 0.080gydF4y2BahgydF4y2Ba | 0.072gydF4y2BaggydF4y2Ba | 0.008gydF4y2BahgydF4y2Ba | 0.086gydF4y2BaggydF4y2Ba | 0.027gydF4y2BahgydF4y2Ba | 0.001gydF4y2BahgydF4y2Ba | 0.035gydF4y2Ba | 0.104gydF4y2Ba | 0.023gydF4y2Ba | 0.127gydF4y2Ba | 0.079gydF4y2Ba | 0.009gydF4y2Ba | 0.089gydF4y2Ba | 0.052gydF4y2Ba | 0.007gydF4y2Ba | 0.065gydF4y2Ba | ||||||
K-neighbors回归量gydF4y2Ba | 0.070gydF4y2Ba | 0.009gydF4y2Ba | 0.087gydF4y2Ba | 0.075gydF4y2BahgydF4y2Ba | 0.008gydF4y2BaggydF4y2Ba | 0.087gydF4y2BahgydF4y2Ba | 0.030gydF4y2Ba | 0.001gydF4y2Ba | 0.036gydF4y2Ba | 0.093gydF4y2BajgydF4y2Ba | 0.022gydF4y2Ba | 0.113gydF4y2Ba | 0.081gydF4y2Ba | 0.011gydF4y2Ba | 0.100gydF4y2Ba | 0.050gydF4y2Ba | 0.007gydF4y2Ba | 0.061gydF4y2BajgydF4y2Ba | ||||||
弹性网gydF4y2Ba | 0.070gydF4y2Ba | 0.008gydF4y2Ba | 0.088gydF4y2Ba | 0.080gydF4y2Ba | 0.009gydF4y2BajgydF4y2Ba | 0.093gydF4y2BajgydF4y2Ba | 0.029gydF4y2Ba | 0.001gydF4y2BahgydF4y2Ba | 0.035gydF4y2Ba | 0.087gydF4y2BahgydF4y2Ba | 0.021gydF4y2BajgydF4y2Ba | 0.109gydF4y2BajgydF4y2Ba | 0.082gydF4y2Ba | 0.011gydF4y2Ba | 0.100gydF4y2Ba | 0.046gydF4y2BaggydF4y2Ba | 0.006gydF4y2BahgydF4y2Ba | 0.059gydF4y2BaggydF4y2Ba | ||||||
套索回归gydF4y2Ba | 0.070gydF4y2Ba | 0.008gydF4y2Ba | 0.088gydF4y2Ba | 0.080gydF4y2Ba | 0.009gydF4y2BajgydF4y2Ba | 0.093gydF4y2BajgydF4y2Ba | 0.029gydF4y2Ba | 0.001gydF4y2Ba | 0.035gydF4y2Ba | 0.087gydF4y2BahgydF4y2Ba | 0.021gydF4y2BajgydF4y2Ba | 0.109gydF4y2BajgydF4y2Ba | 0.082gydF4y2Ba | 0.011gydF4y2Ba | 0.100gydF4y2Ba | 0.046gydF4y2BaggydF4y2Ba | 0.006gydF4y2BahgydF4y2Ba | 0.059gydF4y2BaggydF4y2Ba | ||||||
随机森林回归量gydF4y2Ba | 0.065gydF4y2BajgydF4y2Ba | 0.007gydF4y2BahgydF4y2Ba | 0.081gydF4y2BajgydF4y2Ba | 0.080gydF4y2Ba | 0.010gydF4y2Ba | 0.093gydF4y2Ba | 0.028gydF4y2Ba | 0.001gydF4y2BahgydF4y2Ba | 0.034gydF4y2BajgydF4y2Ba | 0.110gydF4y2Ba | 0.024gydF4y2Ba | 0.134gydF4y2Ba | 0.082gydF4y2Ba | 0.009gydF4y2Ba | 0.090gydF4y2Ba | 0.047gydF4y2BajgydF4y2Ba | 0.006gydF4y2BajgydF4y2Ba | 0.060gydF4y2BahgydF4y2Ba | ||||||
光梯度增强机gydF4y2Ba | 0.070gydF4y2Ba | 0.008gydF4y2Ba | 0.088gydF4y2Ba | 0.080gydF4y2Ba | 0.009gydF4y2BajgydF4y2Ba | 0.093gydF4y2BajgydF4y2Ba | 0.029gydF4y2Ba | 0.001gydF4y2BahgydF4y2Ba | 0.035gydF4y2Ba | 0.087gydF4y2BahgydF4y2Ba | 0.021gydF4y2BajgydF4y2Ba | 0.109gydF4y2BajgydF4y2Ba | 0.082gydF4y2Ba | 0.011gydF4y2Ba | 0.100gydF4y2Ba | 0.046gydF4y2BaggydF4y2Ba | 0.006gydF4y2BahgydF4y2Ba | 0.059gydF4y2BaggydF4y2Ba | ||||||
梯度增强回归量gydF4y2Ba | 0.075gydF4y2Ba | 0.008gydF4y2Ba | 0.086gydF4y2Ba | 0.079gydF4y2Ba | 0.010gydF4y2Ba | 0.094gydF4y2Ba | 0.029gydF4y2Ba | 0.001gydF4y2BajgydF4y2Ba | 0.036gydF4y2Ba | 0.141gydF4y2Ba | 0.034gydF4y2Ba | 0.168gydF4y2Ba | 0.082gydF4y2Ba | 0.010gydF4y2Ba | 0.094gydF4y2Ba | 0.051gydF4y2Ba | 0.008gydF4y2Ba | 0.064gydF4y2Ba | ||||||
演算法回归量gydF4y2Ba | 0.070gydF4y2Ba | 0.007gydF4y2Ba | 0.082gydF4y2Ba | 0.080gydF4y2Ba | 0.010gydF4y2Ba | 0.091gydF4y2Ba | 0.029gydF4y2Ba | 0.001gydF4y2Ba | 0.037gydF4y2Ba | 0.084gydF4y2BaggydF4y2Ba | 0.020gydF4y2BahgydF4y2Ba | 0.105gydF4y2BaggydF4y2Ba | 0.087gydF4y2Ba | 0.010gydF4y2Ba | 0.096gydF4y2Ba | 0.057gydF4y2Ba | 0.007gydF4y2Ba | 0.072gydF4y2Ba | ||||||
极端梯度增压gydF4y2Ba | 0.068gydF4y2Ba | 0.009gydF4y2Ba | 0.087gydF4y2Ba | 0.080gydF4y2Ba | 0.011gydF4y2Ba | 0.098gydF4y2Ba | 0.031gydF4y2Ba | 0.002gydF4y2Ba | 0.040gydF4y2Ba | 0.151gydF4y2Ba | 0.045gydF4y2Ba | 0.171gydF4y2Ba | 0.087gydF4y2Ba | 0.011gydF4y2Ba | 0.098gydF4y2Ba | 0.055gydF4y2Ba | 0.007gydF4y2Ba | 0.065gydF4y2Ba | ||||||
决策树回归器gydF4y2Ba | 0.076gydF4y2Ba | 0.009gydF4y2Ba | 0.086gydF4y2Ba | 0.087gydF4y2Ba | 0.013gydF4y2Ba | 0.106gydF4y2Ba | 0.029gydF4y2Ba | 0.001gydF4y2Ba | 0.037gydF4y2Ba | 0.112gydF4y2Ba | 0.030gydF4y2Ba | 0.142gydF4y2Ba | 0.098gydF4y2Ba | 0.014gydF4y2Ba | 0.111gydF4y2Ba | 0.048gydF4y2Ba | 0.006gydF4y2BajgydF4y2Ba | 0.061gydF4y2Ba | ||||||
线性回归gydF4y2Ba | 0.245gydF4y2Ba | 0.312gydF4y2Ba | 0.314gydF4y2Ba | 0.094gydF4y2Ba | 0.017gydF4y2Ba | 0.114gydF4y2Ba | 0.157gydF4y2Ba | 0.164gydF4y2Ba | 0.216gydF4y2Ba | 0.124gydF4y2Ba | 0.029gydF4y2Ba | 0.148gydF4y2Ba | 2.367gydF4y2Ba | 52.719gydF4y2Ba | 3.334gydF4y2Ba | 0.062gydF4y2Ba | 0.008gydF4y2Ba | 0.076gydF4y2Ba | ||||||
先知gydF4y2Ba | 0.108gydF4y2Ba | 0.016gydF4y2Ba | 0.126gydF4y2Ba | 0.089gydF4y2Ba | 0.011gydF4y2Ba | 0.104gydF4y2Ba | 0.040gydF4y2Ba | 0.002gydF4y2Ba | 0.049gydF4y2Ba | 0.120gydF4y2Ba | 0.015gydF4y2Ba | 0.124gydF4y2Ba | 0.114gydF4y2Ba | 0.020gydF4y2Ba | 0.143gydF4y2Ba | 0.086gydF4y2Ba | 0.011gydF4y2Ba | 0.106gydF4y2Ba |
一个gydF4y2BaML:机器学习。gydF4y2Ba
bgydF4y2Ba卫生组织:世界卫生组织。gydF4y2Ba
cgydF4y2Ba平均绝对误差。gydF4y2Ba
dgydF4y2BaMSE:均方误差。gydF4y2Ba
egydF4y2Ba均方根误差:均方根误差。gydF4y2Ba
fgydF4y2BaARIMA:自回归综合移动平均。gydF4y2Ba
ggydF4y2Ba表现最好的预测方法。gydF4y2Ba
hgydF4y2Ba第二高表现的预测方法。gydF4y2Ba
我gydF4y2BaSARIMAX:考虑外源因素的季节自回归综合移动平均。gydF4y2Ba
jgydF4y2Ba第三高表现的预测方法。gydF4y2Ba
讨论gydF4y2Ba
主要研究结果gydF4y2Ba
在本文中,我们提出了一个框架,用于使用基于nlp的文本挖掘技术对各种医疗保健组织进行全面的社交媒体内容分析。我们处理了相当大量的文本数据,用于主题建模、情感和参与分析以及情感预测。我们的研究揭示了以下主要发现:gydF4y2Ba
- 成为社交媒体上最活跃的组织并不能转化为更多的用户影响力。世界卫生组织和美国公共卫生机构疾病预防控制中心产生的用户影响远远超过加拿大公共卫生署,尽管后者在主题分析中有大量相关推文。人们更有可能与gydF4y2Ba中性gydF4y2Ba推特,通常包括一些公共卫生公告,而不是专门的gydF4y2Ba积极的gydF4y2Ba或gydF4y2Ba负gydF4y2Batweet。这可能意味着组织可以在未来为社交媒体帖子创建内容时利用这些知识来提高他们在在线领域的知名度。gydF4y2Ba
- 某些主题通常会转化为更多的用户粘性。虽然在研究期间发布的大部分推文都是关于慢性疾病和健康研究的内容,但与制药公司相比,公共卫生机构对COVID-19和疫苗接种的讨论明显转变。有关新冠肺炎和慢性疾病的推文引起了更多的关注。也许令人惊讶的是,我们发现人们不太愿意接受通常由制药公司分享的医学试验内容,除非它涉及公共卫生紧急情况,如COVID-19大流行。使用特定的标签当然有助于提高参与度,因为我们发现大多数用户的参与度都高度倾向于与COVID-19有关的推文。此外,我们的研究显示,与大多数卫生保健组织的用户参与模式(即,在重大事件或公告周围观察到峰值)相比,世卫组织的用户参与度存在很大差异。这可能是由于世卫组织在全球的存在,这意味着它可能不是每次都有同一组追随者参与其内容,而只是那些以某种方式受到内容影响或对内容感兴趣的人。gydF4y2Ba
- 当内容结构化时,结果往往会超出预期。我们使用不同的移动平均线和各种ML单变量模型对数据集进行了情绪预测。令人惊讶的是,我们观察到,当内容结构化时,就像官方推特账户上的通常情况一样,结果往往超出预期,在2019冠状病毒病之前比在2019冠状病毒病期间更是如此。本研究中使用的模型能够以高精度和低误差预测月度tweet情绪。这有助于我们深入分析我们的工作,并且我们不需要创建任何多元ML模型。结果表明,常用的ARIMA和SARIMAX模型效果良好,可以用于实时数据的推文情绪预测。这也可以帮助组织将tweet情绪与用户粘性联系起来。例如,辉瑞公司推特上参与度最高的是那些有标签的gydF4y2Ba中性gydF4y2Ba这意味着该组织应该以类似的方式构建其未来推文的内容,以保持更高的参与度。此外,提到更多新闻相关内容的推文可能会转化为更多的用户参与度。gydF4y2Ba
局限性和未来工作gydF4y2Ba
本研究有3个局限性,可以在未来的研究中加以解决。首先,这项工作的重点是将推文分为两个阶段,gydF4y2Ba之前gydF4y2Ba和gydF4y2Ba在gydF4y2Ba新型冠状病毒肺炎在未来,研究人员可以采用其他方法来构建分析时间轴。其次,本研究仅处理tweet的结构化文本内容。在未来的研究中也纳入图像属性的存在将是有趣的。最后,由于本研究的范围仅限于医疗机构,我们没有考虑公共人口统计数据。了解公众参与这些内容的人口背景是另一个可以在未来研究中探索的领域。gydF4y2Ba
结论gydF4y2Ba
这项研究调查了美国和加拿大医疗机构在Twitter上的在线活动。这里介绍的基于nlp的社交媒体分析可以结合起来衡量先前发布的推文的参与度,并生成推文,对通过smp获取健康信息的人产生影响。随着组织继续通过向社区提供最新信息来利用smp,在发布之前预测tweet的情绪可以提高公众对组织的看法。总之,我们发现,对一个组织的社交媒体使用情况进行内容分析和情绪预测,可以全面了解该组织如何与社会产生共鸣。gydF4y2Ba
致谢gydF4y2Ba
作者感谢湖首大学数据实验室成员的宝贵讨论,以及Andy Pan, Chandreen Ravihari Liyanage和Lakshmi Preethi Kamak对采样推文进行注释以评估推文情绪。本研究利用加拿大数字研究联盟的计算资源进行。AS和MKB得到了加拿大多伦多矢量研究所人工智能(AI)矢量奖学金和VM举办的自然科学与工程研究委员会(NSERC)发现基金(#RGPIN-2017-05377)的支持。gydF4y2Ba
利益冲突gydF4y2Ba
没有宣布。gydF4y2Ba
gydF4y2Ba主题和用户参与度。gydF4y2Ba
PDF文件(Adobe PDF文件),666 KBgydF4y2Ba参考文献gydF4y2Ba
- 有传言CL。社交媒体和医疗保健专业人员:利益、风险和最佳实践。pti 2014;39(7):491-520 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 社会媒体在医疗保健中的使用:组织、临床和患者的观点。种马卫生技术通报2013;183:244-248。[gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 周磊,张东,杨春春,王勇。利用社交媒体进行健康信息管理。电子工程学报,2018;27:139-151 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 薛健,陈健,胡锐,陈超,郑超,苏勇,等。关于COVID-19大流行的推特讨论和情绪:机器学习方法。[J] .中国医学信息学报,2020,11 (11):1145 - 1145 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 贝内托利A,陈T, Aslani P.患者使用社交媒体如何影响他们与医护人员的互动。中华医学杂志,2018;31(3):439-444。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 李海,李本。社交媒体的社会影响:感知真实性和信息共享的检验。计算机工程学报,2014,41(1):278-287。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 陆燕,吴燕,刘军,李军,张鹏。基于不同利益相关者视角的医疗社会化媒体使用:基于网络健康社区的内容分析。医学互联网研究,2017年4月07日;19(4):e109 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 蒂拉斯基J,安德里亚DC。制药公司及其在社交媒体上的药物:热门社交媒体网站上药物信息的内容分析。医学互联网研究,2015年06月01日;17(6):e130 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 李建军,张建军,张建军,等。医疗卫生领域的情感分析。见:Abd Elaziz M, Al-qaness MAA, eweeks AA,编辑。NLP的最新进展:以阿拉伯语为例。Cham: Springer International;2020:129 - 141。gydF4y2Ba
- Chandrasekaran R, Mehta V, Valkunde T, Moustakas E.关于COVID-19大流行的推文的主题、趋势和情绪:时间信息监测研究。[J]互联网研究,2020,10 (2):1 - 2 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Poddar S, Mondal M, Misra J.变革之风:COVID-19对Twitter用户疫苗相关观点的影响。URL:gydF4y2Bahttps://ojs.aaai.org/index.php/ICWSM/article/view/19334gydF4y2Ba[2022-06-29]访问gydF4y2Ba
- Rufai S, Bunce C.应对COVID-19大流行的世界领导人使用Twitter:内容分析。中华卫生杂志,2020年8月18日;42(3):510-516 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 2019冠状病毒病大流行期间,国家领导人使用Twitter及其对公众的影响。Heliyon 2020 Nov;6(11):e05540 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Twitter大流行:Twitter在2019冠状病毒病大流行期间传播医疗信息和错误信息中的关键作用中国医学工程学报,2020;22(4):418-421 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Park HW, Park S, Chong M. Twitter上的对话和医疗新闻框架:韩国COVID-19的信息流行病学研究。[J]医学互联网研究,2020,05;22(5):e18897 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Hussain A, Tahir A, Hussain Z, Sheikh Z, Gogate M, Dashtipour K,等。英国和美国Facebook和Twitter上公众对COVID-19疫苗态度的人工智能分析:观察性研究[J]医学互联网研究,2021年4月05日;23(4):e26627 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Lwin MO, Lu J, Sheldenkar A, Schulz PJ, Shin W, Gupta R,等。推特上围绕COVID-19大流行的全球情绪:推特趋势分析JMIR公共卫生监测2020年5月22日;6(2):e19447 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Dubey广告。covid - 19爆发期间的推特情绪分析。电子工程学报,2016(1):1-9。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 高松,何磊,陈毅,李东,赖凯。公众对医疗领域人工智能的认知:社交媒体内容分析。[J]中国医学信息学报,2010;22(7):563 - 568 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 张浩,雷佩尔E,罗思D,卡雷尼尼G, Janjua NZ。追踪北美Twitter上的COVID-19话语:使用主题建模和基于方面的情感分析的信息流行病学研究。[J]互联网研究与发展[J]; 2009;23(2): 551 - 557 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 唐磊,刘伟,Thomas B,陈海宁,邹伟,张翔,等。德克萨斯州公共机构在COVID-19大流行期间的推文和公众参与:自然语言处理方法。JMIR公共卫生监测2021 4月26日;7(4):e26720 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 张建军,张建军,张建军,等。社会化媒体营销在医疗保健中的应用。科技卫生保健2015年7月21日;23(4):495-507。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Slavik CE, Buttle C, Sturrock SL, Darlington JC, Yiannakoulias N. 2019冠状病毒病期间加拿大公共卫生机构和决策者的推文内容和参与度:混合方法分析。[J]互联网研究与发展[J]; 2013;23(3): 888 - 888 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Tommasel A, Diaz-Pace A, Rodriguez JM, Godoy D.基于社交媒体表达的COVID-19大流行期间心理健康和情绪预测。Inf discovery Deliv 2021 Jun 03;49(3):259-268。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 李建军,李建军,李建军,等。基于社交媒体的心理健康监测研究。中华医学杂志,2017;24(3):496-502 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Miliou I, Pavlopoulos J, Papapetrou P. COVID-19大流行期间的情绪临近预测。在:发现科学。Cham: Springer International;2021:218 - 228。gydF4y2Ba
- 基于心跳端到端情绪预测的贝叶斯深度学习框架。IEEE跨情感计算[j] .计算机工程学报,2016,31 (2):985-991 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Deepa N, Prabadevi B, Maddikunta PK, Gadekallu TR, Baker T, Khan MA等。基于Ridge-Adaline随机梯度下降分类器的医疗保健分析智能系统。[J] .计算机工程学报,2016;33(2):398 - 398。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 张建军,张建军,张建军,等。基于数据分析的医疗服务管理研究进展。数据支持系统,2020年11月;138:113398。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 李勇,文赞里,李志强。基于约束弹性网的医疗信息交换知识转移。Data Min Knowl Disc 2014 Dec 23;29(4):1094-1112。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 李建平,李建平。情感分析和机器学习技术在疾病爆发预测中的应用综述。今日2021年5月1日至6日[gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 基于数据挖掘技术的Mengistie T. COVID-19疫情数据分析与预测建模。[J]中国计算机学报,2010;38 (3):559 - 561 [J]gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
- 医疗社交媒体数据有多大价值?医学网站的内容分析。生物科学进展,2009,30(5):1870-1880。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Nawaz MS, Bilal M, Lali MI, Ul Mustafa R, Aslam W, Jajja S.社交媒体数据在医疗保健沟通中的有效性。医学影像与健康通报2017;7(6):1365-1371。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Twitter API:学术研究访问。URL:gydF4y2Bahttps://developer.twitter.com/en/products/twitter-api/academic-researchgydF4y2Ba[2022-07-05]访问gydF4y2Ba
- HCPs讨论“加强射击”以减少Delta变体的高传播。URL:gydF4y2Bahttps://creation.co/knowledge/hcps-discuss-booster-shot-to-decrease-the-high-spread-of-the-delta-variant/gydF4y2Ba[2022-07-05]访问gydF4y2Ba
- CDC COVID-19应对小组,Jorden MA, Rudman SL, Villarino E, Hoferka S, Patel MT等。2020年1月至2月,COVID-19在美国有限早期传播的证据。Morb Mortal weekly Rep 2020 Jun 05;69(22):680-684 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- PyPI。regex 2022.7.9。URL:gydF4y2Bahttps://pypi.org/project/regex/gydF4y2Ba[2022-07-05]访问gydF4y2Ba
- PyPI。nltk 3.7。URL:gydF4y2Bahttps://pypi.org/project/nltk/gydF4y2Ba[2022-07-05]访问gydF4y2Ba
- 朱勇,张勇。基于语义特征的支持向量机和Word2vec文本分类。2015年发表于:IEEE第十四届认知信息学认知计算国际会议(ICCI*CC);2015年7月6日至8日;北京,中国。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 刘军,刘杰。主题连贯的自动评价。2010年发表于:人类语言技术:计算语言学协会北美分会年度会议;2010年6月2日至4日;洛杉矶网址:gydF4y2Bahttps://aclanthology.org/N10-1012gydF4y2Ba
- Röder M, Both A, Hinneburg A.话题连贯测度的空间探索。2015年发表于:第八届ACM网络搜索与数据挖掘国际会议论文集;2015;纽约,纽约。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Gemsim。潜在狄利克雷分配。URL:gydF4y2Bahttps://radimrehurek.com/gensim/models/ldamodel.htmlgydF4y2Ba[2022-07-05]访问gydF4y2Ba
- Gensim。并行潜狄利克雷分配。URL:gydF4y2Bahttps://radimrehurek.com/gensim/models/ldamulticore.htmlgydF4y2Ba[2022-07-05]访问gydF4y2Ba
- Gensim。潜在语义索引。URL:gydF4y2Bahttps://radimrehurek.com/gensim/models/lsimodel.htmlgydF4y2Ba[2022-07-05]访问gydF4y2Ba
- Gensim。非负矩阵分解。URL:gydF4y2Bahttps://radimrehurek.com/gensim/models/nmf.htmlgydF4y2Ba[2022-07-05]访问gydF4y2Ba
- Gensim。分层狄利克雷过程。URL:gydF4y2Bahttps://radimrehurek.com/gensim/models/hdpmodel.htmlgydF4y2Ba[2022-07-05]访问gydF4y2Ba
- PyPI。advertools 0.13.1。URL:gydF4y2Bahttps://pypi.org/project/advertools/gydF4y2Ba[2022-07-05]访问gydF4y2Ba
- Alomari K, ElSherif H, Shaalan K.阿拉伯语推文情感分析使用机器学习。见:人工智能的进展:从理论到实践。Cham: Springer International;2017:602 - 610。gydF4y2Ba
- Peisenieks J, Skadins R.机器翻译在推文情感分析中的应用。2014年发表于:人类语言技术-波罗的海视角-第六届国际会议论文集;2014;考纳斯,立陶宛p. 2014。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Şaşmaz E, Tek F.加密货币的推特情绪分析。2021年发表于:第六届计算机科学与工程国际会议(UBMK);2021年9月15日至17日;土耳其安卡拉,第613-618页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Golubev A, Loukachevitch N.改进俄罗斯情绪数据集的结果。主修:计算机与信息科学通讯。Cham: Springer International;2020:109 - 121。gydF4y2Ba
- Nabil M, Aly M, Atiya A. ASTD:阿拉伯语情感推文数据集。2015发表于:2015年自然语言处理经验方法会议论文集;2015;葡萄牙里斯本。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Rustam F, Khalid M, Aslam W, Rupapara V, Mehmood A, Choi GS。监督机器学习模型在Covid-19推文情绪分析中的性能比较PLoS One 2021 Feb 25;16(2):e0245909 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 拥抱的脸。Cardiffnlp / twitter-roberta-base-sentiment。URL:gydF4y2Bahttps://huggingface.co/cardiffnlp/twitter-roberta-base-sen timentgydF4y2Ba[2022-07-19]访问gydF4y2Ba
- 关于你的活动仪表板。URL:gydF4y2Bahttps://help.twitter.com/en/managing-your-account/using-the-tweet-activity-dashboardgydF4y2Ba[2022-07-05]访问gydF4y2Ba
- Daniluk M, Dabrowski J, Rychalska B. syneris2021:基于快速神经模型的Twitter用户参与度预测。recsychallenge’21:2021年推荐系统挑战赛论文集;2021;纽约,纽约。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- InfluenceTracker:对Twitter账户的影响力进行评级。2014年发表于:IFIP人工智能应用与创新国际会议;2014年9月19日至21日;罗兹,希腊。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 儿子J,李J,哦啊,李港元,吸引J .使用heuristic-systematic模型评估Twitter用户配置文件对灾难的影响微博可信度。[J] .情报情报与情报,2010;31(4):391 - 391。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 马林海,邓格。文献分析系统VI:第六届国际研讨会,DAS 2004,意大利,9月8-10日,2004。柏林,海德堡:施普林格出版社;2004.gydF4y2Ba
- statsmodels。URL:gydF4y2Bahttps://www.statsmodels.org/stable/index.htmlgydF4y2Ba[2022-07-05]访问gydF4y2Ba
- statsmodels.tsa.arima.model.ARIMA。URL:gydF4y2Bahttps://www.statsmodels.org/devel/generated/statsmodels.tsa.arima.model.ARIMA.htmlgydF4y2Ba[2022-07-05]访问gydF4y2Ba
- statsmodels.tsa.statespace.sarimax.SARIMAX。URL:gydF4y2Bahttps://www.statsmodels.org/devel/generated/statsmodels.tsa.statespace.sarimax.SARIMAX.htmlgydF4y2Ba[2022-07-05]访问gydF4y2Ba
- PyPI。pycaret。URL:gydF4y2Bahttps://pypi.org/project/pycaret/gydF4y2Ba[2022-07-05]访问gydF4y2Ba
- PyPI。先知。URL:gydF4y2Bahttps://pypi.org/project/prophet/gydF4y2Ba[2022-07-05]访问gydF4y2Ba
gydF4y2Ba
缩写gydF4y2Ba
弧:gydF4y2Ba高级研究计算gydF4y2Ba |
华宇电脑:gydF4y2Ba自回归积分移动平均gydF4y2Ba |
疾病预防控制中心:gydF4y2Ba疾病控制和预防中心gydF4y2Ba |
CPU:gydF4y2Ba中央处理机gydF4y2Ba |
HCP:gydF4y2Ba卫生保健专业人员gydF4y2Ba |
黄芪丹参滴丸:gydF4y2Ba分层狄利克雷过程gydF4y2Ba |
LDA:gydF4y2Ba潜在狄利克雷分配gydF4y2Ba |
大规模集成电路:gydF4y2Ba潜在语义索引gydF4y2Ba |
梅:gydF4y2Ba平均绝对误差gydF4y2Ba |
ML:gydF4y2Ba机器学习gydF4y2Ba |
均方误差:gydF4y2Ba均方误差gydF4y2Ba |
非政府组织:gydF4y2Ba非政府组织gydF4y2Ba |
国家卫生研究院:gydF4y2Ba美国国立卫生研究院gydF4y2Ba |
NLP:gydF4y2Ba自然语言处理gydF4y2Ba |
NMF:gydF4y2Ba非负矩阵分解gydF4y2Ba |
RMSE:gydF4y2Ba均方根误差gydF4y2Ba |
SARIMAX:gydF4y2Ba考虑外源因素的季节自回归综合移动平均gydF4y2Ba |
SMP:gydF4y2Ba社交媒体平台gydF4y2Ba |
TF-IDF:gydF4y2Ba术语频率-逆文档频率gydF4y2Ba |
人:gydF4y2Ba世界卫生组织gydF4y2Ba |
郝编辑;提交09.03.22;S . Doan, A . Benis的同行评议;对作者的评论27.06.22;收到08.07.22修订版本;接受15.07.22;发表18.08.22gydF4y2Ba
版权gydF4y2Ba©Aditya Singhal, Manmeet Kaur Baxi, Vijay Mago。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 2022年8月18日。gydF4y2Ba
这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2Ba