这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。
COVID-19大流行以惊人的速度传播,但仍然缺乏有效的治疗方法。关于COVID-19的证据正在以惊人的速度增加,因此需要一种方法来快速评估现有知识并确定关键信息。诸如系统评价和元分析之类的金标准方法被认为是不合适的,因为它们的范围很窄,而且非常耗时。
本研究旨在梳理新冠肺炎相关的已发表科学文献,绘制新冠肺炎大流行早期的研究演变图。
我们对PubMed进行了检索,分析了有关COVID-19的已发表论文的标题、关键词和摘要。我们使用潜在Dirichlet分配模型提取主题,并进行趋势分析,以了解每个主题、期刊影响因子(JIF)和地理来源的研究时间变化。
根据我们的搜索,我们确定了日期在2020年2月14日至2020年6月1日之间的16,670篇相关文章。其中,6篇文章是来自同行评审的COVID-19患者随机试验的报告。我们确定了14个主要研究主题,其中最常见的主题是卫生保健反应(2812/ 16670,16.86%)和临床表现(1828/ 16670,10.91%)。对临床表现和防护措施的研究呈上升趋势,对疾病传播、流行病学、卫生保健反应和放射学的研究呈下降趋势。关于保护措施、免疫学和临床表现的出版物与最高的JIF相关。总体中位JIF为3.7 (IQR为2.6-5.9),我们发现这些出版物的JIF随着时间的推移而下降。研究产出最高的国家是美国、中国、意大利和英国。
在新冠病毒首次被发现不到6个月的时间里,有关新冠病毒的研究论文数量惊人。在这里,我们讨论并展示了COVID-19大流行早期阶段现有研究的时间变化。我们的发现可能有助于研究人员和政策制定者对当前的COVID-19证据基础形成结构化的看法,并为进一步的研究方向提供帮助。
新型冠状病毒(SARS-CoV-2)于2019年12月在中国湖北省首次被发现[
由于大量的出版物,跟踪不断增长的医学证据基础变得越来越困难[
已就大流行的具体方面发表了若干系统综述,如合并症、症状和治疗的影响[
我们在2020年6月1日搜索PubMed,使用PubMed E-utilities [
所有文本数据都是小写的,并清除了双空格、特殊字符和数字。随后,我们应用了PubMed中的停用词列表[
数据处理流程图。斜体文本表示使用的方法。JIF:期刊影响因子。
我们使用Python包scispaCy将文本数据规范化。我们将第一作者所属的国家视为原籍国,并使用Python包spaCy从从属关系中提取地理实体。如果一个国家的名称没有包含在从属关系中,我们使用最后提到的地理实体,并手动将该地理实体链接到一个国家;例如,“纽约”与“美国”联系在一起。
为了识别随机临床试验,我们在标题中搜索单词“randomis*”和“randomiz*”。然后,我们手动评估所有确定为潜在随机临床试验的文章,以确定其真实的文章类型。
潜狄利克雷分配(Latent Dirichlet allocation, LDA)是一种用于数据收集的生成统计模型[
为了评估分散任意选择主题数的主题空间,我们计算了8、13和35个主题的LDA模型和主成分分析(PCA)图。在评估结果之后,我们随后计算了3到23之间所有主题的LDA模型。我们选择了数字3和23,因为根据专家的意见,少于3个主题被认为对于任何可理解的用例来说太少了,超过23个主题被认为是无用或不可理解的。我们记录了每个模型的困惑度、遗漏可能性和图形PCA的评估指标。我们根据这三个评估指标的评估,以及作者对COVID-19和医学研究的领域知识,确定了最终的主题数量。
之后,6名经验丰富的临床医生和研究人员根据分配给每个主题的文章的15个最常见关键词,以及每个主题的LDA模型中产生的最频繁单词,独立地标记出已识别的主题(
我们确定了每篇文章最可能的主题,并将其指定为文章的主题。然后计算每个主题每周的文章数量,并绘制每周每个主题所占比例的时间序列,以便进一步分析。
我们根据2019年期刊影响因子列表(JIF;期刊引用报告,Clarivate Analytics),涵盖了12,515种科学期刊[
DataRobot自动执行建模竞赛,其中广泛选择的算法和数据预处理技术相互竞争。该模型具有最佳均方根误差(RMSE)和R2然后选择持有数据作为冠军模型。建模竞赛是有益的,因为相同的算法在不同的数据集上可能具有不同的效率。我们无法与Clarivate JIF列表匹配的文章数据来源于未被训练模型识别的期刊。因此,我们在使用模型时排除了所有期刊特定变量,以避免模型与训练数据过拟合。为了评估模型,我们使用了一个测试样本和RMSE和R2作为模型性能指标。在模型中,我们使用了作者的隶属关系;关键字;第一作者所属单位;而所有文本中的标题、关键字和摘要——放在一起并作为单独的变量。我们在datarrobot中构建并部署了随机森林回归模型。
随后,我们计算了每个确定主题的中位数JIF。我们还计算了随时间变化的中位数JIF以及与文章数量相关的中位数JIF。
我们使用Python软件包Panda, NumPy, Matplotlib, pyLDAvis和Seaborn (Python软件基金会)执行所有数据分析和可视化。
我们找到了日期在2020年2月14日至2020年6月1日之间的16670篇文章。在这16670篇文章中,有8560篇(51.34%)文章可以查到摘要,有16623篇(99.71%)文章可以查到标题,7739篇(46.42%)文章可以查到关键词。
每周发表的文章中位数为374.5篇(IQR 29.0-1648.5),范围从第7周(2020年2月10-16日)的2篇到第22周(2020年5月25-30日)的4536篇。每周发表的文章数量随时间呈指数增长。
每周发表的文章数和相应的期刊影响因子中位数。
3-23个主题的LDA模型(即专家意见和任意选择3个主题的组合选择的主题数量)的评价指标困惑度和遗漏似然在整个集合中呈现出减小和增加的值;因此,这些指标在选择最佳主题数量方面提供的附加价值很小(
14个主题的潜在Dirichlet分配模型的主成分分析图。在三个主题集群中可以看到重叠;然而,这些主题被发现是分开的临床相关性。
Pearson相关系数范围为0.00 ~ 0.17,其中主题卫生保健反应与临床表现的相关性最高。
来自潜在Dirichlet分配模型的COVID-19主题。
没有话题。 | 标签 | 基于潜在狄利克雷分配的五个最常见的术语 | 五个最常见的PubMed关键词 | 期刊影响因子中位数(IQR) | 发表文章数,n (%) (n =16,670) |
1 | 实验室诊断 | 抗体,时间,实验室,诊断,化验 | Pcr, rt,检测,疾病,检测 | 3.36 (2.0 - -6.1) | 599 (3.59) |
2 | 治疗和疫苗 | 氯喹,抗,羟氯喹,流行病,潜在 | 羟氯喹,氯喹,药物,疾病,抗病毒药物 | 4.10 (2.9 - -6.6) | 1193 (7.15) |
3. | 风险因素 | Ecmo,肾素,呼吸,临床,风险 | 糖尿病,血管紧张素,ace,疾病,酶 | 4.13 (2.9 - -6.5) | 420 (2.51) |
4 | 卫生保健对策 | 工作者,回应,实践,服务,推荐 | 健康,流行病,公共,感染,疾病 | 3.39 (2.4 - -5.1) | 2812 (16.86) |
5 | 流行病学 | 风险、控制、基准、期限、费率 | 疾病,呼吸系统,流行病学,新型,感染 | 4.09 (2.8 - -6.3) | 819 (4.91) |
6 | 疾病传播 | 起因,传播,健康,传播,爆发 | 呼吸系统疾病综合症急性病毒 | 3.36 (2.5 - -6.2) | 1141 (6.84) |
7 | 对卫生保健做法的影响 | 变化,常驻,时间,虚拟,拜访 | 教育、远程医疗、流行病、健康、医疗 | 3.86 (2.5 - -5.7) | 1115 (6.68) |
8 | 放射学 | 影像、断层、病变、诊断、特征 | 肺炎,断层扫描,计算机,疾病,ct | 3.69 (2.7 - -5.5) | 774 (4.64) |
9 | 流行病学模型 | 控制,传播,测量,公共,意大利 | 健康,流行病,模型,疾病,公众 | 3.48 (2.5 - -5.2) | 1219 (7.31) |
10 | 临床表现 | 增加,关联,感染,心血管,损伤 | 疾病,急性,综合症,呼吸系统,严重 | 4.99 (3.3 - -7.8) | 1828 (10.96) |
11 | 保护措施 | 设备,高,实践,执行,保护 | 手术,癌症,流行病,管理,个人 | 4.50 (2.6 - -5.5) | 1466 (8.79) |
12 | 免疫学 | 表达,目标,抑制剂,酶,病毒 | Ace,血管紧张素,蛋白质,分子,转化 | 4.56 (3.1 - -8.1) | 694 (4.16) |
13 | 怀孕 | 系统,资料,包括,疾病,搜索 | 怀孕,感染,呼吸,传播,疾病 | 3.52 (2.3 - -5.1) | 819 (4.91) |
14 | 心理影响 | 增加,压力,年老,身体,公众 | 健康,流行病,精神,社会,焦虑 | 3.35 (2.4 - -5.0) | 1771 (10.62) |
与每周发表的所有COVID-19文章相关的主题比例。
总的来说,该数据集包含2473个唯一的期刊名称。其中,通过与Clarivate JIF列表比较,我们找到了1129个(45.65%)期刊名称的完美匹配。对于剩余的1344份(54.34%)期刊名称,我们使用随机森林回归模型计算JIF。该模型在测试数据上的RMSE为5.42=47%),表明平均预测误差为5.4分(
数据集中所有文章的JIF中位数为3.7 (IQR为2.6-5.9)。我们发现,随着时间的推移,JIF中位数呈下降趋势(
分析了16670篇新冠肺炎发表文章的地理来源。Lat:纬度,Long:经度。
我们将大流行早期关于COVID-19的科学出版物分为14个主题。总的来说,最普遍的话题是医疗反应、临床表现和心理影响。尽管一些主题(如卫生保健反应)的流行率随着时间的推移而下降,但一些其他主题(如临床表现和保护措施)的流行率继续增加。这些发现表明,随着时间的推移,研究重点发生了怎样的变化,因此,研究人员认为与研究和发表相关的主题在大流行期间也有所不同。JIF中位数最高的3个主题是危险因素、免疫学和临床表现。临床表现是唯一出现在以下所有分类中的主题:(1)最流行的主题,(2)JIF中位数最高的主题,(3)患病率不断上升的主题。这一发现表明,在由新型病毒引起的大流行的早期阶段,研究临床表现的重要性。此外,本研究结果表明,科学产出最多的国家也是受COVID-19大流行影响最严重的国家[
此外,我们有一个值得注意的发现,在发现新型冠状病毒不到6个月的时间里,发表了6项针对COVID-19患者的同行评议随机试验。这些试验的重点从草药[
当我们对2009年甲型H1N1流感大流行早期发表的科学文章进行比较搜索时[
先前的研究已经证明了主题建模在映射在线活动方面的效用[
我们的研究有一些局限性。首先,LDA模型不考虑单词的上下文,并且某个单词可能根据其呈现的上下文具有不同的含义。然而,回顾我们的主题表明,这一限制在我们的数据中并不突出。因此,模型的这种限制不太可能对我们的主题的解释产生负面影响。其次,有几个定量指标来评估主题的最佳数量,这可能与主题专家的意见相冲突。但是,产生的任何主题模型都应该由主题专家验证,因为这些主题的任何应用都将由这些专家完成。第三,一篇文章可能会出现在我们数据集中的几个主题中。然而,这可能被认为是一种优势,因为一些重叠确实是研究文章的属性,而本研究的目的是分析原始形式的科学文本。第四,主题的数量可能会受到质疑——更少的主题可能更容易让读者阅读,而更多的主题可能会产生更数学上最优的解决方案。然而,我们认为需要选择合理数量的主题来平衡数学准确性和实用性。 Fifth, we limited our analyses to scientific publications. Analyses of grey literature may prove to add important information. Finally, as the COVID-19 pandemic is still ongoing, we expect the research topics to continuously change. To facilitate updated assessments, we have developed a web-based tool using the methods described in this study. Regular updates on the evolution of the COVID-19 evidence base can be found online at the c19research website [
我们的研究结果表明,在COVID-19大流行的早期阶段,科学出版物可以建模为主题。这些主题的演变有助于深入了解当前的研究趋势,有助于研究人员和政策制定者对现有的COVID-19证据基础形成结构化的看法,并提供进一步的研究方向。此外,我们的研究结果表明,主题建模是一种快速而有用的方法,可以评估一个广泛而快速发展的研究主题的发展,如COVID-19,并且可以在当前和未来的大流行期间进一步利用它。
停止词在文本数据预处理中的应用。
每个主题的前15个特征词,来自最终的潜在狄利克雷分配模型。
20个潜在狄利克雷分配模型的评价指标、困惑度和遗漏似然。
热图显示同一篇文章中出现的主题之间的相关性。
直方图显示已识别文章的期刊影响因子(JIF)分布。
期刊影响因子
潜在狄利克雷分配
主成分分析
均方根误差
我们感谢Gabriel Sandblom、Martin Dahlberg、Åsa Hallqvist-Everhov和Emil Pieniowski在主题确定过程中提供的宝贵意见。
MN, AÄ和OE设计了这项研究。MN和OE收集、清理和解释数据。AÄ参与数据解读并撰写了稿件初稿。MN和OE是撰写稿件的主要贡献者。所有作者都认可了手稿的最终版本。
没有宣布。