发表在9卷11号(2021): 11月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/31510,首次出版
冠状病毒全球研究:基于元数据的公共卫生政策分析

冠状病毒全球研究:基于元数据的公共卫生政策分析

冠状病毒全球研究:基于元数据的公共卫生政策分析

本文作者:

蒂埃里Warin1 作者:Orcid

原始论文

HEC montr薪金,montr薪金,QC,加拿大

通讯作者:

Thierry Warin博士

HEC蒙特利尔

3000, chemin de la Côte-Sainte-Catherine

montrassal, QC, h3t2a7

加拿大

电话:15146082106

电子邮件:thierry.warin@hec.ca


背景:在新冠肺炎大流行背景下,本文提出了一种分析全球冠状病毒研究的数据科学策略。应用基于文本即数据信息、开放科学、传播科学数据和方便获取科学成果的可重复研究原则,可有助于公共卫生部门抗击病毒。

摘要目的:本文的主要目标是利用对冠状病毒的全球研究来确定有助于为公共卫生政策决策提供信息的关键因素。我们提出了一个数据科学框架,以协助政策制定者实施尖端的数据科学技术,以制定基于证据的公共卫生政策。

方法:我们使用EpiBibR(基于流行病学的参考书目)软件包访问全球冠状病毒研究文档(N=121,231)及其相关元数据。为了分析这些数据,我们首先采用了一个理论框架,将这些发现分为三类:概念、智力和社会。其次,我们使用机器学习技术(即自然语言处理)和社会网络分析将我们的分析结果映射到这三个维度。

结果:首先,我们的发现是方法学性质的。他们展示了拟议的数据科学框架应用于公共卫生政策的潜力。此外,我们的研究结果表明,在研究期间,美国和中国是全球冠状病毒研究的主要贡献者。他们还表明,印度和欧洲是重要的贡献者,尽管处于次要地位。美国、加拿大和英国在这一领域的大学合作非常密切,证实了国家层面的研究结果。

结论:我们的研究结果表明,公共卫生政策应采用数据驱动的方法,特别是在需要进行有效和相关研究的情况下。文本挖掘技术可以帮助决策者计算基于证据的指数,并就有效卫生应对所需的具体行动向其决策过程提供信息。

中国生物医学工程学报;2011;31 (2):391 - 391

doi: 10.2196/31510

关键字



针对最初的SARS-CoV-2毒株的疫苗已经开发出来。公共卫生政策目前正在与新一波的污染和变异作斗争。政治逻辑很简单:接种疫苗的人数越多,变异的可能性就越低。在他们的工具中,他们现在可以使用新的数据科学工具(例如,基于机器学习的分析和大数据,其中一些是非结构化的)和技术资源,例如高性能计算平台。数据科学方法不仅对疫苗发现有利,而且对公共卫生政策有利。

在这篇行动研究型论文中,我们使用数据科学技术来收集和分析实时的全球科学数据。目的是研究如何利用数据科学来改善公共卫生政策。事实上,有了这些新的工具和数据来源,政策制定者可以(1)对当前关于SARS-CoV-2的知识状况进行最准确的诊断,(2)通过协助领导协作团队采取行动。因此,必须优化国家和国际两级的决策进程。我们在本文中提出了一个可以快速实施的数据科学协议,例如,在世界卫生组织(WHO)的支持下,以优化国家、大学和研究人员之间的研究合作。

据我们所知,这是第一篇描述数据科学方法的论文,该方法可以根据全球研究更好地为有关冠状病毒的卫生政策决策提供信息。

从SARS-CoV-2疫情中吸取的教训之一是公共政策应对的关键性质。卫生政策制定者必须了解全球研究活动。例如,他们可以利用这些信息来支持一些更接近研制疫苗的研究小组。另一个重要的特点是他们可以实时访问信息,这提高了响应效率。2019冠状病毒病疫情表明,迫切需要获得更准确和及时的信息。COVID-19于2019年底在中国武汉首次被发现,一些研究已经使用数据科学作为方法[1]。2020年1月7日,新型冠状病毒(2019-nCoV)被分离出来。自2000年以来,发生了两次冠状病毒疫情:一次由SARS-CoV引起,另一次由中东呼吸综合征冠状病毒(MERS-CoV)引起[2]。因此,时间至关重要。

另一个关键因素是获得适当的信息。政府根据传统的数据收集方法,如年度报告,掌握有关其研究小组及其表现的信息。然而,在世界上近200个国家中,很少有国家拥有这一信息。另一方面,主要来源以研究出版物的形式提供。首先需要利用这些出版物中包含的所有元数据。如今,这可以通过使用自然语言处理(NLP)技术来实现。其次,它需要开发算法来可视化从这些出版物中提取的研究人员、国家和概念网络。本文说明了使用NLP和社会网络分析(SNA)来映射上述网络。

因此,我们的主要贡献是利用基于数据科学的全球冠状病毒研究分析来制定公共卫生政策。我们认为,一份详细的全球冠状病毒研究地图至关重要。卫生保健组织可以从这样的地图中受益。利用今天的技术,由于本文所述的基于代码的管道,可以实时进行这种全面的绘图,从而可以发现新变种的潜在爆发并提供开发后续疫苗所需的信息。

其次,对方法作出了贡献。事实上,我们使用元数据是为了对相关文献进行算法审查。在方法部分,我们将详细介绍该方法。在我们看来,这是对定性评价和荟萃分析的必要方法补充。

简而言之,本文的主要目标是利用对冠状病毒的全球研究来确定有助于为公共卫生政策决策提供信息的关键因素。就其本质而言,我们的研究问题属于行动研究。它是方法学和探索性的:在2019冠状病毒病和我们的技术发展阶段的背景下,公共卫生政策制定者如何从机器学习技术(即NLP和SNA)中受益,以帮助他们做出决策?


概述

元数据分析需要比传统的系统性文献综述(SLR)积累更多的文章,并使用算法对初始数据集进行过滤和排序。我们通过两种方式解决这个问题:第一,通过NLP技术提取文本即数据信息,第二,通过SNA可视化潜在的协作网络。

结合这两种方法与Cochrane综述通过初步研究产生新知识的原则是一致的。Cochrane综述的主要目的是为做出健康或医疗保健决定的个人提供信息。只有在不不必要地重复以前进行的研究的情况下,才应设计或委托进行新的研究[3.]。因此,在开始任何新的研究之前,单反是有利的,例如,通过突出特定的知识差距或偏见[4]。

我们受到系统评论指南的启发,因为我们使用了大量研究文件的数据集。然而,我们的区别在于,我们的目标不是通过确定不同的研究流(即学术目标)来促进理论框架的发展,而是提出一个应用研究的例子,更准确地说是行动研究。

所有这些考虑在2019冠状病毒病期间尤为重要。因此,本文提出的方法侧重于使用尽可能大的数据集,并强调通过NLP和SNA在技术上可能实现的一些映射。

我们对公共卫生政策提出了两个假设。首先,政策要求提供有关冠状病毒研究结果的信息。这可以帮助各国政府及其各种工业伙伴制定与大流行病有关的解决办法。其次,它们必须能够支持产生这些突破性研究成果的生态系统。在大流行期间(但不是唯一的大流行期间),必须优化决策过程,以加快根据研究结果制定解决方案。这意味着决策者必须意识到有助于产生这些研究结果的特征。个人(即单个作者)、研究小组(即多作者文件)、大学间合作或全球合作都是这些特征的例子。

从逻辑上讲,2020年和2021年的研究产出将呈指数级增长(图1).

图1所示。随时间变化的文档计数。2021年的文件统计工作于5月4日结束。
查看此图

协议开发

如前所述,我们的研究问题在本质上是方法论的,在范围上是探索性的。这是关于公共卫生政策制定者是否以及如何从机器学习技术中受益,以便在2019冠状病毒病背景下和我们的技术发展阶段为他们的决策过程提供信息。

我们提出了一个四阶段的方案:(1)第一阶段需要获得关于冠状病毒的全球研究,(2)第二阶段使用NLP技术将已发表的研究文件中的文本转换为数据,(3)第三阶段使用常规统计技术,(4)第四阶段使用SNA确定关键概念和合作者或大学。近年来,人们对SNA的兴趣越来越大,尽管它是一个可以追溯到20世纪30年代中期的数学领域。SNA的前提是行动的社会背景很重要[5]。当应用于流行病学时,这意味着社会背景在冠状病毒研究中很重要,政策制定者应该考虑这一点。

这四个阶段中的每一个阶段对研究人员来说都是计算机密集型的,但对国家或国际组织来说不是。我们在使用AMD Ryzen Threadripper处理器(Advanced Micro Devices)的专用服务器上编译算法,该处理器具有32核(64线程),时钟速度为3.2 GHz,内存为128 GB。

第一阶段是收集全球开展的冠状病毒研究数据。2019年秋天,没有科学家在调查COVID-19,当时这种疾病还不为人知。导致这种疾病的冠状病毒SARS-CoV-2尚未被确定或命名。截至2020年3月底,这种疾病已蔓延到170多个国家,超过75万人患病,数千名研究人员已将注意力从之前引起他们兴趣的智力挑战转移到大流行上。6]。

在这种情况下,我们的数据收集依赖于GitHub上提供的EpiBibR(基于流行病学的R书目)包[7]。EpiBibR是一个基于开放科学原则(即可重复研究、开放数据和开放代码)的免费资源。该软件包提出了22个嵌入式元数据功能,并提供对1949年7月1日至2021年5月4日期间超过120,000条参考资料(N=121,231)的访问。作为一个数据包,它提供了对数据的方便访问,以便通过R语言有效地集成到几乎任何研究人员的管道中[8]。这些参考文献是通过PubMed收集的,PubMed是一个免费资源,由位于美国国立卫生研究院的美国国家医学图书馆的国家生物技术信息中心开发和维护。PubMed收录了超过3000万次的生物医学文献引用。更具体地说,EpiBibR包采用了艾伦人工智能研究所(Allen Institute for AI)在其COVID-19开放研究数据集(CORD-19)项目中使用的程序。EpiBibR在PubMed上使用以下关键词进行类似查询:“COVID-19”或“冠状病毒”或“冠状病毒”或“2019-nCoV”或“SARS-CoV”或“MERS-CoV”或“严重急性呼吸综合征”或“中东呼吸综合征”[9]。据我们所知,EpiBibR包是R中唯一一个提供全球冠状病毒研究的数据包。该软件包每天更新,使我们能够构建实时分析。它也是唯一一个这么大的。我们能够生成截至2021年5月4日的研究文件数据集(N=121,231)。所有这些引用都可以通过[7]。我们使用包中已经可用的元数据,然后通过NLP技术生成新的元数据,如下所述。

在第二和第四阶段,我们使用了R中的Bibliometrix包(版本3.1.4;R基金会)在我们自己的算法之上,特别是执行作者姓名的消歧或构建SNA [10]。我们还从标题、摘要、关键字和参考文献中创建了新的元数据。后者的计算量特别大。事实上,该算法扫描了每篇论文的参考文献部分的所有参考文献。元数据使用自然语言处理技术生成。首先,我们通过选择token和n-gram [10]。

这些属性是对样品进行定量分析所必需的。通过将这些机器学习工具与其他技术(如SNA)结合使用,我们能够创建一个综合研究。此外,还研究了研究贡献、合作、创意产生和传播的动态。

研究设计

由于引入了新的工具和实践,例如预印本服务器和开放数据,出版业的格局已经发生了变化[11]。技术进步也提供了新的方法,如NLP和机器学习,以补充更传统的单反,或在无法进行荟萃分析时呈现发现[12]。

单反过程是一个能够收集符合预定义资格标准的给定主题的相关证据,并为制定的研究问题提供答案的过程。荟萃分析采用描述性和/或推断性统计方法,从单一主题的多个研究中汇集数据。因此,这些技术使知识能够从各种定性和定量研究中产生。传统方法包括四个基本步骤:(1)搜索(定义搜索字符串和数据库类型),(2)评估(使用预定义的文献纳入和排除标准以及质量评估标准),(3)综合(提取和分类数据),(4)分析(叙述结果并最终得出结论)[13]。

SLR过程被定义为“一种系统的、明确的和可重复的方法,用于识别、评估和综合现有的已完成和记录的工作”[14]。根据Lasserson等人(第1页)[15,“系统综述试图整理所有符合预先规定的资格标准的经验证据,以回答特定的研究问题。”

单反相机并不打算是详尽的或实时执行。因此,鉴于该领域的快速发展,为了补充单反,我们建议绘制全球冠状病毒研究的整体地图。大型数据集允许我们分析与文档相关的元数据,例如作者的隶属关系、大学和参考文献。

这种新方法的另一个重要贡献是基于NLP技术的计算处理,将文本转换为数据。因此,系统评论中的NLP并不新鲜,一些文章反映了NLP技术的兴趣[16-18]。特别是,第一组论文是关于使用NLP工具包(如scispaCy)进行信息提取的[19]或基于语言的模型,如BioBERT(用于生物医学文本挖掘的转换器的双向编码器表示)[20.21]。另一组论文是关于使用BERT进行文本分类和句子提取[2223]。使用来自艾伦人工智能研究所的CORD-19数据集,其他一些论文使用论文标题和摘要来构建词对和共现来构建强调网络存在的知识图[2425]。

在本文中,我们通过使用元数据构建一系列sna来扩展这些NLP技术。我们能够发现研究模式、研究历史和实际的研究工具,以及将发现与机构联系起来,仅举几个例子。每篇论文的标题和摘要中的共现现象被用来突出我们的sna的发现。

最后,另一个关键方面更为具体,与使用每个文档的引用部分有关。通过关注度量,研究人员可以破译知识传播的模式。由于要分析的数据量庞大,因此只能通过算法方法访问这些信息。

此外,我们认识到我们的研究是探索性的,使用的工具和技术的有效性尚未确定。O 'Mara-Eves等[16记录了系统评价中使用的机器学习技术带来的偏见。希望这篇论文能像其他许多论文一样,在科学有效性方面为这种健康和必要的试错练习做出贡献[17]。实际上,这些新技术可以通过自动化某些任务来节省时间,充当二级筛选器,并提供新的分析选项,例如SNA。后一点正是本文存在的原因,特别是在公共卫生政策的背景下。

我们用下面的理论框架来组织这些计算结果的展示。咏叹调与cuccucullo [10建议在他们的研究设计中检查三种不同的结构——概念结构、智力结构和社会结构——我们这样做了:

  1. 概念结构涉及利用元数据来更好地理解使用了哪些概念和主题,以及它们在学术论述中是如何演变的。
  2. 知识结构帮助我们确定是谁提出了这些概念,哪些期刊帮助建立了这一新生文献,哪些文章在这一文献的建立中被引用得最多。
  3. 最后,社会结构使我们能够调查作者的合作以及大学和国家因这些合作而提供的知识支持。

数据提取和质量评估

相关文献的“宇宙”包括来自EpiBibR (表1共计121,231篇论文,其中大部分已发表在评审期刊上(表2).文献综述涵盖了2020年1月1日至2021年5月期间。

2020年关于冠状病毒的论文呈指数级增长,2021年似乎是2020年的复制。根据我们所掌握的信息,每个文档的平均引用次数为0.04次。这个数字很低,可能是因为这些出版物是在最近几个月出版的。作为参考点,2017-2021年期间,高被引论文在临床医学领域的总被引次数为5.78次(Clarivate Analytics, 2021)。正如在表1在美国,这些文件在7160个不同的来源中发表,这是一套不同的出版工具。

表2总结了文件的分类。结果可能是保守的,因为原始数据集中的一些引用可能不包含所有必要的信息。考虑到这一限制,文章在整个期间占主导地位(表2),共出现88,374次,其次是16,405个预印本和字母。已经发布了120个单反。总之,简短的贡献(即文章和预印本)是最终产品的代表。

考虑由作者姓名和文档作者选择的关键字生成的元数据。全球范围内的冠状病毒研究共涉及5118个关键词(表3).同样值得决策者注意的是,这是一个涉及377405位作者的研究议程。在公共卫生政策的背景下,这些数据提出了大量潜在的问题。此外,大多数出版物都是多作者的,这表明领域研究的协作性日益增强。

此外,描述性统计分析显示,每篇论文平均有3.11位作者和7.15位合著者(表4).绝大多数文件都是合作编写的。只有13794份文件是由一个人写的(表426])。

现在考虑三个不同的结构组成部分:概念、智力和社会。前两个是完成描述性统计方面所必需的。

表1。关于整个期间和每年数据的初步资料。
信息 总体时间:2020-2021年 2020 2021
资料(期刊、书籍等) 7160 6142 4982
文档、n 121231年 83090年 38141年
出版后的平均年数 0.685 1 0
每个文档的平均引用次数 0.04664 0.06746 0.001285
每篇文档每年平均被引用次数 0.02352 0.03373 0.001285
表2。整个期间和每年的文件类型。
文件类型 总体时间:2020-2021年 2020年,n 2021年,n
病例报告 3294 2211 1083
经典的文章 2 0 2
临床会议 7 5 2
临床研究 2 2 0
临床试验 13 7 6
临床试验方案 41 39 2
临床试验,II期 1 1 0
比较研究 69 58 11
国会 8 5 3.
共识发展会议 5 4 1
编辑 5766 4622 1144
英语文摘 1664 1174 490
等效性试验 1 0 1
评价研究 14 11 3.
指导方针 15 15 0
历史的文章 22 21 1
面试 32 27 5
导论期刊文章 6 6 0
期刊文章 88374年 58601年 29773年
讲座 2 2 0
预印本或信件 16405年 13068年 3337
荟萃分析 9 5 4
发布错误 492 270 222
撤回发表 15 7 8
审查 1 1 0
系统综述 120 65 55
表3。整个期间和每年的文件内容和作者。
文档内容 总体时间:2020-2021年 2020年,n 2021年,n
作者关键字 5118 4699 2044
作者 377405年 266579年 188900年
作者露面 866589年 569924年 296665年
单作者文档的作者 8819 6835 2580
多作者文档的作者 368586年 259744年 186320年
表4。关于作者合作的细节。
协作测量 总体时间:2020-2021年 2020 2021
单作者文件,名词 13794年 10324年 3470
作者人均文件数,n 0.321 0.312 0.202
Authors-per-document指数一个 3.11 3.21 4.95
每篇论文的合著者数,n 7.15 6.86 7.78
协作指数b 3.43 3.57 5.37

一个每篇文章的作者数指数是通过作者总数除以文章总数来计算的。

b协作指数的计算方法是将多作者文档的作者总数乘以多作者文档的总数[26]。


概述

如方法部分所述,我们使用了Aria和Cuccurullo的[10的理论框架来展示我们的发现。我们分别介绍了概念结构、智力结构和社会结构。对于每个结构,我们都给出了可用的相关度量。

此外,作为概念验证,我们基于总共121,231个文档生成了必要的元数据和指标。我们将鼓励未来的研究人员过滤数据集,以解决他们自己的研究问题,例如,通过限制他们的搜索随机对照试验文件,甚至根据内容,如蛋白质。由于文本是数据,因此可以使用一组新的选项。

全球冠状病毒研究的概念结构

概述

在接下来的小节中,我们通过使用主题建模技术分析关键字、它们的共同出现以及主题的演变,研究了示例的概念结构。为了创建这个概念框架,我们创建了121,231个文档的关键字和标题矩阵。

关键字指标

的关键字部分图2突出显示作者在其文档中最常用的关键字。在2020年至2021年期间,它基本稳定。表5显示整个样本和每年排名靠前的关键字。

图2。作者关键词用法的演变。
查看此图
表5所示。在整个时期和每年最相关的关键字。
作者关键字 出现关键词的文章(N=121,231), N (%)
总体时间:2020-2021年

流行病学 8216 (6.8)

人类 8188 (6.8)

大流行 6829 (5.6)

冠状病毒感染 6807 (5.6)

肺炎病毒 6672 (5.5)
2021

人类 1296 (1.1)

新型冠状病毒肺炎 1246 (1.1)

SARS-CoV-2 857 (0.1)

流行病学 799 (0.1)

大流行 425 (0.1)
2020

流行病学 7417 (6.1)

人类 6892 (5.7)

冠状病毒感染 6759 (5.6)

肺炎病毒 6658 (5.5)

大流行 6404 (5.3)
基于主题建模的关键词分析

在下一节中,我们使用结构主题建模为分析添加了一个新维度。本节的目的是补充从关键字共现中收集到的信息。我们在图3(整体周期),图4(2020)和图5(2021)。我们发现这些主题被分为四类:基本主题、新兴或衰落主题、小众主题和动力主题。本例的结果仅基于关键字来演示该框架。

分析可以使用降维技术进行。下面几节将使用多重对应分析。

我们用k-means聚类增强了我们领域的概念结构,以便仅基于关键字识别表达共同概念的文档聚类。我们使用NLP从关键字部分提取术语。此外,该算法实现了波特词干提取算法,以减少词干,词基或词根形式的屈折,或有时派生的单词。最后,我们对所有单词进行标记,并计算潜在变量以识别潜在主题。由于必要的高计算能力,我们对2021年的数据集进行了分析。

图67分别说明在社交距离和疫苗接种方面的政策影响有足够的空间(红色)。重要的主题是人口(即健康状况、年龄等),用蓝色表示图6加上红色图7。可以对其他术语执行相同的分析,例如标题、摘要或参考文献中的术语。因此,出现了大量的潜在分类。

在我们考察了概念结构的可能度量之后,让我们把注意力转向对智力结构的分析。

图3。整个时期的主题建模。
查看此图
图4。2020年主题建模。
查看此图
图5。2021年的主题建模。
查看此图
图6。基于多重对应分析的概念结构图。暗:维度。
查看此图
图7。dendogram话题。
查看此图

全球冠状病毒研究的知识结构

另一个维度导致另一个有趣的分析是知道谁,什么期刊,哪些组织是这些主题动态的领导者。

作家指标

在知识结构中,作者是公共政策考虑的有趣对象。这些指标存在许多偏差,因为有些姓氏可能很普遍。一个重要的维度是公平、多样性和包容性(EDI)。这不是本文对公共卫生政策的关注。然而,未来的研究可能会更深入地研究这一智力结构的作者成分。有了这种算法方法和可用的元数据,学者们可以设计EDI指标来评估,例如,与性别相关的问题,如第一作者和最后作者;在学术界担任领导职务;除其他外[27-32]。基于电子数据编辑的分析也可以纠正这样一个事实,即女性作为最后作者的文章较少,这些文章每次发表的引用次数较少[33]。通过这种基于元数据的方法,学者们可以访问这些指标。这是一个需要对整个领域进行更全面检查的主题,这超出了本工作的范围。

图89,我们分别给出了整个时期和每年每个名称的总数。重要的是要注意,同音总是一个需要纠正的问题。为了纠正同音,存在几种策略。我们可以使用ORCID(开放研究人员和贡献者ID)号码或任何其他唯一标识符。不幸的是,这些信息在原始数据集中是不可用的。因此,我们设计了一个算法,将作者的名字与大学的名字联系起来。我们对整个数据集进行了排序,以确保有唯一的作者对和隶属关系。有时,大学的隶属关系以不同的形式写成。我们通过创建一个从属关系字典来规范格式来纠正它们。

图8。在整个时期的作品中名列前茅的作者。
查看此图
图9。每年产量最高的作家。
查看此图

我们可以再深入一点,看看所有作者的平均生产力。设计更好指标的一种方法是考虑在我们的2年样本中,作者每年发表多少篇文章。在图10-12,我们分别计算了整个时期、2020年和2021年的Lotka系数,以比较研究人员的科学生产力与Lotka理论系数[34]。洛特卡定律将作者发表文章的频率描述为平方反比定律,即发表一定数量文章的作者数量与发表一篇文章的作者数量成固定比例。这个假设意味着罗特卡定律的理论β系数等于2。

图10-12描述发表了一定数量文章的作者所占的比例。在这里,观察到的Lotka分布与理论Lotka分布之间存在统计学显著差异,这意味着作者在该研究主题中更加多产。考虑到这个话题的紧迫性,这并不令人意外。

图10。整个时期的科学生产力。
查看此图
图11。2020年科学生产力。
查看此图
图12。2021年的科学生产力。
查看此图

由于数据集的规模很大,我们的专用服务器不够强大,无法计算结果。因此,我们的策略是每年从25,000个文档中抽取2020年和2021年的随机样本。2021年的样本对应于2021年总数据集的65.5%。2020年的样本对应于2020年总数据集的30.0%。

为了更进一步,我们将范围缩小到特定的作者、机构或研究团队,并计算了科学生产力。的确,作为政策制定者,为其中一些方面分配资源可能是相关的。

综上所述图13,我们首先筛选原作者名单,筛选出发表文章少于25篇的作者,以及每年总引用次数少于20次的作者。这是一个任意的选择,我们可以很容易地以不同的方式过滤它,这正好符合我们的主要观点:数据科学允许这种灵活的适应。

现在让我们转到文章元素,作为衡量智力结构的另一个有趣的维度。

图13。随着时间的推移,顶级作者的生产力。总引用数。
查看此图
降低指标

我们查看了数据集的引用次数(N=121,231)。作者代表了有关公共卫生政策的有趣信息,包括他们的生产力指标,但我们也发现,被引用最多的手稿可能有助于完善指标(表6).

现在让我们更深入地思考全球冠状病毒研究的社会结构。

表6所示。被引用最多的手稿。
文章(作者、年份、期刊) 总引用数,n 每年总引用数,n
黄C, 2020,《柳叶刀》 146 73.0
朱楠,2020,新英格兰医学杂志 102 51.0
陈宁,2020,《柳叶刀》 One hundred. 50.0
李强,2020,新英格兰医学杂志 89 44.5
Chan JF, 2020,《柳叶刀》 75 37.5
李建军,刘建军,2013,(1)研究 7 7.0
远藤A, 2021,惠康开放研究 6 6.0
王磊,2021,[j] 2 2.0
付磊,2021,临床心内科 1 1.0
阿克曼M, 2021,新英格兰医学杂志 1 1.0

全球冠状病毒研究的社会结构

在本节中,我们将重点介绍捕捉社会联系的不同措施:作者的共被引、文章的共被引、期刊的共被引以及机构间的合作。

作者协作指标

图14突出作者的合作。这张图显示了顶级作者的网络。再一次,我们可以看到高水平的合作和知识转移。在进一步的研究中,学者也可以将EDI纳入分析,并利用元数据来衡量潜在的EDI度量失衡[35]。这对于纠正这些不平衡尤其有用。

现在让我们把讨论转到国家一级。

图14。2021年作者合作网络。
查看此图
符合国情的指标

也可以从文件中提取国家信息。我们绘制了每个时期排名前五的国家的地图。大多数作者是美国、中华人民共和国、印度和欧洲的居民(表7).

表8提供关于每个国家总引用的补充信息。美国和中国再次占据了榜单的主导地位。

15的数据16来自亚洲的贡献明显增加:中国和印度在学术产出方面处于领先地位。从一个文献矩阵出发,计算了两组描述性度量:(1)网络的汇总统计和(2)顶点的中心性和威望的领先指数。

表7所示。整个期间和每年通讯作者所在国家。
国家 文章(N=121,231), N (%) 频率 单一国家
出版物
多国
出版物
多国
出版物比
总体时间:2020-2021年

美国 15904 (13.1) 0.1923 15840年 64 0.004024

中国 11471 (9.5) 0.1387 11451年 20. 0.001744

意大利 7565 (6.2) 0.0915 7533 32 0.004230

印度 5314 (4.4) 0.0643 5295 19 0.003575

法国 3156 (2.6) 0.0382 3139 17 0.005387
2021

美国 5483 (4.5) 0.2025 5433 50 0.00912

中国 2859 (2.4) 0.1056 2843 16 0.00560

意大利 2052 (1.7) 0.0758 2022 30. 0.01462

印度 1838 (1.5) 0.0679 1824 14 0.00762

西班牙 980 (0.1) 0.0362 975 5 0.00510
2020

美国 10421 (8.6) 0.1874 10407年 14 0.001343

中国 8612 (7.1) 0.1549 8608 4 0.000464

意大利 5513 (4.5) 0.0991 5511 2 0.000363

印度 3476 (2.9) 0.0625 3471 5 0.001438

法国 2237 (1.8) 0.0402 2236 1 0.000447
表8所示。在整个期间和每年每个国家的引用总数。
国家 总引用数,n 平均文章引用
总体时间:2020-2021年

中国 2011 0.17531

美国 550 0.03458

意大利 315 0.04164

德国 131 0.05240

法国 129 0.04087
2021

美国 10 0.001824

中国 4 0.001399

德国 4 0.004381

比利时 1 0.004484

法国 1 0.001088
2020

中国 2007 0.23305

美国 540 0.05182

意大利 314 0.05696

法国 128 0.05722

德国 127 0.08003
图15。根据作者居住地,这是整个时期生产力最高的国家。
查看此图
图16。根据作者的居住地,2021年(上)和2020年(下)生产力最高的国家。
查看此图

然后,我们可以使用这些新措施绘制国家网络的图表。我们认为,这是公共卫生政策和决策的绝佳展示。这是国际卫生组织、研究机构和各国政府的重要信息(图17-19

图17。整个期间的国家协作网络。
查看此图
图18。2020年国家合作网络。
查看此图
图19所示。2021年国家合作网络。
查看此图

考虑到上述结果,美国和中国在学术生产方面处于领先地位。下面,我们还调查了制度层面的联系。

制度指标的共同引用

为了继续我们以社会结构为导向的分析,我们利用了大学之间的合作。在这种情况下,我们使用作者的从属关系作为相关的元数据,并且我们创建了一个协作矩阵来促进现有链接的映射。

在公共卫生政策方面,大学合作网络也值得研究(图20-22),因为它表明了美国国内、美国和加拿大以及美国和英国的大学之间的紧密合作。

图20。大学合作网络在整个时期。
查看此图
图21。2020年的大学合作网络。
查看此图
图22。2021年的大学合作网络。
查看此图

另一点值得注意的是,2020年至2021年之间缺乏稳定性,这表明来自不同大学的作者更愿意在与其研究相关的主题上合作,而不是复制以前的合作。然而,我们只有2020年和2021年上半年的数据可以比较,还需要进一步的研究来确定这些合作是否能随着时间的推移而持续下去。

总而言之,图23可视化三个领域的主要组成部分(即作者、关键词和期刊)以及它们之间的关系,使用所谓的桑基图。特别明显的是在三个领域绘制图23是主要关键词与主要期刊编辑对这些关键词的兴趣之间的联系。我们可以看到,大多数期刊发表的文章都包含了作者建议的最流行的关键词。目前,出版商还没有实施差异化策略。图23由于计算能力的限制,基于随机提取的25,000个文档进行编译。

图23。代表2020年数据的三个字段的Sankey图:作者(左),关键词(中)和期刊(右)。
查看此图

主要研究结果

我们利用元数据对全球冠状病毒研究进行了分析。该分析的很大一部分是使用数据科学技术进行的,例如NLP和结构化自然语言分析。这是一项耗时且计算量大的任务。基于元数据的单反分析方法是对传统文献系统综述方法的补充。我们用三个轴来组织文献映射:概念、知识和社会。

处理危机时,时机就是一切。我们的发现是基于将文本转换为数据,然后对全球冠状病毒研究进行NLP分析。我们进行研究是为了证明我们所希望的概念。因此,本文属于“行动研究”的总称。我们的目标是展示一些可以应用于基于文本的文件的指标,以及如何将它们应用于公共卫生政策。

因此,我们的发现基本上是方法学的,并且可以证明这种方法优化全球研究支持的能力。在本文中,我们基于数据科学技术,设计了一些指标,这些指标在PDF文档中是静态的。现在,另一个强大的功能是,通过在基于代码的研究管道中使用EpiBibR数据包,我们可以几乎实时地编译这些指标。事实上,当软件包更新时,所有这些视觉效果都可以每天更新。

就可操作的指标而言,我们发现大多数研究都是在2020年和2021年进行的,尽管第一篇文章出现在1949年7月。我们还了解到,美国在这方面的科学研究方面处于领先地位。中国排在第二位,然后是个别欧盟成员国。能够确定研究中心之间的国际合作,特别是美国、加拿大和英国之间的合作,也很有趣。另一个有趣的结果是能够捕捉到与冠状病毒相关的研究领域的规模,如流行病学、肺炎学等。

优势与局限

在2019冠状病毒病大流行背景下,决策者在设计公共卫生应对措施时必须使用最有效的工具。本文以冠状病毒为例,提出了确定重点课题和开展最相关冠状病毒研究的研究机构的框架。

在所谓的“信息学”中尤其如此[36]。卫生政策制定者可能面临与缺乏信息有关的风险,但他们也可能面临与信息过多有关的风险。信息的质量是需要考虑的最重要的因素。事实上,世卫组织总干事谭德塞在疫情开始时提出的问题之一就是“信息大流行”,其定义是大量信息迅速传播,无论真假;疫情于2020年2月15日发布[37]。

在未来,我们必须更加依赖科学界的贡献。由于技术和数据可及性的进步,今天的政策制定者必须采用最新的数据科学技术,以制定基于证据的公共卫生政策,在COVID-19时代更是如此。

我们的框架还有助于揭示可能引入该过程的一些限制和偏见。这些不是障碍,而是健康数据科学家应该考虑的问题。说到作者的名字,同音问题就是一个很好的例子。EDI是使用这些指标时要考虑的另一个方面。这个问题有解决办法,但必须加以考虑。

另一个限制是大规模运行这些机器学习例程所需的计算能力。另一方面,各国政府和国际组织不受这一限制的约束。

为了从大量可用的方法、理论和概念中获益,包括来自其他学科的参考也可能是有益的。例如,为了评估疾病的传播,人口统计学家的文献和理论无疑是相关的。

结论

这是首次将元数据用于分析全球冠状病毒研究。总共处理了121,231个文档,形成了一个文本即数据的数据集。利用机器学习和NLP技术,我们为公共卫生政策制定者提出了一个框架。该框架及其指标有可能协助各国政府和世卫组织等国际组织确定抗击COVID-19的关键全球合作。它体现了新兴数据科学技术和新思维模式在公共卫生领域的效用。

致谢

作者对CIRANO(大学间组织分析研究中心)表示感谢;蒙特利尔,加拿大)和Marine Leroi (CIRANO)的支持。

利益冲突

没有宣布。

  1. 吴涛,胡娥,葛晓,于刚。nCov2019:基于R包的新冠肺炎大流行研究。中国生物医学工程学报(英文版);2009;01 - 01 [j]免费全文] [CrossRef] [Medline
  2. 王超,霍比普文,海登方刚,高国锋。引起全球卫生关注的新型冠状病毒爆发。柳叶刀2020 Feb 15;395(10223):470-473 [j]免费全文] [CrossRef] [Medline
  3. Chalmers I, Bracken MB, Djulbegovic B, Garattini S, Grant J, g lmezoglu AM,等。如何在确定研究重点时增加价值并减少浪费。柳叶刀2014年1月11日;383(9912):156-165。[CrossRef] [Medline
  4. Macleod MR, Michie S, Roberts I, Dirnagl U, Chalmers I, Ioannidis JPA等。生物医学研究:增加价值,减少浪费。柳叶刀2014年1月11日;383(9912):101-104。[CrossRef] [Medline
  5. Carrington PJ, Scott J, Wasserman S,编辑。社会网络分析的模型与方法。英国剑桥:剑桥大学出版社;2005.
  6. Myers KR, Tham WY, Yin Y, Cohodes N, Thursby JG, Thursby MC,等。COVID-19大流行对科学家的不平等影响。中国生物医学工程学报,2020,34(9):888 -883。[CrossRef] [Medline
  7. Warin T. EpiBibR。GitHub。2020.URL:https://github.com/warint/EpiBibR[2021-06-21]访问
  8. 全球冠状病毒研究:一个R包。医学信息学报,2020,Aug 11;22(8):e19615 [J]免费全文] [CrossRef] [Medline
  9. 王磊,lok, Chandrasekhar Y, Reas R, Yang J, Burdick D,等。CORD-19: COVID-19开放研究数据集。出来了。2020年7月10日网上预印本[免费全文
  10. 王晓明,王晓明。文献计量矩阵:一种科学制图分析的r -工具。信息学报,2017,11(4):959-975。[CrossRef
  11. 李建军,李建军,李建军,等。系统版本2012年02月09日;1:1 [免费全文] [CrossRef] [Medline
  12. Campbell M, McKenzie JE, Sowden A, Katikireddi SV, Brennan SE, Ellis S,等。系统评价中无荟萃分析的综合(SWiM):报告指南。中国医学杂志[j]; 2011; 26 (2): 391 - 391 [j]免费全文] [CrossRef] [Medline
  13. Mengist W, Soromessa T, Legese G.环境科学研究的系统文献综述与元分析方法。方法[j]; 2020;7:100 . 77]免费全文] [CrossRef] [Medline
  14. Fernández del Amo I, Erkoyuncu JA, Roy R, Palmarini R, Onoufriou D.增强现实内容相关技术在维护应用中的知识转移的系统综述。计算机学报,2018;03:47-71。[CrossRef
  15. 拉森TJ,托马斯J,希金斯JPT。开始复习。编辑:Higgins JPT, Thomas J。Cochrane干预措施系统评价手册第2版。新泽西州霍博肯:约翰威利父子公司;2019年9月20日:3-12。
  16. 刘建军,刘建军,刘建军,刘建军。基于文本挖掘技术的研究综述。系统启示2015年1月14日;4:5 [免费全文] [CrossRef] [Medline
  17. 马歇尔IJ,华莱士BC。迈向系统评审自动化:在研究综合中使用机器学习工具的实用指南。系统更新2019年7月11日;8(1):163 [免费全文] [CrossRef] [Medline
  18. 张建军,张建军,张建军,张建军。用于识别随机对照试验的机器学习:评估和从业者指南。合成方法2018;12 (4):602-614 [j]免费全文] [CrossRef] [Medline
  19. 杨建军,杨建军,杨建军。基于神经网络的生物医学自然语言处理。见:第18届BioNLP研讨会论文集和共享任务。Stroudsburg, PA:计算语言学协会;2019年在:第18届BioNLP研讨会和共享任务;2019年8月1日;佛罗伦萨,意大利第319-327页https://aclanthology.org/W19-5034.pdfCrossRef
  20. 李军,尹伟,金山,金东,金山,苏昌,等。BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学2020 Feb 15;36(4):1234-1240 [j]免费全文] [CrossRef] [Medline
  21. Beltagy I, Lo K, Cohan A. SciBERT:科学文本的预训练语言模型。参见:2019年自然语言处理经验方法会议论文集和第九届自然语言处理国际联合会议(EMNLP-IJCNLP)。Stroudsburg, PA:计算语言学协会;2019年自然语言处理经验方法会议和第九届国际自然语言处理联合会议(EMNLP-IJCNLP);2019年11月3日至7日;中国香港,p. 3615-3620https://aclanthology.org/D19-1371.pdfCrossRef
  22. 梁颖,谢鹏。从医学文献中识别与COVID-19相关的影像学表现。出来了。2020年4月4日网上预印本[免费全文
  23. Devlin J, Chang M, Lee K, Toutanova K. BERT:基于深度双向变换的语言理解预训练。见:计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长、短论文)。Stroudsburg, PA:计算语言学协会;2019年在计算语言学协会北美分会2019年会议上发表:人类语言技术;2019年6月2日至7日;明尼阿波利斯,明尼苏达州,第4171-4186页https://aclanthology.org/N19-1423.pdfCrossRef
  24. 李建军,李建军。基于非监督关联向量的词嵌入。《第27届计算语言学国际会议论文集》。Stroudsburg, PA:计算语言学协会;2018年出席:第27届计算语言学国际会议;2018年8月20日至26日;Sante Fe, NM p. 2653-2665https://aclanthology.org/C18-1225.pdf
  25. Ahamed S, Samad M.从大量科学文献中挖掘COVID-19研究的信息。出来了。2020年4月5日网上预印本[免费全文
  26. Koseoglu马。战略管理研究的机构协作网络映射:1980-2014。科学计量学2016年2月22日;109(1):203-226。[CrossRef
  27. 王晓明,王晓明,王晓明,等。妇女健康期刊中男女编辑的比例:对性别差距的批判性分析和审查。中华皮肤科杂志,2020;6(1):7-12 [J]免费全文] [CrossRef] [Medline
  28. Thomas EG, Jayabalasingham B, Collins T, Geertzen J, Bui C, Dominici F. 2459种医学期刊特邀评论作者的性别差异。JAMA net Open 2019 Oct 02;2(10):e1913682 [j]免费全文] [CrossRef] [Medline
  29. Filardo G, da Graca B, Sass DM, Pollock BD, Smith EB, Martinez MA。高影响力医学期刊中女性第一作者的趋势和比较:观察性研究(1994-2014)。中国医学杂志2016年3月2日;352:847 [j]免费全文] [CrossRef] [Medline
  30. 麦克利兰S,米廷T,贾格斯R,托马斯CR,贾博宁JJ。第一和第二作者身份在评估美国放射肿瘤学住院医师基于引文的学术活动以及随后选择学术与私人执业职业中的重要性。中国生物医学工程学报,2018;15(9):1322-1325。[CrossRef] [Medline
  31. kureshi R, Lê J, Li T, Ibrahim M, Dickersin K.高影响力流行病学期刊的性别与编辑作者。中华流行病学杂志,2019,31 (12):391 - 391 [J]免费全文] [CrossRef] [Medline
  32. Erren TC, Groß JV, Shaw DM, Selle B. 2010年和2011年6种普通医学期刊的女性作者、审稿人、主编和编辑委员会成员的代表性。中国医学杂志2014年4月;14(4):633-635。[CrossRef] [Medline
  33. Schisterman EF, Swanson CW, Lu Y, Mumford SL.流行病学的变化。2017年流行病学;28(2):159 - 168。[CrossRef
  34. 洛特卡AJ。科学生产力的频率分布。[J]中国科学院学报(自然科学版);1926;16(12):317-323。
  35. 库雷西R,韩庚,Fapohunda K, Abariga S, Wilson R,李涛。眼部与视觉系统综述的作者多样性。系统Rev 2020 8月27日;9(1):192 [j]免费全文] [CrossRef] [Medline
  36. Tangcharoensathien V, Calleja N, Nguyen T, Purnat T, D'Agostino M, Garcia-Saiso S,等。COVID-19信息流行管理框架:世卫组织在线众包技术咨询的方法和结果。[J]医学互联网研究,2020,26;22(6):e19659 [J]免费全文] [CrossRef] [Medline
  37. 慕尼黑安全会议。2020年2月15日。URL:https://www.who.int/director-general/speeches/detail/munich-security-conference[2021-11-02]访问


2019年的今天,ncov:新型冠状病毒
人工智能:人工智能
伯特:来自变压器的双向编码器表示
BioBERT:生物医学文本挖掘变压器的双向编码器表示
CIRANO:大学间组织研究与分析中心
CORD-19:COVID-19开放研究数据集
艾迪:公平、多元化和包容
EpiBibR:基于流行病学的参考书目
MERS-CoV:中东呼吸综合征冠状病毒
NLP:自然语言处理
ORCID:开放研究者和贡献者ID
单反:系统文献综述
系统网络体系结构(SNA):社会网络分析
人:世界卫生组织


G·艾森巴赫编辑;提交23.06.21;A Blatch-Jones的同行评议;对作者的评论16.07.21;收到订正版本13.08.21;接受27.09.21;发表30.11.21

版权

©蒂埃里Warin。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 2021年11月30日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map