发表在24卷,第10位(2022): 10月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/40011,首次出版
2020年1月- 2021年3月:综合文献计量学和主题建模分析

2020年1月- 2021年3月:综合文献计量学和主题建模分析

2020年1月- 2021年3月:综合文献计量学和主题建模分析

审查

1西班牙圣Sebastián生物健康研究所创新股

2西班牙赫塔菲马德里卡洛斯三世大学图书馆与信息科学系

3.马德里康普顿斯大学图书馆与信息科学系,西班牙马德里

通讯作者:

Olatz Arrizabalaga,理学学士,医学博士,博士

创新单位

生物口腔健康研究所

Paseo Beguiristain博士s/n

20014

圣塞巴斯蒂安

西班牙

电话:34 943006001

电子邮件:olatz.arrizabalaga@biodonostia.org


背景:2019冠状病毒病疫情凸显了快速获取研究成果的重要性。

摘要目的:本研究的目的是调查与COVID-19相关的研究交流、论文的开放程度以及该疾病的主要研究课题。

方法:从大流行开始(2020年1月1日)到广泛封锁的一年结束(2021年3月1日),分析了开放获取(OA)的吸收(类型、许可使用)和出版物的主题演变。

结果:样本包括95,605份出版物;94.1%以OA形式发表,其中44%以青铜OA形式发表。在这些OA出版物中,42%没有许可证,这可能会限制引用次数,从而限制影响。使用主题建模方法,我们发现Hybrid和Green OA出版物中的文章更关注患者及其效果,而不同国家采取的对抗大流行的策略是选择通过Gold OA路线发表的文章的主要主题。

结论:尽管OA科学成果有所增加,但OA实践中的一些弱点,如缺乏许可或研究课题不足,仍然阻碍了其进一步研究的有效利用。

[J] .医学与互联网学报,2010;24(10):e40011

doi: 10.2196/40011

关键字



背景

2020年1月30日,世界卫生组织宣布新冠肺炎疫情为“国际关注的突发公共卫生事件”,并于2020年3月11日宣布疫情大流行,当时该病毒已在154个国家感染了15万多人[1-3.].一年后(2021年3月),全球感染人数达到380万[4].

科学界正面临着最大的研究挑战之一:快速制定COVID-19大流行的解决方案。这种特殊情况需要集体的科学努力,这反映在每天出版的数百份科学文件和资源中(从文章和评论到临床指南或方案和数据)。我们可能正在目睹有史以来最大规模的科学资源集中,专门用于解决一个共同问题。5].出版系统和传统科学传播的不同组成部分(期刊、数据库和知识库)的有效性对于开展关于这种新型冠状病毒的医学研究以及其他类型的研究重点(即经济、教育、心理学)至关重要,例如描述风险因素、临床特征和治疗策略,包括疫苗[6].

在大流行期间,研究主题也迅速变化,侧重于不同的感兴趣领域(图1): COVID-19及其治疗(绿色聚类)、高危人群(浅蓝色聚类)、大流行对心理健康的影响和社交距离的影响(红色聚类)、公共卫生(紫色聚类)以及冠状病毒术语或家庭(黄色聚类)。

我们采用元研究方法调查该疾病的学术交流,特别关注开放获取(OA)的使用情况,以及不同OA出版场所关于COVID-19主题的演变。

图1所示。在至少200篇被引用的SARS - cov -2相关出版物中,50个最常见关键词的共现图(数据摘自PubMed: 2020年1月1日至2021年3月1日)。使用VOSviewer创建的图像[7].
查看此图

学术出版制度的变迁

新冠肺炎给科学家们提出了挑战,要求他们克服学术交流的“正常”速度。当前系统从大流行开始面临的主要反对意见是双重的:默认关闭的科学和文章过载,在大流行开始时,PubMed每周估计有1000篇与covid -19相关的出版物[5].因此,全球健康危机很容易被确认为信息危机或"信息流行病" [89].

在大流行期间,为尽快公开COVID-19研究成果,开展了多项努力。2020年1月31日,威康信托基金会呼吁研究人员、资助者和期刊分享数据,并立即提供研究结果,为公共卫生部门应对此次疫情提供信息[10].该声明的签署人包括相关出版商(爱思唯尔、威利、施普林格、泰勒和弗朗西斯等)。大型科学期刊也紧随其后,尤其是生物医学期刊(如《科学》), JAMA,英国医学杂志,科学,牛津,剑桥,或者新英格兰医学杂志) [5],至少暂时如此。然而,出版商并不总是解放他们的版权许可,对于那些解放了版权的出版商来说,这主要是一种特殊的做法,而不是政策的改变。

学术出版系统面临新的压力和新的机遇[11].Horbach [12]分析了669篇文章,发现医学期刊加快了发表过程(例如,提交和发表之间的时间平均缩短了49%)。然而,一些研究显示了不利影响的证据,包括大流行期间掠夺性期刊的不道德做法、期刊质量标准的降低或偏见(例如,大多数科学产出来自西方国家或仅以英语出版,牺牲了可能对该主题有相关见解的当地社区)[12-14].

最新的文献计量学研究

文献计量学技术已被用于概述COVID-19的研究。对COVID-19出版物不同数据来源的覆盖情况进行了分析[15-17],使用其他指标(即维基百科和门德利)[1819],分析协作的有效性和影响[20.21],性别差异[22],话题演变[1623],大流行期间的学术交流流量[2425],以及这些研究成果的开放获取[515].

尽管产出了大量的科学出版物(2020年1月至2021年4月,在Dimensions数据库中发表了15万篇同行评议的COVID-19产出,在此期间发布了4万篇COVID-19预印本),但OA出版物的比例与数据库不同,在Dimensions中占72.81%,在PubMed中占88.8% [5111526].大多数OA出版物采用“青铜”路线,主要是在没有许可证的情况下发表的(占PubMed在疫情早期记录的所有OA论文的76.4%)[15].然而,大多数文献计量学研究和OA分析是在大流行的早期阶段进行的。

正如Colavizza等人所指出的[16],大流行研究的早期阶段以冠状病毒爆发为主题。然而,Wang和Hong在PubMed中使用医学主题标题(MeSH)术语按主题分析了27,370篇出版物[23发现流行病学和公共卫生干预措施获得了最高的关注。在这些类别中,最受欢迎的主题是COVID-19的预防和控制,而其他主题则不太受欢迎,例如药物治疗。然而,人们对OA类型或许可的差异知之甚少,这可以帮助研究人员和科学决策者了解和指导COVID-19研究的现状。

因此,本研究的目的是调查该疾病的研究交流、论文的开放程度和研究的主要课题。我们还受到以下研究问题的指导:紧急情况对学术交流产生了什么影响?开放获取出版模式如何影响引文率?适当的许可证对已发表论文的引用有什么影响?在大流行期间,出版物所涵盖的主题是如何演变的?OA出版模式对所分析的主题有影响吗?


来源和搜索策略

本研究使用不同的数据库和工具收集和分析了与covid -19相关的出版物、OA相关信息(类型和许可)以及涵盖的主要主题(图2).选择的平台包括PubMed、Lens、Microsoft Academics和Unpaywall,它们共同覆盖了很大一部分免费生物医学出版物。对于这项研究,我们选择了PubMed,因为它是唯一一个能够以更新的方式(每日更新)记录自大流行开始以来关于该主题的出版物数量最多的数据库,包括早期文章。其他数据库如Web of Science (WoS)或Scopus相对于PubMed有索引延迟[1527].此外,PubMed是一个更适合生物医学研究的数据库,而Scopus和WoS则是更多学科的数据库。此外,PubMed向所有用户提供免费访问,而Scopus和WoS则是基于订阅的。

检索于2021年3月16日在Lens数据平台(仅考虑PubMed数据库)中进行,由国家医学图书馆和国家生物技术信息中心建议查询如下:2019-nCoV或2019nCoV或COVID-19或SARS-CoV-2或(武汉和冠状病毒)

图2。用于选择研究样本的工作流程(来源和指标)。
查看此图

资料选择、研究范围和局限性

我们的分析集中在2020年1月1日至2021年3月1日这段时间。这一时期与人群中的高峰病例和最初的疫苗接种方案(免疫接种)相对应[28].在PubMed中检索到99,969篇关于COVID-19的科学论文,其中2595篇(2.60%)没有DOI, 1764篇(1.76%)未被Unpaywall识别。因此,本研究共考虑了95,605份出版物。Lens数据库用于从选定的出版物中收集160万次引用。

虽然根据所分析的出版物数量和所进行的不同类型的分析,这是一项非常全面的研究,但必须指出一些局限性。我们只考虑了一个数据库(PubMed),它主要偏重于医学和生物医学出版物,并没有涵盖所有的学术领域和所有的出版语言。非英文出版物和非生物医学领域未被涵盖或代表性不足。另一个限制是由于使用Unpaywall;虽然这个来源提供了有关OA的相关信息,但它没有完全覆盖,有时还与Crossref中的信息相矛盾。所采用的搜索策略的局限性包括使用关键词来选择每一篇与covid -19相关的文章,这与对大流行的研究和其他可能包含流行语的研究的贡献相冲突。

数据分析和研究步骤

我们首先分析了研究期间(2020年1月至2021年3月)OA的使用情况及其对有关COVID-19的科学出版物的影响。图2总结分析了主要指标。之所以考虑开放获取状态信息,是因为开放获取旨在通过促进科学产出的可见性和传播以及消除技术或财务障碍,最大限度地提高对研究的获取[29].我们的分析考虑了Unpaywall定义的不同OA类别:青铜奖(文章在出版商的网站上免费提供,无论是立即还是在禁令之后,但没有正式的重用许可),金牌奖(文章通过支付一定费用,即文章处理费[APC],在完全可访问的OA期刊上发表),绿色奖(存档在在线开放存储库中的副本,在禁运期后可以访问最终版本),混合奖(订阅期刊上的文章通过支付APC而获得OA)。此外,根据Lens的说法,每篇文章的总引用次数是通过OA类型学来考虑和分析的。然而,考虑到偏斜分布与引文统计数据被少数高被引或未被引论文(例如,在短时间窗口内发表的论文)占主导地位的风险相关,需要基于百分位数的文献计量指标。因此,在本研究中,我们采用了基于每篇论文总被引次数的第90百分位(P90),以便更好地进行出版物影响的跨oa比较。P90表示该论文属于最常被引论文前10%,通过电子表格中模式线性插值计算得出。

我们还使用Unpaywall收集有关许可的信息。所分析的主要许可选项是知识共享(CC)或特定于出版商的许可。根据其重用程度,从最开放到最严格,许可类型包括:美国化学会(ACS)专用、CC、CC- by、CC- by - nc、CC- by - nc - nd、CC- by - nc - sa、CC- by - nd、CC- by - sa、爱思唯尔专用、隐含oa、PD、出版商专用许可和无许可。此外,通过分析五个最常见的出版商(Elsevier BV, Wiley, Oxford University Press [OUP]和BMJ)来检索出版商信息。Openrefine被用来组织、清理和分析数据。该工具允许我们过滤从Lens中提取的数据,将数据与Unpaywall应用程序编程接口连接起来,并收集有关OA和存储库(PMC或机构存储库,可在开放档案倡议-元数据收集协议[OAI-PMH]中找到)的更多信息。对于数据分析,还使用了电子表格的解释和可视化。我们进一步利用ArcGIS软件绘制了105篇高被引论文(引用次数超过1000次,占总被引次数的0.11%)通讯作者的国家分布。

接下来,我们将主题建模技术应用于按OA类型(青铜、金色、绿色和混合)分类的COVID-19出版物的标题和摘要,以确定大流行期间的突出主题及其演变。这种概率技术将一组文本作为输入,使从文档语料库中识别和学习“主题”成为可能[30.31].然后将所有文档中的关键字按出现频率进行分组;因此,可以认为它们在主题上是相连的,形成了集群(或主题)。由于使用了这种技术,Bronze中最大的集群由student、medical或survey等关键字组成,这些关键字构成了集群0(请参阅多媒体附录1).

与聚类不同,主题建模假设每个文档适合一个或多个主题。在R软件中使用tm包消除停止词、空格和其他不相关字符[3233].本次分析共使用了数据集的87,744篇论文(87.8%)。对于主题建模,我们采用了Colavizza等人的[16在Open Jupyter Notebook中通过使用gensim实现对数据集进行潜在Dirichlet分配模型的训练[163134].在本例中,定义了15个集群用于识别按OA类型划分的关键字,每个集群由一组关键字组成(完整列表见多媒体附录1).为了更深入地分析内容,每个聚类被划分为Colavizza等人定义的主要主题[16]和王、红[23],如下所述。“冠状病毒爆发”和“流行病”被合并为一个主题(标记为“流行病”),因为它们包含类似的集群。这5个主题及其范围定义在表1.中提供了主题和集群的综合列表多媒体附录1

除此之外,还分析了OA类型的聚类每月主题强度(基于出版物数量),以观察其随时间的变化。由于研究期间截止到2021年3月1日,因此3月未包括在本分析中。

本研究使用的数据集已在Zenodo [35].

表1。主题描述和识别关键字的示例。
主题 定义和范围 关键词示例
临床医学 临床医学建立在对病人的直接观察基础上的医学研究和实践 治疗,胸部,治疗,症状,临床试验
免疫学 涵盖了所有生物免疫系统的研究 免疫,抗体,药物,疫苗,刺突
分子生物学 生物学的一个分支,研究生命所必需的大分子的结构和功能 蛋白质,核酸,病毒细胞,抗体,细胞因子
公共卫生 关于公共卫生的医学分支,包括卫生、流行病学和疾病预防 公共卫生系统,病人,精神健康,社区,护理
流行病学 研究疾病在短时间内对特定人群中大量人群的快速传播 疾病,爆发,国家,口罩,检测

OA吸收

概述

从95,605篇PubMed文章中(图2), 98.34% (n=94,015)为期刊文章,94.08% (n=89,944)为OA格式,其中Bronze OA占多数(44.8%),其次是Gold(31.9%)、Green(14.1%)和Hybrid (9.3%) (图3一个)。

其余的出版物包括发表的内容(n=1551)、书籍章节(n=27)和“其他”(n=6),包括1份报告、1份同行评议、2篇论文和1篇未分类的类型(图3b)。

总体而言,41.39%(39,573/95,605)的出版物为青铜OA模式,29.49%(28,192/95,602)为黄金OA模式,14.64%(13,993/95,605)为绿色OA模式,8.56%(8186/95,605)为混合OA模式(图3c)。

通过对该领域被引分布的P90测量发现,Hybrid、Green和Bronze OA文章的被引值分别为29、26和24,高于Gold OA文章(16)和closed期刊文章(5)。

出版模式演变分析(图3d)表明,在大流行期间,Green模型的使用率呈下降趋势,最终成为使用率最低的模型。随着疫情的发展,青铜和黄金出版模式更加突出,从2020年第二季度开始,青铜出版模式大幅增加。

图3。2020年1月1日至2021年3月1日在pubmed上发表的SARS - cov相关论文及其基于Unpaywall的开放获取(OA)状态。(a)被考虑和被排除的论文(没有DOI,未被Unpaywall扫描)的百分比及其OA比率。(b) PubMed建立的出版类型及其OA类型。(c)按OA出版模式划分的出版物和引用的百分比。(d)出版物按照开放获取出版模式的演变。P90:第90百分位。
查看此图

图4显示了拥有OA sars - cov -2相关论文库副本对引文的影响。如图所示图4a, 83.1%的OA论文在库中至少有一份副本(Bronze OA为70.7%;90.7%的金OA;99.9%的绿色OA,尽管一篇论文被归类为绿色,但没有存储库副本;88%的混合型开放获取出版物)。其中Bronze OA占37.4% (n= 27990), Gold OA占34.2% (n= 25583), Green OA占18.7% (n= 13992), Hybrid OA占9.6% (n=7207)。更具体地说,在每一种OA类型中,有库副本的出版物组的P90比没有库副本的出版物组的P90要高:铜篇论文的P90比14,金篇论文的P90比17,绿篇论文的P90比3,Hybrid期刊的P90比33。图4b)。

图4。在PubMed(2020年1月1日至2021年3月1日)上拥有开放获取(OA) sars - cov -2相关论文的存储库副本对引用的影响(基于第90百分位[P90])。(a)有和没有库副本的OA论文的百分比。(b)按OA类型划分的有和没有库副本的论文的前10%。
查看此图
许可证

我们还审查了OA论文持有的许可证的重用权限:34.4% (n=25,740)的具有库副本的论文没有明确的许可证,而没有库副本的论文中有81.8% (n=12,418) (图5一个)。

图5b表明,所有OA文章中有相当数量的文章缺乏适当的许可(42.4%),这意味着许可允许论文的免费重复使用。使用最多的是CC-BY(23.3%),其次是Implied-OA(16.9%)、CC-BY- nc - nd(10.8%)和CC-BY- nc(5.1%)。通过对这两组论文的被引频次进行分析,我们发现ACS-Specific许可下的论文被引频次最高(99.1次),隐含oa许可下的论文被引频次最高(66次)。没有明确许可的文章被引用的次数很少(10)。基于这些结果,我们进一步研究了这三组(非授权、ACS-Specific授权和隐含oa授权)。在非授权OA论文中,占主导地位的是Bronze,占75.1% (n=28,584), P90=10,其次是Green (20%, P90=10)和Gold (4.9%, P90=13) (图5c).进一步分析按许可类型被引频次最高的论文,即ACS-Specific许可论文。在这种情况下,几乎90%的论文属于Hybrid OA类别,P90值为101.2 (图5d)。最后,67.2%的隐含OA许可论文具有青铜OA状态,P90值为73 (图5e)。

图5。PubMed开放获取(OA) sars - cov -2相关论文许可(2020年1月1日至2021年3月1日)。(a)有或没有特定许可证的论文数量,由开放获取/非开放获取分发,有/没有存储库副本。(b)按许可证类别分发文件。(c-e)非许可论文(c)、acs特定许可论文(d)和隐含的OA许可论文(e)的P90和OA状态。P90:第90百分位;美国化学学会。
查看此图
出版商

出版频次最高的是Elsevier,发表了26.88%(25694 / 95605),其次是Wiley(13461 / 95605, 14.08%)、Springer(10266 / 95605, 10.74%)、OUP(3940/ 95605, 4.12%)和BMJ(3701/ 95605, 3.87%)。图6a)更深入地研究了这些出版商是否有一定的许可证,以及三家顶级出版商(图6b).结果显示,在elsevier发表的论文中,47% (n= 12090)的论文没有获得许可,相关被引次数较低(n=7)。然而,来自该出版商的带有许可证的文章的引用P90要高得多,为51。接下来的两个最常见的出版商也观察到了同样的模式:施普林格43%的文章没有任何许可证,与有许可证的论文相比,他们的引用水平很低(9比27);Wiley的论文中有53%没有授权,只有7次引用,而有授权的论文有34次引用。

图6。PubMed在2020年1月1日至2021年3月1日期间发表新冠肺炎相关论文最多的出版商和期刊。(a)最经常的出版商分发的出版物总数和百分比。(b)在三个主要出版商发表的所有论文的引文(P90)和是否有适当的许可证。英国医学杂志;牛津大学出版社;P90:第90百分位;我:没有。
查看此图
国家高被引论文

对于被引次数超过1000次的论文(高被引论文105篇),我们确定了通讯作者的国家。中国是被引论文最多的国家,有58篇论文被引次数超过1000次(图7).58篇论文的平均被引量为3932次,最高被引量为16164次。论文被引用次数最多的两个国家是美国和英国,分别有22篇和11篇论文被引用次数超过1000次。在这三个国家之后,其他国家发表的高被引论文数量明显低于5篇(例如,德国,4篇;意大利、荷兰和瑞士各2人;法国、新加坡、瑞典和台湾1)。

图7。高被引论文国家(通讯作者)地图。使用ArcGIS创建的图像[36].
查看此图

识别和监测主题演变

采用基于标题和摘要的主题建模技术,分析各出版物的生物医学内容及其在研究期间的分布情况。图8显示主题集群和OA类别提及每个主题的次数。讨论最多的主题是公共卫生、流行病(即在各国监测COVID-19)和临床医学(即患者、分析和治疗),这表明预防和控制COVID-19是所有阶段最令人关注的问题(见多媒体附录1).相比之下,以检测和预防为目的的免疫学(即试验和疫苗接种)和分子生物学(即蛋白质、抗体)则没有表现出那么大的兴趣。此外,一些主题显示出对特定OA类别的明显偏好,例如金色OA中的临床医学和绿色OA中的流行病。

图8。按开放获取类型分列的covid -19相关主题数量分布情况。
查看此图

在青铜OA出版物中,如图9从2020年3月开始,第7组(卫生保健和服务)脱颖而出。群集3,与封锁和病例(流行病)相关的术语,在2020年1月很常见,但在大流行期间有所减少。另一个突出的聚类是聚类5,以症状(如呼吸综合征)为代表,从2020年2月开始更为常见,并且在整个研究期间保持这种流行。同样,与COVID-19一般研究(调查、访谈等)相关的第1类从2020年4月开始流行。不同的是,第11类(药物、蛋白质、病毒)在2020年1月相对常见,但在研究期间有所减少。相比之下,有一些较少出现的主题,包括第2类和第6类,以临床医学(如孕妇)为代表;第4组,以免疫学为代表;群集13和14,以流行病为代表(例如,测试和预测模型)。

图10展示了金牌开放获取出版物主题的演变。第五组与各国所采取的战略有关,在整个分析期间都很突出。另一个相关主题是大流行头几个月(2020年1月至3月)中国的病例数(特别是2020年2月)(第9类)和临床症状(感染、呼吸综合征)(第14类)。第1类和第8类,分别代表临床医学(如蛋白质)和公共卫生(如大流行对精神健康的影响),在研究的后几个月里显示出适度的增加。

绿色OA出版物显示在图11.在2020年1月和2月,类集6中反映的与呼吸道症状相关的主题非常常见。第5类(治疗COVID-19,如羟氯喹)在2020年2月表现强劲。其他感兴趣的演变包括患者和住院(第10类),随着时间的推移(特别是2021年11月至12月),其相关性增强,而治疗(第12类;例如,药物,蛋白质和抗病毒药物)从2020年3月到7月开始相关,然后兴趣随后下降。效应(集群2;例如,牙齿、睡眠质量)或症状以及为预防病毒而采取的全球措施(聚类13;例如,封锁、保持社交距离)表现出相对较少的兴趣。

图12显示了基于研究期间Hybrid OA出版物数量的聚类强度。在分析期开始时,分类0、2和5是研究最多的主题,对应于公共卫生和流行病。例如,由于COVID-19对人口的心理和精神健康(如抑郁、焦虑、心理影响)的影响,群集2从2020年1月开始爆发。值得注意的是,第3、6和13组分别与公共卫生、临床医学和流行病主题相关,随着时间的推移,其强度有所增加。其他几乎没有兴趣的分类是与护理和护理(第8类)、死亡率(第11类)和儿童反应(第14类)相关的。

图9。青铜开放获取期刊的主题强度(2020年1月1日至2021年3月1日)(n=38,625)。
查看此图
图10。Gold开放获取期刊的主题强度(2020年1月1日至2021年3月1日)(n=27,786)。
查看此图
图11。绿色开放获取期刊的主题强度(2020年1月1日至2021年3月1日)(n=13,396)。
查看此图
图12。Hybrid期刊的主题强度(2020年1月1日至2021年3月1日)(n=7937)。
查看此图

基于大流行期间出版物数量的大量增加[15],本研究分析的数据(95,605份出版物)显示,大多数论文是公开可得的(94.1%),这一比例明显高于其他数据库(如Torres-Salinas等人指出的Dimensions数据库的68%)[5])。青铜OA是最常见的类别,这意味着付费期刊为这些出版物提供免费访问。在WoS、Scopus、Dimensions等不同的数据库中,前人的研究也支持同样的模式[5153738].对出版物和OA类型随时间演变的分析表明,尽管所有OA类型都有增加的趋势,但在大流行期间,绿色OA文章减少,有利于金色OA期刊,这与name等人的发现一致[11].

这些结果突出表明,拥有存储库副本的论文的OA影响(以P90衡量)更高;然而,42%的OA论文没有许可证,这可能与较低的可见性相关,并可能影响研究结果的重用。虽然最常用的许可证是CC-BY、Implied-OA和CC-BY- nc - nd,但ACS-Specific和Implied-OA许可证的引用次数更多。在这方面,如果不适当地分享和传播知识和发现,就会减缓防治疾病的斗争,造成更明显的致命影响。

主题建模分析显示,PubMed上的大多数出版物集中在公共卫生、流行病和临床医学上,而免疫学和分子生物学是最少被提及的主题(补充了Colavizza等人的发现)。16]和王、红[23])。然而,公共卫生和临床医学等主题发挥了关键作用(支持Wang和Hong [23]),为Colavizza等人提供了新的见解[16]关于这个特定数据库中主题的变化。

新冠肺炎研究课题随着其出版趋势的演变而不断发展。总体而言,预防和控制是最普遍的话题(与Wang和Hong一致)[23]),而预测(例如,预测模型)或治疗(例如,药物治疗)或对特定人群的影响(例如,儿童反应,孕妇)是研究最少的主题。在本研究的几个月中,不同OA类别的话题强度表现出不同的行为。混合和绿色OA出版物更关注患者及其效果,而不同国家采用的策略更频繁地发表在金色OA期刊上,医疗保健和服务主题主要发表在青铜色OA期刊上。尽管大流行初期的研究重点主要集中在疾病症状或控制病毒传播的治疗方法(发表在Green、Hybrid和Gold期刊上)、测试或样本(Hybrid)或病例数(Gold)上——这些主题持续流行,例如Hybrid期刊上的公共卫生系统或Gold期刊上的各国战略——最近,重点已放在按国家分类的病例(Hybrid)上。病人和住院(绿色),或蛋白质(金色)等等。

本研究的主要结论可以概括如下:首先,在全球首次封锁一年后,PubMed上与covid -19相关的文章数量是疫情初期的17倍。这为Torres-Salinas等人的研究提供了新的见解[5],据估计,在疫情开始时,PubMed每周总共有1000份文件。

第二,为有效应对全球疫情,我们需要提高研究和成果的开放性。这是一个展示学术交流系统如何造福公众的机会。尽管大量出版物是免费提供的,但并非所有出版物都是开放和可重用的。正如本研究清楚表明的那样,需要在公共许可方面做出更多努力;与COVID-19相关的开放获取论文中有42%没有许可证,这与知名度较低有关,特别是对于青铜开放获取出版物。

第三,被引用次数较多的文章包括那些在期刊强制许可下发表的文章,这些许可规定对这些论文的访问是临时的,允许在有限的时间内重复使用和分析,甚至只允许在有限的时间内阅读。

第四,根据引用次数来衡量,OA类别(特别是Hybrid和Green)似乎比封闭期刊具有更高的影响力。对于存储库副本(特别是那些具有acs特定许可和隐含oa许可的副本),可以观察到更大的影响。

第五,只有大约100篇论文被引用超过1000次。高被引论文以英文为主,通讯作者来自发达国家(美国、中国和英国)。

第六,混合型和绿色开放获取出版物更关注患者及其效果,而国家采用的策略在选择金色开放获取路线的论文中更为普遍。在Bronze OA期刊上发表的论文中,医疗保健和服务是最常见的主题。

最后,预防和控制是所分析出版物中最普遍的主题(冠状病毒爆发/流行病学和公共卫生)。然而,在一些主题上的研究仍然不足(例如,对儿童或孕妇等某些人群的影响),需要更多的全球研究合作。

总体而言,监测和测量OA和主题演变将有助于研究人员和科学决策者了解COVID-19研究的现状。这些信息可能有助于作为参考指南,激发新的想法和研究方向,并有助于防治这一流行病。

致谢

作者要感谢Charles McCathieNevile对本文的周到评论和反馈。

利益冲突

没有宣布。

多媒体附录1

基于主题建模的按开放获取类型划分的covid -19相关出版物聚类。

DOCX文件,24kb

  1. 李建军,李建军,李建军,李建军,等。新型冠状病毒肺炎流行病学研究进展。Cureus 2020 Mar 18;12(3):e7313 [免费全文] [CrossRef] [Medline]
  2. 刘建军,刘建军,刘建军,等。世界卫生组织宣布全球紧急状态:对2019年新型冠状病毒(COVID-19)的回顾。中华外科杂志2020年4月;76:71-76 [J]免费全文] [CrossRef] [Medline]
  3. 中国-世界卫生组织2019冠状病毒病联合考察团报告。世界卫生组织,2020。URL:https://www.who.int/docs/default-source/coronaviruse/who-china-joint-mission-on-covid-19-final-report.pdf[2022-08-23]访问
  4. 关于COVID-19的每周流行病学最新情况- 2021年3月30日。2021年3月28日。URL:https://www.who.int/publications/m/item/weekly-epidemiological-update-on-covid-19---31-march-2021[2022-08-23]访问
  5. 张建军,张建军,张建军,等。开放获取与新冠肺炎疫情预测分析。bioRxiv。2020年4月26日。URL:307年https://www.biorxiv.org/content/10.1101/2020.04.23.057 v1[2022-08-23]访问
  6. 预印本带来爆发数据的“水龙带”。Science 2020 Feb 28;367(6481):963-964。(CrossRef] [Medline]
  7. VOSviewer可视化科学景观。URL:https://www.vosviewer.com/[2022-09-12]访问
  8. 谢波,何东,Mercer T,王勇,吴东,Fleischmann KR,等。全球卫生危机也是信息危机:呼吁采取行动。中国生物医学工程学报,2016,31 (1):449 - 449 [J]免费全文] [CrossRef] [Medline]
  9. Cinelli M, Quattrociocchi W, Galeazzi A, Valensise CM, Brugnoli E, Schmidt AL等。COVID-19社交媒体信息大流行。科学通报2020;10(1):16598。(CrossRef] [Medline]
  10. 分享与新型冠状病毒(COVID-19)疫情有关的研究数据和发现。2020年1月31日。URL:https://wellcome.org/press-release/sharing-research-data-and-findings-relevant-novel-coronavirus-ncov-outbreak[2022-08-23]访问
  11. name T, Robinson-Garcia N, van SF, Torres-Salinas D. COVID-19与科学出版系统:增长、开放获取和科学领域。SocArXiv论文。2021年12月15日。URL:https://osf.io/preprints/socarxiv/ntrpx/[2022-08-23]访问
  12. Horbach SPJM。现在没时间了!Covid-19大流行期间稿件同行评审的质变[au:] [au:] [au:]免费全文] [CrossRef]
  13. Vervoort D, Ma X, Shrime MG。金钱流失:COVID-19时代的掠夺性出版。公共卫生[J]; 2020年10月4日;11 (5):665-666 [J]免费全文] [CrossRef] [Medline]
  14. Lariviere V, Shu F, Sugimoto C.新冠肺炎疫情凸显了学术交流的严重不足。LSE影响力博客,2020年3月5日。URL:https://blogs.lse.ac.uk/impactofsocialsciences/2020/03/05/the-corona virus-covid-19-outbreak-highlights-serious-deficiencies-in-scholarly-communication /[2022-08-23]访问
  15. Arrizabalaga O, Otaegui D, Vergara I, Arrizabalaga J, msamendez E. 2020年第一季度covid -19相关出版物的开放获取:PubMed的初步研究F1000Res 2020;9:649 [免费全文] [CrossRef] [Medline]
  16. 郭建军,李建军,李建军,等。CORD-19的科学计量学研究进展。PLoS One 2021 Jan 7;16(1):e0244839 [j]免费全文] [CrossRef] [Medline]
  17. COVID-19出版物:数据库报道、引用、读者、推文、新闻、Facebook墙、Reddit帖子。《科学通报》2011年第1期,第1期。(CrossRef]
  18. 维基百科的COVID-19研究。量化科学研究,2020;1(4):1349-1380。(CrossRef]
  19. 2020年之前的冠状病毒研究比以往任何时候都更有意义,尤其是在针对COVID-19进行解释时。量化科学研究,2020年12月;1(4):1381-1395。(CrossRef]
  20. 张建军,张建军,张建军。新冠肺炎疫情背景下的多学科合作研究。人类社会科学,2021;Oct 19;8(1):240。(CrossRef]
  21. Damaševičius R, Zailskaitė-Jakštė L.新冠肺炎疫情对国家层面经贸科研合作的影响:科学计量学分析。J Doc 2022年6月07日:在线出版先于印刷。(CrossRef]
  22. 女性在大流行期间发表的文章减少了吗?数据是这样说的。Nature 2020 May 20;581(7809):365-366。(CrossRef] [Medline]
  23. 王静,洪宁。COVID-19研究格局:利用科学文献衡量主题和合作。医学2020年10月23日;99(43):e22849。(CrossRef] [Medline]
  24. 霍莫拉克J, Kodvanj I, Virag D. COVID-19学术信息模式初步分析:呼吁封闭边界时代的开放科学。科学计量学[j]; 2009; 24(3):2687-2701 [j]免费全文] [CrossRef] [Medline]
  25. 撤稿的COVID-19文章:激烈的出版竞争的副作用。科学计量学[j]; 2008; 31 (1):819-822 [j]免费全文] [CrossRef] [Medline]
  26. 张建军,张建军,张建军,等。危机时期的学术传播:学术传播系统对COVID-19大流行的反应。研究院研究。2021。URL:https://rori.figshare.com/articles/report/Scholarly_communication_in_times_of_crisis_The_response_of_the_scholarly _communication_system_to_the_COVID-19_pandemic / 17125394[2022-08-23]访问
  27. Falagas M, Pitsouni E, Malietzis G, Pappas G. PubMed、Scopus、Web of Science和Google Scholar的优势与劣势比较。财会学报,2007,9;22(2):338-342。(CrossRef]
  28. 我们的数据世界。URL:https://ourworldindata.org/coronavirus#explore-the-global-situation[2022-08-23]访问
  29. Rodrigo C. accessoabierto (Open Access) en las publicaciones científicas。西班牙社区营养杂志(Revista Española de Nutrición); 2010;16(4):203。
  30. 霍曼。概率潜在语义分析。1999年发表于:第15届人工智能不确定性会议;1999年7月30日至8月1日;斯德哥尔摩,瑞典。
  31. 李建军,吴建军,李建军,等。[J] .计算机工程学报,2003;3:993- 922。
  32. R核心团队。统计计算语言与环境。维也纳,奥地利:R统计计算基金会;2021.
  33. Feinerer I, Hornik K. tm:文本挖掘包版本0.7-8。R项目。2020。URL:https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf[2022-08-23]访问
  34. Řehůřek R, Sojka P.大型语料库主题建模的软件框架。2010年在LREC 2010 NLP框架新挑战研讨会上发表;2010年5月22日;马耳他。(CrossRef]
  35. San Torcuato M, Bautista-Puig N, Arrizabalaga O, Mendez E.跟踪COVID-19出版物的开放性和主题演变:综合分析(2020年1月至2021年3月)。2022年3月22日URL:https://zenodo.org/record/6376578#.YwTw_OzMJcA[2022-08-23]访问
  36. ArcGIS在线。URL:https://www.arcgis.com/index.html[2022-09-12]访问
  37. Chen X, Bharti N, Marsteller MR.利用文献计量学数据了解不同开放获取类别在Covid-19相关研究中的被引优势。中国生物医学工程学报(英文版);2013;31 (1):491 - 491 [j]免费全文] [CrossRef] [Medline]
  38. Belli S, Mugnaini R, baltjo J, Abadal E.科学出版物中的冠状病毒图谱:当科学快速和集体进步时,这些知识是否向社会开放?科学计量学学报(英文版);2009;32 (3):661- 685 [j]免费全文] [CrossRef] [Medline]


ACS:美国化学学会
APC:物品处理费
BMJ:英国医学杂志
答:知识共享
网:医学科目标题
办公自动化:开放获取
OIA-PMH:开放档案倡议-元数据收集协议
牛津大学出版社:牛津大学出版社
P90:第90个百分位
我:科学网


C . Basch编辑;提交01.06.22;J Willinsky, R Damaševičius的同行评审;对作者的评论24.06.22;收到修改版本21.07.22;接受28.07.22;发表03.10.22

版权

©Maider San Torcuato, Núria Bautista-Puig, Olatz Arrizabalaga, Eva msamudez。原载于医学互联网研究杂志(//www.mybigtv.com), 2022年10月3日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map