发表在23卷, 5号(2021): 5月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/28666,首次出版
搜索策略中词的冗余性。对“检索PubMed检索有关COVID-19大流行的出版物:检索字符串的比较分析”的评论

搜索策略中词的冗余性。对“检索PubMed检索有关COVID-19大流行的出版物:检索字符串的比较分析”的评论

搜索策略中词的冗余性。对“检索PubMed检索有关COVID-19大流行的出版物:检索字符串的比较分析”的评论

给编辑的信

通讯作者:

Jonas Ivan Nobre Oliveira博士

北格兰德联邦大学

Biofísica e药物学学系

Natal, 59072 - 970

巴西

电话:55 8432153793

电子邮件:jonasivan@gmail.com



最近,一项关于PubMed中COVID-19记录不同搜索策略性能的非常有趣的研究发表在医学互联网研究杂志(1]。在本文中,Lazarus等人将PubMed的一键搜索选项与更简单和更复杂的搜索字符串的性能进行了比较。新手和专业搜索者在搜索时都要记住这些。例如,一篇评论的搜索策略是一项耗时的工作,在查找相关的受控词汇表和关键字上花费的精力可能会被这些术语的格式、编译和翻译中的错误所破坏。不幸的是,即使在已发表的研究中,这些错误的存在也极为普遍。桑普森和麦高恩[2]查阅了发表在Cochrane上的研究,发现90.5%的样本的搜索策略包含一个或多个错误。有些错误与术语或术语变体标识有关,但其他错误与术语格式和基本编译中的错误有关。后一类包括布尔错误(19%),不正确的行号(1.6%),使用医学主题标题(MeSH)和自由文本术语合并在同一行(20.6%),以及搜索策略没有适当地翻译到其他数据库(20.6%)。

2018年,一项随机抽样70篇Cochrane综述的研究发现,73%的综述在搜索策略设计上存在问题,其中53%的综述存在可能限制搜索灵敏度和精度的问题[3.]。最近,Salvador-Oliván等人(2019)[4]评估了PubMed中137篇系统综述的搜索策略,以识别错误,分析其对信息检索的影响,并提出解决方案。本研究结果表明,包含各种类型错误的搜索策略的比例相当高(92.7%),其中78.1%的错误影响召回。尽管很大一部分错误来自对术语的不充分识别,但错误也出现在格式级别,缺少字段标记(21.2%),缺少或不正确地使用引号(5.8%)、布尔运算符(1.5%)和括号(5.1%)[4]。

正如所预料的那样,一些错误对结果的影响比其他错误更严重。对结果数量完全没有影响的错误包括冗余术语和词形重复;这些“搜索错误”既不会影响召回,也不会对召回或准确性方面的信息检索产生负面影响。

冗余的一个例子如下:“2019年的小说《冠状病毒病”(tw)或“2019新型冠状病毒感染”(tw)或“2019 - ncov疾病”(tw)或“2019 - ncov感染”(tw)或“COVID-19大流行”(tw)或“COVID-19病毒病”(tw)或“COVID-19病毒感染”(tw)或“COVID19”(tw)或“SARS-CoV-2感染”(tw)或“冠状病毒病2019”(tw)或“冠状病毒disease-19”(tw)或“COVID-19大流行”(tw)或“COVID-19”(tw)。作者认为冗余是合理的,因为包括或排除术语的决定取决于检索到的参考文献,因为术语对结果的影响是无法预测的。然而,众所周知,在PubMed搜索中,前11个词很容易被丢弃,因为使用第12个变体将覆盖所有11个词,所以其他词是不必要的。

在搜索过程方面,已经开发了与数据挖掘相关的工具来帮助图书馆员识别相关的术语。Stansfield等人已经记录了一些文本挖掘方法[5],包括TFIDF、Termine和BibExcel。还建议使用图书管理员工具,这些工具通常特别关注MeSH词库,例如PubMed PubReMiner [6]和耶鲁MeSH分析仪[7]查找关键词和控制词汇。

由美国国家医学图书馆创建和更新的MeSH词汇表被ClinicalTrials.gov注册中心用来对数据库中注册的试验所研究的疾病进行分类。这种用于生物医学信息索引和编目的分层组织术语分为四种类型的术语。主要术语是“标题”(也称为MeSH标题或描述符),它描述了每篇文章的主题。其中大多数都附有同义词或非常相似的术语列表(称为词条术语)。当通过PubMed执行MEDLINE搜索时,条目术语被自动翻译成(即映射到)相应的描述符,具有很高的可靠性。从这个意义上说,我们强调了在针对COVID-19相关研究的PubMed搜索中使用受控词汇“COVID-19”(唯一id: C000657245)和“SARS-CoV-2”(唯一id: D000086402)的重要性,而不是Lazarus及其合作者分析的术语集(搜索1、2、3、6、7和8)[1]。

搜索策略中的冗余项不影响信息的检索;然而,节俭原则指导我们消除不必要的东西。应用于信息检索时,该原则提示我们从搜索策略中删除不检索或不提供新记录的任何术语或短语,因为它们是不必要的。

致谢

这项工作由巴西研究机构CAPES (PNPD)和CNPq(财务代码001)部分资助。

利益冲突

没有宣布。

参考文献

  1. Lazarus JV, Palayew A, Rasmussen LN, Andersen TH, Nicholson J, Norgaard O.在PubMed中检索新冠肺炎大流行期刊的比较分析。[J]医学互联网研究,2020年11月26日;22(11):e23449 [J]免费全文] [CrossRef] [Medline]
  2. Sampson M, McGowan J.错误搜索策略的类型和频率识别。临床流行病学杂志,2006;59(10):1057-1063。(CrossRef] [Medline]
  3. 刘建军,刘建军,刘建军。Cochrane综述中搜索策略的问题识别。合成方法2018;9(3):408-416。(CrossRef] [Medline]
  4. [0]张建军,张建军,张建军,等。系统评价中搜索策略的误差及其对信息检索的影响。中华医学杂志,2019,31(2):391 - 391。(CrossRef]
  5. 斯坦菲尔德C,奥马拉-埃夫斯A,托马斯J.文本挖掘搜索词发展的系统回顾:一些方法和挑战的讨论。Res Synth Methods 2017, Sep;8(3):355-365。(CrossRef] [Medline]
  6. PubMed PubReMiner。[J]卫生图书馆学报,2014,07,21;33(2):106。(CrossRef]
  7. hockking R. Yale MeSH分析仪。[J]健康图书馆协会2017年12月1日;38(3)。(CrossRef]


网:医学主题词


T德里克编辑;这是一篇未经同行评议的文章。提交10.03.21;接受13.05.21;发表28.05.21

版权

©Daniel Melo De Oliveira Campos, Umberto Laino Fulco, Jonas Ivan Nobre Oliveira。原发表于医学互联网研究杂志(//www.mybigtv.com), 2021年5月28日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map