JMIR医学信息学-精密医学最先进的证据检索器:算法开发和验证gydF4y2Ba

原始论文gydF4y2Ba

乔金gydF4y2Ba^1gydF4y2Ba医学博士gydF4y2Ba ;gydF4y2Ba
Chuanqi谭gydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba ;gydF4y2Ba
Mosha陈gydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba ;gydF4y2Ba
明艳gydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba ;gydF4y2Ba
Ningyu张gydF4y2Ba^2gydF4y2Ba博士gydF4y2Ba ;gydF4y2Ba
Songfang黄gydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba ;gydF4y2Ba
Xiaozhong刘gydF4y2Ba^3.gydF4y2Ba博士gydF4y2Ba

^1gydF4y2Ba阿里巴巴集团，中国杭州gydF4y2Ba

^2gydF4y2Ba浙江大学，浙江，中国gydF4y2Ba

^3.gydF4y2Ba印第安纳大学布卢明顿，布卢明顿，印第安纳州，美国gydF4y2Ba

通讯作者:gydF4y2Ba

谭传奇，博士gydF4y2Ba

阿里巴巴集团gydF4y2Ba

余杭区文一西路969号gydF4y2Ba

杭州,311121gydF4y2Ba

中国gydF4y2Ba

电话:86 15201162567gydF4y2Ba

电子邮件:gydF4y2Bachuanqi.tcq@alibaba-inc.comgydF4y2Ba

背景:gydF4y2Ba在精准医学范式下，同一种疾病的患者可以根据其临床和遗传特征接受不同的个性化治疗。这些疗法是由所有现有临床证据的总和决定的，包括病例报告、临床试验和系统评价的结果。然而，医生越来越难以从科学出版物中找到这样的证据，这些出版物的规模正以前所未有的速度增长。gydF4y2Ba

摘要目的:gydF4y2Ba在这项工作中，我们提出了PM-Search系统，以方便检索包含支持或反对给予某些癌症患者特定治疗的关键证据的临床文献。gydF4y2Ba

方法:gydF4y2BaPM-Search系统结合了基线检索器和证据重新排序器，前者可以大规模地选择候选文件，后者可以根据证据质量对候选文件进行精细的重新排序。基线检索器使用ElasticSearch检索引擎的查询扩展和关键字匹配，证据重新排序器将预训练的语言模型与来自主动学习策略的专家注释相匹配。gydF4y2Ba

结果:gydF4y2Ba在2020年文本检索会议PM Track上，PM- search系统在检索高质量临床证据方面取得了最佳表现，大大优于排名第二的系统(排名30的标准归一化贴现累积增益为0.4780 vs 0.4238，排名30的指数归一化贴现累积增益为0.4519 vs 0.4193)。gydF4y2Ba

结论:gydF4y2Ba我们提出PM搜索，一个最先进的搜索引擎，以协助实践循证PM。PM-Search使用一种新的双向编码器表示，用于基于生物医学文本挖掘的主动学习策略，该策略模拟证据质量并提高模型性能。我们的分析表明，证据质量是与一般相关性不同的一个方面，PM搜索引擎需要对超出一般相关性的证据质量进行具体建模。gydF4y2Ba

中国生物医学工程学报;2012;31 (2):444 - 444gydF4y2Ba

doi: 10.2196/40743gydF4y2Ba

关键字gydF4y2Ba

精密医学gydF4y2Ba;gydF4y2Ba 循证医学gydF4y2Ba;gydF4y2Ba 信息检索gydF4y2Ba;gydF4y2Ba 主动学习gydF4y2Ba;gydF4y2Ba 预训练语言模型gydF4y2Ba;gydF4y2Ba 数字健康干预gydF4y2Ba;gydF4y2Ba 数据检索gydF4y2Ba;gydF4y2Ba 大数据gydF4y2Ba;gydF4y2Ba 算法开发gydF4y2Ba

传统上，患有同样疾病的病人用同样的疗法治疗。然而，治疗效果可能是高度异质性的，也就是说，患者亚组之间的获益和风险可能存在很大差异[gydF4y2Ba1gydF4y2Ba]。精准医疗(PM)研究计划[gydF4y2Ba2gydF4y2Ba在制定治疗和预防策略时，会考虑到人们基因、环境和生活方式的个体差异。在PM的理想范式下，同一种疾病的患者被分成几个亚组，不同的患者亚组接受不同的最适合他们的治疗。由于测序技术可以在癌症患者中识别出相当大的遗传变异，因此PM现已广泛应用于肿瘤学。例如，表皮生长因子受体基因突变的非小细胞肺癌患者对吉非替尼治疗敏感[gydF4y2Ba3.gydF4y2Ba]，具有人表皮生长因子受体2突变的乳腺癌患者对曲妥珠单抗治疗敏感[gydF4y2Ba4gydF4y2Ba]。gydF4y2Ba

项目管理实践应以循证医学原则为指导[gydF4y2Ba5gydF4y2Ba在那里，治疗是基于高质量的临床证据，如系统评价和随机对照试验，而不是个人经历。然而，随着科学出版物的数量迅速增长(例如，2019年每天大约有2700篇文章添加到PubMed中)，医生很难在文献中找到支持或拒绝某些患者特定治疗方案的临床证据。信息检索(Information retrieval, IR)的目的是自动查找用户查询的相关文档。通过Google和PubMed等搜索引擎，IR已成功应用于一般消费者和生物医学研究领域。然而，大多数当前的搜索引擎不能处理包含关于患者和治疗的结构化信息的PM查询，也不能根据它们作为临床证据的重要性对文档进行排序。gydF4y2Ba

为促进PM的IR研究，TREC自2017年起每年举办PM专题会议。从2017年到2019年，TREC PM专注于根据患者人口统计学、疾病和基因突变指定的患者主题寻找相关学术论文或临床试验[gydF4y2Ba6gydF4y2Ba-gydF4y2Ba8gydF4y2Ba]。2020年，TREC PM的重点转变为检索学术论文，这些论文报告了在特定疾病和基因突变人群中支持或反对特定治疗的关键临床证据[gydF4y2Ba9gydF4y2Ba]。支持和反对的临床证据都很重要，因为它们为是否使用治疗的临床决策提供了有价值的指导。为了协助PM的实践，例如在TREC PM任务的情况下，检索器最重要的属性是根据证据质量对相关论文进行排名，也就是说，它们可以在多大程度上帮助临床决策。这项工作的目的是开发一个检索模型，该模型可以根据证据质量对给定PM主题的相关论文进行排名。gydF4y2Ba

传统的IR系统主要基于词频-逆文档频率及其衍生物，基本上是根据与输入查询的词袋相似度对文档进行排序。然而，生物医学概念通常由各种同义词指代，多项研究表明，在将查询概念发送到IR系统之前，将查询概念扩展到其同义词的重要性[gydF4y2Ba10gydF4y2Ba-gydF4y2Ba12gydF4y2Ba]。为了进一步建立特定领域相关性的模型，例如我们案例中的证据质量，通常会添加重新排序器来对检索系统返回的候选对象进行精细的重新排序。然而，这种重新排序器通常是基于深度学习的，训练它们需要大量的标记实例[gydF4y2Ba13gydF4y2Ba]，这些数据在生物医学领域的收集成本高得令人望而却步。最近的大规模预训练语言模型，如语言模型嵌入[j]。gydF4y2Ba14gydF4y2Ba]和变压器的双向编码器表示(BERT) [gydF4y2Ba15gydF4y2Ba在几个自然语言处理基准(如通用语言理解评估)上显示出显着的性能改进[gydF4y2Ba16gydF4y2Ba]。BERT基本上是一个转换器[gydF4y2Ba17gydF4y2Ba]编码器，该编码器经过预训练以预测原始输入中的随机屏蔽令牌。BERT可以有效地用于给定特定查询的文档排序[gydF4y2Ba18gydF4y2Ba]。gydF4y2Ba

在这项工作中，我们提出了PM- search模型，该模型解决了传统搜索引擎的上述问题，以辅助PM的实践。PM-Search系统主要由两个部分组成:(1)使用ElasticSearch引擎进行查询扩展和关键字匹配的基线检索器;(2)根据证据质量对ElasticSearch返回的初始文档进行排序的证据重新排序器。重新排名使用文章特征以及专家在循环主动学习策略下的预训练语言模型，其中生物医学语言模型BERT用于生物医学文本挖掘(BioBERT) [gydF4y2Ba19gydF4y2Ba是与专家进行互动微调的。我们的模型作为阿里巴巴团队参加TREC PM 2020，在证据质量评估中排名最高:PM- search在排名30 (NDCG@30)的标准归一化贴现累积收益(NDCG)为47.80%，指数NDCG@30为45.19%，远远超过排名第二的系统。gydF4y2Ba

总之，我们在这项工作中的贡献有三个方面:gydF4y2Ba

我们提出PM-Search，这是一个集成的红外系统，专门设计用于辅助精准医疗。PM- search在TREC PM Track中实现了最先进的性能。gydF4y2Ba
我们使用基于BioBERT的专家在环主动学习策略来有效地导出注释并提高模型性能。据我们所知，这是第一个结合了主动学习和预训练语言模型的精准医学搜索引擎。gydF4y2Ba
我们通过一整套消融研究彻底分析了每个系统特性的重要性，其中我们发现最重要的特性包括出版类型和主动学习。我们希望这些实验可以为PM搜索引擎的潜在未来方向提供一些见解。gydF4y2Ba

数据及资料gydF4y2Ba

TREC 2020 PM Track提供了40个主题进行评估。每个主题代表一个PM查询，其中包含特定患者群体的三个关键要素:(1)疾病，即癌症类型;(2)遗传变异，即基因突变;(3)试探性处理。这些题目是由生物医学专家综合提出的，几个例子见(gydF4y2Ba表1gydF4y2Ba)。该任务使用2019年PubMed基线作为官方语料库，其中包含超过2900万条生物医学引文。每次引用都由文章的标题、作者、摘要等组成。对于每个主题，我们将其疾病记为，遗传变异记为，治疗记为。退回物品记为。每个检索结果都是包含、和的查询文章对。我们还使用PubMed中提取的出版物类型和引用计数信息作为附加数据源。gydF4y2Ba

任务评估遵循标准的临时检索TREC程序，参与者提交最多1000篇排名文章，每个主题最多5次不同的运行。评估分为2个阶段，第1阶段为“相关性评估”，判断每篇文章的相关性;第2阶段为“证据评估”，判断文章提供的证据质量。gydF4y2Ba

第一阶段评估是一般IR评估，仅考虑相关性，评估者首先判断是否退回文章gydF4y2Ba一个gydF4y2Ba通常与PM相关。对于PM文件，评估人员然后评估是否gydF4y2BadgydF4y2Ba，gydF4y2BaggydF4y2Ba,gydF4y2BatgydF4y2Ba是完全匹配，部分匹配，还是缺失gydF4y2Ba一个gydF4y2Ba．最后，根据预定义的规则将结果分类为“绝对相关”、“部分相关”或“不相关”gydF4y2BadgydF4y2Ba，gydF4y2BaggydF4y2Ba,gydF4y2BatgydF4y2Ba匹配。阶段1中使用的评估指标包括10级精度(P@10)、推断NDCG (infNDCG)和r -精度(R-prec)。P@10和R-prec为不同等级的精度:gydF4y2Ba

其中为查询的相关文章数。NDCG的计算公式为:gydF4y2Ba

在哪里gydF4y2Ba

relgydF4y2Ba_我gydF4y2Ba文章的相关性评分是多少gydF4y2Ba我gydF4y2Ba和| RELgydF4y2Ba_ngydF4y2Ba|表示根据相关度排序的相关文章数量gydF4y2BangydF4y2Ba．由于并非所有提交的文章都将由组织者评判，因此无法确定NDCG的确切值。为了解决这个问题，我们使用排名前30的所有文章的样本集和排名31-100的25%的文章样本来计算NDCG，即infNDCG。gydF4y2Ba

在第二阶段的评估中，评估员使用5分制对第一阶段评估中的相关论文进行评分。例如，第4级结果应该是“>200例患者和单一药物的随机对照试验，或荟萃分析”，第0级结果应该是与主题16“不相关”。量表为每个主题量身定制，以调整疾病，遗传变异和治疗的差异。第二阶段评估的主要评价指标为NDCG@30。这个阶段的NDCG值是精确的，因为所有排名前30位的文章都会被评判。使用两组相关值计算NDCG，标准增益(std-增益)和指数增益(exp-增益)。标准增益有分数(例如，relgydF4y2Ba_我gydF4y2Ba)的分数为0、1、2、3和4，对应5层，而指数增益的分数为0、1、2、4和8，对应5层。gydF4y2Ba

表1。2020年精准医学文本检索会议主题示例。gydF4y2Ba

主题gydF4y2Ba	疾病gydF4y2Ba	基因gydF4y2Ba	治疗gydF4y2Ba
1gydF4y2Ba	结肠直肠癌gydF4y2Ba	ABL原癌基因gydF4y2Ba	RegorafenibgydF4y2Ba
11gydF4y2Ba	乳腺癌gydF4y2Ba	细胞周期蛋白依赖性激酶gydF4y2Ba	AbemaciclibgydF4y2Ba
21gydF4y2Ba	分化型甲状腺癌gydF4y2Ba	成纤维细胞生长因子受体2gydF4y2Ba	LenvatinibgydF4y2Ba
31gydF4y2Ba	肝细胞癌gydF4y2Ba	神经营养受体酪氨酸激酶2gydF4y2Ba	索拉非尼gydF4y2Ba

PM-Search概述gydF4y2Ba

如(gydF4y2Ba图1gydF4y2Ba)， PM- search使用两步方法检索每个给定PM主题的相关文章:(1)agydF4y2Ba基线寻回犬gydF4y2Ba它快速且可扩展，从数百万篇PubMed文章中生成相对少量(例如数千)的候选文章——基线检索器基于ElasticSearch(参考)，其中原始查询通过加权同义词列表扩展;(2) angydF4y2Ba证据rerankergydF4y2Ba基于证据质量对检索到的文件进行精细的重新排序——证据重新排序结合了由专家在环主动学习策略和基于特征的线性回归器微调的BioBERT的预测。gydF4y2Ba

图1所示。PM-Search的架构。EBM:循证医学;PM:精准医疗。gydF4y2Ba

基线寻回犬gydF4y2Ba

我们使用ElasticSearch(一个基于lucene的搜索引擎)索引了TREC组织者提供的PubMed 2019基线中的所有文章的标题和摘要。疾病的同义词gydF4y2BadgydF4y2Ba基因变异gydF4y2BaggydF4y2Ba是通过MedlinePlus的国家医学图书馆的web应用程序编程接口找到的[gydF4y2Ba20.gydF4y2Ba，gydF4y2Ba21gydF4y2Ba]。我们表示检索到的同义词gydF4y2BadgydF4y2Ba和gydF4y2BaggydF4y2Ba, {gydF4y2BadgydF4y2Ba_1gydF4y2Ba，gydF4y2BadgydF4y2Ba_2gydF4y2Ba,……，gydF4y2BadgydF4y2Ba_米gydF4y2Ba}和{gydF4y2BaggydF4y2Ba_1gydF4y2Ba，gydF4y2BaggydF4y2Ba_2gydF4y2Ba,……，gydF4y2BaggydF4y2Ba_米gydF4y2Ba},gydF4y2BadgydF4y2Ba_1gydF4y2Ba=gydF4y2BadgydF4y2Ba和gydF4y2BaggydF4y2Ba_1gydF4y2Ba=gydF4y2BaggydF4y2Ba．我们没有扩展处理，因为所提供的术语要么没有同义词，要么几乎在所有文章中都使用。gydF4y2Ba

对于每个同义词gydF4y2BadgydF4y2Ba_1gydF4y2Ba和gydF4y2BaggydF4y2Ba_1gydF4y2Ba，我们统计了他们的文件频率gydF4y2BadfgydF4y2Ba（gydF4y2BadgydF4y2Ba_我gydF4y2Ba),gydF4y2BadfgydF4y2Ba（gydF4y2BaggydF4y2Ba_我gydF4y2Ba)，并计算ElasticSearch中使用的每个同义词的权重:gydF4y2Ba

在哪里gydF4y2Ba

我们使用规范化的文档频率来降低罕见术语的排名。gydF4y2Ba

我们在ElasticSearch中执行检索，它使用Okapi BM25算法根据与输入查询的词级相关性对文档进行排名[gydF4y2Ba22gydF4y2Ba]。在最高级别，我们使用布尔查询查询ElasticSearch索引gydF4y2Ba必须匹配gydF4y2Ba疾病和治疗的查询和gydF4y2Ba应该匹配gydF4y2Ba基因查询。疾病，治疗和基因查询都是gydF4y2Badis_maxgydF4y2Ba查询由同义词组成，权重作为提升因子。的gydF4y2Batie_breakergydF4y2Ba设置为0.8，标题字段的提升系数为3.0，而摘要字段的提升系数为1.0。另外，布尔查询gydF4y2Ba应该匹配gydF4y2Ba一个关键词列表，包括“试验”和“患者”等词，这些词是根据经验选择的，作为基于证据的PM论文的弱分类器。gydF4y2Ba

TREC PM允许提交的每个主题最多1000个文档。我们将每个主题的最大检索文档数设置为10,000。平均而言，我们从每个主题的基线检索器中检索到1589个候选对象。gydF4y2Ba

证据RerankergydF4y2Ba

概述gydF4y2Ba

Evidence reranker对给定的候选文章进行评分gydF4y2Ba一个gydF4y2Ba根据其证据质量进行查询gydF4y2Ba问gydF4y2Ba由:gydF4y2Ba

在哪里gydF4y2BargydF4y2Ba_我gydF4y2Ba为输出分数，它是以下内容的加权和:(1)使用ElasticSearch分数(es)、预训练的BioBERT (pb)、发表类型(ty)和引用计数(ct)特征的线性回归量(LR);(2)微调的生物传感器(FB)。gydF4y2BawgydF4y2Ba_LRgydF4y2Ba和gydF4y2BawgydF4y2Ba_{神奇动物gydF4y2Ba}为LR和FB对应的权重。FB由专家在环主动学习策略训练，LR由专家注释训练。gydF4y2Ba

Expert-in-the-Loop BioBERTgydF4y2Ba

BioBERT [gydF4y2Ba19gydF4y2Ba]是一个生物医学版的BERT，它是根据PubMed摘要和PubMed Central文章进行训练的。BioBERT在几个生物医学自然语言处理任务上实现了最先进的性能。我们采用了与Nogueira等人相同的设置[gydF4y2Ba18gydF4y2Ba在这个任务中使用BioBERT:预测候选文章的证据质量gydF4y2Ba一个gydF4y2Ba对于查询gydF4y2Ba问gydF4y2Ba，我们首先提供被连接的gydF4y2Ba问gydF4y2Ba和gydF4y2Ba一个gydF4y2Ba发送给BioBERT，获取配对表示gydF4y2BahgydF4y2Ba：gydF4y2Ba

在哪里gydF4y2Ba问gydF4y2Ba是连发性疾病吗gydF4y2BadgydF4y2Ba、基因变异gydF4y2BaggydF4y2Ba，以及治疗gydF4y2BatgydF4y2Ba在查询中;gydF4y2Ba一个gydF4y2Ba是文章的标题和摘要;[SEP]是BERT中的一个特殊标记，用于标记输入段。s形层应用于[CLS]表示gydF4y2BahgydF4y2Ba预测证据质量gydF4y2Ba：gydF4y2Ba

式中σ为sigmoid函数，gydF4y2BawgydF4y2Ba和gydF4y2BabgydF4y2Ba是层权值。在微调期间，我们最小化了预测证据质量之间的均方损失gydF4y2Ba以及专家标注的分数gydF4y2BargydF4y2Ba．BioBERT微调是使用Huggingface的transformers Python包实现的[gydF4y2Ba23gydF4y2Ba]。我们使用Adam优化器[gydF4y2Ba24gydF4y2Ba]，学习率为4 × 10gydF4y2Ba^5gydF4y2Ba，批大小为16，每次迭代的微调epoch数为10。gydF4y2Ba

我们在()中展示了专家在环主动学习过程。gydF4y2Ba图2gydF4y2Ba)。在每次迭代中，一名生物医学专家(高级医学博士候选人)根据(gydF4y2Ba图3gydF4y2Ba)。这与Shen和Zhai所描述的排名第一的主动反馈设置相似[gydF4y2Ba25gydF4y2Ba]。随后，我们在此迭代中使用所有可用的注释对原始BioBERT进行微调(即，新注释的实例加上上次迭代中所有可用的注释)，然后使用微调后的BioBERT更新所有文档的预测，从而得到新的文档排名。同样，新的文档排名被发送给专家进行注释。我们执行了22次循环中的专家主动学习迭代，其中在大多数迭代中，添加了40个新注释(每个主题1个)，总共产生950个注释。我们还随机抽取了100对主题文章，由另一位医生注释。2位注释者的注释分数之间的Pearson相关系数为0.853，说明注释者之间的一致性较高。gydF4y2Ba

图2。我们的专家在循环主动学习策略的架构。BioBERT:用于生物医学文本挖掘的互感器双向编码器表示Y:是的;N:没有。gydF4y2Ba

线性回归量gydF4y2Ba

我们使用专家注释来训练一个简单的线性回归模型，该模型使用以下特征:gydF4y2Ba

es: ElasticSearch返回的关联分数;gydF4y2Ba
pb:预训练的BioBERT预测的相关性分数。我们使用之前TREC PM挑战中的注释来微调BioBERT。具体来说，我们从gydF4y2BaqrelgydF4y2BaTREC PM 2017-2019的文件，其中查询包含疾病，基因变异和人口统计信息，但不包括治疗方案。为了确保一致性，我们只使用查询的疾病和基因变异字段作为输入，并对BioBERT进行微调，以预测它们在注释中的规范化相关性。由于训练数据与TREC PM 2020的数据格式不同，我们将其称为“预训练”的BioBERT;gydF4y2Ba
Ty:出版物类型得分。PubMed还将每篇文章按出版类型编入索引，如期刊文章、综述、临床试验等。我们根据对证据质量的判断对每种出版物类型进行了人工评分。我们的出版物类型和分数映射显示在gydF4y2Ba表2gydF4y2Ba;gydF4y2Ba
Ct:引用计数得分。我们对所有PubMed文章的引用数量进行排名，并使用特定文章的引用数量的分位数作为特征。类似但比PageRank更简单[gydF4y2Ba26gydF4y2Ba]，该功能旨在反映每篇文章在社区层面的重要性。gydF4y2Ba

线性回归是使用gydF4y2BasklearngydF4y2BaPython包，它基本上最小化了专家注释和线性近似预测之间的残差平方和。gydF4y2Ba

表2。出版物类型与临床证据质量评分之间的映射关系。gydF4y2Ba

发布类型gydF4y2Ba	分数gydF4y2Ba
评论gydF4y2Ba	1gydF4y2Ba
编辑gydF4y2Ba	1gydF4y2Ba
发布错误gydF4y2Ba	2gydF4y2Ba
撤回发表gydF4y2Ba	2gydF4y2Ba
英语文摘gydF4y2Ba	0gydF4y2Ba
期刊文章gydF4y2Ba	0gydF4y2Ba
信gydF4y2Ba	0gydF4y2Ba
审查gydF4y2Ba	0gydF4y2Ba
案例报告gydF4y2Ba	1gydF4y2Ba
观察性研究gydF4y2Ba	1gydF4y2Ba
临床试验gydF4y2Ba	2gydF4y2Ba
荟萃分析gydF4y2Ba	2gydF4y2Ba
系统综述gydF4y2Ba	2gydF4y2Ba

实验设置gydF4y2Ba

我们将提交给TREC PM 2020的PM- search与其他团队提交的模型进行了比较。我们在挑战中使用了5个设置，分别是gydF4y2BaPM-Search-auto-1gydF4y2Ba，gydF4y2BaPM-Search-auto-2gydF4y2Ba，gydF4y2BaPM-Search-full-1gydF4y2Ba，gydF4y2BaPM-Search-full-2gydF4y2Ba,gydF4y2BaPM-Search-full-3gydF4y2Ba．它们使用不同的重新排序器对基线检索器检索到的同一组文档进行排序。gydF4y2BaPM-Search-full-1gydF4y2Ba，gydF4y2BaPM-Search-full-2gydF4y2Ba,gydF4y2BaPM-Search-full-3gydF4y2Ba使用证据重新排序器。他们使用完整的PM-Search架构，在证据重新排序器中使用不同的组合权重。gydF4y2Ba

我们还使用了gydF4y2BaPM-Search-auto-1gydF4y2Ba和gydF4y2BaPM-Search-auto-2gydF4y2Ba不使用专家在环主动学习策略的设置。由于这些设置不依赖于专家注释，因此它们被TREC挑战视为“自动”运行。具体来说，是文章的重新排名分数gydF4y2Ba一个gydF4y2Ba中的给定查询gydF4y2BaPM-Search-auto-1gydF4y2Ba和gydF4y2BaPM-Search-auto-2gydF4y2Ba计算为LR特征的加权和:gydF4y2Ba

在西文gydF4y2Ba_{一个gydF4y2Ba}、铅gydF4y2Ba_{一个gydF4y2Ba},泰gydF4y2Ba_{一个gydF4y2Ba}, ctgydF4y2Ba_{一个gydF4y2Ba}文件的特征是什么gydF4y2Ba一个gydF4y2Ba;西文gydF4y2Ba_{马克斯gydF4y2Ba}、铅gydF4y2Ba_{马克斯gydF4y2Ba},泰gydF4y2Ba_{马克斯gydF4y2Ba}, ctgydF4y2Ba_{马克斯gydF4y2Ba}为所有文档中对应的最大特征值;和gydF4y2BawgydF4y2Ba_{西文gydF4y2Ba}，gydF4y2BawgydF4y2Ba_pbgydF4y2Ba，gydF4y2BawgydF4y2Ba_泰gydF4y2Ba,gydF4y2BawgydF4y2Ba_ctgydF4y2Ba权重是否与不同的特征相关联，并由经验决定。所提交系统的特征权重如所示gydF4y2Ba表3gydF4y2Ba．gydF4y2Ba

表3。不同系统中的特征权重。“参与者”为提交给TREC (Text Retrieval Conference)精准医学会议(Precision Medicine)的系统名称。gydF4y2Ba

系统gydF4y2Ba			TREC运行IdgydF4y2Ba		wgydF4y2Ba_{西文gydF4y2Ba}^{一个gydF4y2Ba}	wgydF4y2Ba_pbgydF4y2Ba^bgydF4y2Ba		wgydF4y2Ba_泰gydF4y2Ba^cgydF4y2Ba		wgydF4y2Ba_ctgydF4y2Ba^dgydF4y2Ba		wgydF4y2Ba_LRgydF4y2Ba^egydF4y2Ba		wgydF4y2Ba_{神奇动物gydF4y2Ba}^fgydF4y2Ba
PM-Search运行gydF4y2Ba
	PM-Search-auto-1gydF4y2Ba	damoespb1gydF4y2Ba		1.0gydF4y2Ba		0.5gydF4y2Ba	1.5gydF4y2Ba		0.0gydF4y2Ba		- - - - - -gydF4y2Ba^ggydF4y2Ba		- - - - - -gydF4y2Ba
	PM-Search-auto-2gydF4y2Ba	damoespb2gydF4y2Ba		1.0gydF4y2Ba		0.5gydF4y2Ba	1.0gydF4y2Ba		0.0gydF4y2Ba		- - - - - -gydF4y2Ba		- - - - - -gydF4y2Ba
	PM-Search-full-1gydF4y2Ba	damoespcbh1gydF4y2Ba		-0.465gydF4y2Ba		-0.141gydF4y2Ba	-0.617gydF4y2Ba		-0.005gydF4y2Ba		1.0gydF4y2Ba		1.0gydF4y2Ba
	PM-Search-full-2gydF4y2Ba	damoespcbh2gydF4y2Ba		-0.465gydF4y2Ba		-0.141gydF4y2Ba	-0.617gydF4y2Ba		-0.005gydF4y2Ba		1.0gydF4y2Ba		2.0gydF4y2Ba
	PM-Search-full-3gydF4y2Ba	damoespcbh3gydF4y2Ba		-0.465gydF4y2Ba		-0.141gydF4y2Ba	-0.617gydF4y2Ba		-0.005gydF4y2Ba		1.0gydF4y2Ba		5.0gydF4y2Ba
消融gydF4y2Ba
	寻回犬+ pbgydF4y2Ba	N/AgydF4y2Ba^hgydF4y2Ba		1.0gydF4y2Ba		1.0gydF4y2Ba	0.0gydF4y2Ba		0.0gydF4y2Ba		- - - - - -gydF4y2Ba		- - - - - -gydF4y2Ba
	寻回犬+ tygydF4y2Ba	N/AgydF4y2Ba		1.0gydF4y2Ba		0.0gydF4y2Ba	1.0gydF4y2Ba		0.0gydF4y2Ba		- - - - - -gydF4y2Ba		- - - - - -gydF4y2Ba
	寻回犬+ ctgydF4y2Ba	N/AgydF4y2Ba		1.0gydF4y2Ba		0.0gydF4y2Ba	0.0gydF4y2Ba		1.0gydF4y2Ba		- - - - - -gydF4y2Ba		- - - - - -gydF4y2Ba
	LRgydF4y2Ba	N/AgydF4y2Ba		-0.465gydF4y2Ba		-0.141gydF4y2Ba	-0.617gydF4y2Ba		-0.005gydF4y2Ba		1.0gydF4y2Ba		0.0gydF4y2Ba
	神奇动物gydF4y2Ba	N/AgydF4y2Ba		-0.465gydF4y2Ba		-0.141gydF4y2Ba	-0.617gydF4y2Ba		-0.005gydF4y2Ba		0.0gydF4y2Ba		1.0gydF4y2Ba

^{一个gydF4y2Ba}es: ElasticSearch评分。gydF4y2Ba

^bgydF4y2Ba预训练的BioBERT。gydF4y2Ba

^cgydF4y2BaTy:出版物类型。gydF4y2Ba

^dgydF4y2BaCt:引用计数。gydF4y2Ba

^egydF4y2BaLR:线性回归。gydF4y2Ba

^fgydF4y2BaFB:微调BioBERT(双向编码器表示从变压器生物医学文本挖掘)。gydF4y2Ba

^ggydF4y2Ba不可用。gydF4y2Ba

^hgydF4y2Ba-不适用。gydF4y2Ba

主要结果gydF4y2Ba

我们参与TREC PM 2020的系统与其他排名最高的系统的主要结果显示在gydF4y2Ba表4gydF4y2Ba［gydF4y2Ba9gydF4y2Ba]。gydF4y2Ba

表4。评估中不同设置的主题平均性能。所有的数字都是百分比。表中列出的其他顶级文本检索会议(TREC)提交内容包括BIT的系统。UA [gydF4y2Ba27gydF4y2Ba]， [gydF4y2Ba28gydF4y2Ba]和h2oloo [gydF4y2Ba29gydF4y2Ba]。gydF4y2Ba

			证据质量(第二阶段)gydF4y2Ba				一般关联性(第一阶段)gydF4y2Ba
			NDCG@30gydF4y2Ba^{一个gydF4y2Ba}、指数gydF4y2Ba		NDCG@30、标准gydF4y2Ba		infNDCGgydF4y2Ba^bgydF4y2Ba	P@10gydF4y2Ba^cgydF4y2Ba	R-precgydF4y2Ba^dgydF4y2Ba
所有TREC运行gydF4y2Ba
	第一个gydF4y2Ba	45.19(我们的)gydF4y2Ba		47.80(我们的)gydF4y2Ba		53.25 [gydF4y2Ba27gydF4y2Ba］gydF4y2Ba		56.45 [gydF4y2Ba28gydF4y2Ba］gydF4y2Ba	43.58 [gydF4y2Ba28gydF4y2Ba］gydF4y2Ba
	第二个gydF4y2Ba	41.93 * (gydF4y2Ba29gydF4y2Ba］gydF4y2Ba		42.38 * (gydF4y2Ba29gydF4y2Ba］gydF4y2Ba		53.03 [gydF4y2Ba28gydF4y2Ba］gydF4y2Ba		55.16 [gydF4y2Ba27gydF4y2Ba］gydF4y2Ba	42.07 [gydF4y2Ba27gydF4y2Ba］gydF4y2Ba
	中位数gydF4y2Ba	28.57gydF4y2Ba		25.29gydF4y2Ba		43.16gydF4y2Ba		46.45gydF4y2Ba	32.59gydF4y2Ba
PM-Search运行gydF4y2Ba
	PM-Search-full-3gydF4y2Ba	45.19gydF4y2Ba		47.80gydF4y2Ba		44.24gydF4y2Ba		47.42gydF4y2Ba	34.72gydF4y2Ba
	PM-Search-full-1gydF4y2Ba	44.97gydF4y2Ba		47.30gydF4y2Ba		43.04gydF4y2Ba		47.42gydF4y2Ba	34.10gydF4y2Ba
	PM-Search-full-2gydF4y2Ba	44.95gydF4y2Ba		47.46gydF4y2Ba		43.84gydF4y2Ba		47.10gydF4y2Ba	34.14gydF4y2Ba
	PM-Search-auto-1gydF4y2Ba	42.55gydF4y2Ba		44.17 *gydF4y2Ba		45.33gydF4y2Ba		47.42gydF4y2Ba	35.93gydF4y2Ba
	PM-Search-auto-2gydF4y2Ba	42.54gydF4y2Ba		44.60 *gydF4y2Ba		41.12gydF4y2Ba		44.52gydF4y2Ba	32.37gydF4y2Ba
消融gydF4y2Ba
	寻回犬+ pbgydF4y2Ba^egydF4y2Ba	32.36 *gydF4y2Ba		37.04 *gydF4y2Ba		52.26gydF4y2Ba		53.87gydF4y2Ba	41.21gydF4y2Ba
	寻回犬+ tygydF4y2Ba^fgydF4y2Ba	41.46 *gydF4y2Ba		43.26 *gydF4y2Ba		37.80gydF4y2Ba		40.32gydF4y2Ba	29.37gydF4y2Ba
	寻回犬+ ctgydF4y2Ba^ggydF4y2Ba	35.55 *gydF4y2Ba		38.40 *gydF4y2Ba		42.20gydF4y2Ba		44.84gydF4y2Ba	32.52gydF4y2Ba
	线性回归量gydF4y2Ba	42.86 *gydF4y2Ba		44.86 *gydF4y2Ba		37.65gydF4y2Ba		46.13gydF4y2Ba	30.74gydF4y2Ba
	线性回归，去掉1gydF4y2Ba	42.08 *gydF4y2Ba		43.81 *gydF4y2Ba		37.06gydF4y2Ba		46.45gydF4y2Ba	30.58gydF4y2Ba
	调整BioBERTgydF4y2Ba^hgydF4y2Ba	44.40 *gydF4y2Ba		47.01 *gydF4y2Ba		44.59gydF4y2Ba		47.42gydF4y2Ba	34.87gydF4y2Ba
	微调生物伯特，漏掉一个gydF4y2Ba	44.15 *gydF4y2Ba		46.58 *gydF4y2Ba		43.83 *gydF4y2Ba		46.45 *gydF4y2Ba	33.81 *gydF4y2Ba

^{一个gydF4y2Ba}NDCG@30: 30级的归一化贴现累积增益NDCG。gydF4y2Ba

^bgydF4y2BainfNDCG:推断NDCG。gydF4y2Ba

^cgydF4y2BaP@10: 10级精度。gydF4y2Ba

^dgydF4y2BaR-prec: R-precision。gydF4y2Ba

^egydF4y2Ba预训练的BioBERT。gydF4y2Ba

^fgydF4y2BaTy:出版物类型。gydF4y2Ba

^ggydF4y2BaCt:引用计数。gydF4y2Ba

^hgydF4y2Ba生物医学文本挖掘的双向编码器表示。gydF4y2Ba

*与PM-Search-full-3有显著差异。重要性定义为gydF4y2BaPgydF4y2Ba<。05在2-sided pairedtgydF4y2Ba测试。gydF4y2Ba

一般关联性(第一阶段)gydF4y2Ba

我们提交的作品得分高于主题方面的中位数，但最好的作品(infNDCG: 0.5325, P@10: 0.5645, R-prec: 0.4358)优于我们的作品(infNDCG: 0.4533, P@10: 0.4742, R-prec: 0.3593)。我们的pm搜索运行(gydF4y2BaPM-Search-full-1gydF4y2Ba来gydF4y2Ba3.gydF4y2Ba;即PM-Search)在没有主动学习(gydF4y2BaPM-Search-auto-1gydF4y2Ba和gydF4y2Ba2gydF4y2Ba)。这并不奇怪，因为我们关注的是建模证据质量，与查询高度相关但证据质量较低的文章(例如，叙述性评论)将排名较低。因此，我们的提交在第一阶段的评估中表现一般，主要是判断一般相关性。gydF4y2Ba

证据质量(第二阶段)gydF4y2Ba

我们的pm搜索系统gydF4y2BaPM-Search-full-3gydF4y2Ba标准增益NDCG@30得分最高，为0.4780，指数增益NDCG@30得分最高，为0.4519。不出所料，gydF4y2BaPM-Search-fullgydF4y2Ba设置优于gydF4y2BaPM-Search-autogydF4y2Ba只使用特征的设置(0.4503 vs 0.4255平均指数NDCG@30)。这表明我们的专家标注过程和专家在环主动学习策略可以提高证据质量排序的性能。值得注意的是，我们所有的设置都优于次优系统(标准NDCG@30为0.4238，指数NDCG@30为0.4193)[gydF4y2Ba29gydF4y2Ba]，包括gydF4y2BaPM-Search-autogydF4y2Ba不依赖于专家注释的设置(指数NDCG@30: 0.4255)。结果表明，所提出的PM- search系统是一个强大的证据检索工具，可以潜在地应用于PM的实践。gydF4y2Ba

消融和特征重要性gydF4y2Ba

我们还实验了不同的设置，并研究了PM-Search组件的重要性，包括基线检索器、主动学习和重新排序特征。gydF4y2Ba

基线检索设置gydF4y2Ba

在gydF4y2Ba表5gydF4y2Ba，我们展示了基线检索器在没有查询扩展或关键字匹配的情况下的性能。结果表明，查询扩展是提高相关文章查全率的重要模块。然而，我们发现，增强关键词，如“试验”和“病人”并没有显著改变性能。这与Faessler等人的研究不一致[gydF4y2Ba10gydF4y2Ba]，这表明增强一系列关键字有助于提高性能。我们的系统与Faessler等人的一个关键区别[gydF4y2Ba10gydF4y2Ba]是我们只使用2个正面关键词，而他们使用各种正面和负面关键词，所以增加关键词的数量和多样性可能是未来的改进工作。gydF4y2Ba

表5所示。不同基线猎犬设置的消融结果(以百分比表示)。gydF4y2Ba

方法gydF4y2Ba	证据质量(第二阶段)gydF4y2Ba				一般关联性(第一阶段)gydF4y2Ba
	R@0.5kgydF4y2Ba^{一个gydF4y2Ba}	R@1kgydF4y2Ba^bgydF4y2Ba	R@10kgydF4y2Ba^cgydF4y2Ba	R@0.5kgydF4y2Ba		R@1kgydF4y2Ba	R@10kgydF4y2Ba
基线寻回犬gydF4y2Ba	68.99gydF4y2Ba	75.96gydF4y2Ba	81.00gydF4y2Ba	65.51gydF4y2Ba		72.30gydF4y2Ba	77.71gydF4y2Ba
没有查询扩展的基线检索器gydF4y2Ba	66.84 *gydF4y2Ba	72.61 *gydF4y2Ba	76.94 *gydF4y2Ba	61.85 *gydF4y2Ba		67.21 *gydF4y2Ba	72.90 *gydF4y2Ba
基线检索没有关键字匹配gydF4y2Ba	68.85gydF4y2Ba	76.06gydF4y2Ba	81.00gydF4y2Ba	65.65gydF4y2Ba		72.33gydF4y2Ba	77.71gydF4y2Ba

^{一个gydF4y2Ba}R@0.5k:前500位的召回。gydF4y2Ba

^bgydF4y2BaR@1k:在前1000个位置召回。gydF4y2Ba

^cgydF4y2BaR@10k:召回前10,000个职位。gydF4y2Ba

*与原始检索有显著差异。重要性定义为gydF4y2BaPgydF4y2Ba<。05在2-sided pairedtgydF4y2Ba测试。gydF4y2Ba

主动学习gydF4y2Ba

在gydF4y2Ba图4gydF4y2Ba，我们展示了在主动学习的每次迭代中BioBERT预测的性能，并通过infNDCG@30通过证据质量(阶段2)评估进行评估。当注释数小于500时，性能随迭代而增加，当注释数大于500时，性能收敛。有趣的是，我们发现注释器的平均注释相关性在大约500条注释时也达到了最大值，这表明这个度量可以作为经验上的停止标准。gydF4y2Ba

图4。InfNDCG@30和主动学习中每次迭代的平均注释相关性。InfNDCG@30:在等级30处推断的标准化贴现累积增益。gydF4y2Ba

Reranker特性gydF4y2Ba

为了分析所使用的特征的重要性，我们展示了烧蚀实验gydF4y2Ba表4gydF4y2Ba以及两个阶段的官方分数之间的Pearson相关性gydF4y2Ba表6gydF4y2Ba．gydF4y2Ba

一般相关性(1期):通过先前TREC PM (pb)的注释进一步预训练的BioBERT与1期评分的相关性最高(0.5771)，在我们的消融实验中，使用预训练的BioBERT的基线检索犬具有最高的性能(infNDCG: 52.26%)。这可能是因为对以前任务的评价也是基于一般相关性。ElasticSearch得分(es)达到了第二高的相关性0.3892，而通过主动学习(FB)微调的BioBERT的Pearson相关性为0.3733。然而，我们对证据质量的专家注释与一般相关分数的Pearson相关性仅为0.2157，这表明一般相关论文的证据质量可能不高。此外，为证据质量排序而设计的与证据质量正相关的发表类型特征(ty)和被引频次特征(ct)与一般相关性得分呈负相关。gydF4y2Ba

证据质量(第2阶段):消融结果的趋势以及特征与证据质量评分之间的相关性在标准评分和指数评分中相似。证据质量评价中最重要的特征包括发表类型和主动学习。有趣的是，只有使用发布类型和基线检索器才能达到与TREC PM中第二好的系统相当的性能(0.4146 vs 0.4193指数NDCG@30)。经过专家注释(FB)微调的BioBERT在消融实验中具有最高的性能(指数NDCG@30: 0.4440)，其与官方注释的相关性接近于我们的专家注释(指数增益0.3309 vs 0.2937;0.2847 vs 0.3073标准增益)。此外，微调后的BioBERT在第一阶段评估中表现明显优于专家注释(0.3733 vs 0.2157)，表明它可以在一定程度上保留原有的一般相关等级的同时，根据证据质量对文档进行重新排序。第1阶段相关性最高的特征，即预训练的BioBERT (pb)和ElasticSearch评分(es)，与第2阶段评分的相关性最低，这进一步证实了证据质量评估与一般相关性评估的不同。gydF4y2Ba

总之，这两个评估阶段可能有相反的考虑，因为与一个阶段的分数高度相关的特征往往与另一个阶段的分数的相关性要小得多，除了微调的BioBERT。因此，PM搜索引擎需要超越一般相关性的证据质量的特定建模。gydF4y2Ba

表6所示。特征与官方分数的相关性。gydF4y2Ba

特性gydF4y2Ba			西文gydF4y2Ba^{一个gydF4y2Ba}		pbgydF4y2Ba^bgydF4y2Ba	泰gydF4y2Ba^cgydF4y2Ba		ctgydF4y2Ba^dgydF4y2Ba		LRgydF4y2Ba^egydF4y2Ba	神奇动物gydF4y2Ba^fgydF4y2Ba		专家注释gydF4y2Ba
一般的相关性gydF4y2Ba			0.3892gydF4y2Ba		0.5771gydF4y2Ba	-0.0621gydF4y2Ba		-0.0435gydF4y2Ba		0.1341gydF4y2Ba	0.3733gydF4y2Ba		0.2157gydF4y2Ba
证据质量gydF4y2Ba
	标准的收益gydF4y2Ba	0.0752gydF4y2Ba		0.0621gydF4y2Ba		0.2564gydF4y2Ba	0.0696gydF4y2Ba		0.2728gydF4y2Ba		0.3309gydF4y2Ba	0.2937gydF4y2Ba
	指数级增长gydF4y2Ba	0.0474gydF4y2Ba		0.0338gydF4y2Ba		0.2772gydF4y2Ba	0.0806gydF4y2Ba		0.2816gydF4y2Ba		0.2847gydF4y2Ba	0.3073gydF4y2Ba

^{一个gydF4y2Ba}es: ElasticSearch评分。gydF4y2Ba

^bgydF4y2Ba生物医学文本挖掘(BioBERT)中变形器的预训练双向编码器表示。gydF4y2Ba

^cgydF4y2BaTy:出版物类型。gydF4y2Ba

^dgydF4y2BaCt:引用计数。gydF4y2Ba

^egydF4y2BaLR:线性回归。gydF4y2Ba

^fgydF4y2BaFB:微调BioBERT。gydF4y2Ba

主题级概括性分析gydF4y2Ba

用于训练PM-Search重新排序器的每个实例都包含一个主题-文章对及其相关性评分。主要结果表明，PM-Search在gydF4y2Ba实例级gydF4y2Ba，其中模型由不同的实例进行训练和评估。然而,gydF4y2Ba主题级gydF4y2Ba由于我们的专家注释和官方注释(即训练和评估实例)使用相同的主题集，因此没有评估PM-Search的泛化性。gydF4y2Ba

在这里，我们分析PM-Search如何使用留一评估策略推广到未见过的主题。每次，我们只使用一个主题的官方注释来评估由我们的专家注释训练的模型，而不使用评估主题。计算各题目作为评价题目的结果，其平均表现为gydF4y2Ba表4gydF4y2Ba．当所有专家注释都用于训练时，留一的结果接近于结果:指数NDCG@30为0.4415，标准NDCG@30为0.4658，标准NDCG@30为0.4710。这表明该模型也可推广到未见过的主题。gydF4y2Ba

误差分析gydF4y2Ba

我们展示几个典型的案例gydF4y2Ba表7gydF4y2Ba对证据质量评价中存在的一些误差进行定性分析。应该指出的是，大多数错误不能归因于特定原因，因为BioBERT的预测是不可解释的，因此开发可解释的模型是未来探索的重要方向。gydF4y2Ba

表7所示。证据质量评价中的典型错误案例。主题如表1所示。gydF4y2Ba

情况下gydF4y2Ba	主题gydF4y2Ba	文章gydF4y2Ba	官员、职级(规范化相关性)gydF4y2Ba	点gydF4y2Ba^{一个gydF4y2Ba}-搜索，排名(规范化相关性)gydF4y2Ba	错误类型gydF4y2Ba
1gydF4y2Ba	1gydF4y2Ba	PMIDgydF4y2Ba^bgydF4y2Ba: 23177515;regorafenib治疗伊马替尼和舒尼替尼治疗失败后晚期胃肠道间质肿瘤的疗效和安全性(GRID):一项国际、多中心、随机、安慰剂对照的3期试验gydF4y2Ba	1 (1.00)gydF4y2Ba	N/AgydF4y2Ba^cgydF4y2Ba	理念识别gydF4y2Ba
2gydF4y2Ba	1gydF4y2Ba	PMID: 24150533;题目:瑞非尼治疗癌症患者高血压的风险:一项系统综述和荟萃分析gydF4y2Ba	1 (1.00)gydF4y2Ba	148 (0.47)gydF4y2Ba	不同的理解gydF4y2Ba
3.gydF4y2Ba	1gydF4y2Ba	PMID: 25213161;标题:瑞非尼治疗转移性结直肠癌的随机III期试验:正确的日本和非日本亚群分析gydF4y2Ba	1 (1.00)gydF4y2Ba	297 (0.29)gydF4y2Ba	不保密的gydF4y2Ba
4gydF4y2Ba	11gydF4y2Ba	PMID: 29147869;题目:使用周期蛋白依赖性激酶4和6抑制剂治疗乳腺癌患者的血液学不良反应:一项系统综述和荟萃分析gydF4y2Ba	1 (1.00)gydF4y2Ba	N/AgydF4y2Ba	全文可见性gydF4y2Ba
5gydF4y2Ba	11gydF4y2Ba	PMID: 28540640;题目:Abemaciclib在癌症患者I期临床试验中的群体药代动力学和药效学分析gydF4y2Ba	1 (1.00)gydF4y2Ba	53 (0.50)gydF4y2Ba	全文可见性gydF4y2Ba
6gydF4y2Ba	11gydF4y2Ba	PMID: 29700711;标题:激素受体阳性早期乳腺癌中细胞周期蛋白依赖性激酶4/6抑制剂:初步结果和正在进行的研究gydF4y2Ba	61 (0.25)gydF4y2Ba	6 (0.71)gydF4y2Ba	不同的理解gydF4y2Ba

^{一个gydF4y2Ba}PM:精准医疗。gydF4y2Ba

^bgydF4y2BaPMID: PubMed标识符。gydF4y2Ba

^cgydF4y2Ba-不适用。gydF4y2Ba

全文可见性gydF4y2Ba

PM-Search系统只能访问PubMed文章的标题和摘要。然而，重要的文章信息(例如，详细的基因变异类型，治疗方法)可能只出现在全文中，特别是对于荟萃分析和系统综述，其中摘要倾向于使用更一般的概念。例如，PM-Search无法检索Case 5文章，其中所查询的疾病“乳腺癌”只在全文中提到，而没有在摘要中提到。为此，未来的模型可以使用来自PubMed Central的完整文章信息来更好地检索和排序相关论文。gydF4y2Ba

不同的理解gydF4y2Ba

在某些情况下，我们对一篇文章提供的证据的临床意义有不同的理解。例如，病例2中的文章“regorafenib治疗癌症患者的高血压风险:a system review and meta-analysis”关注的是该疗法的高血压副作用，而不是治疗效果，我们认为这一点并不显著。虽然在官方评价中获得了最高分，但在PM-Search预测中排名却很低。这个问题应该通过开发标准的社区努力来解决。gydF4y2Ba

理念识别gydF4y2Ba

PM-Search的基线检索器使用查询扩展来识别文章中的相关概念。然而，这一步很容易出错，因为生物医学术语是高度可变的，因此不能用同义词列表来表示。例如，在Case 1中，查询中的“结直肠癌”在文章中显示为“胃肠道间质肿瘤”，这在PM-Search的查询扩展步骤中被遗漏了。结果，这篇文章在pm搜索中没有返回，但在正式评价中排名最高。改进相似概念的识别，例如使用概念的分布式表示，仍然是一个重要的探索方向。gydF4y2Ba

与前期工作比较gydF4y2Ba

在TREC PM轨道上提出了许多用于精准医学的IR系统[gydF4y2Ba7gydF4y2Ba-gydF4y2Ba9gydF4y2Ba，gydF4y2Ba30.gydF4y2Ba]，其中要解决的关键问题是查询及其相关文档可能使用不同的术语来描述相同的概念。一些研究[gydF4y2Ba31gydF4y2Ba-gydF4y2Ba33gydF4y2Ba]已经尝试使用基于bert的模型在之前的TREC PM轨道中进行排名，显示出不同程度的改进。Thalia是一个每日更新的生物医学摘要语义搜索引擎[gydF4y2Ba34gydF4y2Ba]。它通过将查询映射到用于索引文档的预定义概念来解决词汇表不匹配问题。HPI-DHC团队表明，与手工规则相关联的查询扩展提高了检索性能[gydF4y2Ba35gydF4y2Ba]。Faessler等[gydF4y2Ba10gydF4y2Ba，gydF4y2Ba36gydF4y2Ba]系统地分析相关系统特征的个体贡献，如BM25权重、查询扩展和助推设置。PRIMROSE是一个PM搜索引擎，它通过内部知识图扩展查询[gydF4y2Ba37gydF4y2Ba]。能和Kavuluru [gydF4y2Ba38gydF4y2Ba使用带有特定组件的基本BERT来重新排序。Koopman等[gydF4y2Ba39gydF4y2Ba为临床医生提供了一个搜索引擎，以便为患有癌症的儿童找到量身定制的治疗方法。对于词汇不匹配问题，PM-Search使用了与以前研究类似的查询扩展策略。然而，PM- search不同于所有先前的工作，因为它是专门设计的，根据检索结果的证据质量对检索结果进行排名，这是PM搜索引擎的一个重要功能。gydF4y2Ba

结论与未来工作gydF4y2Ba

在本文中，我们提出PM- search，这是一个PM搜索引擎，在TREC PM 2020中实现了最先进的性能。PM-Search使用基于elasticsearch的基线检索器，具有查询扩展和关键字匹配功能，并使用通过主动学习策略微调的BioBERT进行证据重新排序。我们的分析表明，证据质量是与一般相关性不同的一个方面，因此，有必要对其进行特定的建模，以协助基于证据的项目管理实践。gydF4y2Ba

PM-Search在实际临床环境中的部署和评估仍然是一个明确的未来方向。使用密集向量进行基线检索和将全文信息纳入排名过程也是值得探索的。gydF4y2Ba

致谢gydF4y2Ba

我们感谢2020年文本检索会议(TREC)精准医学(PM)的组织者为完成这项任务和对提交的系统进行人工评估所做的努力。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

Kent DM, Rothwell PM, Ioannidis JP, Altman DG, Hayward RA。评估和报告临床试验中治疗效果的异质性:一项建议。2010年8月12日;11(1):85 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Collins FS, Varmus H.精准医疗的新倡议。中华医学杂志2015年2月26日;372(9):793-795 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Paez JG, Jänne PA, Lee JC, Tracy S, Greulich H, Gabriel S，等。肺癌中的EGFR突变:与吉非替尼治疗的临床反应的相关性《科学》2004年6月;304(5676):1497-1500。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Romond EH, Perez EA, Bryant J, Suman VJ, Geyer CE, Davidson NE等。曲妥珠单抗加辅助化疗治疗可手术her2阳性乳腺癌。中华医学杂志，2005,30(3):393 - 394。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Sackett DL。循证医学。中华妇产科杂志1997;21(1):3-5。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
robert K, Demner-Fushman D, Voorhees EM, Hersh WR, Bedrick S, Lazar AJ，等。TREC 2017精准医学专题综述文本检索会议2017年11月26日[gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
robert K, Demner-Fushman D, Voorhees EM, Hersh WR, Bedrick S, Lazar AJ。TREC 2018精准医学专题综述文本检索会议2018 [gydF4y2Ba免费全文gydF4y2Ba］gydF4y2Ba
robert K, Demner-Fushman D, Voorhees EM, Hersh WR, Bedrick S, Lazar AJ，等。TREC 2019精准医学专题概述文本检索会议2019年11月;1250 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
robert K, Demner-Fushman D, Voorhees EM, Bedrick S, Hersh WR。TREC 2020精准医学轨道概述。文本检索Conf 2020 11月;1266 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
是什么造就了一个顶级的精准医疗搜索引擎?以系统的方式跟踪系统的主要特征。2020年7月25日发表于:SIGIR '20:第43届国际ACM SIGIR信息检索研究与开发会议;2020年7月25日至30日;虚拟事件，中国，第459-468页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
阮伟，Karimi S . Jin B.精准医疗实验平台。2019年7月18日发表于:SIGIR'19:第42届国际ACM SIGIR信息检索研究与开发会议;2019年7月21日至25日;法国巴黎，1357-1360页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
李勇，李晓峰，李晓峰，等。基因组域查询扩展的研究进展。[j] .情报检索，2008,29(1):17-50。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Craswell N, Mitra B, Yilmaz E, Campos D, Voorhees EM. TREC 2019深度学习综述。2020年3月18:1-22。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
李建军，李建军，郭建军，郭建军。深度语境化词表征。演讲地点:计算语言学协会北美分会2018年会议:人类语言技术;2018年6月1日至6日;新奥尔良，洛杉矶，2227-2237页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Devlin J, Chang MW, Lee K, Toutanova K. Bert:基于深度双向变换的语言理解预训练。2019年北美分会计算语言学协会会议:人类语言技术，第1卷(长、短论文);2019年6月2日至7日;明尼阿波利斯，明尼苏达州第4171-4186页。gydF4y2Ba
王晓明，李建军，李建军，李建军。自然语言理解的多任务基准和分析平台。2018 EMNLP研讨会BlackboxNLP:分析和解释神经网络用于NLP;2018年11月1日;比利时布鲁塞尔，第353-355页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
张建军，张建军，张建军，等。注意力就是你所需的一切In:神经信息处理系统的进展。发表于:第31届神经信息处理系统会议(NIPS 2017);2017年12月4日至9日;长滩，CA, p. 5998-6008gydF4y2Bahttps://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdfgydF4y2Ba
杨伟，赵凯，林杰。基于bert的多阶段文献排序。arXiv 2019 Oct 31:1-13。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
李军，尹伟，金山，金东，金山，苏昌，等。BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学2020 Feb 15;36(4):1234-1240 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
医疗在线API。国家医学图书馆。URL:gydF4y2Bahttps://ghr.nlm.nih.gov/condition/ {d} ?报告= jsongydF4y2Ba[2022-11-29]访问gydF4y2Ba
医疗在线API。国家医学图书馆。URL:gydF4y2Bahttps://ghr.nlm.nih.gov/gene/ {g} ?报告= jsongydF4y2Ba[2022-11-29]访问gydF4y2Ba
李建平，李建平。概率关联框架:BM25及其以后。信息检索中的FNT [j] .中文信息学报;2009;3(4):333-389。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
刘建军，李建军，刘建军，刘建军。基于人工智能的自然语言处理方法。2020年10月发表于:2020年自然语言处理经验方法会议:系统演示;2020年11月16日至20日;在线虚拟会议第38-45页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Kingma DP, Ba J. Adam:一种随机优化方法。arXiv 2017 Jan 30:1-15。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
沈翔，翟超。自适应信息检索中的主动反馈。2005年8月15日在第28届国际ACM SIGIR信息检索研究与发展会议上发表;2005年8月15日至19日;萨尔瓦多，巴西第59-66页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
李建军，李建军，李建军，等。PageRank引文排序:为网络带来秩序。Stanford InfoLab 1998 (1):1-17 [gydF4y2Ba免费全文gydF4y2Ba］gydF4y2Ba
Almeida T, Matos S. BIT。UA@ TREC精密医学轨道。发表于:第29届文本检索会议，TREC 2020;2020年11月16日至20日;虚拟活动(马里兰州盖瑟斯堡)gydF4y2Bahttps://trec.nist.gov/pubs/trec29/papers/BIT.UA.PM.pdfgydF4y2Ba
发表于:第29届文本检索会议(TREC 2020);2020年11月16日至20日;虚拟活动(马里兰州盖瑟斯堡)gydF4y2Bahttps://trec.nist.gov/pubs/trec29/papers/CSIROmed.PM.pdfgydF4y2Ba
Pradeep R, Ma X, Zhang X, Cui H, Xu R, Nogueira R. H2oloo at TREC:当你只有一把锤子时……深度学习、健康错误信息和精准医疗。2020年发表于:第29届文本检索会议(TREC 2020);2020年11月16日至20日;虚拟活动(马里兰州盖瑟斯堡)gydF4y2Bahttps://trec.nist.gov/pubs/trec29/papers/h2oloo.DL.HM.PM.pdfgydF4y2Ba
robert K, Demner-Fushman D, Voorhees EM, Hersh WR, Bedrick S, Lazar A，等。TREC 2017精准医学专题综述文本检索会议2017年11月26日[gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Jo SH, Lee KS。CBNU参加TREC 2019精准医学专场。发表于:第28届文本检索会议，TREC 2019;2019年11月13日至15日;马里兰州盖瑟斯堡gydF4y2Bahttps://trec.nist.gov/pubs/trec28/papers/cbnu.PM.pdfgydF4y2Ba
刘霞，李丽，杨震，董森。SCUT-CCNL在TREC 2019精准医学专场上的演讲。发表于:第28届文本检索会议，TREC 2019;2019年11月13日至15日;马里兰州盖瑟斯堡gydF4y2Bahttps://trec.nist.gov/pubs/trec28/papers/CCNL.PM.pdfgydF4y2Ba
郑强，李毅，胡健，杨毅，何玲，薛宇。ECNU-ICA团队在TREC 2019精准医学赛程上的表现。发表于:第28届文本检索会议，TREC 2019;2019年11月13日至15日;马里兰州盖瑟斯堡gydF4y2Bahttps://trec.nist.gov/pubs/trec28/papers/ECNU_ICA.PM.pdfgydF4y2Ba
[3]宋建平，Przybyła P .， Ananiadou S. Thalia:生物医学文摘的语义搜索引擎。生物信息学2019;35(10):1799-1801 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李建军，李建军，李建军，李建军。2018年中国精密医学研究进展。第27届文本检索会议(TREC 2018);2018年11月14日至16日;马里兰州盖瑟斯堡gydF4y2Bahttps://trec.nist.gov/pubs/trec27/papers/hpi-dhc-PM.pdfgydF4y2Ba
Faessler E, Hahn U, Oleynik M. 2019发表于:第28届文本检索会议，TREC 2019;2019年11月13日至15日;马里兰州盖瑟斯堡gydF4y2Bahttps://trec.nist.gov/pubs/trec28/papers/julie-mug.PM.pdfgydF4y2Ba
陈建军，李建军，李建军。基于多目标搜索引擎的精准医学研究。中国科学院学报(自然科学版)，2020,30 (2):579-588 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李建军，李建军。基于神经匹配和分面摘要的精准医学文献检索。[c] [c] [c] [c] [c] [c] [c]。gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Koopman B, Wright T, Omer N, McCabe V, Zuccon G.儿科肿瘤精准医学搜索。2021年7月11日发表于:SIGIR '21:第44届国际ACM SIGIR信息检索研究与开发会议;2021年7月11日至15日;虚拟事件，加拿大，第2536-2540页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba

‎gydF4y2Ba

伯特:gydF4y2Ba来自变压器的双向编码器表示gydF4y2Ba

BioBERT:gydF4y2Ba生物医学文本挖掘中变压器的双向编码器表示gydF4y2Ba

BNDCG@30:gydF4y2Ba等级30的归一化贴现累积增益NDCGgydF4y2Ba

ct:gydF4y2Ba引用计数gydF4y2Ba

es:gydF4y2BaElasticSearch得分gydF4y2Ba

弗拉维奥-布里亚托利:gydF4y2Ba调整BioBERTgydF4y2Ba

infNDCG:gydF4y2Ba推断归一化贴现累积增益gydF4y2Ba

红外光谱:gydF4y2Ba信息检索gydF4y2Ba

LR:gydF4y2Ba线性回归量gydF4y2Ba

NDCG:gydF4y2Ba归一化折现累积增益gydF4y2Ba

NDCG@30:gydF4y2BaNDCG排名第30位gydF4y2Ba

P@10:gydF4y2Ba10级精度gydF4y2Ba

铅:gydF4y2Bapretrained BioBERTgydF4y2Ba

下午:gydF4y2Ba精密医学gydF4y2Ba

R-prec:gydF4y2BaR-precisiongydF4y2Ba

TREC:gydF4y2Ba文本检索会议gydF4y2Ba

泰:gydF4y2Ba发布类型gydF4y2Ba

M Focsa编辑;提交04.07.22;R . Haynes, C . Lokker的同行评审;对作者05.10.22的评论;修订版本收到13.11.22;接受16.11.22;发表15.12.22gydF4y2Ba

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到https://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。gydF4y2Ba

本文内容如下gydF4y2Bae-collection /主题问题:gydF4y2Ba

最先进的精确医学证据检索:算法开发和验证gydF4y2Ba