发表在gydF4y2Ba在gydF4y2Ba16卷gydF4y2Ba,第12号gydF4y2Ba(2014)gydF4y2Ba: 12月gydF4y2Ba

检索PubMed单语子集的搜索引擎:法语的概念证明和评价gydF4y2Ba

检索PubMed单语子集的搜索引擎:法语的概念证明和评价gydF4y2Ba

检索PubMed单语子集的搜索引擎:法语的概念证明和评价gydF4y2Ba

原始论文gydF4y2Ba

1gydF4y2BaCISMeF, TIBS, LITIS EA 4108,鲁昂大学医院,法国鲁昂,诺曼底gydF4y2Ba

2gydF4y2Ba法国巴黎Inserm LIMICS U1142gydF4y2Ba

3.gydF4y2Baumr_s1142, LIMICS,巴黎UPMC大学06,索邦大学,巴黎,法国gydF4y2Ba

4gydF4y2BaLIMICS (umr_s1142),巴黎第13大学,巴黎城市索邦大学,法国维勒塔内斯gydF4y2Ba

5gydF4y2Ba法国鲁昂大学,法国鲁昂gydF4y2Ba

通讯作者:gydF4y2Ba

尼古拉斯格里芬,医学博士,博士gydF4y2Ba

CISMeFgydF4y2Ba

Tibs,这是4108gydF4y2Ba

鲁昂大学医院,诺曼底gydF4y2Ba

uniteunited 'informatique clinique - batatiment PilloregydF4y2Ba

日尔蒙街1号gydF4y2Ba

鲁昂,76031gydF4y2Ba

法国gydF4y2Ba

电话:33 232885726gydF4y2Ba

传真:33 232888909gydF4y2Ba

电子邮件:gydF4y2Banicolas.griffon@chu-rouen.frgydF4y2Ba


背景:gydF4y2BaPubMed包含许多非英语语言的文章。但是,以撰写文章的语言访问这些文章的现有解决办法仍然不能令人信服。gydF4y2Ba

摘要目的:gydF4y2Ba本研究的目的是提出一个实用的搜索引擎,称为多语种PubMed,它将允许访问PubMed的一种语言子集,并评估法语版本(多语种PubMed-法语)的精度和覆盖范围。gydF4y2Ba

方法:gydF4y2Ba为了创建这个工具,我们丰富了MeSH的翻译(例如,添加同义词和法语翻译),并将其集成到术语门户中。几种欧洲语言的PubMed子集也使用专用解析器添加到我们的数据库中。对于简单查询,评估了通用语义搜索引擎的响应时间。通过搜索法语文献,比较BabelMeSH、Multilingual PubMed-French和3种不同的PubMed策略。对20个随机选择的查询进行了精度和覆盖率测量。结果被评估为与标题和摘要相关,评估者对搜索策略视而不见。gydF4y2Ba

结果:gydF4y2Ba超过65万篇法语PubMed引文被整合到多语种PubMed-法语信息系统中。响应时间都低于可用性定义的阈值(2秒)。两种搜索策略(Multilingual PubMed- french和1 PubMed策略)显示出较高的精度(分别为0.93和0.97),但Multilingual PubMed- french的覆盖率高出4倍。gydF4y2Ba

结论:gydF4y2Ba现在可以使用实用的法语搜索工具免费获取生物医学文献。该工具将特别适用于不能充分阅读或查询英语的卫生专业人员和其他最终用户。从理论上讲,该信息系统非常适合将该方法扩展到其他欧洲语言,如德语、西班牙语、挪威语和葡萄牙语。gydF4y2Ba

医学与互联网杂志,2014;16(12):e271gydF4y2Ba

doi: 10.2196 / jmir.3836gydF4y2Ba

关键字gydF4y2Ba



MEDLINE是由美国国家医学图书馆(NLM)创建的,是世界上使用最多的医学书目数据库。目前(截至2014年9月3日),它包含21,515,657次引用[gydF4y2Ba1gydF4y2Ba],来自全球81个国家的5650种索引期刊。每个MEDLINE记录都用NLM的受控词汇,医学主题标题(MeSH) [gydF4y2Ba2gydF4y2Ba]。gydF4y2Ba

MEDLINE是PubMed的最大组成部分[gydF4y2Ba3.gydF4y2Ba],免费访问的生物医学期刊引文和摘要在线数据库。除了MEDLINE引用,PubMed还包含[gydF4y2Ba4gydF4y2Ba]:gydF4y2Ba

  1. 尚未用MeSH索引并添加到MEDLINE的引文(在过程中的引文或由出版商提供的电子引文);gydF4y2Ba
  2. 一些“旧MEDLINE”引用尚未更新为当前词汇表并转换为MEDLINE状态;gydF4y2Ba
  3. 向PubMedCentral提交全文并接受NLM定性审查的其他生命科学期刊的引用;和gydF4y2Ba
  4. 美国国立卫生研究院资助的研究人员发表的文章的作者手稿引文。gydF4y2Ba

在同一天(2014年9月3日),PubMed收录了24157837次引用[gydF4y2Ba5gydF4y2Ba]。gydF4y2Ba

语言可能是访问PubMed及其包含的所有信息的障碍[gydF4y2Ba6gydF4y2Ba]。此外,对母语文章的需求仍然存在[gydF4y2Ba7gydF4y2Ba]。Lu列出的28种不同的PubMed访问方式[gydF4y2Ba8gydF4y2Ba],只有两个帮助非英语母语人士用他们的母语查询PubMed/MEDLINE: BabelMeSH [gydF4y2Ba9gydF4y2Ba,gydF4y2Ba10gydF4y2Ba和PICO (Patient, Intervention, Comparison, Outcome)语言学家[gydF4y2Ba10gydF4y2Ba]。我们开发了一个链接到PubMed的法语MeSH浏览器[gydF4y2Ba11gydF4y2Ba];每天有超过500名用户使用它,法国一半的医学院都在教授它。这三种工具依靠多种语言的MeSH翻译来简化查询[gydF4y2Ba12gydF4y2Ba],还依赖于现有用户语言中可用的一些元数据来简化浏览结果。然而,这3个工具缺少PubMed的大部分功能(例如,高级查询生成器、过滤器、引文传感器);事实上,它们只是缺乏功能。gydF4y2Ba

一个多语言搜索引擎,可以访问任何非英语语言(例如法语、德语、西班牙语或挪威语)的PubMed/MEDLINE子集,具有高级功能,对于任何不熟悉英语的用户来说都是非常有兴趣的。本文的目标是提出这样一个工具(多语种PubMed),并评估使用法语版本对信息检索任务性能的潜在提高。gydF4y2Ba


材料gydF4y2Ba

要创建一个有效的多语言搜索引擎,首先必须明确指定基本框架。在这个项目开始之前,已经开发了几个工具。自1995年以来,法语在线卫生资源目录和索引(CISMeF=目录和索引网站和法语 语言档案),一个质量控制的卫生门户[gydF4y2Ba13gydF4y2Ba],使用MeSH词库描述和索引法文的主要机构卫生网络资源(文件和站点)。2000年开发了一个搜索引擎Doc 'CISMeF,以允许对该网关进行查询。2007年,CISMeF开始使用几个术语/本体,以便更容易和更准确地进行索引。CISMeF小组因此发展了一个多术语入门网站(法文/英文)[gydF4y2Ba14gydF4y2Ba],它与搜索引擎互操作。2012年,过渡建立了一个名为健康术语/本体门户(HeTOP)的跨语言门户,提供23种不同的语言[gydF4y2Ba15gydF4y2Ba,gydF4y2Ba16gydF4y2Ba]。gydF4y2Ba

最近,Doc 'CISMeF在两个方面进行了重大更新:(1)它已经成为一个能够集成任何元数据模型及其相关数据的通用工具;因此,该工具能够描述和索引Web资源以及PubMed引文。(2)搜索引擎现在已经发展成为一个可靠的多语言工具,它能够通过使用多种语言的多个术语/本体进行搜索。gydF4y2Ba

Doc ' s cismef的这两项改进允许搜索任何语言的PubMed引文。将Doc的cismef转换为所需的每种语言的每个PubMed子集的多语言访问(Multilingual PubMed或Multilingual PubMed-French)的最后步骤是为非英语使用者访问英语以外语言的文献而设计的,包括(1)完成MeSH描述符和MeSH限定符的翻译,以及(2)翻译接口。gydF4y2Ba

对于本研究的5种基础语言,在统一医学语言系统中可获得MeSH描述符的翻译[gydF4y2Ba17gydF4y2Ba]。一些机构已经帮助我们翻译了剩余的MeSH限定符和接口术语(见致谢)。gydF4y2Ba

然而,开发一个搜索引擎需要对所使用的语言有很好的了解。作为一个法国团队,我们不能假设所有其他语言的表现都等同于法语的表现。gydF4y2Ba

Doc 'CISMeF中与MeSH词库相关的两个改进可用于多语言PubMed [gydF4y2Ba18gydF4y2Ba]:gydF4y2Ba

  1. CISMeF医学图书馆员定义了双语(法语和英语)预定义查询(n=389)(例如,CISMeF术语“钠血症”自动转换为MeSH预定义查询“钠/血”)。这些预定义的查询将不得不被翻译,以应用到这个项目的其他欧洲语言。gydF4y2Ba
  2. 超概念(或元术语;n=126)是医学(次)专业或生物科学学科(如心脏病学或细菌学),由CISMeF总图书管理员选择。对于每个超概念,使用一个或多个MeSH描述符和限定符创建一个语义链接。例如,元术语gydF4y2Ba精神病学gydF4y2Ba是否与MeSH描述符相关gydF4y2Ba精神病学gydF4y2Ba和gydF4y2Ba精神病院gydF4y2Ba它们属于MeSH中完全不同的树结构。超概念的创建是为了优化信息检索和克服MeSH描述符的相对限制性。这些超概念也需要翻译,但是超概念和MeSH描述符之间的基本语义链接是与语言无关的。gydF4y2Ba

预先订定的查询词及元术语的列表,可于HeTOP的跨语言术语/本体论入门网站[gydF4y2Ba15gydF4y2Ba]。gydF4y2Ba

还有其他一些基于所有可用元数据的改进。可以执行分面浏览[gydF4y2Ba19gydF4y2Ba]。facet列出了引用特征,可以用来优化结果。它基于元数据(例如,年份,国家,资源类型)工作。Doc 'CISMeF的默认排名是基于相关性评分,而在PubMed中,最近的文章排名第一:后进先出(LIFO)。Doc ' cismef解释用户的查询,以识别有意义的单词和与健康术语(如MeSH)匹配的医学描述符。然后返回与这些单词和描述符相对应的结果。它使用几个标准对结果进行评分和排序:标题中出现的查询词、主要主题中出现的描述符、出版日期和描述符的来源,因为它们可能是由图书管理员分配的,也可能是由计算机通过编程为不太重要的资源分配的。如果标题词和主要主题与用户的查询完全匹配,则得分为100%,并因此排名。根据单词和描述符的数量,不完美匹配的得分会降低(例如,MeSH次要主题)。对于分数相等的结果,以发表日期为决定标准。gydF4y2Ba

以前在Doc 'CISMeF中开发的其他一些改进尚未在多语言pubmed -法语搜索引擎中实现(参见讨论)。gydF4y2Ba

体系结构gydF4y2Ba

CISMeF通用信息系统分为5层(gydF4y2Ba图1gydF4y2Ba):gydF4y2Ba

  1. 关系数据库层,保证了数据的持久性和结构化查询语言的查询处理;通过动态分区和本地索引优化执行计划。gydF4y2Ba
  2. 缓存层,用于集群数据分布。它基于随机存取存储器,分布在多个服务器之间;因此,它是非常快的。此外,它避免了崩溃后的数据丢失。gydF4y2Ba
  3. 业务组件层主要由处理业务逻辑的CISMeF Java库组成。gydF4y2Ba
  4. 承载依赖于业务组件的Web服务的服务层,这些服务反过来又由信息系统的每个客户机应用程序使用。gydF4y2Ba
  5. 表示层,包括网关、基于web的用户界面、富Internet应用程序和服务层的任何客户机应用程序。gydF4y2Ba
‎gydF4y2Ba
图1所示。CISMeF信息系统。gydF4y2Ba
查看此图gydF4y2Ba

数据源gydF4y2Ba

本文测试的第一个也是唯一的多语种PubMed版本是法语版本:多语种PubMed-法语搜索引擎。尽管如此,整个框架应该能够像管理法语一样管理任何语言。为了进行这项研究,从PubMed中提取所有法语PubMed引文,并使用特定的解析器将其包含在多语言PubMed-法语语义搜索引擎中。一些PubMed引文也被提取为其他语言(如德语、西班牙语、葡萄牙语和挪威语),以确保我们的多语言框架假设并非不切实际。gydF4y2Ba

所有MeSH描述符和MeSH限定符由法国国家卫生研究所技术和科学信息部翻译成法语[gydF4y2Ba20.gydF4y2Ba]。CISMeF小组通过以下内容大大丰富了这一翻译:gydF4y2Ba

  1. 25501个同义词和689个歧义缩略词;gydF4y2Ba
  2. 163个MeSH修饰词同义词;gydF4y2Ba
  3. 翻译了20,887个MeSH补充概念(总共209,326个);gydF4y2Ba
  4. MeSH补充概念同义词27,295个;gydF4y2Ba
  5. 6037个由MeSH描述符定义组成的MeSH作用域注释的翻译;和gydF4y2Ba
  6. 3918“另见”MeSH描述符之间的关系。gydF4y2Ba

评价gydF4y2Ba

这类工具的两个主要限制因素是响应时间,响应时间必须很低才能被最终用户接受,以及结果质量(是否有任何结果,它们是否相关?)通过测量20个查询的前20个结果的响应时间和相关性来评估它们。gydF4y2Ba

查询是从经常在Doc 'CISMeF(日志分析)上运行的查询中选择的。从检索结果中随机选择20个查询,这些查询在过去100天内运行了50次以上,并且不涉及高级语法。gydF4y2Ba

每个查询都在多语种PubMed- french、BabelMeSH和PubMed上运行;我们的日志中准确的句子被贴在每个搜索引擎上。语料库仅限于每个搜索引擎的法语文章。对于PubMed,第二个查询在音译title (TT)字段上启动,以下称为PubMed TT策略。最后,对2种PubMed算法进行了结果排序测试:经典的LIFO算法和最近提出的相关性排序算法[gydF4y2Ba21gydF4y2Ba],这可能更类似于多语言PubMed-French排序算法。因此,我们测试了5种策略:BabelMeSH、多语种PubMed-法语、PubMed LIFO、PubMed相关性和PubMed TT。查询的示例可在gydF4y2Ba表1gydF4y2Ba。PICO linguist没有被评估,因为它的工作原理基本上类似于Babel MeSH,但它有一个PICO接口(即,为患者、干预、比较和结果设计的结构化字段),这是为特定查询设计的。PubMed TT策略仅使用后进先出排序进行研究,因为相关性排序是基于发现术语的领域[gydF4y2Ba21gydF4y2BaPubMed的TT策略只涉及一个领域:音译标题。根据我们的数据,PubMed LIFO和PubMed相关性排名共享45%的结果。对于PubMed TT策略,这一比例上升至88%。gydF4y2Ba

前20次被引的PubMed identifier (PMID)和总被引次数由NG记录。对于多语种pubmed -法语,只记录了响应时间。一位医学图书管理员(GK)使用三模态李克特量表对引文相关性进行了评估。他对检索待评估资源的搜索策略一无所知。因此,可以估计每个工具的精度(即相关结果在结果中的比例)。gydF4y2Ba

利用Pearson相关系数研究了反应时间与被引次数的关系。进行了两项分析:对于严格的分析,只有评估为完全相关的引用被认为是真阳性;对于宽松型,完全相关和部分相关的引文都被认为是真阳性。gydF4y2Ba

表1。不同工具中的查询示例。gydF4y2Ba
搜索策略gydF4y2Ba 查询示例(查询“便秘”)gydF4y2Ba一个gydF4y2Ba
BabelMeSHgydF4y2BabgydF4y2Ba 便秘gydF4y2Ba
多语种PubMed-FrenchgydF4y2Ba 便秘gydF4y2Ba
PubMedgydF4y2BacgydF4y2Ba 便秘[所有领域]和法语[lang]gydF4y2Ba
PubMed TTgydF4y2Ba 便秘[TT]和法语[lang]gydF4y2Ba

一个gydF4y2Ba显示的是在搜索框中编写的查询。gydF4y2Ba

bgydF4y2Ba选中“franais”复选框。gydF4y2Ba

cgydF4y2Ba无论使用何种排名(相关性或后进先出),查询都是相同的。gydF4y2Ba


技术可行性gydF4y2Ba

表2gydF4y2Ba显示欧洲主要语言(不包括英语)的PubMed引文数量。作为概念证明,不同语言的PubMed引文被纳入CISMeF信息系统:法语(n=665,359)、德语(n=7102)、葡萄牙语(n=4497)、西班牙语(n=4297)和挪威语(n=3764)。最终用户可以选择一种语言,然后用同一种语言执行查询。感谢我们在致谢中提到的同事,多语言PubMed界面被翻译成法语、德语、葡萄牙语、西班牙语和挪威语。在PubMed数据库中默认显示的相同的主要元数据类似地显示在多语言PubMed搜索引擎中,以及索引MeSH描述符和限定符(gydF4y2Ba图2gydF4y2Ba)。最终用户也可直接获得同一语文文章全文的链接(gydF4y2Ba图2gydF4y2Ba),通常透过数码物件识别码[gydF4y2Ba22gydF4y2Ba]。创建一个从PubMed中提取的几种语言的书目数据库,并以一种特定语言提供,这一目标随后作为概念验证完成。gydF4y2Ba

在以前的CISMeF网关中,响应时间的目标如下:所有包含1个或2个术语的查询都应少于2秒。自2001年以来,CISMeF信息系统中包含的101,000个Web资源已经实现了这一目标。PubMed在法语中的引用数量大约是CISMeF Web资源的6倍。所有查询的响应时间均低于2秒的限制(gydF4y2Ba表3gydF4y2Ba)。正如预期的那样,响应时间与检索到的引文数量(gydF4y2BargydF4y2Ba=。73.95% CI .42-.89). According to linear regression coefficient, this would lead to an unacceptable response time for queries that collect more than 20,000 citations. This evaluation of response time is an important step in determining the feasibility of this Multilingual PubMed-French search engine to create a bibliographic database in French for health professionals. The current version of Multilingual PubMed-French is available on the Internet [23gydF4y2Ba]。gydF4y2Ba

表2。欧洲主要语言的PubMed引文数。gydF4y2Ba
语言gydF4y2Ba PubMed引用次数gydF4y2Ba
德国gydF4y2Ba 808653年gydF4y2Ba
法国gydF4y2Ba 680451年gydF4y2Ba一个gydF4y2Ba
意大利gydF4y2Ba 294720年gydF4y2Ba
西班牙语gydF4y2Ba 302287年gydF4y2Ba
葡萄牙语gydF4y2Ba 85839年gydF4y2Ba
挪威gydF4y2Ba 35712年gydF4y2Ba

一个gydF4y2BaPubMed中法语引用的数量与我们信息系统中插入的法语引用的数量之间的差异主要来自PubMed中一些可疑的分类(例如,文章被错误地标记为法语)。gydF4y2Ba

表3。20个多语言pubmed -法语查询的响应时间。gydF4y2Ba
查询(法语/英语)gydF4y2Ba 响应时间(秒)gydF4y2Ba PubMed引用次数gydF4y2Ba
分娩/母乳喂养gydF4y2Ba 0.42gydF4y2Ba 633gydF4y2Ba
Angine /咽炎gydF4y2Ba 0.53gydF4y2Ba 845gydF4y2Ba
AVC /中风gydF4y2Ba 0.54gydF4y2Ba 1704gydF4y2Ba
BPCO /慢性阻塞性肺病gydF4y2Ba 0.49gydF4y2Ba 1503gydF4y2Ba
卷烟电子烟gydF4y2Ba 0.42gydF4y2Ba 24gydF4y2Ba
便秘(便秘gydF4y2Ba 0.27gydF4y2Ba 531gydF4y2Ba
Coqueluche /百日咳gydF4y2Ba 0.54gydF4y2Ba 314gydF4y2Ba
盖尔/疥疮gydF4y2Ba 0.57gydF4y2Ba 148gydF4y2Ba
Hemochromatose /血色沉着病gydF4y2Ba 0.59gydF4y2Ba 712gydF4y2Ba
高血压或高血压gydF4y2Ba 1.03gydF4y2Ba 8694gydF4y2Ba
红斑狼疮/红斑狼疮gydF4y2Ba 0.34gydF4y2Ba 1147gydF4y2Ba
Maladie cœliaque /腹腔疾病gydF4y2Ba 0.58gydF4y2Ba 723gydF4y2Ba
克罗恩病gydF4y2Ba 0.69gydF4y2Ba 1363gydF4y2Ba
营养/营养gydF4y2Ba 1.13gydF4y2Ba 8367gydF4y2Ba
Psychiatrie /精神病学gydF4y2Ba 0.94gydF4y2Ba 5602gydF4y2Ba
Sarcoidose /结节病gydF4y2Ba 0.77gydF4y2Ba 1721gydF4y2Ba
Scoliose /脊柱侧凸gydF4y2Ba 1.10gydF4y2Ba 669gydF4y2Ba
因此,护理员/护理gydF4y2Ba 0.86gydF4y2Ba 5767gydF4y2Ba
烟草和烟草gydF4y2Ba 0.42gydF4y2Ba 679gydF4y2Ba
Toxoplasmose /弓形体病gydF4y2Ba 0.74gydF4y2Ba 1238gydF4y2Ba
‎gydF4y2Ba
图2。多语言搜索引擎的截图。gydF4y2Ba
查看此图gydF4y2Ba

绩效评估gydF4y2Ba

表4gydF4y2Ba显示每个策略的每个查询的覆盖率。PubMed TT策略比其他4种策略检索到的引用少得多,总共有10716次点击。Babel MeSH、多语言PubMed- french和常规PubMed查询分别检索了50,894、42,384和34,047个引用。Babel MeSH和Multilingual PubMed- french检索到的引文明显多于relevance/LIFO PubMed(两者都是)gydF4y2BaPgydF4y2Ba= .03点;Mann-Whitney测试)。gydF4y2Ba

对检索到的前20条引文测量的精度列出:(1)考虑到被评估为高度相关的引文-严格分析;(2)考虑到高度和轻微相关的引文,宽松分析(gydF4y2Ba表5gydF4y2Ba)。结果与多语言PubMed- french和PubMed TT这两种策略相似,它们在精确度方面优于其他3种策略。这两种策略达到了90%以上的准确率,PubMed TT (gydF4y2BaPgydF4y2Ba=。002,Fisher test), whereas the other 3 barely reached 80% in the relaxed analysis.

表4。根据搜索引擎查询的覆盖范围。gydF4y2Ba
查询(英语)gydF4y2Ba 战略(n)gydF4y2Ba

BabelMeSHgydF4y2Ba 多语种PubMed-FrenchgydF4y2Ba PubMedgydF4y2Ba一个gydF4y2Ba PubMed TTgydF4y2Ba
母乳喂养gydF4y2Ba 639gydF4y2Ba 633gydF4y2Ba 3.gydF4y2Ba 50gydF4y2Ba
咽炎gydF4y2Ba 2043gydF4y2Ba 845gydF4y2Ba 2326gydF4y2Ba 82gydF4y2Ba
中风gydF4y2Ba 2671gydF4y2Ba 1704gydF4y2Ba 202gydF4y2Ba 52gydF4y2Ba
慢性阻塞性肺病gydF4y2Ba 687gydF4y2Ba 1503gydF4y2Ba 25gydF4y2Ba 275gydF4y2Ba
电子香烟gydF4y2Ba 355gydF4y2Ba 24gydF4y2Ba 0gydF4y2Ba 0gydF4y2Ba
便秘gydF4y2Ba 574gydF4y2Ba 531gydF4y2Ba 666gydF4y2Ba 144gydF4y2Ba
百日咳gydF4y2Ba 227gydF4y2Ba 314gydF4y2Ba 2gydF4y2Ba 166gydF4y2Ba
疥疮gydF4y2Ba 136gydF4y2Ba 148gydF4y2Ba 4gydF4y2Ba 102gydF4y2Ba
血色沉着病gydF4y2Ba 537gydF4y2Ba 712gydF4y2Ba 756gydF4y2Ba 129gydF4y2Ba
高血压gydF4y2Ba 10348年gydF4y2Ba 8694gydF4y2Ba 12580年gydF4y2Ba 1533gydF4y2Ba
红斑狼疮gydF4y2Ba 2232gydF4y2Ba 1147gydF4y2Ba 2694gydF4y2Ba 1150gydF4y2Ba
乳糜泻gydF4y2Ba 649gydF4y2Ba 723gydF4y2Ba 2gydF4y2Ba 305gydF4y2Ba
克罗恩病gydF4y2Ba 1190gydF4y2Ba 1363gydF4y2Ba 2gydF4y2Ba 758gydF4y2Ba
营养gydF4y2Ba 4969gydF4y2Ba 8367gydF4y2Ba 6480gydF4y2Ba 819gydF4y2Ba
精神病学gydF4y2Ba 4453gydF4y2Ba 5602gydF4y2Ba 5394gydF4y2Ba 1940gydF4y2Ba
结节病gydF4y2Ba 1522gydF4y2Ba 1721gydF4y2Ba 13gydF4y2Ba 878gydF4y2Ba
脊柱侧凸gydF4y2Ba 651gydF4y2Ba 669gydF4y2Ba 3.gydF4y2Ba 159gydF4y2Ba
护理gydF4y2Ba 14360年gydF4y2Ba 5767gydF4y2Ba 2867gydF4y2Ba 888gydF4y2Ba
烟草gydF4y2Ba 1607gydF4y2Ba 679gydF4y2Ba 18gydF4y2Ba 585gydF4y2Ba
弓形体病gydF4y2Ba 1044gydF4y2Ba 1238gydF4y2Ba 10gydF4y2Ba 701gydF4y2Ba
总计gydF4y2Ba 50894年gydF4y2Ba 42384年gydF4y2Ba 34047年gydF4y2Ba 10716年gydF4y2Ba

一个gydF4y2Ba无论使用何种排名(相关性或后进先出),检索到的引文数量都是相同的。gydF4y2Ba

表5所示。对每个策略的每个查询的前20个引用进行精度测量(分析-放松分析)。gydF4y2Ba
查询(英语)gydF4y2Ba 策略(精度)gydF4y2Ba

巴别塔网gydF4y2Ba 多语种PubMed-FrenchgydF4y2Ba PubMed后进先出gydF4y2Ba PubMed相关性gydF4y2Ba PubMed TTgydF4y2Ba
母乳喂养gydF4y2Ba 0.55 - -0.75gydF4y2Ba 1.00 - -1.00gydF4y2Ba 1.00 - -1.00gydF4y2Ba一个gydF4y2Ba 1.00 - -1.00gydF4y2Ba一个gydF4y2Ba 1.00 - -1.00gydF4y2Ba
咽炎gydF4y2Ba 0.00 - -0.00gydF4y2Ba 0.65 - -0.70gydF4y2Ba 0.00 - -0.00gydF4y2Ba 0.00 - -0.00gydF4y2Ba 0.50 - -0.60gydF4y2Ba
中风gydF4y2Ba 0.45 - -0.80gydF4y2Ba 0.95 - -0.95gydF4y2Ba 0.15 - -0.15gydF4y2Ba 0.35 - -0.35gydF4y2Ba 1.00 - -1.00gydF4y2Ba
慢性阻塞性肺病gydF4y2Ba 0.40 - -0.55gydF4y2Ba 1.00 - -1.00gydF4y2Ba 0.75 - -0.85gydF4y2Ba 1.00 - -1.00gydF4y2Ba 1.00 - -1.00gydF4y2Ba
电子香烟gydF4y2Ba 0.10 - -0.10gydF4y2Ba 0.35 - -0.40gydF4y2Ba - - - - - -gydF4y2BabgydF4y2Ba - - - - - -gydF4y2BabgydF4y2Ba - - - - - -gydF4y2BabgydF4y2Ba
便秘gydF4y2Ba 0.45 - -1.00gydF4y2Ba 1.00 - -1.00gydF4y2Ba 0.50 - -0.95gydF4y2Ba 0.75 - -1.00gydF4y2Ba 1.00 - -1.00gydF4y2Ba
百日咳gydF4y2Ba 0.80 - -1.00gydF4y2Ba 1.00 - -1.00gydF4y2Ba 1.00 - -1.00gydF4y2BacgydF4y2Ba 1.00 - -1.00gydF4y2BacgydF4y2Ba 1.00 - -1.00gydF4y2Ba
疥疮gydF4y2Ba 0.90 - -1.00gydF4y2Ba 1.00 - -1.00gydF4y2Ba 0.25 - -0.25gydF4y2BadgydF4y2Ba 0.25 - -0.25gydF4y2BadgydF4y2Ba 1.00 - -1.00gydF4y2Ba
血色沉着病gydF4y2Ba 0.65 - -0.95gydF4y2Ba 1.00 - -1.00gydF4y2Ba 0.70 - -1.00gydF4y2Ba 0.85 - -1.00gydF4y2Ba 1.00 - -1.00gydF4y2Ba
高血压gydF4y2Ba 0.45 - -0.75gydF4y2Ba 0.95 - -0.95gydF4y2Ba 0.25 - -0.75gydF4y2Ba 1.00 - -1.00gydF4y2Ba 1.00 - -1.00gydF4y2Ba
红斑狼疮gydF4y2Ba 0.70 - -1.00gydF4y2Ba 1.00 - -1.00gydF4y2Ba 0.75 - -0.95gydF4y2Ba 1.00 - -1.00gydF4y2Ba 1.00 - -1.00gydF4y2Ba
乳糜泻gydF4y2Ba 0.70 - -0.95gydF4y2Ba 1.00 - -1.00gydF4y2Ba 1.00 - -1.00gydF4y2BacgydF4y2Ba 1.00 - -1.00gydF4y2BacgydF4y2Ba 1.00 - -1.00gydF4y2Ba
克罗恩病gydF4y2Ba 0.80 - -0.90gydF4y2Ba 1.00 - -1.00gydF4y2Ba 0.50 - -1.00gydF4y2BacgydF4y2Ba 0.50 - -1.00gydF4y2BacgydF4y2Ba 1.00 - -1.00gydF4y2Ba
营养gydF4y2Ba 0.45 - -0.70gydF4y2Ba 0.70 - -1.00gydF4y2Ba 0.25 - -0.60gydF4y2Ba 1.00 - -1.00gydF4y2Ba 1.00 - -1.00gydF4y2Ba
精神病学gydF4y2Ba 0.75 - -0.80gydF4y2Ba 1.00 - -1.00gydF4y2Ba 0.85 - -0.95gydF4y2Ba 0.90 - -0.95gydF4y2Ba 1.00 - -1.00gydF4y2Ba
结节病gydF4y2Ba 0.70 - -0.90gydF4y2Ba 1.00 - -1.00gydF4y2Ba 0.92 - -0.92gydF4y2BaegydF4y2Ba 0.92 - -0.92gydF4y2BaegydF4y2Ba 1.00 - -1.00gydF4y2Ba
脊柱侧凸gydF4y2Ba 0.65 - -0.90gydF4y2Ba 1.00 - -1.00gydF4y2Ba 0.67 - -0.67gydF4y2Ba一个gydF4y2Ba 0.67 - -0.67gydF4y2Ba一个gydF4y2Ba 1.00 - -1.00gydF4y2Ba
护理gydF4y2Ba 0.85 - -0.90gydF4y2Ba 1.00 - -1.00gydF4y2Ba 0.70 - -0.80gydF4y2Ba 0.85 - -0.90gydF4y2Ba 1.00 - -1.00gydF4y2Ba
烟草gydF4y2Ba 0.60 - -0.90gydF4y2Ba 1.00 - -1.00gydF4y2Ba 0.83 - -0.89gydF4y2BafgydF4y2Ba 0.83 - -0.89gydF4y2BafgydF4y2Ba 1.00 - -1.00gydF4y2Ba
弓形体病gydF4y2Ba 0.65 - -0.90gydF4y2Ba 1.00 - -1.00gydF4y2Ba 1.00 - -1.00gydF4y2BaggydF4y2Ba 1.00 - -1.00gydF4y2BaggydF4y2Ba 1.00 - -1.00gydF4y2Ba
总计gydF4y2Ba 0.58 - -0.79gydF4y2Ba 0.93 - -0.95gydF4y2Ba 0.57 - -0.74gydF4y2Ba 0.79 - -0.83gydF4y2Ba 0.97 - -0.98gydF4y2Ba

一个gydF4y2Ba只检索到3条引文。gydF4y2Ba

bgydF4y2Ba未检索到引文。gydF4y2Ba

cgydF4y2Ba只检索到2条引文。gydF4y2Ba

dgydF4y2Ba只检索到4条引文。gydF4y2Ba

egydF4y2Ba只检索到13条引文。gydF4y2Ba

fgydF4y2Ba只检索到18条引文。gydF4y2Ba

ggydF4y2Ba只检索到10条引文。gydF4y2Ba


主要结果gydF4y2Ba

多语言PubMed-French策略允许检索法语PubMed引文,具有高精度和高覆盖率。尽管在CISMeF信息系统中引入了60多万篇PubMed引文,但平均服务器端响应时间仍然低于阈值时间(即2秒),根据我们的经验,这对于普通卫生专业人员来说是可以接受的。多语种pubmed -法语搜索引擎现已在互联网上免费提供[gydF4y2Ba23gydF4y2Ba]。gydF4y2Ba

Babel MeSH允许用户访问法语PubMed数据库。它提供了许多精度较低的结果,因此对讲法语的人不太感兴趣。此外,搜索引擎的功能在任何地方都没有详细说明;只能生成由Babel MeSH自动翻译的粗略的自由词查询。Babel MeSH接口是有限的;在短时间内执行许多查询是不可能的。gydF4y2Ba

对于讲法语的人来说,《PubMed》的经典用法并不令人满意,这并不奇怪,因为它应该适用于英语,而不是法语。相对较高的平均覆盖率掩盖了巨大的异质性(从0到超过12,000次引用)。精确度低于多语言PubMed- french或PubMed TT。然而,相关性排序始终比后进先出排序对前20个结果提供更好的精度。没有证据表明后进先出是违约。gydF4y2Ba

使用PubMed TT比使用多语言PubMed- french提供更精确的结果。PubMed TT的工作方式就像一个自由文本搜索引擎,只查看引文的标题。因此,精度高是合乎逻辑的。然而,基于覆盖范围的巨大差异和精确度的微小差异,PubMed TT的召回率一定低于多语种PubMed-法语的召回率。此外,多语种PubMed- french和Babel MeSH不断提供20多个结果,而PubMed则没有;有些查询提供很少甚至没有结果。PubMed TT的低覆盖率可能是由于难以处理法语的特殊性(例如省略、撇号、重音)。gydF4y2Ba

限制gydF4y2Ba

这项研究有几个局限性。首先,这个可行性研究只包括服务器端响应时间。总体响应时间还取决于最终用户的计算机类型和浏览器类型。第二,MeSH词典翻译不完全。MeSH描述符和限定符经常被翻译,但对于MeSH补充概念却不是这样。因此,在MeSH补充概念级别的准确性查询目前是不可能在自己的语言。即使使用自然语言处理工具,翻译所有MeSH补充概念也需要大量的工作[gydF4y2Ba24gydF4y2Ba]。最后,到目前为止,英语是科学医学出版物最常用的语言,其他语言的出版物相对减少。然而,后者是重要的,因为它们更容易适应国家情况,更容易为更广泛的当地受众所理解。英文文章的自动可理解翻译肯定会解决这个问题,但这远远超出了当前的技术[gydF4y2Ba25gydF4y2Ba]。gydF4y2Ba

对于“心绞痛/咽炎”的查询,出现了一个意想不到的问题:PubMed (LIFO和相关策略)没有找到任何结果,并自动将查询翻译为具有不同含义的“心绞痛”。这影响了这些策略的精度,使其偏向于零。我们进行了三个敏感性分析来评估偏倚重要性:(1)将“引擎”查询排除在分析之外,(2)认为“引擎”查询为PubMed LIFO和PubMed相关策略提供了零结果,(3)认为该查询为PubMed LIFO/相关策略返回的20条引文是完全相关的。在每种情况下,与PubMed LIFO/相关策略相比,多语言PubMed- french和PubMed TT的精度明显更好。因此,有可能得出一个非常有限的偏差。gydF4y2Ba

展望与未来挑战gydF4y2Ba

多语种PubMed的优势之一在于多语种的CISMeF信息系统。因为MeSH词库已经被翻译成多种语言,所以很容易为这些语言制作多语言PubMed。然而,CISMeF团队并不熟悉用法语以外的其他语言解释用户查询所需的语言处理;因此,其他版本的多语种PubMed不太可能取得与这里观察到的结果相当的结果。我们目前正在与几个国际团队合作,将多语言PubMed扩展到德语,西班牙语,葡萄牙语和挪威语。根据PubMed的引用次数(参见gydF4y2Ba表1gydF4y2Ba)对于主要的欧洲语言,这个可行性研究可以推断为积极的其他语言的PubMed引用少于法语(即西班牙语,意大利语,葡萄牙语和挪威语)和三分之一的德语。gydF4y2Ba

与搜索引擎中的MeSH索引相关的其他几个改进尚未在PubMed引文中实现;特别是,MeSH修饰词与MeSH补充概念的关联,用MeSH概念进行索引,以及MeSH修饰词与MeSH概念的关联[gydF4y2Ba26gydF4y2Ba]。由于法语PubMed引文语料库的规模(n=665,359),手动执行这些任务是不可行的。因此,CISMeF质量控制健康网关中使用的自动索引工具将需要得到增强,以便应用于多语言pubmed -法语搜索引擎。gydF4y2Ba

如引言所述,在CISMeF信息系统中可以管理多种资源。最终用户现在可以请求混合结果:来自CISMeF的Web资源和来自Multilingual PubMed的PubMed引文。此外,多语言PubMed未来发展的一个有趣途径是整合来自其他来源的书目数据。与爱思唯尔-马松和两家法国小公司的合作现在已经启动。爱思唯尔将提供MEDLINE/PubMed引文的额外元数据(特别是法语摘要),这些元数据目前尚未在MEDLINE/PubMed数据库中提供。此外,Elsevier-Masson将提供未被PubMed收录,但被其他书目/文献计量数据库收录(如Web of Science、EMBASE和BIOSIS)的期刊元数据。gydF4y2Ba

除了比竞争对手更高效之外,在我们看来,Multilingual PubMed更加用户友好,提供了更多的功能。尽管如此,PubMed或其他工具中仍有许多有趣的功能(如相关引用、历史管理)。gydF4y2Ba8gydF4y2Ba(图形表示),这在多语言PubMed中没有实现。未来的工作可能会解决这些问题。gydF4y2Ba

结论gydF4y2Ba

本研究的目的是建立一个多语言搜索引擎来查询单语言PubMed子集。它在法语方面取得了成功,并将扩展到其他主要的欧洲语言。来自非英语出版物的参考书目现在可以使用来自PubMed数据库和MeSH词汇表的多语言数据在母语友好的界面中进行搜索。gydF4y2Ba

总的来说,这个多语言PubMed工具对于无法访问PubMed的非英语卫生专业人员来说是有价值的。gydF4y2Ba

致谢gydF4y2Ba

作者们要感谢Pablo Iriarte,瑞士洛桑CHUV大学医院的图书管理员,他果断地推动了这个项目的启动。作者感谢鲁昂大学医院的Nikki Sabourin-Gibbs审阅了英文手稿。奥地利UMIT、卢森堡都铎中心、阿根廷布宜诺斯艾利斯意大利医院和挪威电子卫生图书馆慷慨地将一些MeSH术语和一些接口术语分别翻译成德语、德语和葡萄牙语、西班牙语和意大利语以及挪威语。gydF4y2Ba

作者的贡献gydF4y2Ba

GK, LFS和SJD有了多语种PubMed的想法,并推动了它的发展。JG, IK和BD开发了整个应用程序,并优化了系统的架构。NG、GK、MS和SJD构思评价。NG收集数据并进行分析。GK进行引文相关性评估。NG和SJD起草了手稿。LFS和MS对其进行了实质性的改进。所有的作者都认可了定稿。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

  1. MEDLINE。MEDLINE URL中的资源数量:gydF4y2Bahttp://www.ncbi.nlm.nih.gov/pubmed?cmd=PureSearch&db=pubmed&term=medline(某人)gydF4y2Ba[gydF4y2BaWebCite缓存gydF4y2Ba]gydF4y2Ba
  2. 以至于CE。医学主题标题(MeSH)。中华医学杂志(英文版);2000;31 (3):369 - 369 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  3. PubMed。URL:gydF4y2Bahttp://www.ncbi.nlm.nih.gov/pubmed/gydF4y2Ba[2014-08-26访问][gydF4y2BaWebCite缓存gydF4y2Ba]gydF4y2Ba
  4. 美国国家医学图书馆,2014。概况介绍:MEDLINE、PubMed和PMC (PubMed Central):它们有什么不同?URL:gydF4y2Bahttp://www.nlm.nih.gov/pubs/factsheets/dif_med_pub.htmlgydF4y2Ba[2014-08-26访问][gydF4y2BaWebCite缓存gydF4y2Ba]gydF4y2Ba
  5. PubMed。PubMed URL中的资源数量:gydF4y2Bahttp://www.ncbi.nlm.nih.gov/sites/entrez?cmd=PureSearch&db=pubmed&term=all(某人)gydF4y2Ba[gydF4y2BaWebCite缓存gydF4y2Ba]gydF4y2Ba
  6. Sheets L, Gavino A, Callaghan F, Fontelo P.语言流畅性和其他社会经济因素是否影响PubMed和MedlinePlus的使用?应用临床学报,2013;4(2):170-184 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  7. Chneiweiss H.[为什么要用法语发表科学评论?]医学科学(巴黎);2014;30(1):7-8。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  8. 陆震。PubMed及其他:搜索生物医学文献的网络工具调查。数据库(牛津)2011;2011:baq036 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  9. 刘峰,Ackerman M, Fontelo P. BabelMeSH: MEDLINE/PubMed跨语言工具的开发。AMIA年会程序2006:1012 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  10. 冯德洛,刘峰,李昂,安A, Ackerman M. PICO语言学家和BabelMeSH:基于证据的MEDLINE/PubMed多语言搜索工具的开发与部分评价。种马健康技术通报2007;129(Pt 1):817-821。[gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  11. Thirion B, Pereira S, nsamvsamol A, Dahamna B, Darmoni S. French MeSH Browser:一个访问MEDLINE/PubMed的跨语言工具。AMIA年度会议程序2007:1132。[gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  12. 张建军,张建军,张建军,张建军。网格翻译维护系统:结构、接口设计和实现。种马健康技术通知2004;107(Pt 1):67-69。[gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  13. 张建军,刘建军,刘建军,刘建军,等。一种基于gis的医疗资源管理方法。方法中华医学杂志2000;39(1):30-35。[gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  14. santail术语。URL:gydF4y2Bahttp://pts.chu-rouen.fr/old/gydF4y2Ba[2014-08-26访问][gydF4y2BaWebCite缓存gydF4y2Ba]gydF4y2Ba
  15. 陈建军,陈建军,陈建军,陈建军。使用术语/本体门户进行医学教学。畜禽卫生技术通报2012;180:949-953。[gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  16. 健康术语/本体门户。URL:gydF4y2Bahttp://www.hetop.fr/hetop/gydF4y2Ba[2014-08-26访问][gydF4y2BaWebCite缓存gydF4y2Ba]gydF4y2Ba
  17. Humphreys BL, Lindberg DA, Schoolman HM, Barnett GO。统一医学语言系统:信息学研究合作。中华医学杂志,1998;5(1):1-11 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  18. douy M, Soualmia LF, nsamvsamol A, Rogozan A, Dahamna B, Leroy JP,等。在质量控制的网关中增强MeSH同义词库以检索法语在线健康资源。卫生情报杂志,2004;21(4):253-261。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  19. 敦克朗D.面搜索。信息概念、检索与服务综合讲座2009;1(1):1-80。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  20. Le MeSH双语英语-法语。URL:gydF4y2Bahttp://mesh.inserm.fr/mesh/gydF4y2Ba[2014-08-26访问][gydF4y2BaWebCite缓存gydF4y2Ba]gydF4y2Ba
  21. 中文K. PubMed相关排序。2013年10月;394:e2。gydF4y2Ba
  22. 数字对象标识系统。URL:gydF4y2Bahttp://www.doi.org/gydF4y2Ba[2014-08-26访问][gydF4y2BaWebCite缓存gydF4y2Ba]gydF4y2Ba
  23. MLPubMedFr。URL:gydF4y2Bahttp://doccismef.chu-rouen.fr/dc/?env=pubmedgydF4y2Ba[2014-08-26访问][gydF4y2BaWebCite缓存gydF4y2Ba]gydF4y2Ba
  24. 刘建军,刘建军,刘建军,等。医学信息学。InTech克罗地亚:由的哲理;2012年3月,调整法语生物医学术语:在医疗应用中实现语义互操作性gydF4y2Bahttp://www.chu-rouen.fr/tibs/wp-content/uploads/pdf/Merabti2012.pdfgydF4y2Ba[gydF4y2BaWebCite缓存gydF4y2Ba]gydF4y2Ba
  25. 刘峰,冯泰平。基于谷歌翻译的MEDLINE摘要自动翻译。发表于:AMIA年会;2010年11月13日至17日;华盛顿特区第1148页。gydF4y2Ba
  26. 李建军,李建军,李建军,等。利用医学主题标题概念改进信息检索:罕见病和慢性病的试验案例。中华医学杂志,2012;100(3):176-183 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba


‎gydF4y2Ba
CISMeF:gydF4y2Ba法语词汇的目录和索引gydF4y2Ba
后进先出:gydF4y2Ba后进先出gydF4y2Ba
网:gydF4y2Ba医学主题词gydF4y2Ba
NLM:gydF4y2Ba国家医学图书馆gydF4y2Ba
PMID:gydF4y2BaPubMed标识符gydF4y2Ba
TT:gydF4y2Ba音译名称gydF4y2Ba


G·艾森巴赫编辑;提交03.09.14;H Chneiweiss、Z Lu等同行评议;对作者01.10.14的评论;修订版本收到15.10.14;接受19.10.14;发表01.12.14gydF4y2Ba

版权gydF4y2Ba

©Nicolas Griffon, Matthieu Schuers, Lina Fatima Soualmia, Julien Grosjean, gaacimtan kerdelhu, Ivan Kergourlay, Badisse Dahamna, staciman Jacques Darmoni。原发表于2014年12月1日的《医学互联网研究杂志》(//www.mybigtv.com)。gydF4y2Ba

这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2Ba


Baidu
map