发表在5卷,第一名(2017): Jan-Mar

本体驱动的搜索和分类:MEDLINE的基于web的可视化界面设计

本体驱动的搜索和分类:MEDLINE的基于web的可视化界面设计

本体驱动的搜索和分类:MEDLINE的基于web的可视化界面设计

原始论文

1洞察实验室,西部大学计算机科学系,伦敦,ON,加拿大

2普渡理工学院,计算机图形技术系,普渡大学,西拉斐特,美国

*所有作者贡献均等

通讯作者:

保罗·帕森斯博士

普渡理工学院

计算机图形技术系

普渡大学

Knoy大厅

北格兰特街401号

西拉斐特,47907

美国

电话:1 765 494 0511

传真:1 765 494 9267

电子邮件:parsonsp@purdue.edu


背景:不同的用户需要搜索健康和医学文献,以满足开放式目标,如做出基于证据的决策和更新他们的知识。然而,这样做是具有挑战性的,因为至少有两个主要困难:(1)使用准确的词汇表表达信息需求;(2)处理从搜索返回的大型文档集。像PubMed这样的通用搜索接口不能为探索性搜索任务提供足够的支持。

摘要目的:我们的目标是通过在交互式可视化界面的设计中结合两种策略(1)使用正式本体来帮助用户构建特定领域的知识和词汇表,以及(2)提供多阶段分类支持来帮助减轻信息过载问题,从而提高对探索性搜索任务的支持。

方法:我们开发了一个基于web的工具,Ontology-Driven Visual Search and Triage Interface for MEDLINE (OVERT-MED),来测试我们的设计理念。我们实现了MEDLINE的自定义可搜索索引,其中包含大约2500万条文档引用。我们选择了一个流行的生物医学本体,人类表型本体(HPO)来测试我们对词汇问题的解决方案。在交互式可视化技术的帮助下,我们在OVERT-MED中实现了多阶段分类支持,以帮助用户处理从搜索中返回的大型文档集。

结果:形成性评价表明,OVERT-MED的设计特点有助于解决上述两个主要困难。使用形式化本体似乎可以帮助用户用更准确的词汇表达他们的信息需求。此外,结合交互式可视化的多阶段分类显示了减轻信息过载问题的希望。

结论:我们的策略在解决探索性搜索中的两个主要问题方面似乎很有价值。尽管我们使用特定的本体和文档集合测试了OVERT-MED,但我们预计我们的策略可以成功地转移到其他上下文中。

中华医学杂志,2017;5(1):94 - 94

doi: 10.2196 / medinform.6918

关键字



概述及意义

在许多领域和背景下,从已发表的医学文献中寻找信息是很重要的[12]。不同的用户需要搜索文献,包括医生[3.],医学生[4]、细胞遗传学家[5],以及病人及其家属[6]。搜索大致可以分为两类:查找探索性(7]。查找搜索是封闭的,具有精确的结果,几乎不需要检查和比较结果集。然而,探索性搜索是开放式的,具有不精确的结果,并且通常需要大量的时间和精力来处理结果集,以满足原始信息需求。具有开放式目标的探索性搜索的例子包括做出基于证据的决策和更新知识以跟上当前的研究成果[28]。虽然在支持查找搜索方面取得了重大进展,但探索性搜索仍然没有得到很好的支持,而开放式搜索目标往往很难实现[2910]。查找相关医疗信息的常见障碍包括执行搜索所需的时间[3.11],不断扩大的专题报道范围[2],以及由于处理大型结果集而产生的信息过载[23.11-13]。

MEDLINE是最受欢迎的出版医学文献集合之一,它包含超过2500万份文件,并且每年都在增长。搜索MEDLINE最常用的方法是PubMed,这是一个免费的搜索引擎和Web界面[14]。尽管近年来PubMed的搜索能力有所提高,但在探索性搜索的背景下搜索信息时,用户仍然会有相当大的负担,这至少有两个主要问题:(1)难以使用准确的词汇表达信息;(2)搜索返回的大量文档。许多用户没有适当的词汇表来构造有效的查询[1516],在医学和卫生领域尤其如此[17-20.]。当使用不受控制的词汇表时,不能保证概念在不同的上下文中用相同的术语表达[1321]。例如,如果一篇文章包含术语眼睛错构瘤,然后用户搜索更模糊的术语眼睛增长,可能不会有势均力敌的对手。因此,如果没有适当的术语知识,就很难进行有效的搜索。可返回的文件数量庞大,更增加了有效搜索的困难,从而导致信息过载问题[92223]。Dogan等[2请注意,至少有三分之一的PubMed搜索返回100个或更多的文档。在我们自己的测试中,搜索常用术语(例如,“乳腺癌”或“脑肿瘤”)会返回数千个文档。

大多数搜索引擎(包括PubMed)的界面都使用简单的文本框,用户可以在其中输入查询条件。这种界面风格不能帮助用户清楚地表达他们的信息需求[24],只适用于查找搜索任务[2526]。例如,如果用户对查找有关“肝脏”的信息感兴趣,但不确定与查询相关的术语是什么,他或她必须简单地在搜索框中输入“肝脏”。由于查询是模糊的,因此返回了一个非常大的文档集——使用PubMed (图1).

在探索性搜索环境中,通过替换标准文本框(包括分面搜索),采用了多种策略来帮助支持查询形成[27]、可视化小部件[28],查询预览[29],以及展开项的分层表示[30.]。这些策略的共同主题是从文档集合中提取有意义的信息,然后以一种可以帮助搜索者识别术语的方式表示,这些术语将更准确地描述他们正在寻找的信息。这种策略促进识别而不是回忆,不依赖于用户必须知道并从记忆中检索正确的词汇。24]。

我们提出了Ontology-Driven Visual Search and Triage Interface for MEDLINE (OVERT-MED),这是一个基于web的可视化工具,它解决了搜索大型文档集合的两个主要困难:(1)用有用的词汇表达信息需求的困难;(2)处理大型搜索结果集的困难。为了解决第一个困难,我们提出了使用形式化本体来帮助用户构建特定领域的知识和词汇的想法。为了测试这一点,我们实现了人类表型本体(Human Phenotype Ontology, HPO)的可搜索索引,该索引为用户提供与其信息需求相关的建议术语。为了解决第二个困难,OVERT-MED支持使用交互式可视化技术对搜索结果进行多阶段交互式分类。我们使用定制的MEDLINE索引,其中包含大约2500万份文档,作为我们可搜索的医学文献集合。虽然最初开发OVERT-MED是为了使用特定的本体和文档集合,但我们希望我们的设计思想能够转移到其他上下文中。以下小节提供背景信息并讨论相关工作。

图1所示。PubMed的截图显示了搜索“肝脏”的结果。
查看此图

本体

从领域中有意义地提取和建模信息的一种方法是构建本体[3132]。本体使用标准词汇表表示概念及其关系[32]。本体具有许多实际功能,包括澄清领域内的知识结构,提供公共词汇表,启用计算分析和支持知识共享[31-33]。本体通常在多个抽象级别上捕获领域内的概念。例如,一个解剖学本体可能有一个概念身体,一个子概念,这是进一步的子概念鼻子等等。本体中的概念可以使用许多不同的结构来表示,包括树和不同类型的图。

我们正在使用的本体HPO是由领域专家策划的,目的是试图捕捉人类单基因疾病中常见的所有表型异常[34]。在我们之前与基因组学研究人员的合作中,我们了解到HPO在他们的工作流程中的重要性,包括在涉及文献检索的活动中[5]。HPO广泛应用于生物医学领域,定期更新,具有高水平的质量控制。它也可以以流行的开放生物医学本体(OBO)和Web本体语言(OWL)格式下载。由于这些原因,我们认为HPO是测试我们使用本体来解决词汇表问题的建议的理想选择。需要注意的是,我们并不是说HPO比其他本体更好,也不是说它应该在所有上下文中使用。HPO只是众多可用于支持探索性搜索的本体之一,搜索系统应该使用最适合给定上下文的本体。

文档分类

分类是一项确定文件与资讯需要的相关性的活动[35]。分诊活动通常有时间限制,需要快速评估与不完整知识的相关性。例如,搜索可能返回数百或数千个可能相关的文档。由于不可能详细阅读每个文档,用户必须对文档进行分类,并根据对其内容的不完全了解快速评估其相关性。研究表明,分类分为三个连续的阶段:(1)“多文件”阶段,在没有仔细检查的情况下,从一组文件中选择初步的相关性判断;(2)“个别文件”阶段,对个别文件进行更详细的审查和分类(例如,保留或拒绝);(3)“进一步阅读”阶段,对一小部分文献进行深入阅读,提取相关信息,满足原始信息需求[36]。此外,研究表明,分类通常以周期性和迭代的方式发生,其中上述阶段被多次重访[37]。

搜索结果可视化

大多数搜索界面以传统的基于列表的方式显示结果,其中使用标题和各种元数据对文档进行排序和文本表示。虽然对于简单的查找搜索任务来说不是问题,但传统的基于列表的表示在支持探索性搜索任务时并不有效,因为探索性搜索任务通常是开放式的,并且涉及复杂的信息需求[38]。虽然列表是熟悉和简单的,但研究表明,用户很少全面或仔细地检查列表[39并且很少冒险超过结果的前几页[40]。浏览一长串的清单既乏味又需要认知能力。通过将认知负担转移到感知系统,搜索结果的可视化可以克服一些与基于文本列表的表示相关的问题。例如,视觉图像可以通过眼睛自由地扫描,而文本必须按顺序扫描,这需要更多的时间和认知能力来检测模式和关系。4142]。此外,可视化可以在很小的空间内编码大量信息,从而消除了浏览多个页面以查看搜索结果的需要。以前的工作已经证明了可视化在文档搜索、探索和分析中的效用[4344]。

相关工作

一些研究人员已经认识到使用本体来更好地支持搜索活动的价值(例如,[1345]).本研究的重点是术语提取和映射,这是使用文本挖掘和自然语言处理技术完成的。在这项工作中,本体用于在不涉及用户的情况下提高计算搜索性能。与我们的工作相比,最根本的区别在于,我们使用本体来帮助用户开发知识和特定于领域的词汇表——也就是说,重点放在用户而不是算法和其他计算过程上。我们的方法在用户拥有有价值的知识和无法被计算取代的特定于上下文的目标的上下文中很重要——换句话说,用户需要保持“在循环中”。

其他研究人员则专注于开发MEDLINE的接口,作为PubMed的替代品。例如,Wei等人开发了PubTator,这是一个PubMed替代接口,使用多种文本挖掘算法来改进搜索结果[46]。PubTator还为文档分类提供了一些支持。尽管PubTator看起来既有趣又有用,但它依赖于将查询输入到标准文本框中,并以典型的基于列表的方式显示结果。因此,它的目的不是解决我们试图用overt - med解决的两个问题中的任何一个,即词汇表问题和信息过载问题。其他提供有趣功能但没有解决这两个问题的接口包括SLIM [47]和HubMed [48]。iPubMed是解决第一个问题的另一个接口。49],为搜索结果提供模糊匹配。另一种可能为解决第二个问题提供支持的界面被重新定义[50],它通过相关性排序提供最小的分诊支持。一个以营利为目的的私人工具,Quertle,似乎使用可视化来缓解信息过载问题,尽管很少有细节是公开的。路[51]提供了一个详细的调查,其中包括MEDLINE的许多其他可选接口,尽管没有一个旨在解决我们在这里讨论的两个问题中的任何一个。

总而言之,目前还没有研究探索以下两方面的组合:(1)在用户需要保持“在循环中”时帮助构建特定于领域的知识和词汇表;(2)使用交互式可视化来帮助减轻信息过载问题的分类支持。下面的部分详细介绍了我们解决这些问题的方法。


概述

我们开发了OVERT-MED来测试我们针对上述两个问题提出的解决方案。为了将我们的研究固定在特定的上下文中,我们选择MEDLINE作为我们的文档集合。MEDLINE提供了一个有趣的测试平台,因为它的受欢迎程度和大小。我们开发了MEDLINE的自定义索引,以便可以从OVERT-MED的前端进行查询。我们还对HPO进行了索引,以帮助用户构建知识和特定于领域的词汇表。

MEDLINE和HPO的标引

我们下载了整个MEDLINE数据库,该数据库由美国国家医学图书馆(NLM)免费提供,用于研究目的。MEDLINE数据库由文章“引文”组成,这些引文本质上是文章的元数据,包括作者、期刊标题、医学主题标题(MeSH)关键字、出版日期和其他字段。每个引文中还包括摘要文本。我们使用开源的Apache Solr和Lucene项目开发了一个自定义索引。Lucene支持全文索引和搜索功能,Solr是一个运行在Lucene索引上的搜索平台。为了对文档进行排序,Lucene使用了众所周知的术语频率逆文档频率(tf-idf)方案[52]。Lucene还基于生成向量空间模型(VSM)分数的内部相似性度量对结果进行排名[53],使用索引项作为维度,tf-idf值作为权重。我们早前已更详细地描述了我们的索引策略[5]。

HPO是在人类疾病中发现的人类表型异常的正式本体论[34]。HPO的每个条目都描述了一种表型异常,如黑色素瘤或肝母细胞瘤。HPO正在积极发展中,目前包含11,000多个条款。我们还在Lucene索引中索引了HPO。HPO包含本体中每个表型的多个字段,包括名称、定义、id、同义词和领域专家的评论。我们为所有字段建立索引,以提供健壮的词汇建议——当用户输入一个术语时,将检查索引中的所有字段,这比只在表型名称上查找精确匹配的结果提供更有用的信息。下面将使用一个示例更详细地描述这一点。

开发和架构

我们开发的OVERT-MED是一个基于网络的工具,可以在任何现代浏览器中运行。它连接到存储索引和处理搜索请求(通过Solr搜索服务器)的Web服务器。我们开发了一系列的脚本来从NLM公共ftp站点检索MEDLINE更新,并在我们的Lucene索引中构建MEDLINE和HPO的索引。我们还开发了一个应用程序编程接口(API),用于处理搜索请求和其他基本功能。前端是使用HTML5、CSS和JavaScript开发的。可视化是使用D3.js [54],一个流行的JavaScript可视化库。图2提供了OVERT-MED系统体系结构的图解概述。

图2。MEDLINE (OVERT-MED)系统本体驱动的可视化搜索和分类界面的客户机-服务器体系结构。
查看此图

本体术语建议

OVERT-MED使用HPO帮助用户更好地表达他们的搜索需求,我们称之为本体术语建议者.用户在文本框中输入术语,并提供一组建议(表型)。当用户输入每个字符时,建议会实时更新。此外,为了提供更好的术语支持,我们查找表型名称的匹配以及对表型的描述和专家评论(这些不显示给用户,但在我们的服务器上索引)。例如,用户可能对查找与术语“肝脏”相关的文章感兴趣,但可能没有足够的词汇表来表达涉及相关术语的有用查询。图3在搜索框中输入“liver”后显示本体术语建议器。显示与肝脏相关的表型。显示“生长激素缺乏”和“腹水”等结果是因为它们与肝脏有关——生长激素的作用是由胰岛素样生长因子介导的,而胰岛素样生长因子主要在肝脏中产生;腹水通常与肝脏疾病有关。许多返回的表型没有这个术语在它们的名字里,却都与肝脏有关。在传统的搜索界面中,用户无法从“肝脏”跳转到“腹水”或“生长激素缺乏”。最后,由于用户可能不了解特定的表型(例如,先天性膈疝),选择“?按钮将打开一个新选项卡,并在HPO Web浏览器中加载正式条目。用户可以从中找到更多的细节,包括相关的基因和疾病。这种搜索策略可以帮助用户建立可用于增强认知性能和探索的领域知识和词汇表。

图3。本体术语建议者,显示输入“肝脏”的结果。
查看此图

用于查询细化的灵敏度编码

开放式搜索任务中一个众所周知的问题是,如果不符合指定的搜索条件,可能不会显示潜在的相关结果。例如,当搜索要购买的房子时,用户通常有不正确的标准,例如价格范围、卧室和浴室的数量、庭院大小、位置等等。虽然可能会指定某些搜索条件(例如,4间卧室,低于$ 200,000),但不符合条件的搜索结果也可能是相关的,例如只有3间卧室的房子,但价格很高。当使用可视化来支持此类搜索任务时,可以放宽某些标准,并且可以以不同的方式对不符合某些标准的结果进行可视化编码。例如,不符合卧室数量的结果可以用1种颜色编码;不符合码大小的结果可以用另一个编码;等等......可视地对这类信息进行编码,可以为用户提供调整搜索条件的提示,以便包含潜在的相关结果。这种可视化策略,被称为敏感性编码,已被证明在许多情况下是有益的[5556]。

虽然OVERT-MED支持选择精确的表型名称,但名称中单词的确切组合可能过于严格,可能无法提供最相关的结果。例如,用户可以选择表型进行性外眼肌麻痹.我们的索引显示了811篇与这种特定表型相关的文章。然而,用户可能对与这些词的不同变体相关的文章感兴趣,例如,进步opthalmoplegia外部opthalmoplegia。我们用一组灵敏度编码查询选择器在OVERT-MED中处理此问题。当选择表型时,我们使用所有可能的单词组合在索引上执行搜索,然后可视化地对结果集的大小进行编码。图4显示用户选择“进行性外眼麻痹”的结果。每个组合的匹配物品的数量以数字方式提供,并使用每个组合旁边的条的长度进行视觉编码。从图4,我们可以看到,如果用户将术语放宽为“进行性眼麻痹”,则索引中会增加104篇文章,而将术语放宽为“外部性眼麻痹”,则会增加418篇文章。如果没有这种敏感性编码策略,许多这些潜在的相关结果将无法获得。由于用户往往对1种以上的表型感兴趣,因此可以选择多种表型,每种表型都经历相同的敏感性编码过程。图5添加第二种表型,先天性眼外肌纤维化。

图4。一组针对“进行性外眼肌麻痹”的灵敏度编码查询选择器。
查看此图
图5。通过本体术语建议器添加第二个表型的结果,这会导致更多的灵敏度编码查询选择器。
查看此图

交互式分类支持,以减轻信息过载

OVERT-MED提供多级分类支持,以减轻信息过载问题。多种设计策略支持分类的第一阶段——“多文档”阶段。首先,当选择一组特定的术语时,将显示多达250个文档的元数据。每个文档都使用一个小条形图进行编码,每个术语的出现都使用条形图的一部分进行编码。图6显示6个文件如何在3个术语(进行性外眼麻痹)的情况下表示。在可视化中,每行表示一个文档,每列表示一个表型词。在这种情况下,单词是用颜色编码的,绿色代表渐进,蓝绿色代表外部,红色代表眼麻痹。一个白色的细胞表示没有出现这个单词。可视化的功能是一种热图[57],其中颜色饱和度编码文档中术语的频率。我们称这种技术为查询结果热图。图6,较深的红色表示opthalmoplegia这个词出现的频率较高。这种类型的编码有助于快速视觉扫描和识别可能相关的文件[4358]。

为了进一步支持分类活动,OVERT-MED允许用户交互式地探索与匹配文档相关的元数据。图7显示用户选择“渐进式+眼麻痹”后的界面状态。前250个文档(按我们的索引算法排序)在查询结果热图中编码。每行作为一个单独的文档热图,显示文档中出现的7个表型术语。因为用户选择了“进行性”和“眼麻痹”,所以所有文档都会显示这两个术语的出现情况。很明显,大多数文档也包含术语“外部”。大约20个包含“肌肉”,4个包含“眼外”,1个包含“纤维化”,1个包含“先天性”。

OVERT-MED还提供了一个项分布矩阵帮助用户在浏览查询结果热图时快速确定文档的相关性。在术语分布矩阵中,用户可以看到术语在文档元数据中的4个位置出现:(1)标题,(2)期刊名称,(3)MeSH术语,(4)摘要文本。文档标题、期刊、年份和MeSH术语也会显示出来。这种表示可以帮助用户通过快速的视觉扫描来做出相关的决定。例如,如果一个术语只出现在期刊名称中,它可能不是很相关,但如果一个术语在摘要文本中出现了5次,它就更有可能是相关的。由于分类颜色编码,用户可以快速感知这类信息。图8显示同一结果集中2个不同文档的术语分布矩阵。通过快速的视觉扫描,即使不阅读文本,也可以明显看出右边文件中的术语非常重要。

为了支持快速探索(分类的基本目标),可以使用键盘箭头键在动态更新元数据的同时快速浏览文档。如果检测到相关文件,用户可以按“enter”键或点击按钮将该文件添加到文件堆中,以便后续调查(此阶段将在以下详细说明)。这一阶段的分类还允许快速比较文档中共同发生的表型。例如,图9显示用户添加包含“先天性”和“纤维化”的文档的结果。通过快速视觉扫描可以立即清楚地发现,没有多少文献同时包含“先天性纤维化”和“眼麻痹”。

在浏览查询结果热图时,可能很难记住以前访问过哪些文档。在迭代分类的环境中尤其如此,用户可能会在离开一段时间后返回热图。在OVERT-MED中,当用户在文档上暂停5秒或更长时间时,文档旁边会放置一个小标记,作为视觉提醒(图10).当重新访问热图时,用户可以快速识别他们之前检查过的文档。我们假设5秒是一个合理的阈值,用于确定用户何时检查了项分布矩阵

图6。查询结果热图:6个文档由6行表示,其中每列表示一个术语(进行性外眼肌麻痹)。
查看此图
图7。用户选择“渐进式+眼麻痹”后的界面状态。
查看此图
图8。同一结果集中2个不同文档的词分布矩阵。
查看此图
图9。用户添加包含“先天性”和“纤维化”的文档进行比较的结果。
查看此图
图10。查询结果热图的特写视图。
查看此图

分类活动的下一个阶段——“个别文件”阶段——包括检查先前选定文章的个别摘要。在这个阶段,用户可能已经大大缩小了文档的数量。文档通过选定桩热图以与查询结果热图相同的方式,每个都可以选择以查看其摘要。在这个term-encoded文摘,匹配的术语用颜色编码,以方便快速识别,特别是在抽象文本中。图11显示一个示例,其中用户选择了29个文档,这些文档在所选的堆热图中进行编码,并且为第一个文档显示术语编码的摘要。即使在详细阅读文本之前,也很容易看到“肾素”和“高血压”都频繁出现,表明它们很重要。因此,用户可以快速扫描文本以了解查询词的外观,而不必按顺序阅读文本。这个分类阶段的一个重要方面是能够快速对文档进行分类。在OVERT-MED中,用户可以通过选择橙色的“x”按钮快速拒绝一篇论文,也可以通过选择绿色按钮或按“enter”键快速添加一篇论文到下一阶段。

分诊的最后阶段是“进一步阅读”阶段,对一小部分文档进行深入阅读,提取相关信息,满足原始信息需求。虽然这一阶段可以以各种方式得到支持,但我们在OVERT-MED中支持这一阶段,方法是直接在OVERT-MED的接口内的嵌入式框架中为选定的文档提供PubMed条目。这允许快速检查任何对用户重要的PubMed详细信息,例如全文链接、引用详细信息和PubMed Commons链接,并且还允许用户登录到他们的国家生物技术信息中心(NCBI)帐户将文章保存到集合中,与其他保存的文章进行比较,等等。如果用户需要更多的空间,还有一个按钮可以在新的浏览器选项卡中打开PubMed链接。图12显示了OVERT-MED的全屏截图,其中用户遍历了搜索和分类活动的所有阶段。

由于研究表明分诊活动是周期性的和迭代的,我们设计了OVERT-MED在这方面是灵活的。在活动期间的任何时候,用户都可以调整他们的查询或文档选择,并且界面的每个组件都将动态地反映任何更改。例如,用户可能到达分类的最后阶段,并在文档中找到似乎与原始信息需求相关的术语。用户可以返回到输入术语和选择表型的初始阶段。这样,界面的其余部分保持稳定,用户可以继续进行任何分类阶段。图13显示用户在最后阶段详细检查文档,发现肾素水平(感兴趣的原始表型)与动脉压之间的联系,并返回到初始阶段以找到与动脉压相关的表型后的界面。用户发现了一种名为“平均动脉压升高”的表型,并选择了它。在这个阶段,用户对动脉压是否升高并不是特别感兴趣,只是想探究肾素水平与动脉压之间的关系。由于我们的敏感编码策略,用户可以选择“动脉+压力”来添加包含这两个术语的文档。从这一点开始,用户可以继续通过筛选阶段或再次返回到初始阶段。

图11。29份文件被挑选出来进行更详细的审查。
查看此图
图12。显示OVERT-MED的所有组件的全屏截图,其中用户遍历了搜索和分类活动的所有阶段。OVERT-MED:本体驱动的MEDLINE视觉搜索和分类界面。
查看此图
图13。用户在最后阶段详细检查文档、发现链接并带着新信息需求返回初始阶段后的界面。
查看此图

概述

开发OVERT-MED是为了解决已知在复杂的探索性搜索活动中存在的两个主要问题:(1)由于缺乏知识和领域特定词汇而难以表达信息需求;(2)由于返回的结果大量而难以处理信息过载。为了解决第一个困难,我们提出了使用形式化本体来帮助用户构建用于构建搜索查询的领域特定术语和知识的想法。为了帮助完成这个过程,我们对HPO进行了索引,并提供了一个搜索功能,为输入的术语提供可靠的结果。为了解决搜索标准在开放式上下文中过于严格的问题,我们使用了一种视觉灵敏度编码策略来帮助用户看到不同术语组合的可能性。

在使用overt - med执行搜索和分类任务时,用户需要执行7个主要步骤——前2个步骤在词汇表构建阶段,后5个步骤在分类阶段。筛选阶段可以分为3个关键阶段。图14提供此过程的概述,并展示我们在每个步骤中用于帮助用户的技术。为了帮助用户构建词汇表和生成查询,我们使用本体术语建议者灵敏度编码查询选择器.在选择查询之后,用户将进入筛选阶段,在此阶段将遍历3个阶段。在第一阶段(多文档阶段),向用户提供一个查询结果热图对文档结果集中查询词的外观和频率进行编码。键盘交互技术可以在文档中快速导航。为方便在此阶段进行评估项分布矩阵提供有关热图中每个文档的详细信息。总之,这些技术允许快速扫描,以评估相关性和选择下一阶段的文件。在第二个分类阶段(单个文档阶段),向用户提供一个选定桩热图它只对前一阶段选中的文档进行编码。当用户浏览热图时,他们可以检查一个term-encoded文摘每个单独文档的。术语编码支持快速检测文档摘要中查询术语的外观。在评估了各个文档的相关性之后,用户选择要进入下一阶段的文档。在第三个分类阶段(进一步阅读阶段),用户通过深入查看细节来关注单个文档。在这里,文档的PubMed条目可以在OVERT-MED或新的浏览器选项卡中直接检索。在整个活动的任何时刻,用户都可以返回到任何步骤并从那里继续,这支持搜索和分类任务的迭代和循环性质。

图14。由OVERT-MED支持的整体搜索和分类过程。用户需要完成7个主要步骤——前2个在词汇表构建阶段,后5个在分类阶段。OVERT-MED:本体驱动的MEDLINE视觉搜索和分类界面。
查看此图

验证

正在进行的形成性评估表明,OVERT-MED的设计特点可以缓解上述两个问题。我们在一小群不是领域专家的用户中测试了OVERT-MED,我们建议使用正式的本体来帮助用户表达他们的信息需求,这似乎是有用的。如前所述,已知不同类型的用户搜索科学文献,其中许多不是领域专家。例如,儿科医生在将患者转介给临床遗传学家之前,经常试图确定患者的异常表型。然而,由于他们不是领域专家,儿科医生可能没有非常广泛的知识和表现型词汇。即使他们搜索文献来确定表型名称(例如,通过PubMed),他们可能仍然找不到彼此相关的表型。另一个例子是,众所周知,患者会搜索文献,以了解更多关于自己病情的信息。由于患者不是领域专家,他们也可以从访问诸如HPO之类的本体中受益,以帮助他们构建特定于领域的知识和词汇表。因此,对非领域专家的用户进行测试可以表明我们的设计策略是否有用。

在我们的测试中,我们注意到,尽管本体可以帮助用户开发更合适的词汇,但用户不一定对本体本身有很好的理解。由于本体的健壮心理模型可能会带来更好的搜索性能(例如,通过了解哪些实体与其他实体高度连接,了解多个抽象级别的实体之间的关系,等等),我们决定在未来的工作中寻求解决方案(参见未来工作部分)。此外,我们的多阶段分类显示出减轻信息过载问题的希望。用户能够在分类阶段之间来回切换,以满足信息需求,而不会被冗长的文档列表所淹没。

限制

需要注意的是,OVERT-MED目前有一个限制:MEDLINE数据仅限于元数据和摘要文本,不包括全文。这仅仅是因为NLM由于版权问题而没有发布全文。我们对解决这个问题无能为力。然而,经验证据确实表明,文件标题和摘要是决定其相关性的最重要特征之一[37],所以它可能不是一个关键的限制。

未来的工作

我们预计未来至少有三条有价值的研究方向:

首先,开发交互式可视化技术来支持本体语义。当前版本的OVERT-MED背后的意图是帮助解决缺乏足够词汇的常见问题。尽管OVERT-MED似乎支持用户改进他们的搜索词,并可能开发一些领域知识,但它并不一定支持用户理解本体本身——即理解本体的大小、组织、关系类型、重要和不重要的实体,等等。本体的交互式可视化可以增强搜索和分类活动。第二,在不同的上下文中使用不同的本体测试OVERT-MED。这将有助于评估OVERT-MED设计特征的可移植性。三是开展OVERT-MED的正式检测。尽管我们的非正式测试是有用的,但是更正式的测试将提供设计策略的验证。

结论

我们开发了一个基于web的交互式可视化工具OVERT-MED,以解决探索性搜索中的两个常见问题,即缺乏足够的词汇来构造有用的查询,以及难以处理非常大的结果集。我们方法的新颖之处在于:(1)当用户需要保持“在循环中”时,使用本体来帮助构建特定领域的知识和词汇表;(2)使用交互式可视化提供多阶段分类支持,以帮助减轻信息过载问题。我们预计这些想法可以成功地应用于存在这些问题的其他情况。

致谢

这项研究得到了加拿大自然科学与工程委员会的财政支持。

利益冲突

没有宣布。

  1. Krupski TL, Dahm P, Fesperman SF, Schardt CM。如何进行文献检索。中国生物医学工程学报;2008;29(4):1264-1270。(CrossRef] [Medline
  2. Islamaj DR, Murray GC, nsamvsamol A, Lu Z.通过日志分析理解PubMed用户的搜索行为。数据库(牛津)2009年11月27日;2009:bap018 [免费全文] [CrossRef] [Medline
  3. Kritz M, Gschwandtner M, Stefanov V, Hanbury A, Samwald M.欧洲不同医生群体对在线医疗资源和搜索工具的利用和感知问题。医学互联网研究,2013;26;15(6):e122 [J]免费全文] [CrossRef] [Medline
  4. Hersh WR, Crabtree MK, Hickam DH, Sacherek L, Friedman CP, Tidmarsh P,等。成功搜索MEDLINE和应用证据回答临床问题的相关因素。中华医学杂志,2002;9(3):283-293 [J]免费全文] [Medline
  5. 张建军,张建军,张建军,张建军,张建军。基于分子细胞基因组学的生物信息学研究进展。见:2015年医疗保健视觉分析研讨会论文集。美国纽约:ACM出版社;2015年10月25日在IEEE VIS;2015;芝加哥。(CrossRef
  6. 刘建军,刘建军,刘建军,等。医学领域用户搜索方式及搜索内容。信息检索学报,2015;19(1):189-224。(CrossRef
  7. 探索性搜索:从发现到理解。参见:ACM通讯-支持探索性搜索。美国纽约:ACM;四月一日,2006:41-46。
  8. 赫什WR,希卡姆DH。医生如何使用电子信息检索系统?调查和系统审查的框架。中华医学杂志,1998;28(5):349 - 349。(Medline
  9. 崔磊,张刚。一种新型消费者健康信息联合探索性导航界面评价:众包比较研究。中国医学杂志,2014;16(2):45 [J]免费全文] [CrossRef] [Medline
  10. 彭永平,张绍平,王晓明,王晓明。基于网络信息搜索行为的健康网站设计研究。医学互联网研究2016年6月6日;18(6):e145 [J]免费全文] [CrossRef] [Medline
  11. Ely JW, Osheroff JA, Chambliss ML, Ebell MH, Rosenbaum ME。回答医生的临床问题:障碍和潜在的解决方案。中华医学杂志,2005;12(2):217-224 [J]免费全文] [CrossRef] [Medline
  12. 戴维斯K,哈里森J.医生的信息寻求行为:证据回顾。卫生信息学报,2007;24(2):78-94 [J]免费全文] [CrossRef] [Medline
  13. Dietze H, Alexopoulou D, Alvers MR, Barrio-Alvers L, Andreopoulos B, Doms A,等。GoPubMed:用本体背景知识探索PubMed。在:系统生物学的生物信息学。Bioinforma system Biol Totowa, NJ: Humana Press;2009:385 - 399。
  14. NCBI.NLM。Home-PubMed URL:https://www.ncbi.nlm.nih.gov/pubmed[访问日期:2016-10-14][WebCite缓存
  15. 傅国华,兰道尔TK,戈麦斯LM,杜梅斯ST.人机交流中的词汇问题。通讯ACM 1987:964-971。
  16. Belkin新泽西。帮助人们发现他们不知道的东西。通信ACM 2000;43(8):58-61。(CrossRef
  17. Patrick TB, Monga HK, Sievert ME, Houston HJ, Longo DR.开发糖尿病消费者入门词汇的受控词汇资源评估。中国医学信息学报(英文版);2009;31 (3):391 - 391 [J]免费全文] [CrossRef] [Medline
  18. 曾qt。消费者健康问题与专业术语的重新表述:一项试点研究。[J] Med Internet Res 2004 Sep 03;6(3):e27 [J]免费全文] [CrossRef] [Medline
  19. Sievert M, Patrick T, Reid J.流鼻血就是流鼻血吗?或者,词汇变体会导致令人惊讶的结果。医学杂志,2001,1 (1):68-71 [j]免费全文] [Medline
  20. 曾秋冬,谢涛。消费者健康词汇的探索与发展。中华医学杂志,2006;13(1):24-29 [J]免费全文] [CrossRef] [Medline
  21. Lowe HJ, Barnett GO。理解和使用医学主题词(MeSH)词汇进行文献检索。中华医学杂志,1994,13(4):1103-1108。(Medline
  22. Malhotra A, g ndel M, Rajput AM, Mevissen H, Saiz A, Pastor X,等。利用多发性硬化症本体从PubMed摘要和电子病历中检索知识。PLoS One 2015;10(2):e0116718 [j]免费全文] [CrossRef] [Medline
  23. 陆震。PubMed及其他:搜索生物医学文献的网络工具调查。数据库(牛津)2011;2011:baq036 [j]免费全文] [CrossRef] [Medline
  24. 王志强,王志强。引文可视化与探索方法在学术检索任务中的应用。网上信息评论2015年4月13日;39(2):229-254。(CrossRef
  25. Hoeber O.视觉搜索分析:结合机器学习和交互式可视化来支持以人为中心的搜索。2014,发表于:MindTheGap ' 14研讨会的会议记录;2014年3月4日;柏林,德国,第37-43页。
  26. 刘建军,李建军,李建军,李建军,李建军。基于网络流量的网站搜索研究。通信ACM 2002;45(9):42-49。(CrossRef
  27. 王毅,王志强,王志强。基于多面元数据的图像搜索与浏览。美国纽约:ACM出版社;2003年发表于SIGCHI计算机系统中人因会议;2003年4月5日至10日;劳德代尔堡,佛罗里达州,美国第401-408页。(CrossRef
  28. M ., M ., C . Carpendale S.可视化网页搜索?2009年发表于:WSSP 2009: Web搜索结果总结与展示研讨会;2009年4月20日;马德里,西班牙第5页。
  29. Diriye A, Tombros A, Blandford A.少量的交互可以走很长的路:丰富查询表述过程。2012年12月:欧洲信息检索会议;2012年4月1-5日;巴塞罗那,西班牙,531-534页。(CrossRef
  30. Joho H, Coverson C, Sanderson M, Beaulieu M.展开式项的层次表示。美国纽约:ACM;2002年发表于:美国计算机学会应用计算研讨会;2002年3月11日至14日;马德里,西班牙,第645-649页。(CrossRef
  31. 公共本体在实现可共享、可重用知识库中的作用。1991年发表于:第二届知识表示与推理原理国际学术会议论文集;1991;剑桥,马萨诸塞州,美国。
  32. 钱德拉塞卡兰B,约瑟夫森JR,本杰明VR。什么是本体,我们为什么需要它们?IEEE intel system 1975 Oct 01;14(1):20-26。
  33. 郭建军,李建军,李建军,等。本体是什么?本体论手册。Handb control Berlin, Heidelberg: Springer Berlin Heidelberg;2009:1-17。
  34. Robinson PN, Köhler S, Bauer S, Seelow D, Horn D, Mundlos S.人类表型本体:注释和分析人类遗传性疾病的工具。[J]中国生物医学工程学报,2008;33 (5):615 -615 [J]免费全文] [CrossRef] [Medline
  35. Mavri A, Loizides F, Photiades T, Zaphiris P.我们有了内容……现在怎么办?结构和交互性在学术文献分类界面中的作用。昆虫学报,2013;20(3):247-265。(CrossRef
  36. 李建军,李建军。一种基于人工智能的信息检索方法。2013发表于:Information Retrieval Facility Conference;10月7号到9号;利马索尔,塞浦路斯第87-98页。(CrossRef
  37. 李建军,李建军。基于用户导航的文献分类研究。2009年出席:第十三届欧洲会议;9月27日至10月2日;科孚岛,希腊第138-149页。
  38. 王志强,王志强。基于引文可视化的学术检索。[J]数字图书馆2016年4月26日:1-14。(CrossRef
  39. Spink A, Wolfram D, Jansen M, Saracevic T.网络搜索:公众和他们的查询。中国生物医学工程学报(英文版);2001;32(3):326 - 326。(CrossRef
  40. Silverstein C, Marais H, Henzinger M, Moricz M.一个非常大的网络搜索引擎查询日志分析。SIGIR论坛1999,vol . 01;33(1):6-12。(CrossRef
  41. 外部认知:图形表征是如何工作的?[J] .计算机工程学报,1996;45(2):185-213。(CrossRef
  42. 为什么一个图表(有时)胜过一万字。生态学报,1987;11(1):65-100。(CrossRef
  43. hst M. TileBars:术语分布信息在全文信息访问中的可视化。1995,发表于:进程SIGCHI Conf factors computer system;1995;丹佛,科罗拉多州,美国。(CrossRef
  44. 高昌,刘志强。Jigsaw可视化分析系统发展的思考。中国生物医学工程学报,2013;33(4):336-345。(CrossRef
  45. 李建军,李建军,李建军,等。生物医学文献检索方法的研究进展。解剖本体生物信息学2009;6:177-194。(CrossRef
  46. 魏超,高辉,陆忠。PubTator:一种基于web的文本挖掘工具。核酸Res 2013七月;41(Web Server issue):W518-W522 [免费全文] [CrossRef] [Medline
  47. Muin M, Fontelo P, Liu F, Ackerman M. SLIM: MEDLINE/PubMed搜索的另一种网络界面——初步研究。中国医学杂志2005年12月1日;5:37 [j]免费全文] [CrossRef] [Medline
  48. 伊顿的广告。HubMed:基于网络的生物医学文献搜索界面。核酸Res 2006 july 01;34(Web Server issue):W745-W747 [免费全文] [CrossRef] [Medline
  49. 王J, Cetindil我霁年代,李C,谢X,李G, et al。交互式模糊搜索:探索MEDLINE的一种动态方式。生物信息学2010 Sep 15;26(18):2321-2327 [j]免费全文] [CrossRef] [Medline
  50. 余海,金涛,吴军,高毅,金绍文。PubMed的相关反馈检索系统。美国纽约:ACM;2009年发表于:第18届ACM信息与知识管理会议;2009年11月2日至6日;中国香港2099-2100页。(CrossRef
  51. 陆震。PubMed及其他:搜索生物医学文献的网络工具调查。数据库(牛津)2011;2011:baq036 [j]免费全文] [CrossRef] [Medline
  52. 李建军,李建军。基于词权的自动文本检索方法。国际信息学报,1988;24(5):513-523。(CrossRef
  53. 黄安,杨春生。一个用于自动索引的向量空间模型。ACM 1975;18(11):613-620 [j]免费全文] [CrossRef
  54. Bostock M, Ogievetsky V, Heer J. D³:数据驱动文档。计算机学报(英文版);2011;17(12):2301-2309。(CrossRef] [Medline
  55. 李建军,李建军。属性探索者:基于探索的信息合成。交互计算机1998;11(2):137-146。(CrossRef
  56. 支持信息空间导航的灵敏度编码:一个设计准则。生物多样性杂志2002;1(2):120-129。(CrossRef
  57. 韦金森L,友好M.集群热图的历史。科学通报,2009;63(2):179-184。(CrossRef
  58. Hoeber O, Yang X.热图:支持网络搜索结果的可视化探索。生物学报,2009,30(1):90-110。(CrossRef


HPO:人类表型本体
MEDLINE:在线医学文献分析与检索系统
网:医学科目标头
NLM:国家医学图书馆
OVERT-MED:本体驱动的视觉搜索和分类界面为MEDLINE


M Focsa编辑;提交30.10.16;PCI Pang, A Benis同行评审;对作者26.11.16的评论;接受03.01.17;发表02.02.17

版权

©Jonathan Demelo, Paul Parsons, Kamran Sedig。原发表于JMIR Medical Informatics (http://medinform.www.mybigtv.com), 2017年2月2日。

这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到http://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map