JMIR J医学网络杂志 医学互联网研究杂志 1438 - 8871 卡塔尔世界杯8强波胆分析JMIR出版公司 加拿大多伦多 v17i8e204 26293444 10.2196 / jmir.4427 原始论文 原始论文 作为监测新方法的医护人员信息查询与药物安全警报响应分析 Eysenbach 冈瑟 最小值 Allem Jon-Patrick 卡拉汉 艾莉森 学士学位(荣誉),雾,博士学位 1
斯坦福生物医学信息研究中心 斯坦福大学 房间x - 215 韦尔奇道1265号 斯坦福,加州,94305-5479 美国 1 6507236979 1 650 725 7944 acallaha@stanford.edu
http://orcid.org/0000-0001-5163-380X
Pernek 伊戈尔 博士学位 2 http://orcid.org/0000-0003-4637-2814 Stiglic 格雷戈尔 博士学位 3. 4 http://orcid.org/0000-0002-0183-8679 Leskovec 根据法律的 博士学位 5 http://orcid.org/0000-0002-5411-923X ·斯特拉伯格是同学 霍华德R 医学博士,女士 6 http://orcid.org/0000-0002-9644-0355 沙阿 尼噶Haresh 黑带大师博士 1 http://orcid.org/0000-0001-9385-7158
1 斯坦福生物医学信息研究中心 斯坦福大学 加利福尼亚州斯坦福大学 美国 2 普适计算应用 奥地利研究工作室 维也纳 奥地利 3. 健康科学学院 马里博尔大学 马里博尔 斯洛文尼亚 4 电气工程与计算机科学学院“, 马里博尔大学 马里博尔 斯洛文尼亚 5 计算机科学系 斯坦福大学 加利福尼亚州斯坦福大学 美国 6 沃尔特斯克鲁威医疗公司 圣地亚哥,加利福尼亚州 美国 通讯作者:Alison Callahan acallaha@stanford.edu 08 2015 20. 08 2015 17 8 e204 19 3. 2015 8 7 2015 24 7 2015 ©Alison Callahan, Igor Pernek, Gregor stilic, Jure Leskovec, Howard R Strasberg, Nigam Haresh Shah。最初发表于《医学互联网研究杂志》(//www.mybigtv.com), 2015年8月20日。 2015

这是一篇开放获取的文章,根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。

背景

一般消费者在线搜索日志中的模式已被用于监测健康状况和预测与健康相关的活动,但消费者进行在线搜索的多个上下文使得难以解释重大关联。医生信息寻求行为通常通过基于调查的方法和文献综述进行分析。因此,使用在线医疗信息资源的卫生保健专业人员的活动日志是一种有价值但相对未开发的大规模医疗监测资源。

客观的

分析医疗保健专业人员的信息寻求行为,并评估从在线医疗信息资源的使用日志中衡量药物安全警报响应的可行性。

方法

使用UpToDate两年(2011-2012年)的使用日志,我们测量了美国与负担沉重的医疗条件相关的搜索量,以及这些搜索的季节性分布。我们量化了搜索结果和页面浏览量之间的关系。使用大量的在线主流媒体文章和Web日志文章,我们还通过UpToDate搜索活动与与警报主题相关的一般在线媒体活动的变化来描述食品和药物管理局(FDA)警报的吸收情况。

结果

疾病和症状在最新搜索中占主导地位。一些搜索只会导致短时间的页面浏览量,而另一些搜索则会导致比平均时间更长的页面浏览量。FDA对Celexa警告的反应,以UpToDate搜索活动的变化为特征,与一般的在线媒体活动有很大不同。在UpToDate日志中,搜索活动的变化出现得较晚,且持续时间较长。与Celexa相关的搜索量和页面浏览时长在警报前和警报后也有所不同。

结论

了解与在线证据来源相关的信息寻求行为可以洞察卫生专业人员的信息需求,并实现大规模医疗监测。我们的Web日志挖掘方法有可能在国家层面上监测对FDA警报的响应。我们的发现也可以为UpToDate等循证医学信息资源的设计和内容提供信息。

网络日志分析 数据挖掘 医生 信息寻求行为 药品安全监察
简介

在互联网上搜索和消费医疗信息资源在消费者和医护专业人员的日常信息查询活动中占据越来越重要的地位[ 1- 6].挖掘Web搜索日志以描述用户行为并执行大规模监视的方法-例如谷歌流感趋势[ 7]以及使用维基百科网站流量的类似努力[ 8——正获得越来越多的关注。研究试图描述特定用户群体的搜索行为特征,例如搜索癌症信息的用户[ 9]或静脉曲张治疗[ 10],以及经济衰退等重大大规模事件的影响[ 11或一年中的时间[ 12对与健康问题有关的搜索。搜索日志中的模式还用于预测与健康有关的活动,包括对医疗设施的访问[ 13,以及搜索稳定情绪药物的次数[ 14],以及追踪药物使用随时间的变化[ 15].

分析Web搜索行为的固有挑战是用户的多样性。Web搜索日志捕获了一个基本没有特征的用户组的广泛在线行为,该用户组在未知的上下文中执行搜索。大多数分析Web日志的工作都集中在消费者搜索行为上。事实上,最近的方法试图在分析中辨别和分离来自卫生保健专业人员的搜索[ 16].

相比之下,对卫生保健专业人员搜索行为的分析通常集中于文献综述或基于调查的方法[ 4 17- 20.].为了直接研究卫生保健专业人员“在野外”寻求的信息,我们对一个广泛使用的在线医疗资源UpToDate的活动日志进行了分析[ 21].UpToDate是由Wolters Kluwer提供的专家撰写的健康信息来源,包括对调查特定症状的方法、疾病管理、药物使用建议和支持循证医学的治疗方法的详细描述。UpToDate由购买许可证的机构和个人以订阅的方式使用,包括医生、研究人员和学生。已知其在医院的使用与减少患者并发症和不良事件、缩短住院时间、降低死亡率和提高质量绩效指标有关[ 22 23].考虑到分析一般Web搜索行为的挑战,UpToDate日志是一种独特的资源——它们捕获有限且定义良好的用户组的搜索行为。UpToDate日志以前曾用于及时预测流感趋势[ 24],展示了这种资源作为医疗监测替代数据源的效用。

UpToDate使用的日志捕获源机构和一个唯一的已识别会话、输入的搜索字符串、搜索的时间和日期、搜索的类型以及作为搜索结果访问的主题页面。使用这些访问日志,我们分析了用户执行的自由文本搜索以及他们如何导航UpToDate主题页面。我们分析了UpToDate在全国的使用情况,并从信息寻求的角度量化了医疗条件与成本和利用率的关系。我们还通过搜索词和后续页面浏览时长之间的关系来描述信息寻求行为——这是一个被充分研究的用户兴趣指标[ 25 26].我们确定了UpToDate页面视图序列中的模式和启动它们的搜索词。我们还展示了使用UpToDate日志来监测食品和药物管理局(FDA)警报摄取的结果。

在下面的小节中,我们将描述分析来自UpToDate搜索日志的自由文本搜索和页面视图序列的方法。然后,我们展示了最新免费文本搜索的季节性分布,以及按身体系统、健康状况和症状、药物、医疗设备和程序进行搜索的分布。我们还通过UpToDate搜索和页面浏览量的频率和持续时间的变化来描述FDA药物警报的接收情况。最后,我们讨论了我们的研究结果,描述了我们方法的局限性,并提出了未来的工作。

方法 概述

为了分析医疗保健专业人员的在线搜索行为,我们使用了UpToDate的2年使用日志,从2011年1月到2012年12月。我们使用文本挖掘和统计方法相结合的方法来分析这些日志,以确定搜索的总体趋势,发现搜索词与后续访问UpToDate主题页面(“主题视图”)的时长之间的关联,以及主题视图序列中的模式,并监测卫生保健专业人员对FDA警报的吸收情况。在接下来的小节中,我们将描述搜索日志的结构、文本挖掘方法和分析UpToDate用户行为的方法,以及识别搜索和主题视图中的模式的方法。

UpToDate搜索日志的结构

单个UpToDate用户事件的日志由以下部分组成:(1)查询字符串,(2)惟一会话ID,(3)搜索位置,(4)搜索的时间戳,以及(5)操作类型(例如,当用户单击UpToDate页面中的链接时,在网站搜索栏中进行的字符串搜索,主题视图或子主题视图记录)。

我们限制了这个数据集,只考虑在美国购买了UpToDate许可证的网站上执行的搜索或页面浏览量(即,我们排除了UpToDate的试用版或营销版用户,以及在美国以外的计算机上执行的搜索)。使用的数据集包含2.12亿个搜索查询及其对应的主题视图。

搜索日志的文本处理

我们使用之前描述的文本处理工作流的变体处理所有自由文本搜索[ 27 28].我们使用Unitex语料库处理器,使用从生物医学本体和术语编译的包含300多万个术语的词汇库对搜索字符串进行注释,其中术语和概念通过同义词和父子关系进行映射。这个注释过程的输出是每个查询字符串的术语列表,每个查询字符串都映射到一个或多个生物医学概念。词典中的概念依次映射到四种语义类型中的一种——疾病和症状、药物、医疗设备和程序。

分析自由文本搜索

使用文本处理管道的输出,我们计算了所有使用日志中每个术语出现的频率,并使用这些频率来分析医疗保健专业人员搜索UpToDate的方式。我们首先使用以下特征分析了搜索行为:季节性、搜索时间长度、身体系统、医疗概念类别,以及2011年和2012年关于医疗条件的费用和出院率的全国统计数据。我们使用与每个搜索相关联的时间戳来按月和年聚合搜索。我们使用术语中的概念映射来标识10个主要身体系统的术语集:心血管、呼吸、消化、内分泌、血液和免疫、皮肤、肌肉骨骼、口腔和下颌、神经和泌尿生殖系统。使用这些术语集,我们统计了包含与给定身体系统相关的任何术语的搜索次数。使用术语中的概念映射,我们确定了最常搜索的疾病/症状、药物、设备和程序术语,并对每个身体系统的这些类别的分布进行量化,以评估作为数据源的搜索日志的全面性。

为了探索搜索行为和美国医疗状况的全国趋势之间的关系,我们从对应于医疗成本和利用项目(HCUP)临床分类系统(CCS)代码的词典中创建了自定义术语集。我们从构成每个CCS代码的国际疾病分类第9版(ICD-9)代码开始,收集了每个ICD-9代码的统一医学语言系统(UMLS)元词概念。然后,我们在更大的词汇库中利用术语-概念映射来扩展与这些概念相关的术语集(参见 图1),并手动检查术语集,以删除过于宽泛或不正确的术语。我们使用这些策划的术语集来识别UpToDate中与医疗条件或程序相关的搜索,这些医疗条件或程序的全国数据可从HCUP全国住院患者样本中获得。

HCUP CCS代码术语展开示例每个代码都表示为其ICD-9代码集。使用UMLS mettathesaurus扩展了原发性高血压的ICD-9代码,以识别映射到该概念的n个术语。这n个术语中的每一个(例如,“essential hypertension nos,”red)都用作对我们的自定义词典的种子查询,以识别其他概念及其术语。这里,“原发性高血压编号”映射到高血压疾病的概念,其附加的m-1术语(绿色)与n个种子术语结合使用,以识别对应于高血压的HCUP CCS代码的搜索。

分析信息寻求行为

我们使用所有搜索和主题视图的时间戳来确定在给定搜索之后的主题视图持续时间。主题视图持续时间是通过计算一个主题视图事件的时间戳与下一个事件的时间戳之间的差值来计算的——要么是搜索,要么是查看完全不同的主题。如果会话中的最后一个事件是一个主题视图,那么该主题视图事件将被排除在我们的分析的这一部分之外,因为如果没有后续用户操作的日志时间戳,就无法计算该主题视图的持续时间。根据在搜索后花费在所有主题页面上的时间的日志归一化分布,我们使用日志归一化持续时间值的平均值(转换回秒)作为决策边界,对花费在给定主题页面上的时间量进行分类。小于此边界的持续时间被分类为 短的点击,超过这一界限的持续时间被分类为 长点击

我们将发起一个给定主题视图的所有搜索分组,以计算每个主题的长点击和短点击的比例,并确定导致一个主题视图的唯一搜索词的数量。我们还将来自一个独特搜索词的所有主题进行分组,以计算源自该搜索词的长点击和短点击的比例,以及每个搜索词引发的主题数量。

主题视图序列的模式挖掘

UpToDate内容结构为主题,每个主题都有一个专门的页面,其子部分包含更具体的信息。除了分析搜索文本之外,我们还使用日志来研究UpToDate用户在会话中如何从一个主题进展到另一个主题,并分析启动主题视图序列的搜索词。 图2总结我们的方法。我们首先根据它们唯一的会话标识符对搜索进行分组,并根据时间戳对条目进行排序。对于每个包含两个或多个主题视图的序列,我们计算该序列出现的次数,以及在该序列之前出现的搜索词及其出现频率。

UpToDate中用于分析查询序列和主题视图的方法概述。使用唯一的会话标识符,我们对查询和主题视图进行分组,并按出现时间(绿色表)对它们进行排序。识别频繁出现的主题视图序列(橙色框),以及启动它们的搜索词(蓝色框)。括号中的数字表示特定术语出现的频率。

挖掘最新的日志,以衡量食品和药物管理局的警觉摄取

2011年8月24日,FDA发布了一份警告,描述了与高剂量西酞普兰(商品名Celexa)相关的不良心血管事件的风险。我们检查了UpToDate日志中与同一时间段的消费者在线媒体活动相关的此警报的接收情况。我们使用大量的在线媒体收集来比较在UpToDate搜索日志和在线新闻媒体中与Celexa相关的词汇的相对频率。网络媒体集合包括2009年至2014年间发布在网络上的超过60亿篇在线新闻文章、新闻连线和博客文章[ 29 30.].单个条目包括文章的标题、时间戳、URL以及文章内容。为了获取文档,我们使用了Spinn3r Web服务[ 31],该系统每天监测2000多万个互联网来源,检索约320万份新文件。这本书几乎代表了美国在线媒体空间的全貌。

我们从UpToDate日志中获得了新闻媒体集合中celxa相关搜索词的每日提及计数,以及特定一天中所有celxa相关搜索查询的每日累计计数。利用这些数据,我们计算出与Celexa相关的每日搜索查询总数的7天移动平均值。同样,我们计算了包含celex相关术语的在线媒体文章的日计数和7天移动平均值。为了支持UpToDate和在线新闻计数的覆盖,我们将UpToDate计数扩大了107.我们认为偏离2年时间内的平均发生次数是一个信号。

结果 概述

UpToDate的使用主要是对疾病状况和症状的搜索,并且显示出显著的季节性变化。查询量高的疾病和症状并不是对美国医疗保健系统负担最大的。例如,在研究期间,头痛和病毒感染是搜索最多的20种医疗状况之一,但它们的相对总成本和出院率较低。我们还发现,一些总费用较高的医疗条件和程序查询量较低,如心脏病发作和情绪障碍。按查询量排名前1%的机构负责美国约21%的查询,每家机构平均发出170万次查询。其余的问题在全国范围内广泛分布,其中一些问题来自50个州的每个州。

我们以三种方式总结了搜索和随后的主题视图。对于主题,我们发现停留时间比平均时间长(也称为 长点击)的初始搜索词明显少于停留时间低于平均水平的人( 短的点击).对于搜索词,我们发现由给定的搜索词发起的主题视图,平均来说,要么比平均主题视图持续时间长(即,搜索词总是导致长时间的点击),要么平均比平均主题视图持续时间短(即,搜索词总是导致短时间的点击)。最后,我们阐明了经常出现的搜索和主题视图序列的模式,它们通常从搜索一个疾病术语开始,以与该疾病的治疗方法相关的主题结束。

然后,我们描述了卫生专业人员对2011年FDA药品警报的“反应”——服用大剂量西酞普兰(Celexa)时心脏节律异常的风险——在寻求信息行为方面的变化。我们将UpToDate网站上关于西酞普兰(Celexa)的搜索量与2011年FDA警告后新闻网站上这些术语的提及量进行了比较,发现医疗保健专业人员在日常工作中对警告的理解与普通公众明显不同。在FDA发出警告、新闻网站首次出现提及西酞普兰的次数激增10多天后,UpToDate上有关西酞普兰的搜索量达到了峰值,但持续的时间要长得多。

最新用户搜索行为的季节性和主题趋势 最新搜索的季节性分布

我们测量了2011年和2012年任何一个月搜索次数最多的10种疾病和药物的月频率 图3).2011年初冬和2012年初春,流感和达菲(流感药物奥司他韦的商标名)的搜索量也出现了类似的激增。对肺炎的搜索也在这两年的冬季达到高峰。2012年11月,尿崩症的搜索量急剧增加,这是单月搜索量最高的疾病。搜索次数最多的药物是万古霉素和Bactrim(甲氧苄啶/磺胺甲恶唑的商标名),这两种抗生素用于治疗各种细菌感染。

2011-2012年最常搜索疾病(上)和药物(下)。

跨器官系统的搜索分布

图4显示了10个主要器官系统的查询类型的分布。消化系统的搜索率最高,其次是心血管系统,而口腔和下颌系统的搜索率最低。对所有身体系统的查询主要是对疾病和症状的搜索。关于内分泌系统的搜索包含了更大比例的药物。总体而言,与医疗程序相关的查询所占比例要低得多,而关于血液和免疫系统、消化系统和泌尿生殖系统的查询最多。 图4还列出了与每个器官系统相关的10个最频繁和最不频繁出现的术语(注意,这些类别并不是排他的,因为同一个术语可能与多个系统相关)。描述与主要器官系统相关的相对搜索量对于评估使用UpToDate搜索日志进行大规模监测的可行性很重要。

器官系统的搜索分布。每个器官系统名称后面跟着与该系统相关的查询的百分比。每个饼图显示了对该器官系统的搜索分布,按词汇类别分组,然后是与该系统相关的10个最频繁和10个最不频繁的搜索词。对疾病和症状(深蓝色)的搜索占据了大多数系统。关于内分泌系统的搜索包括大量的药物搜索,其次是心血管系统。

不同医疗条件的搜索分布

对美国医疗保健系统负担最大的医疗条件的查询量(以2011-2012年排名前10的平均总成本和/或出院量进行量化)在各种条件之间有显著差异(见 图5).其中一些医疗条件在uptodate中查询量非常低——例如,活产、心脏病发作和情绪障碍——而另一些,如败血症和肺炎,则经常被搜索。像活产或心脏病发作这样的情况查询量低并不奇怪——这些都是有很好理解的管理协议的医疗事件,因此预计与它们相关的信息需求相对较少。

搜索次数最多的医疗状况(图中的三角形) 图5)由总成本低及排放量低至总成本高不等。炎症性皮肤疾病和感染的查询量较高,但总费用和出院次数较低。败血症和肺炎在费用、出院和查询量的三个轴上均较高。这些查询量和负担都很高的情况为公共卫生和药品安全提供了监测机会。

2011年和2012年平均总费用、出院量和/或最新查询量最高的医疗条件。每个点都是一个单一的医疗状况,点的大小表示查询量。点的形状表明它是否按总成本、流量和/或查询量排在前10位。费用和出院数据取自HCUP国家住院患者样本。

最新用户行为

为了描述用户搜索和消费UpToDate内容的方式,我们分析了用户执行的搜索与查看作为这些搜索结果返回的UpToDate主题所花费的时间之间的关系。正如方法部分所描述的,我们使用主题视图持续时间的分布来决定截止持续时间(143.79秒)来将每个主题视图分类为 短点或者一个 长按.然后我们确定每个主题的长时间点击比例。左面板 图6显示跨主题的长点击比例分布。我们使用异常值的Hampel标识符来确定长点击的高(0.70)和低(0.19)比例的阈值(如左面板中的虚线所示) 图6).

长时间点击比例高的主题来自于明显少于短时间点击的主题的独特搜索。长时间点击比例高的主题平均有10.37个唯一初始搜索词(SD 22.13),中位数为4个(四分位范围[IQR] 2)。这明显低于平均29.29 (SD 50.22)和中位数12 (IQR 8)个具有高比例短点击的主题的初始搜索词( P<措施;曼-惠特尼U检验)。

相比之下,搜索的长时间点击比例(由给定搜索词发起的长时间点击的主题视图的比例)的分布明显是双峰的(右图) 图6).搜索结果要么没有长时间的点击,要么大多是长时间的点击。这表明,虽然主题通常有许多搜索词,让用户在该主题上停留很长一段时间,但给定的搜索词要么总是导致长时间的点击,要么总是导致短时间的点击。 表1列出总是导致短点击的前10个搜索词(按日志中的频率排列)。搜索结果总是很短的点击可能是过于具体的术语,无法返回有用的内容或包含排版错误(例如,“嗜铬细胞瘤”和“probencid”分别是疾病嗜铬细胞瘤和药物probenecid的拼写错误),但有些可能被添加到UpToDate内容中。 表2列出总是导致长时间点击的前10个搜索词(按日志中的频率排列)。

长时间点击在UpToDate主题(左)和搜索词(右)中的分布。左边面板中的虚线表示使用异常值的Hampel标识符确定的低和高长点击比例的阈值。

前10个搜索词(按数量计算)没有引发后续主题视图的长时间点击。

术语 频率
gad7 187
阿霉素患者信息 144
阿霉素患者信息 109
phenochromocytoma 106
孕期实验室值 105
增加 86
probencid 79
怀孕时服用地洛吗啡 71
parovirus 66
肾脏上海四通 60

前10个搜索词(按量计算)只会引发长时间点击以获得后续主题视图。

术语 频率
abreva 3411
大疱的鼓膜炎 3392
subchorionic出血 1904
脉络膜丛囊肿 1270
cerefolin 1258
estropipate 1207
moexipril 1181
产后高血压 1153
tinactin 1152
flucon 1114
搜索序列和主题视图

表3列出长度为3和4的最常观察的主题序列,以及发起它们的搜索。我们发现,长于4的主题序列有很高的主题“切换”比例(在两个主题之间反复交替),因此没有显示。这些主题序列有一个共同的模式:疾病或病情概念的主题视图之后是该疾病的药物或治疗的主题视图。

最常观察到的10个大小为3或4的主题视图序列,以及启动它们的搜索词。

主题视图顺序(频率) 启动搜索词(频率)
蜂窝织炎、丹毒→克林霉素:药物信息→克林霉素(全身):药物信息(14,463) 蜂窝织炎(10434),蜂窝织炎治疗(2055),丹毒(260),皮肤感染(219),面部蜂窝织炎(171)
甲真菌病→特比萘芬:药物信息→特比萘芬(全身):药物信息(8234) 甲菌病(3421),甲菌病治疗(1433),癣病(531),脚趾甲菌病(524),甲菌病(476)
结膜炎→红霉素:药物信息→红霉素(眼):药物信息(5938) 结膜炎(2738)、结膜炎治疗(801)、红眼病(603)、细菌性结膜炎(422)、结膜炎(292)
成人难辨梭菌感染治疗→甲硝唑:药物信息→甲硝唑(全身):药物信息(5923) C diff (1947), C diff治疗(454),艰难梭菌治疗(439),艰难梭菌治疗(416),C . diff治疗(357)
急性胰腺炎的治疗→急性胰腺炎严重程度的预测→计算器:胰腺炎预后Ranson标准→计算器:Apache II评分系统(1219) 胰腺炎(731例),急性胰腺炎(303例),胰腺炎治疗(73例),急性胰腺炎治疗(52例),胆石性胰腺炎(23例)
慢性阻塞性肺疾病急性加重期的处理→慢性阻塞性肺疾病急性加重期感染的处理→阿奇霉素:药物信息→阿奇霉素(全身):药物信息(565) Copd加重(350例),Copd(98例),Copd加重治疗(80),慢性阻塞性肺病加重抗生素(24),慢性阻塞性肺病exac (8)
婴幼儿尿布皮炎概况→制霉菌素:药物信息→制霉菌素(外用):药物信息→制霉菌素(外用):儿童药物信息(522) 尿布疹(350例),尿布皮炎(71例),尿布疹治疗(36例),尿布念珠菌病(19例),念珠菌性尿布疹(18例)
女性急性非复杂性膀胱炎、肾盂肾炎→环丙沙星:药物信息→环丙沙星(眼科):药物信息→环丙沙星(全身):药物信息(416) 尿路感染276例,尿路感染52例,膀胱炎31例,尿路感染治疗26例,肾盂肾炎16例
急性肺栓塞概述→急性肺栓塞的诊断→急性肺栓塞的治疗→急性肺栓塞的抗凝治疗(392) 肺栓塞(311),PE(50),肺栓塞(31)
利用最新动态和在线媒体活动监测对食品和药物管理局警报的响应

最后,我们使用UpToDate日志中的用户搜索活动来监测医疗保健专业人员对FDA警报的响应。具体来说,我们测量了抗抑郁药物西酞普兰(商品名Celexa)在2011年8月24日FDA警告使用西酞普兰时心脏节律异常风险之前和之后的相对搜索量。如方法中所述,我们将UpToDate中的相对查询量与在线媒体中药物提及的相对量进行了比较 图7而且 多媒体附件1).

在线媒体显示,在警报发布的同一天,与celex相关的词汇出现了小幅飙升,在随后的几天里急剧上升,大约在10天左右达到峰值。相比之下,Celexa的UpToDate查询量直到10天才增加但在接下来的大约60天里,在一般在线媒体上与celex相关的活动恢复到基线水平很久之后,查询量一直很高。

在发出警告后,发起celexa相关主题视图的唯一搜索词的数量要高得多 表4),但这些主题的长时间点击比例在警报后有所下降。如果只考虑预警前后2个月(数据未显示),这种差异甚至更明显。Celexa页面的平均主题浏览时长在FDA警报后也显著降低(警报前约9个月为842.31秒,警报后约9个月为744.36秒)。

在FDA发出警告后,搜索特异性也有所增加。“西酞普兰”或“Celexa”与“长qt期”、“心脏”或“节律”的搜索数在警报前只有2次,在警报后只有34次,证明了FDA警报的效果。

2011年8月24日FDA警告(绿色虚线表示的日期)前后与Celexa相关的UpToDate查询量的7天移动平均值(红色)、媒体活动的7天移动平均值(蓝色)和原始媒体活动的7天移动平均值(灰色)。

引发Celexa(西酞普兰)话题浏览量的唯一搜索词的数量,以及这些话题在2011年8月24日FDA警告前后的长时间点击比例。

主题 唯一搜索词的数量 长点击比例
前提醒 后提醒 前提醒 后提醒
西酞普兰:药物信息 489 683 0.376 0.354
西酞普兰:患者药物信息 183 303 0.262 0.247
西酞普兰:儿童药物信息 43 63 0.395 0.301
讨论 主要研究结果

这是第一个利用专门的循证医学信息资源分析医疗专业人员在线搜索行为的研究。我们的发现可以为UpToDate等资源的设计更改提供信息。例如,只导致短点击的搜索词(表明搜索结果对搜索者没有用处)潜在地确定了对新内容或新搜索词的需求,而只有高比例长点击的搜索词和主题表示覆盖广泛的主题。在搜索量上有季节性变化的搜索,例如流感和相关药物的搜索,可以在适当的季节突出显示,以使内容更容易获得。这样的分析可以通过考虑用户行为(消费者网络公司经常进行的一项活动)来提高内容的利用率。

最近在挖掘医疗领域Web日志方面的工作涉及使用消费者日志进行药物警戒[ 13 16 32].这些研究使用统计方法从消费者搜索日志中检测出显著的单药和多药不良事件关联信号,考虑到药物搜索与不良事件之间的时间长度,并使用已知的药物诱发不良事件作为金标准来评估其方法的性能。例如,对消费者搜索日志的分析显示,通过量化同时搜索普伐他汀和帕罗西汀时出现高血糖的搜索的歧化程度,与只搜索其中一种药物时同时出现高血糖的搜索相比,可以发现高血糖、普伐他汀和帕罗西汀之间存在多种药物不良事件关联的证据[ 32].第二项研究表明,与单独使用任何一种来源相比,将FDA不良事件报告系统(FAERS)的数据与消费者搜索日志相结合,将药物不良事件检测的准确性提高了19% [ 16].我们在这项工作和最近一项初步研究中的发现[ 33]表明,将医疗保健专业人员的搜索日志纳入药物警戒是一种有前途的方法。

2011年FDA对西酞普兰的警报被清晰地反映在UpToDate日志中,显示了该数据源作为评估疗效和衡量卫生保健专业人员对FDA警报的吸收的一种手段的潜力。这一发现也得到先前工作的支持,该工作演示了对监测流感流行的UpToDate使用日志的分析[ 24].结合最近发表的从最近FDA标签更改和警告中提取的药物不良反应时间索引参考集[ 34, UpToDate日志可以大规模分析医生对FDA标签更改和警告的反应。我们的数据提取(2011-2012年)与时间索引的标签变化不重叠。然而,通过获取最近的数据,这样的分析有可能让FDA更广泛地了解他们的警报的有效性。

通过测量关于器官系统、疾病和药物的搜索量随时间的变化,以及通过量化搜索量变化和相关事件之间的关系,搜索日志分析可能为监视提供额外的机会。这种监测可以监测传染病暴发,或观察对卫生保健系统构成重大负担的健康状况的流行变化。开发监测这些变化的方法是可能的,并且先前已经通过使用消费者互联网搜索日志来预测医疗保健利用、检测流感爆发和跟踪处方药使用证明了这一点。使用卫生专业人员搜索日志来改进此类使用案例是一个研究领域,它有可能通过疾病爆发的早期预警来改善公共健康,并通过监测医生对FDA通信的响应来评估其疗效,从而改善药物安全监测。

限制

我们的方法有几个限制。虽然UpToDate搜索和主题视图的位置、时间和相关用户许可是已知的,但我们没有UpToDate用户身份的信息。我们预计绝大多数获得UpToDate许可的用户是医疗保健专业人员(即,医生、护士从业人员和/或研究人员),但也有可能有些日志捕获了患者或其他类型的消费者使用UpToDate的情况。类似地,一个唯一的会话标识符将搜索和主题页面视图联系起来,但是在一个会话中有可能存在多个具有不同信息需求和行为的用户。依靠原始日志,我们无法识别会话内的用户切换,结果可能是由不同用户实际执行的关联搜索和主题视图,因此它们是不相关的。然而,已经有研究致力于开发自动确定Web日志数据会话边界的方法(包括用户切换)。 - - - - - -例如,在Göker和He [ 35和默里等人[ 36——这可以用来解决这个潜在的缺点。此外,正如方法中提到的,我们忽略了作为会话中最后事件的主题视图事件,因为不可能计算这些主题视图的页面查看持续时间。这使得可供分析的主题视图事件数量减少了22%;剩下的78%的主题浏览量跨越了所有会话的63%。最后,我们的发现是基于2年的相对较短的监测周期——对较长时间的日志进行分析可以揭示新的关联或不同强度的关联。

更普遍地说,应用于web规模搜索数据的数据挖掘方法可能存在方法论上的缺陷。2013年初,人们发现谷歌流感趋势系统高估了流感流行率,预测的值远远高于美国疾病控制中心的估计。如果没有重新校准方法以调整有外部原因的时间波动,例如媒体对不寻常的2012-2013流感季节的报道导致更多与流感相关的搜索,就可能出现此类不准确性[ 37].对谷歌流感趋势数据的分析发现,其每周的预测误差彼此相关,并表现出季节性[ 38],表明额外的混杂变量(包括谷歌搜索算法本身的变化)可能是观察到的搜索词流行率变化的部分原因。在解释我们的FDA警告发现时,应该考虑这些潜在的混杂因素,但由于我们无法访问UpToDate搜索引擎功能或排名算法,所以不能将这些混杂因素包括在我们的分析中。

结论

我们的结果表明,挖掘UpToDate搜索日志为医疗保健专业人员的信息寻求行为提供了独特的见解,以及这种行为与与疾病状态相关的医疗保健利用之间的关系。我们的结果使我们能够了解卫生专业人员在日常工作中的信息需求,以及搜索词和主题视图之间的关系——其中很大一部分包括一个疾病或病情概念,然后是该疾病的药物或治疗方法。最后,我们能够使用UpToDate来量化FDA对严重药物不良事件警报的吸收,说明了分析搜索行为在国家层面上监测FDA警报响应的新用法。

多媒体附件1

2011年8月24日FDA警告(绿色虚线表示的日期)之前和之后,2011-2012年所有与Celexa相关的UpToDate查询量的7天移动平均值(红色),媒体活动的7天移动平均值(蓝色)和原始媒体活动量(灰色)。

缩写 CCS

临床分类体系

FAERS

食品和药物管理局不良事件报告系统

食品及药物管理局

食品和药物管理局

HCUP

医疗保健成本和利用项目

ICD-9

《国际疾病分类》第九版

位差

四分位范围

美国国家

国家普通医学科学研究所

国家卫生研究院

国立卫生研究院

NLM

国家医学图书馆

uml

统一医学语言系统

这项工作得到了美国国立卫生研究院(NIH)为国家生物医学本体中心(授权号U54 HG004028)、美国国家医学图书馆(授权号R01 LM011369)和美国国家普通医学科学研究所(授权号R01 GM101430)的部分支持。我们感谢Wolters Kluwer的Amy Warner和Peter Bonis在数据提取和支持项目方面的帮助。

霍华德·斯特拉斯伯格是威科集团的员工。

狐狸 年代 皮尤研究中心 2011 05 12 2015-03-11 华盛顿特区 皮尤互联网和美国生活项目 社会生活的健康信息 http://www.pewinternet.org/2011/05/12/the-social-life-of-health-information-2011/ 6 wxpuyovr 狐狸 年代 达根 皮尤研究中心 2013 01 15 2015-03-10 华盛顿特区 皮尤互联网和美国生活项目 2013年健康在线 http://www.pewinternet.org/2013/01/15/health-online-2013/ 6 wxpbihqx 大师 K 医生使用互联网的目的和原因是什么 国际医学资讯 2008 01 77 1 4 16 10.1016 / j.ijmedinf.2006.10.002 17137833 s1386 - 5056 (06) 00256 - 5 克拉克 百通 莱托 •库普曼 RJ Steege LM 摩尔 莱托 坎菲尔德 SM 女士 初级保健医师和护士信息需求和信息寻求行为分析:文献综述 健康信息图书馆 2013 09 30. 3. 178 190 10.1111 / hir.12036 23981019 谷歌/曼哈顿研究 2012 06 2015-03-11 从屏幕到脚本:医生的数字治疗路径 https://www.thinkwithgoogle.com/research-studies/the-doctors-digital-path-to-treatment.html 6 wxwkryxp Kourouthanassis 体育 Mikalef P Ioannidou Pateli 一个 医生在线满意度差距探讨:信息需求的期望-确认调查 Adv Exp Med Biol 2015 820 217 228 10.1007 / 978 - 3 - 319 - 09012 - 2 _15 25417027 金斯堡 J Mohebbi MH 帕特尔 RS 布拉姆 l Smolinski 女士 才华横溢的 l 使用搜索引擎查询数据检测流感流行 自然 2009 02 19 457 7232 1012 1014 10.1038 / nature07634 19020500 nature07634 McIver DJ 布朗斯坦 JS 维基百科的使用几乎实时地估计了美国流感样疾病的流行率 公共科学图书馆编译生物学 2014 04 10 4 e1003581 10.1371 / journal.pcbi.1003581 24743682 pcompbiol - d - 13 - 02242 PMC3990502 的领导人 Y O Pelleg D JM Yom-Tov E 在互联网上寻找癌症信息的模式:对现实世界数据的分析 《公共科学图书馆•综合》 2012 7 9 e45921 10.1371 / journal.pone.0045921 23029317 玉米饼- d - 12 - 13355 PMC3448679 Harsha 正义与发展党 施密特 Stavropoulos 西南 了解你的市场:使用在线查询工具来量化静脉曲张治疗患者信息寻求行为的趋势 血管介入性放射性药物 2014 01 25 1 53 57 10.1016 / j.jvir.2013.09.015 24286941 s1051 - 0443 (13) 01447 - 4 Althouse BM Allem J 所在 Dredze 艾尔斯 JW 美国大衰退期间的人口健康问题 我是医学预科 2014 02 46 2 166 170 10.1016 / j.amepre.2013.10.008 24439350 s0749 - 3797 (13) 00581 - 3 艾尔斯 JW Althouse BM Allem J Rosenquist 福特 寻求谷歌心理健康信息的季节性 我是医学预科 2013 05 44 5 520 525 10.1016 / j.amepre.2013.01.012 23597817 s0749 - 3797 (13) 00080 - 9 白色 RW 霍维茨 E 从健康搜索到医疗保健:通过查询日志和用户调查探索意图和使用情况 美国医学信息协会 2014 21 1 49 55 10.1136 / amiajnl - 2012 - 001473 23666794 amiajnl - 2012 - 001473 PMC3912725 Yom-Tov E 白色 RW 霍维茨 E 通过匿名搜索日志寻找关于骑行情绪障碍的见解 J医学网络杂志 2014 16 2 e65 10.2196 / jmir.2664 24568936 v16i2e65 PMC3961703 舒斯特尔 纳米 罗杰斯 麦克马洪 低频 使用搜索引擎查询数据跟踪药物使用:他汀类药物的研究 J Manag关心吗 2010 08 16 8 e215 e219 20690788 12685 白色 RW Harpaz R 沙阿 NH DuMouchel W 霍维茨 E 利用互联网上患者生成的数据增强药物警戒 临床药理学 2014 08 96 2 239 246 10.1038 / clpt.2014.77 24713590 clpt201477 PMC4111778 奇泽姆 R Finnell JT 急诊科医生在临床接触时使用互联网 AMIA Annu Symp Proc 2012 2012 1176 1183 23304394 PMC3540428 Kritz Gschwandtner 诺夫 V Hanbury 一个 Samwald 欧洲不同群体的医生对在线医疗资源和搜索工具的使用和感知问题 J医学网络杂志 2013 15 6 e122 10.2196 / jmir.2436 23803299 v15i6e122 PMC3713956 Mickan 年代 Tilson JK 阿瑟顿 H 罗伯茨 西北 Heneghan C 卫生保健专业人员使用手持电脑的有效性证据:系统审查的范围审查 J医学网络杂志 2013 15 10 e212 10.2196 / jmir.2530 24165786 v15i10e212 PMC3841346 Samwald Kritz Gschwandtner 诺夫 V Hanbury 一个 医生在网上搜索医疗问题回答:欧洲调查和本地用户研究 种马健康技术通知 2013 192 1103 23920877 最新式的 2015-08-05 http://www.uptodate.com/home 6 aaptw2ah 博尼斯 巴勒斯坦权力机构 皮肯斯 GT DM 福斯特 在美国急症护理医院的医疗保险受益人中,临床知识支持系统与改善患者安全、减少并发症和缩短住院时间的关联 国际医学资讯 2008 11 77 11 745 753 10.1016 / j.ijmedinf.2008.04.002 18565788 s1386 - 5056 (08) 00066 - x 以撒 T J 杰哈 一个 在美国医院使用最新数据和结果 J hopp医疗 2012 02 7 2 85 90 10.1002 / jhm.944 22095750 Santillana Nsoesie EO Mekaru 尺度 D 布朗斯坦 JS 利用临床医生的搜索查询数据监测流感流行 临床感染病 2014 11 15 59 10 1446 1450 10.1093 / cid / ciu647 25115873 ciu647 PMC4296132 Bhat 年代 森古普塔 年代 测量用户的网络活动,以评估和提高广告效果 J广告 2013 05 31 31 3. 97 106 10.1080 / 00913367.2002.10673679 Danaher PJ Mullarkey 吉瓦 Essegaier 年代 影响网站访问时长的因素:跨域分析 J Mark Res 2006 05 43 2 182 194 10.1509 / jmkr.43.2.182 Lependu P 艾耶 SV Fairon C 沙阿 NH 使用非结构化临床记录检测药物安全信号的注释分析 J生物医学语义学 2012 3补充1 S5 10.1186 / 2041 - 1480 - 3 - s1 s5 22541596 2041 - 1480 - 3 - s1 s5 PMC3337270 Lependu P Y 艾耶 年代 尤戴尔 先生 沙阿 NH 为患者安全分析临床记录中的药物使用模式 美国国际传播科学峰会 2012 2012 63 70 22779054 PMC3392046 Leskovec J Backstrom l jonkleinberg J 模因追踪和新闻周期的动态 第十五届ACM知识发现与数据挖掘国际会议论文集(KDD’09) 2009 第十五届ACM SIGKDD知识发现与数据挖掘国际会议(KDD’09) 2009 法国巴黎 纽约,纽约 ACM 497 506 C 年代 Eksombatchai C Sosic R Leskovec J NIFTY:用于大规模信息流跟踪和聚类的系统 第22届国际万维网会议论文集(WWW '13) 2013 第22届国际万维网会议(WWW '13) 2013年5月13-17日 巴西,里约热内卢 瑞士日内瓦 国际万维网会议指导委员会 1237 1248 Spinn3r 2015-03-11 http://spinn3r.com/ 6 wxpih8nx 白色 RW Tatonetti NP 沙阿 NH 奥特曼 RB 霍维茨 E 网络规模的药物警戒:倾听来自人群的信号 美国医学信息协会 2013 05 1 20. 3. 404 408 10.1136 / amiajnl - 2012 - 001482 23467469 amiajnl - 2012 - 001482 PMC3628066 DJ Harpaz R 卡拉汉 一个 Stiglic G 沙阿 NH 医疗卫生专业人员对药品安全监测的搜索行为分析 Pac Symp生物计算公司 2015 20. 306 317 25592591 9789814644730 _0030 PMC4299876 Harpaz R D 束帆索 G DuMouchel W Winnenburg R Bodenreider O 涟漪 一个 Szarfman 一个 Sorbello 一个 霍维茨 E 白色 RW 沙阿 NH 药物不良反应的时间指标参考标准 科学数据 2014 11 11 1 140043 10.1038 / sdata.2014.43 25632348 PMC4306188 完全懂得 一个 D Brusilovsky P 股票 O Strapparava C 分析Web搜索日志以确定面向用户学习的会话边界 自适应超媒体和自适应基于web的系统 2000 柏林,德国 施普林格柏林海德堡 319 322 穆雷 GC J Chowdhury 一个 基于层次聚类的用户会话识别 美国信息科学与技术学会年会论文集 2007 10 美国信息科学与技术学会年会 2007年10月19日至24日 密尔沃基WI 1 9 10.1002 / meet.14504301312 麸皮面包 D 自然 2013 02 13 2015-03-11 自然出版集团 当谷歌弄错流感的时候 http://www.nature.com/news/when-google-got-flu-wrong-1.12413 6 wxpnz7ph 激光冲 D 肯尼迪 R G Vespignani 一个 大数据。谷歌流感的寓言:大数据分析中的陷阱 科学 2014 03 14 343 6176 1203 1205 10.1126 / science.1248506 24626916 343/6176/1203
Baidu
map