卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J Med Internet Res

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析

加拿大多伦多

v18i9e251

27655225

10.2196 / jmir.6240

原始论文

通过网络搜索行为预测医疗保健利用的影响:一个数据驱动的分析

Eysenbach

冈瑟

Jadhav

Ashutosh

阿加瓦尔

Vibhu

女士 1

生物医学信息学培训计划斯坦福大学

韦尔奇道1265号

医学院办公楼

斯坦福，加州，94305

美国 1650 723 1398 1 650 725 7944 vibhua@stanford.edu

http://orcid.org/0000-0002-6392-3924

张

Liangliang

博士学位 2 3.

http://orcid.org/0000-0001-7862-2414

朱

杰克

女士 2

http://orcid.org/0000-0003-2156-8271

方

Shiyuan

女士 2

http://orcid.org/0000-0001-7000-7599

程

蒂姆

博士学位 2

http://orcid.org/0000-0002-3165-2963

在香港

克洛伊

我 2

http://orcid.org/0000-0002-9897-7746

沙阿

尼噶H

黑带大师博士 4

http://orcid.org/0000-0001-9385-7158

¹ 生物医学信息学培训计划斯坦福大学

加利福尼亚州斯坦福大学

美国 ² 百度公司

加利福尼亚州森尼维耳市

美国 ^3. 斯坦福大学电气工程系斯坦福大学

加利福尼亚州斯坦福大学

美国 ⁴ 生物医学信息学研究中心斯坦福大学

加利福尼亚州斯坦福大学

美国

通讯作者:Vibhu Agarwal vibhua@stanford.edu

09 2016

21 09 2016

18 9

e251

20. 6 2016 11 7 2016 26 7 2016 27 7 2016

©Vibhu Agarwal，张亮亮，Josh Zhu，方世远，Tim Cheng, Chloe Hong, Nigam H Shah。原发表于医学互联网研究杂志(//www.mybigtv.com)， 2016年9月21日。

2016

这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

背景

根据最近的估计，卫生保健费用的稳步上升剥夺了超过4500万美国人的卫生保健服务，并鼓励卫生保健提供者从人口健康管理的角度更好地了解卫生保健利用的主要驱动因素。已有研究表明，从互联网搜索日志的观察分析中挖掘卫生保健资源利用的人口层面模式是可行的;然而，这项努力对健康生态系统中各个利益相关者的效用仍不清楚。

客观的

目的是利用向预测的未来使用者展示的广告的转化率作为替代，对医疗保健使用预测的效用进行闭环评估。预测用户未来访问医疗机构概率的统计模型使用医疗资源利用的有效预测因子，提取自一个去识别的数据集，该数据集包含地理标记的移动互联网搜索日志，代表了2015年3月至2015年5月期间百度搜索引擎用户的搜索。

方法

我们从用户搜索日志中的位置和持续时间信息推断出医疗设施在地理范围内的存在，并假定为符合条件的搜索日志分配医疗设施访问标签。我们从在医疗机构访问之前有42天或更多搜索天的用户的搜索日志以及没有医疗访问的用户的搜索日志中构建了一个通用的、语义的和基于位置的特征矩阵，并训练了统计学习者来预测未来的医疗访问。然后，我们使用向预测的未来使用者展示的广告转化率，对医疗保健使用预测的效用进行了闭环评估。在行为定向广告的背景下，医疗保健提供者对最小化其每次转换成本感兴趣，节目转化率与预测利用率之间的关联可作为模型效用的替代度量。

结果

我们利用随机森林模型和日向特征获得了最高的就诊预测曲线下面积(0.796)。每次删除一个特征类别表明，当位置特征被删除时，模型性能最差。在一项在线评价中，向预测未来就诊概率较高的用户提供广告，显示节目转化率提高了3.96%。

结论

我们在一个研究环境中进行的实验结果表明，可以从地理标记的移动搜索日志中准确预测未来的患者就诊情况。对健康利用预测效用的离线和在线实验结果表明，这种预测对卫生保健提供者具有效用。

搜索行为地理标记搜索日志医疗保健利用实用程序医疗费用互联网

介绍

在过去的几年里，互联网搜索引擎改变了人们报告健康结果和/或寻求有关症状、疾病和治疗的信息的方式，导致大量医疗信息的并行增长。人们认识到，通过分析这类信息库有可能应对公共卫生挑战和推进医学研究，同时也认识到利用这类信息库所固有的挑战[ 1- 4]。在一项新的研究中，利用商业网络广告服务产生的点击量统计数据被证明是监测流感的有效策略[ 5]。作为一种网络规模的患者生成信息的存储库，互联网搜索日志已被挖掘用于各种应用，例如筛选胰腺腺癌患者[ 6]和发现药物不良事件[ 7， 8]。为了了解健康焦虑与其对信息寻求行为的影响之间的关系，研究了使用互联网搜索作为个人对医疗保健的兴趣和关注的指标[ 9]。值得注意的是，通过分析通过浏览器工具栏和补充调查从同意的用户那里收集的搜索日志，已经表明，对长期搜索行为的分析揭示了可能作为向医疗保健利用过渡的标志的模式[ 3.]。

鉴于美国医疗保健领域最近发生的结构性变化，搜索日志存储库提供了一个了解医疗保健组织和用户之间交互本质的机会——特别是导致医疗保健资源利用的交互。获得这种理解对于提高效率并最终获得保健服务至关重要[ 10， 11]。由于搜索日志数据密切反映了用户的日常关注和活动，因此它们包含了关于即将出现的健康状况的嵌入式线索。因此，基于地理标记搜索历史的医疗保健利用预测提供了基于个性化健康轨迹聚合的未来医疗保健需求的快照。

从移动设备发起的Internet搜索日志包含搜索文本和时间戳信息，以及发起搜索的位置。搜索日志中的位置信息包含了搜索者与现实世界互动的线索。例如，从大致相同的地点连续搜索，间隔很长一段时间，可能表明在特定地点有交战。个人在虚拟地理边界(称为“地理围栏”)内的大致位置的信息效用已在泛在计算社区内进行了广泛研究，并构成了几种基于位置的服务的基础[ 7， 9， 12]。

根据从医疗设施进行的未识别搜查和搜查的距离，White和Horvitz [ 2认为医疗保健利用的证据与症状搜索的敏锐度有关。虽然这种对互联网搜索日志的观察分析表明，这种方法在发现人口水平模式方面是可行的，但这种努力对健康生态系统中各种利益相关者的效用仍不清楚。除其他外，对预测健康结果效用的评估取决于作出预测的成本，即预测的"可操作性" [ 13]，以及个人目标和价值观[ 14]。一般来说，预测效用的决定因素很难衡量，而且可能是主观的。在撰写本文时，我们还不知道有研究从实用程序的角度评估互联网搜索日志上的数据挖掘实验。

在本研究中，我们评估在行为定向广告的背景下，从医疗保健提供者的角度预测医疗保健利用的效用。最近关于互联网消费者行为的研究试图根据行为目标广告活动的绩效指标来模拟出版商和广告商的收益[ 15， 16]。使用这种框架的优点是，它允许对实验参数进行精细控制，并在特定环境中对医疗保健利用预测的影响进行具体测量。我们计算了代表搜索行为不同方面的特征，以及直接从用户搜索日志中获取的医疗保健资源使用的替代度量，并训练统计模型来预测搜索日志中未来的医疗保健利用情况。我们的模型结合了一些特征，这些特征总结了搜索的语义和位置模式的时间趋势，并允许我们研究各种类型的特征对利用率预测的不同影响。然后，我们评估对广告显示的搜索用户的广告显示转化率的影响，这些用户的利用率预测分数是根据历史搜索日志计算的。我们的总体研究设计见图1．

图1

总体研究设计:(A)基于地理范围内的搜索生成搜索日志，(B)识别医疗设施附近的搜索并根据过滤标准选择患者和对照组，(C)预测健康的学习统计模型，(D)评估对广告显示转化率的影响，在广告观看之前具有高利用率预测分数的搜索用户。

方法数据

我们的数据集由未识别的移动互联网搜索日志组成，这些日志代表了2015年3月至2015年5月期间，百度搜索引擎的950万搜索用户进行的超过10亿次搜索，这些数据在一个合作研究计划下可供作者访问。搜索日志包含搜索文本(中文)、时间戳和搜索位置(经纬度)，表示从中国境内的位置进行的搜索。根据在靠近医院的移动设备上搜索的证据来确定医疗保健利用情况，容易出现假阳性和假阴性。搜索用户可能在医院内部或附近工作，或者可能经过医院，并且在他们从医院附近的位置进行搜索时可能不是医疗保健资源的消费者。类似地，搜索用户可以作为患者访问医院，但在访问期间不进行搜索。我们承认，如果仅仅根据在医疗设施的地理范围内进行的搜索来分配标签，就不可能完全消除假阳性和假阴性。然而，通过显式过滤掉“弱”标签，我们成功地减少了数据中的误报数量。

纳入和排除标准

在上述日期之间发生的所有搜索中，我们排除了在医院200米范围内搜索的搜索用户，但他们在该地点出现的证据少于900秒。我们还排除了一个月内在医疗设施附近搜索超过15次的用户，因为这些用户可能是在附近居住或工作的人，或者他们可能是医疗保健专业人员。最后，我们排除了在不同医疗机构附近一个月内搜索超过五次的用户。其余400万搜索用户的搜索日志被视为访问医疗设施的证据，并从中随机抽取150万不同的搜索用户。我们从所有不在已知医疗设施地理范围内的搜索中抽取了一个按比例随机样本，以获得800万没有访问医疗设施证据的不同搜索用户，从而得出950万搜索用户的总数。在缺乏相关用户信息的情况下，我们对可用搜索日志的天数进行了匹配控制。

因为我们有兴趣研究搜索日志的时间特征，最终以访问医疗设施为终点，我们选择了那些在最后一次访问医疗设施之前的42天或更长时间内都有搜索日志的人(我们发现，更高的阈值将显著减少我们的队列规模，并对统计能力产生不利影响)。在本文的其余部分中，我们将这一群体称为“患者”。

纵向划分

我们将患者和对照组的搜索日志按搜索日进行分区，其中搜索日 n是 n在搜索用户可使用日志的天数序列中，位于端点之前的天数。对于患者，我们将终点定义为他们第一次到医疗机构就诊的日期。对于控件，端点是从每个用户的搜索日志中随机选取的。在排除访问医疗机构的最后一天之后，我们可以定义一个分析窗口，其中包含41个连续的患者搜索日。我们定义了一个类似的分析窗口，包括41个连续搜索日，以第一个搜索日为终点。图2说明了搜索日志数据的纵向分区，如前所述。

工程特性

我们选择了三类特征来研究在连续的搜索日中患者和对照组的搜索日志中的歧视性模式。类，如表1，在分析窗口中表示每个搜索日的搜索日志的一般属性、搜索文本的语义属性和搜索日志的位置属性。我们还创建了基于在整个分析窗口上聚合的搜索日志属性计数的聚合特性。

图2

使用覆盖41个搜索日的分析窗口对搜索日志数据进行纵向划分。随机选取对照终点。

表1

特征类别的描述。

特性类别和描述		总	Daywise
一般
	搜索次数	是的	是的
	医疗保健相关搜索次数	是的	是的
	平均会话持续时间	是的	是的
	搜索文本的平均长度	是的	是的
	会话间隔减少分数	没有	是的
语义
	搜索某种疾病的次数	是的	是的
	搜索某种药物的次数	是的	是的
	搜索医疗设备的次数	是的	是的
	搜索医疗程序的次数	是的	是的
	每100个充实(中文)词中包含1个的搜索次数	是的	是的
位置
	映射到53个丰富位置类别之一的搜索次数	是的	是的
	位置标签包含113个单词中的一个的搜索次数	是的	没有

一般特征

有研究表明，网络搜索的语言结构会影响从网络搜索引擎中检索信息[ 17]。在一项比较来自移动设备和来自pc的搜索特征的研究中，Jadhav等[ 18]显示，健康搜索查询往往比一般搜索查询更长。我们选择在常规特性中包含与文本搜索长度和搜索会话持续时间相关的属性。一个搜索会话表示通过搜索结果中返回的最突出的主题链接在一起的几个搜索，较长的会话可能表明搜索用户的兴趣从一般到更具体的概念的演变。我们还将搜索次数和与医疗保健相关的搜索次数包括在我们的汇总功能和每日功能中，因为用户对医疗保健问题的关注程度可能与他们为寻求安慰或补救而搜索信息的次数相关。

间隔缩减分数

早期关于互联网用户健康信息寻求行为的研究已经研究了搜索行为与搜索用户健康关注之间的关系。例如，有研究表明，根据特定网站的平均页面浏览时间来评估，医生的信息寻求行为与一般的在线媒体活动不同[ 19]。病人的健康焦虑也被证明与特定的搜索模式有关，例如紧张的搜索活动被平静的时期所打断[ 20.]。为了在我们的数据中捕获利用率者和非利用率者之间这种模式的差异，我们计算了一个间隔减少分数(请参阅多媒体附录1)，为每名用户的每一个查册日( 图3)。

对于两次或更少搜索的搜索日，间隔减少得分为1。我们用不同的w值进行了实验，当w值很小，接近0.1，并且在一个搜索日中只考虑与医疗保健相关的搜索时，我们得到了最好的结果。

图3

区间缩减分数(IRS)公式。

语义特征

我们数据集中搜索查询的语言对我们的分析提出了一个独特的挑战。一方面，我们可以利用汉语的优势，如缺乏动词变位和复数形式。此外，这使我们能够捕捉到习语背后的含义，而这些习语可能很难翻译。另一方面，英语符号将使我们能够使用更广泛的现有语言分析工具。因此，我们平衡了这两种方法，分析了我们的中文标记，并进行了翻译，并进一步分析了英文标记。

对于我们的中文语义分析，我们使用带有Bonferroni校正的Fisher检验确定了患者和对照组使用的丰富标记。我们还评估了在任何给定日期搜索每个标记的患者和对照组的数量，并比较了患者和对照组之间的术语频率。我们从这两个分析中获得令牌的联合，并且在手动检查过程工件的特征之后，将性能最好的100个令牌作为特征包含在后续分析中。在此分析之后，来自医疗保健查询的所有标记都被从中文翻译成英文，用于下游分析( 图4)。

为了模拟患者和对照组在搜索日之间搜索内容的变化，我们进一步选择使用一种在临床文本挖掘研究中得到验证的方法来明确表征搜索文本中的医疗内容。

尽管搜索文本的形式和结构与患者记录中的自由文本有着根本的不同，但我们注意到，从语言学的角度来看，两者的某些方面惊人地相似。直观地说，人们可以利用这种相似性，使用经过验证的工具和技术来描述前者的词汇覆盖，从而实现与后者相似的目标。特别是，在搜索文本和临床文本中，使用格式错误的句子、缩写和拼写错误是常见的，这促使我们选择生物医学术语来识别和描述搜索文本中医学术语的使用。我们决定使用来自统一医学语言系统(UMLS)和biopportal的22个临床相关本体的广泛术语[ 21]。该词典代表了310多万个术语，这些术语映射到近120万个概念，基于该词典的临床文本注释的功能评估显示，它与更复杂的基于自然语言处理的方法是等价的[ 22]。由于UMLS提供了从每个概念到一个或多个语义类型的映射，通过将相关的语义类型合并到表示疾病、药物、设备或过程的组中，可以通过确定它们的组成员关系来实现搜索词的细粒度特征。然而，由于UMLS语义网络定义的语义类型代表了生物医学概念之间的关键关系，因此使用这些语义类型推断搜索文本的医学语义可能会有噪声。我们最初的实验结果显示，由于词典的领域特异性，出现了许多错误归因的例子。例如，搜索文本中常见的术语(例如，dame, gift, blade)被映射为医学概念，分别分为药物(d - ala2 -蛋氨酸脑啡肽)，程序(输卵管移植中的配子)和设备。为了解决这个问题，我们调查了这种错误归因是否在某些语义组中比其他语义组更明显。我们根据翻译文本中的标记是否映射到前面提到的四个高级语义组中的任何一个，将训练集中的搜索文本分为医疗保健和非医疗保健类别。然后，我们将隔离与基于百度知识图的独立分类进行了比较。然后，我们重复了这个实验，每次都去掉四个语义组中的一个，以便对搜索文本进行医疗保健分类。

我们观察到，忽略器械亚组导致两种分离之间的总体一致性得到改善(从所有四组的15.2%到仅使用药物、疾病和程序时的40%)，而忽略其他组则没有表现出改善。因此，我们使用单个搜索的成员计数到分组药物、疾病和程序中，以指示在给定搜索日查询中医疗内容的性质的特征。我们注意到，药物、疾病和程序的语义组代表了UMLS中最大的概念组[ 23- 25，因此，在基于词典的语义分析方法中，它们可能是最相关的组。类似地，跨整个分析窗口的成员计数产生与医疗内容相关的聚合语义特征。

图4

框架搜索文本翻译和映射。

寻找特异性

已知医学搜索所返回的信息会影响与健康有关的关注，而健康又会调节随后的搜索行为[ 20.]。对常见症状的关注已升级为对严重和罕见疾病的搜索[ 26对健康的焦虑可能会影响医疗保健的使用意图[ 3.]，可能会促使他去医疗机构。因此，我们感兴趣的是模拟搜索的演变，从关于症状的一般查询发展到关于严重健康状况的特定查询。我们选择使用搜索中最具体术语的信息内容分数作为搜索主题普遍性的指标。信息内容评分利用医学本体的层次结构来确保特异性的单调非递减度量，并且可以基于语料库中术语的文档级频率来计算。对于映射到医学术语的搜索词，我们从分段搜索文本中计算会话级信息内容分数。与其他语义特征一样，我们为给定搜索日的所有搜索选择最高的单日得分，以衡量搜索特异性。

位置特征

为了构建位置特征，我们将位置标签附加到搜索的纬度和经度坐标。我们使用了Gecko Landmarks (Gecko Landmarks Ltd, Espoo, Finland)应用程序接口(API)，它以纬度和经度作为输入，并输出10个距离这个参考位置最近的地标，以及每个地标的名称和类别标签。例如，对于纬度39.903651 E, 116.415505 N给出的参考位置，Gecko API返回北京医院作为最近的地标，类别标签为“医院”。

我们将每个地理坐标四舍五入到小数点后四位，然后进行唯一性过滤。这导致了少于1000万的坐标对，而精度却没有明显的损失。精确到小数点后四位的坐标代表了大约11米的精度，我们认为这足以满足我们的位置特征。然后，我们获得了访问Gecko服务器的速率限制实例的权限，并对我们唯一的分类坐标进行了批量转换，以获得各自的位置标签( 图5)。地标的批量列表被合并并映射回原始位置坐标，我们以此为基础构建特征矩阵。具体来说，这些特征是用户对给定地标类(如健康、餐馆)的搜索次数。我们还根据位置名称中的单个单词创建了功能。例如，从一栋教育大楼进行的搜索可以在Gecko API识别的位置名称中包含单词“小学”或“大学”。虽然大学和小学都有“教育”的类别标签，但它们在预测住院率方面的作用相反;在患者的搜索日志中，前一个术语是丰富的，而后者则略有减少。我们使用二进制(0,1)变量指示搜索位置名称中是否存在单词标记。基于位置名称中的单个令牌的特性捕获了额外的粒度，而无需预先对位置名称施加结构。

图5

地点类别标签的提取。

建立预测模型

我们基于聚合和日特征构建了各种有监督的机器学习模型。在拟合我们的模型时，总特征集和每日特征集被分为80%用于训练，剩下的20%用于测试。考虑到特征的稀疏性和相关性，我们主要关注于使用正则化模型来降低特征集的维数并避免过拟合。所有机器学习分析均使用R 3.2.0 (R Development Core Team, Vienna, Austria)进行。我们选择了线性、非参数和集合方法来评估最适合我们数据的方法。对于线性模型，我们使用“glmnet”软件包构建了套索、山脊和弹性网模型。对训练集进行五重交叉验证，以确定lasso和ridge分类的最佳调谐参数lambda。对于弹性网，通过网格搜索确定lambda和alpha。在产生最小交叉验证误差的lambda的1个标准误差范围内的lambda被选择用于这些模型，以防止过拟合。除了线性模型之外，我们还使用高斯核(使用e1071)和随机森林模型(使用“randomForest”包)构建了支持向量机(SVM)模型。 For our SVM models, gamma was set to 1 divided by the number of features, and the cost was chosen via cross-validation. To evaluate the performance of our models, we constructed receiver operating characteristic (ROC) curves. We used the area under the curve (AUC) of the ROC curve to compare the performance of our classifiers in the held-out test sets.

选择最具信息量的功能

正如特征工程部分所描述的，我们最初的特征设计选择是根据之前工作中产生的见解以及我们挖掘医学内容的经验来指导的。我们的三个特性类别分别尝试基于一般搜索使用、搜索内容和搜索位置来区分利用者和非利用者。从位置标签中学习空间轨迹模式和从嵌入式搜索文本中学习语言模式需要使用机器学习中不同子领域的方法，每个子领域本身都是一个活跃的研究领域。为了指导特征设计和改进的进一步工作，我们测量了三种特征类别中每一种对预测性能的单独贡献。我们在三个不同的特征矩阵上训练了三个模型，每个模型只包含三个特征类别中的两个。每个模型都以相同的方式对测试数据进行了测试。

测量利用率预测的影响

我们通过b百度的移动搜索广告系统进行的实验验证了我们的预测模型，该系统根据用户点击量向广告商收费。在线评估中使用的模型经过修改，以符合商业限制(例如使用位置api)。然而，该模型包含类似的特征类别，从原始搜索日志数据重构。通过该系统做广告的医疗机构对每转换成本(CPC)低和更高的展示转化率感兴趣，这意味着更有效地利用广告预算。我们的目的是测量广告转化和医疗保健利用预测之间的关系。特别是，我们希望评估向预测的医疗保健使用者展示医疗设施广告是否会导致更高的显示转化率，“转换”定义为搜索用户满足以下两个条件的单个医疗保健利用率:(1)搜索用户在转换前1个月内没有使用同一医疗设施;(2)搜索用户在看到该特定医院的广告后2周内使用了该医疗设施。

直观上，第一个条件限制了转化为新的医院利用而不是再入院，而第二个条件鼓励了广告展示和住院之间的关系。在条件2和因果关系之间建立联系的严格论证超出了本文的范围。相反，我们建议感兴趣的读者参考这一领域的相关著作[ 27， 28]及其中的参考资料。

离线评估

在将模型部署到生产环境之前，我们进行了离线评估。我们的目的是确定预测的医疗保健利用得分对真实后验转换数据的有效性。我们首先收集了2015年6月1日至6月7日期间看到医疗机构广告的所有搜索用户的日志。使用我们的预测模型，我们根据这些用户从2015年5月2日到5月31日的搜索日志为他们生成了医疗保健利用得分。对于每个搜索用户A，我们获得了一个预测的医疗保健评分(0到1之间的实数)和一个转换标签(0或1)。我们采用了以下度量，与传统的AUC相比，它被认为对手头的评估任务更具可解释性。我们根据这些搜索用户的预测分数对他们进行排名，并绘制了显示转化率与风险分数的关系。搜索用户的本地节目转化率定义为以用户风险评分为中心的t人窗口内的转换比例( 图6)。给定风险分数下的本地节目转化率表示接近给定风险分数的人的近似转换概率，并且与我们的模型在在线实验中采用的方式一致(在以下部分中描述)。

图6

本地节目转化率方程。

在线评估

每天根据搜索用户前一天的日志生成医疗保健利用预测分数。使用百度的MapReduce框架进行特征生成和预测。MapReduce作业运行在一个拥有50台HPC机器的集群上，这些机器由550个物理核心和6.4 tb的内存组成，通常需要3个小时来生成特征和分数。预测的分数存储在百度的在线k-v服务器上，具有70g的内存，在线广告系统可以使用它们来修改广告竞标系数。本次在线评估是对b百度应用的约1000万移动用户进行的。这个实验的用户池足够大，可以避免用户之间的差异。我们将这些用户分成两部分进行A/B测试。对于治疗组B中的每个用户，预测得分被映射到区间(0.7,1.3)中的系数，然后用于调整显示医疗保健广告的概率，而对照组a则保持不变。

结果健康利用预测模型

我们所有模型的特性集的auc显示在表2．我们的模型在聚合特征上表现最差，lasso模型的AUC最高，为0.627。在日间特征上，我们观察到随机森林的最佳性能，达到0.796的AUC。当省略单个特征类别时，AUC分别为0.781、0.789和0.779。位置特征的遗漏导致AUC下降幅度最大，其次是语义特征和一般特征的遗漏。我们使用了一个随机森林分类器来测量特征类别的个体贡献。

表2

曲线下的区域用于聚合和按日划分的特性集。

模型	总		Daywise
	培训	测试	培训	测试
套索	0.899	0.627	0.899	0.589
脊	0.890	0.598	0.920	0.639
弹性网	0.901	0.601	0.920	0.621
支持向量机，径向核	0.983	0.590	- - - - - -	- - - - - -

按专业预测使用率

许多地理围栏位置允许通过充当子位置指示器的网络接入点进行搜索的子定位。对于可行的医疗设施，可以用接入点标识符标记用户搜索日志，然后将其映射到医院部门。我们将部门标签分解为四大类，包括与男性使用者相关的治疗、与女性使用者相关的治疗、美容治疗和其他专业治疗，并研究了学习搜索日志预测器的可行性，该预测器可以根据访问类型对医疗保健使用进行分类。对于在我们的日特征上训练的随机森林分类器，我们获得了0.632的hold -out测试精度和0.592的AUC，其中多类分类的AUC被计算为所有两两比较的平均值，如Hand和Till所讨论的[ 29]。

功能的重要性

从我们的每日模型中检查前30个积极和消极特征(表于多媒体附录2)表示排名靠前的特征之间高度重叠。如果我们忽略选择特征的日期，重叠会增加。所有功能都与结果(医疗保健使用情况)之前15个搜索天内的搜索日志事件相关。除了弹性网之外，每个搜索日的搜索会话数是所有模型的主要特征之一。间隔减少得分特征，总结了用户每天进行的所有搜索的搜索间隔的延长/缩短，在我们的两个模型中出现在前30个正相关特征中。在三个日间模型中，被标记为住宿或卫生保健设施的地点类别的访问次数似乎是重要特征。

离线评估

图7显示显示转化率的预期变化与预测风险评分的变化。请注意，横轴已被归一化，表示预测分数增加的总体百分位数。因此，AUC近似于所有转化广告浏览量的比例。我们的线下实验使用了2015年5月2日至5月31日的数据，得出了一条单调递增的曲线，证实了高预测分数意味着高节目转化率;因此，证明我们的在线实验。

图7

显示转化率与利用率预测分数。

在线评估

在2015年8月24日至9月27日期间的在线实验中，我们跟踪了包括展示转化率(显示的广告数量与医院访问量之间的比率)和展示转化率的每行动成本(CPA)在内的几个指标。报告的数字是实验组和对照组之间的相对变化。出于保密原因，我们不会透露广告客户的收入。两个模型分别应用于两个实验组，一个具有基于位置的特征，另一个没有。正如预期的那样，带有位置特征的模型显示出更高的转化率(3.96% vs 0.67%)和更低的CPA (-1.77% vs 1.61%)。

讨论

互联网搜索日志作为患者生成的生物医学信息的宝贵存储库的价值得到了广泛的认可。由于位置数据提供了一个将搜索用户的虚拟行为与他们在现实世界中的活动联系起来的机会，它为许多迄今为止传统研究技术无法攻克的医学研究领域带来了希望。

主要结果

我们研究中描述的实验证明了预测的医疗保健利用率与目标广告的显示转化率(我们的效用替代测量)之间的关系。展示转化率评估在我们向用户展示医疗保健相关广告后发生了多少次医院就诊，并证明我们的在线评估结果与模型很好地一致。两种模式(有或没有基于位置的功能)都有更高的展示转化率，这表明实验组的用户更容易受到这些广告的影响。基于位置特征的模型显示转换变化更大，这与忽略位置特征时性能下降最突然的结果一致。CPA是一个类似于CPC的指标，CPC考虑的是每个节目转化的成本。根据观察，基于位置的功能有助于降低CPA。

限制

地理标记搜索数据由于其高稀疏性、缺失性和易受污染的特点，也给信息学研究带来了独特的挑战。一个关键的限制是容易受到靠近观察边界的搜索噪声的影响，以及我们的标记方法产生的假阴性。我们期望跨越更大观察窗口的搜索数据将允许创建清晰的特征集。尝试仅从阳性标记数据中学习的方法也可以探索，以控制假阴性标签。尽管纵向患者病史的特征稀疏性是临床信息学研究的一个活跃领域，但搜索日志文本至少在两个方面为这一挑战增加了新的维度。首先，考虑到搜索文本的“消费者”性质，识别生物医学内容需要使用消费者健康词典以及会话级上下文检测，这与患者笔记不同，患者笔记的上下文中的术语明确代表一个概念。其次，数据的“互联网规模”和近似真值标签导致潜在医疗保健概念的长尾分布(例如，在医疗保健使用者的搜索中出现“礼物”代币，而在非医疗保健使用者的搜索中出现“礼物”代币)。

预测算法的性能与效用影响之间的关系——类似于临床研究中的净重分类[ 30.——在我们的工作中没有得到检验。具体来说，将医疗保健利用预测分数映射到医疗保健广告被服务的概率的决策规则影响了整体的节目转化率。例如，具有高AUC(能够同时具有高真阳性率和低假阳性率)的预测模型与导致向具有低预测分数的搜索用户显示广告的决策规则相结合，将是低效的。一般来说，在许多医疗保健预测任务中，高AUC可能是预测模型效用的误导性指标，因为它实际上不会导致净重分类[ 30.， 31]。一个完整的调查动态校准的决策规则映射预测得分广告浏览量和对CPC指标的影响超出了本研究的范围。

与前期工作比较

我们注意到，过去一直在积极研究以综合征监测为目的挖掘搜索文本[ 32- 34]。Wang等的研究[ 35基于搜索文本中的预测令牌预测与痴呆症相关的新门诊就诊的研究侧重于从提供者的角度预测医疗保健利用的问题。Nagar等[ 36]基于纽约本地的推文构建了用于流感监测的时空模型。我们的实验表明，除了使用标记作为语义预测器外，基于搜索位置的特征还可以提高利用率预测模型的性能。此外，我们能够将点击量与随后的地理位置搜索数据联系起来，以临时制定评估预测影响的指标。

我们从地理标记搜索日志预测医疗保健利用的工作在概念上类似于White和Horvitz对移动设备的地理标记数据的隐私敏感分析[ 2因为我们利用生物医学词汇资源来描述搜索中的医学内容。然而，我们的方法在使用基于固定的搜索天数分析窗口的时间特征堆栈方面是新颖的。我们的方法的更高分辨率能够捕获各种搜索属性的进展。在我们的顶级日间特征中，在医疗访问前一天的搜索日的查询数量由随机森林和山脊回归模型选择，并且与White和Horvitz的结果一致。

医疗保健利用与时间新闻趋势之间的关系先前已被研究过[ 37]。早期关于搜索日志特征患者行为的研究的一个关键发现是，在导致医疗保健使用事件的时期，健康相关焦虑的升级[ 8， 21]。我们认为，表征相关搜索功能的时间进展可以揭示焦虑升级的标志物，沉淀医疗保健的利用。在这项工作中，我们依赖于搜索文本标记的信息内容作为文本特异性的度量，并计算用户在搜索日内进行的所有搜索的最高信息内容分数(最特定标记)的平均值。我们的L1惩罚逻辑回归模型选择了就诊前几周的平均信息内容得分作为顶级预测因子之一。给定稀疏特征空间(由超过100万个令牌组成)，L1惩罚会导致除了一小部分预测器之外的所有预测器的收缩。在没有这种稀疏性处理机制的模型中，平均信息内容分数无法通过选择标准。

此外，我们定义了焦虑的另一种测量方法——间隔减少分数。区间缩减分数，如特征工程部分所定义的，是连续医疗保健相关搜索之间间隔的平均(按天计算)缩短或延长。对于我们的两个日间模型，就诊前2周的间隔减少评分是最重要的预测因子之一。与基于聚合特征训练的模型相比，基于日特征训练的模型在预测医疗保健利用方面表现更好，这表明搜索属性的日进展更好地代表了表明医疗保健资源利用的搜索行为。

结论

总的来说，两组实验的结果——第一组是在研究环境中进行的概念验证，第二组是关于健康利用预测效用的离线和在线实验——支持这样一种说法，即有可能从带有地理标记的移动搜索日志中准确预测未来的患者就诊情况，这种预测对医疗保健提供者有实用价值。

多媒体附录1

间隔减少分数。

多媒体附录2

前30个日常功能。

缩写

API

应用程序接口

AUC

曲线下面积

注册会计师

每行动成本

中国共产党

每次转换成本

中华民国

接收机工作特性

支持向量机

uml

统一医学语言系统

我们感谢壁虎地标有限公司的团队广泛的自定义访问他们的API。我们感谢NIGMS R01 GM101430的资助和百度USA的研究资助。我们感谢Tim Sweeney博士、Steve Bagley博士、Russ Altman博士、Juan Banda博士和Rainer Winnenberg博士提出的宝贵意见。

NHS, VA和CH设想了这项研究。VA在斯坦福大学进行了特征工程和统计建模实验。LZ, JZ, SF和TC分别在百度进行了离线和在线实验。VA和LZ汇编了结果。NHS, VA和LZ参与了稿件的编辑。所有作者都认可了最终稿。

没有宣布。

金斯堡

Mohebbi

帕特尔

布拉姆

Smolinski

女士

才华横溢的

利用搜索引擎查询数据检测流感流行

自然 2009 02 19 457 7232 1012 1014

10.1038 / nature07634

19020500

nature07634

白色

霍维茨

从网络搜索到医疗保健利用:来自移动数据的隐私敏感研究

美国医学信息协会 2013 01 1 20. 1 61 68

10.1136 / amiajnl - 2011 - 000765

22661560

amiajnl - 2011 - 000765

PMC3555313

白色

霍维茨

从健康搜索到医疗保健:通过查询日志和用户调查探索意图和使用

美国医学信息协会 2014 21 1 49 55

10.1136 / amiajnl - 2012 - 001473

23666794

amiajnl - 2012 - 001473

PMC3912725

霍维茨

穆里根

机器学习和推理使得个人越来越难以理解别人能理解的东西

科学 2015 349 6245 253 255

Eysenbach

信息流行病学:在网络上追踪流感相关搜索，以进行综合征监测

AMIA年度会议进程 2006 244 248

17238340

86095

PMC1839505

Paparrizos

白色

霍维茨

利用网络搜索日志的信号筛选胰腺腺癌:可行性研究和结果

J肿瘤学实践 2016 06 7 737 744

10.1200 / JOP.2015.010504

27271506

JOP.2015.010504

白色

Tatonetti

沙阿

奥特曼

霍维茨

网络规模的药物警戒:倾听人群发出的信号

美国医学信息协会 2013 05 1 20. 3. 404 408

10.1136 / amiajnl - 2012 - 001482

23467469

amiajnl - 2012 - 001482

PMC3628066

Yom-Tov

Gabrilovich

无试验成本的上市后药物监测:通过大规模分析网络搜索查询发现药物不良反应

J Med Internet Res 2013 15 6 e124

10.2196 / jmir.2614

23778053

v15i6e124

PMC3713931

Eastin

女士

Guinsler

纳米

忧虑与连线:健康焦虑对信息寻求与医疗保健利用行为的影响

Cyberpsychol Behav 2006 08 9 4 494 498

10.1089 / cpb.2006.9.494

16901253

胡

郝

年代

金

胫骨

一个

朱

黄

米

王

郑

戴

斑鸠

阿尔佛雷德

圣

罗高

斯登

西尔维斯特

公斤

扩大

凌

基于电子健康记录信息的未来六个月医疗保健利用在线预测:一项队列和验证研究

J Med Internet Res 2015 17 9 e219

10.2196 / jmir.4976

26395541

v17i9e219

PMC4642374

Rakovski

罗森

一个

王

Berlowitz

预测有增加未来医疗保健使用风险的老年人:诊断信息对先前的使用增加了多少?

治疗服务结果研究方法 2002 3. 3 - 4 267 277

10.1023 /: 1025866331616

Phithakkitnukoon

年代

Smoreda

奥利维尔

人类流动的社会地理学:一项使用纵向移动电话数据的研究

《公共科学图书馆•综合》 2012 7 6 1 9

10.1371 / journal.pone.0039253

22761748

玉米饼- d - 11 - 22741

PMC3386290

普莱彻

乔丹

Pignone

米

评估生物标志物的临床效用:评估健康影响的方法综述

循环 2011 03 15 123 10 1116 1124

10.1161 / CIRCULATIONAHA.110.943860

21403122

123/10/1116

PMC3138723

威尔金森

知道何时停止:重症监护病房的徒劳

静脉麻醉 2011 24 2 160 165

10.1097 / ACO.0b013e328343c5af

严

刘

王

张

行为定位对在线广告有多大帮助?

第十八届万维网国际会议论文集 2009

第十八届万维网国际会议

2009年4月20日至24日

马德里

261 270

10.1145/1526709.1526745

程ydF4y2Ba

Stallaert

使用行为定位的在线广告的经济分析

MIS的季度 2010 38 2 429 449

巴尔

琼斯

Regelson

米

英语网页搜索查询的语言结构

自然语言处理经验方法会议论文集 2008

自然语言处理中的经验方法

2008年10月25-27日

火奴鲁鲁

1021 1030

10.3115/1613715.1613848

Jadhav

一个

安德鲁斯

Fiksdal

一个

Kumbamu

一个

麦考密克

简森-巴顿

Misitano

一个

尼尔森

Ryu

Sheth

一个

吴

年代

帕沙克

消费者健康信息门户网站上来自个人电脑和智能设备的在线健康查询的比较分析

J Med Internet Res 2014 16 7 e160

10.2196 / jmir.3186

25000537

v16i7e160

PMC4115262

卡拉汉

一个

Pernek

我

Stiglic

Leskovec

·斯特拉伯格是同学

人力资源

沙阿

分析卫生保健专业人员的信息寻求和药物安全警报反应作为监测的新方法

J Med Internet Res 2015 17 8 e204

10.2196 / jmir.4427

26293444

v17i8e204

20.

白色

霍维茨

Cyberchondria

ACM Trans Inf系统 2009 11 01 27 4 1 37

10.1145/1629096.1629101

Whetzel

纳

沙阿

亚历山大

公关

Nyulas

Tudorache

为了

妈

biopportal:通过来自国家生物医学本体中心的新Web服务增强了在软件应用程序中访问和使用本体的功能

核酸类 2011 07 39 Web服务器问题 W541 W545

10.1093 / nar / gkr469

21672956

gkr469

PMC3125807

荣格

LePendu

艾耶

年代

Bauer-Mehren

一个

屎

沙阿

用于数据挖掘任务的开箱即用文本挖掘工具的功能评估

美国医学信息协会 2015 01 22 1 121 131

10.1136 / amiajnl - 2014 - 002902

25336595

amiajnl - 2014 - 002902

PMC4433377

Bodenreider

麦克雷

在

通过视觉方法探索语义组

J生物医学信息 2003 12 36 6 414 432

10.1016 / j.jbi.2003.11.002

14759816

S1532046403001163

PMC1997308

麦克雷

在

Burgun

一个

Bodenreider

聚合UMLS语义类型以降低概念复杂性

Stud健康技术信息 2001 84 Pt 1 216 220

11604736

PMC4300099

吴

圣

刘

李

道

为了

妈

斜槽

沙阿

统一医学语言系统术语在临床笔记中的出现:大规模语料库分析

美国医学信息协会 2012 06 19 e1 e149 e156

10.1136 / amiajnl - 2011 - 000744

22493050

amiajnl - 2011 - 000744

PMC3392861

缪斯女神

麦克马纳斯

梁

Meghreblian

威廉姆斯

疑病:事实还是虚构?健康焦虑与网际网路健康资讯搜寻关系之初步研究

J焦虑障碍 2012 01 26 1 189 196

10.1016 / j.janxdis.2011.11.005

22137465

s0887 - 6185 (11) 00179 - 4

巴拉哈斯

Kwon

Akella

弗洛勒斯

一个

Holtan

米

安德烈

定向展示广告中的营销活动评估

第六届网络广告与互联网经济数据挖掘国际研讨会论文集 2012

第六届网络广告与互联网经济数据挖掘国际研讨会[j]

2012年8月12日至16日

北京

1 7

10.1145/2351356.2351361

巴拉哈斯

Akella

Holtan

米

Kwon

弗洛勒斯

一个

安德烈

展示广告中广告印象对商业行为的动态影响

第21届美国计算机学会信息与知识管理国际会议论文集 2012

第21届美国计算机学会信息与知识管理国际会议

2012年10月29日至11月2日

毛伊岛

10.1145/2396761.2398510

手

直到

多类分类问题的roc曲线下面积的简单概括

马赫学习 2001 45 2 171 186

10.1023 /: 1010920819831

30.

烹饪

受者工作特征曲线在风险预测中的应用与误用

循环 2007 02 20. 115 7 928 935

10.1161 / CIRCULATIONAHA.106.672402

17309939

115/7/928

烹饪

预后与诊断模型的统计评价:超出ROC曲线

中国化学 2008 01 54 1 17 23

10.1373 / clinchem.2007.096529

18024533

clinchem.2007.096529

Majumder

米

Santillana

米

Mekaru

年代

麦金尼斯

汗

布朗斯坦

利用非传统数据源近实时估计2015-2016年哥伦比亚寨卡病毒病暴发期间的传播动态

公共卫生监测 2016 2 1 e30

10.2196 / publichealth.5814

27251981

v2i1e30

PMC4909981

搜索引擎优化

乔

米

孙

胫骨

年代

李

余

米

金

王寅

Lim

李

年代

利用搜索引擎数据进行流感监测的累积查询方法

J Med Internet Res 2014 16 12 e289

10.2196 / jmir.3680

25517353

v16i12e289

PMC4275481

吸引

赵

垫片

李

金

上海

利用韩国搜索引擎查询数据和社交媒体数据估计流感爆发

J Med Internet Res 2016 18 7 e177

10.2196 / jmir.4955

27377323

v18i7e177

PMC4949385

王

程ydF4y2Ba

余

程ydF4y2Ba

用谷歌趋势预测痴呆发病率及痴呆相关门诊就诊:来自台湾的证据

J Med Internet Res 2015 17 11 e264

10.2196 / jmir.4516

26586281

v17i11e264

PMC4704919

纳加尔

元

问

Freifeld

Santillana

米

Nojima

一个

Chunara

布朗斯坦

从时间和时空角度对纽约市2012-2013年流感季节的每日地理编码Twitter数据进行案例研究

J Med Internet Res 2014 16 10 e236

10.2196 / jmir.3416

25331122

v16i10e236

PMC4259880

戈什

年代

Chakraborty

Nsoesie

科恩

Mekaru

老

布朗斯坦

评估新闻趋势与传染病爆发之间关联的时间主题模型

arXiv: 1606.00411 2016 1 21