这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。
根据最近的估计,卫生保健费用的稳步上升剥夺了超过4500万美国人的卫生保健服务,并鼓励卫生保健提供者从人口健康管理的角度更好地了解卫生保健利用的主要驱动因素。已有研究表明,从互联网搜索日志的观察分析中挖掘卫生保健资源利用的人口层面模式是可行的;然而,这项努力对健康生态系统中各个利益相关者的效用仍不清楚。
目的是利用向预测的未来使用者展示的广告的转化率作为替代,对医疗保健使用预测的效用进行闭环评估。预测用户未来访问医疗机构概率的统计模型使用医疗资源利用的有效预测因子,提取自一个去识别的数据集,该数据集包含地理标记的移动互联网搜索日志,代表了2015年3月至2015年5月期间百度搜索引擎用户的搜索。
我们从用户搜索日志中的位置和持续时间信息推断出医疗设施在地理范围内的存在,并假定为符合条件的搜索日志分配医疗设施访问标签。我们从在医疗机构访问之前有42天或更多搜索天的用户的搜索日志以及没有医疗访问的用户的搜索日志中构建了一个通用的、语义的和基于位置的特征矩阵,并训练了统计学习者来预测未来的医疗访问。然后,我们使用向预测的未来使用者展示的广告转化率,对医疗保健使用预测的效用进行了闭环评估。在行为定向广告的背景下,医疗保健提供者对最小化其每次转换成本感兴趣,节目转化率与预测利用率之间的关联可作为模型效用的替代度量。
我们利用随机森林模型和日向特征获得了最高的就诊预测曲线下面积(0.796)。每次删除一个特征类别表明,当位置特征被删除时,模型性能最差。在一项在线评价中,向预测未来就诊概率较高的用户提供广告,显示节目转化率提高了3.96%。
我们在一个研究环境中进行的实验结果表明,可以从地理标记的移动搜索日志中准确预测未来的患者就诊情况。对健康利用预测效用的离线和在线实验结果表明,这种预测对卫生保健提供者具有效用。
在过去的几年里,互联网搜索引擎改变了人们报告健康结果和/或寻求有关症状、疾病和治疗的信息的方式,导致大量医疗信息的并行增长。人们认识到,通过分析这类信息库有可能应对公共卫生挑战和推进医学研究,同时也认识到利用这类信息库所固有的挑战[
鉴于美国医疗保健领域最近发生的结构性变化,搜索日志存储库提供了一个了解医疗保健组织和用户之间交互本质的机会——特别是导致医疗保健资源利用的交互。获得这种理解对于提高效率并最终获得保健服务至关重要[
从移动设备发起的Internet搜索日志包含搜索文本和时间戳信息,以及发起搜索的位置。搜索日志中的位置信息包含了搜索者与现实世界互动的线索。例如,从大致相同的地点连续搜索,间隔很长一段时间,可能表明在特定地点有交战。个人在虚拟地理边界(称为“地理围栏”)内的大致位置的信息效用已在泛在计算社区内进行了广泛研究,并构成了几种基于位置的服务的基础[
根据从医疗设施进行的未识别搜查和搜查的距离,White和Horvitz [
在本研究中,我们评估在行为定向广告的背景下,从医疗保健提供者的角度预测医疗保健利用的效用。最近关于互联网消费者行为的研究试图根据行为目标广告活动的绩效指标来模拟出版商和广告商的收益[
总体研究设计:(A)基于地理范围内的搜索生成搜索日志,(B)识别医疗设施附近的搜索并根据过滤标准选择患者和对照组,(C)预测健康的学习统计模型,(D)评估对广告显示转化率的影响,在广告观看之前具有高利用率预测分数的搜索用户。
我们的数据集由未识别的移动互联网搜索日志组成,这些日志代表了2015年3月至2015年5月期间,百度搜索引擎的950万搜索用户进行的超过10亿次搜索,这些数据在一个合作研究计划下可供作者访问。搜索日志包含搜索文本(中文)、时间戳和搜索位置(经纬度),表示从中国境内的位置进行的搜索。根据在靠近医院的移动设备上搜索的证据来确定医疗保健利用情况,容易出现假阳性和假阴性。搜索用户可能在医院内部或附近工作,或者可能经过医院,并且在他们从医院附近的位置进行搜索时可能不是医疗保健资源的消费者。类似地,搜索用户可以作为患者访问医院,但在访问期间不进行搜索。我们承认,如果仅仅根据在医疗设施的地理范围内进行的搜索来分配标签,就不可能完全消除假阳性和假阴性。然而,通过显式过滤掉“弱”标签,我们成功地减少了数据中的误报数量。
在上述日期之间发生的所有搜索中,我们排除了在医院200米范围内搜索的搜索用户,但他们在该地点出现的证据少于900秒。我们还排除了一个月内在医疗设施附近搜索超过15次的用户,因为这些用户可能是在附近居住或工作的人,或者他们可能是医疗保健专业人员。最后,我们排除了在不同医疗机构附近一个月内搜索超过五次的用户。其余400万搜索用户的搜索日志被视为访问医疗设施的证据,并从中随机抽取150万不同的搜索用户。我们从所有不在已知医疗设施地理范围内的搜索中抽取了一个按比例随机样本,以获得800万没有访问医疗设施证据的不同搜索用户,从而得出950万搜索用户的总数。在缺乏相关用户信息的情况下,我们对可用搜索日志的天数进行了匹配控制。
因为我们有兴趣研究搜索日志的时间特征,最终以访问医疗设施为终点,我们选择了那些在最后一次访问医疗设施之前的42天或更长时间内都有搜索日志的人(我们发现,更高的阈值将显著减少我们的队列规模,并对统计能力产生不利影响)。在本文的其余部分中,我们将这一群体称为“患者”。
我们将患者和对照组的搜索日志按搜索日进行分区,其中搜索日
我们选择了三类特征来研究在连续的搜索日中患者和对照组的搜索日志中的歧视性模式。类,如
使用覆盖41个搜索日的分析窗口对搜索日志数据进行纵向划分。随机选取对照终点。
特征类别的描述。
特性类别和描述 | 总 | Daywise | |
|
|
|
|
|
搜索次数 | 是的 | 是的 |
|
医疗保健相关搜索次数 | 是的 | 是的 |
|
平均会话持续时间 | 是的 | 是的 |
|
搜索文本的平均长度 | 是的 | 是的 |
|
会话间隔减少分数 | 没有 | 是的 |
|
|
|
|
|
搜索某种疾病的次数 | 是的 | 是的 |
|
搜索某种药物的次数 | 是的 | 是的 |
|
搜索医疗设备的次数 | 是的 | 是的 |
|
搜索医疗程序的次数 | 是的 | 是的 |
|
每100个充实(中文)词中包含1个的搜索次数 | 是的 | 是的 |
|
|
|
|
|
映射到53个丰富位置类别之一的搜索次数 | 是的 | 是的 |
|
位置标签包含113个单词中的一个的搜索次数 | 是的 | 没有 |
有研究表明,网络搜索的语言结构会影响从网络搜索引擎中检索信息[
早期关于互联网用户健康信息寻求行为的研究已经研究了搜索行为与搜索用户健康关注之间的关系。例如,有研究表明,根据特定网站的平均页面浏览时间来评估,医生的信息寻求行为与一般的在线媒体活动不同[
对于两次或更少搜索的搜索日,间隔减少得分为1。我们用不同的w值进行了实验,当w值很小,接近0.1,并且在一个搜索日中只考虑与医疗保健相关的搜索时,我们得到了最好的结果。
区间缩减分数(IRS)公式。
我们数据集中搜索查询的语言对我们的分析提出了一个独特的挑战。一方面,我们可以利用汉语的优势,如缺乏动词变位和复数形式。此外,这使我们能够捕捉到习语背后的含义,而这些习语可能很难翻译。另一方面,英语符号将使我们能够使用更广泛的现有语言分析工具。因此,我们平衡了这两种方法,分析了我们的中文标记,并进行了翻译,并进一步分析了英文标记。
对于我们的中文语义分析,我们使用带有Bonferroni校正的Fisher检验确定了患者和对照组使用的丰富标记。我们还评估了在任何给定日期搜索每个标记的患者和对照组的数量,并比较了患者和对照组之间的术语频率。我们从这两个分析中获得令牌的联合,并且在手动检查过程工件的特征之后,将性能最好的100个令牌作为特征包含在后续分析中。在此分析之后,来自医疗保健查询的所有标记都被从中文翻译成英文,用于下游分析(
为了模拟患者和对照组在搜索日之间搜索内容的变化,我们进一步选择使用一种在临床文本挖掘研究中得到验证的方法来明确表征搜索文本中的医疗内容。
尽管搜索文本的形式和结构与患者记录中的自由文本有着根本的不同,但我们注意到,从语言学的角度来看,两者的某些方面惊人地相似。直观地说,人们可以利用这种相似性,使用经过验证的工具和技术来描述前者的词汇覆盖,从而实现与后者相似的目标。特别是,在搜索文本和临床文本中,使用格式错误的句子、缩写和拼写错误是常见的,这促使我们选择生物医学术语来识别和描述搜索文本中医学术语的使用。我们决定使用来自统一医学语言系统(UMLS)和biopportal的22个临床相关本体的广泛术语[
我们观察到,忽略器械亚组导致两种分离之间的总体一致性得到改善(从所有四组的15.2%到仅使用药物、疾病和程序时的40%),而忽略其他组则没有表现出改善。因此,我们使用单个搜索的成员计数到分组药物、疾病和程序中,以指示在给定搜索日查询中医疗内容的性质的特征。我们注意到,药物、疾病和程序的语义组代表了UMLS中最大的概念组[
框架搜索文本翻译和映射。
已知医学搜索所返回的信息会影响与健康有关的关注,而健康又会调节随后的搜索行为[
为了构建位置特征,我们将位置标签附加到搜索的纬度和经度坐标。我们使用了Gecko Landmarks (Gecko Landmarks Ltd, Espoo, Finland)应用程序接口(API),它以纬度和经度作为输入,并输出10个距离这个参考位置最近的地标,以及每个地标的名称和类别标签。例如,对于纬度39.903651 E, 116.415505 N给出的参考位置,Gecko API返回北京医院作为最近的地标,类别标签为“医院”。
我们将每个地理坐标四舍五入到小数点后四位,然后进行唯一性过滤。这导致了少于1000万的坐标对,而精度却没有明显的损失。精确到小数点后四位的坐标代表了大约11米的精度,我们认为这足以满足我们的位置特征。然后,我们获得了访问Gecko服务器的速率限制实例的权限,并对我们唯一的分类坐标进行了批量转换,以获得各自的位置标签(
地点类别标签的提取。
我们基于聚合和日特征构建了各种有监督的机器学习模型。在拟合我们的模型时,总特征集和每日特征集被分为80%用于训练,剩下的20%用于测试。考虑到特征的稀疏性和相关性,我们主要关注于使用正则化模型来降低特征集的维数并避免过拟合。所有机器学习分析均使用R 3.2.0 (R Development Core Team, Vienna, Austria)进行。我们选择了线性、非参数和集合方法来评估最适合我们数据的方法。对于线性模型,我们使用“glmnet”软件包构建了套索、山脊和弹性网模型。对训练集进行五重交叉验证,以确定lasso和ridge分类的最佳调谐参数lambda。对于弹性网,通过网格搜索确定lambda和alpha。在产生最小交叉验证误差的lambda的1个标准误差范围内的lambda被选择用于这些模型,以防止过拟合。除了线性模型之外,我们还使用高斯核(使用e1071)和随机森林模型(使用“randomForest”包)构建了支持向量机(SVM)模型。 For our SVM models, gamma was set to 1 divided by the number of features, and the cost was chosen via cross-validation. To evaluate the performance of our models, we constructed receiver operating characteristic (ROC) curves. We used the area under the curve (AUC) of the ROC curve to compare the performance of our classifiers in the held-out test sets.
正如特征工程部分所描述的,我们最初的特征设计选择是根据之前工作中产生的见解以及我们挖掘医学内容的经验来指导的。我们的三个特性类别分别尝试基于一般搜索使用、搜索内容和搜索位置来区分利用者和非利用者。从位置标签中学习空间轨迹模式和从嵌入式搜索文本中学习语言模式需要使用机器学习中不同子领域的方法,每个子领域本身都是一个活跃的研究领域。为了指导特征设计和改进的进一步工作,我们测量了三种特征类别中每一种对预测性能的单独贡献。我们在三个不同的特征矩阵上训练了三个模型,每个模型只包含三个特征类别中的两个。每个模型都以相同的方式对测试数据进行了测试。
我们通过b百度的移动搜索广告系统进行的实验验证了我们的预测模型,该系统根据用户点击量向广告商收费。在线评估中使用的模型经过修改,以符合商业限制(例如使用位置api)。然而,该模型包含类似的特征类别,从原始搜索日志数据重构。通过该系统做广告的医疗机构对每转换成本(CPC)低和更高的展示转化率感兴趣,这意味着更有效地利用广告预算。我们的目的是测量广告转化和医疗保健利用预测之间的关系。特别是,我们希望评估向预测的医疗保健使用者展示医疗设施广告是否会导致更高的显示转化率,“转换”定义为搜索用户满足以下两个条件的单个医疗保健利用率:(1)搜索用户在转换前1个月内没有使用同一医疗设施;(2)搜索用户在看到该特定医院的广告后2周内使用了该医疗设施。
直观上,第一个条件限制了转化为新的医院利用而不是再入院,而第二个条件鼓励了广告展示和住院之间的关系。在条件2和因果关系之间建立联系的严格论证超出了本文的范围。相反,我们建议感兴趣的读者参考这一领域的相关著作[
在将模型部署到生产环境之前,我们进行了离线评估。我们的目的是确定预测的医疗保健利用得分对真实后验转换数据的有效性。我们首先收集了2015年6月1日至6月7日期间看到医疗机构广告的所有搜索用户的日志。使用我们的预测模型,我们根据这些用户从2015年5月2日到5月31日的搜索日志为他们生成了医疗保健利用得分。对于每个搜索用户A,我们获得了一个预测的医疗保健评分(0到1之间的实数)和一个转换标签(0或1)。我们采用了以下度量,与传统的AUC相比,它被认为对手头的评估任务更具可解释性。我们根据这些搜索用户的预测分数对他们进行排名,并绘制了显示转化率与风险分数的关系。搜索用户的本地节目转化率定义为以用户风险评分为中心的t人窗口内的转换比例(
本地节目转化率方程。
每天根据搜索用户前一天的日志生成医疗保健利用预测分数。使用百度的MapReduce框架进行特征生成和预测。MapReduce作业运行在一个拥有50台HPC机器的集群上,这些机器由550个物理核心和6.4 tb的内存组成,通常需要3个小时来生成特征和分数。预测的分数存储在百度的在线k-v服务器上,具有70g的内存,在线广告系统可以使用它们来修改广告竞标系数。本次在线评估是对b百度应用的约1000万移动用户进行的。这个实验的用户池足够大,可以避免用户之间的差异。我们将这些用户分成两部分进行A/B测试。对于治疗组B中的每个用户,预测得分被映射到区间(0.7,1.3)中的系数,然后用于调整显示医疗保健广告的概率,而对照组a则保持不变。
我们所有模型的特性集的auc显示在
曲线下的区域用于聚合和按日划分的特性集。
模型 | 总 | Daywise | ||
|
培训 | 测试 | 培训 | 测试 |
套索 | 0.899 | 0.627 | 0.899 | 0.589 |
脊 | 0.890 | 0.598 | 0.920 | 0.639 |
弹性网 | 0.901 | 0.601 | 0.920 | 0.621 |
支持向量机,径向核 | 0.983 | 0.590 | - - - - - - | - - - - - - |
许多地理围栏位置允许通过充当子位置指示器的网络接入点进行搜索的子定位。对于可行的医疗设施,可以用接入点标识符标记用户搜索日志,然后将其映射到医院部门。我们将部门标签分解为四大类,包括与男性使用者相关的治疗、与女性使用者相关的治疗、美容治疗和其他专业治疗,并研究了学习搜索日志预测器的可行性,该预测器可以根据访问类型对医疗保健使用进行分类。对于在我们的日特征上训练的随机森林分类器,我们获得了0.632的hold -out测试精度和0.592的AUC,其中多类分类的AUC被计算为所有两两比较的平均值,如Hand和Till所讨论的[
从我们的每日模型中检查前30个积极和消极特征(表于
显示转化率与利用率预测分数。
在2015年8月24日至9月27日期间的在线实验中,我们跟踪了包括展示转化率(显示的广告数量与医院访问量之间的比率)和展示转化率的每行动成本(CPA)在内的几个指标。报告的数字是实验组和对照组之间的相对变化。出于保密原因,我们不会透露广告客户的收入。两个模型分别应用于两个实验组,一个具有基于位置的特征,另一个没有。正如预期的那样,带有位置特征的模型显示出更高的转化率(3.96% vs 0.67%)和更低的CPA (-1.77% vs 1.61%)。
互联网搜索日志作为患者生成的生物医学信息的宝贵存储库的价值得到了广泛的认可。由于位置数据提供了一个将搜索用户的虚拟行为与他们在现实世界中的活动联系起来的机会,它为许多迄今为止传统研究技术无法攻克的医学研究领域带来了希望。
我们研究中描述的实验证明了预测的医疗保健利用率与目标广告的显示转化率(我们的效用替代测量)之间的关系。展示转化率评估在我们向用户展示医疗保健相关广告后发生了多少次医院就诊,并证明我们的在线评估结果与模型很好地一致。两种模式(有或没有基于位置的功能)都有更高的展示转化率,这表明实验组的用户更容易受到这些广告的影响。基于位置特征的模型显示转换变化更大,这与忽略位置特征时性能下降最突然的结果一致。CPA是一个类似于CPC的指标,CPC考虑的是每个节目转化的成本。根据观察,基于位置的功能有助于降低CPA。
地理标记搜索数据由于其高稀疏性、缺失性和易受污染的特点,也给信息学研究带来了独特的挑战。一个关键的限制是容易受到靠近观察边界的搜索噪声的影响,以及我们的标记方法产生的假阴性。我们期望跨越更大观察窗口的搜索数据将允许创建清晰的特征集。尝试仅从阳性标记数据中学习的方法也可以探索,以控制假阴性标签。尽管纵向患者病史的特征稀疏性是临床信息学研究的一个活跃领域,但搜索日志文本至少在两个方面为这一挑战增加了新的维度。首先,考虑到搜索文本的“消费者”性质,识别生物医学内容需要使用消费者健康词典以及会话级上下文检测,这与患者笔记不同,患者笔记的上下文中的术语明确代表一个概念。其次,数据的“互联网规模”和近似真值标签导致潜在医疗保健概念的长尾分布(例如,在医疗保健使用者的搜索中出现“礼物”代币,而在非医疗保健使用者的搜索中出现“礼物”代币)。
预测算法的性能与效用影响之间的关系——类似于临床研究中的净重分类[
我们注意到,过去一直在积极研究以综合征监测为目的挖掘搜索文本[
我们从地理标记搜索日志预测医疗保健利用的工作在概念上类似于White和Horvitz对移动设备的地理标记数据的隐私敏感分析[
医疗保健利用与时间新闻趋势之间的关系先前已被研究过[
此外,我们定义了焦虑的另一种测量方法——间隔减少分数。区间缩减分数,如特征工程部分所定义的,是连续医疗保健相关搜索之间间隔的平均(按天计算)缩短或延长。对于我们的两个日间模型,就诊前2周的间隔减少评分是最重要的预测因子之一。与基于聚合特征训练的模型相比,基于日特征训练的模型在预测医疗保健利用方面表现更好,这表明搜索属性的日进展更好地代表了表明医疗保健资源利用的搜索行为。
总的来说,两组实验的结果——第一组是在研究环境中进行的概念验证,第二组是关于健康利用预测效用的离线和在线实验——支持这样一种说法,即有可能从带有地理标记的移动搜索日志中准确预测未来的患者就诊情况,这种预测对医疗保健提供者有实用价值。
间隔减少分数。
前30个日常功能。
应用程序接口
曲线下面积
每行动成本
每次转换成本
接收机工作特性
支持向量机
统一医学语言系统
我们感谢壁虎地标有限公司的团队广泛的自定义访问他们的API。我们感谢NIGMS R01 GM101430的资助和百度USA的研究资助。我们感谢Tim Sweeney博士、Steve Bagley博士、Russ Altman博士、Juan Banda博士和Rainer Winnenberg博士提出的宝贵意见。
NHS, VA和CH设想了这项研究。VA在斯坦福大学进行了特征工程和统计建模实验。LZ, JZ, SF和TC分别在百度进行了离线和在线实验。VA和LZ汇编了结果。NHS, VA和LZ参与了稿件的编辑。所有作者都认可了最终稿。
没有宣布。