医学互联网研究杂志-使用搜索趋势的季节性流感分区域nowcast

原始论文

¹哥伦比亚大学环境卫生科学系，美国纽约州纽约

²哥伦比亚大学计算机系，纽约，纽约，美国

通讯作者:

Sasikiran Kandula, MS

环境卫生科学系

哥伦比亚大学

ARB大楼11楼

西168街722号

纽约，纽约，10032

美国

电话:1 2123053590

传真:1 2123054012

电子邮件:sk3542@cumc.columbia.edu

背景:要在州或城市一级限制季节性流感疫情的不利影响，就需要密切监测局部疫情并对其进展进行可靠预测。尽管流感或流感样疾病(ILI)的预测模型越来越可用，但由于无法在局部尺度上实时观测当前疫情状态，其对局部疫情的适用性受到限制。由各个卫生部门收集的监测数据被广泛接受为估计疫情状态的参考标准，在缺乏监测数据的情况下，使用基于web的活动(如搜索引擎查询、推文和访问与卫生相关的网页)构建的临近预报代理可能很有用。谷歌流感趋势(GFT)之前发布了州和市ILI的Nowcast估计;然而，这些估计的验证很少被报道。

摘要目的:本研究的目的是建立并验证分区域地理尺度的ILI近预报模型。

方法:我们建立了基于自回归(自回归集成移动平均;ARIMA)和监督回归方法(随机森林)在美国州一级使用区域加权ILI和基于web的搜索活动，这些搜索活动源自谷歌的扩展趋势应用程序编程接口。我们使用50个州六个季节的实际监测数据验证了这些方法的性能。我们还使用州一级的ILI估计建立了州一级的nowcast模型，并将这些估计的准确性与州一级推断的区域模型的估计以及GFT公布的nowcast估计进行了比较。

结果:使用区域ILI外推到州一级建立的模型的中位相关性为0.84(四分位数范围:0.74-0.91)，中位均方根误差(RMSE)为1.01 (IQR: 0.74-1.50)，在季节和州人口规模之间具有明显的变化。假设州一级监测数据的及时可用性的模型形式显示出显著较低的误差，为0.83(0.55-0.23)。与GFT相比，后一种模型形式的误差更小，相关性也更低。

结论:这些结果表明，所提出的方法可能是已停止的GFT的替代方法，进一步提高分区域短时预报的质量可能需要更多地获得更精细分辨的监测数据。

中国医学杂志，2017;19(11):e370

doi: 10.2196 / jmir.7486

关键字

人类流感；分类和回归树； nowcasts； infodemiology； infoveillance；监测

据估计，全球每年有5%至10%的成年人感染季节性流感，儿童和老年人的发病率更高[1，2］．在美国，每10万人中约有1.2人死于流感，季节性差异很大[3.］．市和州卫生部门在整个流感季节(通常是在美国的10月至5月)依靠监测数据来跟踪流感季节的进展，并协调医院、卫生保健提供者和公共卫生机构之间的疫苗接种和治疗活动。为了支持这些工作，美国疾病控制和预防中心(CDC)每周在国家和地区一级发布流感样疾病(ILI)的病毒学和门诊发病率数据[4，5］．

已经提出了几种方法来补充CDC的ILI，这些方法基于搜索查询进行估计[6-11]，推文[12，13]，维基百科访问日志[14，15]、其他公众生成的内容[16-18]，以及这些代理的组合[19］．除了提供更及时的疫情进展估计外，这些数据源还可用于在较局部的分区域地理分辨率下，在公共疫情数据有限或无法获得的情况下，制定疫情指数估计。由于可以通过更当地的观点来设计更有效和更有针对性的干预措施，这些分区域估计如果准确和可靠，就更可采取行动。

谷歌流感趋势(GFT) [6]利用基于网络的搜索查询的趋势，在区域和分区域各级得出了一个更广泛获得的ILI估计数;然而，GFT估计值的编制已于2015年8月停止[20.］．相反，通过谷歌的扩展趋势(GET)应用程序编程接口(API)，研究人员现在可以访问底层谷歌搜索趋势数据，并可以建立自己的模型来估计ILI。原始的GFT方法将CDC ILI建模为搜索查询频率聚合为单个变量的线性函数。最近的工作[7，21]在线性模型中，当单个查询项作为自变量保留时，证明了提高的准确性，并且使用允许查询之间的非线性和时间关系的替代模型报告了进一步的增益。一项相关研究在周建模了ILIw在n周的自回归滞后和100个选定词的周搜索量上w［8，22］．

尽管这些研究令人鼓舞，但这些模型是在美国国家层面开发和验证的，其中有响应变量ILI。将这些国家模式外推到无法公开获得疾控中心ILI的分区域决议，可能会产生精度有限的nowcast。GFT团队尚未发表用于在分区域尺度上生成nowcast的方法，而且对分区域水平上的GFT估计的验证研究很少[23，24］．

在本文中，我们提出了利用GET在分区域水平进行ILI nowcast的方法。这些方法被回顾性地应用于在美国50个州生成六个季节的nowcast，报告不同模型形式的准确性，并将其与已发表的GFT进行比较。据观察，利用区域一级发展的模式可能无法对分区域ILI进行准确的即时预测;相反，必须利用分区域ILI数据建立分区域ILI nowcast模型。

概述

为了在美国州一级建立临近预测模型，首先在区域一级建立随机森林回归模型(由美国卫生与公众服务部定义，HHS [25])。在这些初始模型中，CDC报告的HHS区域加权ILI是响应变量，具有与ILI相关搜索模式的查询是解释变量。对区域ILI拟合的自回归模型提前1周的预测被纳入作为额外的解释变量。然后在分区域范围内应用或外推这些区域一级模型。具体而言，拟合模型与州级解释变量一起使用，以估计州级的ILI。

独立地，使用cdc提供的ILI的州级估计作为响应变量，建立了州级nowcast模型。这些州级ILI估算数据尚未公开，是应要求提供给本研究的。然后，将使用这些州模型得出的州级nowcast估计的误差与州级外推的区域模型的估计进行比较。

谷歌GET (Extended Trends)应用程序接口

GET API允许用户检索在搜索会话期间查询指定术语的概率的时间轴数据。其他参数允许指定地理(国家、州等)和时间(每天、每周等)粒度和感兴趣的时间段。查询概率是根据所有搜索的10%到15%的随机样本计算的;搜索量不满足最小阈值的术语被认为是私有的，其概率报告为0。数据每日更新，并提供2004年1月以来的历史趋势。因此，使用GET开发的nowcast模型可以提供比CDC ILI数据至少多一周的ILI估计，后者发布有5到11天的滞后。

在这项研究中，由于我们对州一级的nowcast感兴趣，状态作为地理分辨率，a每周周期性与CDC ILI和GFT一致，两者都是每周ILI估计值。我们指的是项的logit变换时间序列t的查询分数t，也就是说，Qf (t, s, w) = log (z/(1-z))在哪里z来自状态的查询的概率是多少年代在星期w是术语t．GET没有在HHS区域级别提供单独的查询分数。因此，来自HHS区域的术语的查询分数被计算为来自该区域内各州的术语查询分数的总体加权平均值。这种转换的选择是由以前的工作所决定的，该工作发现，通过logit转换，原始查询分数和ILI之间的关系近似于线性，并且模型性能提高[7］．

特征识别

与CDC ILI高度相关的查询使用谷歌相关[26，27]作为解释变量。谷歌correlation返回100个查询，这些查询的搜索趋势在历史上与给定目标时间序列数据的相关性(Pearson相关系数)最高。以2003-04年至2014-15年流感季节美国国家和10个HHS区域级别的ILI为目标时间序列。在使用不同目标时间序列识别的查询中观察到大量重叠。Zhang识别的查询词[28]和从Freebase提取的流感相关实体[29]，被添加到相关项列表中。

在检查与ILI相关的术语的查询分数时，发现一些在国家层面具有相当大的搜索活动的术语，在州层面通常很少或没有活动，并且报告为0 (多媒体附件1；图S1)，可能是因为GET中使用的抽样和阈值标准。因此，状态级别的解释变量是稀疏的。为了提高数据质量，采用了一种继承形式，即当状态级查询分数为零时，状态在区域级继承术语的查询分数:Qf (t, s, w) = Qf (t, r, w),在那里年代∊r,r指定HHS区域。也就是说，在没有额外信息的情况下，我们假设一个区域的所有状态下的用户以相同的概率搜索一个词。由于这不会消除所有的0，在应用logit转换之前，剩余的0被替换为一个非常小的值1e-12。敏感性分析显示，结果对替代材料的选择不敏感(多媒体附件1；图S2)。

自回归综合移动平均

兰波斯等[7]发现简单自回归综合移动平均(ARIMA)模型[30.-32使用搜索趋势数据可以对美国国家层面的ILI产生合理的nowcast估计。同样，Broniatowski等人[33，34]已经证明了ARIMA模型的实用性，该模型使用推文并在一些分区域位置查询数据。ARIMA模型由三个参数指定，自回归分量的阶数(a)，差分度(d)和移动平均分量的阶数(q)。

在图1，ф，θ,ρ在模型拟合过程中需要学习。Hyndman和Khandakar描述的一种方法[35，36]用于搜索参数空间，并识别一组提供良好模型拟合的参数，而在不同时间建立的ARIMA模型(w)，不同区域允许使用不同的参数。

随机森林

随机森林是一种基于决策树的集成监督学习器，可用于回归[37-39］．具体来说，给定一个数据集n实例D = = (X (X, Y)_{知识产权,}y_我）,在那里Y响应变量是连续的，而特征集呢X = X (₁, X_2，X…,_p）的p解释变量(即，x_知识产权特征的价值是什么j例如我)，有监督学习算法使用D学习一个函数ḟ这样Ẏ=ḟ(X)Ẏ最小化了一些损失函数Y．这个函数ḟ那么可以用来估算吗ẏ₀例如，x₀=（x₀₁, x₀₂x、…_人事处)，其反应未知。

基于决策树的方法沿着解释变量分割特征空间，并学习单独的拟合，ḟ对于每一个子空间。集成方法构建多个决策树，每棵树都在一个数据集上D^＊的随机抽样替换n实例D．随机森林是一种集成决策树，它在学习时也排除了解释变量的随机子集。随机森林适用于具有大特征集的非线性问题，并已被发现在多个领域提供了优越的精度。

在本研究中，随机森林[45用R表示的包装[46(R Project for Statistical Computing)用于建立模型。

模型公式

文中详细描述了该模型多媒体附件1．总结一下，让y_{1: w}^r表示区域的logit变换ILI观测值r通过一周w;而且X_{1: v}^rHHS区域logit变换查询分数的查询分数矩阵r对于第1周至第1周期间的特性集(列)中的所有术语v(行)。请注意,v > w．我们安装了ARIMA模型y_{1: w}^r未来几周的天气预报w + 1来v并将ARIMA结果作为解释变量X_{1: v}^r．用修正后的矩阵作为预测器，(y_{1: w}^r）^T作为响应，我们训练了一个随机森林模型的区域r在星期w，ḟ_w^r．对一个状态的ILI进行nowcast年代在地区r，我们附加区域r的ARIMA结果转化为州的查询分数矩阵X_{1: v}^年代，并使用此作为测试集ḟ_w^r．

验证

CDC应数据要求提供了2000-01赛季至2010-11赛季的州一级ILI计数(每10万名患者就诊)。这些计数被认为是真实值，以验证上述模型的估计值。由于GET数据仅从2004年1月起可用，七个重叠流感季节中的最后六个(发病率和死亡率周报［40]， MMWR，第40周至下一日历年MMWR第39周)，即2005-06年至2010-11年用于验证。为了生成任何给定周的nowcast，只使用实时生成nowcast时可用的数据，从而允许对估计值进行样本外验证。

对于六个季节中的每个状态，计算了Pearson相关系数(COR)、均方根误差(RMSE)和平均绝对比例误差(MAPE)。在图2，y_w^年代州的真实ILI值是多少年代在星期w，ẏ_w^年代相应的临近预报，w∊se流感季节的几周g ()是logit反变换。虽然有时可以使用ARIMA和GET提前2周进行nowcast估计，但在此误差分析中只使用了提前1周的估计。

图2。两种误差度量的公式:均方根误差(RMSE)和平均绝对比例误差(MAPE)。

替代模型表格

为了生成一个州的nowcast，用相应的区域数据训练的模型被外推到州一级。对于这种外推，上面描述的模型公式使用区域ILI作为响应变量进行训练，使用区域ILI和状态GET查询分数的ARIMA拟合作为解释变量。我们将这种形式称为RRS。研究了另外两种替代形式:RR0，其中州的ILI估计值只是其区域的ARIMA估计值;RRR，其中州的GET查询分数替换为其父区域的查询分数。

RRS相对于RR0的准确性表明了GET和随机森林增加的价值，以及RRS相对于RRR的准确性表明了通过使用更本地化的GET数据增加的价值。由于GFT是在用于验证的六个季节中发布的，因此这三种模型形式的性能也与GFT进行了比较。

替代模型形式:将ILI作为响应

以区域ILI为响应变量，构建上述三种模型形式。由于CDC每周发布区域ILI，这些模型适用于实时操作nowcast。虽然分区域ILI的估计值没有公开提供，但州和市卫生机构有这些估计值供内部使用，值得开发和测试分区域ILI可能采用的模型形式。

另外定义了四种模型形式:SS0，一种适合ILI状态的简单ARIMA模型;SRR和SRS，除了用于训练的响应变量外，它们分别与RRR和RRS相似;SSS不直接使用任何区域信息。请参阅多媒体附件1获取这四种类型的更正式的规范。

为了比较不同的模型形式，并检验差异是否具有统计学意义，我们使用了Friedman秩和检验[41，42]然后进行Nemenyi测验[43，44］．弗里德曼检验是一种非参数检验，不假设正态性。它在每次测试尝试中对不同的模型形式进行排名，这是一个状态-季节组合，并使用排名来测试模型形式是否不同。Nemenyi检验，弗里德曼的事后检验，检查每对模型形式之间的统计显著性差异。

在RRS模型中使用的解释变量中，ARIMA组件(基于“增大化现实”技术)排名最高，其次是来自Freebase的大量实体(见图3)。在所有季节和州，RRS模型被发现具有相当高的中位数相关性，为0.84(四分位差[IQR]: 0.74-0.91;表1)。当按人口规模分层时，人口规模较大的州的中位数相关性显著高于人口规模较小的州。还观察到季节间的显著变化。人口规模大的州也被发现有较低的中位数误差(RMSE和MAPE)，但在低州和中等州之间似乎没有太大的区别。

尽管RRS模型的相关性令人鼓舞，但GFT估计值总体上和几乎所有分类组都具有更好的中位数测度。谷歌尚未公布其在分区域一级估计ILI的方法，目前尚不清楚GFT估计数是否得益于对趋势数据的更全面的访问，或者绩效收益是否仅仅是方法上的。

图3。按重要性排序的前20个特征由区域级建立的随机森林模型确定。红色的点和胡须分别表示中位数和四分位范围(IQR)，而蓝色的点是平均值。标签显示了使用该特性的模型的百分比(n=3130)。ar为自回归综合移动平均(ARIMA)分量。ENT前缀的功能是使用Freebase标识的实体。

表1。RRS、RR0、RRR模型和谷歌流感趋势(GFT)的中位数(四分位数范围)、皮尔逊相关系数(COR)、均方根误差(RMSE)和平均绝对比例误差(MAPE)。结果按州人口规模和季节分层。

测量			RRS,中位数 (四分位范围)	RR0、中值 (四分位范围)	存款准备金率,平均 (四分位范围)	GFT^一个、中值 (四分位范围)
天哪^b
	整体		0.85 (0.74 - -0.91)	0.83 (0.7 - -0.9)	0.86 (0.75 - -0.91)	0.89 (0.8 - -0.94)
	人口规模(百万)
		0 - 2 (n = 14)	0.79 (0.64 - -0.87)	0.76 (0.62 - -0.86)	0.81 (0.67 - -0.88)	0.83 (0.72 - -0.91)
		2 - 5 (n = 14)	0.84 (0.72 - -0.89)	0.82 (0.7 - -0.89)	0.84 (0.75 - -0.90)	0.9 (0.81 - -0.94)
		5 - 7.5 (n = 10)	0.84 (0.74 - -0.91)	0.82 (0.7 - -0.9)	0.86 (0.73 - -0.92)	0.89 (0.8 - -0.95)
		≥7.5 (n = 12)	0.91 (0.85 - -0.93)	0.9 (0.84 - -0.93)	0.91 (0.86 - -0.94)	0.93 (0.86 - -0.96)
	季节
		- 06	0.8 (0.62 - -0.85)	0.8 (0.62 - -0.85)	0.81 (0.64 - -0.87)	0.83 (0.71 - -0.88)
		07	0.82 (0.65 - -0.88)	0.8 (0.6 - -0.88)	0.82 (0.71 - -0.89)	0.83 (0.76 - -0.9)
		07-08	0.88 (0.81 - -0.92)	0.87 (0.79 - -0.92)	0.89 (0.82 - -0.93)	0.93 (0.87 - -0.96)
		扭转	0.75 (0.69 - -0.83)	0.71 (0.58 - -0.82)	0.78 (0.67 - -0.83)	0.81 (0.71 - -0.89)
		09-10	0.9 (0.85 - -0.93)	0.89 (0.8 - -0.93)	0.9 (0.85 - -0.93)	0.97 (0.94 - -0.98)
		外扩	0.89 (0.82 - -0.92)	0.88 (0.75 - -0.91)	0.89 (0.85 - -0.92)	0.89 (0.86 - -0.93)
RMSE^c
	整体		0.99 (0.7 - -1.51)	1.06 (0.73 - -1.56)	0.97 (0.72 - -1.54)	0.93 (0.66 - -1.33)
	人口规模(百万)
		0 - 2 (n = 14)	1.06 (0.69 - -1.58)	1.19 (0.73 - -1.62)	1.05 (0.72 - -1.6)	0.88 (0.63 - -1.29)
		2 - 5 (n = 14)	1.21 (0.84 - -1.87)	1.33 (0.92 - -1.81)	1.22 (0.83 - -1.84)	1.02 (0.78 - -1.52)
		5 - 7.5 (n = 10)	0.93 (0.65 - -1.21)	0.98 (0.72 - -1.33)	0.93 (0.61 - -1.14)	0.88 (0.67 - -1.48)
		≥7.5 (n = 12)	0.87 (0.66 - -1.01)	0.85 (0.70 - -1.08)	0.88 (0.69 - -1.01)	0.87 (0.63 - -1.16)
	季节
		- 06	0.93 (0.64 - -1.5)	0.92 (0.70 - -1.64)	0.93 (0.64 - -1.52)	0.88 (0.60 - -1.45)
		07	0.84 (0.56 - -1.16)	0.89 (0.57 - -1.16)	0.85 (0.5 - -1.1)	0.82 (0.52 - -1.13)
		07-08	1.08 (0.81 - -1.7)	1.06 (0.83 - -1.59)	0.99 (0.82 - -1.67)	1.09 (0.70 - -1.55)
		扭转	1.02 (0.77 - -1.47)	1.10 (0.79 - -1.48)	1.03 (0.79 - -1.55)	1.02 (0.79 - -1.41)
		09-10	1.31 (0.98 - -1.77)	1.40 (1.08 - -1.72)	1.28 (0.98 - -1.72)	1.05 (0.80 - -1.32)
		外扩	0.77 (0.59 - -1.16)	0.83 (0.61 - -1.26)	0.83 (0.59 - -1.15)	0.73 (0.64 - -1.20)
日军^d(/ 1000)
	整体		0.8 (0.43 - -1.75)	0.67 (0.42 - -1.54)	0.77 (0.43 - -1.62)	0.71 (0.44 - -1.51)
	人口规模(百万)
		0 - 2 (n = 14)	0.9 (0.54 - -1.7)	0.77 (0.51 - -1.41)	0.84 (0.55 - -1.55)	0.76 (0.51 - -1.56)
		2 - 5 (n = 14)	0.95 (0.48 - -1.79)	0.82 (0.44 - -1.65)	0.87 (0.45 - -1.71)	0.77 (0.41 - -1.48)
		5 - 7.5 (n = 10)	0.65 (0.36 - -1.62)	0.59 (0.37 - -1.69)	0.63 (0.35 - -1.57)	0.68 (0.4 - -1.41)
		≥7.5 (n = 12)	0.65 (0.34 - -1.64)	0.54 (0.3 - -1.34)	0.65 (0.33 - -1.5)	0.7 (0.43 - -1.54)
	季节
		- 06	1.2 (0.46 - -3.06)	0.78 (0.47 - -2.77)	0.99 (0.49 - -2.72)	1.07 (0.56 - -2.67)
		07	0.97 (0.53 - -1.84)	0.92 (0.49 - -1.81)	0.91 (0.51 - -1.67)	0.88 (0.46 - -1.48)
		07-08	0.85 (0.5 - -1.67)	0.83 (0.49 - -1.64)	0.81 (0.51 - -1.51)	0.76 (0.5 - -1.57)
		扭转	0.82 (0.47 - -1.59)	0.67 (0.43 - -1.36)	0.84 (0.43 - -1.52)	0.71 (0.44 - -1.48)
		09-10	0.73 (0.36 - -1.96)	0.64 (0.4 - -1.83)	0.74 (0.36 - -1.96)	0.63 (0.43 - -1.17)
		外扩	0.49 (0.3 - -1.04)	0.48 (0.28 - -0.96)	0.48 (0.31 - -1.04)	0.61 (0.32 - -0.93)

^一个GFT:谷歌流感趋势。

^bPearson相关系数。

^cRMSE:均方根误差。

^dMAPE:平均绝对百分比误差。

表2。后验Nemenyi检验的平均秩和统计学意义。对于每个季节状态组合，模型形式从最佳(rank=1)到最差(rank=4)进行排序。

模型	天哪^一个				RMSE^b				日军^c
	意思是排名	GFT^d	RRO	存款准备金率	意思是排名	GFT	RRO	存款准备金率	意思是排名	GFT	RRO	存款准备金率
GFT	1.91				2.33				2.45
RR0	3.07	<措施			2.75	<措施			2.24	。
存款准备金率	2.38	<措施	<措施		2.41	.89	. 01		2.43	获得	二十五分
RRS	2.63	<措施	<措施	．1	2.51	.35点	.09点	.79	2.87	<措施	<措施	<措施

^一个Pearson相关系数。

^bRMSE:均方根误差。

^cMAPE:平均绝对百分比误差。

^dGFT:谷歌流感趋势。

表2显示了模型形式的平均排名以及Friedman-Nemenyi检验的显著性结果。在四种估计中，表现最好的(相关性最高或误差最小)被分配为1级，最差的被分配为4级，并计算不同季节状态组合(n=300)的平均值。结果表明:(1)在相关性方面，GFT的平均秩最高，其次为RRR、RRS和RR0。但RRR与RRS差异无统计学意义;(2)平均秩的相对排序与RMSE相同，但RR0、RRR和RRS之间的差异不具有统计学意义;(3) RR0排序最好，MAPE次之，GFT次之。RRR和RRS的平均等级显著较高。

总体而言，RRR模型的性能与RRS模型相当，这表明在这里描述的模型中使用的状态本地化GET数据并不能提高临近预报的精度。因为RR0降低(降低)相关性，不改变RMSE并显著降低(改善)MAPE，因此完全忽略GET数据的效果仍然不确定。

将比较扩展到使用状态ILI作为响应变量构建的模型表单(表3；图4而且5)后，误差明显减少。中位数RMSE和MAPE (图4)在人口较多的州和大多数季节，SRS、SRR和SSS模型的总体强度均低于GFT。与RR*相比，也有明显的改善(图5)。然而，所有四种模型的相关性中位数都明显较低，尤其是SS0模型。

表3。谷歌流感趋势(GFT)、SS0、SRR、SRS和SSS模型的中位数(四分位数范围)、皮尔逊相关系数(COR)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)。结果按州人口和季节分层。

测量			GFT^一个、中值 (四分位范围)	SS0、中值 (四分位范围)	SRR、中值 (四分位范围)	SRS,中位数 (四分位范围)	SSS、中值 (四分位范围)
天哪^b
	整体		0.89 (0.8 - -0.94)	0.56 (0.4 - -0.75)	0.8 (0.7 - -0.88)	0.8 (0.7 - -0.88)	0.74 (0.61 - -0.83)
	人口规模(百万)
		0 - 2 (n = 14)	0.83 (0.72 - -0.91)	0.46 (0.31 - -0.66)	0.74 (0.57 - -0.82)	0.71(0.56 0。8)	0.62 (0.55 - -0.74)
		2 - 5 (n = 14)	0.9 (0.81 - -0.94)	0.58 (0.42 - -0.76)	0.78 (0.72 - -0.87)	0.8 (0.72 - -0.85)	0.73 (0.66 - -0.81)
		5 - 7.5 (n = 10)	0.89 (0.8 - -0.95)	0.51 (0.36 - -0.64)	0.83 (0.7 - -0.88)	0.81 (0.73 - -0.88)	0.75 (0.63 - -0.82)
		≥7.5 (n = 12)	0.93 (0.86 - -0.96)	0.73 (0.48 - -0.85)	0.88 (0.79 - -0.92)	0.89 (0.8 - -0.92)	0.86 (0.72 - -0.91)
	季节
		- 06	0.83 (0.71 - -0.88)	0.72 (0.56 - -0.85)	0.78 (0.68 - -0.86)	0.76 (0.62 - -0.86)	0.74 (0.66 - -0.86)
		07	0.83 (0.76 - -0.9)	0.75 (0.61 - -0.84)	0.8 (0.7 - -0.88)	0.8 (0.64 - -0.87)	0.8 (0.72 - -0.89)
		07-08	0.93 (0.87 - -0.96)	0.61 (0.47 - -0.77)	0.87 (0.78 - -0.92)	0.86 (0.78 - -0.9)	0.81 (0.73 - -0.86)
		扭转	0.81 (0.71 - -0.89)	0.37 (0.28 - -0.44)	0.7 (0.59 - -0.8)	0.74 (0.58 - -0.79)	0.57 (0.45 - -0.68)
		09-10	0.97 (0.94 - -0.98)	0.51 (0.39 - -0.73)	0.82 (0.75 - -0.89)	0.82 (0.74 - -0.89)	0.74 (0.63 - -0.85)
		外扩	0.89 (0.86 - -0.93)	0.47 (0.33 - -0.6)	0.82 (0.75 - -0.88)	0.81 (0.75 - -0.88)	0.71 (0.63 - -0.78)
RMSE^c(1 e - 3)
	整体		0.93 (0.66 - -1.33)	1.07 (0.68 - -1.84)	0.84 (0.54 - -1.25)	0.86 (0.55 - -1.27)	0.9 (0.55 - -1.35)
	人口规模(百万)
		0 - 2 (n = 14)	0.88 (0.63 - -1.29)	1.17 (0.61 - -1.92)	0.96 (0.55 - -1.47)	0.96 (0.62 - -1.49)	0.92 (0.58 - -1.44)
		2 - 5 (n = 14)	1.02 (0.78 - -1.52)	1.37 (0.83 - -2.13)	1.04 (0.7 - -1.54)	1.11 (0.62 - -1.57)	1.11 (0.66 - -1.68)
		5 - 7.5 (n = 10)	0.88 (0.67 - -1.48)	0.99 (0.66 - -1.79)	0.74 (0.49 - -1.07)	0.71 (0.51 - -1.14)	0.79 (0.55 - -1.24)
		≥7.5 (n = 12)	0.87 (0.63 - -1.16)	0.91 (0.64 - -1.49)	0.69 (0.43 - -1.05)	0.67 (0.41 - -0.99)	0.74 (0.46 - -1.01)
	季节
		- 06	0.88 (0.60 - -1.45)	0.81 (0.49 - -1.47)	0.71 (0.5 - -1.11)	0.68 (0.49 - -1.13)	0.64 (0.46 - -1.06)
		07	0.82 (0.52 - -1.13)	0.70 (0.48 - -1.02)	0.59 (0.43 - -0.88)	0.58 (0.42 - -0.94)	0.56 (0.41 - -0.83)
		07-08	1.09 (0.70 - -1.55)	1.36 (0.78 - -1.85)	0.91 (0.54 - -1.27)	0.95 (0.58 - -1.37)	0.97 (0.6 - -1.42)
		扭转	1.02 (0.79 - -1.41)	1.21 (0.92 - -1.98)	0.95 (0.69 - -1.31)	0.93 (0.67 - -1.26)	1.05 (0.78 - -1.4)
		09-10	1.05 (0.80 - -1.32)	1.91 (1.28 - -2.44)	1.34 (0.9 - -1.9)	1.37 (0.92 - -1.92)	1.53 (1.01 - -1.9)
		外扩	0.73 (0.64 - -1.20)	1.00 (0.73 - -1.62)	0.73 (0.5 - -1.04)	0.7 (0.51 - -1.1)	0.86 (0.58 - -1.16)
日军^d
	整体		0.71 (0.44 - -1.51)	0.58 (0.38 - -0.8)	0.54 (0.33 - -0.9)	0.61 (0.34 - 1)	0.61 (0.35 - -1.02)
	人口规模(百万)
		0 - 2 (n = 14)	0.76 (0.51 - -1.56)	0.68 (0.48 - -0.86)	0.76 (0.5 - -1.36)	0.84 (0.56 - -1.44)	0.82 (0.58 - -1.28)
		2 - 5 (n = 14)	0.77 (0.41 - -1.48)	0.63 (0.36 - -0.85)	0.58 (0.36 - -0.9)	0.64 (0.39 - 1)	0.68 (0.37 - -1.02)
		5 - 7.5 (n = 10)	0.68 (0.4 - -1.41)	0.58 (0.39 - -0.74)	0.41 (0.31 - -0.75)	0.46 (0.32 - -0.86)	0.55 (0.34 - -0.92)
		≥7.5 (n = 12)	0.7 (0.43 - -1.54)	0.4 (0.31 - -0.59)	0.38 (0.2 - -0.59)	0.37 (0.2 - -0.69)	0.41 (0.24 - -0.61)
	季节
		- 06	1.07 (0.56 - -2.67)	0.59 (0.39 - -0.8)	0.68 (0.4 - -0.93)	0.77 (0.41 - -1.12)	0.74 (0.38 - -1.08)
		07	0.88 (0.46 - -1.48)	0.54 (0.36 - -0.71)	0.51 (0.32 - -0.84)	0.62 (0.35 - -0.94)	0.58 (0.3 - -0.89)
		07-08	0.76 (0.5 - -1.57)	0.69 (0.4 - -0.83)	0.54 (0.38 - -0.78)	0.62 (0.41 - -0.94)	0.62 (0.38 - -0.81)
		扭转	0.71 (0.44 - -1.48)	0.57 (0.42 - -0.77)	0.62 (0.37 - -1.01)	0.66 (0.36 - -0.93)	0.68 (0.39 - -1.14)
		09-10	0.63 (0.43 - -1.17)	0.59 (0.36 - -0.85)	0.52 (0.31 - -1.25)	0.59 (0.31 - -1.38)	0.67 (0.37 - -1.14)
		外扩	0.61 (0.32 - -0.93)	0.5 (0.35 - -0.85)	0.38 (0.26 - -0.67)	0.38 (0.26 - -0.75)	0.43 (0.31 - -0.83)

^一个GFT:谷歌流感趋势。

^bPearson相关系数。

^cRMSE:均方根误差。

^dMAPE:平均绝对百分比误差。

图4。不同模型的测度形式A: Pearson相关系数(COR);B:均方根误差(RMSE);C:平均绝对百分比误差(MAPE)。左:方框和胡须显示了每个模型形式的中位数、四分位间距(IQR)和极值(1.5×IQR)。彩色区域是显示概率密度的小提琴图。右:模型相对秩分布热图;更频繁的行列颜色更深。

图5。模型在三个测度上的两两图形式为A: Pearson相关系数(COR);B:均方根误差(RMSE);C:平均绝对百分比误差(MAPE)。沿着对角线的子面板显示了模型形式的测量密度。下三角形的子面板是表示状态季节的散点图(n=300)。在黑线上或靠近黑线(y=x)的点是状态季节，其中对模型形式具有相似的度量(相关性或误差)。上三角形中的子面板是图区域的每个二维(2D)网格中的点计数的热图(黄色为低计数，红色为高计数)。例如，比较RRS和SS0的相关性，可参见A的(5,4)散点图或(4,5)热图。

表4。后验Nemenyi检验的平均秩和统计学意义。对于每个季节状态组合，模型形式从最佳(rank=1)到最差(rank=8)进行排序。

测量	模型	意思是排名	GFT^一个	RRO	存款准备金率	RRS	SS0	SRR	SRS
皮尔逊相关系数(COR)	GFT	2.67
	RR0	4.55	<措施
	存款准备金率	3.34	.002	<措施
	RRS	3.68	<措施	<措施	.68点
	SS0	6.87	<措施	<措施	<措施	<措施
	SRR	4.37	<措施	.98点	<措施	. 01	<措施
	SRS	4.75	<措施	.97点	<措施	<措施	<措施	55
	瑞士	5.73	<措施	<措施	<措施	<措施	<措施	<措施	<措施
均方根误差(RMSE)	GFT	4.46
	RR0	5.27	.002
	存款准备金率	4.68	.96点	06
	RRS	4.82	.62	.35点	获得
	SS0	5.77	<措施	.19	<措施	<措施
	SRR	3.34	<措施	<措施	<措施	<措施	<措施
	SRS	3.71	.005	<措施	<措施	<措施	<措施	收
	瑞士	3.96	．2	<措施	<措施	<措施	<措施	.04点	.92
平均绝对比例误差(MAPE)	GFT	5.26
	RR0	4.91	主板市场
	存款准备金率	5.18	获得	.89
	RRS	5.7	.37点	.002	酒精含量
	SS0	3.75	<措施	<措施	<措施	<措施
	SRR	3.17	<措施	<措施	<措施	<措施	07
	SRS	3.93	<措施	<措施	<措施	<措施	获得	<措施
	瑞士	4.09	<措施	措施	<措施	<措施	i =	<措施	获得

^一个GFT:谷歌流感趋势。

Friedman-Nemenyi检验结果(见表4，表明SRS的RMSE平均秩最低，除SRR模型外，与其他模型相比差异有统计学意义。SS0的MAPE平均排名最低，但与SRS或SRR没有统计学差异。同样有趣的是，继续使用ARIMA拟合区域ILI (SRR和SRS)的模型匹配或优于那些使用ARIMA拟合状态ILI (SS0和SSS)的模型。

主要研究结果

我们描述了一种利用GET在分区域水平上对ILI进行nowcast的方法，并根据美国六个流感季节和50个州的真实监测数据验证了所开发的模型。研究发现，该方法比自回归模型提供了改进的估计，但相对于GFT表现不佳。在大多数情况下，使用分区域一级监测数据的方法的变体优于GFT。

我们的研究结果支持了其他研究小组的早期发现，即ARIMA模型本身以及与其他方法结合使用在临近预报ILI中的适用性。这尤其适用于非常小的环境，例如医院或农村县卫生部门，在这些地方可以获得ILI的内部估计，而且短期预测对资源规划很有意义。

研究还发现，通过GET API访问的数据在更细的地理粒度上是稀疏的，仅依赖于搜索趋势数据的方法可能不适用于本地化的nowcast。这里描述的继承方法在一定程度上解决了这个问题，因为测试继承对模型性能的影响发现，继承提高了整体的相关性，特别是在人口较少的状态下;但对RMSE无显著影响，MAPE (多媒体附件1；图S3)。需要进行额外的分析来确定场景，例如，当一个状态的信号低于父区域的一部分或低于由历史似然确定的阈值时，在这种情况下继承是有用的。将替代数据流(如电子健康记录和社交媒体)作为随机森林模型的附加特征，可以消除对继承的需要，并潜在地改进即时预测。

S*模型使用州级ILI作为训练响应变量，其误差的减少使得每周公开发布这一信息成为理由。CDC通过汇总美国门诊ILI监测网(ILINet)每周由美国约2000名门诊卫生保健提供者提交的数据来估计HHS地区的ILI。从理论上讲，分区域级别的数据聚合是可能的，但对患者和提供者的隐私存在担忧。然而，考虑到我们的研究发现，无论是否使用分区域GET，依赖区域ILI都会产生较差的分区域nowcast，而且这些nowcast仅比使用区域ILI作为分区域ILI的代理略好，也许有必要重新考虑隐私方面的具体问题，并探索可能允许在分区域级别发布ILINet数据的匿名化方法。

由于一个HHS区域内的所有州都有相同的RRR nowcast估计，RRR和GFT在nowcast中的表现区域ILI可以进行比较。对于所使用的三种精度测量中的任何一种，在区域水平上，RRR nowcast和GFT之间没有发现显著差异多媒体附件1；表S4)。然而，在状态级别上，GFT优于R*模型的性能需要进一步分析。虽然我们对GFT模型形式知之甚少，但我们认为谷歌无法获得分区域CDC ILI数据来训练分区域模型。因此，GFT市级和州级的ILI估计可能是区域模型的外推，类似于这里描述的R*模型。这可能也解释了为什么我们的S*模型在RMSE和mof方面优于GFT——通过在州一级建立模型，州一级ILI数据相对于母区域的偏差被消除了，从而减少了误差(这种隐式偏差修正确实被观察到;看到多媒体附件1；图S4)。如果GFT与现在通过GET公开获得的搜索趋势具有相同的访问权限，那么相对于R*模型的优越GFT分区域nowcast表明，这里提出的特征集和学习方法都需要进一步改进。另一方面，如果GFT拥有对GET的完全(100%)访问权，那么它相对于R*模型的优越性能可能更多地源于访问权的差异。

上面报道的验证方法的一个局限性是它没有考虑到ILI数据的后修订。疾病控制与预防中心的ILI估计在最初发布后的几周内更新，因为其他提供者提交了延迟的数据。我们无法获得关于州级ILI如何随时间更新的信息，但只能获得最终稳定的ILI。如果这个详细版本的数据集可用，则可以将使用ILI的瞬时估计生成的nowcast与最终的稳定ILI进行比较，从而获得更可靠的验证。

结论

总的来说，研究结果表明，只要这些尺度上的数据仍然受到限制，对更多局部尺度的近铸外推可能仍然具有挑战性。由于公共卫生干预措施和医院规划可以从及时和本地化的ILI估计中受益，因此放松这些限制可能是有必要的。

致谢

这项工作得到了美国国立卫生研究院(NIH;GM110748给JS和SK;GM100467到JS)。资助者在研究设计、数据收集和分析、发表决定或手稿准备中没有任何作用。作者要感谢Christian Stefansen和谷歌Health Trends团队在API和数据方面的有益讨论和帮助，以及Mehmet Turkcan在一些模型表单的早期版本开发方面的合作。

利益冲突

JS声明SK Analytics的部分所有权。SK是SK Analytics的承包商。

‎

多媒体附件1

支持信息。

PDF档案(adobepdf档案)，1MB

谁。流感(季节性)情况说明网址:http://www.who.int/mediacentre/factsheets/fs211/en/[访问时间:2017-09-04][WebCite缓存］
谁。流感疫苗网址:http://www.who.int/biologicals/vaccines/influenza/en/[访问时间:2017-09-04][WebCite缓存］
徐杰，Murphy SL, Kochanek KD, Bastian BA。死亡人数:2013年最终数据。中国生物医学杂志2016;32 (2):1-119 [免费全文] [Medline］
疾病预防控制中心。美国流感监测概况http://www.cdc.gov/flu/weekly/overview.htm[访问时间:2017-09-04][WebCite缓存］
疾病预防控制中心。FluView交互式URL:https://gis.cdc.gov/grasp/fluview/fluportaldashboard.html[访问时间:2017-09-04][WebCite缓存］
Ginsberg J, Mohebbi MH, Patel RS, Brammer L, Smolinski MS, Brilliant L.利用搜索引擎查询数据检测流感流行。自然杂志2009年2月19日;457(7232):1012-1014。［CrossRef] [Medline］
Lampos V, Miller AC, Crossan S, Stefansen C.利用搜索查询日志预测流感样疾病率的进展。科学通报2015年8月03日;5:12760 [免费全文] [CrossRef] [Medline］
杨松，杨春梅，寇春生。基于ARGO的谷歌搜索数据对流感流行的准确估计。Proc Natl Acad Sci U S A 2015年11月24日;112(47):14473-14478 [免费全文] [CrossRef] [Medline］
Eysenbach G, Köhler C.互联网上与健康相关的搜索。美国医学杂志2004年6月23日;291(24):2946。［CrossRef] [Medline］
信息流行病学:在网上跟踪流感相关搜索以进行症状监测。AMIA年度诉讼程序2006:244-248 [免费全文] [Medline］
Polgreen PM, Chen Y, Pennock DM, Nelson FD。利用互联网搜索进行流感监测。临床感染杂志2008年12月1日;47(11):1443-1448。［CrossRef] [Medline］
Dredze M, Paul MJ, Bergsma S, Tran H. Carmen:应用于公共卫生的twitter地理定位系统。2013年发表于:AAAI利用人工智能扩大卫生信息学边界研讨会(HIAI);2013年7月14-18日;贝尔维尤，美国华盛顿。
Paul MJ, Dredze M, Broniatowski D.推特改善流感预测。PLoS Curr 2014年10月28日;6:1-2 [免费全文] [CrossRef] [Medline］
McIver DJ, Brownstein JS。维基百科的使用几乎实时地估计了美国流感样疾病的流行率。公共科学图书馆计算生物学2014年4月;10(4):e1003581 [免费全文] [CrossRef] [Medline］
李志强，李志强，李志强，等。使用维基百科预测2013-2014年流感季节。PLoS compput biology 2015年5月;11(5):e1004239 [免费全文] [CrossRef] [Medline］
Ray J, Brownstein J.利用健康地图数据预测流感活动。2015年出席:DTRA化学生物防御会议;2015年5月12-14日;地址:密苏里州圣路易斯https://www.osti.gov/scitech/servlets/purl/1251371
Smolinski MS, Crawley AW, Baltrusaitis K, Chunara R, Olsen JM, Wójcik O，等。你身边的流感:跨越两个流感季节的众包症状报告。中华医学会公共卫生杂志2015年10月;105(10):2124-2130。［CrossRef] [Medline］
桑蒂兰娜M，阮AT, Dredze M，保罗MJ, Nsoesie EO, Brownstein JS。结合搜索、社交媒体和传统数据源，改善流感监测。公共科学图书馆计算生物学2015年10月;11(10):e1004513 [免费全文] [CrossRef] [Medline］
法罗D. 2016。为流感的过去、现在和未来建模URL:https://delphi.midas.cs.cmu.edu/~dfarrow/thesis.pdf[已访问2017-10-08][WebCite缓存］
谷歌研究博客。流感趋势的下一章网址:https://research.googleblog.com/2015/08/the-next-chapter-for-flu-trends.html[访问时间:2017-09-04][WebCite缓存］
桑蒂兰娜M，张dw, Althouse BM, Ayers JW。数字疾病检测可以从谷歌流感趋势(外部修订)中学到什么?中华预防医学杂志2014年9月47(3):341-347。［CrossRef] [Medline］
Tibshirani R. 1996。通过套索回归收缩和选择网址:https://statweb.stanford.edu/~tibs/lasso/lasso.pdf[已访问2017-10-08][WebCite缓存］
Olson DR, Konty KJ, Paladini M, Viboud C, Simonsen L.重新评估谷歌流感趋势数据以检测季节性和大流行性流感:三个地理尺度的比较流行病学研究计算机科学进展，2013;29 (10):e1003256 [j]免费全文] [CrossRef] [Medline］
波列特，鲍斯卡丁，阿齐兹-鲍姆加特纳，Tinoco YO，索托G，罗梅罗C，等。评估拉丁美洲谷歌流感趋势:下一阶段数字疾病检测的重要经验教训。中国临床感染杂志2017年1月1日;64(1):34-41。［CrossRef] [Medline］
美国卫生与公众服务部。卫生与公众服务部区域办事处。URL:https://www.hhs.gov/about/agencies/regional-offices/index.html[访问时间:2017-09-04][WebCite缓存］
谷歌。谷歌相关URL:https://www.google.com/trends/correlate[访问时间:2017-09-04][WebCite缓存］
莫赫比M，范德卡姆D，柯德德J, Schonberger R，崔H，库马尔S.谷歌。谷歌相关白皮书URL:https://www.google.com/trends/correlate/whitepaper.pdf[访问时间:2017-09-04][WebCite缓存］
张伟。2013。使用动态更新的套索回归和谷歌搜索查询开发美国流感活动的实时估计http://www.people.fas.harvard.edu/~msantill/Mauricio_Santillana/Teaching_files/D_Zhang_thesis_final.pdf[访问时间:2017-09-04][WebCite缓存］
Bollacker K, Evans C, Paritosh P, Sturge T, Taylor J. Freebase:用于构建人类知识的协作创建的图形数据库。2008年发表于:ACM SIGMOD数据管理国际会议;2008年6月9日至12日;温哥华，卑诗省，加拿大。
张志刚，张志刚。基于状态空间的时间序列分析方法。英国牛津:牛津大学出版社;2012.
汉密尔顿JD。时间序列分析。普林斯顿，新泽西州:普林斯顿大学出版社;1994.
雷普利，2002。R 1.5.0中的时间序列https://www.r-project.org/doc/Rnews/Rnews_2002-2.pdf[已访问2017-10-08][WebCite缓存］
Broniatowski DA, Paul MJ, Dredze M.通过Twitter进行国家和地方流感监测:2012-2013年流感流行的分析。PLoS One 2013;8(12):e83672 [免费全文] [CrossRef] [Medline］
Broniatowski DA, Dredze M, Paul MJ, Dugas a .利用社交媒体在内城医院进行当地流感监测:一项回顾性观察性研究。JMIR公共卫生监测2015年;1(1):e5 [免费全文] [CrossRef] [Medline］
刘志强，李志强，李志强，等。基于时间序列的自动预测方法:基于时间序列的预测方法。中国科学(d辑)，2008;27(3):2008。［CrossRef］
Hyndman R.预测函数的时间序列和线性模型https://cran.r-project.org/web/packages/forecast/index.html[访问时间:2017-09-04][WebCite缓存］
李志强，李志强。统计学习的要素:数据挖掘、推断和预测。纽约州纽约:施普林格;2009.
随机森林。Mach Learn 2001;45(1):5-32。［CrossRef］
2002。关于设置，使用和理解随机森林v3.1的手册https://www.stat.berkeley.edu/~breiman/Using_random_forests_V3.1.pdf[访问时间:2017-09-04][WebCite缓存］
疾病预防控制中心。MMWR周网址:https://wwwn.cdc.gov/nndss/document/MMWR_week_overview.pdf[访问时间:2017-09-04][WebCite缓存］
用秩来避免方差分析中隐含的正态假设。美国统计杂志1937年12月32日(200):675-701。［CrossRef］
李国强，李国强。非参数统计方法。新泽西州霍博肯:威利;2013.
无分布多重比较。普林斯顿，新泽西州:普林斯顿大学;1963.
波勒特。2014。PMCMR:计算平均排名和的成对多次比较https://cran.r-project.org/web/packages/PMCMR/index.html[访问时间:2017-09-04][WebCite缓存］
lilaw A, Wiener M. cognes，西北。2002.随机森林分类和回归http://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf［WebCite缓存］
R核心团队。r项目。2013.R:统计计算语言和环境URL:http://www.r-project.org/［WebCite缓存］

‎

API:应用程序编程接口

华宇电脑:自回归综合移动平均

疾病预防控制中心:疾病控制和预防中心

得到:谷歌扩展趋势

GFT:谷歌流感趋势

美国卫生和公众服务部:美国卫生与公众服务部

伊犁:流感样疾病

ILINet:美国门诊流感样疾病监测网络

差:四分位范围

日军:平均绝对百分比误差

MMWR:发病率和死亡率周报

RMSE:均方根误差

编辑:A Keepanasseril;提交10.02.17;M Santillana, D Broniatowski同行评审;作者评论07.04.17;修订本收到13.06.17;接受15.08.17;发表06.11.17

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

利用搜索趋势的季节性流感分区域即时预报

利用搜索趋势的季节性流感分区域即时预报

原始论文

通讯作者:

摘要

关键字

简介

方法

概述

谷歌GET (Extended Trends)应用程序接口

特征识别

自回归综合移动平均

随机森林

模型公式

验证

替代模型表格

替代模型形式:将ILI作为响应

结果

讨论

主要研究结果

结论

致谢

利益冲突

多媒体附件1

参考文献

缩写