发表在9卷(2023)

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/34982,首次出版
肠胃炎预测评估使用线性和非线性方法的网络和电子健康记录数据:比较研究

肠胃炎预测评估使用线性和非线性方法的网络和电子健康记录数据:比较研究

肠胃炎预测评估使用线性和非线性方法的网络和电子健康记录数据:比较研究

原始论文

1美国马萨诸塞州波士顿哈佛医学院儿科学系

2计算健康信息学计划,波士顿儿童医院,波士顿,马萨诸塞州,美国

3.法国雷恩国家健康与健康研究所,1999年

4雷恩大学信号与图像处理实验室,雷恩,法国

5雷恩大学医院中心,雷恩,法国

6哈佛大学陈曾熙公共卫生学院,波士顿,马萨诸塞州,美国

7美国东北大学网络科学研究所健康与环境改善机器智能小组,波士顿,马萨诸塞州

8雷恩大学1系,雷恩,法国

9雷恩mathassmatique de雷恩研究所,雷恩,法国

10法国雷恩第一大学,法国雷恩国立健康与健康研究中心,法国雷恩

这些作者的贡献相同

通讯作者:

Canelle Poirier博士

计算健康信息学计划

波士顿儿童医院

朗伍德大道300号

波士顿,马萨诸塞州,02115

美国

电话:1 617 355 6000

电子邮件:canelle.poirier@outlook.fr


背景:能够产生准确的实时和短期预报的疾病监测系统可以帮助公共卫生官员设计及时的公共卫生干预措施,以减轻疾病暴发对受影响人群的影响。在法国,现有的基于临床的疾病监测系统产生的肠胃炎活动信息实时滞后1至3周。这一时间性数据差距使公共卫生官员无法及时掌握这一疾病在任何时间点的流行病学特征,从而导致在设计干预措施时没有考虑到最新的动态变化。

摘要目的:本研究的目的是评估使用互联网搜索查询趋势和电子健康记录在国家和地区尺度上近实时预测急性胃肠炎(AG)发病率的可行性,并进行长期预测(长达10周)。

方法:我们提出了两种不同的方法(线性和非线性),在法国2个不同的空间尺度(国家和地区)对农业活动进行实时估计、短期预测和长期预测。这两种方法都利用不同的数据源,包括与疾病相关的互联网搜索活动、电子健康记录数据和历史疾病活动。

结果:我们的研究结果表明,所有数据来源都有助于改善胃肠炎监测的长期预测,由于这种疾病的强烈季节性动态,历史数据的预测能力突出。

结论:我们开发的方法可以通过预测最多10周的活动增加来帮助减少AG峰值的影响。

中华医学会公共卫生监测杂志,2009;9:391 - 391

doi: 10.2196/34982

关键字



背景

急性胃肠炎(AG)是世界范围内的一个主要公共卫生问题[1]。通常定义为在过去24小时内腹泻或呕吐[2],银屑病是青年人发病和死亡的主要原因之一,每年在世界各地造成多达250万5岁以下儿童死亡[3.]。虽然它通常是一种轻微的疾病,但其发病率和经济负担很高[4]。在法国,每年约有2100万集《AG》[5]。虽然全年都有发作,但冬季为高峰,主要是由于诺如病毒和轮状病毒[67]。在这些高峰期间,全科医生和急诊科或儿科就诊的增加导致卫生保健系统中断[8]。

能够产生准确的实时和短期预报的疾病监测系统可以帮助公共卫生官员设计及时的公共卫生干预措施,以减轻疾病暴发对受影响人群的影响。在法国,在医疗预约期间看到的所有急性腹泻病例每周都由志愿门诊保健提供者报告。然后,通过考虑定点医生的数量和相关地区的医疗密度,在全国或区域范围内计算出银发病率的估计[9]。然而,数据收集、处理、聚合和分发过程会导致AG活动信息的可用性延迟长达3周。这种时间上的数据差距使公共卫生官员无法及时了解抗原活动,从而导致干预措施的设计没有考虑到疾病动态的最新变化。因此,人们越来越有兴趣寻找新的方法来减轻这种信息差距[1011]。

为了减轻这一时间差,一些研究提出了产生准确和可靠的实时疾病活动估计的方法,例如监测流感[11-14]。对于AG,研究的重点是确定该疾病的临床特征。诺如病毒及轮状病毒是导致大多数肠胃炎爆发的病毒[6715-18]。该疾病具有较强的冬季季节性,但这种季节性可能受到气候变化的影响,从而影响诺如病毒的传播、宿主对诺如病毒感染的易感性以及诺如病毒对环境条件的抗性。这可能导致每年的病例数出现较大波动[67]。AG仍然是住院治疗的主要原因,特别是对儿童而言,使用疫苗可以帮助减少该疾病的影响[1618]。一些研究小组已经评估了数据来源(例如,药品报销数据和急诊科就诊)与全科医生就诊之间的相关性[3.19]。其他研究显示,在不同地区,如美国、墨西哥、英国和法国,互联网搜索查询趋势与银屑病发病率之间存在显著相关性[20.21]。然而,据我们所知,没有一个[22],提出了一种预测AG活动的可行方法。通过本研究,我们调查了实现这一目标的挑战,并提出了一种可靠的预测方法。

技术现状

现有的其他疾病暴发(如流感)预报系统包括利用接近实时信息的统计模型[11-14]。b谷歌流感趋势研究是最早也是最著名的研究之一。23],这是b谷歌运营的一个基于网络的服务。该平台创建于2009年,使用选定谷歌搜索词的量来实时估计流感活动。但是,由于这次大流行的特殊性质或由于宣布大流行最终没有出现,人们的搜索行为发生了变化,因此在出现几次预测错误后,web服务停止了。[24]。在此之后,一些作者更新了谷歌流感趋势算法以改进流感预测,包括谷歌关联和谷歌趋势网络服务和其他来源的数据,例如,历史流感信息[11]。互联网并不是唯一可以用来实时产生信息的数据源。随着患者电子健康记录(EHRs)的广泛采用,医院也产生了大量的数据。bouzill等[25显示电子病历与流感发病率密切相关。一些作者提出了利用电子病历实时预测流感发病率的统计模型[1226]。此外,其他研究显示,互联网用户的搜索量与流感流行和其他疾病密切相关,包括流感[821]。

在这项研究中,我们评估了使用互联网搜索查询趋势和电子病历在国家和地区尺度上近实时预测AG发病率的可行性,并进行了长期预测(长达10周)。我们使用了两种不同的方法——使用Elastic Net的线性方法和使用随机森林(RF)的非线性方法。此外,由于银屑病暴发会对医院和急诊科造成干扰,我们估计了急诊科和住院时间层面的银屑病发病率。


需要预测的变量

国家层面上

我们从法国哨兵网络获得了全国(法国大都会)急性腹泻每周发病率(每10万居民)[27],从2008年1月至2018年3月。我们在2018年4月检索了这些数据。

区域层面

我们从法国哨兵网络获得了区域(布列塔尼地区)急性腹泻发病率(每10万居民)[27],从2008年1月至2018年3月。我们选择布列塔尼地区是因为我们使用了她在布列塔尼一家医院的数据。我们在2018年4月检索了这些数据。

预测变量

网络数据

我们从谷歌correlation[]中获得了每周100个最相关的法语查询的频率。28]。对于每个要预测的信号(国家和地区水平),我们检索了2008年1月至2018年3月期间的谷歌相关数据。由于我们的预测期为2014年5月至2018年2月,故相关系数计算时间为2008年1月至2014年4月。所有信号归一化得到均值0和SD 1,然后计算相关性。关联的原因是在没有先前知识的情况下选择最合适的查询来预测爆发[29]。由于法国和布列塔尼的每周发病率不同,因此获得的国家和地区级别最相关的查询可能不同。

临床数据

我们使用的数据来自雷恩大学医院(法国)的临床数据仓库(CDW),名为entrepôt de donn de l 'HÔPital (eHOP)。该CDW包括结构化(实验室检查结果、处方、国际疾病和相关健康问题统计分类第10版诊断)和非结构化(出院信、病理报告和手术报告)患者数据,来自120万住院和门诊患者以及4500万份文件。为了识别具有特定标准的患者,eHOP拥有自己的搜索引擎系统,允许查询带有关键字的非结构化数据或带有基于术语的代码的结构化数据。

首先,为了检索与胃肠炎相关的临床数据,我们执行了不同的全文查询(与胃肠炎、其症状、病毒或治疗相关)。这些查询允许获得与搜索条件匹配的所有文件(通常是一个病人和一次住院的多个文件)。然后,对于每个星期,我们保留1名患者和1次住院的最老文档,并计算至少有一个文档提到查询中包含的关键字的住院次数。由于我们使用了19个关键词,我们从CDW eHOP中得到了19个变量。

然后,我们构建了一个包含由结构化数据构建的时间序列的数据库(总共n=1,335,347个时间序列)。对谷歌相关进行分级,我们计算了国家和地区发病率与数据库时间序列之间的Pearson相关性。我们检索了100个最相关的信号。由于我们的预测期为2014年5月至2018年2月,我们计算了2008年1月至2014年4月的相关性。

总的来说,我们获得了119个变量(n= 19,15.9%的变量来自全文查询,n= 100,84%的变量来自结构化数据)。100个最相关的变量在国家和地区层面上可能是不同的。我们于2018年4月检索了2008年1月至2018年3月期间的电子病历数据。如果需要,可以实时提取所有这些数据。

历史数据

我们使用前52周的发病率作为国家和地区水平的预测变量。

伦理批准

本研究经雷恩学术医院当地伦理委员会批准(批准号16.69)。

统计模型

线性方法

为了最大限度地减少使用大量输入变量(可能包括冗余信息)的负面影响,我们使用了Elastic Net,这是一种可以识别简约模型的正则化多元回归方法[30.]。Elastic Net结合了Lasso和Ridge回归的强大功能,允许对高度相关的变量进行变量选择[3132]。我们使用弹性网进行回归分析脱字符号软件包(R Foundation for Statistical Computing)和相关函数与glmnet方法(3334]。我们固定了一个系数λ=0.5,以给予Ridge和Lasso方法同样的重要性。

我们的模型公式如下:

其中,yT为T= T、T +1、T +2、T +3时刻(不同预测水平)的AG发病率;表示历史变量,表示谷歌数据,为EHR数据表示残差。

对于给定的一周,我们需要找到参数,α=(α)1, . .α52),β=(β1, . .βOne hundred.),且γ=(γ1, . .γ119),将以下内容最小化:

在这里,是Elastic Net回归的超参数。我们使用10块交叉验证来优化参数。所有参数(α=[α1, . .α52],[ββ=1, . .βOne hundred.], γ=[γ]1, . .γ119])每周使用滚动窗口使用所有可用数据进行动态训练。通过这种方式,我们的训练数据集的规模每周都在增加。例如,对于2015年1月的第一周,我们的训练数据集从2008年1月到2014年12月的最后一周。为了预测2016年1月的第一周,我们的训练数据集范围从2008年1月到2015年12月的最后一周。我们获得了2014年5月至2018年2月的估算值。

非线性方法

RF是一种非线性机器学习方法,基于使用一般自举聚合技术(称为bagging)构建多个决策树[35]。我们使用这种方法是因为即使与其他机器学习方法(如支持向量机或神经网络)或传统方法(如自回归集成移动平均)相比,它在短期预测中也表现出良好的性能[3637]。

对于RF, AG的发病率由以下公式得出:

在这里,yT为T= T、T +1、T +2、T +3时刻(不同预测水平)的AG发病率表示通过决策树b获得的AG发病率估计值。我们使用R包,randomForest38,来创建我们的射频模型。在2008年1月至2014年5月的训练数据集上优化决策树数量和每次分割随机抽样变量数量对应的超参数。然后,对于Elastic Net模型,通过整合所有可用数据,动态地重新校准RF,以适应每一个新的预测周。我们获得了2014年5月至2018年2月的估算值。

每个数据源的贡献

此外,为了评估每个单独数据源或其组合的贡献,我们使用以下预测变量构建了Elastic Net和RF模型:

  1. 前52周的AG发病率-基线模型称为52阶自回归模型(AR(52))
  2. 谷歌数据
  3. 电子健康档案数据
  4. 谷歌数据和AR(52)
  5. 电子病历数据和AR(52)
  6. 谷歌数据和EHR数据

评价

为了评估我们模型的性能,我们将我们的估计与Sentinel网络的实际发病率进行了比较。我们计算了2014年5月至2018年2月的测试期的均方根误差和Pearson相关系数。能够获得最准确估计的模型是具有最高相关性和最小误差的模型:

在这里,是第t周的预测值,预测值的均值是y吗t第t周的真实值是多少是实值的均值。

与流感的比较

由于我们使用了为流感暴发开发的方法,我们将获得的AG结果与获得的流感结果进行了比较。其目的是确定外部数据来源与流感的相关性是否相同。我们首先通过计算以下数据来比较两个时间序列的平稳性和季节性:

1.自相关函数(ACF),允许确定y之间的自相关t和y张茵

γ(h) = x (yty张茵

2.部分ACF (PACF),允许确定y之间的自相关性t和y张茵去除中间变量y之间的自相关后t - 1y,…,张茵+ 1

r (h) = corr (yty张茵| yt - 1y,…,张茵+ 1

然后,我们比较了仅使用历史数据或结合谷歌、EHR和历史数据的Elastic Net和RF模型对长达10周的预测的估计准确性。


概述

首先,我们研究了每个数据源对已经用于预测流感爆发的两种不同方法的短期预测的影响——一种使用Elastic Net模型的线性方法和一种使用RF模型的非线性方法。

然后,我们分析了AG和流感的时间序列,特别是季节性,以更好地了解两种疾病之间的差异。

最后,我们比较了两种方法获得的AG和流感长期预测结果,并评估了外部数据源的影响,以提高我们估计的准确性。

线性方法

概述

在国家和区域两级,就误差而言,使用历史数据和外部数据源(表1)。在国家层面,就误差而言,与仅使用历史数据ar的模型相比,谷歌和EHR这两个数据源产生的估计最准确(52)。在区域一级,仅使用历史数据和EHR的模型比同时使用历史数据和谷歌和EHR数据的模型得到的误差更小。

就相关性而言,在大多数情况下,在国家和区域一级,仅使用历史数据的模型可以获得最高的值。

表1。PCC一个和RMSEb整个预测期(2014年5月至2018年3月)在国家和区域层面上的数值,所有数据源的组合。
级别和数据源 实时 1周的预测 2周的预测 三星期的预测

PCC RMSE PCC RMSE PCC RMSE PCC RMSE
国家

基于“增大化现实”技术(52)c 0.946d 16.16 0.910 22.69 0.898 26.95 0.884 30.69

谷歌 0.830 42.75 0.803 44.99 0.801 41.27 0.770 38.96

电子健康档案e 0.477 48.35 0.512 45.59 0.489 47.37 0.519 44.65

AR(52)和谷歌 0.941 18.10 0.896 24.17 0.871 26.98 0.847 28.24

AR(52)和EHR 0.932 16.41 0.880 21.58 0.820 26.15 0.823 25.93

谷歌和EHR 0.836 36.09 0.846 34.48 0.779 34.23 0.795 32.32

AR(52),谷歌和EHR 0.936 21.26 0.903 20.94 0.856 24.16 0.845 25.33
区域

基于“增大化现实”技术(52) 0.725 40.75 0.705 44.18 0.670 47.65 0.681 49.12

谷歌 0.652 65.84 0.603 64.79 0.594 60.33 0.596 61.67

电子健康档案 0.462 59.83 0.538 55.62 0.546 55.87 0.582 52.90

AR(52)和谷歌 0.738 42.07 0.665 46.44 0.616 47.82 0.619 47.74

AR(52)和EHR 0.697 40.99 0.685 42.38 0.637 46.48 0.634 46.31

谷歌和EHR 0.608 60.70 0.610 60.97 0.615 57.50 0.628 59.72

AR(52),谷歌和EHR 0.724 42.12 0.689 45.24 0.646 47.37 0.620 52.19

一个PCC: Pearson相关系数。

bRMSE:均方根误差。

cAR(52): 52阶自回归模型。

d斜体突出显示了实时和1周、2周和3周预测模型获得的2个最高相关性和最低误差。

e电子健康记录。

国家分析

对于实时估计,误差值范围为48.4 ~ 16.2,相关值范围为0.83 ~ 0.95,仅使用历史数据ar的模型误差最小,相关性最高(52)。对于1周的估计,误差值在45.6到20之间,使用历史数据和外部数据源谷歌和EHR与模型获得的误差最小,相关性最高。在相关性方面,相关值范围为0.51 ~ 0.91,仅使用历史数据的模型获得的相关值最高。对于2周和3周的估计,我们得到了类似的结果,误差值分别为47.4至24.2和44.6至25.3,使用历史数据和外部数据源谷歌和EHR的模型获得。相关性为0.49 ~ 0.90,0.52 ~ 0.88,其中AR(52)模型相关性最高。

图1说明了仅使用历史数据的模型和使用历史数据以及谷歌和EHR这两个数据源的模型在国家一级对长达3周的预测所获得的估计值。对于实时估计,两种模型获得的结果是可比较的,但对于长期预测(1、2和3周),AR(52)模型获得的估计是延迟的。此外,仅使用历史数据的模型倾向于平滑估计和峰值之间的高估。

图2是使用历史数据和两个数据源谷歌和EHR的模型系数值的可视化。对于实时估计,热图显示模型使用来自所有数据源的多个变量,例如历史数据、谷歌数据和EHR数据。类似的情节在多媒体附录1用于长期估计。

图1所示。国家层面。使用仅使用历史数据的模型和使用历史数据以及谷歌和EHR这两个数据源的模型在国家一级获得的长达3周的预测。黄金标准,法国哨兵网数据。电子健康记录。
查看此图
图2。国家层面。系数的热图。热图的每条线对应模型中使用的一个预测变量,线的每个点对应预测的一周。第一个变量块对应电子健康记录(EHR)数据,第二个变量块对应谷歌数据,第三个变量块对应历史数据。蓝色表示与变量相关的负系数,而红色表示与变量相关的正系数。白色表示该预测变量未被模型选择,不参与相应周的预测。在黄色部分,突出显示了模型几乎一直保留的变量。对于电子病历数据,它对应于以下关键词的预测变量:“免疫缺陷者”、“手部病毒鉴定者”、“肺炎链球菌”、“肺炎病”、“呼吸道合胞病毒”。谷歌数据的关键词是:“enero”、“enterite”、“epidemic de gastro”、“gastro ent”、“ski massif central”。 For historical data, it corresponds to the previous week as well as week 17, week 18, week 25, and week 48 before the one we want to predict.
查看此图
区域分析

对于实时估计,误差值为65.8 ~ 40.8,相关值为0.46 ~ 0.74,仅使用历史数据的模型误差最小,使用历史数据和谷歌数据的模型相关性最大。对于1周、2周和3周的估计,误差值分别为64.8至42.4、60.3至46.5和61.7至46.3。长期预测的最小误差值都是由使用历史数据和电子病历数据的模型获得的。1周、2周、3周的相关系数分别为0.54 ~ 0.71、0.55 ~ 0.67、0.58 ~ 0.68。长期预测的最高相关性都是通过仅使用历史数据的模型获得的(52)。

图3说明了仅使用历史数据的模型和使用历史数据以及谷歌和EHR这两个数据源的模型在区域一级对长达3周的预测所获得的估计。在国家一级,对于实时估计,使用这两个模型获得的结果是可比较的,但对于长期预测,使用AR(52)模型获得的估计是延迟的,并且在峰值之间趋于平滑和高估。

热图(图4)表明,对于区域层面的实时估算,与国家层面相比,该模型使用了来自历史数据的多个变量(约11个变量),而来自谷歌数据(约10个变量)和EHR数据(约9个变量)的变量数量较少。类似的情节在多媒体附录1用于长期估计。

图3。区域的水平。使用仅使用历史数据的模型和使用历史数据以及谷歌和EHR这两个数据源的模型在区域一级获得长达3周的预测。黄金标准,法国哨兵网数据。电子健康记录。
查看此图
图4。区域的水平。系数的热图。热图的每条线对应模型中使用的一个预测变量,线的每个点对应预测的一周。第一个变量块对应电子健康记录(EHR)数据,第二个变量块对应谷歌数据,第三个变量块对应历史数据。蓝色表示与变量相关的负系数,而红色表示与变量相关的正系数。白色表示该预测变量未被模型选择,不参与相应周的预测。在黄色部分,突出显示了模型几乎一直保留的变量。对于电子病历数据,它对应于关键字的预测变量“感染病毒的人”、“感染病毒的人”、“感染呼吸道的人”。“不明病毒”,“肺病”,“细支气管病”,“病毒性呼吸道合胞体”,“支气管病”,“文氏病”。 For Google data, it is the keywords: “enero,” “gastro enterite,” “gastro entérite,” “fixations.” For historical data, it corresponds to the two previous weeks as well as week 10, week 15, week 17, week 20, week 25, and week 48 before the one we want to predict.
查看此图

非线性方法

概述

对于非线性方法,在国家层面上,就误差和相关性而言,仅使用历史数据的模型(ar(52))和结合历史数据和外部数据源的模型(表2)。在区域层面上,包含历史数据和电子病历数据的模型误差最小。在相关性方面,历史数据与谷歌和EHR两个数据源相结合的模型获得的相关性最高。与线性方法相比,非线性方法得到的相关系数更高,误差更小。

表2。PCC一个和RMSEb所有水平和模式在整个预测期内(2014年5月至2018年3月)获得的值。
级别和数据源 实时 1周的预测 2周的预测 三星期的预测

PCC RMSE PCC RMSE PCC RMSE PCC RMSE
国家

基于“增大化现实”技术(52)c 0.942d 15.47 0.913 19.71 0.892 22.19 0.903 22.30

谷歌 0.884 45.59 0.876 45.72 0.858 42.63 0.830 40.52

电子健康档案e 0.795 32.93 0.615 50.68 0.739 37.84 0.692 41.30

AR(52)和谷歌 0.946 15.87 0.913 21.68 0.892 23.63 0.909 22.98

AR(52)和EHR 0.938 15.93 0.906 20.21 0.887 22.85 0.890 23.31

谷歌和EHR 0.833 43.26 0.780 49.50 0.849 37.70 0.790 41.88

AR(52),谷歌和EHR 0.946 15.72 0.909 21.76 0.895 23.87 0.886 24.11
区域

基于“增大化现实”技术(52) 0.745 38.47 0.699 42.68 0.685 44.11 0.677 45.05

谷歌 0.708 62.90 0.658 61.58 0.671 57.02 0.689 54.55

电子健康档案 0.651 47.76 0.531 66.99 0.562 60.51 0.526 63.26

AR(52)和谷歌 0.757 39.71 0.700 46.91 0.694 47.38 0.703 47.87

AR(52)和EHR 0.743 38.37 0.720 41.05 0.694 43.83 0.694 44.09

谷歌和EHR 0.542 76.87 0.584 69.17 0.663 55.48 0.658 56.25

AR(52),谷歌和EHR 0.759 38.88 0.718 44.63 0.702 46.25 0.701 47.17

一个PCC: Pearson相关系数。

bRMSE:均方根误差。

cAR(52): 52阶自回归模型。

d斜体突出显示了实时和1周、2周和3周预测模型获得的2个最高相关性和最低误差。

e电子健康记录。

国家分析

对于实时估计,误差值范围为45.6至15.5,相关值范围为0.80至0.95,仅使用历史数据(ar(52))的模型或将历史数据与外部数据源相结合的模型获得的误差最小,相关性最高。长期预测的结果相似,误差值在50.7到19.7之间,1周预测的相关值在0.62到0.91之间。对于2周和3周的估计,误差值分别在42.6 - 22.8和41.9 - 22.3之间。2周和3周的相关系数分别为0.74 ~ 0.90和0.69 ~ 0.91。

图5说明了仅使用历史数据的模型和使用历史数据以及谷歌和EHR这两个数据源的模型在国家一级对长达3周的预测所获得的估计值。对于实时估计和长期预报,两种模式获得的结果具有可比性。与线性方法相比,非线性方法倾向于平滑估计。

图5。国家层面。使用仅使用历史数据的模型和使用历史数据以及谷歌和EHR这两个数据源的模型在国家一级获得的长达3周的预测。黄金标准,法国哨兵网数据。电子健康记录。
查看此图
区域分析

对于实时估算,误差值为76.9 ~ 38.4,相关值为0.54 ~ 0.76,其中AR(52)模型和历史数据与外部数据源相结合的模型误差最小,相关值最高。对于1周、2周和3周的估计,误差值分别为69.2至41.1、60.5至43.8和63.3至44.1。长期预测的最低误差值都是由使用历史和电子病历数据的模型获得的。对于1周、2周和3周的相关性,其值分别为0.53 ~ 0.72、0.56 ~ 0.70和0.53 ~ 0.70。长期预测的最高相关性都是通过使用历史数据和两个数据源(谷歌和EHR)的模型获得的。

图6说明了仅使用历史数据的模型和使用历史数据以及谷歌和EHR这两个数据源的模型在区域一级对长达3周的预测所获得的估计。在国家层面上,两种模型之间的结果具有可比性,并且非线性方法倾向于平滑估计。

图6。区域的水平。使用仅使用历史数据的模型和使用历史数据以及谷歌和EHR这两个数据源的模型在区域一级获得长达3周的预测。黄金标准,法国哨兵网数据。电子健康记录。
查看此图

AG与流行性感冒的比较

为了评估外部数据来源在农业预测与流感预测中的作用,我们研究了国家和区域两级的时间序列。由于两个系列都是平稳的,我们比较了季节性。图7对应于抗原和流感的ACF和PACF。

ACF图提供了时间序列与其滞后值之间的相关系数。PACF图提供了一个时间序列和它的滞后值之间的相关系数,在去除之前的滞后已经解释的影响之后。

国家和区域层面的ACF地块(图7A和7C)表明,抗原和流感这两个时间序列都是季节性的,但抗原的自相关性比流感更重要。这一结果可以解释为什么历史数据能够为AG提供比流感更多的信息。我们对PACF图也有类似的结果(图7B和7D),在国家和区域两级,其中流感的部分自相关系数大于流感。

图7。ACF和PACF。流感和AG在国家层面(图A和B)和区域层面(图C和D)的自相关性。ACF:自相关函数;AG:急性胃肠炎;PACF:部分自相关函数。
查看此图

预测分析至10周

线性方法

图8和表S1多媒体附录1显示了线性方法在国家和区域两级的误差和相关性,预测时间最长为10周。在国家一级,实时估计的最低误差是通过仅使用历史数据的线性方法获得的(52)。对于长达1周至10周的长期预测,使用历史数据和谷歌和EHR这两个数据源获得的误差最小。就相关性而言,在所有情况下,仅使用历史数据即可获得最高值。在区域一级,就误差而言,谷歌和EHR这两个数据源都可以将预报的准确性从4周提高到10周。在相关性方面,结果与国家层面的结果相似,仅使用历史数据获得的值较高。

图8和表S2多媒体附录1对于线性方法,显示在国家和区域两级对长达10周的流感预测的误差和相关性。与国家和地区层面的AG相比,在误差和相关性方面,使用历史数据、谷歌数据和EHR数据获得的结果最准确。

图8。(A)使用Elastic Net模型预测10周内流感和肠胃炎在国家一级获得的误差值。实线对应于仅使用历史数据的Elastic Net模型获得的结果。虚线对应于使用历史数据以及谷歌和EHR数据的Elastic Net模型获得的结果。红色是肠胃炎的结果,而蓝色是流感的结果。这个样式线和颜色代码用于这个图的4个面板。(B)在国家一级获得的相关值。(C)在区域一级获得的误差值。(D)在区域一级获得的相关值。EHR:电子健康记录; RMSE: root mean squared error.
查看此图
非线性方法

图9和表S3多媒体附录1显示了非线性方法在国家和区域两级的误差和相关性,预测时间长达10周。在国家层面上,仅使用历史数据获得的误差最小(ar)(52)。就相关性而言,对于长期预测,仅使用历史数据即可获得最高值。在区域一级,就误差而言,对于长达4周的预测,仅使用历史数据获得的值最低。然而,对于长期预测,最准确的结果是通过使用历史数据和两个数据源,谷歌和EHR。

图9和表S4多媒体附录1对于非线性方法,显示在国家和区域两级对流感长达10周的预测的误差和相关性。在国家层面上,就误差和相关性而言,使用历史数据以及谷歌和EHR数据获得的2周以内预报的最准确值。对于长达3周至5周的预测,仅使用历史数据即可获得最准确的估计。对于长期预测,两种模型的结果相似,一种只使用历史数据,另一种使用历史数据和谷歌和EHR数据。在区域一级,对于长达4周的预报,就误差而言,在大多数情况下,仅使用历史数据获得的值最低。对于长期预测,使用历史数据以及谷歌和EHR数据的模型可以获得最准确的估计。在相关性方面,在大多数情况下,使用历史数据以及谷歌和EHR数据获得的值最高。

图9。(A)使用RF模型预测10周内流感和肠胃炎在国家一级获得的误差值。实线对应于仅使用历史数据的随机森林(RF)模型获得的结果。虚线对应于使用历史数据以及谷歌和EHR数据的RF模型获得的结果。红色是肠胃炎的结果,而蓝色是流感的结果。这个样式线和颜色代码用于这个图的4个面板。(B)在国家一级获得的相关值。(C)在区域一级获得的误差值。(D)在区域一级获得的相关值。电子健康记录。
查看此图

主要研究结果

我们调整了一种为流感开发的方法,以准确跟踪抗原活性。我们的方法能够为国家和区域层面以及急诊和住院时间提供长达10周的预测(多媒体附录1)。据我们所知,这是一种疾病和空间分辨率(法国地区和医院),以前没有探索过预测方法。

在这项研究中,我们表明外部数据源,电子病历和谷歌,有助于改善农业监测,特别是长期预测,历史数据的贡献更重要。具体而言,当我们使用线性方法(Elastic Net)时,在国家层面上,使用历史数据以及谷歌和EHR数据获得的误差值最小。这些结果在1周到10周的预测中是一致的(表1)多媒体附录1)。在区域一级,仅使用历史数据的模型是产生短期预测误差最小的模型(见表1)多媒体附录1)。然而,对于长期预测,包括外部数据源(谷歌和EHR)可以改进估计。我们进行了Diebold Mariano测试[39]评估仅使用历史数据或结合使用历史数据、谷歌数据和EHR数据时,预测是否在统计上存在差异(见表5多媒体附录1)。我们可以看到,在国家层面上,当使用历史数据以及谷歌和EHR数据进行3周和长期预测时,估计在统计上更加准确。在区域一级,使用外部数据来源产生的估计在统计上对7周和长期预测更为准确。

由于我们使用了为流感暴发开发的方法,我们将获得的AG结果与获得的流感结果进行了比较。在国家和区域两级,采用线性方法进行短期和长期预测时,利用历史数据和外部数据源(谷歌和EHR数据)的模型可获得最准确的估计。对这些结果的理解可以从时间序列分析(图7)。我们发现,与流感相比,季节性对流感流行更为重要,因此历史数据能够提供更多关于流感的信息。然而,对于长期预测,历史数据是不够的,可以使用外部数据源作为补充。因此,整合外部数据以改进长期评估是很重要的。

除了线性方法外,我们还使用非线性方法(RF)进行了相同的分析。在国家一级,结果与使用线性方法获得的结果略有不同。就误差和相关性而言,仅使用历史数据的模型比使用历史数据、谷歌数据和EHR数据的模型提供更准确的估计。这些结果对于实时估计和长期预测是一致的(表S3)多媒体附录1)。在区域一级,关于线性方法,就短期预测的误差而言,仅使用历史数据的模型可以产生最准确的估计。对于长期预测,模型包括外部数据源谷歌和EHR,降低了误差。就相关性而言,对于短期和长期预测,产生最高值的模型是使用历史数据、谷歌数据和EHR数据的模型。在所有情况下,与使用线性方法获得的结果相比,非线性方法允许我们获得高相关值和低误差值。然而,正如在图56,与使用线性方法得到的估计相比,非线性方法倾向于平滑估计。这可以减少误差并增加相关性。

事实上,我们只能访问雷恩大学医院的电子病历数据,因此来自布列塔尼地区,这使我们无法量化全国电子病历信息的附加价值。这应该在未来的研究中通过整合来自法国所有地区不同医院的电子病历数据来评估。然而,有趣的是,雷恩一家医院的数据可以提高国家层面上的AG预测,即使如我们之前所述,电子病历数据似乎对地区层面更重要。

根据数据请求,谷歌在(通常)不同的样本和不同的时间段内对从谷歌关联中检索到的数据进行归一化。这种预归一化会影响我们的结果,但正如Arena等人的研究所显示的[15],动态训练过程最大限度地减少了这种不稳定性的影响。

测试其他对流感有良好结果的方法将是有趣的,例如,一种结合线性和非线性方法的综合方法[14或其他机器学习方法,如支持向量机或神经网络。我们测试了一个长短期记忆模型来预测长达10周的肠胃炎。实时预测的均方根误差为2.96。我们相信这些结果非常有前景,未来可以通过开发一种神经网络来结合历史数据的长短期记忆和另一种神经网络来进一步研究外部数据源,如谷歌数据或EHR数据。此外,还可以测试其他方法,以从外部数据源获取更多信息,作为输入变量的转换。变量转换可以在外部数据源上进行测试,以检查我们是否可以获得更多信息。最后,首先用方差膨胀因子等传统方法去除预测变量的多重共线性,然后选择最重要的变量进行逐步回归,对剩余变量进行线性回归,这可能是有意义的。

结论

我们表明,医院数据和互联网搜索数据对预测AG爆发有显著贡献,特别是长期预测。结合使用这些外部数据源和历史数据可以补充传统的监测系统。我们开发的方法可以帮助减少AG峰值的影响,特别是在医院,通过预测最多10周的活动增加。

我们承认仍有改进的余地。未来的研究可以探索从外部数据源中纳入更多信息,以获得更可靠的结果。

致谢

作者感谢法国国家研究机构通过整合和共享健康数据研究项目(资助ANR-15-CE19-0024)资助本研究。作者还感谢法国哨兵网络和谷歌搜索引擎将他们的数据公开。MS和CP由美国国立卫生研究院普通医学科学研究所部分资助,奖励号为R01GM130668。内容完全是作者的责任,并不一定代表美国国立卫生研究院的官方观点。

作者的贡献

CP、AL和GB构思研究,CP和GB获得数据集。CP和MS提出了预测方法。CP进行了统计实验。CP和MS对结果进行分析和解释。CP在MS, AL和GB的支持下撰写了稿件。所有作者都审阅并批准了稿件。

利益冲突

没有宣布。

多媒体附录1

在1周、2周和3周预报时采用线性方法获得的国家和区域热图。我们还为流感和肠胃炎两种疾病的线性和非线性方法增加了10周预测的相关性和误差。

DOCX文件,3952 KB

  1. 腹泻:一个重大的世界性问题。国际微生物学杂志2000;14(1):65-69。[CrossRef
  2. 马大维兹,张建军,张建军,等。一种常见的、基于症状的肠胃炎病例定义。中华流行病学杂志,2008;36(7):886-894。[CrossRef] [Medline
  3. 柯思克M, Bern C, gerant RL。根据1992年至2000年发表的研究估计的全球腹泻病负担。世界卫生杂志2003;81(3):197-204 [j]免费全文] [Medline
  4. rivi M, Baroux N, Bousquet V, Ambert-Balay K, Beaudeau P, Jourdan-Da Silva N,等。1991年至2015年法国全科医生急性胃肠炎发病率的长期趋势欧洲监测2017年12月22日(50):17-00121 [免费全文] [CrossRef] [Medline
  5. VAN CAUTEREN D, De VALK H, VAUX S, Le STRAT Y, VAILLANT V.法国急性胃肠炎负担和就医行为:一项基于人群的研究。中华流行病学杂志,2011,31(4):697- 695。[CrossRef
  6. 诺如病毒的季节性和气候变化的潜在影响。中华临床微生物学杂志;2009;15(6):524-527 [j]免费全文] [CrossRef] [Medline
  7. 葛瑞尔AL,德鲁斯SJ,菲斯曼DN。为什么会出现“冬季”呕吐病?加拿大多伦多的季节性、水文和诺如病毒流行病学。生态健康2009;6(2):192-199。[CrossRef] [Medline
  8. Carneiro HA, Mylonakis E.谷歌趋势:疾病暴发实时监测的网络工具。临床感染与疾病杂志2009年11月15日;49(10):1557-1564。[CrossRef] [Medline
  9. 从2022年12月19日到2022年12月25日,在法国大都市观察到的情况。哨兵网——哨兵网络的网站。URL:https://websenti.u707.jussieu.fr/sentiweb/[2022-07-01]访问
  10. Shah MP, Wikswo ME, Barclay L, Kambhampati A, Shioda K, Parashar UD等。2009年8月至2015年7月,美国诺如病毒哨点检测和跟踪网络对美国诺如病毒爆发的近实时监测。MMWR Morb Mortal weekly Rep 2017 2月24日;66(7):185-189 [免费全文] [CrossRef] [Medline
  11. 杨松,桑迪兰娜,寇世成。基于ARGO的谷歌搜索数据的流感流行度精确估计。中国科学d辑,2015,11月24日;112(47):14473-14478 [j]免费全文] [CrossRef] [Medline
  12. 刘建军,刘建军,刘建军,等。基于云的电子健康记录,用于实时、特定区域的流感监测。科学通报2016年5月11日;6:25732 [j]免费全文] [CrossRef] [Medline
  13. 杨绍平,刘建军,刘建军,刘建军,等。基于电子病历和互联网搜索信息的流感预测。中华医学会传染病杂志2017年5月8日;17(1):332 [j]免费全文] [CrossRef] [Medline
  14. Lu FS, Hattab MW, Clemente CL, Biggerstaff M, Santillana M.利用基于互联网的数据和网络方法改进美国州一级的流感临近预报。中华医学会2019年1月11日;10(1):147 [j]免费全文] [CrossRef] [Medline
  15. Arena C, Amoros JP, Vaillant V, Ambert-Balay K, Chikhi-Brachet R, Jourdan-Da Silva N,等。急性腹泻成人咨询全科医生在法国冬季:发病率,临床特点,管理和危险因素。中国生物医学工程学报,2014,30 (1):574 [j]免费全文] [CrossRef] [Medline
  16. 张晓明,张晓明,张晓明,等。轮状病毒胃肠炎住院治疗的临床分析。中国医学杂志,1993-2002。儿科感染杂志,2006;25(6):489-493。[CrossRef
  17. Hall AJ, Wikswo ME, Manikonda K, Roberts VA, Yoder JS, Gould LH。通过美国国家疫情报告系统监测急性肠胃炎。传染病杂志;2013;19(8):1305-1309 [j]免费全文] [CrossRef] [Medline
  18. 马立科,马立科,马立科,等。高死亡率轮状病毒胃肠炎爆发,尼加拉瓜,2005年。中华医学杂志2008;23(4):277-284。[CrossRef] [Medline
  19. Kirian ML, Weintraub JM。预测胃肠道疾病与非处方腹泻药物销售记录在旧金山湾区。中国医学杂志2010年7月20日;10(1):39 [j]免费全文] [CrossRef] [Medline
  20. Shah M, Lopman B, Tate J, Harris J, Esparza-Aguilar M, Sanchez-Uribe E.利用互联网搜索数据监测轮状病毒疫苗在美国、英国和墨西哥的影响。儿科感染杂志,2016;3(增刊1):771。[CrossRef
  21. 张建军,张建军,张建军,等。基于谷歌趋势的疾病监测研究进展。中华传染病杂志2009;15(8):1327-1328 [j]免费全文] [CrossRef] [Medline
  22. Adadi A, Adadi S, Berrada M.胃肠病学与机器学习:现状与展望。生物信息学报2019年04月02日;2019:1870975-1870924 [j]免费全文] [CrossRef] [Medline
  23. Ginsberg J, Mohebbi MH, Patel RS, Brammer L, Smolinski MS, Brilliant L.基于搜索引擎查询数据的流感流行检测。Nature 2009年2月19日;457(7232):1012-1014。[CrossRef] [Medline
  24. 当b谷歌得了流感时。Nature 2013 Feb 14;494(7436):155-156。[CrossRef] [Medline
  25. 刘建军,刘建军,刘建军,等。利用医院大数据监测流感疫情。计算机工程学报,2018 (2);44 (4):559 - 564 [j]免费全文] [CrossRef] [Medline
  26. 刘建军,刘建军,刘建军,等。结合机器学习方法的医院大数据实时流感监测:对比研究。中华医学会公共卫生监测2018年12月21日;4(4):e11361 [j]免费全文] [CrossRef] [Medline
  27. 2023年第1周(2023年1月2日至2023年1月8日)法国大城市的观测情况。2022年11月1日。URL:http://websenti.u707.jussieu.fr/sentiweb[2023-01-12]访问
  28. https://trends.google.fr/trends/?geo=FR。URL:https://trends.google.fr/trends/?geo=FR[2023-01-11]访问
  29. Mohebbi M, Vanderkam D, Kodysh J, Schonberger R, Choi H, Kumar S.谷歌相关白皮书。谷歌》2011。URL:https://research.google/pubs/pub41695/[2018-03-05]访问
  30. 邹宏,张海涛。基于弹性网的正则化和变量选择。[J] .统计学报,2005;37(2):391 - 391。[CrossRef
  31. 王志强,王志强。套索收缩与筛选。[J] .统计学报,2018;38(1):387 - 398。[CrossRef
  32. 霍尔·埃,肯纳德·RW。岭回归:非正交问题的偏估计。技术计量学1970年2月;12(1):55-67。[CrossRef
  33. caret(分类和回归训练)R包,包含用于训练和绘制分类和回归模型的各种函数。GitHub。URL:https://github.com/topepo/caret/[2020-05-10]访问
  34. R核心团队。统计计算语言与环境。维也纳,奥地利:R统计计算基金会;2015.
  35. 布雷曼L.随机森林。在:机器学习。可汗:施普林格;2001.
  36. Kane MJ, Price N, Scotch M, Rabinowitz P. ARIMA和Random Forest时间序列模型预测H5N1禽流感暴发的比较。生物信息学2014年8月13日;15(1):276 [j]免费全文] [CrossRef] [Medline
  37. 杜德克。基于随机森林的短期负荷预测。展望:2014年智能系统。可汗:施普林格;2015.
  38. 随机森林的分类和回归。R新闻,2002。URL:https://cogns.northwestern.edu/cbmg/LiawAndWiener 2002. pdf[2021-07-03]访问
  39. Diebold FX, Mariano RS。比较预测准确性。[J]经济管理学报,1995;13(3):253-263。[CrossRef


ACF:自相关函数
AG:急性胃肠炎
基于“增大化现实”技术(52):52阶自回归模型
CDW:临床数据仓库
eHOP:entrepôt de donnsames de l 'HÔPital
电子健康档案:电子健康记录
PACF:部分自相关函数
射频:随机森林


编辑:G艾森巴赫,H布拉德利;提交15.11.21;经A Staffini、YL Cheong、E ss同行评审;对作者的评论24.02.22;修订版本收到19.07.22;接受28.11.22;发表31.01.23

版权

©Canelle Poirier, Guillaume bouzill, valsamribertaud, Marc Cuggia, Mauricio Santillana, Audrey Lavenu。最初发表于JMIR公共卫生与监测(https://publichealth.www.mybigtv.com), 2023年1月31日。

这是一篇根据知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在JMIR公共卫生与监测上,并适当引用。必须包括完整的书目信息,到https://publichealth.www.mybigtv.com上原始出版物的链接,以及版权和许可信息。


Baidu
map