发表在5卷第一名(2019): Jan-Mar

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/11357,首次出版
内华达州北部2007年至2017年疾病计数时间序列预测的测量周期:分析实验

内华达州北部2007年至2017年疾病计数时间序列预测的测量周期:分析实验

内华达州北部2007年至2017年疾病计数时间序列预测的测量周期:分析实验

原始论文

1美国内华达州里诺市内华达大学信息系统系

2悉尼科技大学软件学院,澳大利亚悉尼

3.美国内华达州里诺市,内华达大学里诺分校,社区卫生科学学院和儿科系,内华达医学情报中心

4先进交通工程系统研究与教育中心,罗文大学,格拉斯伯勒,新泽西州,美国

*这些作者贡献相同

通讯作者:

Amir Talaei-Khoei,博士

信息系统部

内华达大学雷诺分校

安萨里商务大楼

北弗吉尼亚街1664号,314F室

雷诺,NV, 89557

美国

电话:1 7754407005

电子邮件:atalaeikhoei@unr.edu


背景:统计文献介绍了自相关可以确定最佳测量周期的方法,以提高时间序列预测的性能。测量周期在提高疾病计数预测的性能方面起着重要作用。然而,从公共卫生监测的操作角度来看,能够提供有意义和有价值预测的测量周期的长度是有限的。

摘要目的:本研究旨在建立一种方法,在不显著降低疾病计数时间序列分析预测性能的情况下,确定最短的测量周期。

方法:本评估中使用的数据包括2007年至2017年内华达州北部的疾病计数。衣原体、沙门氏菌、呼吸道合胞病毒、淋病、病毒性脑膜炎和甲型流感的疾病计数被预测。

结果:我们的结果表明,自相关不能保证疾病计数预测的最佳性能。然而,采用变化点分析的方法提出了一个在操作上可接受的测量周期,并且性能与最佳预测没有显著差异。

结论:自相关变化点分析的使用提供了最佳和最实用的测量周期。

JMIR公共卫生监测2019;5(1):e11357

doi: 10.2196/11357

关键字



概述

在人口的时间序列预测中,测量值是一段时间内等间隔疾病计数的记录。这些测量的长度,或等价地,记录之间的间隔,是测量的周期[1].尽管时间序列预测已广泛应用于公共卫生监测,但统计方面的大量文献提出了自相关可以检测最佳周期性的方法。周期性检测是指对时间序列数据库中周期性模式的检测[2],可以提高时间序列预测的性能[3.-5].自相关是衡量时间序列内部相关性的指标[4以及一种测量和解释时间序列中观测结果之间的内部关联的方法。周期时间序列的自相关序列具有与时间序列本身相同的循环特性。因此,自相关可以帮助验证周期的存在并确定它们的持续时间[3.].自相关常用于确定时间序列分析的最佳周期性[3.-5].该方法选择自相关性最大的周期,可以提供更好的预测性能的时间序列[5].本研究的主要目的是建立一个测量周期,其中自相关性最大,周期性是其预测优于预期的区间。

测量周期的选择决定了预测的间隔。因此,从操作的角度来看,要使预测在公共卫生监测中具有意义和价值,就必须限制其长度。例如,在预测明年的甲型流感病例时,尽管8周的测量周期可能会产生最好的预测性能,但它也会产生每次8周聚合的预测值。这个周期太长了,无法为从业者提供任何价值。8周的时间将涵盖冬季的大部分时间,即使没有预测,预计甲型流感病例也会增加。对于许多疾病,特别是对卫生保健基础设施没有破坏性的传染病(如流感),一周的预测窗口通常就足够了。但是,对于医疗保健基础设施,更大的预测窗口将有助于规划潜在的更改、人员配置或资源分配。最终,确定最佳预测窗口允许用户决定他们在社区中的角色可以接受什么。

针对上面讨论的操作问题,本研究的目的是在不显著降低性能的情况下确定最短的测量周期。尽管自相关提供了最佳的测量周期,但这个周期可能太长而无法实际接受。因此,我们采用了变化点分析(CPA)来检测一个更短的预测周期,在两者之间没有变化点,以达到在更短的周期内实现类似的性能。为此,我们的方法旨在将CPA应用于不同测量时期的自相关。目标是确定具有与自相关最大值相似的自相关值的最短测量周期。

背景与意义

公共卫生监测

公共卫生监测的最初目标是传染病;然而,随着最近分析技术的进步,来自监测系统的数据越来越多地用于预测广泛的非传染性疾病分布的未来趋势。数据已用于进一步的资源规划和启动预警系统[67];例如,疾病控制和预防中心组织了一项预测2013-2014年美国流感季节的挑战[8].准确预测各种疾病的能力可以促进关键的防范行动,如制定和使用医疗对策、传播战略和卫生保健资源管理[9].为了实现这一目标,使用了不同的统计方法来预测疾病数量;时间序列预测是相关文献中常用的一种方法[110-12],其中分析通过对历史监测数据建模来预测疾病数量[113].然而,这方面的文献建议使用广泛的方法,如自回归综合移动平均(ARIMA) [14]和结构方程模型[15].

公共卫生监测中的时间序列预测

以前在公共卫生监测时间序列预测方面的工作严重依赖于异常检测算法,这些算法用于检测数据中的时间变化,这些变化可能表明疾病爆发[16].疾病控制和预防中心的早期畸变报告系统使用C算法。在预测能力方面,C1只支持7天窗口的均线,C2和C3提供7天窗口和2天警戒带的均线。与C1-C3类似,其他算法[17-19]不具有长期预测特征,无法使公共卫生当局实现年度规划。

这些算法主要是在对疾病爆发的存在性进行常规假设检验的基础上设计的。异常检测算法仅检测疾病爆发时特定时间内静态疾病活动的变化,仅注意到单个时间点疾病趋势的变化方向[20.].然而,当预测的是年度疾病计数而不是疾病爆发时,ARIMA模型和机器学习可以解决异常检测算法的局限性[21].

ARIMA模型常用于公共卫生监测[14],并建立在三个基本思想上:(1)时间序列的现值是其过去值和AR模型中的随机噪声的线性函数[22],(2)时间序列的现值是其现在和过去移动平均模型残差值的线性函数[23], (3) AR移动平均模型[24]考虑了AR和移动平均模型,以及历史值和残差。ARIMA模型一般基于之前的AR移动平均模型拟合时间序列数据[24],并包括一个微分过程,有效地将上述模型所需的非平稳数据转换为ARIMA使用的平稳数据[14].ARIMA模型已广泛应用于公共卫生监测中的时间序列预测[1325],包括肾综合征出血热[2627]、登革热[28]、肺结核[29],以及心理健康[30.].

虽然传统统计方法的设计是将最重要的即时数据分配给即时数据,但它们更适用于短期预测。此外,这些技术是基于这样一个概念,即构念之间的关系将在未来继续存在,但这可能是不正确的[30.].越来越多的文献[31-35]通过使用机器学习方法来解决这一问题,例如在公共卫生监测中使用人工神经网络(ANNs)进行时间序列预测。人工神经网络的灵感来自于生物神经系统(如大脑)处理信息的方式。它由大量高度互联的处理元素(类似于神经元)组成,协同工作以识别数据中的模式。此外,ann和人类一样,也会以身作则。

人工神经网络识别数据模式的能力允许更好的预测,并为公共卫生监测提供帮助,因为它能够自组织和自学习过程[36].公共卫生监测使用人工神经网络预测疾病分布,而Guan等人(2004)则使用人工神经网络预测肝炎事件。Mehra et al(2016)也利用ANN预测了植物的预种风险Stagonospora nodorum冬小麦斑。

由于本研究的重点是预测疾病数量和异常检测算法在检测疾病爆发方面的局限性,所以这里只讨论ARIMA和机器学习。

公共卫生监测时序预测的测量周期

一些研究集中在通过使用时间序列方法(如ARIMA和机器学习)预测疾病以进行公共卫生监测。但是需要认识到的是,测量周期对时间序列的性能有重要影响,因为时间序列预测方法在不同的测量周期对同一种群进行预测时,可能会表现出不同的性能[37-39].为了更好地监测疾病,关键是要确定时间序列方法在特定人群中表现出最佳预测性能的测量周期。

时间序列的性能指标,如Q-score [40],可用于确定产生最佳性能的测量周期。然而,对于不同测量时期的多个时间序列分析和使用该指标比较性能,它们的计算成本很高。因此,该领域的文献建议自相关作为时间序列中最常用的识别最佳测量周期的算法之一[5].自相关是指时间序列与其过去和未来值之间的相关性[3.].该方法的主要目标是获得与信号本身具有相同循环特征的周期信号的自相关序列,允许自相关验证周期的存在并确定其持续时间[4].因此,总体目标是确定使自相关性最大化的测量周期,以提供更好的性能预测[5].

虽然自相关可能表明一个周期映射到一个测量周期,在操作上太长而没有意义,但当前研究的目的是使用CPA来确定最短的测量周期,其自相关值与最大自相关值相似。因此,我们预计性能预测不会出现显著下降。


变点分析

CPA专门用于检测时间序列中的细微变化和描述变化趋势[20.41].文献中提出了几种CPA的方法,如标准正态同质性、具有共同趋势的两阶段回归和惩罚似然准则。在本研究中,我们使用了Killick等人(2012)提出的修剪精确线性时间(PELT) CPA方法[42].该方法基于Jackson等人(2005)的CPA方法[43],但合并了一个修剪步骤,减少了方法的计算成本,不影响最终分割的准确性。尽管许多CPA方法只能检测最重要的变更点,但PELT可以识别多个变更点。因此,考虑到其计算性能,本研究采用PELT方法[44].另外,我们对CPA使用了R包[45,实现了PELT。在该算法中,变化点被定义为表征变化趋势的点。因此,变更点的值与变更点之前的点值有很大的不同。

PELT算法采用了一种常用的方法,通过最小化代价来检测变化点,提高了PELT算法的计算性能。为了找到多个更改点,PELT算法首先应用于整个数据集,然后迭代地独立地应用于每个分区,直到没有检测到更多的更改点。PELT算法的主要假设是,变化点的数量随着数据集的增加而线性增加;变更点分布在整个数据中,而不局限于数据的一部分[44].由于我们在这项研究中使用了一个小数据集,所以这个假设是满足的。

该方法

我们的方法根据测量周期对自相关进行排序,其中测量周期最短的自相关占第一位,测量周期最长的自相关占最后一位。在使用自相关的PELT算法进行CPA后,我们的方法在最高自相关之前指示了立即上升变化点(ACP)。ACP的自相关是指与最高自相关性能相似的最短测量周期的自相关。由于ACP表示与最高自相关性最接近的ACP,因此ACP与最高自相关性之间将不存在ACP。这将导致与ACP相关的测量周期与最高自相关性的测量周期之间的性能相似。此外,这将是具有与最高自相关性相似性能的最短测量周期,因为我们跳过了ACP和最高自相关性之间的所有测量周期。因此,ACP是具有与最高自相关性相似性能的最短测量周期。

如果在最高自相关值之前的即时变化点呈下降趋势,则没有比最高自相关值更短且具有与最高自相关值相似性能的可用测量周期。因此,最高的自相关表示测量的目标周期。如果在最高自相关点之前没有变化点,我们认为第一个点是在最高自相关点之前的直接变化点。图1对所提出的方法进行了评价。

数据描述

我们使用了内华达州北部瓦肖、克拉克和卡森县2007年至2017年流行病学周的法定疾病病例计数。数据包括衣原体、沙门氏菌、呼吸道合胞病毒(RSV)、淋病、病毒性脑膜炎和甲型流感的病例计数。数据经过鉴定,包括所有年龄的患者。对于每种疾病,数据集提供每个流行病学周报告的病例数。因此,在2007年至2017年期间的每一周,该数据集包括了三个县根据疾病分类的所有上述疾病报告病例。

训练和测试数据集

数据按10:1的比例分为训练数据集和测试数据集。Guyon提出的缩放指南[46]来确定训练集和测试集的大小。时间序列分析使用2007-2016年数据创建的数据集进行训练,并使用2017年的数据进行测试。后来报告了这一业绩。

在数据描述部分中提到的原始数据集是以1周为周期进行测量的。因此,最小测量周期为1周。然而,该研究评估的测量周期为1至8周。根据测量周期的不同,训练和测试集被分为1-8周的组。例如,当我们查看3周的测量时,1周的测量被聚合成3个组。这个聚合从第1周开始。图2给出了周期测量的训练集和测试集。

图1。对所提方法的评价。
查看此图
图2。训练和测试集。
查看此图

时间序列分析

为了实现ARIMA,我们使用了auto。arima来自R包预测[47].考虑到越来越多关于人工神经网络用于公共卫生监测的文献[364849],我们选择人工神经网络模型进行机器学习。根据学习结构的不同,有许多不同类型的ann。在本研究中,我们采用了基于前馈感知器的ANN [50]由R包CRAN: nnet (version, 7.3-5)实现,因为在初步分析中它是最适合我们数据结构的神经网络。参数为模型=多项对数线性模型:最大迭代次数=100,拟合=最小二乘,初始随机权值=0.7,最大允许权值=1000,绝对停止拟合准则=1.0军医,相对停止配合准则=1.0e-8,单个隐层大小=11,权值衰减=0.1。这些参数分别用于每种疾病,预测变量为测量周期测量的时间。图3-8介绍了人工神经网络和ARIMA的性能。

性能指标:Q-Score

时间序列分析的性能采用Ghil等人(2011)提出的Q-score指标来衡量[40].该指标将数据视为连续数据,因此,预测值或观测值可以是测试集中的任何正数。形式上,对于评估的每一种疾病,我们都考虑P(t)∈[0,∞),0(t)∈[0,∞),其中整数时间1≤t≤52,以一年内的周数计算。预测的总体误差由测试集的预测值与观测值之间的总方差平方来量化(图9).

为了评估预测的性能,我们将评估中的时间序列分析与预测恒定历史平均计数的非熟练预测进行了比较。这个公式定义在图10

图3。对衣原体病例所提出方法的评价。ANN:人工神经网络;ARIMA:自回归综合移动平均;AC:上升变化。
查看此图
图4。对沙门氏菌病例所提出方法的评价。ANN:人工神经网络;ARIMA:自回归综合移动平均;AC:上升变化。
查看此图

最后,将q评分定义为未评估预测和未熟练预测的二次误差以常数平均值表示。因此,Q-score的定义如图11

q分数可以取正值。如果被评估的时间序列预测产生与非熟练预测相似的结果,则取Q-score =1,产生恒定的平均值。所需的时间序列分析产生Q-score =1。因此,我们的目标是最小化q评分。

计算ARIMA和ANN的每个测量周期的q评分。随后,进行CPA,以确定建议的测量周期是否产生与ARIMA和ANN产生最小q分的最佳性能预测相似的性能。

这提供了一个比较指标,以显示一种方法改善非熟练随机预测的程度,这符合我们的研究要求。q评分使用非熟练预测作为基础,并演示了一种方法如何优于非熟练预测。因此,Q-score适合我们比较方法的目的。

图5。呼吸道合胞病毒病例所提出方法的评价。ANN:人工神经网络;ARIMA:自回归综合移动平均;AC:上升变化。
查看此图
图6。对淋病病例所提出方法的评价。ANN:人工神经网络;ARIMA:自回归综合移动平均;AC:上升变化。
查看此图
图7。评价所提出的方法用于病毒性脑膜炎病例。ANN:人工神经网络;ARIMA:自回归综合移动平均;AC:上升变化。
查看此图
图8。甲型流感病例拟议方法的评价。ANN:人工神经网络;ARIMA:自回归综合移动平均;AC:上升变化。
查看此图
图9。预测误差。
查看此图
图10。历史平均水平。
查看此图
图11。Q-Score。
查看此图

图3描述评价提出的方法为衣原体病例。结果表明,该方法的测量周期<3周,操作上可接受。我们的结果与ANN和ARIMA的性能进行了验证,通过q评分(表1).

图3而且表1目前的评价所提出的方法衣原体病例。最大的AC是4周的测量周期。然而,直接ACP是在两周的测量期间。因此,自相关性在2- 4周的测量周期中是相似的。所提出的方法表明,两周的测量周期产生了良好的性能,类似于最佳性能。用Q-score测量的最佳表现出现在ANN的7周测量期和ARIMA的5周测量期。虽然没有ACP,但下降变化点(DCP)在测量的2周内。因此,ANN和ARIMA的表现在2周或更长时间的测量期内保持相似。虽然ANN的7周测量周期和ARIMA的5周测量周期提供了最好的性能,并且q评分最小,但我们的结果表明,我们提出的方法所指示的2周测量周期具有相似的性能。

虽然我们提出的方法建议沙门氏菌病例的测量周期为3周,但ANN和ARIMA的最佳表现出现在8周的测量周期(图4而且表2).然而,CPs在Q-scores上的结果表明,3周的测量周期产生了与ANN和ARIMA的最佳Q-scores相似的性能。RSV的结果(图5而且表3)及淋病个案(图6而且表4)验证所提出的方法。

图7而且表5演示一个关于病毒性脑膜炎的有趣例子。所提出的方法建议测量周期为2周,而AC的最高值和ACP均出现在测量的2周期间。对于神经网络,用Q-score测量的最佳表现出现在3周的测量期间;然而,2周的测量周期显示了ANN的q评分的DCP。因此,3周的测量周期产生的性能与所提方法建议的2周测量周期相似。对于ARIMA,最好的表现出现在测量的2周期间,也有DCP。提出的方法也被验证了病毒性脑膜炎。

甲型流感引起了公共卫生领域时间序列分析的广泛关注。最大的AC出现在测量的2周期间,但ANN和ARIMA的最佳表现都出现在测量的1周期间。然而,当ACP发生时,直到ANN测量的5周周期和ARIMA测量的7周周期都没有变化点。因此,我们可以假设在ANN和ARIMA中,Q-score最好的1周测量周期的表现与所提方法建议的2周测量周期的表现相似,因为在2周测量周期中DCP的AC最大(图8而且表6).此外,该方法提高了甲型流感的预测能力。

表1。对所提出的衣原体病例的方法进行验证,对比人工神经网络和自回归综合移动平均的性能,由q评分衡量。
测量周期(周) 人工神经网络的q值 自回归综合移动平均的q分 提升的变化
1 0.63 0.55 0.94
2 0.07 (DCP一个 0.08 (DCP一个 0.95(机场核心计划b
3. 0.06 0.08 0.95
4 0.02 0.02 1.04c
5 0.03 0.01d 1.03
6 0.02 0.02 1.03
7 0d 0.01 1.03
8 0.01 0.01 1.02

一个DCP:下降变化点。

bACP:上升变化点。

c最大的上升变化。

d最好的表现由人工神经网络和自回归综合移动平均的q分来衡量。

表2。验证所提出的方法对沙门氏菌病例的人工神经网络和自回归综合移动平均的性能,由q分测量。
测量周期(周) 人工神经网络的q值 自回归综合移动平均的q分 提升的变化
1 1.23 0.59 0.56
2 1.31 0.57 0.59
3. 0.91 (DCP一个 0.38 (DCP一个 0.83(机场核心计划b
4 0.89 0.38 0.85
5 0.89 0.36 0.86c
6 0.86 0.36 0.84
7 0.85 0.35 0.84
8 0.82d 0.32d 0.85

一个DCP:下降变化点。

bACP:上升变化点。

c最大的上升变化。

d最好的表现由人工神经网络和自回归综合移动平均的q分来衡量。

表3。针对呼吸道合胞病毒病例,验证所提出的方法与人工神经网络和自回归综合移动平均的性能,由Q-score测量。
测量周期(周) 人工神经网络的q值 自回归综合移动平均的q分 提升的变化
1 0.43 0.32 0.82一个
2 0.04 (DCPb 0.09c(DCPb 0.98(机场核心计划c
3. 0.03d 0.1 0.99
4 0.09 0.11 0.99
5 0.12 0.12 1.01
6 0.14 0.11 1.02
7 0.17 0.23 1.03
8 0.14 0.15 1.04

一个最大的上升变化。

bDCP:下降变化点。

cACP:上升变化点。

d最好的表现由人工神经网络和自回归综合移动平均的q分来衡量。

表4。验证所提出的淋病病例的方法与人工神经网络和自回归综合移动平均的性能相比,由q分测量。
测量周期(周) 人工神经网络的q值 自回归综合移动平均的q分 提升的变化
1 0.04一个 0.01一个 1.42b
2 0.33 0.02 1.01
3. 0.34 0.02 0.98
4 0.39 0.02 0.93
5 1.38 0.02 0.88
6 1.36 0.4 0.82
7 1.59 0.5 0.81
8 4.3 0.05 0.31

一个最好的表现由人工神经网络和自回归综合移动平均的q分来衡量。

b最大的上升变化。

表5所示。验证所提出的方法对病毒性脑膜炎病例的人工神经网络和自回归综合移动平均的性能,通过q评分来衡量。
测量周期(周) 人工神经网络的q值 自回归综合移动平均的q分 提升的变化
1 0.91 1.17 0.63
2 0.17一个(DCPb 0.39 (DCPb 0.92c(机场核心计划d
3. 0.99 0.34一个 0.47
4 1.01 0.82 0.43
5 1.04 0.87 0.41
6 1.05 0.89 0.41
7 1.07 0.93 0.38
8 1.07 0.94 0.37

一个最好的表现由人工神经网络和自回归综合移动平均的q分来衡量。

bDCP:下降变化点。

c最大的上升变化。

dACP:上升变化点。

表6所示。验证所提出的方法对甲型流感病例的人工神经网络和自回归综合移动平均的性能,由Q-score测量。
测量周期(周) 人工神经网络的q值 自回归综合移动平均的q分 提升的变化
1 0.01一个 0.07一个 0.63
2 0.03 0.09 0.92b(机场核心计划c
3. 0.02 0.10 0.47
4 0.03 0.1 0.43
5 0.19(机场核心计划c 0.1 0.41
6 0.2 0.13 0.41
7 0.2 0.49(机场核心计划c 0.38
8 0.22 0.94 0.37

一个最好的表现由人工神经网络和自回归综合移动平均的q分来衡量。

b最大的上升变化。

cACP:上升变化点。


在公共卫生监测中广泛使用时间序列预测之后,自相关通常用于统计学,以确定最佳测量周期并提高预测的性能[3.-5].然而,预测需要从操作角度出发,并提供有意义和有价值的预测。因此,公共卫生监测从业人员可能会选择较短的测量周期,其中预测结果可能不如较长测量周期的分析结果准确。统计文献表明,自相关建议的最佳测量周期可以提高时间序列预测的性能[3.-5].此外,我们的实证结果显示,表现最好的测量周期并不总是最短的。然而,可能提供更好预测性能的长周期测量可能对从业者没有用处,因为它们太长了。我们在手稿的引言部分提供了这样的例子。

本研究提出了一种在自相关上运行CPA的方法,并使用类似于最佳性能预测的性能预测确定最短的测量周期。我们的方法与ANN和ARIMA方法进行了评估,用于对2007年至2017年内华达州北部的卡克、卡森和瓦肖县的疾病计数进行时间序列分析,包括衣原体、沙门氏菌、RSV、淋病、病毒性脑膜炎和a型流感的病例计数。

不幸的是,自相关不能保证疾病预测的最佳性能。例如,对于衣原体,自相关性在测量的4周期间最大,ANN在测量的7周期间表现最好,ARIMA在测量的5周期间表现最好。RSV、淋病、病毒性脑膜炎和甲型流感也是如此。然而,采用CPA的建议方法表明,最短的测量周期(以满足操作角度)确保了可接受的性能预测,类似于最佳q分数。

目前的研究对学术界有两个意义。首先,该研究增加了关于测量期作为提供更好的疾病计数预测的一个因素的重要性的信息。其次,它展示了CPA在为更实际的测量周期提供操作重点自相关方面的应用,不仅提高了预测性能,而且还产生了实际的见解。

从实际角度来看,时间序列预测是公共卫生和临床医学确定疾病活动相对风险季节性变化的重要工具。超过预测参数的观测值并不一定反映“失败”的预测,而是反映在以前的数据中没有观察到的报告活动模式。这是其他像差检测方法的重要辅助,例如前面提到的早期像差报告系统。预测通过为预期的疾病活动提供“最有可能”的假设,为不知情的从业者提供了价值,这可能对积极的教育和疾病控制政策产生影响。

虽然目前的研究评估了各种疾病的拟议方法,但数据仅限于内华达州北部。因此,扩大数据集,用来自不同地理位置和更大样本量的更广泛的疾病范围重新评估该方法,将更好地理解该方法的性能预测。此外,仅对ARIMA和ANN进行了评估。这一局限性可以在未来的研究中通过应用更多的时间序列预测方法来解决。虽然这种方法使用自相关,但文献中已经使用了傅里叶变换来识别测量周期[51].因此,进一步的研究可以比较本文方法中采用的AC和傅里叶变换的性能。此外,尽管ARIMA难以进行周期性预测,但仍使用它作为预测模型,这限制了我们研究的评价。然而,本研究的目的是比较ANN和ARIMA与所提出的方法的适用性。

虽然我们选择ARIMA和ANN来演示所建议方法的性能,但鼓励该领域的研究人员在未来使用其他传统或机器学习算法来评估该方法的性能。

从数学角度来看,该研究具有潜力,因为自相关生成的不同时间序列是对原始时间序列的数学操作。例如,它们可以被建模为重新索引的离散时间随机过程。这将为未来从数学上研究这些时间序列的行为开辟一条道路。

测量周期在疾病计数的时间序列分析中起着重要作用。统计文献一直在使用自相关来确定表现优异的测量周期。然而,在预测疾病计数方面,长时间可能无法为公共卫生和监测从业人员提供足够的值。因此,我们使用CPA来寻找最短的测量周期,它与AC确定的周期具有相似的性能。

总之,通过采用自相关和CPA,我们提出了一种识别测量周期的新方法,可以提高疾病计数时间序列预测的性能。我们的方法实现了一个实用的视角,通过它,我们的目标是确定最短的测量周期,以实现更好的预测性能。这一发现使得该方法在较长时间的预测(即使性能更好)对公共卫生专业人员没有操作价值的情况下实际适用。我们的方法对2007年至2017年内华达州北部衣原体、沙门氏菌、RSV、淋病、病毒性脑膜炎和甲型流感的ANN和ARIMA疾病计数进行了评估。未来的工作应该集中在通过使用更多样化的数据集来加强对该方法的评估,以及评估傅里叶变换而不是AC的使用。此外,我们鼓励研究人员使用广泛的机器学习和替代CPA方法来改进所建议的方法。

致谢

作者感谢瓦肖县卫生区的Randall Todd博士和Lei Chen博士分享了本研究中使用的数据。

利益冲突

没有宣布。

  1. 张晓明,张晓明,张晓明。公共卫生与生物医学数据的时间序列分析。《公共卫生》2006年;27:57-79。[CrossRef] [Medline
  2. 国际计算机应用技术与研究杂志,2014。时间序列数据中各种周期检测算法分析及新算法设计http://ijcat.com/archives/volume3/issue4/ijcatr03041008.pdf[访问时间:2018-12-21][WebCite缓存
  3. 杜曼C, McPherson J, Araújo M, Bivand R, Bolliger J, Carl G,等。物种分布数据分析中空间自相关的解释方法综述。生态学报2007 9月27日;30(5):609-628。[CrossRef
  4. McQuillan A, Aigrain S, Mazeh T.用开普勒测量场M矮星的旋转周期分布。皇家天文学会月报2013;432:16。[CrossRef
  5. 王晓燕,王晓燕。2014.中国科学技术研究院。APT:时间序列中的近似周期检测https://ksiresearchorg.ipage.com/seke/seke14paper/seke14paper_9.pdf[访问时间:2018-12-21][WebCite缓存
  6. 公共卫生监测系统:其使用和评估的最新进展。2017年12月20日;38:57-79。[CrossRef] [Medline
  7. 刘志强,刘志强,刘志强。基于搜索趋势的季节性流感分区nowcast。J Med Internet Res 2017 Dec 06;19(11):e370 [免费全文] [CrossRef] [Medline
  8. Biggerstaff M, Alper D, Dredze M, Fox S, Fung IC, Hickmann KS,流感预测大赛工作组。疾病控制和预防中心的结果预测了2013-2014年流感季节的挑战。BMC infected Dis 2016 12月22日;16:357 [免费全文] [CrossRef] [Medline
  9. 克雷蒂安J,乔治D,萨满J,奇塔莱RA,麦肯齐FE。人群流感预测:范围综述。公共科学学报,2014;29 (4):e94130 [免费全文] [CrossRef] [Medline
  10. 里斯BY,曼德尔KD。综合征监测的时间序列建模。BMC Med Inform Decis Mak 2003年1月23日;3:2 [免费全文] [Medline
  11. 轮J,查尔斯-史密斯L,科利C. Soda Pop:时间序列聚类,警报和疾病预测应用。OJPHI 2017年5月2日;9(1):A。[CrossRef
  12. 张旭,张涛,Young AA,李霞。四种时间序列模型在流行病学监测数据中的应用与比较。公共科学学报,2014;29 (2):e88075 [免费全文] [CrossRef] [Medline
  13. 郭凯玛,陈涛,罗伟,冯迪,文卡特什。在没有实时临床数据的情况下预测每日患者从病房流出。JMIR Med Inform 2016年7月21日;4(3):e25 [免费全文] [CrossRef] [Medline
  14. 张刚。基于ARIMA和神经网络混合模型的时间序列预测。神经计算2003年1月;50:59 -175。[CrossRef
  15. Abdullah N, Kelly JT, Graham SC, Birch J, Gonçalves-Carneiro D, Mitchell T,等。一种具有人畜共患潜力的非人类麻疹病毒的结构引导鉴定。J Virol 2018 Dec 01;92(23):1248 [免费全文] [CrossRef] [Medline
  16. Murphy SP, Burkom H.用于增强生物监测的重组时间畸变检测算法。中国医学信息杂志2008;15(1):77-86 [免费全文] [CrossRef] [Medline
  17. 李志强,李志强。基于时间背景的生物监测方法。Proc Natl Acad science U S A 2003 Feb 18;100(4):1961-1965 [免费全文] [CrossRef] [Medline
  18. 华伦斯坦,诺斯。2004.扫描统计数据,用于生物恐怖主义的实时监视https://www.cdc.gov/MMWR/preview/mmwrhtml/su5301a17.htm[访问时间:2018-12-21][WebCite缓存
  19. Brillman BJ, Burr T, Forslund D, Joyce E, Picard R, Umland E.传染病投诉急诊访问模式建模:结果和在疾病监测中的应用。BMC Med Inform Decis Mak 2005 Mar 02;5:4 [免费全文] [CrossRef] [Medline
  20. 徐震,陈志强,陈志强,等。变化点分析在每日流感样疾病急诊科就诊中的应用中国医学杂志2012;19(6):1075-1081 [J]免费全文] [CrossRef] [Medline
  21. Mooney SJ, Pejaver V.公共卫生中的大数据:术语,机器学习和隐私。年度Rev公共卫生2018年4月1日;39:95-112。[CrossRef] [Medline
  22. 拟合自回归模型进行预测。中国科学院统计数学1969年12月;21(1):243-247。[CrossRef
  23. 海宁RP。空间相互作用的移动平均模型。英国地理学会学报1978;3(2):202。[CrossRef
  24. Rojas I, Valenzuela O, Rojas F, Guillen A, Herrera L, Pomares H,等。时间序列预测的软计算技术与ARMA模型。神经计算2008年1月;71(4-6):519-537。[CrossRef
  25. Mandl KD, Overhage JM, Wagner MM, Lober WB, Sebastiani P, Mostashari F,等。实施综合征监测:根据早期经验提供的实用指南。中国医学信息杂志2004;11(2):141-150 [免费全文] [CrossRef] [Medline
  26. 李强,郭楠楠,韩志智,张一兵,齐世祥,徐毅刚,等。应用自回归综合移动平均模型预测肾综合征出血热发病率。Am J Trop Med Hyg 2012 Aug;87(2):364-370 [免费全文] [CrossRef] [Medline
  27. 刘强,刘旭,姜波,杨伟。基于ARIMA模型预测中国肾综合征出血热发病率。BMC infected Dis 2011 Aug 15; 11:18 [免费全文] [CrossRef] [Medline
  28. Wongkoon S, Jaroensutasinee M, Jaroensutasinee K.泰国东北部登革热感染预测时间模型的发展。亚洲热带医学杂志2012年3月;5(3):249-252 [免费全文] [CrossRef] [Medline
  29. Ríos M, García JM, Sánchez JA, Pérez D.肺结核季节性的统计分析。欧洲流行病学杂志2000年5月;16(5):483-488。[Medline
  30. McClellan C, Ali MM, Mutter R, Kroutil L, Landwehr J.使用社交媒体监测心理健康讨论——来自Twitter的证据。美国医学杂志2017年5月01日;24(3):496-502。[CrossRef] [Medline
  31. 费斯切拉,李国强,李国强。基于非监督公共卫生事件的疫情情报检测。2010年发表于:第19届ACM信息与知识管理国际会议论文集;2010;波士顿。
  32. 高明德,韦罗索,梅拉。基于Twitter时空局域计算模型的登革热监测。2011发表于:第三届国际网络科学会议论文集;2011;亚利桑那州。
  33. Maenner MJ, yearkin - allsopp M, Van Naarden Braun K, Christensen DL, Schieve LA。开发用于监测自闭症谱系障碍的机器学习算法。PLoS One 2016;11(12):e0168224 [免费全文] [CrossRef] [Medline
  34. 王杰,McMichael A,孟B, Becker NG, Han W, Glass K,等。城区严重急性呼吸系统综合征流行的空间动态牛世界卫生机构2006年12月;84(12):965-968 [免费全文] [Medline
  35. Zhou SM, Fernandez-Gutierrez F, Kennedy J, Cooksey R, Atkinson M, Denaxas S, UK Biobank随访结果组,等。用机器学习方法定义初级保健电子健康记录中的疾病表型:识别类风湿性关节炎的案例研究。PLoS One 2016;11(5):e0154515 [免费全文] [CrossRef] [Medline
  36. 神经网络中的深度学习综述。神经网络2015年1月61:85-117。[CrossRef] [Medline
  37. 马晓霞,王晓明,王晓明,王晓明。单轨列车调度问题的周期性和鲁棒性。应用软计算2012 1月;12(1):440-452。[CrossRef
  38. 刘国强,于平。结构周期相似性与周期检测。2005年发表于:SIAM数据挖掘国际会议论文集;2005;旧金山。
  39. 卢福生,侯世峰,K Baltrusaitis, Shah M, Leskovec J, Sosic R,等。使用新型互联网数据流的准确流感监测和预测:波士顿大都会的案例研究。JMIR公共卫生监测2018年1月09日;4(1):e4 [免费全文] [CrossRef] [Medline
  40. 张志刚,张志刚,张志刚,张志刚,等。极端事件:动态、统计和预测。Nonlin。地球物理学报2011年5月18日;18(3):295-350。[CrossRef
  41. 金洪杰,M费,E福尔,DN。接合点回归与癌症发病率应用的排列试验统计医学2000年2月15日;19(3):335-351。[Medline
  42. Killick R, Fearnhead P, Eckley IA。具有线性计算代价的最优变化点检测。美国统计协会杂志2012年10月17日;107(500):1590-1598。[CrossRef
  43. Jackson B, Scargle J, Barnes D, Arabhi S, Alt A, Gioumousis P,等。一种在一定区间内对数据进行最佳分区的算法。IEEE信号处理。2005年2月;12(2):105-108。[CrossRef
  44. 修剪精确线性时间(PELT)检验在多变点检测中的作用。AJTAS 2015; 4(6): 581。[CrossRef
  45. kilick R, Eckley I.变更点分析的R包。中华统计杂志,2014;58(3):19。[CrossRef
  46. Guyon I. AT & T Bell实验室报告。美国:美国电话电报公司(AT&T);1997.
  47. R:用于统计计算的语言和环境。奥地利维也纳:R统计计算基金会;2013.URL:http://www.r-project.org/[访问时间:2018-12-21][WebCite缓存
  48. 关鹏。基于人工神经网络的甲型肝炎发病率预测模型。WJG 2004; 10(24): 3579。[CrossRef
  49. 梅赫拉,考格尔,葛洛斯,欧嘉ambo PS.基于机器学习模型的冬小麦滞孢菌病播前风险预测。前沿植物科学2016;7:390 [免费全文] [CrossRef] [Medline
  50. 杨晓明,李晓明,李晓明。一种基于神经网络的数据挖掘与分类方法。国际计量经济学与金融管理杂志2017;5:21。[CrossRef
  51. 《核磁共振中的傅里叶变换,光学和质谱:用户手册》。纽约:爱思唯尔科学;1989.


机场核心计划:上升变化点
安:人工神经网络
华宇电脑:自回归综合移动平均
注册会计师:变点分析
各区总监:下降变化点
皮:剪枝精确的线性时间
RSV:呼吸道合胞病毒


G·艾森巴赫(G Eysenbach)编辑;提交20.06.18;同行评议:D Smiths, J Daniel, F Lu;对作者06.10.18的评论;修订本收到23.10.18;接受30.10.18;发表15.01.19

版权

©Amir Talaei-Khoei, James M Wilson, Seyed-Farzan Kazemi。最初发表于JMIR公共卫生与监测(http://publichealth.www.mybigtv.com), 2019年1月15日。

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息,http://publichealth.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。


Baidu
map