原始论文
文摘
背景:过去的研究表明,各种信号与人类行为(如社交媒体等)可以计算预测COVID-19中获益。一种行为,已经被证明可以减少传染性病原体的传播是符合药物干预(npi)。然而,公众坚持npi的程度难以测量,因此很难纳入计算预测传染病。征求许多个人判断(即众包)会导致惊人的准确估计的当前和未来的目标。因此,要求一群估计基层符合npi可能被证明是一个精确的和预测的信号COVID-19等传染病。
摘要目的:我们旨在表明,众包的看法符合npi可以快速和可靠的信号,可以预测一个传染病的传播。我们显示这个通过测量众包之间的相关性对npi的看法和美国事件例COVID-19前1 - 4周,并评估是否将众包观念提高了预测计算预测的事件情况下的性能。
方法:36周从2020年9月到2021年4月,我们问2人群21质疑他们对社区的看法坚持npi和公共卫生指南,和收集了10120响应。自我报告的国家居住比较估计从美国人口普查确定代表性的人群。众包NPI信号映射到21日的意思是认为坚持(MEPA)信号和分析描述性的调查功能,如MEPA信号如何改变随着时间的推移和MEPA时间序列是否可以聚集到团体基于响应模式。我们调查是否MEPA信号与事件相关的病例COVID-19前1 - 4周(1)估算MEPA之间的相关性和事故情况下,和(2)包括MEPA计算预测。
结果:人群主要是地域代表性的美国人与小群体在东北。MEPA信号往往收敛到中等水平的合规在整个调查期间,和一个无监督分析显示信号集群分成4组大致基于问题被要求的类型。几个MEPA信号线性与事件相关的病例COVID-19前1 - 4周在美国国家水平。包括与社会距离有关的问题、测试和限制大规模的聚会增加样本外预测概率预测的性能事件例COVID-19前1 - 3周的模型相比,在只有过去的事件的情况下训练。
结论:众包药物依从性的看法可能是一个重要信号,提高预测的轨迹传染病和增加公共卫生的态势感知。
doi: 10.2196/39336
关键字
介绍
预测传染性病原体的传播可以通过公共卫生官员支持决策和关键决策者(
, ]。过去预测季节性流感,埃博拉病毒、登革热、基孔肯雅热,Zika帮助官员采取短期措施阻碍传播疾病负担和政策决定(草案 - - - - - - ]。COVID-19大流行,进一步强调了公共卫生的重要性,预测在支持态势感知( - - - - - - ]。大多数的预测传染病是由计算模型;然而,过去的研究表明,人类的判断也能准确的预测数量不同的现象(
, ),包括传染性病原体( - - - - - - ]。工作在人类的判断预测可以分为直接和间接的预测。直接收集的预测要求人类估计未来事件的概率。研究人员利用各种方法征求一躺,直接预测专家,或混合人群通过改变人类使用的格式提交预测和训练不同的算法结合个人预测(
- - - - - - ]。结构化引出正式预测应该如何收集最小化潜在的偏见或过度的影响,和研究人员可以使用几种不同的协议严格收集的预测( , , ]。过去的工作时发现中等性能要求那些专业技能直接预测(
, ]。与专家预测的性能由外行人毁誉参半,和预测性能的变化可能是由于环境中的线索相关的感兴趣的事件( ),以及人民依赖试探法与小信息做出快速决定( - - - - - - ]。人类是受几个认知偏见产生负面影响我们的能力做出正确的决断 , ]。说,有很多例子,预测基于心理启发式表现计算模型( ]。聚合直接人工判断预测工作都集中在调整个人之间的关联预测,评估个人的数量预测结合,并适当地决定如何重个体基于过去的预测性能(
, ]。直接利用人类的预测能力建立一个预测可用的结构化数据和信息通常不可用计算模型,如主观信息,直觉,和专业知识 ]。间接的预测未来事件是人类判断(1)提取收集的数据从一个被动源等社交媒体(
- - - - - - ),(2)积极询问一群不可能与感兴趣的目标,或(3)要求一群在预测市场采取行动,可以映射到概率预测( , ]。间接的预测提供了一个机会来训练一个统计模型在客观数据与主观数据来衡量。过去的工作,整合社交媒体数据在模型中通常将行为映射到一组随机变量和包括这些随机变量的统计模型
- - - - - - , ]。大多数研究把这些人类和社会媒体被动信号可以开采导致更准确的预测。例如,最近的一项研究杠杆移动数据收集从Twitter来提高预测事件COVID-19病例在多个地理水平( ]。数字互动和参与数据超出社交媒体可能是有用的预测信号,最近的一项研究发现,谷歌搜索趋势COVID-19相关症状改善短时预报和预测COVID-19事件的病例和死亡( ]。区划的模型也被建议考虑人类行为评估个体之间的联系网络,和生殖和恢复率或疾病状态之间建立一个更复杂的函数,考虑人类行为( ]。预测市场是另一个人类判断方法聚合,问一个参与者的押注未来事件的潜在激励每个参与者来优化他们的总收益( , ]。创建一个预测市场的目标不是感兴趣的链接行为的结果,而是利用一个人的能力来提取替代不访问数据源计算模型和应对市场的聚集行为。模型,包括间接预测报告改进的性能相比,不包括间接预测模型;然而,性能不同的传染病和类型的数据收集。人类行为和感知也可以用来预测社交媒体参与和社区行为可能受益政策制定者和社区领导人的决策。例如,过去的工作看这类型的消息从组织共享在Twitter上培养最强的公众参与( ),以及与健康有关的信息来源可能会寻求基于人口统计数据,以及这些因素如何影响坚持社会距离准则( ]。在这项工作中,我们研究如何众包问题相关的药物干预(npi)的社区可以导致一种改进的预测COVID-19事件的情况下在国家层面。我们提出了21个问题与npi代表性样本来自美国的36周。这些众包数据被用来估计坚持npi的认知之间的联系和事故情况下在美国国家层面提前1 - 4周。此外,我们预测模型,表明添加众包数据感知事件的依从性提高了预测精度情况下相比,不包括感知数据的控制。
当前的文学,我们贡献社区规模感知信息的一种新颖的数据流(
]显示(1)与事故情况下1 - 4周之前在国家层面上,(2)提高预测准确性的样本外预测前1 - 3周时包含在一个计算模型。方法
道德的考虑
我们从利哈伊大学获得追溯间隙的机构审查委员会(IRB)发布的数据(# 1808500 - 1)。IRB决定获得知情同意并不是必要的,因为数据被记录在这样一种方式,人类受试者的身份不能容易确定直接或通过标识符相关的主题。已经公开的数据也同样鉴定(
]。参与者完成了调查志愿者的基础上(1)或(2),以换取报酬。补偿参与者获得学分从调查平台,可以兑换礼品卡或捐赠给慈善机构。调查物流
参与者和招聘
有10个,852年调查的反应在36周开始8月30日,2020年,截至2021年4月28日,(平均每周281响应的SD 119)。参与者最初招募通过支付调查猴子平台(4405/10,852年,40。2020年5%)于9月23日,到2021年2月15日。调查猴子是一个全球平台的调查访问了超过1.4亿名参与者。每个服务平台需要一笔费用,保证支付参与者将具有代表性地区的利益。调查可以发送到一组参与者(称为目标受众)满足特定标准,如原产地、年龄、社会经济因素(收入、婚姻状况和就业),等。参与调查的女性被要求住在美国,至少18岁。调查设计、分配和数据收集是通过调查猴子管理软件。
2021年2月16日,4月27日,2021年,参与者被招募的Pollfish调查平台(3295/10,852年,30。4%)。这种变化是由于调查猴子每周交付高度可变数量的反应,在几个星期,未能交付响应命令的数量。Pollfish是另一个费用/响应调查平台,允许研究者指定目标受众和担保数量代表的反应。的目标和服务调查猴子与Pollfish相似,尽管Pollfish软件对被调查者收集高分辨率空间数据。Pollfish平台收集了参与者的反应符合同一标准的调查猴子。
补偿受访者调查猴子和Pollfish占大约70%(7700/10,852,71.0%)的反应,最后大约30% (3152/10,852年29.0%)的参与者招募志愿者和参加通过调查猴子平台从8月30日,2020年,2021年4月28日。这些志愿者们大多是通过口碑营销和社交媒体招募。
我们从分析如果删除参与者的反应(1)一半以上的问题(即11的21个问题)是留空或有回应的“不知道”(4。7% (511/10,852)的反应)或(2)一个参与者给每个问题(2相同的反应。3% (331/10,852)的反应)。所有的空白和“不知道”回答被排除在分析(9。7% (20,569年/214年,[200]总问题的反应即N参与者×21])。
调查时间
36周被派去调查参与者开始9月6日,2020年,截至2021年4月30日和。调查被分发到独特的参与者每个星期一,星期三,星期五,星期日和调查被关闭。调查没有发送到相同的参与者不止一次一个星期。
赔偿调查猴子调查参与者开放的第4周调查期间(2020年9月)调查的连续21周(2021年2月),和调查猴子调查志愿者在整个36-week调查是开放的时期。Pollfish调查21周的调查参与者开放的时期(2021年2月),直到数据收集的连续36周(结束调查阶段;2021年4月)。
2020年7月和8月,调查被送到参与者(1)和(2)征求反馈填写调查是否措辞的问题调查清楚。先从这些反馈2试点调查被用来更新和完成调查2020年9月至2021年4月。
调查内容和问题
调查2020年9月至2021年4月要求参与者回答同一组21(见“核心”问题
核心问题的列表)。核心问题要求参与者对他们的社区成员的看法坚持npi,比如面具戴上,他们坚持公共卫生指南相关测试、检疫、和大型集会。参与者给反应在李克特量表调查问题有以下选项:“没有/没有采用,”“几/ 20%,”“一些/ 40%”,“许多/ 80%”,“所有/ 100%,”和“不知道”。除了21核心问题,包括几周局部问题询问参与者的认知行为在特定事件(例如,节日聚会的大小)。因为这些问题是在这项研究的时间不一致,我们选择不包括他们的分析。的调查中,参与者也被要求可选的想法和反馈如何COVID-19正在解决他们的社区,今后如何改进调查(总结报告的实时数据组成,看到以前的报告(
])。问题提出了随机的顺序在所有21个问题Pollfish调查,调查猴子问题随机5个类别内询问参与者个人NPI行为,遵守指导方针与社区相关企业、检测检疫,意识,限制或教育机构(见相关政策
)。列表的21个“核心”问题,提出了参与者在每个调查从9月6日,2020年,2021年4月30日。
问题
你注意到什么百分比的人在你的社区通常是:
1。在公共场合戴着面具
2。维护社会的距离
3所示。呆在家里
它在你的社区有多普遍:
4所示。餐馆减少了座位
5。企业被关闭,只在家工作
6。理发师,理发师开放与限制
7所示。游客被限制的高级生活设施
8。通常接触表面消毒
9。医院有治疗COVID病人的特殊保护地区
在你的社区,它让人们有多普遍遵循的建议或要求:
10。得到了活跃的病毒检测
11。之前得到抗体检测检测感染
12。检疫的人一直在密切接触的人积极的测试
13。检疫的人积极的测试
14。检疫旅行者从高感染的地方
15。限制大型集会的人
有多少人在你的社区意识到:
16。COVID感染的地方
17所示。全州范围内的目标减少COVID蔓延
18岁。当地限制COVID传播方法
在你的国家,什么百分比:
19所示。大学只远程关闭或持有类
20.学校(k - 12)关闭或控股只有远程类
21。违反COVID限制导致罚款或警察执法
数据采集和可用性
调查数据从一组回顾性获得精算师(丹尼尔·英格拉姆和大卫·英格拉姆)对人类行为的研究感兴趣,众包,以及如何感知可能预测SARS-CoV-2的传播。有几个局限性调查收集:(1)参与者标识符没有收集纵向所以我们不能跟踪调查的个人贡献,和(2)的措辞调查说明是整个调查猴子和Pollfish平台略有不同,这可能偏见的反应。
被个人数据的所有21个问题以前的报告中所有可用36周(
]。宽格式的数据,每一行代表一个单独的调查反应,和列存在调查完成日期和21个调查问题的答案。我们得到批准利哈伊大学的IRB发布这些数据在一个开源平台。
流行病学数据
事件每流行病学情况下星期(流行)在国家层面收集来自约翰霍普金斯大学CSSE GitHub库(
]。这个存储库存储每天累积病例从1月22日,2020年,到现在对所有50个州和一组5个地区。计算入射情况下的一天D,我们在天减去累计病例D从累积的情况下的一天D+ 1。我们计算入射情况下的一天D在国家层面上,总结事故5例所有50个州和领地。日常事件情况下在国家层面上总结每流行星期到达事件的情况下,在流行病周周六周日开始和结束。评估人群是否代表的美国人
我们评估图形样本是否代表所有州(美国人口的策划年代)两人(r年代e年代),r年代国家观察参与者的总数吗年代和e年代估计预期的响应状态年代。
我们的估算e年代假设r年代是来自一个随机变量R年代∼本(N,θ年代),N在所有调查和参与者的总数吗θ年代的概率是随机选择一个公民在国家注册年代。我们估计θ年代,,如人口普查估计状态年代除以人口普查估计所有国家的总和。的值e年代是
。
我们估计包括观察和预期数量的参与者之间相关系数样本在所有国家。对于每一个国家,我们也比较了观察到的和预期之间的相对差别比例的参与者(
)。统计的设置
我们假设一个调查回应的问题问从参与者我在时间t,xt i, q产生一个随机变量Xt i, q已支持增刊(Xt i, q)= {0,1,2,3,4}对应5个不同级别的依从性。0的值对应于任何依从性和依从性不采用社区,和4的值对应于完整的依从性(响应“所有/ 100%”调查)。随机变量在时间t的问题问两个参与者之间是独立的。
的意思是认为坚持(MEPA)被定义为一个特定的问题问在一个特定的时间t的平均xt i, q在参与者,或
在哪里N问题是反应的数量吗问在时间t。MEPAq t旨在衡量一个特定类型的NPI聚合的坚持。虽然个人响应离散,MEPAq t是一个持续的价值。如果我们定义随机变量MEPAq t的平均N独立随机变量方差有限,那么我们期待MEPAq t有一个钟形分布,类似于正态分布局限于闭区间从0到4。
事件美国国家COVID-19病例流行病学周t,(ct),被认为是产生一个相应的随机变量Ct这次,我们没有额外的假设。
估计MEPA与事件之间的关联情况
对于每一个调查问题,我们估计在流行病学周MEPA之间的相关系数t在流行病学和美国国家事故情况下星期t,t+ 1,t+ 2,t+ 3,t+ 4。线列表的相关系数估计在每一周时间点和95%的CIs中可用
。聚类问题
我们层次聚类算法适合所有21 MEPA时间序列2到10集群。两个时间序列之间的不同是使用欧氏距离计算。轮廓系数是用来评估质量的配件2集群,集群3等等(10集群)
]。系统树图是绘制集群、形象化和MEPA时间序列分组,商议在流行病学的一周。预测模型与协作感知和没有
爵士+向量自回归移动平均线
先生(易感,感染,和删除)模型适合我们事件的病例数量估计产生事件的病例数我t和残差(ϵt=ct−我t)建模与向量自回归移动平均(VARMA)模型,包括一个或多个MEPA时间序列。
爵士模型估计的时间t个人存在的敏感的数量(年代t)、感染(我t)和删除(Rt)室根据
与初始值年代0,我0,和R0和参数β>0和γ>0。我们选择年代0相当于个人的数量在美国,根据最近的人口普查。初始值我0是等于第一流行病学周报告的感染数量的调查数据收集(2020年8月30日,2020年9月5日),然后呢R0被设置为0。上面的初值问题被Runge-Kutta-Fehlberg集成方法,和参数β和γ估计通过最小化之间的最小二乘解我t事件的报道数量情况下(先生的估计模型4可以在不同的时间点
)。残差是产生et=ct−我t一起,我们认为这些残差的一个MEPA时间序列可以建模为一个VARMA模型。VARMA假设残差,MEPA时间序列米问遵循
θ(l)Yt=ψ(l)Ut
在哪里Yt= (ϵt,米q t]”,Ut是一个随机向量白噪声过程或后Ut∼N (0,Σ)算子θ(l)=B1l+B2l2+···Bk是系数矩阵,运算符ψ(l)=一个1l+一个2l2+···一个k是系数矩阵,操作员吗lj滞后算子或吗ljYt=Yt−j。我们假设任何之间的协方差Y年代和Yt是固定的和等于Σ。
滞后的最优数量θ和ψ估计每周通过计算每个36周Akaike信息准则(AIC)模型符合1 - 3落后的组合吗θ和1 - 3落后ψ。结合导致AIC被最低。
+随机森林+ VARMA先生
将所有MEPA时间序列合并成一个模型,我们首先满足一个爵士原始时间序列模型和计算残差et=ct−我t。接下来,我们训练随机森林回归f5000棵树,所需的输出ϵt的函数et−1,所有的MEPA时间序列值,使用洛斯平滑,滞后的1。的残差δt=e5;t−f(et−1,米ˆ1t−1,米ˆ2t−1,···,米ˆ21t−1),米ˆq t是洛斯平滑MEPA时间序列值的问题吗问在时间t,也进行了计算,并被认为跟一个自回归移动平均(ARIMA)过程集成,或θ(l)δt=ψ(l)ut。落后在每周选择基于AIC与上述相同的方式加上爵士VARMA模型。
控制模型
我们控制模型遵循相同的先生“消除趋势”原始事件的情况下,时间序列,然后配合的ARIMA剩余工资。随后的ARIMA VARMA模型建模时类似的方法
Yt∼et
Θ(l)Yt=ψ(l)ut
在哪里ut∼N(0,σ2)。唯一的除了这个模型是我们可能“差异”Yt通过连续减少的值Y在时间t - 1的值Y在时间t为所有的时间。计算的区别dt=∇Yt=Yt−Yt−1,符合上面的模型中,生成的预测dt+ 1dt+ 2,,然后恢复欧美+l通过计算Y(t+l)−1 +d(t+l)。
ARIMA的过程是一个第一次尝试模型在许多时间序列的应用程序。如果模型,包括MEPA变量不能改进上述先生+ ARIMA模型,然后MEPA不得添加任何事件预测价值超过使用滞后值的情况下独自一人。
上述VARMA和ARIMA模型适合使用statsmodels在Python中包(
]。预测评分
预测使用加权得分区间评分(感知)K中央分位数(
]。区间评分(在哪里吗αk)是
在哪里F是一个预测累积分布函数,1 (x)是一个指标函数值u代表(1 -α/2)分位数的F,l代表了α/2分位数F,米代表中值或0.50分位数,c是最终报告的事实
]。此外,体重w0= 1/2,wk=αk/ 2。威斯康星州和区间评分负面感觉,大值表明糟糕的预测性能相比较小的值。最好的威斯康星州是0,+∞最糟糕的威斯康星州。
结果
概述
比较跨2调查平台的响应率(即调查猴子和Pollfish)显示,样本大小每星期后切换到Pollfish都高。样品主要是地域代表性的美国人在东北轻微的过采样。MEPA值变量在调查的开始时期比最后,建议要么反应随着时间的推移变得更加一致的或更大的样本量在整个调查期间导致较低的响应变化。聚类分析显示,调查问题可以集群分成4组根据问题类型,表明未来的调查可能会更有效的针对这些问题类型使用更少的问题。相关分析显示相当强劲几个MEPA时间序列之间的相关性和事件COVID-19例1 - 4周。几个MEPA时间序列也增加了事件的预测模型的预测精度COVID-19情况下提前1 - 4周。
调查平台响应率
调查猴子调查得到平均236。06 (SD 81。平均每周14)补偿响应,88。80 (SD 22。68)志愿者每周响应,揭示付费调查反应率高,但比志愿者调查反应变量在周。Pollfish调查得到平均272。55 (SD 7。志愿者每周80)补偿反应,反应没有收集Pollfish系统。总的来说,样本大小每周都更高的开关后Pollfish (
一个)。![](https://asset.jmir.pub/assets/886cf8d68761e27a012f507e56a1b38b.png)
问题响应率
的平均百分比参与者回答的问题是87年。89% (SD 6。15%)(
1到5 B)。问题和问题回答了平均94。98% (SD - 1。47%)的时间,而问题7,9,11日,14日和21反应的概率最低,平均响应速度为78。63% (SD - 2。09%)。代表性的抽样
州的大部分反应收集包括加州(956/10,120,9.5%)、纽约(876/10,120,8.7%),宾夕法尼亚(678/10,120,6.7%),德州(645/10,120,6.4%)和佛罗里达(456/10,120,4.5%)。
之间的关系的观测频率响应和期望频率是0。90(95%可信区间为0。84 - 0。94;P <。001)和建议回应率是成正比的人口在州一级。我们为每个州的比例相比,观察反应个体的比例在该州人口普查显示(见
预期的比例,观察到的比例和相对差异)。七个州偏离预期的响应率超过9 SDs。未被充分代表的四个州(密西西比州、波多黎各、佛罗里达州和德克萨斯州),和3州过多(明尼苏达,宾夕法尼亚州和纽约)(
)。宾夕法尼亚州是最过多的状态。当补偿和志愿者包括反应,响应频率在宾夕法尼亚州10 SDs高于期望和当志愿者反应被响应频率下降到3.5 SDs低于预期。
评估转换调查平台中数据收集可能会影响结果,我们分析了样本的代表性是否改变了根据调查平台。我们之间的平均相对偏差计算预期的和观察到的反应在所有州,和比较这测量在测量平台上。这个分析显示了参与者的国家居住(即不是志愿者)从调查猴子更具代表性的美国人(0.015−0.599,SE)与支付参与者的国家居住Pollfish(平均−0.751 SE 0.019;t51= 7.58;P<措施)。
![](https://asset.jmir.pub/assets/cacd1b3921694f45a3fda9feba1c3dd0.png)
随着时间的推移MEPA
MEPA增加最开始调查结束的以下三个问题:问题21(∆的意思21=意味着21日week36——意思是21日week1= 1.29),要求参与者对他们的国家政策和知识是否“违反COVID限制导致罚款或警察执法;“问题11(∆的意思11= 1。24)经常问到社区成员遵循建议寻求“[…抗体检测检测之前感染;”和问题14(∆的意思14= 0。57),要求参与者旅行后社区成员检疫的频率(
一个)。MEPA下降最开始调查结束的以下三个问题:问题7(∆的意思7=−1.07),要求参与者频率限制放置在访问高级生活设施;问题4(∆的意思4=−0.83),要求餐馆的频率减少了座位容量;和问题9(∆的意思9=−0.81),被问及的频率在医院当COVID-19患者特殊保护。
SD MEPA值之间在调查期间(SD的开始开始= 0。89)是比SD MEPA值之间的调查(SD结束= 0。33)(
)。平均MEPA值在所有21个问题仍然类似的调查(的意思开始= 3。15日的意思结束= 3。14)。这个结果可能是由于收敛观念随着时间或减少可变性在整个调查期间由于样本量的增加。估计MEPA值之间的相关性t和t−l大于0.35滞后4周(l= 4)对于大多数MEPA时间序列(
B),表明许多MEPA比随机游走时间序列包含更多的结构。应对以下5个调查问题有一个平均绝对自相关大于0.2:问题3 ([…呆在家里),问题4 ([…]re年代taurants complying with Centers for Disease Control and Prevention [CDC] recommendations to have reduced seating), question 9 ([...] special protection in hospital areas that treat COVID patients), question 10 ([...] get tested for active virus), and question 11 ([...] get antibody testing to detect prior infection). The mean absolute autocorrelation for these 5 questions across 34 lagged weeks was above 0.2. A more detailed view of autocorrelation for a lag of 1 week has been provided in 。![](https://asset.jmir.pub/assets/234a4d098187b404a820275a36579ffa.png)
随着时间的推移根据相似性聚类问题的反应
MEPA时间序列分为以下4集群(
A和B):(1)集群的问题值在2.5和3.5之间(即低到中等的依从性; C),(2)集群值随时间而下降( C),(3)集群值接近2.25调查之初,随着时间的增加( C),和(4)集群值附近增加1.25调查之初,随着时间的推移,年底结束2.50以上的调查( C)。集群质量的轮廓系数最高时将MEPA时间序列分组为4集群;然而,4集群类似于剪影轮廓系数为2和3的集群系数(
集群中的一个)。 C,有可能存在2 clusters-one增加依从性随着时间的推移和另一个减少的依从性。MEPA时间序列在同一个集群询问参与类似的依从性行为。相应的规避行为问题(问题2、12和15)比另一个更类似于另一个问题,当被问及的问题限制企业(问题4和6),意识到病毒的传染性率高(问题2和13)在当地的水平,和意识在州一级(16 - 17)的问题。这些结果表明,参与者可能会考虑组的问题以相似的方式(如回避有关),这意味着未来的调查可能受益于针对这些因素更直接。
MEPA反应前1 - 4周之间的自我在不同的集群,明白了
。![](https://asset.jmir.pub/assets/c39ff5dec41d272494e204cf12784e79.png)
对依从性之间的相关性和报告事故情况
估计的相关性(ρMEPA时间序列之间的)代表回答这个问题:“你注意什么百分比的人在你的社区通常是维护社会距离?”和事故情况下提前1周−0。46 (95% CI−0。69−0。15)。此外,相关(ρ)−0。3 (95% CI−0。67−0。12)对事件情况下提前2周,−0。35 (95% CI−0。61−0。02)的前3周,−0。26 (95% CI−0。55为0。08年)对于那些提前4周(
)。MEPA时间序列的问题”在你的国家,大学只关闭或控股的百分之远程类?“估计有相关性(ρ)(0)。46(95%可信区间为0。15 - 0。69)情况下提前1周。此外,相关性(ρ)0。36(95%可信区间为0。04为0。62),0。27 (95% CI−0。07年为0。55)和0。15 (95% CI−0。19 - 0。46)报告了事件例2周,3周,4周,分别在美国国家水平( 、行19)。相关系数和95%为每个问题都可以在CIs 。综上所述,这些结果表明,感知的变化NPI遵从性(即MEPA时间序列)与COVID-19事件情况下的变化。![](https://asset.jmir.pub/assets/aaa4307395ffbf323575b4dea438e36b.png)
与众包MEPA样本外预测的改善
模型包括两项美国国家事故案例和MEPA历史数据改变了轨迹预测,预测区间的宽度相对于一个模型只考虑过去的时间序列事件美国国家情况下(
)。模型,包括历史统计和随机预测回归将所有MEPA数据提出了一个类似的轨迹的ARIMA(控制)模型只包括案例数据,有更广泛的预测区间峰值之前报告的病例中,有一个较小的预测区间后报告病例的峰值( 和F)。的比例乘以一个预测,包括单个MEPA时间序列生成更小的(改善)威斯康星州模型,没有使用MEPA相比,50%以上的多数预测视野的依从性问题前1 - 3周(
)。MEPA大多数改进预测提前2周。相对应的MEPA时间序列问题”人们通常呆在家里的百分之几?”“有多普遍人们遵循建议接受抗体检测吗?”和“人们在你的社区多普遍遵循的指导方针,限制大型集会?“提高了76% (95% CI 58% - -94%)的预测提前2周。3周前,问题“人们通常呆在家里的百分之几?“提高了76% (95% CI 58% - -94%)的预测和机器学习模型,整合所有依从性问题提高了76% (95% CI 58% - -94%)的预测。包括MEPA数据改进的预测提前4周最低限度和只有一个小的问题。与控制模型,包括MEPA数据提高预测准确性前1 - 4周(即减少威斯康星州)和峰值后报道事件病例数(
)。预测未来1周显示一致的小随着时间的推移增加预测的准确性( 未来几周)。预测2和3显示大收益在预测精度和峰值后事件病例数( B和C),改善预测精度提前4周出现峰值附近的病例数( D)。总的来说,这些结果表明,某些观念的NPI合规可能有用信号模型中预测COVID-19事件情况。![](https://asset.jmir.pub/assets/f5de9f974961a25af23495849677820a.png)
![](https://asset.jmir.pub/assets/6f0b1895c6e59de6823c58e2694ac6d4.png)
![](https://asset.jmir.pub/assets/a583a0e7f622671899723038fed7ded2.png)
![](https://asset.jmir.pub/assets/6b3fb2d5aaa14ed045046cfb53843af5.png)
讨论
我们发现,众包的看法坚持npi与入射情况下提前1 - 4周在美国国家层面,包括感知数据为计算模型提高预测准确性前1 - 3周。因为反应从一群可以快速收集(例如,在数小时内分发一个在线调查),这些反应可以包含每周为计算模型,可以提供实时的预测流行病学疾病预防控制中心等组织的目标。
由于预测基于公众快速和信息化,这些预测将是非常有效的发行后有时新的NPI指南从州或联邦机构来评估这些新准则的有效性。我们的模型可以揭示出人们感知公共遵守这些指导方针和遵从性的变化如何影响传染病的轨迹,从而通知公共卫生官员哪些干预措施能够减少风险行为。这些预测可能也是宝贵的决策者和社区领导人决定,例如,大学课程是否应该在人或远程举行。
这个工作支持假设一群可以分配实际的概率对社区坚持npi结果符合最近的工作,这表明,外行人也能得到准确的概率预测多样化的现实世界的现象,比如新电影的票房收入或传染病的影响
, ];然而,更多的工作需要完成到什么程度可以评估包括人类判断观念提高了传染病模型的预测精度( )。过去文献大约躺人的能力做出准确的概率预测是复杂的。一些过去的研究表明人们可能无法准确的概率地图环境因素的结果( ),而其他的研究表明人民统计直觉可以重叠的数据环境( ]。从这项研究的证据表明,参与者能够判断活动他们能够观察和预测,并在空间水平做出预测。例如,参与者选择回答“不知道”或空白离开的问题。参与者的反应往往与环境相关的问题,如戴着面具的人口比例,并回应少的问题,是与他们的环境,限制探视等高级生活中心。调查问题在最初的试点阶段的研究要求参与者进行预测在国家层面而非社区层面,和许多参与者在这个试点阶段抗议,他们不能做出合理的预测在这个级别,表明参与者的当地社区可以外推预测。最后,强烈的每周应对特定的NPI问题之间的相关性表明,本研究参与者的判断是一致的(见
)。我们的结果可能会支持这个想法,人类的判断是准确预测事件的情况下,因为人们可以认识和推断他们的环境。然而,依靠人类的判断提出的挑战时没有使用计算模型进行预测。人类的判断是容易受到广泛的偏见常常引发的细微变化提出了如何判断提示(
]。看似不相关的信息可以有大影响的判断。例如,当被要求完成一个无关紧要的任务,比如写下他们的社会安全号码的最后2位数在投标之前常见的物品(比如一瓶酒),更高的社会安全号码的人出价葡萄酒更多的钱比那些较低的数字( ]。这些发现强调精心制作的重要性判断避免激活判断偏差的问题。人类判断数据也必须检查质量,参与调查的女性经常离开空白在一个单一的一个或多个问题调查,大约2%的参与者给相同的响应每一个问题,这表明他们不阅读密切调查项目。最后,人类参与者招募要求时间、精力和金钱。招募志愿者省钱但要求努力和暗示一个不确定的反应,可以挑战当收集数据来响应时间敏感事件如流行或大流行。参与率在这项研究倾向于提高整个数据收集期间,造成的困难评估MEPA随时间的变化是否被感知的变化驱动的依从性或参与率的变化。在未来的工作有几个局限性地址。我们想要克服的一个限制是,参与者没有纵向追踪,所以,我们无法从个人分析反应随着时间的改变。另一个限制是,电子邮件用来征求志愿者包含链接的总结发现前几个月的数据收集。虽然这可能附加价值研究中参与者的经验,它可能有偏见的后续反应通过锚定判断这些汇总值(
]。另一个限制源自切换调查平台(从调查猴子Pollfish)在数据收集中。需要这个开关是由突然下降的能力调查猴子提供每周支付响应的请求数量(见 A)。这个开关似乎对地理产生影响的代表性样本,Pollfish提供了一个代表性样本低于调查猴子。因为调查平台切换是困惑的反应和流行,影响切换调查平台可能有反应在很大程度上是不清楚。此外,跨州创建变量抽样率估计的困难预测在州一级。过采样从较低的州人口将确保一个预测模型有足够的数据估算可靠预测。没有其他的人口一直在调查收集的信息,所以,我们不能评估样本是否代表其他人口维度。最后,有证据表明,自我表现可能随地理位置( ]。未来的研究应考虑位置和周围的人口可能会如何影响认知,例如,导致过高的患病率的面具戴在人口稠密的地区。未来的研究应该探索是否更准确和校准的预测事件情况下从人类的判断可以通过匹配的空间尺度问题的人群流行病学感兴趣的目标。预测事故情况下在国家层面上,而是更强之间的连接可能会观察到的状态——或者基层的判断和状态——或者社区事件情况。例如,一个调查预测的准确性取决于是否能等因素的地理大小状态(如德克萨斯和特拉华州)或种族多样性(如加州和西维吉尼亚州)。此外,受访者可以要求法官遵循专门的县,然后,这些判断可以被添加到一个模型产生县级预测。强有力的预测在这个地方将有价值的社区领导人决定,例如,是否应该在一个市政厅会议或远程的人。估计这些地方预测的一个重大挑战是收集足够的反应从一个给定的社会随着时间的推移,,正如上面提到的,可以通过目标和过采样从当地感兴趣的领域进行预测。未来的研究还应该探索NPI合规的看法是否能预测其他流行病学目标。当我们关注事件的情况下,在这项研究中,我们目前的方法应该扩展到其他感兴趣的预测结果,如COVID-19住院和死亡。
众包对人类行为的看法,比如药物的依从性,可能是一个快速和信息信号,可以改善概率预测的轨迹传染病和传染病对政策有重要意义。
确认
我们感谢以下的成员COVID减排监测项目(CMMP):戴尔大厅,FSA,塞拉,MAAA, CFA;FSA罗伯特•沃尔夫CFA,塞拉;人口、难民和移民事务局,Kailan商,FSA, CFA SCJP;和约翰·斯塔克,FSA,塞拉。我们感谢精算师协会支持的数据收集。我们也要感谢所有参与者提供他们的看法的调查。
的利益冲突
没有宣布。
调查提供给参与者捕获的看法坚持药物干预。
多克斯文件,942 KB
观察到的和预期的比例为每个国家的参与者。
多克斯文件,26个KB
相关性指的是坚持和我们国家事故案例。
多克斯文件,39 KB
先生(易感,感染,和删除)模型适合我们国家事故案例。
多克斯文件,68 KB
自相关的1周的意思是坚持时间序列。
多克斯文件,447 KB
集群和事故情况下二元之间的关系问题。
多克斯文件,287 KB
假设检验在模型预测与众包的意思是坚持。
多克斯文件,20 KB引用
- Lutz CS, Huynh MP,施罗德M, Anyatonwu年代,达利FS, Danyluk G,等。应用传染病预测公共卫生:使用流感预测例子是一条前进的道路。BMC公共卫生2019年12月10日,19 (1):1659免费的全文][CrossRef][Medline]
- Pollett年代,约翰逊,帝国NG Brett-Major D, Del Valle SY, Venkatramanan年代,等。建议报告疫情预测和预测研究项目:2020年EPIFORGE指南。科学硕士2021年10月19日,18 (10):e1003793 [免费的全文][CrossRef][Medline]
- Del Valle SY,麦克马洪BH,亚瑟J,哈契R,北方联盟党JC,棕色的他,等。总结的结果2014 - 2015年美国国防部高级研究计划局基孔肯雅热的挑战。BMC感染说2018年5月30日,18 (1):245 (免费的全文][CrossRef][Medline]
- 埃文斯MV,达拉斯助教,韩寒英航,默多克CC,德雷克JM。数据驱动的识别潜在Zika病毒向量。Elife 2017年2月28日;6:e22053 [免费的全文][CrossRef][Medline]
- 约翰逊M, Apfeldorf K,多布森,Devita J, Buczak,鲍格B, et al。开放的挑战为登革热流行推进概率预测。《美国国家科学院刊年代2019年11月26日,116 (48):24268 - 24274 (免费的全文][CrossRef][Medline]
- 马Kobres P,克雷蒂安J,约翰逊,摩根JJ, Whung P, Mukundan H, et al . Zika病毒的系统回顾和评估预测和预测研究在国际关注的突发公共卫生事件。公共科学图书馆Negl太说2019 10月4,13 (10):e0007451 [免费的全文][CrossRef][Medline]
- 帝国NG,麦高文CJ, Yamana TK,印度央行,Ray EL Osthus D, et al .实时多模型整体预测精度季节性流感在美国《公共科学图书馆·第一版杂志2019年11月22日,15 (11):e1007486 [免费的全文][CrossRef][Medline]
- Viboud C,太阳K, Gaffey R, Ajelli M, Fumanelli L,乌鸫,RAPIDD埃博拉病毒组预测的挑战。RAPIDD埃博拉预测挑战:合成和教训。流行2018年3月,22:13-21 [免费的全文][CrossRef][Medline]
- 马带给M,虽说RB,约翰逊,巴特勒JC。改善大流行应对:采用数学建模面对2019年冠状病毒疾病。感染说2022 09年3月,74 (5):913 - 917 (免费的全文][CrossRef][Medline]
- 克莱默E,射线E,洛佩兹V,雌猎犬J, Brennen,卡斯特罗Rivadeneira, et al。评估个人和整体的概率预测COVID-19死亡率在美国。《美国国家科学院刊年代2022年4月12日,119 (15):e2113561119 [免费的全文][CrossRef][Medline]
- Evan LR, Nutcha W, Jarad N, Abdul港元,凯蒂·H,雅诗YC, et al .合奏预测冠状病毒疾病的2019美国MedRXiv (COVID-19)。2020年。URL:https://www.medrxiv.org/content/10.1101/2020.08.19.20177493v1[2022-11-16]访问
- Hanea,卷边V, Nane GF。不确定性量化专家:现状和研究的需要。风险肛门2022年2月,42 (2):254 - 263。(CrossRef][Medline]
- 安德鲁说,Wattanachit N,吉布森GC,帝国NG。聚合来自专家预测:回顾统计方法,实验和应用程序。威利Interdiscip牧师第一版统计2021年6月16日,13 (2):e1514 [免费的全文][CrossRef][Medline]
- 宝仕倪,雅培年代,雌猎犬J,海H,奎尔蒂BJ, Jit M,中心传染病数学模型COVID-19工作组,等。比较人类和基于模型的预测COVID-19在德国和波兰。PLoS第一版杂志2022年9月,18 (9):e1010405 [免费的全文][CrossRef][Medline]
- 法罗,布鲁克斯LC, Hyun年代,Tibshirani RJ,伯克DS,罗森菲尔德r .流行病学预测人类的判断方法。PLoS第一版杂志2017年3月10日,13 (3):e1005248 [免费的全文][CrossRef][Medline]
- 安德鲁说,帝国NG。专家判断模型来预测早期COVID-19大流行在美国。PLoS第一版杂志2022年9月,18 (9):e1010485 [免费的全文][CrossRef][Medline]
- 斯皮格尔霍尔特Recchia G,弗里曼行政法官,d .专家和外行是如何预测的大小COVID-19流行病?《公共科学图书馆•综合》2021年5月5日,16 (5):e0250935 [免费的全文][CrossRef][Medline]
- 这本RT,温克勒RL。结合概率分布从风险分析的专家。风险分析2006年5月29日,19 (2):187 - 203。(CrossRef]
- 彼得斯Grigore B, J,海德C,斯坦k .明确:可行性研究在卫生技术评估远程专家的启发。BMC医学通知决策Mak 2017 9月04;17 (1):131免费的全文][CrossRef][Medline]
- 卷边V,伯曼马,Hanea,麦克布莱德MF, Wintle BC。一个实用指南,结构化的专家抽取使用的协议。生态方法另一个星球2017 9月05;9 (1):169 - 180。(CrossRef]
- 温克勒RL, Grushka-Cockayne Y, Lichtendahl KC,何塞VRR。概率预测和他们的组合:一个研究视角。决策分析2019;12月16 (4):239 - 260。(CrossRef]
- 库克RM。不确定性:专家意见和主观概率的《科学》杂志上。英国牛津:牛津大学出版社;1991年。
- 伯曼马,麦克布莱德M,阿什顿R, Speirs-Bridge,弗兰德L, Wintle B, et al。专家状态和性能。《公共科学图书馆•综合》2011年7月29日,6 (7):e22998 [免费的全文][CrossRef][Medline]
- Spence太,勃拉克m .调节特性的影响问题专家和新手的判断。营销研究杂志2018年12月20日,34 (2):233 - 247。(CrossRef]
- 斯图尔特TR, Roebber PJ,通过低频。任务的重要性,在分析专家的判断。组织行为和人类决策过程在1997年3月,69 (3):205 - 219。(CrossRef]
- Kahneman D, Tversky答:(主观概率判断的代表性。认知心理学1972;7月3 (3):430 - 454。(CrossRef]
- Kahneman D, Tversky a .心理学的预测。心理评估1973年7月,80 (4):237 - 251。(CrossRef]
- 特沃斯基,卡尼曼d .可用性:一个启发式判断频率和概率。认知心理学1973;9月5 (2):207 - 232。(CrossRef]
- 特沃斯基,卡尼曼d .证据基准利率的影响。DTIC。1981年。URL:https://apps.dtic.mil/sti/pdfs/ADA099501.pdf[2022-11-16]访问
- 吉仁泽G, Gaissmaier w .启发式决策。为Psychol 2011年1月10日,62 (1):451 - 482。(CrossRef][Medline]
- 沙AK,奥本海默DM。启发式容易:一个从目标框架。Psychol公牛2008年3月,134 (2):207 - 222。(CrossRef][Medline]
- Wubben M, Wangenheim阵线。即时客户分析:管理启发式通常“做对了”。市场营销杂志》2008年5月,72 (3):82 - 93。(CrossRef]
- 易卜拉欣R,金正日年代,通j .诱发人类的判断预测算法。管理科学2021年4月,67 (4):2314 - 2325。(CrossRef]
- Bae年代,唱(Christine) E, Kwon o .占社会媒体效果提高感染模型的准确性:打击COVID-19流行和infodemic。欧洲信息系统杂志》2021年2月25日,30 (3):342 - 355。(CrossRef]
- 王Hirose H l .预测传染病传播使用Twitter:流感。2012年发表于:第五届国际研讨会上并行体系结构,算法和编程;2012年12月17日,;台北,台湾。(CrossRef]
- 麦当劳DJ,好J,绿色,胡锦涛AJ, DeFries N, Hyun年代,等。可以辅助指标改善COVID-19预测和热点预测?《美国国家科学院刊年代2021年12月21日,118 (51):e2111453118 [免费的全文][CrossRef][Medline]
- 陈沈C, A, C罗,张J,冯B,廖w .社交媒体上使用报告的症状和诊断预测COVID-19案例数量在中国大陆:观察Infoveillance研究。J地中海互联网Res 2020年5月28日,22 (5):e19421 [免费的全文][CrossRef][Medline]
- Polgreen点,纳尔逊FD,诺伊曼GR。使用预测市场预测传染病的活动。感染说2007 1月15,44 (2):272 - 279。(CrossRef][Medline]
- 卖TK, Warmbrod KL,沃森C, Trotochaud M,马丁·E Ravi SJ,等。使用预测疾病预测调查利用集体智慧。BMC公共卫生2021年11月20日,21 (1):2132 (免费的全文][CrossRef][Medline]
- 杨年代,Santillana M,寇SC。准确估计流感流行通过阿尔戈使用谷歌搜索数据。《美国国家科学院刊年代2015年11月24日,112 (47):14473 - 14478 (免费的全文][CrossRef][Medline]
- 李曾C,张军,Z,太阳X, Olatosi B,斯曼年代,et al .时空关系人口流动和南卡罗来纳州COVID-19暴发:时间序列预测分析。J地中海互联网Res 2021 4月13日,23 (4):e27045 [免费的全文][CrossRef][Medline]
- 莫拉雷斯Rabiolo, Alladio E, E,麦克诺特AI,应该F,阿菲菲AA, et al .预测COVID-19流行搜索行为预测模型:通过整合症状Infoveillance研究。J地中海互联网Res 2021 8月11;23 (8):e28876 [免费的全文][CrossRef][Medline]
- 萨拉瑟博士,恐慌,詹森VAA。造型的影响人类行为在传染病的传播:一个回顾。J R Soc接口2010 9月06年;7 (50):1247 - 1256 (免费的全文][CrossRef][Medline]
- Singhal A巴喜可Mago诉公共和私人医疗保健组织之间的协同作用在Twitter上COVID-19:情绪和接触分析使用预测模型。地中海JMIR通知2022年8月18;10 (8):e37829 [免费的全文][CrossRef][Medline]
- 弗里德曼,卢卡斯N,亨特D,齐格勒CK。对COVID-19公共知识之间的联系,对信息来源的信任,和坚持社会距离:横断面调查。JMIR公共卫生Surveill 2020年9月15日,6 (3):e22060 [免费的全文][CrossRef][Medline]
- 布劳恩D,英格拉姆D,英格拉姆D,汗B,沼泽J,安德鲁说t将众包对人类行为的看法纳入计算美国国家COVID-19事件情况下的预测。OSF预印本》2022。URL:https://osf.io/7vrmy[2022-11-16]访问
- 英格拉姆D,英格拉姆·D·COVID-19移植在美国2020年9月到2021年4月。精算师的社会。URL:https://www.soa.org/globalassets/assets/files/resources/research-report/2021/covid-eight-month-report.pdf[2022-11-16]访问
- 杜董E, H,加德纳l .交互式网络实时追踪COVID-19仪表板。《柳叶刀传染病2020,20 (5):533 - 534。(CrossRef]
- Rousseeuw PJ。轮廓:图形援助聚类分析的解释和验证。计算和应用数学杂志》1987年11月,20:53 - 65。(CrossRef]
- Seabold年代,Perktold j . Statsmodels:计量经济学和统计建模与Python。SciPy。URL:https://conference.scipy.org/proceedings/scipy2010/pdfs/seabold.pdf[2022-11-16]访问
- 雌猎犬J, Ray EL Gneiting T,帝国NG。评估疫情预测在一个间隔的格式。公共科学图书馆第一版杂志2021年2月,17 (2):e1008618 [免费的全文][CrossRef][Medline]
- Gneiting T, Balabdaoui F,阿布AE。概率预测,校准和清晰度。皇家统计Soc B J 2007年4月,69 (2):243 - 268。(CrossRef]
- 特南鲍姆格里菲斯TL,简森-巴顿。最优预测在日常认知。Psychol Sci 2006年9月17日,17 (9):767 - 773。(CrossRef][Medline]
- 麦克道尔M,雅各布斯p荟萃分析的固有频率对贝叶斯推理的影响。Psychol公牛2017年12月,143 (12):1273 - 1312。(CrossRef][Medline]
- 卡尼曼特沃斯基,d .理性选择和决策的框架。B: Karpak Zionts年代,编辑。使用微机多标准决策和风险分析。北约ASI系列,卷56。柏林,海德堡:施普林格;1989:81 - 126。
- Ariely D, Loewenstein G, Prelec D。“连贯的任意性”:稳定的需求曲线不稳定的偏好。经济学季刊》2003年2月1日,118 (1):73 - 106。(CrossRef]
- 米切尔L,弗兰克先生,哈里斯KD,多兹PS,丹弗斯CM。幸福的地理位置:连接twitter情绪和表达,人口,和客观特征的地方。《公共科学图书馆•综合》2013年5月29日,8 (5):e64417 [免费的全文][CrossRef][Medline]
缩写
另类投资会议:Akaike信息标准 |
华宇电脑:自回归整合移动平均 |
疾病预防控制中心:疾病控制和预防中心 |
IRB:机构审查委员会 |
MEPA:的意思是认为坚持 |
NPI:药物干预 |
先生:易感,感染,和删除 |
VARMA:向量自回归移动平均 |
威斯康星州:加权得分区间 |
编辑由Mavragani G Eysenbach;提交06.05.22;同行评议的R戈尔,S杨;评论作者12.09.22;修订版本收到08.10.22;接受09.10.22;发表30.12.22
版权大卫·布劳恩©丹尼尔•英格拉姆大卫•英格拉姆Bilal汗Jessecae沼泽,托马斯安德鲁说。最初发表在JMIR公共卫生和监测(https://publichealth.www.mybigtv.com), 30.12.2022。
这是一个开放分布式根据条知识共享归属许可(https://creativecommons.org/licenses/by/4.0/),它允许无限制的使用、分配、和繁殖在任何媒介,提供原工作,首次出版于JMIR公共卫生和监测、正确地引用。完整的书目信息,原始发布在https://publichealth.www.mybigtv.com上的链接,以及这个版权和许可信息必须包括在内。