发表在gydF4y2Ba在gydF4y2Ba6卷gydF4y2Ba第12名gydF4y2Ba(2022)gydF4y2Ba: 12月gydF4y2Ba

本文的预印本(早期版本)可在gydF4y2Bahttps://preprints.www.mybigtv.com/preprint/23422gydF4y2Ba,首次出版gydF4y2Ba.gydF4y2Ba
通过监测网络搜索查询检测空气污染水平:算法开发和验证gydF4y2Ba

通过监测网络搜索查询检测空气污染水平:算法开发和验证gydF4y2Ba

通过监测网络搜索查询检测空气污染水平:算法开发和验证gydF4y2Ba

原始论文gydF4y2Ba

1gydF4y2Ba美国佐治亚州亚特兰大市埃默里大学计算机科学系gydF4y2Ba

2gydF4y2Ba美国加州克莱蒙特市波莫纳学院计算机科学系gydF4y2Ba

3.gydF4y2Ba美国佐治亚州亚特兰大市埃默里大学环境卫生系gydF4y2Ba

通讯作者:gydF4y2Ba

陈林,理学士,理学硕士gydF4y2Ba

计算机科学系gydF4y2Ba

埃默里大学gydF4y2Ba

道曼街201号gydF4y2Ba

W302gydF4y2Ba

亚特兰大,佐治亚州,30322gydF4y2Ba

美国gydF4y2Ba

电话:1 404 395 0266gydF4y2Ba

电子邮件:gydF4y2Bachen.lin@emory.edugydF4y2Ba


背景:gydF4y2Ba实时空气污染监测是公共卫生和环境监测的宝贵工具。近年来,利用人工神经网络进行空气污染预测和监测的研究急剧增加。以前的大多数工作依赖于模拟从地面监测仪和气象数据收集的污染物浓度,以长期预测室外臭氧(OgydF4y2Ba3.gydF4y2Ba)、氮氧化物和细颗粒物(PMgydF4y2Ba2.5gydF4y2Ba).考虑到传统的高度复杂的空气质量监测仪价格昂贵,而且不是普遍可用,这些模型不能充分服务于那些不住在污染物监测点附近的人。此外,由于先前的模型是基于从传感器收集的物理测量数据建立的,因此它们可能不适用于预测污染暴露对公共健康的影响。gydF4y2Ba

摘要目的:gydF4y2Ba本研究旨在开发和验证模型gydF4y2BanowcastgydF4y2Ba利用网络搜索数据观测到的污染水平,这些数据几乎可以从主要搜索引擎上实时公开获得。gydF4y2Ba

方法:gydF4y2Ba我们开发了新的基于机器学习的模型,使用传统的监督分类方法和最先进的深度学习方法,通过使用一般可用的气象数据和汇总来自谷歌Trends的基于web的搜索量数据,来检测美国城市级别的空气污染水平。我们通过预测3种关键空气污染物(OgydF4y2Ba3.gydF4y2Ba、二氧化氮和PMgydF4y2Ba2.5gydF4y2Ba)在2017年和2018年美国10个主要大都市统计区进行了调查。我们还探索了长短期记忆模型的不同变体,并提出了一种新颖的搜索词字典学习者-长短期记忆模型,以学习跨多个搜索词的序列模式以进行预测。gydF4y2Ba

结果:gydF4y2Ba表现最好的模型是深度神经序列模型长短期记忆,使用气象和网络搜索数据,准确率达到0.82 (gydF4y2BaFgydF4y2Ba1gydF4y2Ba-得分0.51)gydF4y2Ba3.gydF4y2Ba0.74 (gydF4y2BaFgydF4y2Ba1gydF4y2Ba- 0.41), 0.85 (gydF4y2BaFgydF4y2Ba1gydF4y2Ba-得分0.27)PMgydF4y2Ba2.5gydF4y2Ba,用于检测污染水平升高。与仅使用气象数据相比,该方法通过结合网络搜索数据获得了更高的精度。gydF4y2Ba

结论:gydF4y2Ba结果表明,将网络搜索数据与气象数据结合起来,可以提高所有三种污染物的临近预测性能,并为利用网络搜索数据跟踪全球物理现象提供了有前途的新应用。gydF4y2Ba

JMIR Form Res 2022;6(12):e23422gydF4y2Ba

doi: 10.2196/23422gydF4y2Ba

关键字gydF4y2Ba



背景gydF4y2Ba

基于网络的人群监测已被用于跟踪突发公共卫生风险[gydF4y2Ba1gydF4y2Ba-gydF4y2Ba3.gydF4y2Ba].最常见的是,这些努力包括收集基于网络的搜索查询,以记录主要传染病病原体(如流感)发病率或症状发生的急性变化[gydF4y2Ba4gydF4y2Ba-gydF4y2Ba7gydF4y2Ba]、伊波拉[gydF4y2Ba8gydF4y2Ba]、登革热[gydF4y2Ba9gydF4y2Ba],以及COVID-19 [gydF4y2Ba10gydF4y2Ba].这些方法有可能为公共卫生和医疗专业人员提供优于传统卫生监测和环境流行病学的优势,因为它们能够在更敏感的空间和时间尺度上捕捉个人暴露和反应动态[gydF4y2Ba2gydF4y2Ba].gydF4y2Ba

尽管这些方法对传染性疾病有希望,但只有有限数量的研究研究了如何使用人群监测方法来跟踪环境暴露,以及对非传染性环境介导疾病过程的反应(较少)[gydF4y2Ba11gydF4y2Ba-gydF4y2Ba13gydF4y2Ba].通过最近的努力,室外和室内空气污染造成的全球疾病负担已得到量化,并提高了公众对这一全球公共卫生危机严重性的认识[gydF4y2Ba14gydF4y2Ba].因此,城市空气污染为评估基于网络的非传染性环境风险监测方法提供了一个关键的测试案例。基于网络的监测方法与测量城市空气污染暴露的传统方法不同。因此,它有可能替代或补充现有的方法。在流行病学研究中,空气污染暴露的传统指标,即在环境监测点测量的浓度,被广泛用于评估与空气污染有关的健康影响。然而,使用环境监测测量作为接触的替代品可能导致健康反应和潜在风险的错误分类,特别是对于那些居住在污染物监测点附近的人[gydF4y2Ba15gydF4y2Ba-gydF4y2Ba17gydF4y2Ba].此外,环境监测在设计上提供了室外污染物浓度的测量信息,对于大部分时间呆在室内的人或对空气污染有生理易感性的人来说,不一定能反映准确的个人暴露情况。最近的几项研究集中于在分布式空气污染传感网络中使用智能手机,在该网络中,用户记录当地的空气污染状况,并将其上传到人群生成的、地理空间细化的污染地图[gydF4y2Ba11gydF4y2Ba-gydF4y2Ba13gydF4y2Ba].这些研究证明了基于网络的人群参与城市空气污染意识预测项目的可行性。gydF4y2Ba

据我们所知,很少有研究调查使用网络搜索数据实时生成城市空气污染水平的准确“nowcast”的可行性。利用网络搜索数据进行准确预测是一项具有挑战性的任务,主要有两个挑战。首先是搜索词的选择,以全面捕捉人们的反应。已经提出了几种方法来选择搜索词。例如,一些研究初步准备了与目标疾病相关的关键字,然后使用这些关键字对搜索词进行过滤,这往往是困难的,因为某些疾病很难找到相关的关键字,或者针对多种疾病进行时成本较高。二是选择合适的机型。尽管从流行病学的角度出发,关于用于估计传染病活动的数据驱动的临近预测方法的文献已经很好地发展起来,但所使用的机器学习方法落后于最先进的方法。到目前为止引入的临近预测模型主要使用正则化线性回归的变化,或者很少使用随机森林(RFs)或支持向量机。从机器学习的角度来看,疾病活动估计问题最适合于更复杂和特定于时间序列的模型架构。由于记录的环境介导的疾病数据越来越多,使用循环神经网络(rnn),更具体地说,它们的变体长短期记忆(LSTM)和门控循环单元网络越来越可行。 The vanilla LSTM model makes predictions solely relying on the time series of the search activity while ignoring the semantic information in the search query phrases. Previous studies have pointed out that search queries could be semantically related, and ignoring their correlation would lead to a decrease in model performance [18gydF4y2Ba,gydF4y2Ba19gydF4y2Ba].自然语言处理的最新进展导致了一种称为词嵌入的技术的发展,用于表示短语中的语义信息,并鼓励对词嵌入进行微调以用于下游任务(Wu, Y,未发表数据,2016年9月)[gydF4y2Ba20.gydF4y2Ba-gydF4y2Ba22gydF4y2Ba].然而,如何将搜索查询的语义信息和搜索活动的时间序列结合起来进行预测,目前还缺乏相关知识。gydF4y2Ba

目标gydF4y2Ba

在这项研究中,我们调查了网络搜索数据作为基于网络的人群指标的重要来源。由于网络搜索数据是免费的,而且可以广泛获取,我们认为它们可以作为跟踪城市空气污染暴露和相应的人口健康反应的可扩展手段。为了衡量搜索兴趣,我们使用了免费的谷歌Trends服务,该服务报告了城市级地理分辨率的总搜索量数据。在这项分析中,我们使用已知的健康终点术语和主题,如“呼吸困难”,以及公共卫生研究人员建议的观察结果(如“雾霾”),并通过基于语义和时间相关性的自动术语扩展来估计与空气污染相关的搜索活动水平,并最终预测污染水平是否升高[gydF4y2Ba23gydF4y2Ba,gydF4y2Ba24gydF4y2Ba].gydF4y2Ba

与现有的空气污染分类模型相比,本研究探索了利用网络搜索异常作为辅助信号来检测空气污染。我们将我们的方法与最先进的基于物理传感器的模型进行了比较,这些模型包含了各种污染物协变量,如历史污染物浓度和气象数据[gydF4y2Ba25gydF4y2Ba].使用网络搜索数据进行预测会带来一些挑战,包括搜索兴趣和污染水平之间的不明确关系,以及在数据缺乏的场景中包含网络搜索数据时模型复杂性和收敛性之间的权衡。gydF4y2Ba

综上所述,我们的贡献如下:gydF4y2Ba

  • 我们提出了一种新的搜索词字典学习器- lstm (DL-LSTM)模型,从广泛的网络搜索数据历史记录中学习空气污染临近预报的顺序模式。gydF4y2Ba
  • 我们将DL-LSTM模型与使用网络搜索数据来指示暴露于非传染性环境压力源(即空气污染)的有效性的各种基线模型进行了比较,并证明所提出的模型在不同的实验设置中是有效的。gydF4y2Ba
  • 我们评估了网络搜索数据和气象数据相结合的空气污染预测效果,结果表明,在历史污染物数据不可用的情况下,网络搜索数据的加入提高了预测精度,并提供了一个有前途的替代方法。gydF4y2Ba

我们现在描述方法。首先,我们将问题设置形式化,然后描述数据,然后介绍建模方法。gydF4y2Ba

问题陈述gydF4y2Ba

我们将这个任务形式化为一个分类问题,并采用了最先进的机器学习模型。我们构建了一个多元自回归模型和一个RF模型,拟合历史空气污染物浓度以及搜索和气象数据作为基线模型。我们评估了我们提出的模型(如下所述)的性能,并将其与预测精度和其他标准分类预测指标的基线进行比较。gydF4y2Ba

道德的考虑gydF4y2Ba

向公众提供的数据不能单独识别,因此分析不涉及人类受试者。国际审查委员会(IRB)认识到,对去识别的公开数据的分析不构成人体受试者研究,因此不需要IRB审查。gydF4y2Ba

数据收集gydF4y2Ba

我们收集了美国10个最大城市的每日空气污染物浓度数据以及温度和相对湿度。大都市统计区(MSAs)(2007年1月至2018年12月)我们关注的是3种空气污染物:臭氧(OgydF4y2Ba3.gydF4y2Ba)、二氧化氮(NOgydF4y2Ba2gydF4y2Ba)和细颗粒物(PMgydF4y2Ba2.5gydF4y2Ba).现场污染物浓度和气温、相对湿度和露点温度等气象数据来自美国环境保护署、空气质量系统和AirNow数据库。为了为每个城市创建一个单一的每日污染物浓度,我们使用了每个城市内所有可用监测点的污染物浓度中值,以避免离群值偏差。gydF4y2Ba

我们从谷歌Trends上收集了12年期间和城市中与污染相关的词汇的日搜索频率。我们根据之前的空气污染流行病学研究和查阅环境卫生文献,编制了152个与污染相关的术语清单[gydF4y2Ba14gydF4y2Ba,gydF4y2Ba26gydF4y2Ba-gydF4y2Ba30.gydF4y2Ba],我们使用PyTrends下载了趋势结果术语的报告[gydF4y2Ba31gydF4y2Ba].对于每个PyTrends请求,我们下载了6个月窗口内与污染相关的词汇的搜索历史,其中一个重叠月用于校准。PyTrends根据一个主题在所有主题的所有搜索中所占的比例,为我们提供了一个从0到100的范围内的搜索频率。由于PyTrends的限制,我们多次下载了趋势结果报告,并且搜索频率在每个6个月窗口中分别缩放,这需要我们校准12年期间的搜索频率。我们通过将重叠时段(6个月中的1个月)的搜索日志连接起来进行互校准,从而校准了搜索频率[gydF4y2Ba32gydF4y2Ba].gydF4y2Ba

我们从气象数据(温度和相对湿度)、历史污染物浓度和网络搜索数据(gydF4y2Ba表1gydF4y2Ba).gydF4y2Ba

表1。输入序列中每个时间步计算的输入特征。gydF4y2Ba
输入功能gydF4y2Ba 功能转换gydF4y2Ba
气象资料(MetgydF4y2Ba一个gydF4y2Ba)gydF4y2Ba
  • 最大温度(Temp_max .gydF4y2BabgydF4y2Ba)gydF4y2Ba
  • ‎gydF4y2Ba
  • 平均温度(Temp_mean .gydF4y2BacgydF4y2Ba)gydF4y2Ba
  • ‎gydF4y2Ba
  • 相对湿度(湿度)gydF4y2Ba
  • ‎gydF4y2Ba
  • 平均时间的平方gydF4y2Ba
  • ‎gydF4y2Ba
  • Temp_mean的立方gydF4y2Ba
  • ‎gydF4y2Ba
  • 湿度的平方gydF4y2Ba
  • ‎gydF4y2Ba
  • 湿度立方gydF4y2Ba
  • ‎gydF4y2Ba
  • 露点温度gydF4y2Ba
  • ‎gydF4y2Ba
污染物浓度(Pol)gydF4y2BadgydF4y2Ba)gydF4y2Ba
  • 专注于第t-7天gydF4y2BaegydF4y2Ba
  • ‎gydF4y2Ba
  • 专注于第t-6天gydF4y2BaegydF4y2Ba
  • ‎gydF4y2Ba
  • 专注于第t-5天gydF4y2BaegydF4y2Ba
  • ‎gydF4y2Ba
  • 集中精力在第t-4天gydF4y2BaegydF4y2Ba
  • ‎gydF4y2Ba
  • 集中精力在第t-3天gydF4y2BaegydF4y2Ba
  • ‎gydF4y2Ba
  • 集中精力在第t-2天gydF4y2BaegydF4y2Ba
  • ‎gydF4y2Ba
  • 集中精力在第t-1天gydF4y2BaegydF4y2Ba
  • ‎gydF4y2Ba
搜索gydF4y2Ba
  • 搜索词的搜索量gydF4y2Ba
  • ‎gydF4y2Ba

一个gydF4y2Ba见过gydF4y2Ba:gydF4y2Ba气象数据。gydF4y2Ba

bgydF4y2BaTemp_max:最大温度gydF4y2Ba

cgydF4y2BaTemp_mean:平均温度gydF4y2Ba

dgydF4y2Ba波尔gydF4y2Ba:gydF4y2Ba污染物浓度。gydF4y2Ba

egydF4y2Ba天t-7,…,t - 1:d一个ys preceding the prediction day t.

缺失数据的归一化gydF4y2Ba

平滑和插值是简单有效的数据输入方法[gydF4y2Ba33gydF4y2Ba],对历史污染物浓度、温度和湿度的缺失数据进行线性插值,滚动窗口大小为3。为了填充谷歌Trends没有返回计数的不常见搜索词中的缺失数据,我们使用了接近0的随机数(egydF4y2Ba-10gydF4y2Ba~ egydF4y2Ba5gydF4y2Ba).我们通过减去平均值并除以各自的SDs,将所有输入特征归一化为标准分数。gydF4y2Ba

搜索词扩展gydF4y2Ba

由于基于网络的搜索查询可能反映个人暴露于环境空气污染,种子项主要与症状、观察结果和排放源有关(表S1)gydF4y2Ba多媒体附件1gydF4y2Ba).然而,由于无法获得用户查询的详尽列表,仅依赖专家生成的种子词可能会导致较差的预测,因为用户查询与我们预期的搜索词之间存在很高的不匹配率。gydF4y2Ba

查询扩展是解决这种差异的常用方法。最近一项研究[gydF4y2Ba18gydF4y2Ba]的结果表明,通过语义和时间相关性,可以有效地扩展种子词的初始集。因此,对于每个种子词,我们使用谷歌相关[gydF4y2Ba34gydF4y2Ba]检索前100个相关查询词。然后,我们使用预先训练好的word2vec模型[gydF4y2Ba21gydF4y2Ba]检索每个查询的向量表示;短语被映射到组成词的质心。通过测量查询和种子词之间的最大余弦相似度,计算每个候选查询的效用分数。具有高效用得分的查询被保留,其余的查询被淘汰,我们根据经验将效用截止值设置为0.55。该方法扩展了要跟踪的152个搜索词的搜索词集(表S2)gydF4y2Ba多媒体附件1gydF4y2Ba).gydF4y2Ba

建模与评估gydF4y2Ba

问题定义gydF4y2Ba

给定物理传感器数据序列P = [PgydF4y2Bat-L,gydF4y2Ba...pgydF4y2Bat - 1gydF4y2Ba]gydF4y2BaTgydF4y2Ba用L乘以d的维数gydF4y2BapgydF4y2Ba,搜索兴趣数据S = [S .gydF4y2Bat-L + 2gydF4y2Ba,……,年代gydF4y2Bat + 1gydF4y2Ba]gydF4y2BaTgydF4y2Ba用L乘以d的维数gydF4y2Ba年代gydF4y2Ba,任务是分类天gydF4y2BatgydF4y2Ba作为gydF4y2Ba被污染的gydF4y2Ba或者不是,如果等级标签为正,则表明空气污染高于预先设定的阈值。L为序列长度,dgydF4y2BapgydF4y2Ba和dgydF4y2Ba年代gydF4y2Ba分别是物理传感器特征的数量和搜索相关术语的数量。gydF4y2Ba

自回归和射频分类模型gydF4y2Ba

先前的工作表明,使用网络搜索数据的简单自回归模型可以在美国国家层面上对流感样疾病进行近估[gydF4y2Ba19gydF4y2Ba].我们采用逻辑回归(LR)分类器的自回归模型进行分类。此外,我们应用弹性网络正则化,这是一个线性组合gydF4y2BalgydF4y2Ba1gydF4y2Ba而且gydF4y2BalgydF4y2Ba2gydF4y2Ba正则化,如以前的研究中提出的[gydF4y2Ba18gydF4y2Ba,gydF4y2Ba19gydF4y2Ba].使用Python实现了LR+Elastic NetgydF4y2Bascikit-learngydF4y2Ba包,使用交叉验证来设置模型的超参数以最大化gydF4y2BaFgydF4y2Ba1gydF4y2Ba-验证集上的得分,并将class_weight设置为“balanced”。gydF4y2Ba

RF是一种集成学习模型,对过拟合具有鲁棒性,并为非线性预测模型的开发提供了强大的基线[gydF4y2Ba35gydF4y2Ba].我们使用gydF4y2Bascikit-learngydF4y2BaRFs的实现。选择树的数量和每棵树的最大深度,以最大限度地提高效率gydF4y2BaFgydF4y2Ba1gydF4y2Ba-验证集上的得分,对阳性和阴性样本使用平衡的class_weight。gydF4y2Ba

LSTM及其变体gydF4y2Ba

LSTM单位[gydF4y2Ba36gydF4y2Ba]是为序列建模设计的RNN模型,可以学习时间序列数据中的非线性关系[gydF4y2Ba37gydF4y2Ba].首先,我们描述了一个具有2个子网络的基线LSTM模型,以分离搜索数据和气象数据。如gydF4y2Ba图1gydF4y2Ba,模型中有4层,分别是序列嵌入层、LSTM层、全连接隐藏层和输出层[gydF4y2Ba38gydF4y2Ba].gydF4y2Ba

‎gydF4y2Ba
图1。长短期记忆(LSTM)模型的结构。gydF4y2Ba
查看此图gydF4y2Ba

在以搜索数据为输入的LSTM模型的左子网络中,我们提出了两种获取搜索词语义信息的方法。第一个是LSTM语义模型(GloVe[词表示的全局向量];LSTM-GloVe)。作为vanilla LSTM模型的一种变体,用于序列嵌入层的右子网络中gydF4y2Ba图1gydF4y2Ba时,我们引入矩阵乘法运算,将搜索词的搜索值投影到其语义嵌入空间(GloVe embeddings),如式1所示。gydF4y2Ba

给定搜索兴趣数据S = [S .gydF4y2Ba1gydF4y2Ba,……,年代gydF4y2Ba7gydF4y2Ba]gydF4y2BaTgydF4y2Ba维数是7乘以dgydF4y2Ba年代gydF4y2Ba,它们的GloVe嵌入G = [G .gydF4y2Ba1gydF4y2Ba,……ggydF4y2BadggydF4y2Ba,维数为dgydF4y2Ba年代gydF4y2Ba* dgydF4y2BaggydF4y2Ba,其中dgydF4y2BaggydF4y2Ba= 50 (GloVe在twitter上训练的50维单词向量[gydF4y2Ba22gydF4y2Ba])。矩阵乘法运算定义为gydF4y2Ba

具体来说,矩阵乘法运算生成的张量被送入LSTM层进行进一步计算。这种矩阵乘法是专门为在搜索项展开(STE)后引入共线预测器时的模型一致性问题而设计的。gydF4y2Ba

LSTM模型的第二个变体是DL-LSTM模型,它在理论上基于矩阵乘法的思想,如LSTM- glove所示。但是,它不是直接应用GloVe嵌入进行矩阵乘法,而是通过a引入词嵌入的微调gydF4y2BadgydF4y2BaggydF4y2Ba通过gydF4y2BadgydF4y2BaegydF4y2Ba整流线性单元激活全连接层。如gydF4y2Ba图2gydF4y2Ba时,将整流线性单元激活全连接层应用于初始GloVe嵌入,其中gydF4y2BadgydF4y2BaegydF4y2Ba=100是新嵌入的大小。在该架构中,使用GloVe 50维词向量初始化搜索词嵌入字典,使用矩阵乘法运算将搜索词的输入嵌入转化为语义嵌入空间[gydF4y2Ba39gydF4y2Ba].gydF4y2Ba

‎gydF4y2Ba
图2。字典学习者-长短期记忆模型的结构。gydF4y2Ba
查看此图gydF4y2Ba

综上所述,本文对以下模型进行了评估:gydF4y2Ba

  • LR: LR是具有弹性网正则化的LR分类器。gydF4y2Ba
  • RF: RF是具有用于预测的树的数量和最大深度的RF分类器。gydF4y2Ba
  • LSTM:基线LSTM模型,如图所示gydF4y2Ba图1gydF4y2Ba,将物理传感器特征(如果可用)与搜索兴趣量数据直接结合起来,提供了rnn对该问题的直接适应,而不需要任何特定于问题的扩展。gydF4y2Ba
  • LSTM- glove: LSTM语义模型是方程1中所描述的LSTM模型的变体,我们在该模型中控制搜索兴趣数据的输入(即51个种子搜索词vs 152个STE后搜索词)。我们将这些变体称为gydF4y2BaLSTM-GloVegydF4y2Ba而且gydF4y2BaLSTM-GloVe with [w/] STEgydF4y2Ba,分别。gydF4y2Ba
  • DL-LSTM: DL-LSTM模型显示在gydF4y2Ba图2gydF4y2Ba.在该模型中,我们控制搜索兴趣数据的输入(即51个种子搜索词vs 152个STE后的搜索词),并将变量称为gydF4y2BaDL-LSTMgydF4y2Ba而且gydF4y2BaDL-LSTM w / STEgydF4y2Ba,分别。gydF4y2Ba

验证gydF4y2Ba

为了优化模型参数并验证模型性能,我们将可用数据分为训练集(2007年1月至2014年12月)、验证集(2015年1月至2016年12月)和测试集(2017年1月至2018年12月)。这8年的训练期为学习输入和输出变量之间的关系提供了广泛的历史,预测模型的评估是基于它们对完全看不见的时期做出预测的能力。为了评估我们的模型,我们在测试数据集中对2017年1月至2018年12月的每一天进行了预测。类在训练、验证和测试数据集中的分布在gydF4y2Ba表2gydF4y2Ba.请注意,正类和负类是严重不平衡的,例如,当PM时,正类仅占训练样本的16%gydF4y2Ba2.5gydF4y2Ba是目标污染物。gydF4y2Ba

表2。类在训练集、验证集和测试集中的分布。gydF4y2Ba
污染物gydF4y2Ba 负样本gydF4y2Ba 积极的样品gydF4y2Ba

培训gydF4y2Ba 验证gydF4y2Ba 测试gydF4y2Ba 培训gydF4y2Ba 验证gydF4y2Ba 测试gydF4y2Ba
OgydF4y2Ba3.gydF4y2Ba一个gydF4y2Ba 24322年gydF4y2Ba 6269gydF4y2Ba 6311gydF4y2Ba 4896gydF4y2Ba 1038gydF4y2Ba 982gydF4y2Ba
没有gydF4y2Ba2gydF4y2BabgydF4y2Ba 23926年gydF4y2Ba 6119gydF4y2Ba 6332gydF4y2Ba 5292gydF4y2Ba 1188gydF4y2Ba 961gydF4y2Ba
点gydF4y2Ba2.5gydF4y2BacgydF4y2Ba 24297年gydF4y2Ba 6745gydF4y2Ba 6757gydF4y2Ba 4921gydF4y2Ba 562gydF4y2Ba 536gydF4y2Ba

一个gydF4y2BaOgydF4y2Ba3.gydF4y2Ba:臭氧。gydF4y2Ba

bgydF4y2Ba没有gydF4y2Ba2gydF4y2Ba:二氧化氮。gydF4y2Ba

cgydF4y2Ba点gydF4y2Ba2.5gydF4y2Ba:细颗粒物。gydF4y2Ba

评价指标gydF4y2Ba

当我们将这个任务定义为一个分类问题时,我们使用了标准的分类评估指标。我们报告准确性和gydF4y2BaFgydF4y2Ba1gydF4y2Ba-预测的正类(精密度和查全率的调和平均值)得分作为所有模型的评价指标。尽管精度度量正确预测的总分数,并且可能在严重不平衡的类存在时错误地表示模型性能,但是gydF4y2BaFgydF4y2Ba1gydF4y2Ba-score考虑了职业不平衡,因此它是一个更适合我们的问题的度量标准。gydF4y2Ba

在哪里gydF4y2BaTPgydF4y2Ba,gydF4y2BaTNgydF4y2Ba,gydF4y2Ba《外交政策》gydF4y2Ba,gydF4y2BaFNgydF4y2Ba分别为真阳性样本、真阴性样本、假阳性样本、假阴性样本的个数。gydF4y2Ba


概述gydF4y2Ba

在本节中,我们首先介绍数据探索的结果。接下来,我们将介绍本研究的主要发现。gydF4y2Ba

从收集的数据中得出的见解gydF4y2Ba

在本节中,我们描述了异常空气污染物浓度的阈值,并介绍了搜索异常和空气污染之间的滞后。gydF4y2Ba

空气污染物异常浓度阈值gydF4y2Ba

本研究选择的主要msa污染物浓度随时间的分布不同,几乎总是低于环境保护署的标准24小时阈值(gydF4y2Ba图3gydF4y2Ba).然而,多项研究表明,即使是低浓度的空气污染,长期暴露在空气污染中也会对人类健康产生负面影响[gydF4y2Ba26gydF4y2Ba,gydF4y2Ba27gydF4y2Ba].因此,为每个城市,特别是那些空气污染水平普遍较低的城市(如迈阿密)校准一个有意义的阈值,可能对充分保护人口健康至关重要。一种自然的方法可能是将每个城市的阈值设置为比平均日污染物浓度高1个标准差,本研究采用了这一方法。输入预测器还在每个城市内进行了标准化,以反映城市级别的动态。所产生的3种污染物和所调查城市的阈值报告在gydF4y2Ba表3gydF4y2Ba.gydF4y2Ba

‎gydF4y2Ba
图3。亚特兰大、洛杉矶、费城和迈阿密的臭氧污染值分布,以城市特定的高污染水平(虚线)和环境保护署规定的一般标准(虚线)表示gydF4y2Ba3.gydF4y2Ba;左列),二氧化氮(NOgydF4y2Ba2gydF4y2Ba;中柱)和细颗粒物(PMgydF4y2Ba2.5gydF4y2Ba;右列)。EPA:环境保护署。gydF4y2Ba
查看此图gydF4y2Ba
表3。美国10个主要大都市统计区的3种污染物的分类阈值。gydF4y2Ba
污染物gydF4y2Ba 洛杉矶gydF4y2Ba 哥伦比亚特区gydF4y2Ba 费城gydF4y2Ba 达拉斯gydF4y2Ba 亚特兰大gydF4y2Ba 波士顿gydF4y2Ba 纽约gydF4y2Ba 迈阿密gydF4y2Ba 芝加哥gydF4y2Ba 休斯顿gydF4y2Ba
OgydF4y2Ba3.gydF4y2Ba一个gydF4y2Ba含量gydF4y2BabgydF4y2Ba)gydF4y2Ba 55gydF4y2Ba 54gydF4y2Ba 53gydF4y2Ba 53gydF4y2Ba 53gydF4y2Ba 48gydF4y2Ba 49gydF4y2Ba 45gydF4y2Ba 49gydF4y2Ba 49gydF4y2Ba
没有gydF4y2Ba2gydF4y2BacgydF4y2Ba(磅)gydF4y2Ba 43.7gydF4y2Ba 38.1gydF4y2Ba 36gydF4y2Ba 25.2gydF4y2Ba 27.8gydF4y2Ba 30.7gydF4y2Ba 45.3gydF4y2Ba 25.5gydF4y2Ba 43.7gydF4y2Ba 27.7gydF4y2Ba
点gydF4y2Ba2.5gydF4y2BadgydF4y2Ba(µg / mgydF4y2Ba3.gydF4y2Ba)gydF4y2Ba 18.7gydF4y2Ba 15.1gydF4y2Ba 16.4gydF4y2Ba 13.1gydF4y2Ba 15.6gydF4y2Ba 12.4gydF4y2Ba 13.9gydF4y2Ba 10.6gydF4y2Ba 16.2gydF4y2Ba 14.4gydF4y2Ba

一个gydF4y2BaOgydF4y2Ba3.gydF4y2Ba:臭氧。gydF4y2Ba

bgydF4y2BaPpb:十亿分之一。gydF4y2Ba

cgydF4y2Ba没有gydF4y2Ba2gydF4y2Ba:二氧化氮。gydF4y2Ba

dgydF4y2Ba点gydF4y2Ba2.5gydF4y2Ba:细颗粒物。gydF4y2Ba

搜索异常与空气污染之间的滞后gydF4y2Ba

之前的一项研究表明,事件发生与谷歌搜索活动之间可能存在滞后[gydF4y2Ba40gydF4y2Ba].如gydF4y2Ba图4gydF4y2Ba,“咳嗽”一词的归一化搜索频率与NO浓度相关gydF4y2Ba2gydF4y2Ba在亚特兰大逗留了一段时间。为了确定污染水平升高与随后的污染相关搜索之间的滞后,计算了污染物浓度与搜索兴趣数据之间的平均绝对斯皮尔曼相关性,并将其时间前移了0、1、2和3天。如gydF4y2Ba表4gydF4y2Ba,表示OgydF4y2Ba3.gydF4y2Ba和点gydF4y2Ba2.5gydF4y2Ba时,平均绝对Spearman相关性随偏移天数的增加而增加。考虑到这项任务的目的是尽快检测污染水平的升高,因此对搜索数据采用了1天的滞后时间。换句话说,当天的搜索兴趣数据被用来估计前一天的空气污染是否加剧。gydF4y2Ba

‎gydF4y2Ba
图4。每日二氧化氮(NOgydF4y2Ba2gydF4y2Ba)的水平,以及对“咳嗽”一词的搜索兴趣。gydF4y2Ba
查看此图gydF4y2Ba
表4。2016年亚特兰大都市圈3种污染物的前5个搜索词的不同滞后的交叉相关(N=366)。gydF4y2Ba
污染物gydF4y2Ba 延迟= 0;搜索项(斯皮尔曼相关)gydF4y2Ba PgydF4y2Ba价值gydF4y2Ba 延迟= 1;搜索项(斯皮尔曼相关)gydF4y2Ba PgydF4y2Ba价值gydF4y2Ba 延迟= 2;搜索项(斯皮尔曼相关)gydF4y2Ba PgydF4y2Ba价值gydF4y2Ba 延迟= 3;搜索项(斯皮尔曼相关)gydF4y2Ba PgydF4y2Ba价值gydF4y2Ba
OgydF4y2Ba3.gydF4y2Ba一个gydF4y2Ba

咳嗽(−0.34)gydF4y2Ba <措施gydF4y2Ba 咳嗽(−0.38)gydF4y2Ba <措施gydF4y2Ba 咳嗽(−0.41)gydF4y2Ba <措施gydF4y2Ba 咳嗽(−0.41)gydF4y2Ba <措施gydF4y2Ba

支气管炎(−0.31)gydF4y2Ba <措施gydF4y2Ba 支气管炎(−0.32)gydF4y2Ba <措施gydF4y2Ba 支气管炎(−0.33)gydF4y2Ba <措施gydF4y2Ba 支气管炎(−0.35)gydF4y2Ba <措施gydF4y2Ba

交通(0.26)gydF4y2Ba <措施gydF4y2Ba 交通(0.27)gydF4y2Ba <措施gydF4y2Ba 交通(0.26)gydF4y2Ba <措施gydF4y2Ba 烟(0.24)gydF4y2Ba <措施gydF4y2Ba

烟(0.23)gydF4y2Ba <措施gydF4y2Ba 胸痛(- 0.23)gydF4y2Ba <措施gydF4y2Ba 胸痛(- 0.23)gydF4y2Ba <措施gydF4y2Ba 交通(0.23)gydF4y2Ba <措施gydF4y2Ba

打鼾(0.22)gydF4y2Ba <措施gydF4y2Ba 打鼾(0.22)gydF4y2Ba <措施gydF4y2Ba 烟(0.22)gydF4y2Ba <措施gydF4y2Ba 胸痛(- 0.22)gydF4y2Ba <措施gydF4y2Ba
没有gydF4y2Ba2gydF4y2BabgydF4y2Ba

哮喘(0.20)gydF4y2Ba <措施gydF4y2Ba 硫酸(0.20)gydF4y2Ba <措施gydF4y2Ba 硫酸(0.16)gydF4y2Ba .002gydF4y2Ba 咳嗽(0.16)gydF4y2Ba .002gydF4y2Ba

硫酸(0.19)gydF4y2Ba <措施gydF4y2Ba 支气管炎(0.16)gydF4y2Ba .002gydF4y2Ba 支气管炎(0.15)gydF4y2Ba .005gydF4y2Ba 慢性阻塞性肺病gydF4y2BacgydF4y2Ba(−0.16)gydF4y2Ba .003gydF4y2Ba

咳嗽(0.17)gydF4y2Ba <措施gydF4y2Ba 吸入器(0.15)gydF4y2Ba .005gydF4y2Ba 咳嗽(0.14)gydF4y2Ba .008gydF4y2Ba 支气管炎(0.14)gydF4y2Ba .008gydF4y2Ba

支气管炎(0.17)gydF4y2Ba 措施gydF4y2Ba 咳嗽(0.14)gydF4y2Ba .006gydF4y2Ba 吸入器(0.11)gydF4y2Ba 03gydF4y2Ba 喘息(−0.12)gydF4y2Ba 02gydF4y2Ba

吸入器(0.16)gydF4y2Ba .002gydF4y2Ba 呼吸困难(- 0.12)gydF4y2Ba 02gydF4y2Ba 头痛(−0.11)gydF4y2Ba 03gydF4y2Ba 头痛(−0.10)gydF4y2Ba .04点gydF4y2Ba
点gydF4y2Ba2.5gydF4y2BadgydF4y2Ba

森林大火(0.14)gydF4y2Ba .009gydF4y2Ba 慢性阻塞性肺病(−0.15)gydF4y2Ba .005gydF4y2Ba 空气污染(0.19)gydF4y2Ba <措施gydF4y2Ba 空气污染(0.18)gydF4y2Ba <措施gydF4y2Ba

慢性阻塞性肺病(−0.11)gydF4y2Ba 03gydF4y2Ba 森林大火(0.14)gydF4y2Ba .007gydF4y2Ba 慢性阻塞性肺病(−0.17)gydF4y2Ba 措施gydF4y2Ba 慢性阻塞性肺病(−0.18)gydF4y2Ba <措施gydF4y2Ba

打鼾(0.11)gydF4y2Ba 03gydF4y2Ba 空气污染(0.14)gydF4y2Ba .008gydF4y2Ba 森林大火(0.14)gydF4y2Ba .009gydF4y2Ba 森林大火(0.15)gydF4y2Ba 04gydF4y2Ba

吸入器(0.10)gydF4y2Ba 06gydF4y2Ba 哮喘发作(0.11)gydF4y2Ba .04点gydF4y2Ba 呼吸系统疾病(0.10)gydF4y2Ba 0。gydF4y2Ba 硫酸(−0.11)gydF4y2Ba 03gydF4y2Ba

呼吸困难(−0.09)gydF4y2Ba 。08gydF4y2Ba 呼吸系统疾病(0.10)gydF4y2Ba 0。gydF4y2Ba 交通(0.10)gydF4y2Ba 06gydF4y2Ba 交通(0.11)gydF4y2Ba .04点gydF4y2Ba

一个gydF4y2BaOgydF4y2Ba3.gydF4y2Ba:臭氧。gydF4y2Ba

bgydF4y2Ba没有gydF4y2Ba2gydF4y2Ba:二氧化氮。gydF4y2Ba

cgydF4y2BaCOPD:慢性阻塞性肺病。gydF4y2Ba

dgydF4y2Ba点gydF4y2Ba2.5gydF4y2Ba:细颗粒物。gydF4y2Ba

评价结果gydF4y2Ba

在本节中,我们考虑3种情况来评估使用网络搜索数据检测污染升高的性能,即仅使用搜索数据,将搜索数据作为气象数据的辅助数据,以及将搜索数据作为气象数据和历史污染物浓度的辅助数据。gydF4y2Ba

仅使用搜索数据gydF4y2Ba

对于无法进行环境污染监测的地区来说,调查网络搜索数据是否可以用作预测空气污染升高的唯一信号是一个至关重要的问题。当仅依靠搜索数据进行空气污染预测时,所提出的DL-LSTM体系结构和STE都有助于提高预测精度。的“搜索”部分所示gydF4y2Ba表5gydF4y2Ba,基于lstm的模型在OgydF4y2Ba3.gydF4y2Ba也没有gydF4y2Ba2.gydF4y2Ba对点gydF4y2Ba2.5gydF4y2Ba,由于验证和测试数据集严重不平衡,所提出的模型并不比基线LR或LSTM模型表现更好(gydF4y2Ba表5gydF4y2Ba).本文提出的DL-LSTM w/STE模型的效果最好gydF4y2BaFgydF4y2Ba1gydF4y2Ba-得分(32.44%为OgydF4y2Ba3.gydF4y2BaNO占27.70%gydF4y2Ba2gydF4y2Ba)用于检测OgydF4y2Ba3.gydF4y2Ba也没有gydF4y2Ba2gydF4y2Ba污染。gydF4y2Ba

表5所示。准确性和gydF4y2BaFgydF4y2Balogistic回归、随机森林和长短期记忆模型的1分,用于检测美国10个主要城市的污染程度,适用于不同的输入特征组合:无先验知识、仅搜索数据(search)、仅气象数据(Met)、气象数据和搜索数据(Met+ search)、气象数据和历史污染物浓度(Met+Pol)和所有输入特征(Met+Pol+ search)。gydF4y2Ba
特点和模型gydF4y2Ba OgydF4y2Ba3.gydF4y2Ba一个gydF4y2Ba,准确度(gydF4y2BaFgydF4y2Ba1gydF4y2Ba分数;%)gydF4y2Ba 没有gydF4y2Ba2gydF4y2BabgydF4y2Ba,准确度(gydF4y2BaFgydF4y2Ba1gydF4y2Ba分数;%)gydF4y2Ba 点gydF4y2Ba2.5gydF4y2BacgydF4y2Ba,准确度(gydF4y2BaFgydF4y2Ba1gydF4y2Ba分数;%)gydF4y2Ba
没有先验知识gydF4y2Ba

所有的优点gydF4y2Ba 13.46 (23.73)gydF4y2Ba 13.18 (23.28)gydF4y2Ba 7.35 (13.69)gydF4y2Ba

所有底片gydF4y2Ba 86.54 (0.0)gydF4y2Ba 86.82 (0.0)gydF4y2Ba 92.65 (0.0)gydF4y2Ba

随机(正概率=0.5)gydF4y2Ba 50.29 (20.63)gydF4y2Ba 50.56 (20.68)gydF4y2Ba 50.65 (12.67)gydF4y2Ba
搜索gydF4y2Ba

LRgydF4y2BadgydF4y2Ba 36.93 (17.77)gydF4y2Ba 53.97 (24.17)gydF4y2Ba 78.29 (10.72)gydF4y2Ba

射频gydF4y2BaegydF4y2Ba 33.53 (23.36)gydF4y2Ba 55.22 (18.1)gydF4y2Ba 92.65gydF4y2BafgydF4y2Ba(0.0)gydF4y2Ba

LSTMgydF4y2BaggydF4y2Ba 46.73 (23.63)gydF4y2Ba 69.68 (21.62)gydF4y2Ba 89.96 (7.58)gydF4y2Ba

LSTM-GloVegydF4y2BahgydF4y2Ba 53.23 (28.45)gydF4y2Ba 63.44 (27.4)gydF4y2Ba 90.09 (3.73)gydF4y2Ba

LSTM-GloVe w / STEgydF4y2Ba我gydF4y2Ba 69.17 (28.04)gydF4y2Ba 46.85 (26.51)gydF4y2Ba 91.73 (1.31)gydF4y2Ba

DL-LSTMgydF4y2BajgydF4y2Ba 62.46 (30.4)gydF4y2Ba 65.99 (26.19)gydF4y2Ba 88.61 (7.97)gydF4y2Ba

DL-LSTM w / STEgydF4y2Ba 69.61 (32.44)gydF4y2Ba 56.84 (27.7)gydF4y2Ba 87.59 (6.99)gydF4y2Ba
见过gydF4y2Ba

LRgydF4y2Ba 62.57 (39.81)gydF4y2Ba 63.64 (37.25)gydF4y2Ba 58.58 (22)gydF4y2Ba

射频gydF4y2Ba 78.76 (50.59)gydF4y2Ba 71.77 (39.88)gydF4y2Ba 73.78 (24.67)gydF4y2Ba

LSTMgydF4y2Ba 76.54 (48.29)gydF4y2Ba 72.52 (41.27)gydF4y2Ba 67.89 (24.69)gydF4y2Ba
遇到+搜索gydF4y2Ba

LRgydF4y2Ba 55.99 (36.56)gydF4y2Ba 62 (36.25)gydF4y2Ba 61.25 (21.5)gydF4y2Ba

射频gydF4y2Ba 81.39 (45.35)gydF4y2Ba 73.77 (38.71)gydF4y2Ba 87.96 (23.78)gydF4y2Ba

LSTMgydF4y2Ba 78.18 (47.65)gydF4y2Ba 77.75 (40.31)gydF4y2Ba 88.14 (21.29)gydF4y2Ba

LSTM-GloVegydF4y2Ba 80.04 (49.37)gydF4y2Ba 72.75 (40.35)gydF4y2Ba 85.38 (26.99)gydF4y2Ba

LSTM-GloVe w / STEgydF4y2Ba 81.85 (50.71)gydF4y2Ba 74.21 (41.49)gydF4y2Ba 85.42 (26.13)gydF4y2Ba

DL-LSTMgydF4y2Ba 77.97 (48.94)gydF4y2Ba 74.81 (40.53)gydF4y2Ba 84.94 (24.07)gydF4y2Ba

DL-LSTM w / STEgydF4y2Ba 80.16 (49.32)gydF4y2Ba 72.99 (40.34)gydF4y2Ba 87.04 (21.32)gydF4y2Ba
遇到+波尔gydF4y2Ba

LRgydF4y2Ba 67.38 (44.61)gydF4y2Ba 70.05 (44.09)gydF4y2Ba 74.45 (32.82)gydF4y2Ba

射频gydF4y2Ba 82.81 (57.23)gydF4y2Ba 80.35 (51.24)gydF4y2Ba 86.45 (40.63)gydF4y2Ba

LSTMgydF4y2Ba 86.97 (63.01)gydF4y2Ba 84.64 (55.59)gydF4y2Ba 85.25 (43.19)gydF4y2Ba
遇到+波尔+搜索gydF4y2Ba

LRgydF4y2Ba 66.91 (43.71)gydF4y2Ba 69.13 (43.6)gydF4y2Ba 74.45 (32.82)gydF4y2Ba

射频gydF4y2Ba 82.76 (55.91)gydF4y2Ba 78.91 (47.72)gydF4y2Ba 89.43 (37.57)gydF4y2Ba

LSTMgydF4y2Ba 87.11 (61.54)gydF4y2Ba 84.71 (54.02)gydF4y2Ba 90.74 (44.81)gydF4y2Ba

LSTM-GloVegydF4y2Ba 87.94 (63.81)gydF4y2Ba 82.98 (53.78)gydF4y2Ba 88.19 (46.55)gydF4y2Ba

LSTM-GloVe w / STEgydF4y2Ba 87.63 (63.83)gydF4y2Ba 83.81 (54.59)gydF4y2Ba 88.24 (46.51)gydF4y2Ba

DL-LSTMgydF4y2Ba 87.30 (63.02)gydF4y2Ba 82.65 (53.65)gydF4y2Ba 89.66 (47.35)gydF4y2Ba

DL-LSTM w / STEgydF4y2Ba 87.60 (63.61)gydF4y2Ba 83.40 (53.58)gydF4y2Ba 89.25 (46.59)gydF4y2Ba

一个gydF4y2BaOgydF4y2Ba3.gydF4y2Ba:臭氧。gydF4y2Ba

bgydF4y2Ba没有gydF4y2Ba2gydF4y2Ba:二氧化氮。gydF4y2Ba

cgydF4y2Ba点gydF4y2Ba2.5gydF4y2Ba:细颗粒物。gydF4y2Ba

dgydF4y2Ba逻辑回归。gydF4y2Ba

egydF4y2BaRF:随机森林。gydF4y2Ba

fgydF4y2Ba这种高精确度仅仅是由于类别不平衡;该模型总是预测负类,以及相应的负类gydF4y2BaFgydF4y2Ba1gydF4y2Ba-score为0。gydF4y2Ba

ggydF4y2BaLSTM:长短期记忆。gydF4y2Ba

hgydF4y2Ba手套:字表示的全局向量。gydF4y2Ba

我gydF4y2BaSTE:搜索词扩展。gydF4y2Ba

jgydF4y2BaDL-LSTM:字典学习者长短期记忆。gydF4y2Ba

利用搜索数据和气象数据gydF4y2Ba

在有气象数据的情况下,我们研究了在这种情况下,使用有搜索活动数据或没有搜索活动数据的气象数据来预测空气污染的可行性。的“Met”和“Met+Search”部分所示gydF4y2Ba表5gydF4y2Ba,包括网络搜索数据提高了所有3种污染物的临近预测精度。此外,LSTM-GloVe w/STE模型的成绩最高gydF4y2BaFgydF4y2Ba1gydF4y2Ba-得分(50.71%为OgydF4y2Ba3.gydF4y2BaNO为41.49%gydF4y2Ba2gydF4y2Ba),以检测OgydF4y2Ba3.gydF4y2Ba也没有gydF4y2Ba2gydF4y2Ba污染。无STE模型的LSTM-GloVe效果最好gydF4y2BaFgydF4y2Ba1gydF4y2Ba- PM检测得分(26.99%)gydF4y2Ba2.5gydF4y2Ba污染。gydF4y2Ba

使用搜索数据、气象数据和历史污染物浓度gydF4y2Ba

当有历史污染浓度时,将搜索活动数据作为辅助数据添加到气象数据和历史污染数据中。如“Met+Pol”和“Met+Pol+搜索”部分所示gydF4y2Ba表5gydF4y2Ba,网络搜索数据的加入提高了OgydF4y2Ba3.gydF4y2Ba和点gydF4y2Ba2.5gydF4y2Ba.然而,对于NOgydF4y2Ba2,gydF4y2Ba网络搜索数据的加入并没有提高临近预测的准确性,这表明NO的增加gydF4y2Ba2gydF4y2Ba浓度可能不足以被人们直接注意到,从而增加他们的搜索兴趣。这种不同污染物和不同地点的性能差异值得进一步研究。gydF4y2Ba

城市层面的OgydF4y2Ba3.gydF4y2Ba污染预测gydF4y2Ba

我们研究了利用搜索兴趣和气象数据替代地面OgydF4y2Ba3.gydF4y2Ba传感器数据用于预测OgydF4y2Ba3.gydF4y2Ba个别城市的污染。如gydF4y2Ba表6gydF4y2Ba,包括搜索兴趣数据(Met+ search),以增强纯气象数据(Met),提高准确性和gydF4y2BaFgydF4y2Ba1gydF4y2Ba-大多数城市的评分指标。虽然当地面污染传感器可用时(Met+Pol),这些指标达不到性能,但至少对于两个主要的msa(费城和休斯顿),搜索量数据确实提供了一个有用的污染监测仪替代方案,准确度分别仅下降1.6%和0.14%。此外,不同城市模型性能的差异表明基于网络的搜索模式可能因城市而异。如gydF4y2Ba表7gydF4y2Ba在美国,排名前5位的相关词汇在10年里在美国城市中有所不同。搜索模式的变化可能导致某些领域的预测性能下降,留下了有希望的改进方向。gydF4y2Ba

表6所示。城市级精度和gydF4y2BaFgydF4y2Ba以Met(长短期记忆模型)、Met+Search(字典学习者长短期记忆+搜索词扩展)和Met+Pol(长短期记忆模型)为特征,对美国10个城市的臭氧污染水平进行了1分检测。gydF4y2Ba
特性gydF4y2Ba 洛杉矶gydF4y2Ba 哥伦比亚特区gydF4y2Ba 费城gydF4y2Ba 达拉斯gydF4y2Ba 亚特兰大gydF4y2Ba 波士顿gydF4y2Ba 纽约gydF4y2Ba 迈阿密gydF4y2Ba 芝加哥gydF4y2Ba 休斯顿gydF4y2Ba
准确性,%gydF4y2Ba

见过gydF4y2Ba一个gydF4y2Ba 72.6gydF4y2Ba 77.4gydF4y2Ba 83.29gydF4y2Ba 83.42gydF4y2Ba 83.56gydF4y2Ba 75.62gydF4y2Ba 68.36gydF4y2Ba 58.09gydF4y2Ba 76.71gydF4y2Ba 85.89gydF4y2Ba

遇到+搜索gydF4y2Ba 76.71gydF4y2Ba 80.68gydF4y2Ba 87.4gydF4y2Ba 79.86gydF4y2Ba 83.84gydF4y2Ba 78.63gydF4y2Ba 74.93gydF4y2Ba 69.29gydF4y2Ba 80gydF4y2Ba 90.14gydF4y2Ba

遇到+波尔gydF4y2BabgydF4y2Ba 85.89gydF4y2Ba 86.99gydF4y2Ba 89.04gydF4y2Ba 89.04gydF4y2Ba 88.22gydF4y2Ba 84.66gydF4y2Ba 86.85gydF4y2Ba 82.02gydF4y2Ba 86.85gydF4y2Ba 90gydF4y2Ba
FgydF4y2Ba1gydF4y2Ba-分数,%gydF4y2Ba

见过gydF4y2Ba 51.69gydF4y2Ba 48.28gydF4y2Ba 53.79gydF4y2Ba 53.28gydF4y2Ba 48.72gydF4y2Ba 46.06gydF4y2Ba 44.07gydF4y2Ba 32.52gydF4y2Ba 56.19gydF4y2Ba 57.26gydF4y2Ba

遇到+搜索gydF4y2Ba 54.3gydF4y2Ba 50.53gydF4y2Ba 58.56gydF4y2Ba 41.9gydF4y2Ba 42.72gydF4y2Ba 48gydF4y2Ba 47.86gydF4y2Ba 35.84gydF4y2Ba 57.56gydF4y2Ba 59.09gydF4y2Ba

遇到+波尔gydF4y2Ba 68.11gydF4y2Ba 60.58gydF4y2Ba 64.29gydF4y2Ba 64.6gydF4y2Ba 56.12gydF4y2Ba 55.56gydF4y2Ba 63.64gydF4y2Ba 55.48gydF4y2Ba 70.73gydF4y2Ba 67.26gydF4y2Ba

一个gydF4y2Ba遇见:气象资料。gydF4y2Ba

bgydF4y2BaPol:污染数据。gydF4y2Ba

表7所示。2010年1月1日至2019年12月31日,美国10个城市臭氧污染的前5个相关搜索词。gydF4y2Ba
城市和搜索词gydF4y2Ba 斯皮尔曼相关性(滞后=1)gydF4y2Ba
洛杉矶gydF4y2Ba

咳嗽gydF4y2Ba −0.40gydF4y2Ba

支气管炎gydF4y2Ba −0.33gydF4y2Ba

森林大火gydF4y2Ba 0.24gydF4y2Ba

交通gydF4y2Ba 0.14gydF4y2Ba

呼吸道感染gydF4y2Ba −0.12gydF4y2Ba
哥伦比亚特区gydF4y2Ba

支气管炎gydF4y2Ba −0.25gydF4y2Ba

咳嗽gydF4y2Ba −0.25gydF4y2Ba

咳嗽gydF4y2Ba −0.19gydF4y2Ba

头疼gydF4y2Ba −0.14gydF4y2Ba

森林大火gydF4y2Ba 0.13gydF4y2Ba
费城gydF4y2Ba

咳嗽gydF4y2Ba −0.33gydF4y2Ba

交通gydF4y2Ba 0.27gydF4y2Ba

支气管炎gydF4y2Ba −0.20gydF4y2Ba

有机碳gydF4y2Ba −0.10gydF4y2Ba

呼吸道感染gydF4y2Ba −0.09gydF4y2Ba
达拉斯gydF4y2Ba

咳嗽gydF4y2Ba −0.25gydF4y2Ba

支气管炎gydF4y2Ba −0.24gydF4y2Ba

臭氧gydF4y2Ba 0.17gydF4y2Ba

森林大火gydF4y2Ba 0.15gydF4y2Ba

咳嗽gydF4y2Ba −0.14gydF4y2Ba
亚特兰大gydF4y2Ba

支气管炎gydF4y2Ba −0.14gydF4y2Ba

咳嗽gydF4y2Ba −0.11gydF4y2Ba

胸部疼痛gydF4y2Ba −0.10gydF4y2Ba

呼吸道感染gydF4y2Ba −0.09gydF4y2Ba

喘息gydF4y2Ba −0.07gydF4y2Ba
波士顿gydF4y2Ba

烟gydF4y2Ba −0.11gydF4y2Ba

阴霾gydF4y2Ba −0.07gydF4y2Ba

红色代码gydF4y2Ba −0.06gydF4y2Ba

咳嗽gydF4y2Ba 0.06gydF4y2Ba

烟雾gydF4y2Ba 0.05gydF4y2Ba
纽约gydF4y2Ba

支气管炎gydF4y2Ba −0.31gydF4y2Ba

交通gydF4y2Ba 0.29gydF4y2Ba

咳嗽gydF4y2Ba −0.25gydF4y2Ba

森林大火gydF4y2Ba 0.19gydF4y2Ba

喘息gydF4y2Ba −0.15gydF4y2Ba
迈阿密gydF4y2Ba

支气管炎gydF4y2Ba 0.14gydF4y2Ba

空气污染gydF4y2Ba 0.13gydF4y2Ba

咳嗽gydF4y2Ba 0.13gydF4y2Ba

发电厂gydF4y2Ba 0.09gydF4y2Ba

二氧化氮gydF4y2Ba 0.08gydF4y2Ba
芝加哥gydF4y2Ba

森林大火gydF4y2Ba 0.18gydF4y2Ba

烟gydF4y2Ba 0.08gydF4y2Ba

呼吸急促(气促)gydF4y2Ba 0.04gydF4y2Ba

心杂音gydF4y2Ba 0.04gydF4y2Ba

排气尾管gydF4y2Ba 0.04gydF4y2Ba
休斯顿gydF4y2Ba

臭氧gydF4y2Ba 0.12gydF4y2Ba

空气污染gydF4y2Ba 0.12gydF4y2Ba

哮喘gydF4y2Ba 0.06gydF4y2Ba

有机碳gydF4y2Ba 0.05gydF4y2Ba

森林大火gydF4y2Ba 0.05gydF4y2Ba

空气污染阈值敏感性分析gydF4y2Ba

分类阈值在我们的模型中起着重要的作用。在本研究中,从相应污染物的平均值中选取一个SD阈值作为“概率阈值”,以时空分辨率检测空气污染。然而,所提出的方法对这个阈值很敏感。我们进一步研究了所提出的方法使用各种固定分类阈值的性能。如gydF4y2Ba图5gydF4y2Ba-gydF4y2Ba7gydF4y2Ba,我们固定了所有10个城市的分类阈值,以检测OgydF4y2Ba3.gydF4y2Ba,没有gydF4y2Ba2gydF4y2Ba,和PMgydF4y2Ba2.5gydF4y2Ba污染。结果表明:气象数据与搜索数据具有互补性,结合搜索数据和气象数据对所有分类阈值的预测性能均较好;gydF4y2Ba

‎gydF4y2Ba
图5。精度(左图)和gydF4y2BaFgydF4y2Ba1分(右图)用于探测臭氧(OgydF4y2Ba3.gydF4y2Ba,以Met(长短期记忆模型)和Met+Search(字典学习者长短期记忆与搜索词扩展)为特征。遇见:气象资料;Ppb:十亿分之一。gydF4y2Ba
查看此图gydF4y2Ba
‎gydF4y2Ba
图6。精度(左图)和gydF4y2BaFgydF4y2Ba1分(右图)用于检测二氧化氮(NOgydF4y2Ba2gydF4y2Ba,以Met(长短期记忆模型)和Met+Search(字典学习者长短期记忆与搜索词扩展)为特征。遇见:气象资料;Ppb:十亿分之一。gydF4y2Ba
查看此图gydF4y2Ba
‎gydF4y2Ba
图7。精度(左图)和gydF4y2BaFgydF4y2Ba1分(右图)用于检测细颗粒物(PMgydF4y2Ba2.5gydF4y2Ba,以Met(长短期记忆模型)和Met+Search(字典学习者长短期记忆与搜索词扩展)为特征。遇见:气象资料。gydF4y2Ba
查看此图gydF4y2Ba

主要研究结果gydF4y2Ba

在这项研究中,我们探索了各种现有的空气污染预测模型,发现在我们的大多数实验中,使用时间序列神经网络方法实现了最高的预测精度。结果表明,在气象数据和网络搜索数据同时存在的情况下,基于lstm的模型对3种空气污染物具有较高的精度。此外,我们将网络搜索数据与气象数据结合的结果表明,在较短的报告延迟下,与使用气象和历史污染浓度数据的基线模型相比,LSTM模型可以提供高度准确的预测。gydF4y2Ba

与现有的使用线性和非线性机器学习模型预测城市空气污染浓度的研究相比[gydF4y2Ba25gydF4y2Ba,gydF4y2Ba41gydF4y2Ba-gydF4y2Ba47gydF4y2Ba],我们提出的方法可以在源排放和遥感卫星数据不可行的情况下预测空气污染(例如,由于频繁的云层覆盖,遥感卫星数据往往存在很高的缺失率[gydF4y2Ba48gydF4y2Ba])。先前使用基于网络的搜索行为的研究强调使用谷歌趋势[gydF4y2Ba40gydF4y2Ba,gydF4y2Ba49gydF4y2Ba]并将正则化线性回归应用于共线性网络搜索查询,以估计来自社交媒体或基于网络的搜索数据的患病率[gydF4y2Ba18gydF4y2Ba,gydF4y2Ba19gydF4y2Ba,gydF4y2Ba50gydF4y2Ba-gydF4y2Ba54gydF4y2Ba].我们的研究进一步探索了使用带有搜索查询语义嵌入的LSTM模型来预测空气污染的可能性。如gydF4y2Ba图8gydF4y2Ba而且gydF4y2Ba9gydF4y2Ba,经过DL-LSTM模型优化的搜索词语义嵌入与初始的GloVe嵌入相比相关度降低,这表明在训练过程中搜索词之间的共线性降低。gydF4y2Ba

我们还探索了搜索词的各种组合,发现一组全面的用户查询对于准确捕捉人们对城市空气污染的反应至关重要。在这项研究中,我们使用语义和时间相关性与谷歌相关的搜索查询扩展了最初的种子术语集。我们通过手动将搜索词分为4类来调查不同搜索词组的贡献,其中未分类的类别包括含义模糊的词。gydF4y2Ba表8gydF4y2Ba显示了准确性gydF4y2BaFgydF4y2Ba1gydF4y2Ba当我们删除搜索词类别预测OgydF4y2Ba3.gydF4y2Ba,没有gydF4y2Ba2gydF4y2Ba,和PMgydF4y2Ba2.5gydF4y2Ba污染。删除症状、观察和来源类别中的搜索词会导致检测至少两种污染物的准确性评分下降。与此同时,删除含义模糊的搜索词只会导致所有3种污染物的准确性得分略高。gydF4y2Ba

‎gydF4y2Ba
图8。种子搜索词GloVe嵌入之间的余弦相似度。手套:字表示的全局向量。gydF4y2Ba
查看此图gydF4y2Ba
‎gydF4y2Ba
图9。种子搜索词训练嵌入间的余弦相似度。gydF4y2Ba
查看此图gydF4y2Ba
表8所示。准确性和gydF4y2BaFgydF4y2Ba1分去除不同类别的搜索词检测臭氧,二氧化氮和细颗粒物污染使用搜索(字典学习者长短期记忆w搜索词扩展)为特征。gydF4y2Ba
污染物及条款gydF4y2Ba 准确性(改变;%)gydF4y2Ba FgydF4y2Ba1gydF4y2Ba分数(改变;%)gydF4y2Ba
OgydF4y2Ba3.gydF4y2Ba一个gydF4y2Ba

所有gydF4y2Ba 0.6961gydF4y2Ba 0.3244gydF4y2Ba

所有我们gydF4y2BabgydF4y2Ba症状gydF4y2Ba 0.647(−7.1)gydF4y2Ba 0.3024(−6.8)gydF4y2Ba

所有的观察gydF4y2Ba 0.622(−10.6)gydF4y2Ba 0.3264 (+ 0.6)gydF4y2Ba

所有来源gydF4y2Ba 0.6712(−3.6)gydF4y2Ba 0.3033(−6.5)gydF4y2Ba

都是不保密的gydF4y2Ba 0.7057 (+ 1.4)gydF4y2Ba 0.3273 (+ 0.9)gydF4y2Ba
没有gydF4y2Ba2gydF4y2BacgydF4y2Ba

所有gydF4y2Ba 0.5684gydF4y2Ba 0.2770gydF4y2Ba

所有症状gydF4y2Ba 0.4452(−22.0)gydF4y2Ba 0.2418(−12.7)gydF4y2Ba

所有的观察gydF4y2Ba 0.6125 (+ 7.8)gydF4y2Ba 0.2480(−10.5)gydF4y2Ba

所有来源gydF4y2Ba 0.5452(−4.1)gydF4y2Ba 0.2647(−4.4)gydF4y2Ba

都是不保密的gydF4y2Ba 0.6534 (+ 15.0)gydF4y2Ba 0.2134(−23.0)gydF4y2Ba
点gydF4y2Ba2.5gydF4y2BadgydF4y2Ba

所有gydF4y2Ba 0.8759gydF4y2Ba 0.0699gydF4y2Ba

所有症状gydF4y2Ba 0.7897(−9.8)gydF4y2Ba 0.1029 (+ 47.2)gydF4y2Ba

所有的观察gydF4y2Ba 0.7496(−14.4)gydF4y2Ba 0.1049 (+ 50.1)gydF4y2Ba

所有来源gydF4y2Ba 0.8994 (+ 2.7)gydF4y2Ba 0.0393(−43.8)gydF4y2Ba

都是不保密的gydF4y2Ba 0.8991 (+ 2.6)gydF4y2Ba 0.0264(−62.2)gydF4y2Ba

一个gydF4y2BaOgydF4y2Ba3.gydF4y2Ba:臭氧。gydF4y2Ba

bgydF4y2Ba我:没有。gydF4y2Ba

cgydF4y2Ba没有gydF4y2Ba2gydF4y2Ba:二氧化氮。gydF4y2Ba

dgydF4y2Ba点gydF4y2Ba2.5gydF4y2Ba:细颗粒物。gydF4y2Ba

通过对每个搜索词的系数分析,结果表明,一些搜索词比其他搜索词贡献更大。利用RF模型计算种子搜索词的平均特征重要性。如图S1、S2和S3所示gydF4y2Ba多媒体附件2gydF4y2Ba,“特殊物质”、“呼吸急促”、“咽喉刺激”等搜索词对O的检测具有较高的特征重要性gydF4y2Ba3.gydF4y2Ba,没有gydF4y2Ba2gydF4y2Ba,和PMgydF4y2Ba2.5gydF4y2Ba污染,分别。结果还表明,没有一个搜索词对这三种污染物都最有效。gydF4y2Ba

限制gydF4y2Ba

这项研究的一个关键限制是神经网络模型的调整。首先,神经网络模型的性能对几个超参数很敏感,包括优化选择、深度、宽度和正则化。由于计算能力的限制,我们采用了一个简单的LSTM架构,其中包含一个128单元的隐藏层,并使用其他超参数的验证数据集对模型进行调优。此外,我们注意到RF模型的随机种子和LSTM模型优化过程中的随机性等随机成分影响了结果的解释。因此,我们对RF和LSTM模型使用不同的随机种子重复实验10次。由于重复LSTM模型的时间成本较高,我们仅重复RF、LSTM和DL-LSTM模型10次即可预测OgydF4y2Ba3.gydF4y2Ba所有输入特征的污染。DL-LSTM模型的精度平均为0.8744 (SD为0.0046)。与LSTM模型(mean 0.8714, SD 0.0036)相比,改善不显著(gydF4y2BaPgydF4y2Ba=厚)。与射频模型(mean 0.8273, SD 0.0017)相比,改善显著(gydF4y2BaPgydF4y2Ba<措施)。的gydF4y2BaFgydF4y2Ba1gydF4y2BaDL-LSTM模型的-score均值为0.6314 (SD为0.0058)。与LSTM模型(mean 0.6019, SD 0.0096)和RF模型(mean 0.5588, SD 0.0024)相比,均有显著改善(gydF4y2BaPgydF4y2Ba<.001),表明LSTM模型的结果是稳定的。对于非传染性疾病预测的更复杂的神经网络模型架构,还有进一步探索的空间[gydF4y2Ba55gydF4y2Ba-gydF4y2Ba57gydF4y2Ba].我们将更深入和更广泛的体系结构的探索留给将来的工作。gydF4y2Ba

另一个限制是依赖搜索数据带来的偏差,这可能无法反映潜在的人口统计数据或经验。尽管其中一些问题可以通过针对地面传感器污染水平训练模型来自动缓解,但理解和纠正这些数据偏差还需要进一步研究。未来,我们计划研究基于人群的监测数据的其他来源,例如社交媒体上的自我报告,以增强传统的物理传感器方法,从而为人们如何体验空气污染水平升高提供更直接、以人为本的测量方法。gydF4y2Ba

结论gydF4y2Ba

在这项研究中,我们认为,尽管网络搜索数据还不能完全取代地面污染监测仪,但它可能已经作为一个有价值的额外信号来增强地面污染数据,为检测异常的空气污染峰值提供了显著的准确性提高。我们还发现,搜索词与污染浓度之间的相关性在城市层面上有所不同。因此,该模型在应用于特定城市时必须进行微调。对于模型和搜索词的选择,我们使用了最简单的LSTM架构和字典学习模块,发现没有一个搜索词对所有3种污染物都最有效。我们建议使用我们的模型来学习可用搜索词之间的语义相关性,以获得更好的预测结果。gydF4y2Ba

致谢gydF4y2Ba

这项工作得到了美国国立卫生研究院国家医学图书馆(R21LM013014)的资助。资助者在研究设计、数据收集和分析、发表决定或手稿准备中没有任何作用。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba
多媒体附件1gydF4y2Ba

搜索词、数据源和模型超参数的描述。gydF4y2Ba

PDF档案(adobepdf档案),107 KBgydF4y2Ba

‎gydF4y2Ba
多媒体附件2gydF4y2Ba

使用随机森林模型检测臭氧、二氧化氮和细颗粒物污染的平均特征重要性。gydF4y2Ba

PDF档案(adobepdf档案),385 KBgydF4y2Ba

  1. Brynjolfsson E, Geva T, Reichman S. Crowd-squared:放大搜索趋势数据的预测能力。MIS Q 2016 april 4;40(4):941-961。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  2. 冯志强,谢志涛,傅国强。社会媒体在公共卫生监测中的应用。西太平洋地区监测响应J 2015 Jun 26;6(2):3-6 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  3. Hill S, Merchant R, Ungar L.从在线人群监控中学到的公共卫生经验教训。大数据2013 10月10日;1(3):160-167 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  4. Broniatowski DA, Paul MJ, Dredze M.通过Twitter进行国家和地方流感监测:2012-2013年流感流行的分析。PLoS One 2013 12月9日;8(12):e83672 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  5. 桑蒂兰娜M,阮AT, Dredze M,保罗MJ, Nsoesie EO, Brownstein JS。结合搜索、社交媒体和传统数据源,改善流感监测。公共科学图书馆计算生物学2015年10月;11(10):e1004513 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  6. 刘志强,刘志强,刘志强,等。基于搜索趋势的季节性流感分区nowcast。J Med Internet Res 2017 Nov 06;19(11):e370 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  7. 宁山,杨松,寇春生。基于网络搜索数据的区域流感流行精确跟踪。科学通报2019年3月27日;9(1):5238 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  8. 冯ic,谢志涛,张CN, Miu AS,付坤华。埃博拉和社交媒体。柳叶刀2014年12月20日;384(9961):2207。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  9. 陈EH, Sahai V, Conrad C, Brownstein JS。使用网络搜索查询数据监测登革热流行:被忽视热带病监测的新模型。PLoS Negl Trop Dis 2011年5月;5(5):e1206 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  10. Ayyoubzadeh SM, Ayyoubzadeh SM, Zahedi H, Ahmadi M, Niakan Kalhori r .通过分析伊朗谷歌趋势数据预测COVID-19发病率:数据挖掘和深度学习试点研究。JMIR公共卫生监测2020年4月14日;6(2):e18828 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  11. de Nazelle A, Seto E, Donaire-Gonzalez D, Mendez M, Matamala J, Nieuwenhuijsen MJ,等。通过无处不在的传感技术改进空气污染暴露的估计。环境污染2013年5月;176:92-99 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  12. 刘浩,李志强,刘志强,刘志强。基于移动传感的城市空气质量实时监测。在:第二届ACM SIGKDD城市计算国际研讨会论文集。2013年8月发表于:UrbComp '13;2013年8月11日;美国伊利诺伊州芝加哥,第1-8页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  13. 斯涅克F, Rietjens JH, Apituley A, Volten H, Mijling B, Di Noia A,等。使用智能手机分光偏振仪的公民科学网络绘制大气气溶胶。地球物理学报2014 10月27日;41(20):7351-7358。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  14. Cohen AJ, Brauer M, Burnett R, Anderson HR, Frostad J, Estep K,等。环境空气污染造成的全球疾病负担的估计和25年趋势:对2015年全球疾病负担研究数据的分析柳叶刀2017年5月13日;389(10082):1907-1918 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  15. 齐格尔,托马斯·D,多米尼西·F,萨姆特·JM,施瓦茨·J,多克瑞·D,等。空气污染时间序列研究中的暴露测量误差:概念和后果。环境卫生展望2000年5月;108(5):419-426 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  16. Sarnat SE, Sarnat JA, Mulholland J, Isakov V, Özkaynak H, Chang HH,等。在亚特兰大的时间序列流行病学研究中环境空气污染暴露的替代时空指标的应用。中国生物医学工程学报,2013;23(6):593-605。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  17. 梁东,Golan R, moutiinho JL, Chang HH, Greenwald R, Sarnat SE,等。在估计与交通污染物有关的严重健康影响时,与使用路边监测有关的错误。环境研究2018年8月;165:210-219。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  18. 邹B, Lampos V, Cox I.基于在线搜索数据的无监督流感样疾病模型的迁移学习。见:2019年万维网大会论文集,2019年发表于:WWW '19;2019年5月13日至17日;美国加州旧金山,第2505-2516页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  19. Lampos V, Miller AC, Crossan S, Stefansen C.利用搜索查询日志预测流感样疾病率的进展。科学通报2015年8月03日;5:12760 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  20. Graves A, Jaitly N.面向端到端语音识别的循环神经网络。第31届机器学习国际会议论文集,2014,ICML '14;2014年6月21-26日;中国北京p. II-1764-II-1772。gydF4y2Ba
  21. Mikolov T, Sutskever I, Chen K, Corrado G, Dean J.单词和短语的分布式表示及其组合。第26届神经信息处理系统国际会议论文集。2013年发表于:NeurIPS '13;2013年12月5-10日;太浩湖,NV,美国p. 3111-3119。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  22. 潘宁顿,索彻,马宁。手套:词表示的全局向量。在:2014年自然语言处理经验方法会议论文集。2014年发表于:EMNLP '14;2014年10月25-29日;卡塔尔多哈,1532-1543页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  23. Pilotto LS, Douglas RM, Attewell RG, Wilson SR.儿童室内二氧化氮暴露对呼吸的影响。国际流行病学杂志1997年8月;26(4):788-796。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  24. 肖汉AJ, Inskip HM, Linaker CH, Smith S, Schreiber J, Johnston SL,等。个人暴露于二氧化氮(NO2)和儿童病毒诱发哮喘的严重程度。Lancet 2003 july 07;361(9373):1939-1944 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  25. 李志强,李志强。室外空气质量建模的机器学习方法:系统综述。应用科学2018年12月11日;8(12):2570。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  26. 迪Q,王勇,Zanobetti A,王勇,Koutrakis P, Choirat C,等。空气污染和医保人群的死亡率。N Engl J Med 2017 Jun 29;376(26):2513-2522 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  27. 李文杰,李志强,李志强。低污染城市空气污染与日死亡率的关系。环境卫生展望2003年1月;111(1):45-52 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  28. Sarnat JA, Sarnat SE, Flanders WD, Chang HH, Mulholland J, Baxter L,等。时空分解的空气交换率作为亚特兰大急性空气污染相关发病率的修正因子。中国生物医学工程学报,2013;23(6):606-615。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  29. Kelly FJ, Fussell JC。空气污染与公共卫生:新出现的危害和对风险的更好理解。环境与环境科学2015 Aug;37(4):631-649 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  30. Sarnat JA, Russell A, Liang D, motiinho JL, Golan R, Weber RJ,等。开发交通污染的多污染物暴露指标:宿舍吸入车辆排放(DRIVE)研究。中国医药卫生研究院2018年4月(196):3-75。[gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  31. 谷歌趋势。谷歌。URL:gydF4y2Bahttps://support.google.com/trends/answer/4365533?hl=engydF4y2Ba[2019-08-31]访问gydF4y2Ba
  32. Challet D, Bel Hadj Ayed A.谷歌趋势数据比价格回报更具有可预测性吗?SSRN J 2014年3月7日。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  33. Kreindler DM, Lumsden CJ。不规则样本和缺失数据在时间序列分析中的影响。进:Guastello SJ, Gregson RA,编辑。使用真实数据的行为科学非线性动力系统分析。博卡拉顿,佛罗里达,美国:CRC出版社;2006.gydF4y2Ba
  34. 谷歌相关。谷歌。URL:gydF4y2Bahttps://searchengineland.com/google-correlate-more-search-data-to-mine-78560gydF4y2Ba[2019-08-31]访问gydF4y2Ba
  35. Kane MJ, Price N, Scotch M, Rabinowitz P. ARIMA和随机森林时间序列模型预测H5N1禽流感暴发的比较。BMC Bioinformatics 2014 Aug 13;15(1):276 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  36. 张志刚,张志刚。长短期记忆。神经计算1997 Dec 15;9(8):1735-1780。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  37. Elman杰。分布式表示,简单循环网络,语法结构。Mach Learn 1991 9月7日(2-3):195-225。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  38. 何凯,张旭,任松,孙杰。深入研究整流器:在ImageNet分类上超越人类水平。2015年IEEE计算机视觉国际会议论文集,ICCV '15;2015年12月7-13日;智利圣地亚哥,p. 1026-1034。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  39. CGAP项目-临近预报空气污染。URL:gydF4y2Bahttps://github.com/emory-irlab/airpollutionnowcastgydF4y2Ba[2021-12-10]访问gydF4y2Ba
  40. Carrière-Swallow Y, Labbé F.新兴市场谷歌趋势的临近预测。J Forecast 2013 7月;32(4):289-298。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  41. 陈松,阚刚,李娟,梁凯,洪艳。利用大数据、信息理论和机器学习研究中国城市空气质量。环境科学学报,2018;27(2):565-578。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  42. 赵旭,张锐,吴建林,常培平。空气质量分类的深度递归神经网络。J Inf隐藏多时信号处理2018年3月9日(2):346-354。gydF4y2Ba
  43. 林勇,马戈·尼,高勇,李勇,蒋悠悠,沙哈比·C,等。利用深度学习利用时空模式进行准确的空气质量预测。见:第26届ACM SIGSPATIAL地理信息系统国际会议论文集。2018年发表于:SIGSPATIAL '18;2018年11月6日至9日;华盛顿州西雅图,美国,第359-368页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  44. 朱伟,王杰,张伟,孙东。空气污染对下呼吸道疾病的短期影响及数据处理成组法预测。Atmos Environ 2012 5月;51:29-38。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  45. 张勇,马雷V, Seigneur C, Baklanov A.实时空气质量预报,第一部分:历史、技术与现状。Atmos Environ 2012 12月;60:632-655。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  46. 陈晓明,陈晓明,陈晓明,陈晓明。基于logistic回归和随机森林方法的城市环境颗粒物暴露评估模型研究。大气环境(1994)2017 Mar;151:1-11 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  47. 卡巴内罗斯SM,卡洛特JK,休斯BR。环境空气污染预测的人工神经网络模型综述。Environ Model Soft 2019 Sep;119:285-304。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  48. Misra P, Takeuchi W.利用谷歌趋势和遥感数据集评估人口对城市空气污染的敏感性。Int Arch photography Remote Sens Spatial Inf science 2020年2月14日;XLII-3/W11:93-100。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  49. Jun SP, Yoo HS, Choi S.使用谷歌趋势的十年研究变化:从大数据利用和应用的角度。技术预测Soc变化2018年5月;130:69-87。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  50. 杨松,杨春梅,寇春生。基于ARGO的谷歌搜索数据对流感流行的准确估计。中国科学院学报(自然科学版)2015年12月24日;29 (12):14473-14478 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  51. Lampos V, Cristianini N.通过监测社交网络跟踪流感大流行。第二届认知信息加工国际研讨会论文集,2010,发表于:CIP '10;2010年6月14-16日;厄尔巴岛,意大利,页411-416。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  52. Lampos V, De Bie T, Cristianini N.流感探测器-追踪Twitter上的流行病。在:机器学习和数据库中的知识发现欧洲会议论文集。2010年发表于:ECML PKDD '10;2010年9月20-24日;西班牙巴塞罗那,第599-602页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  53. Lampos V, preoiucc - pietro D, Cohn T.基于社交媒体的以用户为中心的投票意向模型。载于:计算语言学协会第51届年会论文集。2013年发表于:ACL '13;2013年8月4-9日;保加利亚索非亚,第993-1003页。gydF4y2Ba
  54. 邹海涛,王晓明,王晓明。基于弹性网的正则化和变量选择方法。中国统计杂志,2005年4月;67(2):301-320。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  55. 邓松,王松,王磊,宁云,王磊。基于交叉位置注意的图神经网络在ILI长期预测中的应用。见:第29届ACM信息与知识管理国际会议论文集,2020年10月19日发表于:CIKM '20;2020年10月19日至23日;虚拟p. 245-254。gydF4y2Ba
  56. 邹B, Lampos V, Cox I.多任务学习改进网络搜索的疾病模型。见:2018年万维网大会论文集。2018年发表于:WWW '18;2018年4月23-27日;法国里昂,第87-96页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  57. 张勇,杨晓明,杨晓明,胡伟。利用跨半球流感监测数据和本地互联网查询数据预测季节性流感流行。科学通报2019 Mar 01;9(1):3262 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba


‎gydF4y2Ba
DL-LSTM:gydF4y2Ba长短期记忆gydF4y2Ba
手套:gydF4y2Ba字表示的全局向量gydF4y2Ba
LR:gydF4y2Ba逻辑回归gydF4y2Ba
LSTM:gydF4y2Ba长短期记忆gydF4y2Ba
MSA:gydF4y2Ba都市统计区gydF4y2Ba
没有gydF4y2Ba2gydF4y2Ba:gydF4y2Ba二氧化氮gydF4y2Ba
OgydF4y2Ba3.gydF4y2Ba:gydF4y2Ba臭氧gydF4y2Ba
点gydF4y2Ba2.5gydF4y2Ba:gydF4y2Ba细颗粒物gydF4y2Ba
射频:gydF4y2Ba随机森林gydF4y2Ba
RNN:gydF4y2Ba循环神经网络gydF4y2Ba
STE:gydF4y2Ba搜索词扩展gydF4y2Ba


A Mavragani编辑;提交30.03.22;C Zhao, A Staffini, W Ceron同行评审;对作者21.06.22的评论;修订版本收到06.10.22;接受25.10.22;发表19.12.22gydF4y2Ba

版权gydF4y2Ba

©Chen Lin, Safoora Yousefi, Elvis Kahoro, Payam Karisani,梁东海,Jeremy Sarnat, Eugene Agichtein。最初发表于JMIR Formative Research (https://formative.www.mybigtv.com), 19.12.2022。gydF4y2Ba

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR Formative Research上的原创作品。必须包括完整的书目信息,https://formative.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba


Baidu
map