卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JPH

JMIR公共卫生监测

JMIR公共卫生和监视

2369 - 2960

卡塔尔世界杯8强波胆分析

加拿大多伦多

v1i2e7

27227141

10.2196 / publichealth.4488

原始论文

利用推特识别艾滋病药物治疗的不良影响和相关情绪

Eysenbach

冈瑟

Freifeld

克拉克

张

倪

Adrover

Cosme

博士学位 1

http://orcid.org/0000-0002-0714-6550

·博德纳尔

托德

二元同步通信 1

http://orcid.org/0000-0002-9032-4433

黄

Zhuojie

博士学位 1

http://orcid.org/0000-0002-4004-9891

Telenti

Amalio

医学博士 2

http://orcid.org/0000-0001-6290-7677

Salathe

马塞尔

博士学位 1

传染病动态中心生物学系宾夕法尼亚州立大学

MSC w - 251

大学公园，宾夕法尼亚州，16803

美国 1 4083868916 1 814 863 7590 salathe.marcel@gmail.com

http://orcid.org/0000-0002-5079-7797

¹ 传染病动态中心生物学系宾夕法尼亚州立大学

大学公园，宾夕法尼亚州

美国 ² 克雷格文特尔研究所

拉霍亚，加利福尼亚州

美国

通讯作者:Marcel Salathé salathe.marcel@gmail.com

Jul-Dec 2015

27 07 2015

1 2

31 3. 2015 17 4 2015 29 4 2015 30. 5 2015

©Cosme Adrover, Todd Bodnar, zhujie Huang, Amalio Telenti, Marcel Salathé。原载于JMIR公共卫生与监测(http://publichealth.www.mybigtv.com)， 2015年7月27日。

2015

这是一篇根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)发布的开放获取文章，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息，http://publichealth.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

背景

社交媒体平台日益被视为广泛健康问题的数据来源。由于Twitter的公共性质，它对公共卫生监测特别有意义。然而，推特等社交媒体平台的公共性可能会成为公共卫生监测的障碍，因为人们可能不愿公开披露自己的健康信息。在艾滋病毒/艾滋病等与某种程度的耻辱有关的疾病的情况下，这一点尤其令人关切。

客观的

这项研究的目的是评估艾滋病毒药物治疗的不良影响和相关情绪是否可以通过社交媒体上的公开数据来确定。

方法

我们描述了一种机器学习和众包人类评估相结合的方法，仅根据Twitter上公开发布的个人报告来识别HIV药物治疗的不良影响。从过去三年收集的4000万条推文的大型数据集中开始，我们确定了一个非常小的子集(1642;0.004%)的个人报告描述了个人的艾滋病毒药物治疗经历。

结果

尽管提取的最终数据集规模较小，但归因于特定药物或药物组合的不良反应的摘要表示准确地捕捉了公认的毒性。此外，这些数据使我们能够区分特定的药物化合物，随着时间的推移确定首选药物，并捕捉新的事件，如暴露前预防的可用性。

结论

由于数据的公共性而导致的有限数据共享的影响可以部分被大量的人共享数据所抵消，这一观察结果可能在一般的数字流行病学中发挥关键作用。

推特艾滋病毒艾滋病药物警戒 mTurk 土耳其机器人

简介在Twitter上分享健康信息

Twitter是一个很受欢迎的微博平台，用户可以在这里公开分享信息，包括个人想法和情绪。每天都有数亿条推文发布在推特上。这为公共卫生目的提供了一个巨大的潜在信息来源。个人健康信息的共享现在已被广泛认为是一种广泛现象，几乎发生在你能想到的任何领域。 1］．例子包括共用疫苗接种行为[ 2]，大麻消费的共享[ 3.]、分享自己的减肥尝试[ 4]，或分享自杀念头[ 5］．此外，这一庞大的可用数据库可用于估计某些药品最常见的副作用[ 6， 7］．在这项研究中，我们将专注于识别目前正在接受药物治疗的人类免疫缺陷病毒(HIV)感染者，以及他们的个人经历，特别是关于药物毒性。

我们选择了一个先天看来很难回答的具体问题:确定愿意透露其艾滋病毒状况的感染者，更具体地说，是关于他们的治疗。药物不良反应由于其普遍存在，一直是医疗机构和艾滋病毒感染者关注的一个问题[ 8， 9，因为治疗必须终身进行。人们普遍认为毒性也会影响治疗依从性。较新的药物与较低的药物不良反应发生率和严重程度日益相关;然而，使用者群体对影响生活质量的治疗的这一核心方面仍然高度敏感。信息和信念可以迅速传播，有影响力的声音和舆论媒介可能改变社区对治疗是否适当的看法。

为研究过滤推文

我们提出的这项研究是基于通过与艾滋病毒和艾滋病治疗相关的特定关键词过滤的推文。我们的工作建立在越来越多的文献基础上，这些文献使用人类和计算方法相结合的方法来评估数字媒体的健康和疾病动态[ 2， 10］．我们的目标是确定是否存在与特定的艾滋病毒治疗相关的常见不良影响，并建立与推文内容相关的总体用户情绪(积极、中立或消极的看法)。通过我们的研究，我们确定了确定感兴趣的人群的方法。我们使用众包(Amazon Mechanical Turk)对推文进行评级，为我们的机器学习算法创建训练样本。在分析方面，这些算法被用于识别我们所识别的社区(以下称为“信号”)发布的大多数推文:感染艾滋病毒的用户，其推文包括对治疗方法的引用、症状描述、观点和感受。对识别的推文的最终过滤再次通过众包获得。尽管可以公开交流艾滋病毒治疗经验的推文和个人数量有限，但我们发现药物毒性报告的比例惊人地大，药物特异性作用的精确度很高，而且对治疗的普遍看法是负面的。我们认为，对社交媒体的监测将为该领域提供信息，并广泛适用于对其他长期使用的治疗方法的监测，甚至适用于那些针对与严重病耻感相关的疾病的监测。

方法数据集

在这项研究中，我们购买了2010年9月至2013年8月间发布的39988,306条推文。我们从推特官方数据经销商Gnip公司购买了这些数据，该公司最近被推特公司收购。这些推文代表了那段时间内完整而公正的数据流。如果一条推文至少包含以下关键字之一，则该推文被包含在数据集中: Sustiva， Stocrin，韦，联邦贸易委员会， Ziagen， 3 tc， Epivir， Retrovir， Viramune， Edurant， Prezista， Reyataz， Norvir，是否，频道， Tivicay， Atripla， Trizivir，特鲁瓦达Truvada的， Combivir， Kivexa， Epzicom， Complera， Stribild，艾滋病毒治疗，艾滋病毒药物，抗艾滋病毒，三联疗法,或抗艾滋病毒．这些关键词的选择与使用中的主要抗逆转录病毒药物清单一致[ 11］． AZT由于其极低的噪声信号比(如 azt是匈牙利语中使用最多的词之一)。由于技术原因，搜索查询必须限制所使用的搜索词的数量。

推文处理

对于收集到的每条推文，我们都创建了一个列表，其中包含该推文所包含的所有不同的令牌。如果至少有一个关键字与列表中的至少一个项目匹配，我们就保留那条推文。这一步将我们的数据样本减少到大约180万条推文，主要是由于复合词的存在，如 giftcard，由关键字触发联邦贸易委员会，这是一个很大的噪声源。此外，包含关键字的推文子样本联邦贸易委员会对与联邦贸易委员会有关的信息有很大的偏见。我们决定从数据中放弃这个子样本。

下面，“信号”表示我们确定的患者发布的推文，“噪音”表示关于不相关主题的推文，例如关于新发现或关于艾滋病毒的最新信息的客观句子。

我们的统计抽样分析( 图1显示此)从松散的标准开始，以减少我们样本中的噪声。我们使用计算算法随机选择包含来自潜在噪声源的单词的不同推文集，以及不包含这些“噪声”单词的推文集。这些推文由两位作者(CA和TB)手动标注为噪声或信号。在轻微暗示主观性的情况下，这条推文被注释为信号。如果两种类型的集合(即包含或不包含特定的噪声词)之间的差异在信号内容方面显著，我们就会从数据集中丢弃包含这些噪声词的推文(更多细节，请参阅下面的小标题“通过连续滤波器识别信号”)。尽管我们希望通过这个清理过程丢弃一些信号推文，但它为我们的过程提供了鲁棒性，因为它允许我们增加剩余样本中信号推文的百分比。这种更高纯度的信号允许更多数量的众包信号推文来定义训练样本。

图1

用于处理tweet的不同过滤器的概述。M =百万;k =几千。

社区的识别

我们所追求的数据管理的目标是将tweet的原始噪声样本净化为只包含信号的样本。为此，我们定义了一组将推文转换为定量信息(即推文中的字数、副词数量等)的特征。此外，这些特征的选择是基于它们对客观信息和带有个人指称的主观句子的分离力。在进一步的步骤中，我们通过机器学习算法将这些特征组合成一个单一的输出。

训练样本

为了定义信号、噪声和非英语三类的训练样本，我们执行了4000条推文的众包请求。有两名亚马逊土耳其机器人工人对这些推文进行了评级。我们询问了这两名员工，他们是否认为这条推文符合以下四个标准之一:(1)谈论个人用药;(2)谈论药物，但不是针对个人;(3)谈论与我们学习完全无关的话题;(4)不要用英语发推文。如果两名员工对某条推文的答案达成一致，我们就保留这条推文进行分析。分类为(1)的推文被用作信号，分类为(2)和(3)的推文被用作噪声。我们在对我们的推文评分的员工之间达成了77.95%的协议(3118/4000)。此外，我们使用被评为非英语的推文作为对照样本，以删除外语推文。 We removed non-English tweets with a method described in see 多媒体附件1．

机器学习分类器

我们使用了多元分析工具箱[ 12来定义我们的机器学习分类器。我们计算了四种分类器的信号效率与噪声抑制的关系:(1)AdaBoost增强决策树(BDT)，(2)支持向量机(SVM)， (3) Bagging增强决策树(BDTG)，以及(4)人工神经网络。我们用来优化分类器的优点图是信号效率为90%时的噪声抑制效率。我们在接收器工作特征曲线上使用这个点，因为它代表了一个最佳阈值，可以保留大量相关信号推文，同时在允许最终人类验证的水平上去除噪声。这种进一步的众包是我们识别信号的最后一步，并在机器学习算法之后立即应用。

副作用和情绪评分的注释

无法通过其他数字媒体(如谷歌或Bing的搜索查询)轻易获得的Twitter数据分析的一个重要方面是，有可能将整体“情绪”归因。在这项研究中，我们手工对推文进行了情绪评分，评分范围从-5到5，每步为1。前者表示极度消极的情绪，后者表示极度积极的情绪。下面的推文是来自最终数据集的示例。

5:嘿，伙计们，我正式无法检测!!!!接受#hiv!CD4也上升了150点!亚亚! !# atripla

4:发明Atripla(它的组成部分-它是三种药物合一)的人是天才。我爱你。

3:更令人兴奋和完全不同的是，本周末，我将从阿特里普拉转移药物组合。

他说:我听说特鲁瓦达会让你胖得像电视宝宝。我太兴奋了，终于可以像我的英雄丁丁一样了!

1: @ thebody.com吃好的食物#营养作为我的其他副作用的一部分。

0:所以，你们最好都开始服用特鲁瓦达(就像我已经在做的那样)。没关系，因为FDA这么说了。嗯

这个人说:“阿特里普拉vs艾滋病毒。这些药似乎越来越少了，而且还在飞。”

例句这个人说:当你不得不早起6个小时的时候，Atripla是一个B**CH !

这个人说:噢，男孩，我讨厌这种感觉....# Atripla

例句这个人说:"不过，我想我今天还是不去看阿特里普拉了。我很虚弱，但我的未来是如此暗淡，我只想浪费掉。

(我们认为没有一条推文符合极其负面的-5评级标准。)我们对情绪的测量，Ψ，是给定时间窗口内所有推文情绪的平均值，在为每个评级分配了1的系统不确定性后，导致总不确定性平均值为1 /√n。纯信号推文的样本由作者之一(CA)注释。在不了解药物毒性的情况下转录副作用。

通过连续滤波器的信号识别

在我们应用了上面描述的清洗过程之后，我们的数据集包含了更大比例的可能的信号推文。在本节中，我们将详细介绍获得只包含信号tweet的示例所采取的步骤( 图1）.

在第一步中，我们从500个包含代币的推文中随机选择了三个样本 t.co, bit . ly，从术语开始艾滋病毒．在推特上，代币 t.co而且 bit . ly用作超链接的一部分。我们还随机选择了500条不包含这些词的推文样本。对于这三个过滤器，我们分别在第一个样本中找到了0、1和1个可能的信号推文。在最后一个样本中发现了24个可能的信号推文，其中令牌 t.co， bit . ly，从艾滋病毒被排除在外。由此，我们得出，从原始的316081条推文中提取的500条推文中，预计可以发现7.4±2.7条可能的信号推文。子样本是 t.co、bit . ly、首先艾滋病毒包含非常低比例的可能信号推文，并从数据集中被丢弃。我们的研究结果表明，这些标记出现在解决客观想法的推文中。

在第二步，我们检查了包含 http，新闻,或买．我们从140条推文中随机选择了三个样本，在三种情况下都发现了0条推文。由于我们在总共500条推文中发现了24条可能的信号推文，我们在140条推文中期望6.7±2.6个可能的信号推文，假设泊松分布。我们计算丢弃一个可能的信号推文的概率，如果我们删除推文包含 http，新闻,或买等于4 × 10⁶．在我们丢弃包含 http，新闻,或买，我们的数据集大幅减少。

在最后一步中，我们将150条推文分为两个样本，其中包含免费的，买，德， e，咱，什么，在，列克，拉， obat，达， majka， molim， hitno，密尔,或非洲．这些代币的选择是基于构成外国词典的一部分，属于销售其产品的零售公司，或者似乎构成新闻的一部分。我们在两种情况下都没有发现可能的信号推文。然后，我们估计丢失可能信号推文的概率小于5 × 10⁶，如果我们删除至少包含一个这样大的单词集的推文。经过上述推文的处理，样本进一步减少到37337条，约为原始样本量4000万条的0.933%。图1展示了在清洗过程中应用于数据集的各种过滤器的可视化。

为了识别我们感兴趣的社区发布的推文，我们继续过滤了37,337条推文样本。一个SVM分类器，使用变量训练(见多媒体附件1) personalcount, tagnoun, sis noise, sis signal, bigrams noise, is english, common noise, common signal, and ncharacters，允许将上述样本的噪声降低(481/603)79.8%，同时保留(26/30)87%的信号推文(见多媒体附件1，图S1)。我们对分类器的性能很有信心，因为使用不同的测试(交叉检查)样本获得的结果在统计不确定性范围内一致。所使用的分类器分别使用603条噪声推文和49条信号推文进行训练。然后使用两个不同的样本集(分别包含603个噪声推文和30个信号推文)对该分类器的性能进行了测试和验证。

分类器的输出是一个0到1之间的实数。数值越大，表示成为信号的概率越大。为了估计应用于我们的样本的阈值，我们使用带注释的信号推文，并将90%的信号效率阈值计算为0.45。因此，我们通过分类器解析了整个推文样本，只保留那些分类器输出大于0.45的推文。由于这种过滤，我们剩下的样本减少到5443条，我们发送给众包评级。最后，经过众包，我们的纯样本信号包含1642个注释推文。

结果已识别社区分析

上面描述的选择允许识别在艾滋病毒背景下发布关于他们日常生活的推文的用户。有512个独立用户发布了标识为signal的推文。我们发现247/512(48.2%)名男性用户，83/512(16.2%)名女性用户，182/512(35.5%)名性别不明。性别是手动标注的，可以是名字(如果确定)，也可以是自我报告的身份(如果有)。大约一半的用户还提供了他们的位置。这些自我确认的地点中有一半在美国，主要来自纽约市和旧金山。其他大部分地区来自英语为官方语言的国家，包括英国、南非和加拿大。

所识别的社区平均有大约2300个追随者。例如，当查看社区内关注者的数量时，我们发现几乎一半的用户在同一社区内没有关注者，而几个用户在社区中有近100个关注者。此外，我们研究了关注者之间的友谊关系:被社区另一成员关注的用户是否关注该关注者?结果表明，这些互惠关系的分布确实与只考虑追随者的关系非常相似，这表明我们社区内的友谊关系非常紧密。然而，用户友谊网络远不是完全连接的，它代表了1516条边和连接组件的245个子图的结构。

抗逆转录病毒药物推文趋势

图2显示(左图)2010年9月9日至2013年8月28日用户提到的艾滋病毒药物的可视化。2012年前6个月达到峰值。tweet的总数在前两个箱子中被所有药物平均分配。这一趋势在第三个箱子之后就消失了，在那里Atripla得到了更明确的提及。从2012年5月到8月，特鲁瓦达(Truvada)被提及的次数只有一段时间没有排在第一。特鲁瓦达被用作降低艾滋病毒感染风险的策略之一。我们更详细地评估了Truvada排名的变化。图2显示(右图)Truvada出现的次数和四个子字符串组合的出现次数: 准备，防止，像是, approv．这四种代币出现的分布与特鲁瓦达出现的情况一致，这表明我们捕捉到用户在推特上发布关于美国食品和药物管理局2012年7月批准特鲁瓦达作为预防药物的消息。

图2

从2010年9月到2013年8月，包含特定提及的推文数量作为时间的函数。每个箱子总共横跨60天。小组(a)分别列出了7种推特最多的药物，并将其他提到的药物分组在“其他”标签下。小组(b)强调了在联邦药物管理局批准暴露前预防(PrEP)时特鲁瓦达推文的增加。特定的令牌(蓝色部分)支持该关联。

药物不良反应报告

不考虑转发推文(即其他用户转发的推文)，353条推文中有329条包含可能被捕捉为药物不良反应的精确信息。与高频率使用依非韦伦和含有依非韦伦的联合治疗(即，Sustiva, Atripla)相对应，大多数使用者报告了他们的睡眠问题，无论是噩梦还是生动的梦，或者睡眠不足，以及与精神活性药物作用相当的症状。这些已知的不良反应可能导致停止治疗[ 13］．替诺福韦是常用的固定剂量联合丸(阿特里普拉)的组成部分，其不良反应与暴露后预防方案(特鲁瓦达)的肾毒性有关[ 14]特别是在接触后环境中，出现恶心和呕吐[ 15］．其他药物方案，如包括蛋白酶抑制剂，通常与胃肠道不耐受有关。此外，约(27/353)7.6%的相关推文表明没有副作用，并且对特定药物具有良好的耐受性。特定药物或联合药物的不良反应的概括表述准确地捕捉了公认的毒性[ 8， 16］ ( 图3显示了这一点)。

图3

2010年9月9日至2013年8月23日期间推特用户报告的毒性总结。

用户情感分析

这项工作的核心是在情感概念下分析观察到的推文动态，例如，与推文内容相关的表达情绪。图4显示在研究时间内计算的Ψ。我们捕捉到的平均负面情绪为-0.178;在1347条推文中，348条被评为负面情绪，220条被评为正面情绪，772条被评为中性情绪。我们还评估了与推文相关的情绪，特别是提到不利影响( 图4，左图)。在357条提到副作用的推文中，有238条与负面情绪有关，78条与正面情绪有关，37条与中性情绪有关。2012年5月1日左右，与不良反应相关的推文数量达到了54条的峰值，而平均数量为20条。这一事实与当时的负面情绪相伴而生。推特情绪动态似乎因特定药物而异，如图所示图4(右图)与Atripla(259个情绪评级)和Complera(8个情绪评级)之间的比较。

图4

情绪评分Ψ作为时间的函数。面板(a)显示了分别考虑所有tweets和参考副作用的tweets获得的情绪分布。图(b)分别描述了关于Atripla和Complera的推文的情绪分布。不确定度的估计参照方法一节。

讨论利用社交媒体数据促进公共卫生

人们对将社交媒体数据用于公共卫生和医学越来越感兴趣。数字流行病学[ 1， 17]利用搜索引擎(谷歌、必应等)、公共互联网资源(如维基百科)[ 18以及社交网络来追踪健康和疾病的动态。具体来说，来自Twitter的数据已被用于流感流行的分析[ 19， 20.以及对流感疫苗的看法。最近，人们越来越关注基于互联网的分析技术在药物上市后毒性评估中的潜力[ 2， 6］．来自搜索引擎的分析数据可以根据用户的查询重建已知的毒性。重要的是，使用搜索查询数据的药物警戒可以在“关联罪责”的基础上扩大给定药物或药物相互作用的不良反应范围[ 21］．

在分析和使用艾滋病毒的社交媒体数据方面，几乎没有科学经验。这与这种方法对全球或当地流行病学的理解、社会行为研究和预防研究的明显兴趣形成了鲜明对比。Young等人的研究[ 22通过推特探索社交媒体以识别艾滋病毒风险。从超过5.5亿条推文中，他们提取了9800条定位到艾滋病毒高发地区的推文。在他们的研究基础上，有人建议将艾滋病毒流行率和Twitter数据结合起来，可以形成艾滋病毒发病率的早期预警指标[ 23］．

据我们所知，我们的目的是进行第一次研究，研究艾滋病毒感染者在推特上谈论他们疾病的可能性，更具体地说，是关于他们接受药物治疗的经历。通过对谷歌或Bing等搜索引擎的查询进行研究，对药物毒性的具体分析，特别是对可能扩大的不良反应范围的识别，可能会更有效和更成功。然而，通过分析Twitter数据来探索这些问题提供了两个独特的特性:(1)捕捉推文的情感背景的可能性，以及(2)估计可能受到这些推文内容影响的个人数量(Twitter上的粉丝)。

从推文中提取信息

从tweet中提取信息需要在过滤策略上进行大量投资，以将信号从噪声中分离出来。我们特别注意删除不是由已识别的人群(即受感染个体社区)撰写的推文。我们还经历了一系列验证步骤，包括众包和人工干预，以确保过滤器的有效性，并支持毒性识别和情绪手工评级。在对4000万条推文的初始数据集应用数据清洗、机器学习和人类评级后，我们确定了1642条推文和512个在HIV背景下披露个人信息的独特用户。虽然这些数字并不大，但在推特上发布关于他们的艾滋病药物的个人被大量关注，平均关注人数接近2300人。对目标社区的分析也揭示了牢固的友谊纽带。当我们检查与他们的治疗相关的情绪时，这种相当大的接触和可能的影响就变得特别相关，因为这些看法可以广泛传播，影响社区。正如预期的那样，相关的中心城市是纽约和旧金山。

Twitter和社交网络的兴趣在于，信息具有个人特征，可以被捕捉为“情绪”。推文可以被标记为表达积极、消极或中立的情绪。约(137/531)25.8%的关于毒品的推文被评为“负面”。截至(424/1491)，28.43%的推文涉及药物不良反应，(281/424)66.2%的推文评分为阴性。从数据中可以清楚地看出，这些推文中所表达的关于抗艾滋病毒联合治疗不同成分相关毒性性质的担忧是准确的。例如，对含有依非韦伦的药物(Sustiva, Atripla)的不良反应的描述重建了该化合物的神经心理毒性的既定模式[ 8］．该分析还可以捕捉报告率，以及描述副作用的相关情绪。随着时间的推移，这些分析在药物的普遍接受程度(消极情绪vs中性积极情绪)方面进行了区分。

分析还确定了社区对独特事件的反应。2012年春天，我们观察到关于特鲁瓦达的推文达到了一个高峰，当时这种药物被联邦药物管理局批准用于暴露后预防。尽管媒体关注的增加会导致推特传播的增加，但我们观察到，随着推文数量的增加，负面情绪得分也越来越高，包括提到负面影响的推文。这突出表明，公共卫生利益攸关方有兴趣促进新的预防措施，以跟踪来自在线社交网络的这些可能有影响的信号。

这项研究的局限性来自于通过Twitter实际报告艾滋病药物的人数很少。然而，如上所述，就已知的这些药物而言，毒性报告是准确的。与搜索引擎不同的是，在搜索引擎中，个人正在积极地搜索可能与新的不良事件相关的信息，推文的内容可能只是反映了卫生保健专业人员或Web资源中已经宣布的症状和体征的意识。报告也可能反映社区对共同信仰的先入为主的观念。这一观察结果与Freifeld等人的工作相一致[ 6分析了4401条关于23种医疗产品潜在不良事件的推文，并发现了一个 r=0.75与消费者报告的联邦药物管理局不良事件报告系统器官级别报告的相关性。然而，无论报道的是什么，它确实反映了当代用户及其追随者的情绪。此外，之前使用Twitter的研究仅限于访问一小部分推文。相比之下，我们从专业服务中获得了包含研究期间关键字的所有推文，因此我们拥有了研究期间数据的完整表示。对于将在线社交媒体数据作为唯一信息来源的质疑也越来越多。与美国疾病控制和预防中心的前哨数据相比，谷歌流感最近未能准确匹配流感趋势，这引起了相当大的争论[ 24］．我们相信，我们的方法结合了自动过滤、众包、机器学习和广泛的人工验证和评分，可能会带来更可靠的结果，即使以降低自动化为代价。这种方法将适用于在人口水平上对其他治疗干预措施进行实时监测，并且是一种有用的补充。

多媒体附件1

用于删除非英语推文的方法。

缩写

BDT

用AdaBoost增强决策树

艾滋病毒

人类免疫缺陷病毒

支持向量机

MS感谢国家卫生研究和传染病动态政策研究所的支持。AT的这项工作得到了桑托斯·苏亚雷斯基金会的支持。

没有宣布。

Salathe

马塞尔

本特松

·博德纳尔

布鲁尔

布朗斯坦

Buckee

坎贝尔

新兴市场

Cattuto

口

年代

Mabry

Vespignani

一个

数码流行病学

PLoS计算生物学 2012 8 7 e1002616

10.1371 / journal.pcbi.1002616

22844241

pcompbiol - d - 12 - 00494

PMC3406005

Salathe

马塞尔

口

沙

利用在线社交媒体评估疫苗接种情绪:对传染病动态和控制的影响

PLoS计算生物学 2011 10 7 10 e1002199

10.1371 / journal.pcbi.1002199

22022249

pcompbiol - d - 11 - 00652

PMC3192813

Cavazos-Rehg

克劳斯

米

格鲁扎

五角

描述一个以大麻为重点的Twitter帐户的关注者和推文

J医疗互联网服务 2014 16 6 e157

10.2196 / jmir.3247

24974893

v16i6e157

PMC4090385

Pagoto

年代

施耐德

吉隆坡

埃文斯

米

华林

我

Appelhans

布希

我

漂白的

考虑一下

Ziedonis

米

发推特:成年人发推特讲述减肥尝试的特点

美国医学信息协会 2014 21 6 1032 1037

10.1136 / amiajnl - 2014 - 002652

24928175

amiajnl - 2014 - 002652

PMC4215051

Jashinsky

伯顿

上海

汉森

西

Giraud-Carrier

巴恩斯

医学博士

菱形花纹

通过推特追踪美国的自杀风险因素

危机 2014 35 1 51 59

10.1027 / 0227 - 5910 / a000234

24121153

334年k5x21l0436430

Freifeld

布朗斯坦

Menone

保

蕴结

Filice

罗斯

Kass-Hout

塔哈

达斯古普塔

Nabarun

数字药品安全监测:在推特上监测药品

药物Saf 2014 05 37 5 343 350

10.1007 / s40264 - 014 - 0155 - x

24777653

PMC4013443

衬衣

一个

Ginn

Nikfarjam

一个

奥康纳

史密斯

Jayaraman

年代

Upadhaya

冈萨雷斯

利用社交媒体数据进行药物警戒:综述

J生物医学信息 2015 04 54 202 212

10.1016 / j.jbi.2015.02.004

25720841

s1532 - 0464 (15) 00036 - 2

PMC4408239

Fellay

Boubaker

Ledergerber

; 8:32

皮毛

医学会

米

Hirschel

Vernazza

Francioli

Greub

Flepp

米

Telenti

一个

瑞士HIV队列研究

与强效抗逆转录病毒治疗相关的不良事件发生率:瑞士艾滋病毒队列研究

《柳叶刀》 2001 10 20. 358 9290 1322 1327

11684213

S0140673601064133

Keiser

Fellay

Opravil

米

赫希

Hirschel

; 8:32

以挪士

Vernazza

Pietro L

Rickenbach

马丁

Telenti

Amalio

皮毛

Hansjakob

瑞士HIV队列研究

瑞士HIV队列研究中抗逆转录病毒药物的不良事件:对死亡率和治疗改变的影响

小红伞其他 2007 12 8 1157 1164

18240856

Sadilek

一个

布伦南

年代

Kautz

Silenzio

克星:今天你应该避开哪些餐馆? 2013

2015-07-14

加州棕榈泉

http://www.cs.rochester.edu/u/kautz/papers/Sadilek-Brennan-Kautz-Silenzio_nEmesis_HCOMP-13.pdf

Gunthard

Huldrych F

Aberg

晶澳

埃朗

霍伊

摩根富林明

Telenti

一个

本森

汉堡

卡恩

勇敢的

我

Glesby

乔丹

瑞斯

菠菜

女士

托马斯。

戴斯。莱纳姆:

雅各布森

Volberding

巴勒斯坦权力机构

国际抗病毒学会美国小组

成人HIV感染的抗逆转录病毒治疗:国际抗病毒学会美国小组2014年建议

《美国医学会杂志》 2014 312 4 410 425

10.1001 / jama.2014.8722

25038359

1889146

Hoecker

一个

Speckmayer

本文作者

Therhaag

Toerne

已经

多元数据分析工具箱 2007

2015-07-01

TMVA -用于多元数据分析的工具包 http://arxiv.org/abs/physics/0703039

福特

Shubber

Pozniak

一个

维多利亚

米

多尔蒂

米

科比

Calmy

一个

一线抗逆转录病毒治疗中使用依非韦伦相关的比较安全性和神经精神不良事件:随机试验的系统回顾和荟萃分析

获得性免疫缺陷综合征 2015 08 1 69 4 422 429

10.1097 / QAI.0000000000000606

25850607

Ryom

Mocroft

一个

朗格

艾滋病毒阳性患者的抗逆转录病毒治疗、免疫抑制和肾损害

Curr Opin HIV艾滋病 2014 01 9 1 41 47

10.1097 / COH.0000000000000023

24225381

Coutinho

普拉萨德

室利罗摩克里希纳

恩曲他滨/替诺福韦(特鲁瓦达)用于艾滋病毒预防

我是内科医生 2013 10 15 88 8 535 540

24364575

d10988

Fagard

勒

Gunthard

Huldrych

赫希

症

米

Vernazza

; 8:32

Telenti

一个

Ebnother

科琳娜

Oxenius

一个

Perneger

佩兰

Hirschel

瑞士HIV队列研究

HAART中断期间粒细胞-巨噬细胞集落刺激因子的对照试验

艾滋病 2003 07 4 17 10 1487 1492

10.1097/01. aids.0000060396.18106.5b

12824786

Salathe

马塞尔

Freifeld

Mekaru

老

Tomasulo

房颤

布朗斯坦

甲型H7N9流感与数字流行病学的重要性

N英语J医学 2013 08 1 369 5 401 404

10.1056 / NEJMp1307752

23822655

McIver

布朗斯坦

维基百科的使用几乎实时地估计了美国流感样疾病的流行率

PLoS计算生物学 2014 04 10 4 e1003581

10.1371 / journal.pcbi.1003581

24743682

pcompbiol - d - 13 - 02242

PMC3990502

咀嚼

Eysenbach

推特时代的流行病:2009年H1N1爆发期间推特的内容分析

《公共科学图书馆•综合》 2010 5 11 e14118

10.1371 / journal.pone.0014118

21124761

PMC2993925

20.

金

Seok

哦

李

金

使用韩文推特追踪和预测人类流感感染

《公共科学图书馆•综合》 2013 8 7 e69305

10.1371 / journal.pone.0069305

23894447

玉米饼- d - 12 - 37217

PMC3722273

白色

Tatonetti

沙阿

奥特曼

霍维茨

埃里克

网络规模的药物警戒:倾听来自人群的信号

美国医学信息协会 2013 05 1 20. 3. 404 408

10.1136 / amiajnl - 2012 - 001482

23467469

amiajnl - 2012 - 001482

PMC3628066

年轻的

河流

刘易斯

使用实时社交媒体技术检测和远程监测艾滋病毒结果的方法

Prev地中海 2014 06 63 112 115

10.1016 / j.ypmed.2014.01.024

24513169

s0091 - 7435 (14) 00055 - 3

PMC4031268

Stoove

标志着

Pedrana

艾丽莎E

充分利用一个勇敢的新世界:使用Twitter作为公共健康监测工具的机会和考虑

Prev地中海 2014 06 63 109 111

10.1016 / j.ypmed.2014.03.008

24632229

s0091 - 7435 (14) 00102 - 9

激光冲

肯尼迪

王

Vespignani

一个

大数据。流感的寓言:大数据分析中的陷阱

科学 2014 03 14 343 6176 1203 1205

10.1126 / science.1248506

24626916

343/6176/1203