这是一篇根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息,http://publichealth.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。
社交媒体平台日益被视为广泛健康问题的数据来源。由于Twitter的公共性质,它对公共卫生监测特别有意义。然而,推特等社交媒体平台的公共性可能会成为公共卫生监测的障碍,因为人们可能不愿公开披露自己的健康信息。在艾滋病毒/艾滋病等与某种程度的耻辱有关的疾病的情况下,这一点尤其令人关切。
这项研究的目的是评估艾滋病毒药物治疗的不良影响和相关情绪是否可以通过社交媒体上的公开数据来确定。
我们描述了一种机器学习和众包人类评估相结合的方法,仅根据Twitter上公开发布的个人报告来识别HIV药物治疗的不良影响。从过去三年收集的4000万条推文的大型数据集中开始,我们确定了一个非常小的子集(1642;0.004%)的个人报告描述了个人的艾滋病毒药物治疗经历。
尽管提取的最终数据集规模较小,但归因于特定药物或药物组合的不良反应的摘要表示准确地捕捉了公认的毒性。此外,这些数据使我们能够区分特定的药物化合物,随着时间的推移确定首选药物,并捕捉新的事件,如暴露前预防的可用性。
由于数据的公共性而导致的有限数据共享的影响可以部分被大量的人共享数据所抵消,这一观察结果可能在一般的数字流行病学中发挥关键作用。
Twitter是一个很受欢迎的微博平台,用户可以在这里公开分享信息,包括个人想法和情绪。每天都有数亿条推文发布在推特上。这为公共卫生目的提供了一个巨大的潜在信息来源。个人健康信息的共享现在已被广泛认为是一种广泛现象,几乎发生在你能想到的任何领域。
我们选择了一个先天看来很难回答的具体问题:确定愿意透露其艾滋病毒状况的感染者,更具体地说,是关于他们的治疗。药物不良反应由于其普遍存在,一直是医疗机构和艾滋病毒感染者关注的一个问题[
我们提出的这项研究是基于通过与艾滋病毒和艾滋病治疗相关的特定关键词过滤的推文。我们的工作建立在越来越多的文献基础上,这些文献使用人类和计算方法相结合的方法来评估数字媒体的健康和疾病动态[
在这项研究中,我们购买了2010年9月至2013年8月间发布的39988,306条推文。我们从推特官方数据经销商Gnip公司购买了这些数据,该公司最近被推特公司收购。这些推文代表了那段时间内完整而公正的数据流。如果一条推文至少包含以下关键字之一,则该推文被包含在数据集中:
对于收集到的每条推文,我们都创建了一个列表,其中包含该推文所包含的所有不同的令牌。如果至少有一个关键字与列表中的至少一个项目匹配,我们就保留那条推文。这一步将我们的数据样本减少到大约180万条推文,主要是由于复合词的存在,如
下面,“信号”表示我们确定的患者发布的推文,“噪音”表示关于不相关主题的推文,例如关于新发现或关于艾滋病毒的最新信息的客观句子。
我们的统计抽样分析(
用于处理tweet的不同过滤器的概述。M =百万;k =几千。
我们所追求的数据管理的目标是将tweet的原始噪声样本净化为只包含信号的样本。为此,我们定义了一组将推文转换为定量信息(即推文中的字数、副词数量等)的特征。此外,这些特征的选择是基于它们对客观信息和带有个人指称的主观句子的分离力。在进一步的步骤中,我们通过机器学习算法将这些特征组合成一个单一的输出。
为了定义信号、噪声和非英语三类的训练样本,我们执行了4000条推文的众包请求。有两名亚马逊土耳其机器人工人对这些推文进行了评级。我们询问了这两名员工,他们是否认为这条推文符合以下四个标准之一:(1)谈论个人用药;(2)谈论药物,但不是针对个人;(3)谈论与我们学习完全无关的话题;(4)不要用英语发推文。如果两名员工对某条推文的答案达成一致,我们就保留这条推文进行分析。分类为(1)的推文被用作信号,分类为(2)和(3)的推文被用作噪声。我们在对我们的推文评分的员工之间达成了77.95%的协议(3118/4000)。此外,我们使用被评为非英语的推文作为对照样本,以删除外语推文。 We removed non-English tweets with a method described in see
我们使用了多元分析工具箱[
无法通过其他数字媒体(如谷歌或Bing的搜索查询)轻易获得的Twitter数据分析的一个重要方面是,有可能将整体“情绪”归因。在这项研究中,我们手工对推文进行了情绪评分,评分范围从-5到5,每步为1。前者表示极度消极的情绪,后者表示极度积极的情绪。下面的推文是来自最终数据集的示例。
5:嘿,伙计们,我正式无法检测!!!!接受#hiv!CD4也上升了150点!亚亚! !# atripla
4:发明Atripla(它的组成部分-它是三种药物合一)的人是天才。我爱你。
3:更令人兴奋和完全不同的是,本周末,我将从阿特里普拉转移药物组合。
他说:我听说特鲁瓦达会让你胖得像电视宝宝。我太兴奋了,终于可以像我的英雄丁丁一样了!
1: @ thebody.com吃好的食物#营养作为我的其他副作用的一部分。
0:所以,你们最好都开始服用特鲁瓦达(就像我已经在做的那样)。没关系,因为FDA这么说了。嗯
这个人说:“阿特里普拉vs艾滋病毒。这些药似乎越来越少了,而且还在飞。”
例句这个人说:当你不得不早起6个小时的时候,Atripla是一个B**CH !
这个人说:噢,男孩,我讨厌这种感觉....# Atripla
例句这个人说:"不过,我想我今天还是不去看阿特里普拉了。我很虚弱,但我的未来是如此暗淡,我只想浪费掉。
(我们认为没有一条推文符合极其负面的-5评级标准。)我们对情绪的测量,Ψ,是给定时间窗口内所有推文情绪的平均值,在为每个评级分配了1的系统不确定性后,导致总不确定性平均值为1 /√n。纯信号推文的样本由作者之一(CA)注释。在不了解药物毒性的情况下转录副作用。
在我们应用了上面描述的清洗过程之后,我们的数据集包含了更大比例的可能的信号推文。在本节中,我们将详细介绍获得只包含信号tweet的示例所采取的步骤(
在第一步中,我们从500个包含代币的推文中随机选择了三个样本
在第二步,我们检查了包含
在最后一步中,我们将150条推文分为两个样本,其中包含
为了识别我们感兴趣的社区发布的推文,我们继续过滤了37,337条推文样本。一个SVM分类器,使用变量训练(见
分类器的输出是一个0到1之间的实数。数值越大,表示成为信号的概率越大。为了估计应用于我们的样本的阈值,我们使用带注释的信号推文,并将90%的信号效率阈值计算为0.45。因此,我们通过分类器解析了整个推文样本,只保留那些分类器输出大于0.45的推文。由于这种过滤,我们剩下的样本减少到5443条,我们发送给众包评级。最后,经过众包,我们的纯样本信号包含1642个注释推文。
上面描述的选择允许识别在艾滋病毒背景下发布关于他们日常生活的推文的用户。有512个独立用户发布了标识为signal的推文。我们发现247/512(48.2%)名男性用户,83/512(16.2%)名女性用户,182/512(35.5%)名性别不明。性别是手动标注的,可以是名字(如果确定),也可以是自我报告的身份(如果有)。大约一半的用户还提供了他们的位置。这些自我确认的地点中有一半在美国,主要来自纽约市和旧金山。其他大部分地区来自英语为官方语言的国家,包括英国、南非和加拿大。
所识别的社区平均有大约2300个追随者。例如,当查看社区内关注者的数量时,我们发现几乎一半的用户在同一社区内没有关注者,而几个用户在社区中有近100个关注者。此外,我们研究了关注者之间的友谊关系:被社区另一成员关注的用户是否关注该关注者?结果表明,这些互惠关系的分布确实与只考虑追随者的关系非常相似,这表明我们社区内的友谊关系非常紧密。然而,用户友谊网络远不是完全连接的,它代表了1516条边和连接组件的245个子图的结构。
从2010年9月到2013年8月,包含特定提及的推文数量作为时间的函数。每个箱子总共横跨60天。小组(a)分别列出了7种推特最多的药物,并将其他提到的药物分组在“其他”标签下。小组(b)强调了在联邦药物管理局批准暴露前预防(PrEP)时特鲁瓦达推文的增加。特定的令牌(蓝色部分)支持该关联。
不考虑转发推文(即其他用户转发的推文),353条推文中有329条包含可能被捕捉为药物不良反应的精确信息。与高频率使用依非韦伦和含有依非韦伦的联合治疗(即,Sustiva, Atripla)相对应,大多数使用者报告了他们的睡眠问题,无论是噩梦还是生动的梦,或者睡眠不足,以及与精神活性药物作用相当的症状。这些已知的不良反应可能导致停止治疗[
2010年9月9日至2013年8月23日期间推特用户报告的毒性总结。
这项工作的核心是在情感概念下分析观察到的推文动态,例如,与推文内容相关的表达情绪。
情绪评分Ψ作为时间的函数。面板(a)显示了分别考虑所有tweets和参考副作用的tweets获得的情绪分布。图(b)分别描述了关于Atripla和Complera的推文的情绪分布。不确定度的估计参照方法一节。
人们对将社交媒体数据用于公共卫生和医学越来越感兴趣。数字流行病学[
在分析和使用艾滋病毒的社交媒体数据方面,几乎没有科学经验。这与这种方法对全球或当地流行病学的理解、社会行为研究和预防研究的明显兴趣形成了鲜明对比。Young等人的研究[
据我们所知,我们的目的是进行第一次研究,研究艾滋病毒感染者在推特上谈论他们疾病的可能性,更具体地说,是关于他们接受药物治疗的经历。通过对谷歌或Bing等搜索引擎的查询进行研究,对药物毒性的具体分析,特别是对可能扩大的不良反应范围的识别,可能会更有效和更成功。然而,通过分析Twitter数据来探索这些问题提供了两个独特的特性:(1)捕捉推文的情感背景的可能性,以及(2)估计可能受到这些推文内容影响的个人数量(Twitter上的粉丝)。
从tweet中提取信息需要在过滤策略上进行大量投资,以将信号从噪声中分离出来。我们特别注意删除不是由已识别的人群(即受感染个体社区)撰写的推文。我们还经历了一系列验证步骤,包括众包和人工干预,以确保过滤器的有效性,并支持毒性识别和情绪手工评级。在对4000万条推文的初始数据集应用数据清洗、机器学习和人类评级后,我们确定了1642条推文和512个在HIV背景下披露个人信息的独特用户。虽然这些数字并不大,但在推特上发布关于他们的艾滋病药物的个人被大量关注,平均关注人数接近2300人。对目标社区的分析也揭示了牢固的友谊纽带。当我们检查与他们的治疗相关的情绪时,这种相当大的接触和可能的影响就变得特别相关,因为这些看法可以广泛传播,影响社区。正如预期的那样,相关的中心城市是纽约和旧金山。
Twitter和社交网络的兴趣在于,信息具有个人特征,可以被捕捉为“情绪”。推文可以被标记为表达积极、消极或中立的情绪。约(137/531)25.8%的关于毒品的推文被评为“负面”。截至(424/1491),28.43%的推文涉及药物不良反应,(281/424)66.2%的推文评分为阴性。从数据中可以清楚地看出,这些推文中所表达的关于抗艾滋病毒联合治疗不同成分相关毒性性质的担忧是准确的。例如,对含有依非韦伦的药物(Sustiva, Atripla)的不良反应的描述重建了该化合物的神经心理毒性的既定模式[
分析还确定了社区对独特事件的反应。2012年春天,我们观察到关于特鲁瓦达的推文达到了一个高峰,当时这种药物被联邦药物管理局批准用于暴露后预防。尽管媒体关注的增加会导致推特传播的增加,但我们观察到,随着推文数量的增加,负面情绪得分也越来越高,包括提到负面影响的推文。这突出表明,公共卫生利益攸关方有兴趣促进新的预防措施,以跟踪来自在线社交网络的这些可能有影响的信号。
这项研究的局限性来自于通过Twitter实际报告艾滋病药物的人数很少。然而,如上所述,就已知的这些药物而言,毒性报告是准确的。与搜索引擎不同的是,在搜索引擎中,个人正在积极地搜索可能与新的不良事件相关的信息,推文的内容可能只是反映了卫生保健专业人员或Web资源中已经宣布的症状和体征的意识。报告也可能反映社区对共同信仰的先入为主的观念。这一观察结果与Freifeld等人的工作相一致[
用于删除非英语推文的方法。
用AdaBoost增强决策树
人类免疫缺陷病毒
支持向量机
MS感谢国家卫生研究和传染病动态政策研究所的支持。AT的这项工作得到了桑托斯·苏亚雷斯基金会的支持。
没有宣布。