这是一篇根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息,http://publichealth.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。
随着社交媒体成为越来越受欢迎的参与公共卫生问题交流的在线场所,了解用户如何促进对特定主题的知识和认识非常重要。
本研究的目的是通过Twitter调查不同用户对癌症相关话题的讨论频率和种族差异。
使用Twitter公共流应用程序编程接口(API)收集2014年4月1日至2015年1月21日的推文,收集1%的公共推文。一种新的文本挖掘方法应用于纯英语推文,将推特用户分为种族和民族。然后,分析每个种族在用户时间线内使用癌症相关术语的频率,调查随着时间和组间的变化,并测量统计显著性。
在整个研究期间,白种人和非裔美国人之间“癌症”、“乳腺癌”、“前列腺癌”和“肺癌”等术语的可观察使用模式很明显。我们观察到,在被标记为癌症意识月的月份,特别是9月、10月和11月,术语使用频率出现了一些变化。有趣的是,我们发现在研究的术语中,“结直肠癌”在Twitter上获得的关注最少。
这项研究的结果证明,社交媒体可以作为一个非常强大和重要的工具,实时向社区实施和传播关键的预防、筛查和治疗信息。该研究还引入并测试了一种识别社交媒体用户种族的新方法。研究结果强调了社交媒体作为减少种族和民族差异工具的潜在好处。
癌症是一个重大的公共卫生问题,影响着美国1400多万男性和女性。截至2014年1月,预计2015年美国将新增160万例癌症病例。
对美国成年人中发病率和死亡率最高的四种癌症,即肺癌、乳腺癌、前列腺癌和结直肠癌的了解和认识,已被证明因种族和民族而异[
今天,包括推特、脸书和Instagram在内的社交媒体是很受欢迎的在线平台,人们可以就任何事情进行交流,许多研究[
在这项研究中,我们的目标是探索与癌症相关的推文在种族和民族方面的差异,我们的工作基于里奇福德对非洲裔美国人独特方言模式的断言[
从2014年4月1日到2015年1月21日,使用Twitter公共流应用程序编程接口(API)收集了1%的公共推文,共产生281,276,343条推文。在这项研究中,我们收集的推文仅限于英语。由于GPS数据稀缺,我们没有为每条推文提供全球定位系统(GPS)值限制,而是使用本文后面介绍的方法将推文位置集中到仅限美国的账户。由于收集系统的技术问题,从2014年5月13日到2014年7月24日的推文没有被保留。在数据收集期间,将收集twitter提供的唯一用户标识(ID)号、推文、数据/时间、配置文件标识的位置以及GPS纬度和经度值(如果可用)。在收集了推文之后,通过使用唯一的用户ID号对推文进行分组,重新构造了用户时间线。集合中推文字符长度的分布如图所示
显示推文字符长度分布的直方图。
用户时间线字符长度的对数直方图。由于字符长度在时间线上的分布更广,我们以对数形式呈现这个图形。
清洗推文的预处理过程在所有收集的时间线上遵循一致的方法。考虑到重点是文本的预测能力,包含自包含推文之外的链接信息的推文,主要是非语言元素(即url、用户名和转发信息)被系统地删除了。例如,包含“www.t.co”、“cnn.com”、“@username”和“RT @username”等元素的推文将从集合中删除。虽然转发文本可以提供用户通过Twitter与之互动的个人和/或组织的信息,但由于速率限制(即Twitter限制了我们在15分钟内可以进行的搜索次数),我们无法包括所有使用Twitter API的转发消息。通过系统地从研究中删除那些短于85个字符的用户时间线(由用户聚合的推文),删除了包含很少信息的用户时间线。为了选择这个字符阈值,我们随机选取了不同长度的时间线,观察到时间线短于85个字符通常包含的单词数小于15个,这为准确分类提供的信息很少。这些预处理方法给我们留下了19,818,236条推文,属于用于分析的779,653个独特用户的时间轴。
本文提出的用户种族分类方法依赖于监督学习分类方法[
单个tweet很短,通常没有什么信息,对于识别用户配置文件信息几乎没有分类潜力。这导致我们检查用户的时间轴,而不是单个的推文,通过提取由用户活动的更深层信息组成的特征来提高分类方法的准确性。在10个月的数据收集期内,用户的推文被分解成包含他们提交推文的时间顺序的时间线。这提供了一个更大的文本源,用于识别表明给定用户种族的描述性元素。
在以前的工作中描述的基线分类模型[
在构建基线分类器时[
潜狄利克雷分配[
我们使用十倍交叉验证来检验模型的准确性。标记的数据集被分成十个大小相同的箱子。10个箱子中的9个用来训练模型,而剩下的箱子用于测试。我们对箱子进行了十次迭代,每次迭代都保留一个新的箱子用于测试。由于数据集的不平衡性,我们选择了两个评估指标。首先,对于每个种族,我们计算平衡精度(式a,
平衡和整体准确性问题。
本研究所有统计分析均采用R统计软件包进行。为了衡量组间观察到的差异的统计学意义,
为了评估种族和民族分类的成功,我们比较了同义词扩展文本分类的准确性与基于主题的方法(
文本分类与同义词扩展模型分类及准确率结果。
种族和民族 | % | |
平衡精度 |
|
|
|
高加索人 | 88.87 |
|
非裔美国人 | 81.26 |
|
亚洲 | 72.32 |
|
拉美裔 | 69.07 |
总体精度 |
|
|
|
所有组 | 76.07 |
|
白人和非裔美国人 | 88.30 |
|
|
|
混淆矩阵。
分类 | 参考,n | |||
高加索人 | 非裔美国人 | 亚洲 | 拉美裔 | |
高加索人 | 1067 | 117 | 49 | 71 |
非裔美国人 | 890 | 1286 | 337 | 380 |
亚洲 | 26 | 10 | 39 | 35 |
拉美裔 | 7 | 7 | 25 | 54 |
考虑到较高的整体准确性,以及白人和非洲裔美国人用户的高准确性,我们选择了同义词扩展方法来分类集合中剩余的未标记用户。此外,出于多种原因,我们选择将亚裔和西班牙裔用户排除在本研究之外。首先,用户宣称属于这些种族的人口规模明显小于白种人和非洲裔美国人。此外,我们认为我们可能排除了一些亚洲和西班牙裔用户,将推文集合限制为只使用英语的推文。这些并发症的组合(人口规模小和只使用英语的推文的限制)可能是这些群体准确性下降和随后被排除在研究之外的原因。
在这项研究中,我们建立并测试了一种系统的方法来检测Twitter用户的种族。使用更准确的方法,同义词扩展的文本分类,我们在由779,653个独特用户发布的19,818,236条推文组成的集合中检测并分配了所有用户的种族。推文根据发布日期分为9个月,其中5月和7月的部分内容以及6月的全部内容由于系统故障而丢失。计算了各种描述性统计数据来描述从数据集中提取的健康影响。
如
研究期间每个月的独特活跃Twitter用户的种族和民族分布情况。
月 | 种族和民族,n (%) | 总计 | |||
非裔美国人 | 高加索人 | 亚洲 | 拉美裔 |
|
|
4月 | 49104 (9.72) | 452924 (89.64) | 1289 (0.25) | 1935 (0.38) | 505252年 |
五月一个 | 40956 (12.76) | 277169 (86.36) | 1177 (0.37) | 1646 (0.51) | 320948年 |
7月一个 | 43349 (9.58) | 405185 (89.57) | 1661 (0.37) | 2191 (0.48) | 452386年 |
8月 | 54740 (7.91) | 632687 (91.47) | 1820 (0.26) | 2466 (0.36) | 691713 |
9月 | 52224 (10.16) | 457300 (89.02) | 1789 (0.35) | 2417 (0.47) | 513730年 |
10月 | 50120 (11.07) | 398440 (88.02) | 1763 (0.39) | 2371 (0.52) | 452694年 |
11月 | 50060 (10.80) | 409125 (88.30) | 1762 (0.38) | 2370 (0.51) | 463317年 |
12月 | 48247 (11.20) | 378412 (87.86) | 1727 (0.40) | 2292 (0.53) | 430678年 |
1月 | 30707 (15.62) | 162682 (82.75) | 1435 (0.73) | 1780 (0.91) | 196604年 |
一个由于系统故障,2014年5月13日至2014年7月24日的推文未被保留。
这项研究的重点是社交媒体对特定部位癌症的关注以及种族和民族的差异。具体来说,Twitter时间轴检查了以下术语的出现频率:“癌症”、“乳腺癌”、“前列腺癌”、“结直肠癌”和“肺癌”。这些术语是在之前的研究中使用的方法来检测Twitter上关于特定健康话题的讨论[
首先,我们在研究期间的每个月按种族检查用户活动,以了解Twitter术语使用的季节性高峰(
最后,我们检查了在研究期间的每个月里,种族和民族对术语使用的差异
在研究期间的每个月,非裔美国人和白种人之间癌症术语使用的两两差异具有统计学意义一个。
月 | 癌症, |
||||
“癌症” | “乳腺癌” | “前列腺癌” | “直肠癌” | “肺癌” | |
4月 | 0.00003 | 0.053025 | 0.014894 | 0.025347 | 0.080356 |
五月 | 0.008194 | 0.584394 | 0.122251 | 0.095581 | 0.510364 |
7月 | 0.013599 | < 0.0001 | 0.006656 | 0.157299 | 0.890133 |
8月 | < 0.0001 | 0.001168 | 0.157209 | 0.312076 | 0.165111 |
9月 | < 0.0001 | 0.00007 | 0.017132 | 0.157299 | 0.013196 |
10月 | < 0.0001 | < 0.0001 | 0.242175 | 0.974206 | 0.000162 |
11月 | < 0.0001 | < 0.0001 | 0.027708 | 0.014306 | 0.000631 |
12月 | 0.000266 | 0.000001 | 0.027575 | 0.317311 | 0.000067 |
1月 | 0.241671 | 0.00945 | 0.1573 | 0.083265 | 0.91944 |
一个每个用户的总词汇使用量是通过计算他们的时间轴中癌症词汇出现的频率来计算的。
按种族/民族划分的癌症术语月频率(非裔美国人,左轴;白人(右轴),以及所有Twitter用户(右轴)。癌症术语包括“癌症”(左上)、“乳腺癌”(右上)、“前列腺癌”(左下)和“肺癌”(右下)。值得注意的是,在癌症宣传月(前列腺癌宣传月[PCAM, 9月]、乳腺癌宣传月[BCAM, 10月]和肺癌宣传月[LCAM, 11月])之后,癌症宣传月人数急剧下降,特别是在非洲裔美国人中。这两组在意识几个月后都恢复到较低的频率;然而,这种观察在非裔美国人中更为普遍,特别是在BCAM之后。
在这项研究中,我们在2014年9个月的时间里观察了Twitter用户对特定癌症术语的媒体关注的有趣模式。我们一般关注癌症,特别是乳腺癌、前列腺癌和肺癌,它们是美国男性和女性的主要癌症,我们观察到在特定的癌症宣传月期间和之后,术语使用频率的一些变化,特别是9月(前列腺癌宣传月[PCAM])、10月(乳腺癌宣传月[BCAM]和11月(肺癌宣传月[LCAM])。有趣的是,结直肠癌是男性和女性的第三大常见癌症[
总的来说,我们发现白人和非洲裔美国用户中“癌症”的提及频率在季节性增减方面是相似的,尽管与白人群体相比,非洲裔美国人在这一广义术语的正常化推文频率中保持了更高的百分比。就提到“乳腺癌”的频率而言,在研究期间的所有月份里,白人用户的使用率始终较高。正如预期的那样,在BCAM期间,这个术语的使用频率最高,在接下来的几个月里急剧下降,最终恢复到BCAM之前观察到的水平。白种人和非裔美国人都是如此;然而,在BCAM之后,非裔美国人在推特上提到“乳腺癌”的次数急剧下降。
这可能是未来干预措施的重点领域,旨在全年提高对乳腺癌的认识,这可能有助于增加知识,提高指南内筛查率,并在疾病负担过重的群体中增加预防活动。例如,由#bcsm(“乳腺癌社交媒体”)社区主持的每周推特聊天已被证明可以提高患者的意识,减少患者的医疗焦虑[
在PCAM期间,与非裔美国人相比,白种人讨论前列腺癌的频率要高得多。在7月和1月,在白人用户中,我们观察到前列腺癌讨论的最低水平。相反,在非裔美国人中,从8月到1月,我们观察到前列腺癌的讨论稳步下降。在PCAM之后,我们观察到两组中“前列腺癌”一词的使用频率都有所下降;然而,这些下降比其他癌症宣传活动观察到的下降要慢。例如,在检查术语“肺癌”的使用频率时,我们观察到在11月(LCAM)达到峰值,然后急剧下降到低于LCAM之前几个月观察到的水平。
癌症宣传月活动之后的几个月也有有趣的发现。虽然宣传月活动(如PCAM, BCAM, LCAM)在促进围绕各种癌症主题的讨论方面可以被认为是成功的,但我们的研究结果表明,在特定的癌症宣传月期间,通过Twitter提到的癌症术语证明,这些活动似乎没有保持长期的兴趣和讨论。在检查乳腺癌的讨论频率时,这一现象尤其明显,但在肺癌和前列腺癌的社交媒体活动中也存在。事实上,我们的研究结果表明,与前几个月相比,种族和民族群体在宣传活动后往往会回到较低的参与度状态。值得注意的是,这种讨论频率的减少似乎在少数群体中更为普遍。例如,与项目前几个月相比,非裔美国人在BCAM项目后一个月的参与人数减少了73%。在白种人中,我们也看到了参与度的下降,我们观察到只有47%的下降。与LCAM相似,我们观察到非洲裔美国人的发病率下降了50%,而白种人的发病率下降了25%。最后,在大肠癌的讨论方面,我们发现在整个研究的几个月里,参与者很少。这可能是营销不力或某些人群对该话题的禁忌性质的表现,以及由于我们的数据收集系统的技术问题,在结直肠癌宣传月(CRCAM)期间缺乏推文的收集。
参与人数的下降可能与媒体曝光和框架有关,这两种媒体效应是由健康的结构性决定因素(如社会经济地位、种族、民族)介导的[
随着社交媒体的日益普及以及它所提供的以前无法获得的个人见解,社交媒体挖掘为流行病学研究提供了新的机会和方法。现有的研究考察了社交媒体对健康的影响,如之前的工作所示[
本研究存在一定的局限性,应予以考虑。首先,我们的研究结果只提供了所有推文的一瞥,这些推文集中在一年内没有私人推特账户的用户的癌症特定主题上。因此,人们很可能低估了通过Twitter讨论癌症的频率。与此相关的是,有可能由于我们在用户中选择了关键字或使用了替代术语和/或某些单词的拼写,而错过了感兴趣的推文。根据我们选择检查的关键词,我们可能错过了感兴趣的推文,因此,癌症相关推文的真实频率可能高于我们目前在分析中检查的频率。尽管如此,我们对779,653名独立推特用户以及他们在9个月内发布的推文进行了大规模系统检查,仍然为了解用户与一般或特定癌症主题相关的社交媒体活动提供了有意义的线索。由于这篇稿件的范围和篇幅限制,我们选择使用Twitter用户最关注的癌症术语来报道几个具有代表性的案例研究。通过这些多个案例研究(通常由所提出的方法实现)证明,新方法有望普遍适用于检测、跟踪和比较用户对其他癌症或疾病主题的兴趣。此外,由于我们收集系统的技术问题,我们无法保留从2014年5月中旬到7月底收集的推文,这可能是导致“结直肠癌”一词使用频率非常低的原因。此外,3月CRCAM不在我们的收集期,这也可能是“结直肠癌”一词出现频率较低的原因。 Another possibility is that not all public tweets were delivered from the Twitter public API; but there is no way to determine the likelihood of this possibility. The collection period excluding winter and post-holiday months (late January to March) could potentially miss important patterns that may emerge through the analysis of this time period.
最后,由于一些地区、时间和国家特定的因素可能会对通过Twitter分享或交流的信息内容产生一些影响,我们花了相当大的力气将我们的数据集限制为美国用户。理想情况下,我们希望通过twitter提供的变量来过滤数据集,区分美国用户和非美国用户。然而,由于Twitter不提供这些信息,我们选择采用另一种方法来提取美国用户,即查看用户个人资料的“位置”部分。这是Twitter提供的一个文本自由区域,用户可以在这里输入纽约或加州旧金山等信息,不包括在个人资料中位于美国以外地区的用户。选择这种方法有以下两个原因:(1)只有一小部分用户提供带有地理标记的推文,(2)很难假设在国际上拍摄的带有地理标记的推文不属于美国公民。推文的地理标记在特定用户的位置上是不同的,因此不能准确地了解用户定义为家的位置。
这项研究表明,社交媒体可以作为一个非常强大和重要的工具,实时向社区实施和传播关键的癌症教育和意识信息。这些发现可以帮助改进未来的社交媒体研究,通过语言差异学习用户的特征,确定用户群体内的趋势,并针对特定群体的健康教育文献。这项研究还引入并测试了一种新的方法,用于在社交媒体用户中识别种族和民族,这为研究种族和民族的风险状况、风险因素和行为提供了独特的机会,并通过针对特定种族和民族群体的有针对性的干预和基于证据的信息传播,对减少差异具有重要意义。
应用编程接口
乳腺癌宣传月
大肠癌宣传月
识别
全球定位系统
肺癌宣传月
潜在狄利克雷分配
前列腺癌宣传月
社会经济地位
这项研究得到了美国国立卫生研究院国家癌症研究所的资助(R01 CA170508)。这项工作也得到了美国国家癌症研究所癌症中心支持基金(P30 CA072720)的部分支持。
本手稿的内容仅为作者的责任,并不一定代表美国国家癌症研究所或美国国立卫生研究院的官方观点。
没有宣布。