这是一篇根据知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在JMIR公共卫生与监测上,并适当引用。必须包括完整的书目信息,到http://publichealth.www.mybigtv.com上原始出版物的链接,以及版权和许可信息。
公开的健身推文可以提供有用的、深入的见解,了解一个人的体育活动的实时情绪,并通过在线影响为其他人提供动力。
这种使用健身Twitter数据集的实验方法有两个目的:(1)确定活动推文的类型(锻炼或锻炼+,其中包含与锻炼推文相同的信息,但有额外的用户生成信息)、性别和Klout Score衡量的在线影响力之间是否存在相关性;(2)通过查看Twitter上实时分享的关于他们的身体活动体验和相关移动健身应用程序的想法,来检查活动编码的健身推文的情绪。
健身推文数据集包括人口统计和活动数据点,包括活动分钟数、Klout评分、每条健身推文的分类、每个健身推文用户的名字以及推文本身。每个健身推特用户的性别是通过与美国社会保障局的名字和性别数据库进行比较来确定的。
在184天的时间里,用23种不同的语言收集了2856534条推文。然而,为了本研究的目的,仅从活动推文中分析英语推文,总共有583,252条推文。在根据社会保障局(Social Security Administration)的名字数据库为Twitter用户名分配性别后,研究人员确定了性别和Klout影响对Twitter用户活动分钟数的分析。在四个移动应用程序中共享锻炼数据的人的Klout平均分为20.50(13.78标准差),低于一般Klout平均分40,也低于第95百分位的Klout平均分(40比63)。随着Klout评分的增加,整体健身+推文的数量有所减少。在情绪方面,与健身相关的推文被确定为“锻炼+”,反映出对体育活动的积极情绪,比例为4:1。
这项研究的结果表明,通过Twitter分享锻炼的移动健身应用用户的Klout评分低于普通Twitter用户,而选择分享额外锻炼见解的用户的情绪更积极,而不是消极。我们提出了一种新的视角,从移动健身应用程序中发送体育活动信息,然后在Twitter上分享。通过超越数字,评估Twitter用户和与体育活动相关的情绪,未来的研究可以分析用户的在线影响力、体育活动的乐趣之间的其他关系,并通过额外的分析来确定健身应用的长期留存策略。
体育活动可以降低许多不同类型的慢性疾病的风险,并可以帮助人们保持健康的体重。尽管这一知识广为人知,但许多国家的成人和儿童并没有达到建议的运动量[
其中一项创新是使用移动健身应用程序,并通过社交网络分享自己的锻炼情况。本文将重点关注通过移动健身应用程序收集自我报告的健身数据,然后通过Twitter与社交网络共享。这些推文的数据集以及其他相关的人口统计信息数据集允许进行许多分析,包括但不限于此类推文的潜在影响和这些推文的情绪。通过将人们通过移动电话互动时的数字痕迹与新兴技术相结合,现在可能提供新的方法来客观地评估一系列因素,并以最小的费用和负担给参与者[
社交媒体改变了社会接触信息的方式[
与此同时,这些公开共享的数据产生了庞大且不断增长的用户贡献的数据存储库[
使用Twitter与移动健身应用程序的集成可以以无创的方式获得描述性和预测性的实时共享健康信息,这是一个有用的工具。新的和创新的基于云的数据收集和分析工具可能有助于研究工作,因为它们可以在短时间内产生大量的推文。它们也可用于纵向数据收集[
情感分析是一个分类过程,其主要重点是预测单词的极性,然后将这些单词分类为积极,消极或中性,目的是确定态度和意见[
对Twitter数据的挖掘提供了一个丰富的信息数据库,其中包含人们对各种健康话题的想法和情绪,包括体育活动。使用Twitter分析社交网络数据已经成为一种强大的工具,目前被用于回答卫生领域的研究问题,包括地方和国家流感监测。
在一次体育活动结束后立即评估个人情绪的能力是很强大的。一条典型的推文可能包括所进行的运动类型、运动的持续时间和强度,以及人们在活动期间和之后的感受。如果情绪是消极的(例如,“刚刚爬到皮斯加山顶。花了我两个小时,我完全累坏了。别以为我还会那么做!#myfitnesspal”),教练或培训师可以干预并相应地修改活动。找到令人愉快且强度合适的运动是长期坚持的重要前提。行为研究人员认为,一个人的情绪可以深刻地影响个人行为和决策[
其他研究报告称,当健身推广者在twitter上发起#浮游生物挑战(旨在鼓励核心强化锻炼)时,72%的用户连续参与了至少30天,在挑战结束时,他们报告了这项活动的乐趣增加,并表示有兴趣继续做腹部锻炼。
在对可以收集和管理推文的在线工具进行审查后,一个名为TwapperKeeper的开源程序被认为是Twitter数据收集工具的合适人选。TwapperKeeper是一个网络应用程序,旨在通过Twitter收集社交媒体数据,以进行长期存档和分析。该应用程序使用支持Twitter的应用程序接口(API),作为Twitter搜索功能和用于tweet存储的云数据库之间的接口[
在这项研究中,我们选择了四个移动健身应用程序,基于它们在iPhone上的可用性,移动健身应用程序通过Twitter分享锻炼信息的能力,以及它们针对初学者和有经验的锻炼者的事实。研究团队使用这些标准来缩小可能的选择范围,并对以前使用过的应用程序进行了额外的学术研究,研究了不同移动健身应用程序的公开评论,采访了移动健身应用程序的开发人员和用户,以获得他们的意见,并以小组形式会面,最终确定所选择的移动健身应用程序进行研究[
入选的四款应用分别是Endomondo、Nike+、RunKeeper和DailyMile。然后从移动健身应用程序中收集推文,使用以下标签:#endomondo, #nikeplus, #runkeeper和#dailymile。之所以使用这些标签,是因为这些应用会自动将这些标签附加到一条推文上,以表明它来自特定的移动健身应用。通过这些标签,Twitter上可以对共同的主题或信息进行分组。
TwapperKeeper的数据收集持续了184天。在此期间,以23种不同的语言收集了2,856,534条用户生成的移动健身应用推文。这项研究中的Twitter数据是公开的,并且该研究被认为不需要对人类受试者进行审查。这项研究得到了爱尔兰戈尔韦国立大学机构审查委员会的批准。
对从四个移动健身应用程序收集的推文数据集进行了两项分析。第一个是通过Klout评分来衡量Twitter用户的在线影响力。第二个是衡量与体育活动相关的推文的情绪。
在分析报告体育活动的推文时,要考虑的一个重要因素是发送推文的人的可信度和权威性。以前的数据收集者关注的是Twitter用户的关注者数量,但研究人员发现,监控转发和消息本身是一个更好的预测工具。
Klout等网站已经开发出了确定用户在社交媒体上的影响范围或影响力的方法。Klout评分衡量的是一个人的整体在线影响力,得分范围从1到100;分数越高,代表着更广泛、更强大的影响范围。分数超过50分是罕见的[
像Klout这样的在线影响力服务正在对数百万甚至数十亿人的影响力进行评分。对支持者来说,衡量网络影响力是一个鼓舞人心的工具,它鼓励了影响力的民主化,一个人不再必须是名人、政治家或媒体人才能被认为有影响力。
在这个实验方法中,用户的Klout分数——一种衡量他们在线影响力的指标——被用来比较来自移动健身应用程序的共享体育活动水平。
在这个实验中,我们研究了移动健身应用程序(Nike+、RunKeeper、DailyMile和Endomondo)中健身推文的分享情况,并根据参与者的性别和在线影响力(通过Klout评分来衡量)分析了这些数据。我们从数据集中确定了两种类型的活动推文:锻炼推文,其中包括由移动健身应用程序生成的推文,以及锻炼+推文,其中包括与锻炼推文相同的信息,但也包含用户创建的通信。我们假设Klout得分较高的人会分享更少的活动时间和更多的整体锻炼+推文。我们还假设,无论男女,Klout得分越高,共同运动的时间越短。
健身推文分类模型。
这项研究的数据来自现有的健身推文数据集,这些推文来自移动健身应用程序用户,他们在推特上分享自己的体育活动,在某些情况下,还会在推特上进行额外的对话。在184天的时间里,用23种不同的语言收集了2856534条推文。然而,为了本研究的目的,仅从活动推文中分析英语推文,总共有583,252条推文。
健身推文分类模型[j]
从移动健身应用程序和每个相应的Twitter账户收集的不同类型的信息提供了许多不同且独特的数据点供审查。在这个实验中,这些数据点包括活动推文、用户的性别、体育活动的分钟数和用户的Klout分数。从四个选定的移动健身应用程序中对Twitter上的身体活动进行统计分析是在SAS 9.3中进行的,SAS 9.3是由SAS研究所开发的高级分析、商业智能和预测分析软件套件,使用两个关键数据集:(1)第一个数据集包括所有Twitter用户发送的与锻炼和锻炼+相关的推文的用户信息;(2)第二个数据集包含每个用户发送的所有实际推文。
在活动推文中,锻炼+推文共有408574条。从这个总数中,随机创建了23,391个样本。这些推文是用户生成的,最终用户为健身推文提供额外的文本(即,用户提供的补充信息超出了应用程序本身创建的信息)。然后根据移动健身应用程序使用相应的标签对推文进行分组。健身推文中没有大量的表情符号可用于情感分析。
使用AYLIEN Text Analysis for谷歌Sheet插件对每条收集到的信息共享对话推文进行情感分析,并通过Fitness tweets Classification Model进行过滤。
AYLIEN推文情感分析功能分为三个步骤:
预处理:对tweet进行规范化和重新格式化,并剥离被认为与情感无关的部分。
解析:解析tweets并提取其结构、标签和否定。
分类:通过预训练的分类器将tweet分类为正面、负面或中性,并辅以基于词典的方法作为第二裁判。
在本实验中,使用情感分析工具对每条tweet进行分析,并返回积极、中性或消极的值进行分类。将这些数据保存到Excel电子表格中,以便通过将文本值转换为数值(正=1,中性=0,负= -1)进行额外的数据处理。
Twitter不收集用户的性别。为了能够跨性别进行比较,需要一种识别Twitter用户可能性别的方法。为了实现这一点,我们使用美国社会安全管理局的姓名数据库来匹配英文姓名和性别。来自社会保障局网站的姓名数据库收录了自1880年以来按性别排列的流行姓名。
在收集到的Twitter人口统计数据库(Twitter用户的全名是从Twitter收集的众多人口统计特征之一)和社会保障局数据库中进行的第一次性别匹配计算中,剔除了使用次数少于200次的名字,因为许多这样的名字在一个性别中比另一个性别更受欢迎(例如,女孩被命名为Aaron的概率<0.5%)。假设这一调整消除了名字中绝大多数的性别混淆。完成此操作后,使用Excel中的VLOOKUP函数将姓名与性别进行匹配。
对那些名字出现次数少于200次的Twitter用户执行第二次性别匹配计算,其中我们试图将性别分配给在第一轮中不匹配的其余名字。不匹配性别的用户名(<2%)不包括在分析中。
性别分配后,进行描述性统计分析,计算以下频率:(1)按性别划分的总分钟数,(2)按Klout评分划分的总分钟数,(3)按性别和Klout评分划分的总分钟数,(4)推文总数,(5)每条推文锻炼的分钟数,(6)锻炼和锻炼+推文总数(分别)。
为了检验推文的分布,所述推文描述的运动分钟数以及每条推文中提到的类别(锻炼或锻炼+),有必要将用户的Klout分数分成四分位数。我们使用数据分类的四分位数方法来创建类别,将排名有序的数据集分成四个相等的部分。
这是通过SAS中的两步过程完成的。首先,使用SAS (PROC univariate)中的单变量程序检查Klout分数的分布,并根据该分布分配四分位数。其次,使用数据步长,将值1、2、3和4分别分配给第一、第二、第三和第四个四分位数内的观测值(
Klout得分四分位数。
四分位数 | Klout得分 |
100%最大 | 100.00 |
99% | 56.59 |
95% | 49.03 |
90% | 44.09 |
第三季度75% | 35.65 |
50%的中位数 | 20.50 |
第一季度25% | 11.92 |
10% | 10.10 |
5% | 10.00 |
1% | 10.00 |
0%的最低 | 1.00 |
描述性统计分析发现,男性占活动推文总数的57.9%(336,109/583,252),女性占42.1%(247,143/583,252)。这种差异在Klout四分位数中是一致的(
描述性分析扩展到比较男性和女性在活动类别。研究发现,在Klout最低四分位数中,锻炼组的男女发推文的频率都远高于锻炼+组(72.01%,420,010/583,252对27.99%,163,242/583,252)。这种趋势在Klout分数的第二和第三个四分位数中略有下降,然后在Klout分数的最高四分位数中急剧下降。在这个四分位数中,推文的数量变化要小得多(56.79%,70,229/123,656 vs 43.21%, 53,427/123,656)。
使用SAS内的方差分析程序(PROC ANOVA)比较每个性别的推特平均分钟数,使用类语句中的性别,并将模型设置为分钟=性别。研究发现,总体而言,男性和女性发推文的平均分钟数并没有显著差异。然而,在Klout得分最低的四分位数(Klout≤11.92)的女性中,推特的平均分钟数几乎是两倍。
在分配四分位数后,我们使用SAS中的PROC FREQ检查了Klout分数的每个层内的观察频率,如下(
同样使用SAS中的方差分析程序,分析比较了锻炼组(锻炼组与锻炼+组)的推特总分钟数,发现了统计学上显著的差异(
总的来说,原始数据集中有23,391条唯一的tweet符合这个随机样本的过滤标准。这项分析使用了四款移动健身应用:DailyMile、Endomondo、Nike+和RunKeeper。所有移动健身应用的整体情绪表明,这些健身+活动推文中有一半本质上是中性的(
根据活动推特(N=583,252)和性别划分的Klout得分。
四分位数和Klout分数 | 活动推文,n (%) | |
|
男性(n = 336109) | 女(n = 247143) |
1:≤11.92 (n=179,831) | 102007 (56.7) | 77824 (43.3) |
2: >11.93和≤20.50 (n=154,669) | 89822 (58.1) | 64847 (41.9) |
3: >20.51和≤35.65 (n=125,096) | 73394 (58.7) | 51702 (41.3) |
4: >35.65 (n=123,656) | 70886 (57.3) | 52770 (42.7) |
Klout四分位数的锻炼和锻炼+推文。
四分位数和Klout分数 | 健身推文(n= 420010) | 锻炼+推文(n= 163242) | ||||
|
微博, | 分钟(总) | 每条推文平均分钟数(SD) | 微博, | 分钟(总) | 每条推文平均分钟数(SD) |
1:≤11.92 | 143552年 | 6320924年 | 44.05 (97.26) | 36279年 | 1745722年 | 48.12 (128.83) |
2: >11.93和≤20.50 | 118047年 | 5125345年 | 43.42 (65.54) | 36622年 | 1666997年 | 45.53 (91.67) |
3: >20.51和≤35.65 | 88182年 | 4348112年 | 49.32 (324.43) | 36914年 | 1694811年 | 45.91 (104.47) |
4: > 35.65 | 70229年 | 2897436年 | 41.26 (54.97) | 53427年 | 2550963年 | 47.75 (285.42) |
各锻炼组按性别的锻炼时间和Klout评分。
四分位数和Klout分数 | 男性 | 女 | |||||
|
推文(男性总数的百分比) | 分钟(总) | 每条推文平均分钟数(SD) | 推文(女性总数百分比) | 分钟(总) | 每条推文平均分钟数(SD) | |
|
241254年 | 10935339年 | 45.33 (48.10) | 178756年 | 7756479年 | 43.40 (96.69) | |
|
1:≤11.92 | 81503 (33.78) | 3528992年 | 43.33 (48.10) | 62049 (34.71) | 2791932年 | 45.00 (137.26) |
|
2: >11.93和≤20.50 | 67666 (28.05) | 2942049年 | 43.48 (56.45) | 50381 (28.18) | 2183296年 | 43.34 (76.06) |
|
3: >20.51和≤35.65 | 51863 (21.50) | 2811512年 | 54.21 (420.74) | 36319 (20.32) | 1536600年 | 42.33 (51.54) |
|
4: > 35.65 | 40222 (16.67) | 1652786年 | 41.09 (49.08) | 30007 (16.79) | 1224650年 | 41.50 (61.62) |
|
94855年 | 4437573年 | 46.79 (234.49) | 68387年 | 3220919年 | 47.10 (117.44) | |
|
1:≤11.92 | 20504 (21.62) | 952567年 | 46.46 (114.94) | 15775 (23.07) | 793154年 | 50.28 (144.89) |
|
2: >11.93和≤20.50 | 22156 (23.36) | 1002024年 | 45.24 (85.01) | 14466 (21.15) | 664973年 | 45.97 (101.02) |
|
3: >20.51和≤35.65 | 21531 (22.70) | 983395年 | 45.67 (112.10) | 15383 (22.49) | 711416年 | 46.25 (98.06) |
|
4: > 35.65 | 30664 (32.33) | 1499587年 | 48.90 (362.80) | 22763 (33.29) | 1051375年 | 46.19 (117.88) |
一个男性和女性在关于锻炼的推特数量上没有显著差异(
b男性和女性在健身+()的推特数量上没有显著差异。
按情感和应用程序划分的tweet总数。
推文和情绪 | 总计 | DailyMile | Endomondo | Nike + | 过程 |
推文总数,n | 23391年 | 9298 | 820 | 3999 | 9284 |
积极情绪,n (%) | 9389 (40.14) | 7097 (76.41) | 211 (25.73) | 418 (10.45) | 1663 (17.91) |
负面情绪,n (%) | 2342 (10.01) | 1392 (14.99) | 51 (6.22) | 350 (8.75) | 549 (5.91) |
中性情绪,n (%) | 11660 (49.85) | 799 (8.60) | 558 (68.05) | 3231 (80.80) | 7072 (76.17) |
移动健身应用的词云。
本研究进一步探索了一种通过Klout影响力评分对健身推文进行分类的新方法。该研究通过使用经过验证的政府数据库进一步按性别分层,该数据库与我们使用精确匹配程序的数据概率匹配。这种性别验证允许对现有数据集的性别细分进行额外分析。数据经过两次匹配标准过滤以提高精度,结果性别匹配率达到97%。尽管我们进行了两次性别匹配,但过去用于性别匹配的过程仍然可能遗漏一些名字,而这些名字在今天比几年前出现得更频繁。由于流行名字的变化频率很高,本研究中的一些性别匹配可能会在几年内失效。
根据目前从五个移动健身应用程序收集的健身推文数据库,Klout得分最高的四分位数包括那些Klout得分为35.65或更高的人。Klout评分可达100分;因此,我们的最高分层可能无法准确代表Twitter平台上最有影响力的人。随后将描述该研究的其他见解。
根据这项研究,男性比女性更频繁地使用Twitter和移动健身应用程序分享他们的锻炼(54.35%,336,109/618/458 vs 45.65%, 282,349/618,458)。尽管我们认为这是第一次对使用Twitter的移动健身应用分享体育活动的性别分析,但之前关于Twitter整体性别使用情况的研究表明,使用Twitter的女性多于男性。
然而,使用第三方软件“人口统计专业”对我们的数据集进行的进一步研究表明,健身推特数据集中的移动健身应用用户平均是30岁出头的男性,通常已婚有孩子,收入高。对那些也在推特上发布自己体育活动的移动健身应用用户的其他见解包括,这一群体最常见的职业是程序员、摄影师、教会领袖、设计师和教师。这个群体的Web开发人员非常集中(在整个Twitter分布中排名前10%)。在业余时间,他们特别喜欢啤酒、政治新闻、葡萄酒、喜剧/幽默和烹饪。这一群体的人慷慨大方,特别注重健康。推特上最受关注的运动包括自行车、滑雪和高尔夫。作为消费者,这一群体相对富裕,消费主要集中在科技、餐饮和健康健身方面。他们最强的品牌包括Apple Store、Trader Joe’s、CrossFit、Trek Bicycle和MyFitnessPal。
通过移动健身应用程序的用户界面,极大地增强了锻炼+推文的共享。当比较四个移动健身应用程序的活动推文总数(锻炼推文加上锻炼+推文)时,最受欢迎的移动健身应用程序是Endomondo(211,240条推文),其次是耐克plus(203,991条推文),DailyMile(183,732条推文)和MyFitnessPal(70,723条推文)。男性和女性的使用排名顺序相同(男性:Endomondo为123482,NikePlus为116388,DailyMile为106846,MyFitnessPal为70723;女性:Endomondo 87,758人,NikePlus 87,603人,DailyMile 76,886人,MyFitnessPal 30,233人。然而,在查看健身+推文时,有很大的差异:97.67%(173,790/177,943)的健身+推文来自DailyMile, 1.89%(3358/177,943)来自NikePlus, 0.44%(776/177,943)来自Endomondo,而MyFitnessPal没有健身+推文。在回顾这四款移动健身应用的用户界面时,很明显,与其他三款移动健身应用相比,DailyMile的设计不仅使分享锻炼更容易,而且还能分享有关锻炼的额外信息。同样在活动推文的评估期间,Endomondo使用了一个名为@addthis的第三方服务来分享锻炼+推文。由于MyFitnessPal没有发布“锻炼+”的推文,我们确定这款应用做出了一个设计决定,不允许用户分享有关他们体育锻炼的额外信息。
在数据集中的113,340名用户中,97.21%(110,186名用户)仅通过一款移动健身应用发布了他们的体育活动,3105名(2.74%)用户使用了两款移动健身应用,101名(0.09%)用户分享了三款移动健身应用,只有一名(0.0009%)用户分享了四款移动健身应用。我们基于对每个用户推文的分析,无法确定应用程序的实际使用情况,只能确定应用程序共享的体育活动数据。我们推测,超过97%的人只使用一款应用的一个原因可能是忠诚度,但其他原因,比如糟糕的用户界面,以及难以将Twitter账户与移动健身应用连接起来,可能也是其他原因。
更好地了解那些分享健身推文的人的在线影响力,可能会带来新的创新方式,通过点对点的影响来鼓励他们的追随者更加积极地锻炼身体,类似于营销机构创建的影响消费者行为的项目。与其他与健康相关的研究类似,体育活动研究人员可以监测并试图影响有影响力的Twitter用户发送的体育活动Twitter聊天,这些用户在各种人口群体和年龄范围中都很活跃[
中性推文的数量相对较多是意料之中的,因为每个移动健身应用程序都有一个预先确定的结构,限制了用户可以包含的额外信息。还有一个事实是,大多数推文根本不包含可以被分类为积极或消极的单词或短语。随后将描述该研究的其他见解。
我们相信,从移动健身应用中分享一个人的体育活动和额外的评论(为了这项研究的目的,称为锻炼+推文)可以为研究人员提供过去可能难以衡量的新见解。许多移动健身应用程序的设计都允许用户分享一些特征,比如他们和谁在一起、天气类型、体育活动的地点,以及他们对体育活动的直接想法。这些和其他见解将使体育活动研究人员能够更好地了解一个人如何以及为什么参加体育活动的实时原因、想法和情绪。这些数据将使人们更好地了解身体活动的复杂性,然后可以用于增强移动健身应用的设计,作为减少缺乏身体活动的潜在工具。
正是通过分析和解读,来自移动健身应用程序的健身推文上下文提供了对正在被分享的内容、被谁分享以及出于什么原因的洞察。根据收集到的信息类型,可以预期,通过Twitter使用移动健身应用分享的大多数活动都是更结构化的锻炼类型,而不是持续监测日常身体活动。这可能是由于用户手机上的额外电池消耗,这将阻止全天使用该应用程序。此外,推文的结构也表明,这些活动是根据持续时间来衡量的,表明活动如跑步、散步、骑自行车或传统锻炼。由于某些活动tweet的性质,可以提取其他信息,包括实际类型、距离和花费在活动上的时间。在数据库中有可能出现异常值。例如,第一次使用移动健身应用程序可能是用户测试移动健身应用程序,这可能会提示一个持续时间很短的活动(秒而不是分钟)的活动tweet,而当用户没有正确结束他或她的移动健身应用程序活动会话时,很长时间的活动有时会被记录下来。事实上,一些持续时间较长的活动可能是长时间的锻炼。例如,一个为马拉松训练的人会跟踪长距离跑。
根据研究数据,计算了通过Twitter(活动推文)分享锻炼的移动健身应用的一次性用户数量。尽管该研究无法确定一个人是否继续使用移动健身应用程序而决定不通过Twitter分享,但可以确定的是,在所有用户中,17%至27%的用户只使用过一次分享到Twitter的功能,这取决于应用程序。一次性使用可能存在许多原因,包括用户错误,分享功能的实验,或者由选择移动健身应用程序的用户进行测试。从使用移动健身应用程序发布活动并通过Twitter分享的165,768名用户中,数据库包含了6个月期间的76,192,059分钟的活动。这些分钟相当于52911天,1738个月,或者超过145年的活动分钟总和。我们无法确定这项体育活动是否是每个用户在这段时间内唯一进行的体育活动,因为我们可以理解,用户可能在没有使用移动健身应用的情况下完成了体育活动。
这些发现和解释应被视为探索性和推测性的,因为它们代表了在较短的开发时间内可以做的事情,并且对于非计算机编程的健康促进研究人员来说很容易使用。
这项研究有许多局限性。利用外部数据(在这个例子中是美国政府)来确定每个用户的性别,给错误留下了余地。
这项研究是使用Twitter firehose进行的,它允许收集所有公开可用的tweet。虽然我们对这个数据收集过程很有信心,但如果不花钱购买所有的推文,就没有办法验证它。在通过数据挖掘和知识发现从这些存储库中提取有用数据方面也存在挑战[
社交媒体的使用一直在稳步增长,从2005年占美国人口的5%到2015年接近70%。随着越来越多的美国人采用社交媒体,其用户群也越来越能代表更广泛的人口;然而,它仍然是最年轻的群体使用[
随着社交媒体和新兴技术的发展,使用社交媒体和新兴技术来研究体育活动以及可能缺乏体育活动的情况继续增加。先前的研究显示了对社会环境对健康结果的不利影响的特定特征的兴趣[
之前关于科技通过社交媒体对体育活动的作用的研究缺乏对社交媒体对体育活动影响的各个方面的研究。一些研究关注的是行为改变的挑战,包括自我监控、目标设定和解决问题的策略[
类似的推断性别的方法包括使用基于性别的词典[
我们创建了一个非常强大的工具,通过从Twitter上收集体育活动数据来进行大规模研究,但这项研究中使用的人口统计数据可能表明,在移动健身应用程序用户的细分方面存在偏见,因此无法代表某些群体。如果研究人员希望使用Twitter和移动健身应用程序进行体育活动研究,则需要采取额外的步骤,以确保在所收集的数据样本中代表所有群体。除了技术上的限制,道德上的挑战也同样具有挑战性。虽然推文被认为是公开的,但它们可能包含许多人认为是“私人”的信息,因为可能对感知到的受众(用户的Twitter关注者)和实际受众(数据研究人员)有误解[
面向消费者的健康可穿戴设备(如Fitbit、Garmin)也可以与在线社交网络共享身体活动数据,这将是一个值得未来研究的话题。通过使用这些持续监测身体活动的跟踪设备,可以获得更全面的全天身体活动情况。这与移动健身应用数据形成鲜明对比,后者通常是在传统的“锻炼”(如散步、跑步、骑自行车)之后收集和共享的。本文提出的相同的数据收集和分类模型可以在最小的变化下使用。关于在线影响力,其他工作可以使用在线影响力的替代衡量标准,而不是Klout。
这项研究分析了通过Twitter从五个不同的移动健身应用程序收集的公开分享的体育活动数据。从这个数据集中,对数据进行了两次分析,以突出在体育活动研究中使用这类数据的独特能力。第一项分析将用户分为四个四分位数,代表他们的在线影响力,这是由Klout计算出来的,也是一种为每个Twitter用户分配性别的方法。分析表明,男性比女性更多地分享他们的健身推文,与包含用户评论的推文(健身推文)相比,男性和女性在推特上的分享更多的是基本的体育活动数据(健身推文),并且男性和女性的推文没有显著差异。第二项分析是对健身+的推文进行的,结果显示,在所有应用程序中,大多数分享的推文都是中性的,但对于那些有情绪的人来说,积极的推文是消极的推文的四倍。
该项目得到了爱尔兰科学基金会(资助号SFI/08/CE/I1380和SFI/12/RC/2289)和爱尔兰研究委员会的支持。
没有宣布。