卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JPH

公共卫生监测

公共卫生和监测

2369 - 2960

卡塔尔世界杯8强波胆分析

加拿大多伦多

v3i4e82

29089294

10.2196 / publichealth.8507

原始论文

健身推文的网络影响力与情感——两百万条健身推文分析

Eysenbach

冈瑟

Gravish

罗莉

透露

Judie

Vickey

西奥多。

MBS 1

戈尔韦爱尔兰国立大学工程与信息学院

努伊高威

大学路

戈尔韦，H91 TK33

爱尔兰 353 858 859 7111 ted.vickey@gmail.com

http://orcid.org/0000-0002-2936-8023

布雷斯林

约翰G

博士学位 1

http://orcid.org/0000-0001-5790-050X

¹ 工程与信息学院戈尔韦爱尔兰国立大学

高威

爱尔兰 ² 运动学系洛马角大学

圣地亚哥，加州

美国

通讯作者:Theodore Vickey ted.vickey@gmail.com

Oct-Dec 2017

31 10 2017

3. 4

e82

18 7 2017 3. 8 2017 11 9 2017 23 9 2017

©Theodore Vickey, John G. Breslin。最初发表于JMIR公共卫生与监测(http://publichealth.www.mybigtv.com)， 2017年10月31日。

2017

这是一篇根据知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在JMIR公共卫生与监测上，并适当引用。必须包括完整的书目信息，到http://publichealth.www.mybigtv.com上原始出版物的链接，以及版权和许可信息。

背景

公开的健身推文可以提供有用的、深入的见解，了解一个人的体育活动的实时情绪，并通过在线影响为其他人提供动力。

客观的

这种使用健身Twitter数据集的实验方法有两个目的:(1)确定活动推文的类型(锻炼或锻炼+，其中包含与锻炼推文相同的信息，但有额外的用户生成信息)、性别和Klout Score衡量的在线影响力之间是否存在相关性;(2)通过查看Twitter上实时分享的关于他们的身体活动体验和相关移动健身应用程序的想法，来检查活动编码的健身推文的情绪。

方法

健身推文数据集包括人口统计和活动数据点，包括活动分钟数、Klout评分、每条健身推文的分类、每个健身推文用户的名字以及推文本身。每个健身推特用户的性别是通过与美国社会保障局的名字和性别数据库进行比较来确定的。

结果

在184天的时间里，用23种不同的语言收集了2856534条推文。然而，为了本研究的目的，仅从活动推文中分析英语推文，总共有583,252条推文。在根据社会保障局(Social Security Administration)的名字数据库为Twitter用户名分配性别后，研究人员确定了性别和Klout影响对Twitter用户活动分钟数的分析。在四个移动应用程序中共享锻炼数据的人的Klout平均分为20.50(13.78标准差)，低于一般Klout平均分40，也低于第95百分位的Klout平均分(40比63)。随着Klout评分的增加，整体健身+推文的数量有所减少。在情绪方面，与健身相关的推文被确定为“锻炼+”，反映出对体育活动的积极情绪，比例为4:1。

结论

这项研究的结果表明，通过Twitter分享锻炼的移动健身应用用户的Klout评分低于普通Twitter用户，而选择分享额外锻炼见解的用户的情绪更积极，而不是消极。我们提出了一种新的视角，从移动健身应用程序中发送体育活动信息，然后在Twitter上分享。通过超越数字，评估Twitter用户和与体育活动相关的情绪，未来的研究可以分析用户的在线影响力、体育活动的乐趣之间的其他关系，并通过额外的分析来确定健身应用的长期留存策略。

推特体育活动移动健身应用健身推文分类情绪

介绍

体育活动可以降低许多不同类型的慢性疾病的风险，并可以帮助人们保持健康的体重。尽管这一知识广为人知，但许多国家的成人和儿童并没有达到建议的运动量[ 1]。体育活动监测方面的最新进展现在为研究人员提供了前所未有的机会，通过评估每天的活动量、模式和趋势，增加和改进我们对体育活动对健康益处的理解[ 2]，以及对身体活动的实时感受。研究表明，科技是导致久坐行为增加和体育活动减少的一个因素，但它也导致了一些创新的体育活动干预[ 1]。

其中一项创新是使用移动健身应用程序，并通过社交网络分享自己的锻炼情况。本文将重点关注通过移动健身应用程序收集自我报告的健身数据，然后通过Twitter与社交网络共享。这些推文的数据集以及其他相关的人口统计信息数据集允许进行许多分析，包括但不限于此类推文的潜在影响和这些推文的情绪。通过将人们通过移动电话互动时的数字痕迹与新兴技术相结合，现在可能提供新的方法来客观地评估一系列因素，并以最小的费用和负担给参与者[ 3.]。本文将对共享健身推文的潜在网络影响力和情感进行综述。

社交媒体改变了社会接触信息的方式[ 4]。像Twitter这样的社交网站已经发展成为公众分享思想、想法和观点的越来越有用的平台。Twitter是一个免费的社交网络平台，在全球范围内被企业和个人广泛使用，被认为是使用最广泛的微博平台之一，每月有3.28亿活跃用户，每月有超过10亿次独立访问嵌入tweet的网站，其使命是“让每个人都能毫无障碍地即时创造和分享想法和信息”。 5]。Twitter用户可以使用140个字符或更少的信息，快速直接地与大量受众分享并做出回应。随着Twitter等新发展技术的创造和采用，现在有了获得全球健康数据的新机会，这些数据可以绕过人口健康和体育活动研究中使用的传统数据源的限制[ 3.]。

与此同时，这些公开共享的数据产生了庞大且不断增长的用户贡献的数据存储库[ 6]。Twitter提供用户生成的数据，可以收集和分析，以检查有关健康焦点的意见，包括关于体育活动、酒精和大麻使用、抑郁和自杀的讨论[ 3.]。从健康促进的角度来看，这些数据可以用来衡量参与者对社会支持的依赖程度，因为今天的锻炼者与他们的朋友和家人相比，即使不是更多，也一样可能从社交媒体(尤其是twitter)上寻求动力和认可。 7]。因为可以从tweet中收集精确的信息，包括tweet的时间和用户的位置，这表明140个字符的消息可以在其他领域进行预测，例如用户参与的体育活动类型以及他们参与这些活动的地点和时间。

使用Twitter与移动健身应用程序的集成可以以无创的方式获得描述性和预测性的实时共享健康信息，这是一个有用的工具。新的和创新的基于云的数据收集和分析工具可能有助于研究工作，因为它们可以在短时间内产生大量的推文。它们也可用于纵向数据收集[ 8]。随着越来越多的用户通过Twitter等社交媒体服务公开分享他们从设备和应用程序中收集的数据，公共健康和健身数据源之间的联系成为可能[ 9]。增强对移动健身应用的理解，通过社交网络分享体育活动，不同类型的测量属性，以及随后生成的数据，对于进一步了解日常体育活动至关重要。

情感分析是一个分类过程，其主要重点是预测单词的极性，然后将这些单词分类为积极，消极或中性，目的是确定态度和意见[ 10]。具体到Twitter，情感分析是自动识别和提取推文主观信息的任务。这种数据分析方法越来越受到web挖掘社区的关注[ 11]。尽管Twitter为公众分享的观点提供了极具价值的见解，但它也带来了新的大数据挑战，包括处理大量数据和识别短文本消息中的人类表达能力[ 11]。现有的关于文本信息处理的研究大多集中在事实信息的挖掘和检索上，很少有关于意见处理的研究[ 12]。

对Twitter数据的挖掘提供了一个丰富的信息数据库，其中包含人们对各种健康话题的想法和情绪，包括体育活动。使用Twitter分析社交网络数据已经成为一种强大的工具，目前被用于回答卫生领域的研究问题，包括地方和国家流感监测。 13]，癌症患者之间的信息共享[ 14]，青少年吸食大麻的情况[ 15]，以及药物安全监察[ 16]。据我们所知，这篇论文是对移动健身应用中针对体育活动的共享推文的首次分析。很大一部分推文包含了关于本研究中四个移动应用程序共享的体育活动的非中立情绪。

在一次体育活动结束后立即评估个人情绪的能力是很强大的。一条典型的推文可能包括所进行的运动类型、运动的持续时间和强度，以及人们在活动期间和之后的感受。如果情绪是消极的(例如，“刚刚爬到皮斯加山顶。花了我两个小时，我完全累坏了。别以为我还会那么做!#myfitnesspal”)，教练或培训师可以干预并相应地修改活动。找到令人愉快且强度合适的运动是长期坚持的重要前提。行为研究人员认为，一个人的情绪可以深刻地影响个人行为和决策[ 17]。简单地说，推特可以是实时提供真实情感的窗口。

其他研究报告称，当健身推广者在twitter上发起#浮游生物挑战(旨在鼓励核心强化锻炼)时，72%的用户连续参与了至少30天，在挑战结束时，他们报告了这项活动的乐趣增加，并表示有兴趣继续做腹部锻炼。 18]。这表明推特和其他社交网络在传播运动意识和鼓励积极的运动行为方面是有用的。总之，这些信息有助于研究如何利用技术来监测和激励体育活动，以及在线社交网络如何在促进体育活动和坚持体育活动方面发挥作用。识别使用移动健身应用程序的用户类型，找到跟踪他们做什么并激励他们继续从事体育活动的方法，是对这一“客户群”的一种数据挖掘。

方法推文集合

在对可以收集和管理推文的在线工具进行审查后，一个名为TwapperKeeper的开源程序被认为是Twitter数据收集工具的合适人选。TwapperKeeper是一个网络应用程序，旨在通过Twitter收集社交媒体数据，以进行长期存档和分析。该应用程序使用支持Twitter的应用程序接口(API)，作为Twitter搜索功能和用于tweet存储的云数据库之间的接口[ 19]。

在这项研究中，我们选择了四个移动健身应用程序，基于它们在iPhone上的可用性，移动健身应用程序通过Twitter分享锻炼信息的能力，以及它们针对初学者和有经验的锻炼者的事实。研究团队使用这些标准来缩小可能的选择范围，并对以前使用过的应用程序进行了额外的学术研究，研究了不同移动健身应用程序的公开评论，采访了移动健身应用程序的开发人员和用户，以获得他们的意见，并以小组形式会面，最终确定所选择的移动健身应用程序进行研究[ 20.]。

入选的四款应用分别是Endomondo、Nike+、RunKeeper和DailyMile。然后从移动健身应用程序中收集推文，使用以下标签:#endomondo， #nikeplus， #runkeeper和#dailymile。之所以使用这些标签，是因为这些应用会自动将这些标签附加到一条推文上，以表明它来自特定的移动健身应用。通过这些标签，Twitter上可以对共同的主题或信息进行分组。

TwapperKeeper的数据收集持续了184天。在此期间，以23种不同的语言收集了2,856,534条用户生成的移动健身应用推文。这项研究中的Twitter数据是公开的，并且该研究被认为不需要对人类受试者进行审查。这项研究得到了爱尔兰戈尔韦国立大学机构审查委员会的批准。

对从四个移动健身应用程序收集的推文数据集进行了两项分析。第一个是通过Klout评分来衡量Twitter用户的在线影响力。第二个是衡量与体育活动相关的推文的情绪。

分析1:衡量在线影响力

在分析报告体育活动的推文时，要考虑的一个重要因素是发送推文的人的可信度和权威性。以前的数据收集者关注的是Twitter用户的关注者数量，但研究人员发现，监控转发和消息本身是一个更好的预测工具。 21]。

Klout等网站已经开发出了确定用户在社交媒体上的影响范围或影响力的方法。Klout评分衡量的是一个人的整体在线影响力，得分范围从1到100;分数越高，代表着更广泛、更强大的影响范围。分数超过50分是罕见的[ 22]。Klout评分不太强调用户的关注者数量和推文数量，而是衡量用户的内容被转发的程度[ 23]。一个人在推特上的影响力很难准确衡量。Klout使用3600多个特征来捕捉用户的在线社交网络活动，进行影响分析并计算Klout评分[ 24]。Klout评分允许对社交媒体使用情况进行量身定制的统计分析，是互联网对一个人生活方式影响的切实证据[ 25]。在影响力方面，互联网用户认为具有高Klout分数的模拟Twitter页面比具有中等或低Klout分数的相同页面更可信[ 26]。

像Klout这样的在线影响力服务正在对数百万甚至数十亿人的影响力进行评分。对支持者来说，衡量网络影响力是一个鼓舞人心的工具，它鼓励了影响力的民主化，一个人不再必须是名人、政治家或媒体人才能被认为有影响力。

招聘

在这个实验方法中，用户的Klout分数——一种衡量他们在线影响力的指标——被用来比较来自移动健身应用程序的共享体育活动水平。

在这个实验中，我们研究了移动健身应用程序(Nike+、RunKeeper、DailyMile和Endomondo)中健身推文的分享情况，并根据参与者的性别和在线影响力(通过Klout评分来衡量)分析了这些数据。我们从数据集中确定了两种类型的活动推文:锻炼推文，其中包括由移动健身应用程序生成的推文，以及锻炼+推文，其中包括与锻炼推文相同的信息，但也包含用户创建的通信。我们假设Klout得分较高的人会分享更少的活动时间和更多的整体锻炼+推文。我们还假设，无论男女，Klout得分越高，共同运动的时间越短。

图1

健身推文分类模型。

这项研究的数据来自现有的健身推文数据集，这些推文来自移动健身应用程序用户，他们在推特上分享自己的体育活动，在某些情况下，还会在推特上进行额外的对话。在184天的时间里，用23种不同的语言收集了2856534条推文。然而，为了本研究的目的，仅从活动推文中分析英语推文，总共有583,252条推文。

健身推文分类模型[j] 20.]用于将每条推文分为活动、花言巧语和对话的主要类别，然后再分为如下所示的子类别图1．

从移动健身应用程序和每个相应的Twitter账户收集的不同类型的信息提供了许多不同且独特的数据点供审查。在这个实验中，这些数据点包括活动推文、用户的性别、体育活动的分钟数和用户的Klout分数。从四个选定的移动健身应用程序中对Twitter上的身体活动进行统计分析是在SAS 9.3中进行的，SAS 9.3是由SAS研究所开发的高级分析、商业智能和预测分析软件套件，使用两个关键数据集:(1)第一个数据集包括所有Twitter用户发送的与锻炼和锻炼+相关的推文的用户信息;(2)第二个数据集包含每个用户发送的所有实际推文。

分析2:情感分析招聘

在活动推文中，锻炼+推文共有408574条。从这个总数中，随机创建了23,391个样本。这些推文是用户生成的，最终用户为健身推文提供额外的文本(即，用户提供的补充信息超出了应用程序本身创建的信息)。然后根据移动健身应用程序使用相应的标签对推文进行分组。健身推文中没有大量的表情符号可用于情感分析。

推文情感分析

使用AYLIEN Text Analysis for谷歌Sheet插件对每条收集到的信息共享对话推文进行情感分析，并通过Fitness tweets Classification Model进行过滤。

AYLIEN推文情感分析功能分为三个步骤:

预处理:对tweet进行规范化和重新格式化，并剥离被认为与情感无关的部分。

解析:解析tweets并提取其结构、标签和否定。

分类:通过预训练的分类器将tweet分类为正面、负面或中性，并辅以基于词典的方法作为第二裁判。

在本实验中，使用情感分析工具对每条tweet进行分析，并返回积极、中性或消极的值进行分类。将这些数据保存到Excel电子表格中，以便通过将文本值转换为数值(正=1，中性=0，负= -1)进行额外的数据处理。

结果分析1:衡量在线影响力数据集中Twitter用户的性别分配

Twitter不收集用户的性别。为了能够跨性别进行比较，需要一种识别Twitter用户可能性别的方法。为了实现这一点，我们使用美国社会安全管理局的姓名数据库来匹配英文姓名和性别。来自社会保障局网站的姓名数据库收录了自1880年以来按性别排列的流行姓名。

在收集到的Twitter人口统计数据库(Twitter用户的全名是从Twitter收集的众多人口统计特征之一)和社会保障局数据库中进行的第一次性别匹配计算中，剔除了使用次数少于200次的名字，因为许多这样的名字在一个性别中比另一个性别更受欢迎(例如，女孩被命名为Aaron的概率<0.5%)。假设这一调整消除了名字中绝大多数的性别混淆。完成此操作后，使用Excel中的VLOOKUP函数将姓名与性别进行匹配。

对那些名字出现次数少于200次的Twitter用户执行第二次性别匹配计算，其中我们试图将性别分配给在第一轮中不匹配的其余名字。不匹配性别的用户名(<2%)不包括在分析中。

性别分配后，进行描述性统计分析，计算以下频率:(1)按性别划分的总分钟数，(2)按Klout评分划分的总分钟数，(3)按性别和Klout评分划分的总分钟数，(4)推文总数，(5)每条推文锻炼的分钟数，(6)锻炼和锻炼+推文总数(分别)。

Klout四分位数的测定

为了检验推文的分布，所述推文描述的运动分钟数以及每条推文中提到的类别(锻炼或锻炼+)，有必要将用户的Klout分数分成四分位数。我们使用数据分类的四分位数方法来创建类别，将排名有序的数据集分成四个相等的部分。

这是通过SAS中的两步过程完成的。首先，使用SAS (PROC univariate)中的单变量程序检查Klout分数的分布，并根据该分布分配四分位数。其次，使用数据步长，将值1、2、3和4分别分配给第一、第二、第三和第四个四分位数内的观测值( 表1)。Klout评分的最大值为100，最小值为1。从收集的数据集确定Klout得分中位数为20.50。据Klout报道，Klout平均得分为40分，得分为63分的用户排名在第95百分位[ 27]。

表1

Klout得分四分位数。

四分位数	Klout得分
100%最大	100.00
99%	56.59
95%	49.03
90%	44.09
第三季度75%	35.65
50%的中位数	20.50
第一季度25%	11.92
10％	10.10
5％	10.00
1％	10.00
0%的最低	1.00

活动推文数量(男性vs女性)

描述性统计分析发现，男性占活动推文总数的57.9%(336,109/583,252)，女性占42.1%(247,143/583,252)。这种差异在Klout四分位数中是一致的( 表2)。

推文数量(健身组中男性/女性)

描述性分析扩展到比较男性和女性在活动类别。研究发现，在Klout最低四分位数中，锻炼组的男女发推文的频率都远高于锻炼+组(72.01%，420,010/583,252对27.99%，163,242/583,252)。这种趋势在Klout分数的第二和第三个四分位数中略有下降，然后在Klout分数的最高四分位数中急剧下降。在这个四分位数中，推文的数量变化要小得多(56.79%，70,229/123,656 vs 43.21%， 53,427/123,656)。

每条推文的平均分钟数(男性vs女性)

使用SAS内的方差分析程序(PROC ANOVA)比较每个性别的推特平均分钟数，使用类语句中的性别，并将模型设置为分钟=性别。研究发现，总体而言，男性和女性发推文的平均分钟数并没有显著差异。然而，在Klout得分最低的四分位数(Klout≤11.92)的女性中，推特的平均分钟数几乎是两倍。

Klout四分位数法确定活动推文

在分配四分位数后，我们使用SAS中的PROC FREQ检查了Klout分数的每个层内的观察频率，如下( 表3):(1) Klout评分四分位数的分钟数;(2)Klout评分四分位数的运动类型。

组间显著性检验:不同锻炼类别之间的推文时间

同样使用SAS中的方差分析程序，分析比较了锻炼组(锻炼组与锻炼+组)的推特总分钟数，发现了统计学上显著的差异( P= . 01; 表4)。

分析2:情感分析健身+推文的情感分析

总的来说，原始数据集中有23,391条唯一的tweet符合这个随机样本的过滤标准。这项分析使用了四款移动健身应用:DailyMile、Endomondo、Nike+和RunKeeper。所有移动健身应用的整体情绪表明，这些健身+活动推文中有一半本质上是中性的( 表5)。此外，正面推文的数量是负面推文的四倍。移动健身应用对消极、中性和积极情绪的情绪分析细分也呈现在表5．

表2

根据活动推特(N=583,252)和性别划分的Klout得分。

四分位数和Klout分数	活动推文，n (%)
	男性(n = 336109)	女(n = 247143)
1:≤11.92 (n=179,831)	102007 (56.7)	77824 (43.3)
2: >11.93和≤20.50 (n=154,669)	89822 (58.1)	64847 (41.9)
3: >20.51和≤35.65 (n=125,096)	73394 (58.7)	51702 (41.3)
4: >35.65 (n=123,656)	70886 (57.3)	52770 (42.7)

表3

Klout四分位数的锻炼和锻炼+推文。

四分位数和Klout分数	健身推文(n= 420010)			锻炼+推文(n= 163242)
	微博,	分钟(总)	每条推文平均分钟数(SD)	微博,	分钟(总)	每条推文平均分钟数(SD)
1:≤11.92	143552年	6320924年	44.05 (97.26)	36279年	1745722年	48.12 (128.83)
2: >11.93和≤20.50	118047年	5125345年	43.42 (65.54)	36622年	1666997年	45.53 (91.67)
3: >20.51和≤35.65	88182年	4348112年	49.32 (324.43)	36914年	1694811年	45.91 (104.47)
4: > 35.65	70229年	2897436年	41.26 (54.97)	53427年	2550963年	47.75 (285.42)

表4

各锻炼组按性别的锻炼时间和Klout评分。

四分位数和Klout分数		男性			女
		推文(男性总数的百分比)	分钟(总)	每条推文平均分钟数(SD)	推文(女性总数百分比)	分钟(总)	每条推文平均分钟数(SD)
锻炼^一个		241254年	10935339年	45.33 (48.10)	178756年	7756479年	43.40 (96.69)
	1:≤11.92	81503 (33.78)	3528992年	43.33 (48.10)	62049 (34.71)	2791932年	45.00 (137.26)
	2: >11.93和≤20.50	67666 (28.05)	2942049年	43.48 (56.45)	50381 (28.18)	2183296年	43.34 (76.06)
	3: >20.51和≤35.65	51863 (21.50)	2811512年	54.21 (420.74)	36319 (20.32)	1536600年	42.33 (51.54)
	4: > 35.65	40222 (16.67)	1652786年	41.09 (49.08)	30007 (16.79)	1224650年	41.50 (61.62)
运动+^b		94855年	4437573年	46.79 (234.49)	68387年	3220919年	47.10 (117.44)
	1:≤11.92	20504 (21.62)	952567年	46.46 (114.94)	15775 (23.07)	793154年	50.28 (144.89)
	2: >11.93和≤20.50	22156 (23.36)	1002024年	45.24 (85.01)	14466 (21.15)	664973年	45.97 (101.02)
	3: >20.51和≤35.65	21531 (22.70)	983395年	45.67 (112.10)	15383 (22.49)	711416年	46.25 (98.06)
	4: > 35.65	30664 (32.33)	1499587年	48.90 (362.80)	22763 (33.29)	1051375年	46.19 (117.88)

^一个男性和女性在关于锻炼的推特数量上没有显著差异( P= .64点)。

^b男性和女性在健身+()的推特数量上没有显著差异。 P= 55)。

表5

按情感和应用程序划分的tweet总数。

推文和情绪	总计	DailyMile	Endomondo	Nike +	过程
推文总数，n	23391年	9298	820	3999	9284
积极情绪，n (%)	9389 (40.14)	7097 (76.41)	211 (25.73)	418 (10.45)	1663 (17.91)
负面情绪，n (%)	2342 (10.01)	1392 (14.99)	51 (6.22)	350 (8.75)	549 (5.91)
中性情绪，n (%)	11660 (49.85)	799 (8.60)	558 (68.05)	3231 (80.80)	7072 (76.17)

图2

移动健身应用的词云。

讨论分析1:衡量在线影响力

本研究进一步探索了一种通过Klout影响力评分对健身推文进行分类的新方法。该研究通过使用经过验证的政府数据库进一步按性别分层，该数据库与我们使用精确匹配程序的数据概率匹配。这种性别验证允许对现有数据集的性别细分进行额外分析。数据经过两次匹配标准过滤以提高精度，结果性别匹配率达到97%。尽管我们进行了两次性别匹配，但过去用于性别匹配的过程仍然可能遗漏一些名字，而这些名字在今天比几年前出现得更频繁。由于流行名字的变化频率很高，本研究中的一些性别匹配可能会在几年内失效。

根据目前从五个移动健身应用程序收集的健身推文数据库，Klout得分最高的四分位数包括那些Klout得分为35.65或更高的人。Klout评分可达100分;因此，我们的最高分层可能无法准确代表Twitter平台上最有影响力的人。随后将描述该研究的其他见解。

男性比女性更频繁地通过推特分享他们在移动健身应用上的锻炼情况

根据这项研究，男性比女性更频繁地使用Twitter和移动健身应用程序分享他们的锻炼(54.35%，336,109/618/458 vs 45.65%， 282,349/618,458)。尽管我们认为这是第一次对使用Twitter的移动健身应用分享体育活动的性别分析，但之前关于Twitter整体性别使用情况的研究表明，使用Twitter的女性多于男性。 28一些非学术研究表明，每月有4000多万女性使用Twitter, 62%的Twitter用户是女性[ 29)，而Klout得分较高的往往是女性。另一项关于性别的研究表明，女性在Twitter上可能比男性更活跃，女性每20小时发一次推特，而男性每26小时发一次推特。 30.]。

然而，使用第三方软件“人口统计专业”对我们的数据集进行的进一步研究表明，健身推特数据集中的移动健身应用用户平均是30岁出头的男性，通常已婚有孩子，收入高。对那些也在推特上发布自己体育活动的移动健身应用用户的其他见解包括，这一群体最常见的职业是程序员、摄影师、教会领袖、设计师和教师。这个群体的Web开发人员非常集中(在整个Twitter分布中排名前10%)。在业余时间，他们特别喜欢啤酒、政治新闻、葡萄酒、喜剧/幽默和烹饪。这一群体的人慷慨大方，特别注重健康。推特上最受关注的运动包括自行车、滑雪和高尔夫。作为消费者，这一群体相对富裕，消费主要集中在科技、餐饮和健康健身方面。他们最强的品牌包括Apple Store、Trader Joe’s、CrossFit、Trek Bicycle和MyFitnessPal。

移动健身App的设计与社交网站的体育活动数据共享

通过移动健身应用程序的用户界面，极大地增强了锻炼+推文的共享。当比较四个移动健身应用程序的活动推文总数(锻炼推文加上锻炼+推文)时，最受欢迎的移动健身应用程序是Endomondo(211,240条推文)，其次是耐克plus(203,991条推文)，DailyMile(183,732条推文)和MyFitnessPal(70,723条推文)。男性和女性的使用排名顺序相同(男性:Endomondo为123482,NikePlus为116388,DailyMile为106846,MyFitnessPal为70723;女性:Endomondo 87,758人，NikePlus 87,603人，DailyMile 76,886人，MyFitnessPal 30,233人。然而，在查看健身+推文时，有很大的差异:97.67%(173,790/177,943)的健身+推文来自DailyMile, 1.89%(3358/177,943)来自NikePlus, 0.44%(776/177,943)来自Endomondo，而MyFitnessPal没有健身+推文。在回顾这四款移动健身应用的用户界面时，很明显，与其他三款移动健身应用相比，DailyMile的设计不仅使分享锻炼更容易，而且还能分享有关锻炼的额外信息。同样在活动推文的评估期间，Endomondo使用了一个名为@addthis的第三方服务来分享锻炼+推文。由于MyFitnessPal没有发布“锻炼+”的推文，我们确定这款应用做出了一个设计决定，不允许用户分享有关他们体育锻炼的额外信息。

在使用移动健身应用程序和使用Twitter分享体育活动数据方面存在品牌忠诚度

在数据集中的113,340名用户中，97.21%(110,186名用户)仅通过一款移动健身应用发布了他们的体育活动，3105名(2.74%)用户使用了两款移动健身应用，101名(0.09%)用户分享了三款移动健身应用，只有一名(0.0009%)用户分享了四款移动健身应用。我们基于对每个用户推文的分析，无法确定应用程序的实际使用情况，只能确定应用程序共享的体育活动数据。我们推测，超过97%的人只使用一款应用的一个原因可能是忠诚度，但其他原因，比如糟糕的用户界面，以及难以将Twitter账户与移动健身应用连接起来，可能也是其他原因。

分析2:情感分析

更好地了解那些分享健身推文的人的在线影响力，可能会带来新的创新方式，通过点对点的影响来鼓励他们的追随者更加积极地锻炼身体，类似于营销机构创建的影响消费者行为的项目。与其他与健康相关的研究类似，体育活动研究人员可以监测并试图影响有影响力的Twitter用户发送的体育活动Twitter聊天，这些用户在各种人口群体和年龄范围中都很活跃[ 15]。这些发现可以用来指导线上和线下的工作，以针对那些最容易因缺乏体育活动而受到伤害的人。

中性推文的数量相对较多是意料之中的，因为每个移动健身应用程序都有一个预先确定的结构，限制了用户可以包含的额外信息。还有一个事实是，大多数推文根本不包含可以被分类为积极或消极的单词或短语。随后将描述该研究的其他见解。

体育活动的实时共享情绪可以为体育活动提供额外的见解

我们相信，从移动健身应用中分享一个人的体育活动和额外的评论(为了这项研究的目的，称为锻炼+推文)可以为研究人员提供过去可能难以衡量的新见解。许多移动健身应用程序的设计都允许用户分享一些特征，比如他们和谁在一起、天气类型、体育活动的地点，以及他们对体育活动的直接想法。这些和其他见解将使体育活动研究人员能够更好地了解一个人如何以及为什么参加体育活动的实时原因、想法和情绪。这些数据将使人们更好地了解身体活动的复杂性，然后可以用于增强移动健身应用的设计，作为减少缺乏身体活动的潜在工具。

分享最多的移动健身应用体育活动属于结构化锻炼类型

正是通过分析和解读，来自移动健身应用程序的健身推文上下文提供了对正在被分享的内容、被谁分享以及出于什么原因的洞察。根据收集到的信息类型，可以预期，通过Twitter使用移动健身应用分享的大多数活动都是更结构化的锻炼类型，而不是持续监测日常身体活动。这可能是由于用户手机上的额外电池消耗，这将阻止全天使用该应用程序。此外，推文的结构也表明，这些活动是根据持续时间来衡量的，表明活动如跑步、散步、骑自行车或传统锻炼。由于某些活动tweet的性质，可以提取其他信息，包括实际类型、距离和花费在活动上的时间。在数据库中有可能出现异常值。例如，第一次使用移动健身应用程序可能是用户测试移动健身应用程序，这可能会提示一个持续时间很短的活动(秒而不是分钟)的活动tweet，而当用户没有正确结束他或她的移动健身应用程序活动会话时，很长时间的活动有时会被记录下来。事实上，一些持续时间较长的活动可能是长时间的锻炼。例如，一个为马拉松训练的人会跟踪长距离跑。

每个应用的绝大多数用户都不止一次地使用该应用

根据研究数据，计算了通过Twitter(活动推文)分享锻炼的移动健身应用的一次性用户数量。尽管该研究无法确定一个人是否继续使用移动健身应用程序而决定不通过Twitter分享，但可以确定的是，在所有用户中，17%至27%的用户只使用过一次分享到Twitter的功能，这取决于应用程序。一次性使用可能存在许多原因，包括用户错误，分享功能的实验，或者由选择移动健身应用程序的用户进行测试。从使用移动健身应用程序发布活动并通过Twitter分享的165,768名用户中，数据库包含了6个月期间的76,192,059分钟的活动。这些分钟相当于52911天，1738个月，或者超过145年的活动分钟总和。我们无法确定这项体育活动是否是每个用户在这段时间内唯一进行的体育活动，因为我们可以理解，用户可能在没有使用移动健身应用的情况下完成了体育活动。

这些发现和解释应被视为探索性和推测性的，因为它们代表了在较短的开发时间内可以做的事情，并且对于非计算机编程的健康促进研究人员来说很容易使用。

限制

这项研究有许多局限性。利用外部数据(在这个例子中是美国政府)来确定每个用户的性别，给错误留下了余地。

这项研究是使用Twitter firehose进行的，它允许收集所有公开可用的tweet。虽然我们对这个数据收集过程很有信心，但如果不花钱购买所有的推文，就没有办法验证它。在通过数据挖掘和知识发现从这些存储库中提取有用数据方面也存在挑战[ 6由于可用于分析的数据服务和工具的快速发展。这在很大程度上是由于商业压力和利用社交网络数据进行计算研究的潜力[ 31]。为了最大限度地减少这种限制，我们能够使用用户的Twitter名称作为唯一标识符，通过免费的公开数据链接不同的数据集。未来的工作可以通过购买商业上可用的数据集进行分析来增强我们的模型。

社交媒体的使用一直在稳步增长，从2005年占美国人口的5%到2015年接近70%。随着越来越多的美国人采用社交媒体，其用户群也越来越能代表更广泛的人口;然而，它仍然是最年轻的群体使用[ 32]。

与前期工作比较

随着社交媒体和新兴技术的发展，使用社交媒体和新兴技术来研究体育活动以及可能缺乏体育活动的情况继续增加。先前的研究显示了对社会环境对健康结果的不利影响的特定特征的兴趣[ 3.]。其他研究研究了使用可穿戴设备和其他智能设备来量化各种不同的健康状况，并在Facebook和Twitter等社交网络上分享自我报告的数据[ 9]，并建议采用这种新兴技术来监测身体活动，为观察、量化和定义现实世界中的身体活动创造了新的研究机会[ 2]。我们的研究继续建立在这些以前的研究的基础上，为研究人员提供了其他的数据收集选择和不同的目标来考虑。

之前关于科技通过社交媒体对体育活动的作用的研究缺乏对社交媒体对体育活动影响的各个方面的研究。一些研究关注的是行为改变的挑战，包括自我监控、目标设定和解决问题的策略[ 33]。其他研究表明，我们对体育活动和久坐行为测量的看法发生了变化，这是一个研究主题，包括使用移动健身应用程序和社交网络，这些应用程序和社交网络可以收集大量的实时数据，而这些数据以前很难收集。 34]。曹教授的研究[ 35探讨了可能导致移动健身应用用户身体活动水平较低的背景和心理因素。我们的研究与Grundy等人[ 36] Haddadi等人对知名健康健身app及作品的网络分析[ 37整合来自社交网络上共享的移动健身应用程序的共享健康和健身数据。虽然这些作品与本文的研究高度相关，但我们通过开展包括性别和网络影响力在内的数据分析来扩展研究。

类似的推断性别的方法包括使用基于性别的词典[ 38]，通过头像和背景推断[ 39]，以及第三方Web服务，通常可以通过专有算法显示性别[ 40]。关于使用社交媒体网络和体育活动的具体研究包括Althoff等人的工作[ 41]在《Pokemon Go》的影响下，Tsoh将体育活动的推文作为增加体育活动的一种可能方法[ 35]，刘和杨的作品[ 42使用社交媒体数据分析进行体育活动监测。

未来的工作

我们创建了一个非常强大的工具，通过从Twitter上收集体育活动数据来进行大规模研究，但这项研究中使用的人口统计数据可能表明，在移动健身应用程序用户的细分方面存在偏见，因此无法代表某些群体。如果研究人员希望使用Twitter和移动健身应用程序进行体育活动研究，则需要采取额外的步骤，以确保在所收集的数据样本中代表所有群体。除了技术上的限制，道德上的挑战也同样具有挑战性。虽然推文被认为是公开的，但它们可能包含许多人认为是“私人”的信息，因为可能对感知到的受众(用户的Twitter关注者)和实际受众(数据研究人员)有误解[ 9]。为了扩大这项工作，进一步的调查可以解决可能构成更高Klout分数的性别体育活动形式的特定趋势。

面向消费者的健康可穿戴设备(如Fitbit、Garmin)也可以与在线社交网络共享身体活动数据，这将是一个值得未来研究的话题。通过使用这些持续监测身体活动的跟踪设备，可以获得更全面的全天身体活动情况。这与移动健身应用数据形成鲜明对比，后者通常是在传统的“锻炼”(如散步、跑步、骑自行车)之后收集和共享的。本文提出的相同的数据收集和分类模型可以在最小的变化下使用。关于在线影响力，其他工作可以使用在线影响力的替代衡量标准，而不是Klout。

结论

这项研究分析了通过Twitter从五个不同的移动健身应用程序收集的公开分享的体育活动数据。从这个数据集中，对数据进行了两次分析，以突出在体育活动研究中使用这类数据的独特能力。第一项分析将用户分为四个四分位数，代表他们的在线影响力，这是由Klout计算出来的，也是一种为每个Twitter用户分配性别的方法。分析表明，男性比女性更多地分享他们的健身推文，与包含用户评论的推文(健身推文)相比，男性和女性在推特上的分享更多的是基本的体育活动数据(健身推文)，并且男性和女性的推文没有显著差异。第二项分析是对健身+的推文进行的，结果显示，在所有应用程序中，大多数分享的推文都是中性的，但对于那些有情绪的人来说，积极的推文是消极的推文的四倍。

该项目得到了爱尔兰科学基金会(资助号SFI/08/CE/I1380和SFI/12/RC/2289)和爱尔兰研究委员会的支持。

没有宣布。

刘易斯

英航

纳波利塔诺

妈

Buman

国会议员

威廉姆斯

尼格

身体活动干预研究的未来方向:扩展我们对久坐行为、技术和传播的关注

J行为医学 2017 02 40 1 112 126

10.1007 / s10865 - 016 - 9797 - 8

27722907

10.1007 / s10865 - 016 - 9797 - 8

PMC5296224

Schrack

晶澳

库珀

科斯特

一个

Shiroma

Murabito

Rejeski

费鲁奇

哈里斯

结核病

评估老年人的日常身体活动:揭示监测、测量和方法的复杂性

[J]刘文华，刘志刚，刘志刚，等 2016 08 71 8 1039 1048

10.1093 /赫罗那/ glw026

26957472

glw026

PMC4945889

Schootman

米

纳尔逊

沃纳

Shacham

艾略特

米

Ratnapradipa

丽安

米

麦克维恩

一个

衡量社区公共卫生状况的新兴技术:对干预措施的影响和下一步措施

国际卫生地理 2016 06 23 15 1 20.

10.1186 / s12942 - 016 - 0050 - z

27339260

10.1186 / s12942 - 016 - 0050 - z

PMC4918113

盖瑞

韦伯

我

对Twitter上两极分化的长期分析

2017

第11届网络和社交媒体国际AAAI会议

2017年5月15-18日

蒙特利尔,质量控制

推特 2017

2017-07-18

关于我们 https://about.twitter.com/company

阿里亚斯

米

Arratia

一个

Xuriguera

利用Twitter数据进行预测

ACM transintel系统技术 2013 12 01 5 1 1 24

10.1145/2542182.2542190

Pagoto

年代

施耐德

吉隆坡

埃文斯

米

华林

我

Appelhans

布希

我

漂白的

考虑一下

Ziedonis

米

在推特上发消息:在推特上发布减肥尝试的成年人的特征

美国医学信息协会 2014 11 21 6 1032 1037

10.1136 / amiajnl - 2014 - 002652

24928175

amiajnl - 2014 - 002652

PMC4215051

德里斯科尔

沃克

年代

大数据，大问题——在黑盒子里工作:收集和生产Twitter大数据的透明度

国际共同体 2014 8 20. 1745 1764

王

韦伯

我

密特拉

量化自我与社交媒体相遇:在Twitter上分享体重更新

2016

第六届国际数字健康会议ACM

2016年4月11日至13日

蒙特利尔,质量控制

1 12

10.1145/2896338.2896363

汗

跳频

巴希尔

年代

Qamar

使用混合分类方案的Twitter意见挖掘框架

决策支持系统 2014 01 57 245 257

10.1016 / j.dss.2013.09.004

Bravo-Marquez

门多萨

米

Poblete

面向大社会数据分析的元级情感模型

以知识为基础的系统 2014 10 69 86 99

10.1016 / j.knosys.2014.05.016

刘

Indurkhya

尼

情感分析与主观性

自然语言处理手册 2010

佛罗里达州博卡拉顿

CRC的新闻

1 38

Broniatowski

保罗

米

Dredze

米

通过Twitter进行国家和地方流感监测:2012-2013年流感流行分析

《公共科学图书馆•综合》 2013 8 12 e1

10.1371 / journal.pone.0083672

Tsuya

一个

Sugawara

田中

一个

Narimatsu

癌症患者会发推特吗?调查日本癌症患者使用twitter的情况

J Med Internet Res 2014 05 27 16 5 e137

10.2196 / jmir.3298

24867458

v16i5e137

PMC4060148

Cavazos-Rehg

巴勒斯坦权力机构

克劳斯

米

费雪

莎莉

格鲁扎

类风湿性关节炎

五角

推特上关于大麻的讨论

J青少年健康 2015 02 56 2 139 145

10.1016 / j.jadohealth.2014.10.270

25620299

s1054 - 139 x (14) 00703 - 4

PMC4306811

Freifeld

布朗斯坦

Menone

厘米

保

Filice

Kass-Hout

达斯古普塔

数字药品安全监控:在推特上监控药品

药物Saf 2014 05 37 5 343 350

10.1007 / s40264 - 014 - 0155 - x

24777653

PMC4013443

博伦

毛

曾

推特情绪可以预测股市

J计算机科学 2011 3. 2 1 1 8

10.1016 / j.jocs.2010.12.007

25904163

Pagoto

施耐德

吉隆坡

Oleski

史密斯

鲍曼

米

通过在线社交网络采用和传播核心强化练习

J物理行为健康 2014 03 11 3. 648 653

10.1123 / jpah.2012 - 0040

Vickey

布雷斯林

蔡

移动健身应用和twitter——一个系统的评估

第八届国际体育计算机科学研讨会论文集 2011

IACSS2011第八届体育计算机科学国际研讨会

2011年9月21日至24日

中国上海

世界学术联合会

38 40

20.

Vickey

助教

吉尼

公里

Dabrowski

米

Twitter分类模型:200万条健身推文的ABC

翻译行为医学 2013 09 3. 3. 304 311

10.1007 / s13142 - 013 - 0209 - 0

24073182

209

PMC3771015

汉森

Shneiderman

史密斯

米

分析社交媒体网络:通过NodeXL学习 2009

伯灵顿,马

摩根考夫曼

拉森

棕色（的）

一个

推特

社会科学与计算机 2010 09 23 29 4 419 436

10.1177 / 0894439310382749

Quercia

埃利斯

·卡普拉

Crowcroft说

在推特上的情绪影响

2011

2011年IEEE隐私、安全、风险与信任国际会议和IEEE社会计算国际会议

2011年10月9日至11日

波士顿

307 314

米勒

《华尔街日报》 2011 02 08

2017-10-20

想成为酷孩子的目标是网络游戏:新的社会记分员 https://www.wsj.com/articles/SB10001424052748704637704576082383466417382

巴比里

年代

Feltracco

Omizzolo

Snenghi

El Mazloum

Vettore

Bergamini

米

Stefanati

一个

Donato

Ferronato

Avato

调频

Tredese

一个

高迪奥

平板支撑或“躺下游戏”:两例报告

互动医学 2017 03 23 6 1 e4

10.2196 / ijmr.6568

28336507

v6i1e4

PMC5383804

爱德华兹

斯宾塞

公关

外邦人

爱德华兹

一个

爱德华兹

一个

你有多少Klout…系统生成线索对来源可信度的测试

计算人类行为 2013 9 29 5 A12 系

10.1016 / j.chb.2012.12.034

Klout评分 2013

2017-07-18

Klout的平均得分是多少? http://support.klout.com/customer/portal/articles/679109-what-is-the-average-klout-score

达根

米

格林伍德

年代

佩兰

一个

皮尤研究中心 2016 2016年社交媒体用户人口统计数据 http://www.pewinternet.org/2016/11/11/social-media-update-2016/

麦

赫芬顿邮报 2012 06 21

2017-09-08

按性别划分的社交媒体:女性主宰Pinterest、Twitter，男性主宰reddit和YouTube http://www.huffingtonpost.com/2012/06/20/social-media-by-gender-women-pinterest-men-reddit-infographic_n_1613812.html

30.

Hargittai

Litt

名人成功的推特气味:解释不同群体的年轻人使用推特的差异

新媒体Soc 2011 05 10 13 5 824 842

10.1177 / 1461444811405805

Batrinca

Treleaven

个人电脑

社交媒体分析:技术、工具和平台的调查

AI Soc 2014 7 26 30. 1 89 116

10.1007 / s00146 - 014 - 0549 - 4

皮尤研究中心 2017

2017-07-18

社交媒体实况表:美国社交媒体用户和采用情况的人口统计数据 http://www.pewinternet.org/fact-sheet/social-media/

王

交流

Hekler

海尔哥哥

格雷科

拉

冬天

剪切

莱托

Buman

国会议员

巴纳吉

罗宾逊

Cirimele

三种动机目标移动设备应用程序对中年和老年人初始身体活动和久坐行为改变的影响:一项随机试验

《公共科学图书馆•综合》 2016 11 6 e0156370

10.1371 / journal.pone.0156370

27352250

玉米饼- d - 16 - 04408

PMC4924838

凯利

菲茨西蒙斯

贝克

我们是否应该重新定义我们对体育活动和久坐行为测量的看法?重新考虑效度和信度

《行为与营养物理法 2016 03 01 13 32

10.1186 / s12966 - 016 - 0351 - 4

26931142

10.1186 / s12966 - 016 - 0351 - 4

PMC4772314

Tsoh

司法院

在推特上发布关于体育活动的消息:在推特上发布走路的消息能帮助保持走路吗?

移动健康 2016 2 6 6

10.3978 / j.issn.2306-9740.2016.02.03

28293584

mh-02-2016.02.03

PMC5344104

心胸狭窄的人

问

举行

《外交政策》

Bero

拉

追踪潜在的消费者数据流:对知名健康和健身应用程序的网络分析

J Med Internet Res 2017 06 28 19 6 e233

10.2196 / jmir.7347

28659254

v19i6e233

PMC5508111

Haddadi

Ofli

Mejova

韦伯

我

斯利瓦斯塔瓦

360度量化自我

2015

IEEE健康信息国际会议，ICHI

2015年10月23-25日

达拉斯,TX

587 592

10.1109 / ICHI.2015.95

刘

露丝

名字里有什么?在Twitter中使用名字作为性别推断的特征

2013

2013年AAAI微文本分析春季研讨会

2013年3月25日至27日

加州帕洛阿尔托

10 16

Alowibdi

买

Twitter上独立于语言的性别分类

2013

EEE/ACM高级社会网络分析和挖掘国际会议- ASONAM ?; (5)

2013年8月25日至28日

尼亚加拉瀑布，ON

739 743

10.1145/2492517.2492632

一个

韦伯

我

#灰解剖vs #洋基:人口统计和推特上的标签使用

2016

第十届博客与社会媒体国际会议

2016年5月17-20日

德国科隆

523 526

Althoff

白色

霍维茨

pokemon Go对身体活动的影响:研究和启示

J Med Internet Res 2016 12 06 18 12 e315

10.2196 / jmir.6759

27923778

v18i12e315

PMC5174727

刘

年代

年轻的

年代

一项针对体育活动监测的社交媒体数据分析调查

J法医腿部医学 2016 10

10.1016 / j.jflm.2016.10.019