这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
患者使用社交媒体作为替代信息来源,在那里他们分享信息并提供社会支持。尽管每天都有大量与健康相关的数据发布在Twitter和其他社交网络平台上,但利用社交媒体数据来了解慢性病和患者生活方式的研究是有限的。
在这项研究中,我们通过提供一个框架来在Twitter上识别炎症性肠病(IBD)患者,并从他们的个人经历中学习,从而有助于缩小这一差距。我们通过构建一个Twitter用户分类器来实现对患者推文的分析,该分类器将患者与其他实体区分开来。这项研究旨在揭示利用Twitter数据来促进IBD患者健康的潜力,依靠人群的智慧来识别健康的生活方式。我们试图利用描述患者日常活动及其对健康的影响的帖子来描述与生活方式相关的治疗。
在研究的第一阶段,使用一种结合社会网络分析和自然语言处理的机器学习方法来自动将用户分类为患者或非患者。我们考虑了三种类型的特征:用户在Twitter上的行为,用户推文的内容,以及用户网络的社交结构。我们比较了两种分类方法中几种分类算法的性能。其中一个对每条推文进行分类,并根据推文级别的分类推断出用户的类别。另一种是将推文级功能聚合到用户级功能,并对用户本身进行分类。不同的分类算法使用4个指标进行检查和比较:精密度、召回率、F1分数和受试者工作特征曲线下的面积。在第二阶段,使用第一阶段的分类器来收集患者的推文,这些推文描述了患者为应对疾病而采取的不同生活方式。使用IBM沃森服务进行实体情绪分析,我们计算了IBD患者在描述日常生活时使用的420个与生活方式相关的单词的平均情绪。
两种分类方法的结果都很有希望。虽然推文级方法的准确率略高,但用户级方法的召回率和接收者工作特征曲线下的面积明显更好。对IBD患者写的推文进行情感分析,确定了经常提到的生活方式及其对患者健康的影响。研究结果加强了已知的适合IBD的营养,因为几种已知会导致炎症的食物在负面情绪中被指出,而放松活动和抗炎食物则在积极的环境中出现。
这项研究提出了一个在Twitter上识别IBD患者的管道,并收集他们的推文来分析他们分享的实验知识。这些方法可以适用于其他疾病,并加强对慢性疾病的医学研究。
近年来,社交网站和基于网络的社区已经成为患者的替代信息来源。各地的患者都使用社交媒体分享健康和治疗信息,互相学习经验,并提供社会支持。挖掘这些信息丰富的对话可能会对患者的生活方式有所启发,并支持慢性疾病的研究。
近年来,文本挖掘和社交网络分析已被用于检测推特上关于健康的提及[
IBD是一种消化系统的慢性炎症,其特征为发作期和缓解期。与IBD相关的两种原发疾病,克罗恩病和溃疡性结肠炎,通常在年轻患者中诊断(年龄范围在15-30岁之间)。IBD的发病率正在迅速上升,并已发展成为一种全球性疾病[
没有药物或手术可以治愈IBD。治疗方案只能帮助缓解症状,而且对每个患者的影响不同。它们包括处方药和与生活方式相关的解决方案,如饮食和治疗。症状包括腹痛、腹泻和疲劳,严重者可能需要住院或手术治疗[
患者将IBD描述为一种令人尴尬的疾病,它会立即导致日常活动中断。他们很难适应随之而来的变化,认为自己与同龄人不同。由于IBD的特点是频繁排便,人们不会急于与他人分享他们的疾病[
IBD带来的尴尬,以及向有类似经历的人倾诉的需要,有助于解释在Twitter上创建IBD相关社区的原因。通过克服空间和距离,Twitter用户形成了一个不受物理边界或静止的社区。有共同立场的感觉有助于打破障碍,开启对话,增加一个人分享的意愿。
由于IBD的性质及其对消化系统的影响,IBD患者被迫每天处理他们的疾病,坚持严格的饮食方案,并保持平静的日常生活。营养或体力活动的改变,目前是通过反复试验来检验的,对患者来说是一个漫长而痛苦的过程。我们可以从他们的个人经历中学习,通过收集和分析患者的社交媒体数据,为现有的疾病医学知识提供额外的基础。基于大众智慧的互补性建议可以缓解患者的生活,缩短寻找适合他们的生活方式的过程。
这项研究旨在通过收集和分析IBD患者分享的个人疾病经历,来揭示使用Twitter数据促进IBD患者健康的潜力。我们提出了一个框架,用于在Twitter上识别IBD患者,并检查他们分享的关于他们疾病的内容。我们首先构建了一个用户分类器,将患者与在Twitter上谈论IBD的其他实体区分开来,然后使用分类器收集患者的推文,并探索他们为应对疾病而进行的与生活方式相关的治疗。
这项研究的重点是创建一个管道,使用Twitter数据来识别IBD患者,并探索他们共享的信息。虽然这项研究的每一部分都可以通过尝试其他分类方法或丰富患者推文的分析来扩展,但这项研究显示了使用推特数据来增强IBD医学知识的潜力。我们证明,即使使用经典、简单的分类算法,患者也可以根据他们的交流在Twitter上被识别出来。我们比较了两种不同的用户分类方法——单实例(SI)学习方法和多实例(MI)学习方法的性能,并展示了使用后者的好处。本研究第二部分的初步分析表明,有可能从患者自我报告的推文中获得与健康相关的见解。
使用建议的框架来识别更多的患者并收集更多的数据,可以揭示他们对他们尝试的治疗方法的看法,或者探索疾病的其他方面,比如它对患者生活质量的影响。该框架也可推广到其他慢性疾病。它可用于比较IBD患者与普通人群或其他慢性疾病患者的讨论模式。
在健康和福祉的背景下对社交媒体的研究继续将Twitter定位为传播健康相关信息的新媒介。与健康相关的推文从简单的牙痛到更严重的慢性疾病,如糖尿病、哮喘或癌症[
Twitter是传播健康信息的强大工具,也是需要即时社会支持或救助的患者可访问的平台。它为与健康相关的对话提供了一个协作环境,慢性病患者可以每天分享他们的健康状况。他们使用Twitter来交流生活方式方面的知识,或者更好地理解医疗程序。通过推特,他们可以轻松方便地接触到大量的受众和各种观点。
总的来说,之前的两项研究提出了检测推特上个人健康提及的模型,并展示了有前景的、可扩展的结果[
不同类型的用户在Twitter上交流方式不同。他们与他人的联系方式不同,有不同的推特习惯,风格和语言内容也不同。研究Twitter用户之间的对话联系和文本挖掘他们的推文可以帮助根据用户的特征对用户进行分类,并识别不同类型的用户[
个人主要反映他们的个人经历或情感,并倾向于与他人交往。他们经常被提及,也经常提及其他用户。相比之下,组织经常通过url指向外部信息源,并且不太积极地与他人连接。他们经常在推特中被提及,可能是作为信息来源,但很少提及其他用户[
通过分析用户的屏幕名(即其Twitter帐户的用户名)或他们的传记(即其Twitter用户描述),可以确定用户是普通个人还是组织,并揭示潜在的用户属性[
我们的研究依赖于这些先前的发现,并构建了分类特征,帮助区分IBD患者与其他发布该疾病推文的用户。我们调整和扩展了以前的方法,以应对在Twitter上识别IBD患者的不同任务。
在Twitter上参与IBD相关讨论的实体中发现,IBD患者是在Twitter上谈论IBD的最常见用户类型[
佩雷兹等[
IBD患者往往比其他慢性疾病患者更情绪化和消极[
与之前关于患者在推特上情绪的研究不同,[
本研究分为两个主要阶段进行。在患者识别部分,我们构建了一个用户分类器,将患者与在Twitter上谈论IBD的其他实体区分开来。我们考虑了三种类型的分类特征:(1)从用户在Twitter上的活动中提取的特征,(2)用户推文的内容,以及(3)用户网络的社交结构。我们比较了两种分类方法中几种分类算法的性能:一种是先对推文单独分类,然后从推文级分类中推导出用户的类别,另一种是先将推文级特征聚合到用户级特征,然后对用户本身进行分类。
在研究的第二阶段“分析患者的推文”部分中,我们从患者在推特上分享的个人经历中获得了关于IBD的见解。我们通过查询Twitter应用程序编程接口(API)获取与营养或健身相关的特殊关键词来收集与生活方式相关的推文。然后,我们使用研究第一阶段的分类器过滤它们的作者,以获得一组IBD患者描述他们为治疗疾病而采取的不同饮食和体育活动的推文。我们确定了经常提到的生活方式,并使用IBM沃森服务进行实体情感分析,以评估其有效性。
研究第一阶段的一般工作流程:建立一个Twitter用户分类器,用于识别炎症性肠病(IBD)患者。
研究第二阶段的一般工作流程:使用第一阶段的分类来分析患者的推文。IBD:炎症性肠病。
我们使用Twitter搜索API收集了10天的ibd相关推文(从2018年2月11日中午到2018年2月21日中午)。我们使用OR运算符搜索3个关键字中的至少一个:
然后将收集到的722位推文作者手动分为患者(1)和非患者(0)。总共有3位不同的注释者,即本文的作者(MS, YP和GR)进行标记,并根据他们的推文标记用户。如果每个用户至少有一条推文透露了他们的病情,那么他们的标签为1,否则标签为0(即,如果他们的推文都没有表明他们是IBD患者)。
对于655名用户(n=181, 27.6%患者,n=474, 72.4%其他用户),标注者完全一致,并设置了标签。为了解决关于其他9.3%(67/722)用户的争议,批注者通过考虑用户的用户名和履历,并在必要时审查他们的时间线,对他们基于推文的决定提出了质疑。考虑到新的数据,在剩余的67名用户中,45名(67%)在他们的传记或时间轴中明确提及他们的疾病后被归类为患者。总共有12%(8/67)的人谈到了其他生病的人,注释者一致认为他们自己不是IBD患者。对于剩下的21%(14/67)的用户,注释者没有达成共识,因此,这些用户从数据集中被省略了。标记过程结束时收集了708个标记用户:226个(31.9%)患者和482个(68.1%)非患者。
为了训练推文级别的分类器,我们还必须手动注释推文。我们处理了原始搜索查询中收集的推文(2018年2月),并从收集中排除了转发(RTs)。由于目的是为了识别患者,我们对重塑内容不感兴趣,只将用户的RT倾向作为行为分类特征。在排除RTs和14个我们没有达成注释共识的用户后,我们剩下1687条推文。为了像注释用户时那样考虑用户的传记,我们将每个传记作为另一个传记添加
在注释过程中,我们想确定某个tweet是否显示用户是IBD患者。明确暗示其作者是IBD患者的推文收到的标签为1,其他所有人收到的标签为0。由于我们已经注释了用户,所有非耐心用户所写的1638条推文都自动接收到0标记。然后,3个注释者(MS、YP和GR)手动对患者写的所有推文进行分类。共有346条tweet被一致归为1,288条tweet被一致归为0。注释者没有就6条推文(由6个不同的用户编写)达成共识,因此它们被排除在集合之外。所有6个用户至少还有一条推文,因此,他们都没有被完全排除在我们的数据集中。最后,我们收集了2272条推文,其中346条(15.23%)明确透露了作者的病情。
为了丰富我们的数据,我们为每个被标记的用户收集了另一周的推文(从2018年6月10日中午到2018年6月17日中午),这一次没有额外的过滤。在过去的几个月里,有6.6%(47/708)的用户被Twitter暂停使用或将其账户改为私有,他们的数据不再可供收集。另外93.4%(661/708)的用户收集了额外的一周,该过程产生了由194名患者和467名非患者撰写的82,884条推文的数据集。我们也从推文数据集中排除了同样的47个用户,最终的数据集包含2204条推文,其中325条(14.75%)是积极的推文。
传统的分类问题是监督学习问题,在这种问题中,一个人收到一组单独标记的实例,并试图预测新实例的类标签。相比之下,MI学习是一种监督学习方法,其中每个学习示例都是一个
之前有关识别推特上健康提及的研究依赖于传统的监督学习来确定是否有健康问题
我们使用了基于元数据的MI方法,并为每个包(用户)提取了一个与任何特定实例(推文)不相关的元数据向量[
为了评估使用这种集体方法的有效性,我们比较了5种标准分类算法在用户级和推文级分类中的结果,如分类模型一节中详细解释的那样。
饶等[
分类特点及其类型概述。
用户分类特性、特性级别和特性 | 类型 | ||
|
|||
|
|
||
|
|
推特计数器 | 整数 |
|
|
转发计数器 | 整数 |
|
|
转发率 | 浮动(0到1) |
|
|
炎症性肠病一个国旗 | 二进制 |
|
|
用户级IBD比率 | 浮动(0到1) |
|
|
克罗恩病的旗帜 | 二进制 |
|
|
用户级别的克罗恩比率 | 浮动(0到1) |
|
|
结肠炎的旗帜 | 二进制 |
|
|
用户级结肠炎比率 | 浮动(0到1) |
|
|
||
|
|
推特计数器 | 整数 |
|
|
转发计数器 | 整数 |
|
|
转发率 | 浮动(0到1) |
|
|
IBD计数器 | 整数 |
|
|
Bio-IBD国旗 | 二进制 |
|
|
炎症性肠病的比率 | 浮动(0到1) |
|
|
克罗恩病计数器 | 整数 |
|
|
Bio-Crohn国旗 | 二进制 |
|
|
克罗恩病的比率 | 浮动(0到1) |
|
|
结肠炎计数器 | 整数 |
|
|
Bio-colitis国旗 | 二进制 |
|
|
结肠炎的比率 | 浮动(0到1) |
|
|||
|
|
||
|
|
Emoji计数器 | 整数 |
|
|
感叹词计数器 | 整数 |
|
|
亵渎计数器 | 整数 |
|
|
提到计数器 | 整数 |
|
|
标签计数器 | 整数 |
|
|
URL国旗 | 二进制 |
|
|
第一人称的旗帜 | 二进制 |
|
|
字数 | 整数 |
|
|
字符数 | 整数 |
|
|
极性 | 浮动(−1 to 1) |
|
|
正极性标志(如果极性>为0,则为1) | 二进制 |
|
|
负极性标志(极性<0为1,否则为0) | 二进制 |
|
|
主体性 | 浮动(0到1) |
|
|
乔治。b主题分布(document=tweet) | 20×float (0 - 1) |
|
|
||
|
|
Emoji总和 | 整数 |
|
|
Emoji平均 | 浮动 |
|
|
Bio-emoji计数器 | 整数 |
|
|
感叹词和 | 整数 |
|
|
感叹词的平均 | 浮动 |
|
|
Bio-interjection计数器 | 整数 |
|
|
亵渎和 | 整数 |
|
|
亵渎平均 | 浮动 |
|
|
Bio-profanity计数器 | 整数 |
|
|
提到总和 | 整数 |
|
|
提到平均 | 浮动 |
|
|
Bio-mention计数器 | 整数 |
|
|
标签和 | 整数 |
|
|
标签平均 | 浮动 |
|
|
Bio-hashtag计数器 | 整数 |
|
|
URL和 | 整数 |
|
|
URL平均 | 浮动(0到1) |
|
|
Bio-URL国旗 | 二进制 |
|
|
第一人称和 | 整数 |
|
|
第一人称的平均 | 浮动(0到1) |
|
|
Bio-first-person国旗 | 二进制 |
|
|
词的平均 | 浮动 |
|
|
生物字数 | 整数 |
|
|
字符平均 | 浮动 |
|
|
生物字符数 | 整数 |
|
|
Bio-polarity | 浮动(−1 to 1) |
|
|
正极性和 | 整数 |
|
|
正极性平均 | 浮动(0到1) |
|
|
负极性和 | 整数 |
|
|
负极性平均 | 浮动(0到1) |
|
|
主体性平均 | 浮动(0到1) |
|
|
Bio-subjectivity | 浮动(0到1) |
|
|
LDA主题分布(文档=所有用户的推文) | 20×float (0 - 1) |
|
|||
|
|
||
|
|
用户级登录 | 浮动 |
|
|
用户级注销度 | 浮动 |
|
|
用户级亲密 | 浮动(0到1) |
|
|
||
|
|
日志入度 | 浮动 |
|
|
日志有关学位 | 浮动 |
|
|
亲密 | 浮动(0到1) |
一个IBD:炎症性肠病。
bLDA:潜狄利克雷分配。
设计这种类型的功能是为了捕捉用户在Twitter上的活动:他们多久发一次Twitter ?他们是写新内容还是主要转发其他内容?此外,他们提到IBD的频率如何?我们计算了数据集中的tweet和RT的数量,并计算了每个用户的RT比。我们统计了他们在推特中使用我们的关键词的次数,以解释他们处理IBD的频率。将用户级分类的聚合特征复制到所有用户的推文中,丰富了推文级分类。
第二类特征来自Twitter用户的语言风格:他们是用第一人称写作吗?他们倾向于使用表情符号还是通过URL添加对外部资源的引用?我们使用了两种语言特征。根据以往的研究[
承认个人和组织在Twitter上的交流方式不同[
我们从推文级别的功能开始,然后根据用户分组来代表个人的写作风格。为了反映用户在Twitter上表达自己的方式,我们将RTs排除在聚合之外。例如,使用该URL的推文数量仅计算原始推文。由于推文级分类器将用户的传记视为推文,我们将从传记中提取的语言特征作为生物特征添加到用户级分类器中。
在自然语言处理中,有几种方法可以获得文本的向量表示。其中一种比较著名且研究比较深入的技术是文本文档的贝叶斯概率模型,称为潜狄利克雷分配(latent Dirichlet allocation, LDA)。LDA是一种用于发现摘要的主题建模技术
我们使用LDA来表示推文级和用户级分类特征中的文本。在推文级特征中,每条推文都被认为是一个文档,并且每个推文都获得了表示。对于用户级功能,同一作者的所有推文都合并到一个文档中,以获得每个用户的表示。所有的功能都使用了数据清理后的文本的一格和二格表示。文本清理过程包括转换为小写,删除标点符号和停止词,并将链接和其他特殊符号规范化为标准表示。
我们讨论的最后一类功能代表用户在Twitter上的社交联系。我们使用Twitter API来收集每个用户的关注者和被关注者。对于每个用户,我们保留他们拥有的追随者数量(影响力意义上的out-degree)和他们拥有的追随者数量(in-degree),并使用对数刻度对结果进行缩放。我们还计算了每个用户的亲密中心性度量。将用户级分类的聚合特征复制到所有用户的推文中,丰富了推文级分类。
为了区分IBD患者和其他发布IBD推文的用户,我们比较了2种分类方法中几种分类算法的性能:SI学习方法,首先对推文进行单独分类,然后从推文级分类中推导出用户的类别;基于元数据的MI学习方法,首先将推文级特征聚合到用户级特征,然后对用户本身进行分类。
基于元数据的MI方法首先将MI数据转换为SI数据,然后将标准SI算法应用于转换后的问题[
对于这两种方法,我们测试了5种用于二进制分类任务的标准和知名算法,如我们的:AdaBoost、梯度增强分类器、线性支持向量机、逻辑回归和随机森林。所有算法都应用于Python中的scikit-learn (sklearn)包[
我们将数据集按用户划分为训练集和测试集(大约80%-20%)。训练集有155名患者和377名非患者,测试集有39名患者和90名非患者;因此,集合保持了组之间的比例。
在推文级别分类中,基于用户的分割进行训练集和测试集的分割,属于训练集的用户的推文归属于推文训练集,而属于测试集的用户的推文归属于推文测试集。结果,推文训练集包含263条正面推文和1586条负面推文,而测试集包含62条正面推文和293条负面推文。
我们从所有算法的超参数优化开始,在两种方法的训练数据上使用5倍交叉验证。每个算法和参数的测试值可以在
总共有4个常用指标被用来评估模型:精密度,召回率,F1评分,以及受试者工作特征曲线(ROC AUC)下面积。所有4个指标都是在我们感兴趣的正面类别中计算出来的。在我们的设置中,精确度描述了一个积极预测确实是一个病人的概率,召回描述了分类器检索病人的能力,而F1Score结合了2。ROC AUC考虑这两个类别的召回率,并衡量模型在不收集大量不需要的其他用户的情况下检索患者的能力。
为了选择最佳的算法变体,我们使用了10倍交叉验证技术来可靠地评估预测能力。在此过程中,我们将训练集随机分为10个大小相等的部分;然后,我们对9个零件进行迭代训练,并对遗漏的零件进行模型评估。我们重复这个迭代10次,每次都省略不同的部分。此外,我们用不同的种子初始化重复了10次10倍交叉验证过程,以改变随机分割。每次都会计算性能指标,结果部分中显示的结果显示了这100次迭代的平均值。
在用户级分类中,我们使用Python中的sklearn包在分类过程中获得了所有4个指标。然而,在推文级别的分类中,在直接从sklearn包中获得指标之前,还需要另一个聚合阶段——该过程返回每个推文的预测(无论它是由病人写的),我们必须通过聚合对用户推文的预测来推断用户的预测。与手动注释过程一样,如果用户的所有推文都收到了0的预测,则该用户被认为是非耐心的,并收到了负面的预测。或者,如果用户至少有一个积极的预测,他们被认为是一个病人,并收到一个积极的预测。然后,我们使用sklearn包根据我们获得的用户预测和他们的真实标签来计算用户级指标。
最后,我们在整个训练集上训练每种方法(MI和SI)的模型,并在测试集上评估它们的预测。我们使用内置的特征重要性sklearn方法来研究每个特征对逻辑回归和随机森林算法的贡献。系数的绝对值表示特征对逻辑回归的重要性。
这项研究的下一个目标是获得一组推特,患者在推特上描述他们尝试过的与生活方式相关的治疗方法及其症状。通过过滤和合并不同的基于web的数据库[
我们搜索了2019年1月1日至2019年9月30日的相关推文。我们从搜索中排除了即时消息和重复的推文,并将搜索限制在用英语写的推文上。搜索结果显示,8519名不同用户发布了201136条独特的推文,其中包含新内容。
我们使用了第一部分研究中收集的新数据的分类器,将推文分类为患者推文和用户推文。我们需要为8519个新用户重新创建分类特性。正如我们在第一阶段所做的那样,我们收集了2019年10月1日至10月7日所有用户的另一周的推文,没有进行关键词过滤,也不包括即时消息。共有39.52%(3367/8519)的用户处于私有、挂起或其他不可用状态。该过程产生了5152个用户的数据集,他们总共撰写了402,843条推文。
我们在新数据上构建了分类特征一节中描述的所有分类特征,除了接近中心性。获得这个功能既昂贵又耗时,因为它是唯一需要为每个用户收集所有关注者和关注者并建立他们的Twitter网络的功能。由于它不是10个最有用的分类特征之一,我们决定省略它。
然后,我们使用在第一阶段训练的MI随机森林模型(详细信息请参阅分类模型部分)对用户进行分类并识别患者。共有45.79%(2359/5152)的用户被归类为患者,他们撰写了4160条包含我们关键词的原始推文。我们对这些推文进行了简单的文本清理,删除了所有的屏幕名(由@字符标识)和url,并继续对4160条干净的推文进行分析。
IBM Cloud的自然语言理解(NLU)模块[
目的是确定患者为控制疾病而接受的与生活方式相关的治疗,并确定他们对这些治疗的看法。因此,我们将分析重点放在与健康和营养相关的关键词上。我们将NLU模块分类的所有推文按相关进行分组
文本清洗后的类别分类和关键词情感提取三个例子。
数量 | 原始文本 | 清洗后的文本 | 类别分类 | 关键字的情绪 |
1 | 菠菜是一种含有大量硫的炎症食物。也要禁止。(我注意到我的克罗恩病往往在菠菜季节发作。) | 菠菜是一种含有大量硫的炎症食物。也要禁止。(我注意到我的克罗恩病往往在菠菜季节发作。) | 食物和饮料 | 菠菜:−0.63 |
2 | 很棒的投票。我确实偶尔会酗酒,但IBD已经改变了我能喝的东西。不要再喝红酒或麦芽酒了 |
伟大的调查。我确实偶尔会酗酒,但IBD已经改变了我能喝的东西。不要再喝红酒或麦芽酒了 |
食物和饮料 | 红酒:−0.83;啤酒:−0.83 |
3. | 我是活生生的证明,瑜伽可以帮助#uchicagoibd #studiothree #瑜伽#ibd | 我是活生生的证明,瑜伽可以帮助#uchicagoibd #studiothree #瑜伽#ibd | 宗教与灵性 | 瑜伽:0.69 |
为了检验每个与生活方式相关的短语(简而言之,生活方式)的有效性,并评估其整体情绪,我们将结果按生活方式汇总,并计算出以下统计数据:这种生活方式在所有推文中出现的总次数,它在积极(或消极)上下文中出现的次数,出现次数的正负比(几率),以及这种生活方式的平均情绪。
我们利用统计数据建立了一个共现网络,将生活方式和他们的平均情绪之间的联系可视化。不同的生活方式是节点,如果两种生活方式出现在同一条推文中,就会出现一条弧线连接它们。他们一起出现的次数越多,生活方式之间的联系就越强。因此,得到的网络是无方向的,并根据生活方式同时发生的次数进行加权。目的是确定有益的生活方式(在积极的情况下经常被提及)和最好避免的生活方式(在消极的情况下经常被提及),并检查某些生活方式是否倾向于一起实施。
网络是通过
Twitter数据的收集和分析可能会引发道德挑战,应该予以妥善处理。Twitter数据是公开的,可以通过Twitter api进行研究。通过接受Twitter的服务条款和隐私政策,Twitter用户承认他们的推文可以在全球范围内立即被查看,他们的信息可能会被第三方收集。
获得所有用户的知情同意
为了遵守道德规范和维护用户隐私,我们只发布汇总结果,不透露具体用户。这3个例子直接引用了推文(in
单实例(SI)和多实例(MI)分类的10倍交叉验证和测试结果。
算法与度量 | SI推文级别分类 | MI用户级分类 | ||||||||
|
10倍 | 测试 | 10倍 | 测试 | ||||||
|
||||||||||
|
精度 | 0.6775 | 0.7241 | 0.6151 | 0.5902 | |||||
|
回忆 | 0.6297 | 0.5385 | 0.7284 | 0.9231 | |||||
|
F1分数 | 0.6525 | 0.6176 | 0.6542 | 0.7200 | |||||
|
中华民国AUC一个 | 0.7532 | 0.7248 | 0.8469 | 0.8226 | |||||
|
||||||||||
|
精度 | 0.7416 | 0.6471 | 0.6668 | 0.6735 | |||||
|
回忆 | 0.6465 | 0.5641 | 0.6778 | 0.8462 | |||||
|
F1分数 | 0.6906 | 0.6027 | 0.6711 | 0.7500 | |||||
|
中华民国AUC | 0.7768 | 0.7154 | 0.8658 | 0.8342 | |||||
|
||||||||||
|
精度 | 0.7249 | 0.6667 | 0.6648 | 0.5814 | |||||
|
回忆 | 0.6832 | 0.7179 | 0.6398 | 0.6410 | |||||
|
F1分数 | 0.7034 | 0.6914 | 0.6472 | 0.6098 | |||||
|
中华民国AUC | 0.7883 | 0.7812 | 0.8463 | 0.7205 | |||||
|
||||||||||
|
精度 | 0.7405 | 0.6333 | 0.6594 | 0.6250 | |||||
|
回忆 | 0.6335 | 0.4872 | 0.6358 | 0.6410 | |||||
|
F1分数 | 0.6829 | 0.5507 | 0.6423 | 0.6329 | |||||
|
中华民国AUC | 0.7712 | 0.6825 | 0.8473 | 0.7372 | |||||
|
||||||||||
|
精度 | 0.7676 | 0.7333 | 0.6721 | 0.6444 | |||||
|
回忆 | 0.4355 | 0.2821 | 0.6646 | 0.7436 | |||||
|
F1分数 | 0.5555 | 0.4074 | 0.6595 | 0.6905 | |||||
|
中华民国AUC | 0.6906 | 0.6188 | 0.8722 | 0.7829 |
一个ROC AUC:受试者工作特征曲线下的面积。
b支持向量机:支持向量机。
两种方法对患者分类结果均令人满意。尽管SI方法的准确率略高,但MI方法的召回指数更好,并且MI方法的ROC AUC测量结果始终较高。
两种分类方法的测试结果比较。MI:多实例;ROC AUC:受试者工作特征曲线下面积;SI:单实例;支持向量机:支持向量机。
调查每个特征对逻辑回归和随机森林算法的贡献,显示了使用第一人称语音的重要性。在分类方法和算法中,最重要的特征是第一人称的使用,这比其他特征有显著的优势。第一人称标志是SI方法的最佳特征,其平均值是MI方法的最佳特征。另一个主要特征是使用脏话,因为它是方法和算法中最重要的特征之一。
分析还强调了文本衍生的LDA特征的重要性。SI方法的第二个最佳特征是逻辑回归和随机森林算法的LDA主题11。这是唯一一个不包含ibd相关词汇的话题。MI方法的第4和第5个最重要的主题对于两种算法都是相同的——分别是lda主题17和9。在每种方法的训练数据上创建的LDA主题可以在
在研究的第二阶段,建立并可视化了生活方式之间的联系网络。所得到的描述不同生活方式之间关系的网络可以在
在我们的数据库中出现频率最高的单词是
有趣的是,分析揭示的消极和积极的生活方式与已知的适合IBD的营养是一致的。我们发现,在最消极的生活方式(刻薄的情绪)中
20种最积极和最消极的生活方式按刻薄情绪排序。
排名 | 关键字 | 数 | 情绪,刻薄(SD) | 正数计数 | 负计数 | 几率 |
1 | 寿司 | 9 | 0.466 (0.814) | 7 | 2 | 3.500 |
2 | 生姜啤酒 | 5 | 0.407 (0.597) | 3. | 1 | 3.000 |
3. | 大马哈鱼 | 7 | 0.344 (0.691) | 4 | 3. | 1.333 |
4 | 樱桃 | 10 | 0.33 (0.696) | 6 | 2 | 3.000 |
5 | 早餐 | 29 | 0.28 (0.75) | 19 | 9 | 2.111 |
6 | 大蒜 | 8 | 0.244 (0.671) | 4 | 2 | 2.000 |
7 | 百吉饼 | 5 | 0.224 (0.633) | 3. | 1 | 3.000 |
8 | 杏仁 | 9 | 0.193 (0.668) | 6 | 3. | 2.000 |
9 | 酸奶 | 14 | 0.189 (0.688) | 7 | 3. | 2.333 |
10 | 瑜伽 | 15 | 0.186 (0.693) | 7 | 5 | 1.400 |
11 | 火腿 | 5 | 0.184 (0.535) | 2 | 1 | 2.000 |
12 | 饼干 | 13 | 0.172 (0.75) | 8 | 5 | 1.600 |
13 | 菠菜 | 6 | 0.171 (0.76) | 4 | 2 | 2.000 |
14 | 素食奶酪 | 5 | 0.164 (0.92) | 3. | 2 | 1.500 |
15 | 羊肉 | 5 | 0.14 (0.861) | 3. | 2 | 1.500 |
16 | 蛋糕 | 26 | 0.13 (0.752) | 16 | 9 | 1.778 |
17 | 健身 | 19 | 0.114 (0.728) | 9 | 6 | 1.500 |
18 | 姜 | 17 | 0.112 (0.724) | 8 | 7 | 1.143 |
19 | 番茄 | 10 | 0.089 (0.608) | 5 | 3. | 1.667 |
20. | 咖啡馆 | 7 | 0.081 (0.783) | 3. | 3. | 1.000 |
125 | Fodmap | 12 | −0.501 (0.573) | 2 | 9 | 0.222 |
126 | 鸡尾酒 | 5 | −0.51 (0.769) | 1 | 4 | 0.250 |
127 | 纤维 | 63 | −0.512 (0.547) | 7 | 47 | 0.149 |
128 | 辣的 | 37 | −0.514 (0.572) | 7 | 28 | 0.250 |
129 | 蔬菜 | 49 | −0.533 (0.529) | 6 | 39 | 0.154 |
130 | 玉米 | 28 | −0.534 (0.487) | 2 | 22 | 0.091 |
131 | 酒精 | 64 | −0.545 (0.545) | 9 | 51 | 0.176 |
132 | 奶昔 | 5 | −0.556 (0.811) | 1 | 4 | 0.250 |
133 | 牛奶 | 44 | −0.565 (0.5) | 4 | 35 | 0.114 |
134 | 素食 | 10 | −0.567 (0.409) | 1 | 8 | 0.125 |
135 | 零食 | 10 | −0.573 (0.568) | 2 | 8 | 0.250 |
136 | 无花果 | 5 | −0.578 (0.621) | 1 | 4 | 0.250 |
137 | 火鸡 | 10 | −0.608 (0.626) | 2 | 8 | 0.250 |
138 | 酵母 | 16 | −0.624 (0.391) | 1 | 13 | 0.077 |
139 | 橙色 | 7 | −0.638 (0.449) | 0 | 5 | 0.000 |
140 | 饮料 | 7 | −0.661 (0.616) | 1 | 6 | 0.167 |
141 | 卷心菜 | 8 | −0.675 (0.19) | 0 | 8 | 0.000 |
142 | 橙汁 | 5 | −0.682 (0.385) | 0 | 4 | 0.000 |
143 | 面粉 | 6 | −0.785 (0.211) | 0 | 6 | 0.000 |
144 | 小扁豆 | 6 | −0.785 (0.188) | 0 | 6 | 0.000 |
这项研究提出了在Twitter上识别IBD患者并探索他们的推文的工作流程。目的是根据患者在推特上的交流方式来识别IBD患者,并从他们分享的个人经历中学习。
在研究的第一阶段,构建并评估了一个用于区分IBD患者和其他用户的Twitter用户分类器。结合社交数据和文本分析的分类特征从用户在Twitter上的活动、他们的社交关系和他们的推文内容中提取出来。考虑了多种分类算法,每种算法计算了4个评价指标。前一节中显示的令人鼓舞的结果帮助我们相信,基于这些特征,可以在Twitter上识别IBD患者。
来自SI和MI方法的分类结果表明,IBD患者在Twitter上与其他用户交流的方式不同。他们更经常使用第一人称说话,在推特上使用更多的脏话。这些差距可以解释为,患者是私人个体,而非患者也包括以更正式的方式交流的组织和自愿协会,有助于将患者与我们在本研究中尝试的不同分类模型中的其他实体区分开来。
我们的分析与之前关于Twitter用户分类的研究不同[
在研究的第二阶段,收集了IBD患者的推文,以调查他们为应对疾病而采取的不同生活方式,并评估这些生活方式的有效性。与之前关于患者在Twitter上情绪的研究不同[
这项研究表明,在了解慢性疾病方面,医生和工程师之间有合作的空间。由于该病的慢性性质和涉及肠道运动的事实,IBD患者被迫遵循特殊的营养并保持平静的日常生活。通过收集和分析患者在社交媒体上的个人经历,我们可以监测患者的生活方式,并支持IBD的医学知识。我们可以确定和评估饮食和体育活动的补充治疗方法,也许可以简化患者寻找正确治疗方法的过程。虽然这样的分析不应该试图取代医生或得出临床性质的结论,但它可以根据大众的智慧为健康的生活方式提供补充建议。
这项研究的重点是展示在推特上识别IBD患者并从他们的推特中学习的潜力。本次研究强调的是整个过程,我们并没有单独完善每一个环节。正如本节所解释的,每个部分都可以通过尝试不同的方法和丰富分析来改进。
本研究第一阶段开发的分类器使用1级二元分类将IBD患者与其他发布该疾病推文的用户分开。它的一些特征在一般情况下将组织与个人区分开来,并不一定能检测到患者,例如在推文中使用第一人称。因此,我们的非患者类是异构的,并且有些模糊,既包括在通信模式上与患者显著不同的组织,也包括以更精细的方式与患者不同的健康个体。即使在手动标记过程中,由于分类分歧而被排除在数据集中的所有14名用户都是用第一人称说话的人。
未来工作的一个可能方向是尝试两步分类:将个人与组织分开,并继续在这些个人中寻找患者。它可以通过克服模型中非患者类的异质性来提高某些特征的鲁棒性。或者,我们可以尝试用多项分类来取代二元分类,这样不仅可以捕获组织和患者,还可以捕获谈论疾病的个人,可能会提到其他患者,但自己没有生病。
在构建基于网络的功能时,我们只收集了Twitter上的即时连接(即每个患者的关注者和关注者)。抽样方法产生了基本的网络特征,主要包括度测量。我们鼓励未来的研究考虑更多有趣的网络特征,如其他中心性测量或结构。这样的增强将需要收集至少一个级别的连接(例如,被关注者的被关注者),以更好地理解网络模式。
最后,分类器使用标准的分类算法,没有尝试当前最先进的基于神经网络的学习技术。使用词嵌入的文本表示,其中单词被映射到预定义向量空间中的实数向量[
IBM Cloud的NLU模块在这项研究中用于实体情感分析,作为概念验证。我们没有评估其结果,也没有将其与市场上可用的类似工具(如谷歌Cloud的自然语言API)进行比较。未来的研究应该考虑使用不同的自然语言处理工具进行类似的分析,并比较它们的结果。即使是对来自生活方式相关推文数据的指定算法进行训练,比如本研究中使用的那些数据,也可以使分析受益。
总的来说,第二部分的结果是初步的,要了解IBD患者在Twitter上谈论的内容,还有很多工作要做。例如,通过描述治疗方案和患者对它们的看法,人们可以根据人群的智慧得出健康生活方式的建议。彻底探索异常值,比如4次提到牛奶,而不是35次提到牛奶,可以揭示有关这种疾病的新信息,这些信息尚未在文献中覆盖。
在个性化医疗和以患者为中心的护理时代,获得反映患者观点的见解非常重要,这一点在社交媒体上得到了体现。尽管医生预约之间的间隔时间可能很长,但每天都有人在社交媒体上发布消息,患者不断利用它们交换意见和建议。
这项研究为在Twitter上识别慢性疾病患者提供了一个潜在的渠道,并收集他们的推文来分析他们在网上分享的实验知识。本研究中提出的方法应用于IBD,也可以帮助探索其他疾病。ibd相关实体的分类器可用于识别其他慢性疾病患者。对患者推文的分析可以帮助研究其他具有类似特征的慢性疾病。对于乳糜泻或糖尿病等涉及严格饮食指南的疾病,人们可以更好地理解患者在坚持新的生活方式方面的困难。当考虑到引起尴尬的疾病时,如艾滋病毒,人们可以更多地了解患有这种疾病的患者的持续斗争。
因此,本研究的贡献是双重的:它为文本挖掘和社交媒体领域提供了分析性的贡献,并通过更好地了解慢性疾病和促进慢性疾病患者的健康生活方式做出了实际贡献。
分类算法的参数优化。
420个与生活方式相关的词汇。
在每种分类方法的训练数据上创建潜在的狄利克雷分配主题。
与生活方式相关的词汇之间的关系网络。
应用程序编程接口
炎症性肠病
潜在狄利克雷分配
多个实例
自然语言理解
接收机工作特性曲线下面积
转发
单一实例
这项研究由欧洲研究区域网络共同基金健康饮食促进健康生活联合计划倡议下的肠道微生物学资助
没有宣布。