发表在24卷,第8号(2022): 8月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/29186,首次出版
在Twitter上识别炎症性肠病患者并从他们的个人经历中学习:回顾性队列研究

在Twitter上识别炎症性肠病患者并从他们的个人经历中学习:回顾性队列研究

在Twitter上识别炎症性肠病患者并从他们的个人经历中学习:回顾性队列研究

原始论文

以色列贝尔谢瓦,内盖夫本古里安大学工业工程与管理系

*所有作者贡献均等

通讯作者:

玛雅·斯坦默,理学硕士

工业工程与管理系

内盖夫本-古里安大学

POB 653

比尔,84105

以色列

电话:972 8 6641434

电子邮件:mayast@post.bgu.ac.il


背景:患者使用社交媒体作为另一种信息来源,在那里他们分享信息并提供社会支持。尽管Twitter和其他社交网络平台每天都会发布大量与健康相关的数据,但利用社交媒体数据来了解慢性病和患者生活方式的研究是有限的。

摘要目的:在这项研究中,我们通过提供一个在Twitter上识别炎症性肠病(IBD)患者并从他们的个人经历中学习的框架,为缩小这一差距做出了贡献。我们通过构建一个区分患者和其他实体的Twitter用户分类器来分析患者的推文。这项研究旨在揭示利用Twitter数据促进IBD患者福祉的潜力,依靠人群的智慧来确定健康的生活方式。我们试图利用描述患者日常活动及其对健康的影响的帖子来描述与生活方式相关的治疗。

方法:在研究的第一阶段,使用了结合社会网络分析和自然语言处理的机器学习方法来自动分类用户是否为患者。我们考虑了3种类型的特征:用户在Twitter上的行为,用户tweets的内容,以及用户网络的社会结构。我们比较了两种分类方法中几种分类算法的性能。其中一个对每条推文进行分类,并从推文级别分类中推断出用户的类别。另一种方法是将tweet级别的功能聚合为用户级别的功能,并对用户本身进行分类。采用4个指标对不同的分类算法进行检验和比较:准确率、召回率、F1评分和接收者工作特征曲线下面积。在第二阶段,使用第一阶段的分类器收集患者的推文,这些推文描述了患者为应对疾病而采取的不同生活方式。使用IBM Watson服务进行实体情绪分析,我们计算了IBD患者在描述日常生活时使用的420个与生活方式相关的单词的平均情绪。

结果:两种分类方法都显示出令人鼓舞的结果。虽然推文水平方法的准确率略高,但用户水平方法的召回率和接收者工作特征曲线下面积明显更好。对IBD患者写的推文进行情感分析,确定了经常被提及的生活方式及其对患者健康的影响。研究结果加强了人们对IBD适宜营养的认识,因为一些已知会引起炎症的食物被认为是消极的,而放松活动和抗炎食物则出现在积极的环境中。

结论:这项研究提出了一个在Twitter上识别IBD患者并收集他们的推文以分析他们分享的实验知识的管道。这些方法可以适用于其他疾病,并加强对慢性病的医学研究。

[J] .医学与互联网学报,2010;24(8):29186

doi: 10.2196/29186

关键字



背景

近年来,社交网站和基于网络的社区已成为患者的另一种信息来源。各地的患者都使用社交媒体分享健康和治疗信息,相互学习经验,并提供社会支持。挖掘这些信息丰富的对话可能会对患者的生活方式和慢性病研究提供一些启示。

近年来,文本挖掘和社交网络分析已被用于检测Twitter上关于健康的提及[12]或追踪COVID-19大流行的传播和症状[3.-5].关于慢性疾病,之前的研究主要集中在分析患者的推文和发现他们的推特社区[6-10].尽管对糖尿病或癌症的研究相对较多,但对炎症性肠病(IBD)的研究才刚刚开始巩固。

IBD是一种消化系统的慢性炎症性疾病,其特点是发作和缓解状态。克罗恩病和溃疡性结肠炎是IBD的两种主要疾病,通常在年轻患者(15-30岁)中被诊断出来。IBD的发病率正在迅速上升,并已演变为一种全球性疾病[11-14].

目前还没有药物或外科手术可以治愈IBD。治疗方案只能对症状有所帮助,对每个病人的影响是不同的。它们包括处方药和与生活方式相关的解决方案,如饮食和治疗。症状包括腹痛、腹泻和疲劳,严重者可能导致住院或手术干预[1516].作为慢性肠道疾病,克罗恩病和溃疡性结肠炎都需要日常的药物治疗和特殊的营养。

患者将IBD描述为一种令人尴尬的疾病,会导致日常活动立即中断。他们在适应变化方面遇到困难,并认为自己与同龄人不同。由于IBD的特点是频繁排便,人们不急于与他人分享他们的疾病[1517-19].根据IBD患者的说法,部分尴尬可归因于缺乏公众意识。外人看不出一个人的胃痛或肠子有疤痕。这种疾病是看不见的,其他人可能会怀疑它的存在。20.21].

IBD造成的尴尬以及向有类似经历的人倾诉的需要有助于解释Twitter上IBD相关社区的创建。通过克服空间和距离,Twitter用户形成了一个无视物理边界或不动性的社区。共同点有助于打破障碍,促进对话,增加一个人分享的意愿[2223].根据个人经验,与其他能够联系并更好地了解情况的患者进行咨询可能更容易。人们可以更紧密地识别与自己相似的用户故事,并更容易接受他们的建议[24].当人们在Twitter上披露健康信息时,他们暴露在各种各样的观点中,减少了对自己疾病的不确定性[25].

由于IBD的性质及其对消化系统的影响,IBD患者被迫每天应对疾病,坚持严格的饮食方案,保持平静的日常生活。营养或身体活动的改变,目前是通过试错来测试的,对病人来说,这是一个漫长而痛苦的过程。我们可以从他们的个人经历中学习,并通过收集和分析患者的社交媒体数据,为现有的疾病医学知识提供额外的基础。基于人群智慧的补充建议可以缓解患者的生活,缩短为他们找到正确生活方式的过程。

目标与贡献

这项研究旨在通过收集和分析IBD患者分享的有关疾病的个人经历,揭示利用Twitter数据促进IBD患者福祉的潜力。我们建议建立一个框架,用于在Twitter上识别IBD患者,并检查他们分享的有关疾病的内容。我们首先建立了一个用户分类器,将患者与在Twitter上谈论IBD的其他实体区分开来,然后使用分类器收集患者的推文,并探索他们为应对疾病而接受的与生活方式相关的治疗。

这项研究的重点是创建一个使用Twitter数据来识别IBD患者并探索他们共享的信息的管道。虽然本研究的每个部分都可以通过尝试其他分类方法或丰富患者推文的分析来扩展,但本研究显示了利用Twitter数据增强IBD医学知识的潜力。我们证明,即使使用经典的、简单的分类算法,也可以根据Twitter上的交流来识别患者。我们比较了两种不同的用户分类方法(单实例(SI)学习方法和多实例(MI)学习方法)的性能,并展示了使用后者的好处。本研究第二部分的初步分析表明,可以从患者自我报告的推文中获得与健康相关的见解。

使用建议的框架来识别更多的患者并收集更多的数据,可以揭示他们对他们尝试的治疗方法的看法,或者探索疾病的其他方面,例如对患者生活质量的影响。该框架也适用于其他慢性疾病。它可用于比较IBD患者与一般人群或其他慢性疾病患者的讨论模式。

相关工作

推特与健康

对健康和福祉背景下的社交媒体的研究继续将Twitter定位为传播健康相关信息的新媒介。与健康相关的推文从简单的牙痛到更严重的慢性疾病,如糖尿病、哮喘或癌症[9102627].肌萎缩性侧索硬化症患者使用Twitter作为沟通手段,美国地方卫生部门使用Twitter进行糖尿病相关信息的教育和传播[2829].甚至像艾滋病毒这样的敏感疾病也会在Twitter上讨论[30.-32].关于谁在推特上发布什么和为什么发布的交流模式因疾病而异[26].

推特是传播卫生信息的强大工具,也是需要即时社会支持或救济的患者的可访问平台。它为与健康有关的对话提供了一个协作环境,慢性病患者可以在这里每天分享他们的健康状况。他们使用Twitter来交流生活方式的影响,或者更好地了解医疗程序。通过Twitter,他们可以轻松方便地接触到大量受众和各种观点[33].

总共有两项先前的研究提出了检测Twitter上个人健康提及的模型,并显示出有希望的、可扩展的结果[12].然而,他们的目标与我们不同,因为他们认为所有讨论特定个人健康状况的推文都是积极的。在我们的研究中,我们试图确定患有特定疾病的患者。我们不仅对患者写的推文进行分类,还对用户自己进行分类。

推特上的交流模式

不同类型的用户在Twitter上的交流方式不同。他们与他人的联系方式不同,有不同的推特习惯,风格和语言内容也不同。研究Twitter用户之间的会话连接,并对其推文进行文本挖掘,可以根据用户的特征对用户进行分类,识别不同类型的用户[34-38].

个人主要反映他们的个人经历或情感,并倾向于与他人交往。他们经常被提及,也经常被提及其他用户。相比之下,组织经常通过url指向外部信息源,并且不太积极地与他人联系。他们经常在推文中被提及,可能是作为信息来源,但很少提及其他用户[3940].

通过分析用户的屏幕名称(即其Twitter账户的用户名)或个人简介(即其Twitter用户描述),可以确定用户是普通个人还是组织,并揭示潜在的用户属性[4142].

我们的研究依赖于这些先前的发现,并构建分类特征,帮助区分IBD患者和其他关于该疾病的推文用户。我们调整和扩展了以前的方法,以应对在Twitter上识别IBD患者的不同任务。

Twitter和IBD

通过研究Twitter上参与IBD相关讨论的实体,我们发现IBD患者是最常见的在Twitter上谈论IBD的用户类型[4344].IBD患者使用Twitter来分享个人经历并寻求社会支持。他们交换对症状和药物的看法,并相互推荐治疗方法。4546].通过在Twitter上分享他们与疾病的生活经历,患者可以对抗疾病的隐形性,并提高公众对IBD的认识[47].

Perez等[48]研究了Twitter上的IBD社区,并确定了讨论这种疾病的用户类型和他们讨论的关键话题。他们通过分析用户的屏幕名和个人履历,根据他们的Twitter资料对用户进行分类。在我们的研究中,我们研究了大量的分类特征,并提出了一个基于Twitter上IBD患者的交流方式和分享内容来检测他们的模型。

IBD患者比其他慢性疾病患者更容易情绪化和消极[49].当他们谈论疾病及其症状时,他们通常表现出消极的情绪,但积极地谈论有助于控制疾病的饮食和药物[48].在推特上提供社会支持的患者更有可能发布积极的推文[50].

与之前有关患者在Twitter上的情绪的研究不同[48-50,我们的研究重点是实体情绪,而不是整条推文的情绪。通过分析患者对与营养和健身相关的特定关键词的看法,我们揭示了影响疾病的某些生活方式的看法。


概述

本研究分两个主要阶段进行。在患者识别部分,我们构建了一个用户分类器,将患者与在Twitter上谈论IBD的其他实体区分开来。我们考虑了三种类型的分类特征:(1)从用户在Twitter上的活动中提取的特征,(2)用户tweets的内容,(3)用户网络的社会结构。我们比较了两种分类方法中几种分类算法的性能:一种是单独对推文进行分类,然后从推文级别的分类中推断出用户的类别;另一种是将推文级别的特征聚合到用户级别的特征中,然后对用户本身进行分类。

在分析患者的推文部分,涵盖了研究的第二阶段,我们从患者在Twitter上分享的个人经历中获得了关于IBD的见解。我们通过查询Twitter应用程序编程接口(API)获取与营养或健身相关的特殊关键字来收集与生活方式相关的tweet。然后,我们使用研究第一阶段的分类器过滤他们的作者,以获得IBD患者描述他们为应对疾病而采用的不同饮食和体育活动的推特集合。我们确定了经常提到的生活方式,并使用IBM沃森服务进行实体情感分析,以评估其有效性。

图12描述研究的两个主要阶段的一般流程。图1描述了我们如何使用Twitter数据对用户进行分类并识别IBD患者。图2演示如何使用分类来分析患者的tweet。

图1所示。研究第一阶段的一般工作流程:建立一个Twitter用户分类器,用于识别炎症性肠病(IBD)患者。
查看此图
图2。研究第二阶段的一般工作流程:使用第一阶段的分类来分析患者的推文。炎症性肠病。
查看此图

病人识别

数据收集和准备

我们使用Twitter Search API收集了10天的ibd相关推文(从2018年2月11日中午到2018年2月21日中午)。我们使用OR运算符搜索3个关键字中的至少一个:克罗恩病结肠炎、#炎症性肠病。缩写IBD被作为标签搜索,以避免投资者商业日报社论账户发布与新闻相关的推文,该账户通常标有炎症性肠病。我们将搜索限制在用英语写的推文上,并收集了2045条推文。

然后将收集到的推文的722位作者手动分类为患者(1)或非患者(0)。总共有3位不同的注释者,即本文的作者(MS, YP和GR)进行标记过程,并根据用户的推文对用户进行标记。如果每个用户至少有一条推文透露了他们的病情,那么他们就会得到1个标签,否则就会得到0个标签(即,如果他们的推文都没有表明他们是IBD患者)。

655名用户(n=181,占患者的27.6%,n=474,占其他用户的72.4%),标注者完全同意,并设置标签。为了解决关于其他9.3%(67/722)用户的争议,注释者通过考虑用户的屏幕名称和传记,并在必要时审查他们的时间线,对他们基于tweet的决定提出质疑。考虑到新的数据,在剩下的67个用户中,有45个(67%)在他们的传记或时间表中明确提到他们的疾病后被归类为患者。共有12%(8/67)的注释者谈到了其他患病的人,并且注释者一致同意他们自己不是IBD患者。对于剩下的21%(14/67)用户,注释者没有达成共识,因此从数据集中省略了这些用户。标记过程结束于708个标记用户的集合:226(31.9%)患者和482(68.1%)非患者。

为了训练推文级别的分类器,我们还必须手动注释推文。我们处理了原始搜索查询(2018年2月)中收集的推文,并从集合中排除了转发(RTs)。由于目的是识别患者,我们对分享内容不感兴趣,只考虑用户对RT的倾向作为行为分类特征。在排除RTs和14个我们没有达成注释共识的用户后,我们还剩下1687条tweet。为了像注释用户时那样考虑用户的传记,我们将每个传记作为另一个传记添加推特作者写的。共有83.5%(591/708)的用户具有非空的传记,该过程产生了2278个集合微博

在注释过程中,我们想确定某条推文是否透露了用户是IBD患者。明确暗示其作者是IBD患者的推文被标记为1,其他所有推文都被标记为0。正如我们已经对用户进行了注释一样,由非患者用户编写的所有1638条tweet都会自动收到0的标记。然后,3个注释器(MS, YP和GR)手动对患者写的所有推文进行分类。共有346条推文被一致分类为1,288条推文被一致分类为0。注释者对6条推文(由6个不同的用户写的)没有达成共识,他们被排除在集合之外。所有6个用户都至少有一条推文,因此,他们都没有被完全排除在我们的数据集中。最后,我们收集了2272条推文,其中346条(15.23%)明确透露了作者的病情。

为了丰富我们的数据,我们为每个被标记的用户收集了另一周的推文(从2018年6月10日中午到2018年6月17日中午),这一次没有额外的过滤。在过去的几个月里,6.6%(47/708)的用户要么被Twitter暂停,要么将账户改为私人账户,他们的数据不再可供收集。另外93.4%(661/708)的用户收集了额外的一周,该过程产生了由194名患者和467名非患者撰写的82,884条tweet的数据集。我们也从推文数据集中排除了同样的47个用户,最终的数据集包含2204条推文,其中325条(14.75%)是正面推文。

MI学习方法

传统的分类问题是有监督的学习问题,其中一个人收到一组单独标记的实例,并试图预测新实例的类标签。相比之下,人工智能学习是一种监督学习方法,其中每个学习示例都是一个一袋实例与1个标签相关联,任务是预测未见袋的标签[51].

之前关于识别推特上健康提及的研究依赖于传统的监督学习来确定是否推特讨论健康状况[12].但是,我们希望确定是否病人可以在推特上识别,而不是单独检查推文。我们的独特任务和数据的不平衡结构与人工智能学习方法是兼容的——我们有661个用户,每个用户发布的推文数量不同。阳性标签(患者)通过找到至少一项用户患有IBD的证据来集体确定;阴性标签(非患者)意味着所有用户的证据都表明不是这样,或者更确切地说,不足以形成阳性标签。

我们使用了基于元数据的MI方法,并为每个包(用户)提取了一个与任何特定实例(tweet)无关的元数据向量[52].分类特征一节解释了我们如何应用特征工程技术来生成特征,这些特征可以描述用户本身,而不仅仅是他们的tweet。

为了评估使用这种集体方法的有效性,我们比较了5种标准分类算法在用户级和推特级分类中的结果,如分类模型一节中详细解释的那样。

分类特征
概述

Rao等[38]和Pennacchiotti和Popescu [3637[]表明,可以通过考虑3种用户分类特征来区分Twitter用户的人口统计学和政治观点:行为特征(从用户在Twitter上的活动中提取的特征)、语言特征(从用户的推文内容中提取的特征)和社会结构特征(描述用户社交网络的特征)。我们遵循他们的工作,并将这些类型调整到我们的不同领域,以区分IBD患者和其他谈论该疾病的患者。我们还将人工智能学习整合到我们的分类设置中,这不是他们研究的一部分。我们为每种特征类型构建了一组分类特征,如下面的部分中详细解释并在表1

表1。分类特征及其类型概述。
用户分类特性、特性级别、特性 类型
行为特征

Tweet-level特性


推特计数器 整数


转发计数器 整数


转发与推文比率 浮动(0到1)


炎症性肠病一个国旗 二进制


用户级IBD比率 浮动(0到1)


克罗恩病的旗帜 二进制


用户级克罗恩比率 浮动(0到1)


结肠炎的旗帜 二进制


用户级结肠炎比率 浮动(0到1)

用户级的特性


推特计数器 整数


转发计数器 整数


转发与推文比率 浮动(0到1)


IBD计数器 整数


Bio-IBD国旗 二进制


炎症性肠病的比率 浮动(0到1)


克罗恩病计数器 整数


Bio-Crohn国旗 二进制


克罗恩病的比率 浮动(0到1)


结肠炎计数器 整数


Bio-colitis国旗 二进制


结肠炎的比率 浮动(0到1)
语言特征

Tweet-level特性


Emoji计数器 整数


感叹词计数器 整数


亵渎计数器 整数


提到计数器 整数


标签计数器 整数


URL国旗 二进制


第一人称的旗帜 二进制


字数 整数


字符数 整数


极性 Float(−1 ~ 1)


正极性标志(如果极性>0则为1,否则为0) 二进制


负极性标志(极性<0为1,否则为0) 二进制


主体性 浮动(0到1)


乔治。b主题分布(文档=tweet) 20×float (0 ~ 1)

用户级的特性


Emoji总和 整数


Emoji平均 浮动


Bio-emoji计数器 整数


感叹词和 整数


感叹词的平均 浮动


Bio-interjection计数器 整数


亵渎和 整数


亵渎平均 浮动


Bio-profanity计数器 整数


提到总和 整数


提到平均 浮动


Bio-mention计数器 整数


标签和 整数


标签平均 浮动


Bio-hashtag计数器 整数


URL和 整数


URL平均 浮动(0到1)


Bio-URL国旗 二进制


第一人称和 整数


第一人称的平均 浮动(0到1)


Bio-first-person国旗 二进制


词的平均 浮动


单词的生物数 整数


字符平均 浮动


性状生物数 整数


Bio-polarity Float(−1 ~ 1)


正极性和 整数


正极性平均 浮动(0到1)


负极性和 整数


负极性平均 浮动(0到1)


主体性平均 浮动(0到1)


Bio-subjectivity 浮动(0到1)


LDA主题分布(文档=所有用户的tweet) 20×float (0 ~ 1)
社会结构特征

Tweet-level特性


用户级登录度 浮动


用户级别的退出程度 浮动


用户级亲密 浮动(0到1)

用户级的特性


日志入度 浮动


日志有关学位 浮动


亲密 浮动(0到1)

一个炎症性肠病。

bLDA:潜在狄利克雷分配。

行为特征

这种类型的功能被设计用来捕捉用户在Twitter上的活动:他们多久发一次tweet?他们是写新内容还是主要转发别人?此外,他们多久提到一次IBD?我们计算了数据集中tweet和RT的数量,并计算了每个用户的RT比率。我们计算了他们在推文中使用我们的关键字的次数,以说明他们解决IBD的频率。将用户级分类的聚合特征复制到所有用户的推文中,丰富推文级分类。

语言特征

第二类特征来自于Twitter用户的语言风格:他们用第一人称写作吗?他们是否倾向于使用表情符号或通过URL添加对外部资源的引用?我们使用了两种语言特征。基于以往的研究[36-38]和我们的数据性质,我们从文本中提取了一些我们认为有助于分类的特征。

承认个人和组织在Twitter上的沟通方式不同[3539],我们寻找可以区分个人和企业的具体特征,并帮助识别患者。我们检查了数据中每条推文的具体特征:是否使用了表情符号、感叹词或脏话?是用第一人称写的吗?它是否通过URL指向外部源?它是否包含表示提及(@)或标签(#)的Twitter特殊字符?我们使用了Python (Python Software Foundation)库TextBlob增加与情感相关的特征,如文本的极性和主观性。推文的长度和包含的字数也被考虑在内。Python库emoji用来检测文本中的表情符号。来自库的词性标识符nltk用来表示第一人称的用法和识别感叹词。在Python库的基础上不敬的言语,我们建立了一个在文本中搜索的脏话列表。由于与代谢相关的词不一定是脏话,所以我们不得不将列表调整到IBD的特殊领域。

我们从推特级别的功能开始,然后按用户分组以代表个人写作风格。为了反映用户在Twitter上表达自己的方式,我们将RTs排除在聚合之外。例如,使用URL的tweet数量只计算原始tweet的数量。由于在推文级分类器中用户的传记被视为推文,我们在用户级分类器中添加了从传记中提取的语言特征作为生物特征。

在自然语言处理中,有几种方法可以获得文本的向量表示。文本文档的贝叶斯概率模型(称为潜在狄利克雷分配(latent Dirichlet allocation, LDA))是一种比较知名且研究得比较充分的技术。LDA是一种用于发现摘要的主题建模技术主题出现在文件集合中的[53].

我们使用LDA来表示tweet级和用户级分类特征中的文本。在推文级特征中,每条推文都被认为是一个文档,每条推文都获得表征。对于用户级特性,同一作者的所有tweet被合并到一个文档中,以获得每个用户的表示。数据清理后,所有的特征都使用双字母和双字母表示文本。文本清理过程包括转换为小写,删除标点和停止词,以及将链接和其他特殊符号规范化为标准表示。

社会结构特点

我们讨论的最后一种功能表示用户在Twitter上的社交关系。我们使用Twitter API收集每个用户的关注者和关注者。对于每个用户,我们保留了他们拥有的追随者数量(影响力意义上的out-degree)和他们拥有的追随者数量(in-degree),并使用对数尺度缩放结果。我们还计算了每个用户的接近中心性度量。将用户级分类的聚合特征复制到所有用户的推文中,丰富推文级分类。

分类模型

为了区分IBD患者和其他发布IBD推文的用户,我们比较了两种分类方法中几种分类算法的性能:SI学习方法,首先对推文进行单独分类,然后根据推文级别的分类推断出用户的类别;基于元数据的MI学习方法,首先将推文级别的特征聚合到用户级别的特征,然后对用户自己进行分类。

基于元数据的MI方法首先将数据从MI转换为SI,然后将标准SI算法应用于转换后的问题[5455].为了实现MI方法的用户特征,我们对tweet级别的特征应用了算术求和和平均值,并获得了每个用户的聚合特征(详细信息请参阅分类特征一节)。注意,此过程可能会造成一些信息丢失[56].

对于这两种方法,我们测试了5种标准和众所周知的二元分类算法,如AdaBoost,梯度增强分类器,线性支持向量机,逻辑回归和随机森林。所有算法均来自Python中的scikit-learn (sklearn)包[57].

实验

我们将用户数据集分成训练集和测试集(大约80%-20%)。训练集有155名患者和377名非患者,测试集有39名患者和90名非患者;因此,各组之间的比率保持不变。

在推文级别分类中,基于用户的分割,将推文划分为训练集和测试集,属于训练集的用户的推文归属于推文训练集,而属于测试集的用户的推文归属于推文测试集。因此,推文训练集包含263条积极推文和1586条消极推文,而测试集包含62条积极推文和293条消极推文。

我们首先对所有算法进行了超参数优化,并对两种方法的训练数据进行了5倍交叉验证。每个算法和参数测试的值可以在多媒体附录1

总共使用了4个常用指标来评估模型:精度、召回率、F1和受试者工作特征曲线下面积(ROC AUC)。所有4个指标都是基于我们感兴趣的正类进行计算的。在我们的设置中,精确度描述了阳性预测确实是患者的概率,召回率描述了分类器检索患者的能力,F1分数结合了这两者。ROC AUC考虑两类的召回,并测量模型在不收集大量不需要的其他用户的情况下检索患者的能力。

为了选择最佳的算法变体,我们使用了10倍交叉验证技术来可靠地评估预测能力。在这个过程中,我们将训练集随机分成10个大小相等的部分;然后,我们迭代地对9个部分进行训练,并对遗漏的部分进行模型评估。我们重复了这个迭代10次,每次都去掉一个不同的部分。此外,我们用不同的种子初始化重复10次交叉验证过程,以改变随机分裂。每次都会计算性能指标,结果部分中显示的结果显示了这100次迭代的平均值。

在用户级分类中,我们使用Python中的sklearn包在分类过程中获得了所有4个指标。然而,在推文级别的分类中,在直接从sklearn包获得指标之前,还需要另一个聚合阶段——该过程返回每条推文的预测(无论它是由病人写的),我们必须通过聚合给他们的推文的预测来推断用户的预测。与手动注释过程一样,如果用户的所有tweet都收到0的预测,则认为该用户不耐心,并收到负面预测。或者,如果用户至少有一个积极的预测,他们就被认为是病人,并得到一个积极的预测。然后,我们使用sklearn包根据我们获得的用户预测和他们的真实标签来计算用户级指标。

最后,我们在整个训练集上训练来自每种方法(MI和SI)的模型,并在测试集上评估它们的预测。我们使用内置的特征重要性sklearn方法来研究每个特征对逻辑回归和随机森林算法的贡献。在逻辑回归中,系数的绝对值代表特征的重要性。

分析患者的推文

生活方式相关推文的语料库

这项研究的下一个目标是获得患者描述他们尝试过的与生活方式相关的治疗方法及其症状的推特集合。通过过滤和合并不同的基于web的数据库[5859],我们建立了一个包含420个单词的列表,这些单词是食物或体育活动的类型(即与生活方式相关的单词;完整的列表可以在多媒体附录2).Twitter高级API用于搜索所有提到IBD的tweet(至少包含数据收集和准备部分中描述的3个关键字中的一个):克罗恩病结肠炎,#炎症性肠病)以及420个与生活方式相关的单词中的至少一个。为了构建搜索查询,我们在IBD关键字和与生活方式相关的单词中使用OR操作符,然后使用and操作符连接这两组。

我们搜索了2019年1月1日至2019年9月30日的相关推文。我们从搜索中排除了RTs和重复的推文,并将搜索限制在英文推文中。搜索结果是20,136条独特的推文,包含8519个不同用户写的新内容。

我们使用研究第一部分的分类器对我们收集的新数据将推文分类为患者推文和用户推文。我们需要为新的8519个用户重新创建分类特性。与第一阶段一样,我们从2019年10月1日至2019年10月7日为所有用户收集了另一周的推文,没有关键字过滤,包括RTs。共有39.52%(3367/8519)的用户是私有的、挂起的或其他不可用的。这个过程产生了5152个用户的数据集,这些用户总共写了402,843条推文。

除了接近中心性之外,我们在新数据上构建了分类特征部分中描述的所有分类特征。获得此功能既昂贵又耗时,因为它是唯一需要收集每个用户的所有关注者和关注者并构建其Twitter网络的功能。由于它不是10个最有用的分类功能之一,我们决定省略它。

然后,我们使用在第一阶段训练的MI随机森林模型(详细信息请参阅分类模型部分)对用户进行分类并识别患者。共有45.79%(2359/5152)的用户被分类为患者,他们撰写了4160条包含我们关键词的原始推文。我们通过删除所有屏幕名(由@字符标识)和url对这些tweet执行了简单的文本清理,并继续对4160条干净的tweet进行分析。

生活方式相关词汇的情感分析

IBM Cloud的自然语言理解(NLU)模块[60]用于对我们的每条推文应用类别分类和关键字提取。类别分类功能的目的是识别文本的主题。给定一个文本,NLU模块提供一个可能的类别和子类别及其相应可能性的列表。关键字提取功能识别文本中高度重要的单词和短语,并计算他们的情绪。给定文本,NLU模块返回关键字列表及其对应的情绪,表示为−1到1的封闭区间上的分数:−1表示极度消极的情绪,1表示极度积极的情绪。得分为0表示该关键字是在中性上下文中提到的。的TextBlob语言特征部分中用于情感分析的库只支持全文情感分析,不支持实体级情感分析。虽然它是免费且易于使用的,但它不适合我们的新任务,因此,我们选择用NLU模块代替它。

目的是确定患者接受的与生活方式相关的治疗,以控制他们的疾病,并确定他们对疾病的看法。因此,我们将分析重点放在与健康和营养相关的关键词上。我们将NLU模块分类的所有推文分组为相关的健康与健身(2080条),食物和饮料(1568条推文),或者宗教和精神(15条)。总的来说,3663条推文被选中进行关键字情感分析。我们收集了所有出现在我们预定义的生活方式相关词汇列表中的关键词,以及它们在每条推文中对应的情绪。文中一共给出了3个实例表2。注意,在第二个示例中,原始tweet的第一个单词(用@符号标记)是一个屏幕名,因此在清理过程中被删除了。

表2。文本清洗后的类别分类和关键词情感提取的三个例子。
数量 原始文本 清理后的文字 类别分类 关键字的情绪
1 菠菜是一种含有大量硫的炎症性食物。也禁止这个。(我注意到我的克罗恩病往往会在菠菜季节发作。) 菠菜是一种含有大量硫的炎症性食物。也禁止这个。(我注意到我的克罗恩病往往会在菠菜季节发作。) 食物和饮料 菠菜:−0.63
2 @bottomline_ibd很棒的投票。我确实偶尔会酗酒,但炎症性肠病改变了我能喝的东西。不再喝红酒或麦酒 伟大的调查。我确实偶尔会酗酒,但炎症性肠病改变了我能喝的东西。不再喝红酒或麦酒 食物和饮料 红酒:−0.83;啤酒:−0.83
3. 我就是一个活生生的例子,证明瑜伽可以帮助我们#芝加哥瑜伽#studiothree #瑜伽#ibd 我就是一个活生生的例子,证明瑜伽可以帮助我们#芝加哥瑜伽#studiothree #瑜伽#ibd 宗教和精神 瑜伽:0.69

为了检验每个与生活方式相关的短语(简而言之就是生活方式)的有效性,并评估其整体情绪,我们将结果按生活方式汇总,并计算出以下统计数据:生活方式在所有推文中出现的总次数,在积极(或消极)上下文中出现的次数,出现次数的正负比(几率),以及生活方式的平均情绪。

我们利用统计数据建立了一个共现网络,将生活方式和他们的平均情绪之间的联系可视化。不同的生活方式是节点,如果两种生活方式出现在同一条推特上,则用一条弧将它们连接起来。他们在一起出现的次数越多,两种生活方式之间的联系就越紧密。因此,得到的网络是无向的,并由两种生活方式共同出现的次数加权。目的是确定有益的生活方式(经常在积极的环境中提到)和最好避免的生活方式(经常在消极的环境中提到),并检查某些生活方式是否倾向于同时实施。

获取网络Gephi软件(GNU通用公共许可证)用于网络分析和可视化。每个节点都根据它所代表的生活方式的平均情绪从绿色到红色涂上颜色,绿色表示非常积极,红色表示非常消极。节点的大小反映了这些生活方式在推特数据库中被提及的次数:它们出现的次数越多,节点就越大。每条弧线的厚度代表两种生活方式同时出现的次数:弧线越粗,两种生活方式同时出现的次数越多。为了避免得到一个过于密集的网络,我们只考虑了在我们的数据库中被提及至少五次的生活方式节点。我们纳入了至少四次同时出现的生活方式之间的弧线。这一过程产生了144种生活方式,并按平均情绪排序成表格。

道德的注意

Twitter数据的收集和分析可能会带来道德挑战,应该妥善处理。Twitter的数据是公开的,可以通过Twitter api进行研究。通过接受Twitter的服务条款和隐私政策,Twitter用户承认他们的推文可以在全球范围内即时查看,并且他们的信息可能被第三方收集[61].尽管如此,社交媒体研究显示,推特上的用户感觉像是在与他们的追随者和追随者进行私人对话。6263].虽然他们通常不关心自己的帖子被用于研究目的,但他们希望在发表时匿名,并在发表前征得他们的同意。

获得所有用户的知情同意参与对推特数据的研究可能是不可行的。数据集可能很大,涉及许多作者[61-63].在我们的研究中,单独寻求所有722名用户的同意将是费力的,或者是不可能的,因为有些人可能无法联系到。此外,向用户提供完全匿名的同时直接引用他们的内容是不现实的;推文很容易被搜索,这使得其作者很容易被识别。

为了遵守道德规范和维护用户隐私,我们只发布不透露特定用户的汇总结果。直接引用推文的3个例子表2)在获得作者的知情同意后出现在本研究中。


病人识别

表3显示了两种分类方法的10倍交叉验证和测试结果:SI对tweet进行分类,MI对用户进行分类。下表显示了所有5种分类算法的4个指标的结果。

表3。单实例(SI)和多实例(MI)分类的10倍交叉验证和测试结果。
算法与度量 SI推特级分类 MI用户级分类

10倍 测试 10倍 测试
演算法

精度 0.6775 0.7241 0.6151 0.5902

回忆 0.6297 0.5385 0.7284 0.9231

F1分数 0.6525 0.6176 0.6542 0.7200

中华民国AUC一个 0.7532 0.7248 0.8469 0.8226
梯度增强分类器

精度 0.7416 0.6471 0.6668 0.6735

回忆 0.6465 0.5641 0.6778 0.8462

F1分数 0.6906 0.6027 0.6711 0.7500

中华民国AUC 0.7768 0.7154 0.8658 0.8342
线性支持向量机b

精度 0.7249 0.6667 0.6648 0.5814

回忆 0.6832 0.7179 0.6398 0.6410

F1分数 0.7034 0.6914 0.6472 0.6098

中华民国AUC 0.7883 0.7812 0.8463 0.7205
逻辑回归

精度 0.7405 0.6333 0.6594 0.6250

回忆 0.6335 0.4872 0.6358 0.6410

F1分数 0.6829 0.5507 0.6423 0.6329

中华民国AUC 0.7712 0.6825 0.8473 0.7372
随机森林

精度 0.7676 0.7333 0.6721 0.6444

回忆 0.4355 0.2821 0.6646 0.7436

F1分数 0.5555 0.4074 0.6595 0.6905

中华民国AUC 0.6906 0.6188 0.8722 0.7829

一个ROC AUC:受试者工作特性曲线下的面积。

bSVM:支持向量机。

两种方法对患者的分类结果都令人满意。虽然SI方法的准确率略高,但MI方法的召回指数更好,并且MI方法的ROC AUC测量结果始终较高。图3显示测试集结果中4个度量之间的差异。

图3。两种分类方法的测试结果比较。MI:多实例;ROC AUC:受试者工作特性曲线下的面积;SI:单实例;SVM:支持向量机。
查看此图

调查每个特征对逻辑回归和随机森林算法的贡献,显示了使用第一人称语音的重要性。在两种分类方法和算法中,最重要的特征是使用第一人称,这比其他特征具有显著的优势。第一人称标志是SI方法的最佳特征,其平均值是MI方法的最佳特征。另一个主要特征是使用脏话,因为这是方法和算法中最重要的特征之一。

分析还强调了文本衍生的LDA特征的重要性。对于逻辑回归和随机森林算法来说,SI方法的第二个最佳特征是LDA主题11。这是唯一一个不包含ibd相关词汇的主题。MI方法的第四个和第五个最重要的主题对于两种算法是相同的- lda主题分别为17和9。在每种方法的训练数据上创建的LDA主题可以在多媒体附录3

分析患者的推文

在研究的第二阶段,建立并可视化了生活方式之间的联系网络。所得到的描述不同生活方式之间关系的网络可以在多媒体附录4

我们数据库中最常见的单词是饮食,囊括了患者为控制疾病而进行的所有营养调整。特定的饮食,比如穿越素食者,或液体饮食也出现在负面的背景下。

有趣的是,分析揭示的消极和积极的生活方式与已知的适合IBD的营养一致。在最消极的生活方式中,我们发现酒精,牛奶,辣味,卷心菜,面粉,扁豆,橙汁,这些食物都会引起炎症,刺激胃部。在最积极的生活方式(平均情绪)中,我们发现与活动相关的生活方式,如健身瑜伽还有治疗食物,比如大马哈鱼,大蒜。最积极的生活方式是寿司,通常含有抗炎成分,如大马哈鱼金枪鱼海藻,大米表4呈现20个最积极和20个最消极的生活方式相关的单词,按平均情绪排序。

表4。这是20种最积极和最消极的生活方式。
排名 关键字 平均情绪(SD) 阳性计数 负数计数 几率
1 寿司 9 0.466 (0.814) 7 2 3.500
2 生姜啤酒 5 0.407 (0.597) 3. 1 3.000
3. 大马哈鱼 7 0.344 (0.691) 4 3. 1.333
4 樱桃 10 0.33 (0.696) 6 2 3.000
5 早餐 29 0.28 (0.75) 19 9 2.111
6 大蒜 8 0.244 (0.671) 4 2 2.000
7 百吉饼 5 0.224 (0.633) 3. 1 3.000
8 杏仁 9 0.193 (0.668) 6 3. 2.000
9 酸奶 14 0.189 (0.688) 7 3. 2.333
10 瑜伽 15 0.186 (0.693) 7 5 1.400
11 火腿 5 0.184 (0.535) 2 1 2.000
12 饼干 13 0.172 (0.75) 8 5 1.600
13 菠菜 6 0.171 (0.76) 4 2 2.000
14 素食奶酪 5 0.164 (0.92) 3. 2 1.500
15 羊肉 5 0.14 (0.861) 3. 2 1.500
16 蛋糕 26 0.13 (0.752) 16 9 1.778
17 健身 19 0.114 (0.728) 9 6 1.500
18 17 0.112 (0.724) 8 7 1.143
19 番茄 10 0.089 (0.608) 5 3. 1.667
20. 咖啡馆 7 0.081 (0.783) 3. 3. 1.000
125 Fodmap 12 −0.501 (0.573) 2 9 0.222
126 鸡尾酒 5 −0.51 (0.769) 1 4 0.250
127 纤维 63 −0.512 (0.547) 7 47 0.149
128 辣的 37 −0.514 (0.572) 7 28 0.250
129 蔬菜 49 −0.533 (0.529) 6 39 0.154
130 玉米 28 −0.534 (0.487) 2 22 0.091
131 酒精 64 −0.545 (0.545) 9 51 0.176
132 奶昔 5 −0.556 (0.811) 1 4 0.250
133 牛奶 44 −0.565 (0.5) 4 35 0.114
134 素食 10 −0.567 (0.409) 1 8 0.125
135 零食 10 −0.573 (0.568) 2 8 0.250
136 无花果 5 −0.578 (0.621) 1 4 0.250
137 火鸡 10 −0.608 (0.626) 2 8 0.250
138 酵母 16 −0.624 (0.391) 1 13 0.077
139 橙色 7 −0.638 (0.449) 0 5 0.000
140 饮料 7 −0.661 (0.616) 1 6 0.167
141 卷心菜 8 −0.675 (0.19) 0 8 0.000
142 橙汁 5 −0.682 (0.385) 0 4 0.000
143 面粉 6 −0.785 (0.211) 0 6 0.000
144 小扁豆 6 −0.785 (0.188) 0 6 0.000

主要研究结果

这项研究提出了一个在Twitter上识别IBD患者并探索其推文的工作流程。目的是根据他们在Twitter上的交流方式来识别IBD患者,并从他们分享的个人经历中学习。

在研究的第一阶段,构建并评估了一个Twitter用户分类器,旨在将IBD患者与其他用户区分开来。结合社交数据和文本分析的分类特征从用户在Twitter上的活动、他们的社交关系和他们的推文内容中提取出来。考虑了各种分类算法,并为每种算法计算了4个评价指标。在上一节中显示的令人鼓舞的结果帮助我们相信可以根据这些特征在Twitter上识别IBD患者。

SI和MI方法的分类结果表明,IBD患者在Twitter上的交流方式与在Twitter上谈论该疾病的其他用户不同。他们更多地用第一人称说话,在推特上使用更多的脏话。这些差距可以解释为患者是私人个体,而非患者也包括以更正式的方式交流的组织和自愿协会,这有助于在我们在本研究中尝试的不同分类模型中区分患者和其他实体。

我们的分析与之前关于Twitter用户分类的研究不同[36-38在两个方面。从概念上讲,我们调查了一个不同的领域,并试图在Twitter上识别患者。实际上,我们将用户级分类的结果与tweet级分类的结果进行比较。

在研究的第二阶段,研究人员收集了IBD患者的推特,以调查他们为应对疾病而采取的不同生活方式,并评估这些生活方式的有效性。与之前对推特上患者情绪的研究不同[48-50],我们的研究重点是特定词语的实体情绪,而不是整个推文的情绪。我们提出了一种新颖的方法,通过考虑实体情感分析来获得患者对他们尝试的不同营养和健身解决方案的看法。这些发现与已知的IBD一致,因为几种已知会引起炎症的食物被认为是消极的,而放松活动和抗炎食物则出现在积极的环境中。

这项研究表明,在了解慢性疾病方面,医生和工程师之间有合作的空间。由于这种疾病的慢性性质以及它涉及肠道运动的事实,IBD患者被迫遵循特殊的营养并保持平静的日常生活。通过收集和分析患者在社交媒体上的个人经历,监测患者的生活方式,支持IBD的医学知识。我们可以识别和评估饮食和体育活动的补充治疗,也许可以减轻患者找到适合他们的治疗方法的过程。虽然这种分析不应试图取代医生或得出临床性质的结论,但它可以根据人群的智慧为健康生活方式提供补充建议。

局限性和未来工作

概述

这项研究的重点是展示在Twitter上识别IBD患者并从他们的推文中学习的潜力。这个研究强调的是整个过程,我们并没有单独完善每一个部分。正如本节所解释的,每个部分都可以通过尝试不同的方法和丰富分析来改进。

病人识别

本研究第一阶段开发的分类器使用一级二元分类将IBD患者与其他关于该疾病的推文用户区分开来。它的一些特征将组织与一般的个人区分开来,并不一定能检测到病人,比如在推文中使用第一人称。因此,我们的非患者类是异质的,有些模棱两可,既包括在沟通模式上与患者显著不同的组织,也包括在更精细的方式上与患者不同的健康个体。即使在人工标注过程中,由于分类分歧而被排除在数据集之外的所有14个用户都是以第一人称说话的个人。

未来工作的一个可能方向是尝试两步分类:将个人从组织中分离出来,然后继续在这些个人中寻找患者。它可以通过克服模型中非患者类别的异质性来提高某些特征的鲁棒性。或者,我们可以尝试用多项分类法取代二元分类法,这样不仅可以捕获组织和患者,还可以捕获谈论疾病的个人,可能会提到其他患者,但自己并没有生病。

在构建基于网络的特征时,我们只收集Twitter上的即时连接(即每个患者的关注者和关注者)。抽样方法得到的基本网络特征主要包括度测度。我们鼓励未来的研究考虑更多有趣的网络特征,如其他中心性度量或结构。这样的增强将需要收集至少一个以上的连接级别(例如,followers of followers)来更好地理解网络模式。

最后,分类器使用标准的分类算法,而没有尝试基于神经网络的当前最先进的学习技术。使用词嵌入的文本表示,其中词被映射到预定义向量空间中的实数向量[6465,也值得研究。

分析患者的推文

本研究使用IBM Cloud的NLU模块进行实体情感分析,作为概念验证。我们没有评估它的结果,也没有将它们与市场上可用的类似工具(如Google Cloud的自然语言API)进行比较。未来的研究应该考虑使用不同的自然语言处理工具进行类似的分析,并比较它们的结果。即使是在与生活方式相关的推文数据上训练指定的算法,比如在这项研究中使用的那些,也能使分析受益。

总的来说,第二部分的结果是初步的,并且可以做更多的工作来了解IBD患者在Twitter上谈论什么。例如,通过描述治疗方案和患者对它们的看法,人们可以根据人群的智慧得出健康生活方式的建议。彻底探索异常值,例如4个正面提到牛奶而不是35个负面提到牛奶,可以揭示尚未在文献中覆盖的有关该疾病的新信息。

结论

在个性化医疗和以患者为中心的护理时代,获得反映患者观点的见解非常重要,这些观点体现在社交媒体上。虽然医生预约之间的时间间隔可能很长,但社交媒体上的信息每天都在发布,患者不断使用它们来交换意见和建议。

这项研究为在Twitter上识别慢性疾病患者并收集他们的推文以分析他们在网络上分享的实验知识提供了一个潜在的管道。本研究中提出的方法适用于IBD,也可以帮助探索其他医疗条件。ibd相关实体的分类器可以用于识别其他慢性疾病患者。对患者推文的分析有助于研究其他具有类似特征的慢性疾病。对于乳糜泻或糖尿病等涉及严格饮食指南的疾病,人们可以更好地理解患者坚持新生活方式的困难。当考虑诸如艾滋病毒等令人尴尬的疾病时,人们可以更多地了解患有这种疾病的患者的持续斗争。

因此,本研究的贡献是双重的:它为文本挖掘和社交媒体领域提供了分析贡献,并通过更好地了解慢性疾病和促进慢性疾病患者的健康生活方式做出了实际贡献。

致谢

这项研究得到了欧洲研究区域网络共同基金健康饮食促进健康生活-肠道微生物组在联合规划倡议下的资助健康的饮食造就健康的生活伞。

利益冲突

没有宣布。

多媒体附录1

分类算法的参数优化。

DOCX文件,20kb

多媒体附录2

420个与生活方式相关的单词。

DOCX文件,39kb

多媒体附录3

为每种分类方法在训练数据上创建的潜在狄利克雷分配主题。

DOCX文件,20kb

多媒体附录4

生活方式相关词汇之间的关系网络。

PDF档案(adobepdf档案),148kb

  1. Yin Z, Fabbri D, Rosenbloom ST, Malin B.一个可扩展的框架来检测Twitter上的个人健康提及。医学互联网研究2015年06月05日;17(6):e138 [J]免费全文] [CrossRef] [Medline]
  2. Karisani P, Agichtein e,你真的心脏病发作了吗?实现对社交媒体中个人健康提及的强大检测。参见:2018年万维网大会论文集。2018提交于:WWW '18;2018年4月23日至27日;法国里昂,第137-146页。[CrossRef]
  3. Chen E, Lerman K, Ferrara E.追踪社交媒体关于COVID-19大流行的话语:开发公共冠状病毒Twitter数据集。JMIR公共卫生监测2020年5月29日;6(2):e19273 [j]免费全文] [CrossRef] [Medline]
  4. 利用Twitter和网络新闻挖掘预测COVID-19爆发。中国生物医学工程学报,2013;31(8):368 - 368。[CrossRef]
  5. Lopreite M, Panzarasa P, Puliga M, Riccaboni M.来自社交媒体的COVID-19在欧洲爆发的早期预警。Sci Rep 2021 Jan 25;11(1):2147 [j]免费全文] [CrossRef] [Medline]
  6. Gabarron E, Dorronzoro E, Rivera-Romero O, Wynn R. Twitter上的糖尿病:情绪分析。糖尿病科学与技术2019;13(3):439-444 [J]免费全文] [CrossRef] [Medline]
  7. A, Kar P.新的曙光:社会媒体在糖尿病教育中的作用。糖尿病护理杂志,2014,18(2):68-71。
  8. Beguerisse-Díaz M, McLennan AK, Garduño-Hernández G, Barahona M, Ulijaszek SJ。推特上#糖尿病的“谁”和“什么”。数字健康2017年1月1日;3:2055207616688841 [j]免费全文] [CrossRef] [Medline]
  9. Sugawara Y, Narimatsu H, Hozawa A, Shao L, Otani K, Fukao A. Twitter上的癌症患者:一种新的社交媒体患者社区。BMC Res Notes 2012 Dec 27;5:69 [免费全文] [CrossRef] [Medline]
  10. Tsuya A, Sugawara Y, Tanaka A, Narimatsu H.癌症患者会发推特吗?调查日本癌症患者使用twitter的情况。[J]医学互联网研究,2014;27;16(5):e137 [J]免费全文] [CrossRef] [Medline]
  11. Kaplan GG.全球IBD负担:2015 - 2025。中华胃肠病杂志,2015;12(12):720-727。[CrossRef] [Medline]
  12. 小洛夫特斯。炎症性肠病的临床流行病学:发病率、患病率和环境影响。胃肠病学杂志2004;26(6):1504-1517。[CrossRef] [Medline]
  13. Roccetti M, Marfia G, Salomoni P, Prandi C, Zagari RM, Gningaye Kengni FL,等。克罗恩病患者的态度:Facebook和Twitter帖子的信息流行病学案例研究和情绪分析。公共卫生监测2017年8月09日;3(3):e51 [j]免费全文] [CrossRef] [Medline]
  14. 新出现的成人炎症性肠病:成人胃肠病学家的挑战和建议。胃肠病杂志2015;2015:260807 [j]免费全文] [CrossRef] [Medline]
  15. Norton BA, Thomas T, Lomax KG, Dudley-Brown S.患者对克罗恩病影响的看法:小组访谈结果。患者偏好依从性2012;6:509-520 [j]免费全文] [CrossRef] [Medline]
  16. Rubin DT, Dubinsky MC, Panaccione R, Siegel CA, Binion DG, Kane SV等。与其他慢性疾病相比,溃疡性结肠炎对患者生命的影响:一项患者调查。中国生物医学工程学报,2010,31(4):1044-1052。[CrossRef] [Medline]
  17. 李建平,李建平。溃疡性结肠炎的临床研究进展。中华护理杂志1996;23(1):39-47。[CrossRef] [Medline]
  18. dedevlen J, Beusterien K, Yen L, Ahmed A, Cheifetz AS, Moss AC.炎症性肠病的负担:患者报告的定性分析和概念模型的发展。炎症性肠病2014年3月;20(3):545-552 [j]免费全文] [CrossRef] [Medline]
  19. Hall NJ, Rubin GP, Dougall A, Hungin AP, Neely J.为“健康相关的正常”而战:一项对已确诊的炎症性肠病(ibd)患者经历的定性研究。心理健康杂志,2005;10(3):443-455。[CrossRef] [Medline]
  20. Frohlich做。利用社交媒体技术对炎症性肠病的社会建构。卫生通讯2016年11月;31(11):1412-1420。[CrossRef] [Medline]
  21. Kemp K, Griffiths J, Lovell K.了解IBD患者的健康和社会护理需求:证据的综合。国际胃肠病杂志2012;11;18(43):6240-6249 [J]免费全文] [CrossRef] [Medline]
  22. 网络拥抱:通过技术为慢性疼痛患者发声。网络心理行为学报,2013;16(2):123-126。[CrossRef] [Medline]
  23. Wiese J, Kelley PG, Cranor LF, Dabbish L, Hong JI, Zimmerman J.你离我近吗?你在附近吗?:调查社会群体、亲密度和分享意愿。第13届普适计算国际会议论文集。2011年发表于:UbiComp '11;2011年9月17-21日;北京,中国,第197-206页。[CrossRef]
  24. 白海君,何涛,朱正辉,金敏。同行还是专家?YouTube公益广告制作者的说服力。国际广告杂志,2015,07;30(1):161-188。[CrossRef]
  25. 林文勇,张翔,宋慧。web2.0时代健康信息寻求:社交媒体信任、不确定性降低与自我披露。计算机人类行为,2016;56:29 9-294。[CrossRef]
  26. 金伯利C.数据挖掘Twitter的癌症,糖尿病和哮喘的见解。普渡大学,2016。URL:https://docs.lib.purdue.edu/dissertations/AAI10170604/[2018-01-24]访问
  27. 李建军,张建军,李建军,等。通过Twitter对牙痛进行公共卫生监测。[J]中国生物医学工程学报,2011;30 (9):1047-1051 [J]免费全文] [CrossRef] [Medline]
  28. Harris JK, Mueller NL, Snider D, haie - joshu D.美国地方卫生部门使用Twitter传播糖尿病信息。前瞻慢性病2013年05月02日;10:E70 [j]免费全文] [CrossRef] [Medline]
  29. 关于Twitter网络和tweet内容与肌萎缩性侧索硬化症(ALS)的关系的两项研究:对话、信息和“日常生活日记”。见:消费者、临床医生、连接和社区的数字健康创新:第24届澳大利亚国家健康信息学会议论文选集。阿姆斯特丹,荷兰:IOS Press;2016年出席:HIC '16;2016年7月25日至27日;澳大利亚墨尔本,第41-47页。[CrossRef]
  30. Adrover C, Bodnar T, Huang Z, Telenti A, salath M.使用Twitter识别HIV药物治疗的不良反应和相关情绪。中华医学会公共卫生监测2015年7月27日;1(2):e7 [j]免费全文] [CrossRef] [Medline]
  31. 从社会学角度看待推特:艾滋病毒阳性妇女公开羞辱的案例研究。ΕπιθεώρησηΚοινωνικώνΕρευνών2015年11月25日,144:103 - 128。[CrossRef]
  32. 艾滋病毒/艾滋病与千年发展目标:世界艾滋病日Twitter聊天的公众情绪分析。国际艾滋病杂志2016年11月14日;3(9):134-137 [J]免费全文] [CrossRef]
  33. De Choudhury M, Morris MR, White RW。在线寻找和分享健康信息:比较搜索引擎和社交媒体。参见:SIGCHI计算机系统中人因会议论文集。2014,发表于:CHI '14;2014年4月26日至5月1日;加拿大多伦多1365-1376页[CrossRef]
  34. Arakawa Y, Kameda A, Aizawa A, Suzuki T.在风格特征中添加twitter特定特征,用于根据用户类型和转发次数对tweet进行分类。中国生物医学工程学报,2014,22(7):1416-1423。[CrossRef]
  35. Holmberg K, Bowman TD, Haustein S, Peters I.天体物理学家在Twitter上的对话联系。PLoS One 2014 Aug 25;9(8):e106086 [j]免费全文] [CrossRef] [Medline]
  36. 潘纳奇奥蒂M,波佩斯库AM。民主党、共和党和星巴克爱好者:Twitter上的用户分类。参见:第17届ACM SIGKDD知识发现与数据挖掘国际会议论文集。2011,发表于:KDD '11;2011年8月21日至24日;圣地亚哥,加州,美国第430-438页。[CrossRef]
  37. 潘纳奇奥蒂M,波佩斯库AM。推特用户分类的机器学习方法。[j] .计算机工程学报;2011;31(1):391 - 391。
  38. Rao D, Yarowsky D, Shreevats A, Gupta M. Twitter潜在用户属性分类。第二届搜索与挖掘用户生成内容国际研讨会论文集。2010,发表于:SMUC '10;2010年10月30日加拿大多伦多,第37-44页。[CrossRef]
  39. De Choudhury M, Diakopoulos N, Naaman M.在Twitter上展开事件景观:用户类别的分类和探索。参见:ACM 2012年计算机支持协同工作会议论文集。2012发表于:CSCW '12;2012年2月11日至15日;西雅图,华盛顿州,美国第241-244页。[CrossRef]
  40. Holmberg K, Eriksson-Backa K, Ek S.关于糖尿病和饮食的推文——内容和会话连接。参见:第五届信息社会幸福感国际会议论文集。2014提交于:WIS '14;2014年8月18-20日;图尔库,芬兰,第45-56页。[CrossRef]
  41. Bergsma S, Dredze M, Van Durme B, Wilson T, Yarowsky D.基于通信的Twitter姓名和位置聚类广泛改进的用户分类。《计算语言学:人类语言技术》,2013年12月第1期。2013年6月9日至14日;亚特兰大,乔治亚州,美国第1010-1019页。
  42. Harris JK, Mart A, moeland - russell S, Caburnay CA。糖尿病话题与Twitter参与相关。慢性疾病2015年05月07日;12:E62 [qh]免费全文] [CrossRef] [Medline]
  43. Khan A, Silverman A, Rowe A, Rowe S, Tick M, Testa S等。谁在推特上说炎症性肠病是什么?在:GW年度研究日2018。2018年发表于:GW Research '18;2018年4月10日至11日;虚拟p. 176 URL:https://hsrc.himmelfarb.gwu.edu/gw_research_days/2018/SMHS/62/
  44. 推特上的克罗恩病信息:谁在说话?中华消化医学杂志,2018;39(1):513 - 514。[CrossRef]
  45. 张建军,张建军,张建军,等。慢性自身免疫性疾病群体内部:克罗恩病患者行为和医疗信息的社会网络视角。2015年IEEE/ACM社会网络分析与挖掘国际会议论文集,发表于:ASONAM '15;2015年8月25日至28日;法国巴黎,第1089-1096页。[CrossRef]
  46. O'Neill P, Shandro B, Poullis A.炎症性肠病患者对社交媒体远程医疗的看法。中华卫生杂志,2020;7(3):241-244 [J]免费全文] [CrossRef] [Medline]
  47. 弗罗利希·多,兹迈林斯基-西利格,安。如何揭开造口术挑战了造口术的耻辱,并鼓励其他人也这样做。新媒体学报,2014,07;18(2):220-238。[CrossRef]
  48. p2013.07 - 2013.07 p2013.07 M, Pérez-Rodríguez G, Fdez-Riverola F, loureno A.利用Twitter了解人类肠道疾病群体:关键主题的探索性分析。医学互联网研究,2019年8月15日;21(8):e12610 [J]免费全文] [CrossRef] [Medline]
  49. 马戈利斯PA,马达利HT,格洛尔PA。慢性病患者在线社区结构比较。中国生物医学工程杂志,2016,34(1):1 - 4。[CrossRef]
  50. Cohen ER, Spiegel BM, van Oijen MG。Twitter提供溃疡性结肠炎患者健康相关生活质量(HRQoL)的洞察。胃肠病学杂志;2013;5(14):S-751。[CrossRef]
  51. Dietterich TG, Lathrop RH, lozano - psamrez T.求解轴平行矩形的多实例问题。人工智能,1997,1(1):31-71。[CrossRef]
  52. 徐旭。多实例问题中的统计学习。怀卡托大学,2003年6月https://www.cs.waikato.ac.nz/~ml/publications/2003/xinxu_thesis.pdf[2018-07-15]访问
  53. 李建平,吴彦宏,李建平。潜在dirichlet分配。[J]中文信息学报,2003;3:993-1022。
  54. 多实例学习假设述评。知识工程学报,2010,01,25(1):1-24。[CrossRef]
  55. 董磊。多实例学习算法的比较。怀卡托大学。2006年2月https://researchcommons.waikato.ac.nz/bitstream/handle/10289/2453/thesis.pdf?sequence=1&isAllowed=y[2018-07-15]访问
  56. [3]张建军,张建军。关系分类中的聚合预测与聚合特征。2014年IEEE计算智能与数据挖掘研讨会论文集,发表于:CIDM '14;2014年12月9-12日;奥兰多,佛罗里达州,美国第121-128页。[CrossRef]
  57. Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O,等。Scikit-learn: Python中的机器学习。[J] .中文信息学报,2011;12:2825-2830。
  58. 食品综合数据集(CoFID)的组成。英国公共卫生部2015年3月25日。URL:https://www.gov.uk/government/publications/composition-of-foods-integrated-dataset-cofid: ~:文本= % 20 'composition % % 20的20种食物% 20集成,在% 20 % 20猪肉食谱% 20 % 20节[2019-09-16]访问
  59. FoodData中央。美国农业部,农业研究局,2019。URL:https://fdc.nal.usda.gov/[2019-09-16]访问
  60. 自然语言理解。IBM云API文档。2020。URL:https://cloud.ibm.com/apidocs/natural-language-understanding[2021-07-15]访问
  61. Ahmed W, Bath PA, Demartini G.使用Twitter作为数据源:伦理、法律和方法论挑战概述。编辑:伍德菲尔德·K。《网络研究伦理》(《研究伦理与诚信进展》第二卷),宾利,英国:翡翠集团出版;2017:79 - 107。
  62. “参与者”对推特研究伦理的看法。Soc Media Soc 2018 march 10;4(1):205630511876336。[CrossRef]
  63. Williams ML, Burnap P, Sloan L.走向在社会研究中发布Twitter数据的道德框架:考虑用户观点,在线环境和算法估计。社会学2017;51(6):1149-1168 [j]免费全文] [CrossRef] [Medline]
  64. 刘建军,李建军,李建军,等。一种神经概率语言模型。[J]中国生物医学工程学报,2003;3:1137-1155。
  65. 刘志强,刘志强。基于深度神经网络的自然语言处理。第25届国际机器学习会议论文集。2008,发表于:ICML '08;2008年7月5日至9日;赫尔辛基,芬兰,160-167页。[CrossRef]


API:应用程序编程接口
炎症性肠病:炎症性肠病
LDA:潜在狄利克雷分配
小姐:多个实例
NLU:自然语言理解
中华民国AUC:接收机工作特性曲线下的面积
RT:转发
如果:单一实例


JMIRPE办公室编辑;提交29.03.21;J Chen, H Wang, S Kiritchenko;对作者05.06.21的评论;修订版本收到29.10.21;接受20.05.22;发表02.08.22

版权

©Maya Stemmer, Yisrael Parmet, Gilad Ravid。原载于《医学互联网研究杂志》(//www.mybigtv.com), 02.08.2022。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map