卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医疗互联网服务

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析

加拿大多伦多

v24i8e29186

35917151

10.2196/29186

原始论文

在Twitter上识别炎症性肠病患者并从他们的个人经验中学习:回顾性队列研究

办公室

卡塔尔世界杯8强波胆分析JMIR出版物

陈

金鹰

王

Hanyin

Kiritchenko

斯维特拉娜

除梗器

玛雅

MSc 1

工业工程与管理系“，内盖夫本-古里安大学

POB 653

比尔,84105

以色列 972 8 6461434 mayast@post.bgu.ac.il

https://orcid.org/0000-0001-7572-4327

Parmet

以色列

博士学位 1

https://orcid.org/0000-0002-2071-7338

Ravid

吉拉德

博士学位 1

https://orcid.org/0000-0002-0471-6538

1 工业工程与管理系“，内盖夫本-古里安大学

比尔

以色列

通讯作者:Maya Stemmer mayast@post.bgu.ac.il

8 2022

2 8 2022

24 8

e29186

29 3. 2021 5 6 2021 29 10 2021 20. 5 2022

©Maya Stemmer, Yisrael Parmet, Gilad Ravid。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 02.08.2022。

2022

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

患者使用社交媒体作为替代信息来源，在那里他们分享信息并提供社会支持。尽管每天都有大量与健康相关的数据发布在Twitter和其他社交网络平台上，但利用社交媒体数据来了解慢性病和患者生活方式的研究是有限的。

客观的

在这项研究中，我们通过提供一个框架来在Twitter上识别炎症性肠病(IBD)患者，并从他们的个人经历中学习，从而有助于缩小这一差距。我们通过构建一个Twitter用户分类器来实现对患者推文的分析，该分类器将患者与其他实体区分开来。这项研究旨在揭示利用Twitter数据来促进IBD患者健康的潜力，依靠人群的智慧来识别健康的生活方式。我们试图利用描述患者日常活动及其对健康的影响的帖子来描述与生活方式相关的治疗。

方法

在研究的第一阶段，使用一种结合社会网络分析和自然语言处理的机器学习方法来自动将用户分类为患者或非患者。我们考虑了三种类型的特征:用户在Twitter上的行为，用户推文的内容，以及用户网络的社交结构。我们比较了两种分类方法中几种分类算法的性能。其中一个对每条推文进行分类，并根据推文级别的分类推断出用户的类别。另一种是将推文级功能聚合到用户级功能，并对用户本身进行分类。不同的分类算法使用4个指标进行检查和比较:精密度、召回率、F1分数和受试者工作特征曲线下的面积。在第二阶段，使用第一阶段的分类器来收集患者的推文，这些推文描述了患者为应对疾病而采取的不同生活方式。使用IBM沃森服务进行实体情绪分析，我们计算了IBD患者在描述日常生活时使用的420个与生活方式相关的单词的平均情绪。

结果

两种分类方法的结果都很有希望。虽然推文级方法的准确率略高，但用户级方法的召回率和接收者工作特征曲线下的面积明显更好。对IBD患者写的推文进行情感分析，确定了经常提到的生活方式及其对患者健康的影响。研究结果加强了已知的适合IBD的营养，因为几种已知会导致炎症的食物在负面情绪中被指出，而放松活动和抗炎食物则在积极的环境中出现。

结论

这项研究提出了一个在Twitter上识别IBD患者的管道，并收集他们的推文来分析他们分享的实验知识。这些方法可以适用于其他疾病，并加强对慢性疾病的医学研究。

病人识别炎症性肠病炎症性肠病用户分类推特自然语言处理 NLP 情绪分析

简介背景

近年来，社交网站和基于网络的社区已经成为患者的替代信息来源。各地的患者都使用社交媒体分享健康和治疗信息，互相学习经验，并提供社会支持。挖掘这些信息丰富的对话可能会对患者的生活方式有所启发，并支持慢性疾病的研究。

近年来，文本挖掘和社交网络分析已被用于检测推特上关于健康的提及[ 1， 2]或追踪COVID-19大流行和症状的传播[ 3.- 5］．对于慢性疾病，之前的研究主要集中在分析患者的推文，并揭示他们的推特社区[ 6- 10］．虽然相对大量的研究致力于糖尿病或癌症，但对炎症性肠病(IBD)的研究才刚刚开始巩固。

IBD是一种消化系统的慢性炎症，其特征为发作期和缓解期。与IBD相关的两种原发疾病，克罗恩病和溃疡性结肠炎，通常在年轻患者中诊断(年龄范围在15-30岁之间)。IBD的发病率正在迅速上升，并已发展成为一种全球性疾病[ 11- 14］．

没有药物或手术可以治愈IBD。治疗方案只能帮助缓解症状，而且对每个患者的影响不同。它们包括处方药和与生活方式相关的解决方案，如饮食和治疗。症状包括腹痛、腹泻和疲劳，严重者可能需要住院或手术治疗[ 15， 16］．作为慢性肠道疾病，克罗恩病和溃疡性结肠炎都需要日常的药物摄入和特殊营养护理。

患者将IBD描述为一种令人尴尬的疾病，它会立即导致日常活动中断。他们很难适应随之而来的变化，认为自己与同龄人不同。由于IBD的特点是频繁排便，人们不会急于与他人分享他们的疾病[ 15， 17- 19］．根据IBD患者的说法，这种尴尬的部分原因可以归结为缺乏公众意识。外人看不出一个人的胃疼，也看不出他的肠子有疤。这种疾病是看不见的，其他人可能会怀疑它的存在。 20.， 21］．

IBD带来的尴尬，以及向有类似经历的人倾诉的需要，有助于解释在Twitter上创建IBD相关社区的原因。通过克服空间和距离，Twitter用户形成了一个不受物理边界或静止的社区。有共同立场的感觉有助于打破障碍，开启对话，增加一个人分享的意愿。 22， 23］．根据个人经验，咨询其他病人可能会更容易，因为他们能更好地理解这种情况。人们可以更容易地识别与自己相似的用户故事，并更容易接受他们的建议[ 24］．当人们在推特上披露健康信息时，他们就会接触到各种各样的观点，从而减少了对自己疾病的不确定性。 25］．

由于IBD的性质及其对消化系统的影响，IBD患者被迫每天处理他们的疾病，坚持严格的饮食方案，并保持平静的日常生活。营养或体力活动的改变，目前是通过反复试验来检验的，对患者来说是一个漫长而痛苦的过程。我们可以从他们的个人经历中学习，通过收集和分析患者的社交媒体数据，为现有的疾病医学知识提供额外的基础。基于大众智慧的互补性建议可以缓解患者的生活，缩短寻找适合他们的生活方式的过程。

目标及贡献

这项研究旨在通过收集和分析IBD患者分享的个人疾病经历，来揭示使用Twitter数据促进IBD患者健康的潜力。我们提出了一个框架，用于在Twitter上识别IBD患者，并检查他们分享的关于他们疾病的内容。我们首先构建了一个用户分类器，将患者与在Twitter上谈论IBD的其他实体区分开来，然后使用分类器收集患者的推文，并探索他们为应对疾病而进行的与生活方式相关的治疗。

这项研究的重点是创建一个管道，使用Twitter数据来识别IBD患者，并探索他们共享的信息。虽然这项研究的每一部分都可以通过尝试其他分类方法或丰富患者推文的分析来扩展，但这项研究显示了使用推特数据来增强IBD医学知识的潜力。我们证明，即使使用经典、简单的分类算法，患者也可以根据他们的交流在Twitter上被识别出来。我们比较了两种不同的用户分类方法——单实例(SI)学习方法和多实例(MI)学习方法的性能，并展示了使用后者的好处。本研究第二部分的初步分析表明，有可能从患者自我报告的推文中获得与健康相关的见解。

使用建议的框架来识别更多的患者并收集更多的数据，可以揭示他们对他们尝试的治疗方法的看法，或者探索疾病的其他方面，比如它对患者生活质量的影响。该框架也可推广到其他慢性疾病。它可用于比较IBD患者与普通人群或其他慢性疾病患者的讨论模式。

相关工作推特和健康

在健康和福祉的背景下对社交媒体的研究继续将Twitter定位为传播健康相关信息的新媒介。与健康相关的推文从简单的牙痛到更严重的慢性疾病，如糖尿病、哮喘或癌症[ 9， 10， 26， 27］．肌萎缩性侧索硬化症患者使用Twitter作为交流手段，美国当地卫生部门使用Twitter进行糖尿病相关的教育和传播信息[ 28， 29］．甚至像艾滋病毒这样敏感的疾病也会在推特上被讨论。 30.- 32］．关于谁在推特上说什么以及为什么发推文的沟通模式因疾病而异[ 26］．

Twitter是传播健康信息的强大工具，也是需要即时社会支持或救助的患者可访问的平台。它为与健康相关的对话提供了一个协作环境，慢性病患者可以每天分享他们的健康状况。他们使用Twitter来交流生活方式方面的知识，或者更好地理解医疗程序。通过推特，他们可以轻松方便地接触到大量的受众和各种观点。 33］．

总的来说，之前的两项研究提出了检测推特上个人健康提及的模型，并展示了有前景的、可扩展的结果[ 1， 2］．然而，他们的目标与我们的不同，因为他们认为所有讨论特定人健康状况的推文都是积极的。在我们的研究中，我们试图确定患有特定疾病的患者。我们不仅对病人写的推文进行了分类，还对用户本身进行了分类。

Twitter上的交流模式

不同类型的用户在Twitter上交流方式不同。他们与他人的联系方式不同，有不同的推特习惯，风格和语言内容也不同。研究Twitter用户之间的对话联系和文本挖掘他们的推文可以帮助根据用户的特征对用户进行分类，并识别不同类型的用户[ 34- 38］．

个人主要反映他们的个人经历或情感，并倾向于与他人交往。他们经常被提及，也经常提及其他用户。相比之下，组织经常通过url指向外部信息源，并且不太积极地与他人连接。他们经常在推特中被提及，可能是作为信息来源，但很少提及其他用户[ 39， 40］．

通过分析用户的屏幕名(即其Twitter帐户的用户名)或他们的传记(即其Twitter用户描述)，可以确定用户是普通个人还是组织，并揭示潜在的用户属性[ 41， 42］．

我们的研究依赖于这些先前的发现，并构建了分类特征，帮助区分IBD患者与其他发布该疾病推文的用户。我们调整和扩展了以前的方法，以应对在Twitter上识别IBD患者的不同任务。

Twitter和IBD

在Twitter上参与IBD相关讨论的实体中发现，IBD患者是在Twitter上谈论IBD的最常见用户类型[ 43， 44］．IBD患者使用Twitter分享个人经历并寻求社会支持。他们互相交流对症状和药物的看法，并互相推荐治疗方法。 45， 46］．患者通过在推特上分享与疾病抗争的生活经历，对抗疾病隐形，提高公众对IBD的认识[ 47］．

佩雷兹等[ 48]在Twitter上探索了IBD社区，并确定了谈论这种疾病的用户类型以及他们讨论的关键话题。他们通过分析用户的用户名和个人履历，根据用户的Twitter档案对用户进行分类。在我们的研究中，我们调查了大量的分类特征，并提出了一个基于Twitter上的交流方式和分享内容来检测IBD患者的模型。

IBD患者往往比其他慢性疾病患者更情绪化和消极[ 49］．当他们谈论疾病及其症状时，他们通常会表达出消极的情绪，但他们会积极地谈论有助于控制疾病的饮食和药物。 48］．在推特上提供社会支持的患者更有可能发布积极的推特[ 50］．

与之前关于患者在推特上情绪的研究不同，[ 48- 50，我们将研究重点放在实体情绪上，而不是整条推文的情绪上。通过分析患者对与营养和健身相关的特定关键词的看法，我们发现了影响疾病的某些生活方式的看法。

方法概述

本研究分为两个主要阶段进行。在患者识别部分，我们构建了一个用户分类器，将患者与在Twitter上谈论IBD的其他实体区分开来。我们考虑了三种类型的分类特征:(1)从用户在Twitter上的活动中提取的特征，(2)用户推文的内容，以及(3)用户网络的社交结构。我们比较了两种分类方法中几种分类算法的性能:一种是先对推文单独分类，然后从推文级分类中推导出用户的类别，另一种是先将推文级特征聚合到用户级特征，然后对用户本身进行分类。

在研究的第二阶段“分析患者的推文”部分中，我们从患者在推特上分享的个人经历中获得了关于IBD的见解。我们通过查询Twitter应用程序编程接口(API)获取与营养或健身相关的特殊关键词来收集与生活方式相关的推文。然后，我们使用研究第一阶段的分类器过滤它们的作者，以获得一组IBD患者描述他们为治疗疾病而采取的不同饮食和体育活动的推文。我们确定了经常提到的生活方式，并使用IBM沃森服务进行实体情感分析，以评估其有效性。

图1而且 2描述研究的两个主要阶段的一般流程。图1描述了我们如何使用Twitter数据对用户进行分类并识别IBD患者。图2演示了我们如何使用分类来分析患者的推文。

图1

研究第一阶段的一般工作流程:建立一个Twitter用户分类器，用于识别炎症性肠病(IBD)患者。

图2

研究第二阶段的一般工作流程:使用第一阶段的分类来分析患者的推文。IBD:炎症性肠病。

病人识别数据收集和准备

我们使用Twitter搜索API收集了10天的ibd相关推文(从2018年2月11日中午到2018年2月21日中午)。我们使用OR运算符搜索3个关键字中的至少一个: 克罗恩病，结肠炎、而且 #炎症性肠病．“投资者商业日报社论”(Investor 's Business Daily Editorials)账户将缩写IBD作为一个标签进行搜索，以避免与新闻相关的推文，该账户通常标记为炎症性肠病．我们将搜索限制在用英语写的推文上，并收集了2045条推文。

然后将收集到的722位推文作者手动分为患者(1)和非患者(0)。总共有3位不同的注释者，即本文的作者(MS, YP和GR)进行标记，并根据他们的推文标记用户。如果每个用户至少有一条推文透露了他们的病情，那么他们的标签为1，否则标签为0(即，如果他们的推文都没有表明他们是IBD患者)。

对于655名用户(n=181, 27.6%患者，n=474, 72.4%其他用户)，标注者完全一致，并设置了标签。为了解决关于其他9.3%(67/722)用户的争议，批注者通过考虑用户的用户名和履历，并在必要时审查他们的时间线，对他们基于推文的决定提出了质疑。考虑到新的数据，在剩余的67名用户中，45名(67%)在他们的传记或时间轴中明确提及他们的疾病后被归类为患者。总共有12%(8/67)的人谈到了其他生病的人，注释者一致认为他们自己不是IBD患者。对于剩下的21%(14/67)的用户，注释者没有达成共识，因此，这些用户从数据集中被省略了。标记过程结束时收集了708个标记用户:226个(31.9%)患者和482个(68.1%)非患者。

为了训练推文级别的分类器，我们还必须手动注释推文。我们处理了原始搜索查询中收集的推文(2018年2月)，并从收集中排除了转发(RTs)。由于目的是为了识别患者，我们对重塑内容不感兴趣，只将用户的RT倾向作为行为分类特征。在排除RTs和14个我们没有达成注释共识的用户后，我们剩下1687条推文。为了像注释用户时那样考虑用户的传记，我们将每个传记作为另一个传记添加推特作者。共有83.5%(591/708)的用户拥有非空的传记，该过程产生了2278个集合微博．

在注释过程中，我们想确定某个tweet是否显示用户是IBD患者。明确暗示其作者是IBD患者的推文收到的标签为1，其他所有人收到的标签为0。由于我们已经注释了用户，所有非耐心用户所写的1638条推文都自动接收到0标记。然后，3个注释者(MS、YP和GR)手动对患者写的所有推文进行分类。共有346条tweet被一致归为1,288条tweet被一致归为0。注释者没有就6条推文(由6个不同的用户编写)达成共识，因此它们被排除在集合之外。所有6个用户至少还有一条推文，因此，他们都没有被完全排除在我们的数据集中。最后，我们收集了2272条推文，其中346条(15.23%)明确透露了作者的病情。

为了丰富我们的数据，我们为每个被标记的用户收集了另一周的推文(从2018年6月10日中午到2018年6月17日中午)，这一次没有额外的过滤。在过去的几个月里，有6.6%(47/708)的用户被Twitter暂停使用或将其账户改为私有，他们的数据不再可供收集。另外93.4%(661/708)的用户收集了额外的一周，该过程产生了由194名患者和467名非患者撰写的82,884条推文的数据集。我们也从推文数据集中排除了同样的47个用户，最终的数据集包含2204条推文，其中325条(14.75%)是积极的推文。

MI学习方法

传统的分类问题是监督学习问题，在这种问题中，一个人收到一组单独标记的实例，并试图预测新实例的类标签。相比之下，MI学习是一种监督学习方法，其中每个学习示例都是一个实例袋与1个标签相关联，任务是预测看不见的袋子的标签[ 51］．

之前有关识别推特上健康提及的研究依赖于传统的监督学习来确定是否有健康问题推特讨论健康状况[ 1， 2］．但是，我们希望确定是否病人可以在Twitter上识别，而不必单独检查这些推文。我们独特的任务和数据的不平衡结构与MI学习方法是兼容的——我们有661个用户，每个用户发布的推文数量不同。阳性标签(患者)是通过找到至少一项用户患有IBD的证据来集体确定的;消极标签(非患者)意味着所有用户的证据都表明相反的情况，或者更确切地说，不足以成为积极标签。

我们使用了基于元数据的MI方法，并为每个包(用户)提取了一个与任何特定实例(推文)不相关的元数据向量[ 52］．分类特征部分解释了我们如何应用特征工程技术来生成特征用户本身的特征，而不仅仅是他们的推文。

为了评估使用这种集体方法的有效性，我们比较了5种标准分类算法在用户级和推文级分类中的结果，如分类模型一节中详细解释的那样。

分类特征概述

饶等[ 38]彭纳奇奥蒂和波佩斯库[ 36， 37的研究表明，Twitter用户的人口统计数据和政治观点可以通过考虑3种类型的用户分类特征来区分:行为特征(从用户在Twitter上的活动中提取的特征)、语言特征(从用户的推文内容中提取的特征)和社会结构特征(描述用户社交网络的特征)。我们遵循了他们的工作，并将这些类型应用于我们的不同领域，以区分IBD患者和其他谈论这种疾病的患者。我们还将MI学习集成到我们的分类设置中，这不是他们研究的一部分。我们为每一种特征类型构造了一组分类特征，如下面的部分详细解释，并在表1．

表1

分类特点及其类型概述。

用户分类特性、特性级别和特性			类型
行为特征
	Tweet-level特性
		推特计数器	整数
		转发计数器	整数
		转发率	浮动(0到1)
		炎症性肠病^一个国旗	二进制
		用户级IBD比率	浮动(0到1)
		克罗恩病的旗帜	二进制
		用户级别的克罗恩比率	浮动(0到1)
		结肠炎的旗帜	二进制
		用户级结肠炎比率	浮动(0到1)
	用户级的特性
		推特计数器	整数
		转发计数器	整数
		转发率	浮动(0到1)
		IBD计数器	整数
		Bio-IBD国旗	二进制
		炎症性肠病的比率	浮动(0到1)
		克罗恩病计数器	整数
		Bio-Crohn国旗	二进制
		克罗恩病的比率	浮动(0到1)
		结肠炎计数器	整数
		Bio-colitis国旗	二进制
		结肠炎的比率	浮动(0到1)
语言特征
	Tweet-level特性
		Emoji计数器	整数
		感叹词计数器	整数
		亵渎计数器	整数
		提到计数器	整数
		标签计数器	整数
		URL国旗	二进制
		第一人称的旗帜	二进制
		字数	整数
		字符数	整数
		极性	浮动(−1 to 1)
		正极性标志(如果极性>为0，则为1)	二进制
		负极性标志(极性<0为1，否则为0)	二进制
		主体性	浮动(0到1)
		乔治。^b主题分布(document=tweet)	20×float (0 - 1)
	用户级的特性
		Emoji总和	整数
		Emoji平均	浮动
		Bio-emoji计数器	整数
		感叹词和	整数
		感叹词的平均	浮动
		Bio-interjection计数器	整数
		亵渎和	整数
		亵渎平均	浮动
		Bio-profanity计数器	整数
		提到总和	整数
		提到平均	浮动
		Bio-mention计数器	整数
		标签和	整数
		标签平均	浮动
		Bio-hashtag计数器	整数
		URL和	整数
		URL平均	浮动(0到1)
		Bio-URL国旗	二进制
		第一人称和	整数
		第一人称的平均	浮动(0到1)
		Bio-first-person国旗	二进制
		词的平均	浮动
		生物字数	整数
		字符平均	浮动
		生物字符数	整数
		Bio-polarity	浮动(−1 to 1)
		正极性和	整数
		正极性平均	浮动(0到1)
		负极性和	整数
		负极性平均	浮动(0到1)
		主体性平均	浮动(0到1)
		Bio-subjectivity	浮动(0到1)
		LDA主题分布(文档=所有用户的推文)	20×float (0 - 1)
社会结构特征
	Tweet-level特性
		用户级登录	浮动
		用户级注销度	浮动
		用户级亲密	浮动(0到1)
	用户级的特性
		日志入度	浮动
		日志有关学位	浮动
		亲密	浮动(0到1)

^一个IBD:炎症性肠病。

^bLDA:潜狄利克雷分配。

行为特征

设计这种类型的功能是为了捕捉用户在Twitter上的活动:他们多久发一次Twitter ?他们是写新内容还是主要转发其他内容?此外，他们提到IBD的频率如何?我们计算了数据集中的tweet和RT的数量，并计算了每个用户的RT比。我们统计了他们在推特中使用我们的关键词的次数，以解释他们处理IBD的频率。将用户级分类的聚合特征复制到所有用户的推文中，丰富了推文级分类。

语言特征

第二类特征来自Twitter用户的语言风格:他们是用第一人称写作吗?他们倾向于使用表情符号还是通过URL添加对外部资源的引用?我们使用了两种语言特征。根据以往的研究[ 36- 38]和我们数据的性质，我们从文本中提取了几个我们认为有助于分类的特征。

承认个人和组织在Twitter上的交流方式不同[ 35， 39，我们寻找了一些具体的特征，这些特征可以区分个人和企业，并有助于识别患者。我们检查了数据中每条推文的特定特征:是否使用了表情符号、感叹词或脏话?是用第一人称写的吗?它是否通过URL指向外部源?它是否包含Twitter特殊字符(@)或标签(#)?我们使用了一个Python (Python软件基金会)库 TextBlob增加文本的极性、主体性等与情感相关的特征。推文的长度和字数也被考虑在内。Python库 emoji用来检测文本中的表情符号。来自库的词性标识符 nltk用来表示第一人称的使用和识别感叹词。在Python库的基础上不敬的言语，我们建立了一个在文本中搜索的脏话列表。我们不得不将列表调整到IBD的特殊领域，因为与新陈代谢相关的单词不一定是脏话。

我们从推文级别的功能开始，然后根据用户分组来代表个人的写作风格。为了反映用户在Twitter上表达自己的方式，我们将RTs排除在聚合之外。例如，使用该URL的推文数量仅计算原始推文。由于推文级分类器将用户的传记视为推文，我们将从传记中提取的语言特征作为生物特征添加到用户级分类器中。

在自然语言处理中，有几种方法可以获得文本的向量表示。其中一种比较著名且研究比较深入的技术是文本文档的贝叶斯概率模型，称为潜狄利克雷分配(latent Dirichlet allocation, LDA)。LDA是一种用于发现摘要的主题建模技术主题出现在文件集合中[ 53］．

我们使用LDA来表示推文级和用户级分类特征中的文本。在推文级特征中，每条推文都被认为是一个文档，并且每个推文都获得了表示。对于用户级功能，同一作者的所有推文都合并到一个文档中，以获得每个用户的表示。所有的功能都使用了数据清理后的文本的一格和二格表示。文本清理过程包括转换为小写，删除标点符号和停止词，并将链接和其他特殊符号规范化为标准表示。

社会结构特征

我们讨论的最后一类功能代表用户在Twitter上的社交联系。我们使用Twitter API来收集每个用户的关注者和被关注者。对于每个用户，我们保留他们拥有的追随者数量(影响力意义上的out-degree)和他们拥有的追随者数量(in-degree)，并使用对数刻度对结果进行缩放。我们还计算了每个用户的亲密中心性度量。将用户级分类的聚合特征复制到所有用户的推文中，丰富了推文级分类。

分类模型

为了区分IBD患者和其他发布IBD推文的用户，我们比较了2种分类方法中几种分类算法的性能:SI学习方法，首先对推文进行单独分类，然后从推文级分类中推导出用户的类别;基于元数据的MI学习方法，首先将推文级特征聚合到用户级特征，然后对用户本身进行分类。

基于元数据的MI方法首先将MI数据转换为SI数据，然后将标准SI算法应用于转换后的问题[ 54， 55］．为了实现MI方法的用户特征，我们对推文级特征应用算术和平均，并获得每个用户的聚合特征(详细信息请参阅分类特征部分)。注意此过程可能会造成部分信息丢失[ 56］．

对于这两种方法，我们测试了5种用于二进制分类任务的标准和知名算法，如我们的:AdaBoost、梯度增强分类器、线性支持向量机、逻辑回归和随机森林。所有算法都应用于Python中的scikit-learn (sklearn)包[ 57］．

实验

我们将数据集按用户划分为训练集和测试集(大约80%-20%)。训练集有155名患者和377名非患者，测试集有39名患者和90名非患者;因此，集合保持了组之间的比例。

在推文级别分类中，基于用户的分割进行训练集和测试集的分割，属于训练集的用户的推文归属于推文训练集，而属于测试集的用户的推文归属于推文测试集。结果，推文训练集包含263条正面推文和1586条负面推文，而测试集包含62条正面推文和293条负面推文。

我们从所有算法的超参数优化开始，在两种方法的训练数据上使用5倍交叉验证。每个算法和参数的测试值可以在多媒体附件1．

总共有4个常用指标被用来评估模型:精密度，召回率，F₁评分，以及受试者工作特征曲线(ROC AUC)下面积。所有4个指标都是在我们感兴趣的正面类别中计算出来的。在我们的设置中，精确度描述了一个积极预测确实是一个病人的概率，召回描述了分类器检索病人的能力，而F₁Score结合了2。ROC AUC考虑这两个类别的召回率，并衡量模型在不收集大量不需要的其他用户的情况下检索患者的能力。

为了选择最佳的算法变体，我们使用了10倍交叉验证技术来可靠地评估预测能力。在此过程中，我们将训练集随机分为10个大小相等的部分;然后，我们对9个零件进行迭代训练，并对遗漏的零件进行模型评估。我们重复这个迭代10次，每次都省略不同的部分。此外，我们用不同的种子初始化重复了10次10倍交叉验证过程，以改变随机分割。每次都会计算性能指标，结果部分中显示的结果显示了这100次迭代的平均值。

在用户级分类中，我们使用Python中的sklearn包在分类过程中获得了所有4个指标。然而，在推文级别的分类中，在直接从sklearn包中获得指标之前，还需要另一个聚合阶段——该过程返回每个推文的预测(无论它是由病人写的)，我们必须通过聚合对用户推文的预测来推断用户的预测。与手动注释过程一样，如果用户的所有推文都收到了0的预测，则该用户被认为是非耐心的，并收到了负面的预测。或者，如果用户至少有一个积极的预测，他们被认为是一个病人，并收到一个积极的预测。然后，我们使用sklearn包根据我们获得的用户预测和他们的真实标签来计算用户级指标。

最后，我们在整个训练集上训练每种方法(MI和SI)的模型，并在测试集上评估它们的预测。我们使用内置的特征重要性sklearn方法来研究每个特征对逻辑回归和随机森林算法的贡献。系数的绝对值表示特征对逻辑回归的重要性。

分析病人的推文与生活方式相关的推文语料库

这项研究的下一个目标是获得一组推特，患者在推特上描述他们尝试过的与生活方式相关的治疗方法及其症状。通过过滤和合并不同的基于web的数据库[ 58， 59]，我们建立了一个包含420个食物或体育活动类型的单词列表(即与生活方式相关的单词;完整的名单可以在多媒体附件2)．使用Twitter Premium API搜索所有提到IBD的推文(至少包含数据收集和准备部分中描述的3个关键字中的一个): 克罗恩病，结肠炎, #炎症性肠病)以及420个与生活方式相关的词汇中至少一个。为了构建搜索查询，我们在IBD关键字和与生活方式相关的单词中使用OR运算符，然后使用and运算符将两个组连接起来。

我们搜索了2019年1月1日至2019年9月30日的相关推文。我们从搜索中排除了即时消息和重复的推文，并将搜索限制在用英语写的推文上。搜索结果显示，8519名不同用户发布了201136条独特的推文，其中包含新内容。

我们使用了第一部分研究中收集的新数据的分类器，将推文分类为患者推文和用户推文。我们需要为8519个新用户重新创建分类特性。正如我们在第一阶段所做的那样，我们收集了2019年10月1日至10月7日所有用户的另一周的推文，没有进行关键词过滤，也不包括即时消息。共有39.52%(3367/8519)的用户处于私有、挂起或其他不可用状态。该过程产生了5152个用户的数据集，他们总共撰写了402,843条推文。

我们在新数据上构建了分类特征一节中描述的所有分类特征，除了接近中心性。获得这个功能既昂贵又耗时，因为它是唯一需要为每个用户收集所有关注者和关注者并建立他们的Twitter网络的功能。由于它不是10个最有用的分类特征之一，我们决定省略它。

然后，我们使用在第一阶段训练的MI随机森林模型(详细信息请参阅分类模型部分)对用户进行分类并识别患者。共有45.79%(2359/5152)的用户被归类为患者，他们撰写了4160条包含我们关键词的原始推文。我们对这些推文进行了简单的文本清理，删除了所有的屏幕名(由@字符标识)和url，并继续对4160条干净的推文进行分析。

生活方式相关词汇的情感分析

IBM Cloud的自然语言理解(NLU)模块[ 60]用于对我们的每条推文应用类别分类和关键字提取。类别分类特征的目的是识别文本的主题。给定一个文本，NLU模块提供一个可能的类别和子类别以及它们对应的可能性的列表。关键字提取功能识别文本中高度重要的单词和短语，并计算其情绪。给定一个文本，NLU模块返回一个关键字列表及其对应的情绪，表示为−1到1的封闭区间内的分数:−1表示非常消极的情绪，1表示非常积极的情绪。得分为0表示该关键字是在中性上下文中提到的。的 TextBlob语言特征部分中用于情感分析的库只支持全文情感分析，不支持实体级情感分析。尽管它免费且易于使用，但它不适合我们的新任务，因此，我们选择用NLU模块替换它。

目的是确定患者为控制疾病而接受的与生活方式相关的治疗，并确定他们对这些治疗的看法。因此，我们将分析重点放在与健康和营养相关的关键词上。我们将NLU模块分类的所有推文按相关进行分组健康与健身(2080条), 食物和饮料(1568条推文)，或者宗教与灵性(15条)。总的来说，选择了3663条推文进行关键词情绪分析。我们收集了所有出现在我们预定义的生活方式相关词汇列表中的关键词，以及每条推文中与之对应的情感。中总共给出了该过程的3个例子表2．请注意，在第二个示例中，原始tweet的第一个单词(标记为@符号)是一个屏幕名，因此在清理过程中被删除了。

表2

文本清洗后的类别分类和关键词情感提取三个例子。

数量	原始文本	清洗后的文本	类别分类	关键字的情绪
1	菠菜是一种含有大量硫的炎症食物。也要禁止。(我注意到我的克罗恩病往往在菠菜季节发作。)	菠菜是一种含有大量硫的炎症食物。也要禁止。(我注意到我的克罗恩病往往在菠菜季节发作。)	食物和饮料	菠菜:−0.63
2	很棒的投票。我确实偶尔会酗酒，但IBD已经改变了我能喝的东西。不要再喝红酒或麦芽酒了	伟大的调查。我确实偶尔会酗酒，但IBD已经改变了我能喝的东西。不要再喝红酒或麦芽酒了	食物和饮料	红酒:−0.83;啤酒:−0.83
3.	我是活生生的证明，瑜伽可以帮助#uchicagoibd #studiothree #瑜伽#ibd	我是活生生的证明，瑜伽可以帮助#uchicagoibd #studiothree #瑜伽#ibd	宗教与灵性	瑜伽:0.69

为了检验每个与生活方式相关的短语(简而言之，生活方式)的有效性，并评估其整体情绪，我们将结果按生活方式汇总，并计算出以下统计数据:这种生活方式在所有推文中出现的总次数，它在积极(或消极)上下文中出现的次数，出现次数的正负比(几率)，以及这种生活方式的平均情绪。

我们利用统计数据建立了一个共现网络，将生活方式和他们的平均情绪之间的联系可视化。不同的生活方式是节点，如果两种生活方式出现在同一条推文中，就会出现一条弧线连接它们。他们一起出现的次数越多，生活方式之间的联系就越强。因此，得到的网络是无方向的，并根据生活方式同时发生的次数进行加权。目的是确定有益的生活方式(在积极的情况下经常被提及)和最好避免的生活方式(在消极的情况下经常被提及)，并检查某些生活方式是否倾向于一起实施。

网络是通过 Gephi软件(GNU通用公共许可证)用于网络分析和可视化。每个节点都根据其所代表的生活方式的平均情绪，按照从绿色到红色的刻度进行着色，绿色表示非常积极，红色表示非常消极。节点的大小反映了这些生活方式在推特数据库中被提及的次数:它们出现的次数越多，它们的节点就越大。每条弧线的粗细代表两种生活方式同时出现的次数:弧线越粗，两种生活方式同时出现的次数越多。为了避免得到一个过于密集的网络，我们只考虑在我们的数据库中至少提到五次的生活方式节点。我们纳入了至少同时发生四次的生活方式之间的弧线。这一过程产生了144种生活方式呈现在网络中，并根据平均情绪进行了排序。

道德的注意

Twitter数据的收集和分析可能会引发道德挑战，应该予以妥善处理。Twitter数据是公开的，可以通过Twitter api进行研究。通过接受Twitter的服务条款和隐私政策，Twitter用户承认他们的推文可以在全球范围内立即被查看，他们的信息可能会被第三方收集。 61］．尽管如此，社交媒体研究显示，推特用户觉得他们好像在和自己的关注者和追随者进行私人对话。 62， 63］．虽然他们通常不关心他们的文章被用于研究目的，但他们希望在发表时匿名，并在发表前征求他们的同意。

获得所有用户的知情同意参与对推特数据的研究可能是不可行的。数据集可能很大，涉及许多作者[ 61- 63］．在我们的研究中，单独获得所有722名用户的同意是一项劳动密集型工作，甚至是不可能的，因为有些用户可能无法联系到。此外，为用户提供完全匿名的同时直接引用他们的内容是不现实的;推文很容易被搜索到，其作者很容易被识别。

为了遵守道德规范和维护用户隐私，我们只发布汇总结果，不透露具体用户。这3个例子直接引用了推文(in 表2)在获得作者的知情同意后呈现在本研究中。

结果病人识别

表3分别为推文SI分类和用户MI分类两种分类方法的10倍交叉验证和测试结果。该表显示了所有5种分类算法的4个指标的结果。

表3

单实例(SI)和多实例(MI)分类的10倍交叉验证和测试结果。

算法与度量			SI推文级别分类					MI用户级分类
			10倍		测试		10倍			测试
演算法
	精度	0.6775		0.7241		0.6151			0.5902
	回忆	0.6297		0.5385		0.7284			0.9231
	F₁分数	0.6525		0.6176		0.6542			0.7200
	中华民国AUC^一个	0.7532		0.7248		0.8469			0.8226
梯度提升分级机
	精度	0.7416		0.6471		0.6668			0.6735
	回忆	0.6465		0.5641		0.6778			0.8462
	F₁分数	0.6906		0.6027		0.6711			0.7500
	中华民国AUC	0.7768		0.7154		0.8658			0.8342
线性支持向量机^b
	精度	0.7249		0.6667		0.6648			0.5814
	回忆	0.6832		0.7179		0.6398			0.6410
	F₁分数	0.7034		0.6914		0.6472			0.6098
	中华民国AUC	0.7883		0.7812		0.8463			0.7205
逻辑回归
	精度	0.7405		0.6333		0.6594			0.6250
	回忆	0.6335		0.4872		0.6358			0.6410
	F₁分数	0.6829		0.5507		0.6423			0.6329
	中华民国AUC	0.7712		0.6825		0.8473			0.7372
随机森林
	精度	0.7676		0.7333		0.6721			0.6444
	回忆	0.4355		0.2821		0.6646			0.7436
	F₁分数	0.5555		0.4074		0.6595			0.6905
	中华民国AUC	0.6906		0.6188		0.8722			0.7829

^一个ROC AUC:受试者工作特征曲线下的面积。

^b支持向量机:支持向量机。

两种方法对患者分类结果均令人满意。尽管SI方法的准确率略高，但MI方法的召回指数更好，并且MI方法的ROC AUC测量结果始终较高。图3显示测试集结果中4个度量之间的差异。

图3

两种分类方法的测试结果比较。MI:多实例;ROC AUC:受试者工作特征曲线下面积;SI:单实例;支持向量机:支持向量机。

调查每个特征对逻辑回归和随机森林算法的贡献，显示了使用第一人称语音的重要性。在分类方法和算法中，最重要的特征是第一人称的使用，这比其他特征有显著的优势。第一人称标志是SI方法的最佳特征，其平均值是MI方法的最佳特征。另一个主要特征是使用脏话，因为它是方法和算法中最重要的特征之一。

分析还强调了文本衍生的LDA特征的重要性。SI方法的第二个最佳特征是逻辑回归和随机森林算法的LDA主题11。这是唯一一个不包含ibd相关词汇的话题。MI方法的第4和第5个最重要的主题对于两种算法都是相同的——分别是lda主题17和9。在每种方法的训练数据上创建的LDA主题可以在多媒体．

分析病人的推文

在研究的第二阶段，建立并可视化了生活方式之间的联系网络。所得到的描述不同生活方式之间关系的网络可以在多媒体附件4．

在我们的数据库中出现频率最高的单词是饮食其中包含了患者为控制病情而进行的所有营养调整。特定的饮食，比如穿越，素食者,或液体饮食也出现了，而且是在消极的背景下。

有趣的是，分析揭示的消极和积极的生活方式与已知的适合IBD的营养是一致的。我们发现，在最消极的生活方式(刻薄的情绪)中酒精牛奶辣味卷心菜面粉扁豆而且橙汁这些都是已知会引起炎症和刺激胃部的疾病。在最积极的生活方式(平均情绪)中，我们发现与活动相关的生活方式，如健身或瑜伽还有治疗食物，比如大马哈鱼，姜, 大蒜．最积极的生活方式是寿司，通常含有抗炎成分，如大马哈鱼或金枪鱼，海藻, 大米．表4根据刻薄情绪排序，列出了20个最积极和20个最消极的生活方式相关词汇。

表4

20种最积极和最消极的生活方式按刻薄情绪排序。

排名	关键字	数	情绪，刻薄(SD)	正数计数	负计数	几率
1	寿司	9	0.466 (0.814)	7	2	3.500
2	生姜啤酒	5	0.407 (0.597)	3.	1	3.000
3.	大马哈鱼	7	0.344 (0.691)	4	3.	1.333
4	樱桃	10	0.33 (0.696)	6	2	3.000
5	早餐	29	0.28 (0.75)	19	9	2.111
6	大蒜	8	0.244 (0.671)	4	2	2.000
7	百吉饼	5	0.224 (0.633)	3.	1	3.000
8	杏仁	9	0.193 (0.668)	6	3.	2.000
9	酸奶	14	0.189 (0.688)	7	3.	2.333
10	瑜伽	15	0.186 (0.693)	7	5	1.400
11	火腿	5	0.184 (0.535)	2	1	2.000
12	饼干	13	0.172 (0.75)	8	5	1.600
13	菠菜	6	0.171 (0.76)	4	2	2.000
14	素食奶酪	5	0.164 (0.92)	3.	2	1.500
15	羊肉	5	0.14 (0.861)	3.	2	1.500
16	蛋糕	26	0.13 (0.752)	16	9	1.778
17	健身	19	0.114 (0.728)	9	6	1.500
18	姜	17	0.112 (0.724)	8	7	1.143
19	番茄	10	0.089 (0.608)	5	3.	1.667
20.	咖啡馆	7	0.081 (0.783)	3.	3.	1.000
125	Fodmap	12	−0.501 (0.573)	2	9	0.222
126	鸡尾酒	5	−0.51 (0.769)	1	4	0.250
127	纤维	63	−0.512 (0.547)	7	47	0.149
128	辣的	37	−0.514 (0.572)	7	28	0.250
129	蔬菜	49	−0.533 (0.529)	6	39	0.154
130	玉米	28	−0.534 (0.487)	2	22	0.091
131	酒精	64	−0.545 (0.545)	9	51	0.176
132	奶昔	5	−0.556 (0.811)	1	4	0.250
133	牛奶	44	−0.565 (0.5)	4	35	0.114
134	素食	10	−0.567 (0.409)	1	8	0.125
135	零食	10	−0.573 (0.568)	2	8	0.250
136	无花果	5	−0.578 (0.621)	1	4	0.250
137	火鸡	10	−0.608 (0.626)	2	8	0.250
138	酵母	16	−0.624 (0.391)	1	13	0.077
139	橙色	7	−0.638 (0.449)	0	5	0.000
140	饮料	7	−0.661 (0.616)	1	6	0.167
141	卷心菜	8	−0.675 (0.19)	0	8	0.000
142	橙汁	5	−0.682 (0.385)	0	4	0.000
143	面粉	6	−0.785 (0.211)	0	6	0.000
144	小扁豆	6	−0.785 (0.188)	0	6	0.000

讨论主要研究结果

这项研究提出了在Twitter上识别IBD患者并探索他们的推文的工作流程。目的是根据患者在推特上的交流方式来识别IBD患者，并从他们分享的个人经历中学习。

在研究的第一阶段，构建并评估了一个用于区分IBD患者和其他用户的Twitter用户分类器。结合社交数据和文本分析的分类特征从用户在Twitter上的活动、他们的社交关系和他们的推文内容中提取出来。考虑了多种分类算法，每种算法计算了4个评价指标。前一节中显示的令人鼓舞的结果帮助我们相信，基于这些特征，可以在Twitter上识别IBD患者。

来自SI和MI方法的分类结果表明，IBD患者在Twitter上与其他用户交流的方式不同。他们更经常使用第一人称说话，在推特上使用更多的脏话。这些差距可以解释为，患者是私人个体，而非患者也包括以更正式的方式交流的组织和自愿协会，有助于将患者与我们在本研究中尝试的不同分类模型中的其他实体区分开来。

我们的分析与之前关于Twitter用户分类的研究不同[ 36- 38在2个方面。从概念上讲，我们研究了一个不同的领域，并试图在Twitter上识别患者。实际上，我们比较了用户级分类和推文级分类的结果。

在研究的第二阶段，收集了IBD患者的推文，以调查他们为应对疾病而采取的不同生活方式，并评估这些生活方式的有效性。与之前关于患者在Twitter上情绪的研究不同[ 48- 50，我们的研究重点是对特定词语的实体情绪，而不是整条推文的情绪。我们提出了一种新的方法，通过考虑实体情感分析来获得患者对他们尝试的不同营养和基于健康的解决方案的情绪。这些发现与已知的IBD是一致的，因为一些已知会引起炎症的食物是在负面情绪下指出的，而放松活动和抗炎食物是在积极的环境下出现的。

这项研究表明，在了解慢性疾病方面，医生和工程师之间有合作的空间。由于该病的慢性性质和涉及肠道运动的事实，IBD患者被迫遵循特殊的营养并保持平静的日常生活。通过收集和分析患者在社交媒体上的个人经历，我们可以监测患者的生活方式，并支持IBD的医学知识。我们可以确定和评估饮食和体育活动的补充治疗方法，也许可以简化患者寻找正确治疗方法的过程。虽然这样的分析不应该试图取代医生或得出临床性质的结论，但它可以根据大众的智慧为健康的生活方式提供补充建议。

局限性和未来工作概述

这项研究的重点是展示在推特上识别IBD患者并从他们的推特中学习的潜力。本次研究强调的是整个过程，我们并没有单独完善每一个环节。正如本节所解释的，每个部分都可以通过尝试不同的方法和丰富分析来改进。

病人识别

本研究第一阶段开发的分类器使用1级二元分类将IBD患者与其他发布该疾病推文的用户分开。它的一些特征在一般情况下将组织与个人区分开来，并不一定能检测到患者，例如在推文中使用第一人称。因此，我们的非患者类是异构的，并且有些模糊，既包括在通信模式上与患者显著不同的组织，也包括以更精细的方式与患者不同的健康个体。即使在手动标记过程中，由于分类分歧而被排除在数据集中的所有14名用户都是用第一人称说话的人。

未来工作的一个可能方向是尝试两步分类:将个人与组织分开，并继续在这些个人中寻找患者。它可以通过克服模型中非患者类的异质性来提高某些特征的鲁棒性。或者，我们可以尝试用多项分类来取代二元分类，这样不仅可以捕获组织和患者，还可以捕获谈论疾病的个人，可能会提到其他患者，但自己没有生病。

在构建基于网络的功能时，我们只收集了Twitter上的即时连接(即每个患者的关注者和关注者)。抽样方法产生了基本的网络特征，主要包括度测量。我们鼓励未来的研究考虑更多有趣的网络特征，如其他中心性测量或结构。这样的增强将需要收集至少一个级别的连接(例如，被关注者的被关注者)，以更好地理解网络模式。

最后，分类器使用标准的分类算法，没有尝试当前最先进的基于神经网络的学习技术。使用词嵌入的文本表示，其中单词被映射到预定义向量空间中的实数向量[ 64， 65，也值得研究。

分析病人的推文

IBM Cloud的NLU模块在这项研究中用于实体情感分析，作为概念验证。我们没有评估其结果，也没有将其与市场上可用的类似工具(如谷歌Cloud的自然语言API)进行比较。未来的研究应该考虑使用不同的自然语言处理工具进行类似的分析，并比较它们的结果。即使是对来自生活方式相关推文数据的指定算法进行训练，比如本研究中使用的那些数据，也可以使分析受益。

总的来说，第二部分的结果是初步的，要了解IBD患者在Twitter上谈论的内容，还有很多工作要做。例如，通过描述治疗方案和患者对它们的看法，人们可以根据人群的智慧得出健康生活方式的建议。彻底探索异常值，比如4次提到牛奶，而不是35次提到牛奶，可以揭示有关这种疾病的新信息，这些信息尚未在文献中覆盖。

结论

在个性化医疗和以患者为中心的护理时代，获得反映患者观点的见解非常重要，这一点在社交媒体上得到了体现。尽管医生预约之间的间隔时间可能很长，但每天都有人在社交媒体上发布消息，患者不断利用它们交换意见和建议。

这项研究为在Twitter上识别慢性疾病患者提供了一个潜在的渠道，并收集他们的推文来分析他们在网上分享的实验知识。本研究中提出的方法应用于IBD，也可以帮助探索其他疾病。ibd相关实体的分类器可用于识别其他慢性疾病患者。对患者推文的分析可以帮助研究其他具有类似特征的慢性疾病。对于乳糜泻或糖尿病等涉及严格饮食指南的疾病，人们可以更好地理解患者在坚持新的生活方式方面的困难。当考虑到引起尴尬的疾病时，如艾滋病毒，人们可以更多地了解患有这种疾病的患者的持续斗争。

因此，本研究的贡献是双重的:它为文本挖掘和社交媒体领域提供了分析性的贡献，并通过更好地了解慢性疾病和促进慢性疾病患者的健康生活方式做出了实际贡献。

多媒体附件1

分类算法的参数优化。

多媒体附件2

420个与生活方式相关的词汇。

多媒体

在每种分类方法的训练数据上创建潜在的狄利克雷分配主题。

多媒体附件4

与生活方式相关的词汇之间的关系网络。

缩写

API

应用程序编程接口

炎症性肠病

乔治。

潜在狄利克雷分配

心肌梗死

多个实例

NLU

自然语言理解

中华民国AUC

接收机工作特性曲线下面积

如果

单一实例

这项研究由欧洲研究区域网络共同基金健康饮食促进健康生活联合计划倡议下的肠道微生物学资助健康饮食，健康生活伞。

没有宣布。

阴

Fabbri

罗

圣

马林

一个可扩展的框架，用于检测Twitter上提到的个人健康

J医疗互联网服务 2015 06 05 17 6 e138

10.2196 / jmir.4305

26048075

v17i6e138

PMC4526910

Karisani

Agichtein

你真的心脏病发作了吗?对社交媒体上提及的个人健康进行强有力的检测

2018年万维网大会论文集 2018

WWW的18

2018年4月23日至27日

法国里昂

137 46

10.1145/3178876.3186055

陈

Lerman

费拉拉

追踪关于COVID-19大流行的社交媒体话语:开发一个公开的冠状病毒推特数据集

JMIR公共卫生监测 2020 05 29 6 2 e19273

10.2196/19273

32427106

v6i2e19273

PMC7265654

Jahanbin

Rahmanian

利用Twitter和Web新闻挖掘预测COVID-19疫情

亚洲太平洋热带医学 2020 13 8 378 80

10.4103 / 1995 - 7645.279651

Lopreite

米

Panzarasa

Puliga

米

Riccaboni

米

社交媒体对欧洲各地COVID-19疫情的早期预警

Sci代表 2021 01 25 11 1 2147

10.1038 / s41598 - 021 - 81333 - 1

33495534

10.1038 / s41598 - 021 - 81333 - 1

PMC7835375

Gabarron

Dorronzoro

Rivera-Romero

永利

推特上的糖尿病:情感分析

糖尿病科技杂志 2019 05 13 3. 439 44

10.1177 / 1932296818811679

30453762

PMC6501536

库珀

一个

冰斗

一个新的曙光:社交媒体在糖尿病教育中的作用

J糖尿病护士 2014 1 18 2 68 71

Beguerisse-Diaz

米

McLennan

正义与发展党

Garduno-Hernandez

Barahona

米

Ulijaszek

推特上关于#糖尿病的“谁”和“什么”

数字健康 2017 1 1 3. 2055207616688841

10.1177 / 2055207616688841

29942579

10.1177 _2055207616688841

PMC6001201

Sugawara

Narimatsu

Hozawa

一个

邵

大谷

深尾三硕

一个

推特上的癌症患者:社交媒体上的一个新型患者社区

BMC Res Notes 2012 12 27 5 699

10.1186 / 1756-0500-5-699

23270426

1756-0500-5-699

PMC3599295

Tsuya

一个

Sugawara

田中

一个

Narimatsu

癌症患者会发推特吗?研究日本癌症患者使用推特的情况

J医疗互联网服务 2014 05 27 16 5 e137

10.2196 / jmir.3298

24867458

v16i5e137

PMC4060148

卡普兰

全球IBD负担:从2015年到2025年

胃肠醇肝醇 2015 12 12 12 720 7

10.1038 / nrgastro.2015.150

26323879

nrgastro.2015.150

Loftus小

电动汽车

炎症性肠病的临床流行病学:发病率、流行率和环境影响

胃肠病学 2004 05 126 6 1504 17

10.1053 / j.gastro.2004.01.063

15168363

S0016508504004627

Roccetti

米

Marfia

Salomoni

Prandi

Zagari

Gningaye Kengni

Bazzoli

Montagnani

米

克罗恩病患者的态度:信息流行病学案例研究和Facebook和Twitter帖子的情绪分析

JMIR公共卫生监测 2017 08 09 3. 3. 楼

10.2196 / publichealth.7004

28793981

v3i3e51

PMC5569247

Trivedi

我

keefe

出现炎症性肠病的成人:成人胃肠病学家的挑战和建议

胃肠醇Res Pract 2015 2015 260807

10.1155 / 2015/260807

26064089

PMC4434201

诺顿

英航

托马斯。

凯文

公斤

Dudley-Brown

年代

患者对克罗恩病影响的看法:来自小组访谈的结果

患者偏好坚持 2012 6 509 20.

10.2147 / PPA.S32690

22879737

ppa - 6 - 509

PMC3413071

鲁宾

杜宾斯基

Panaccione

西格尔

宁

凯恩

料斗

与其他慢性疾病相比，溃疡性结肠炎对患者生活的影响:患者调查

挖掘科学 2010 04 55 4 1044 52

10.1007 / s10620 - 009 - 0953 - 7

20155319

Brydolf

米

Segesten

与溃疡性结肠炎生活:青少年和年轻人的经验

J高级护士 1996 01 23 1 39 47

10.1111 / j.1365-2648.1996.tb03133.x

8708222

Devlen

Beusterien

日元

艾哈迈德

一个

Cheifetz

作为

莫斯

交流

炎症性肠病的负担:一项患者报告的定性分析和概念模型的发展

肠炎 2014 03 20. 3. 545 52

10.1097/01. mib.0000440983.86659.81

24407484

PMC3932523

大厅

新泽西

鲁宾

全科医生

Dougall

一个

Hungin

美联社

尼利

为“健康相关的正常”而战:对已确诊炎症性肠病(ibd)患者经历的定性研究

健康心理杂志 2005 05 10 3. 443 55

10.1177 / 1359105305051433

15857873

10/3/443

20.

Frohlich

做

利用社交媒体技术构建炎症性肠病

健康Commun 2016 11 31 11 1412 20.

10.1080 / 10410236.2015.1077690

27050670

坎普

格里菲思

洛弗尔

了解IBD患者的健康和社会护理需求:证据的综合分析

世界肠胃醇 2012 11 21 18 43 6240 9

10.3748 / wjg.v18.i43.6240

23180944

PMC3501772

贝克尔

吉隆坡

网络拥抱:通过科技为慢性疼痛患者发声

网络心理行为网络 2013 02 16 2 123 6

10.1089 / cyber.2012.0361

23276258

威斯

凯利

卡拉纳

低频

Dabbish

在香港

霁

齐默尔曼

你跟我关系好吗?你在附近吗?:调查社会群体、亲密度和分享意愿

第13届普适计算国际会议论文集 2011

主要的11

2011年9月17日至21日

中国,北京

197 206

10.1145/2030112.2030140

Paek

沪江

抛

桔多琪宋

金

米

同行还是专家?YouTube公益广告制作方的说服力

Int J广告 2015 01 07 30. 1 161 88

10.2501 / ija - 30 - 1 - 161 - 188

林

王寅

张

首歌

Omori

Web 2.0时代的健康信息寻求:信任社交媒体、减少不确定性和自我披露

计算人类行为 2016 03 56 289 94

10.1016 / j.chb.2015.11.055

金伯利

针对癌症、糖尿病和哮喘的数据挖掘

普渡大学 2016

2018-01-24

https://docs.lib.purdue.edu/dissertations/AAI10170604/

Heaivilin

NgydF4y2Ba

尔贝特

页面

吉布斯

莱托

通过推特对牙痛进行公共卫生监测

J登特保留区 2011 09 90 9 1047 51

10.1177 / 0022034511415273

21768306

0022034511415273

PMC3169887

哈里斯

穆勒

问

斯奈德

Haire-Joshu

美国当地卫生部门使用Twitter传播糖尿病信息

既往慢性疾病 2013 05 02 10 E70

10.5888 / pcd10.120215

23639765

E70

PMC3652718

Hemsley

帕尔默

年代

两项关于推特网络和推特内容与肌萎缩性侧索硬化症(ALS)相关的研究:对话、信息和“日常生活日记”

面向消费者、临床医生、连接和社区的数字健康创新:第24届澳大利亚国家卫生信息会议选刊 2016

嗝的16

2016年7月25日至27日

澳大利亚墨尔本

荷兰阿姆斯特丹

IOS的新闻

41 7

10.3233 / 978-1-61499-666-8-41

30.

Adrover

·博德纳尔

黄

Telenti

一个

Salathe

米

使用Twitter识别艾滋病药物治疗的不良影响和相关情绪

JMIR公共卫生监测 2015 7 27 1 2 e7

10.2196 / publichealth.4488

27227141

v1i2e7

PMC4869211

Sioula-Georgoulea

我

从社会学角度看待推特:hiv阳性女性被公开羞辱的案例研究

Επιθεώρηση Κοινωνικών Ερευνών 2015 11 25 144 103 28

10.12681 / grsr.8625

Odlum

米

尹

年代

艾滋病毒/艾滋病与千年发展目标:世界艾滋病日推特聊天的公众情绪分析

国际艾滋病决议 2016 11 14 3. 9 134 7

10.19070 / 2379-1586-1600026

De Choudhury

米

莫里斯

先生

白色

在网上寻找和分享健康信息:比较搜索引擎和社交媒体

计算机系统中的人为因素SIGCHI会议论文集 2014

气的14

2014年4月26日至5月1日

加拿大多伦多

1365 76

10.1145/2556288.2557214

荒川

Kameda

一个

Aizawa

一个

铃木

将特定于twitter的功能添加到按用户类型和转发数量对twitter进行分类的风格功能中

美国科学技术研究所 2014 01 22 65 7 1416 23

10.1002 / asi.23126

霍姆博格

鲍曼

道明

Haustein

年代

彼得斯

我

天体物理学家在推特上的对话联系

《公共科学图书馆•综合》 2014 8 25 9 8 e106086

10.1371 / journal.pone.0106086

25153196

玉米饼- d - 14 - 22823

PMC4143334

Pennacchiotti

米

Popescu

我

民主党，共和党和星巴克的狂热爱好者:Twitter的用户分类

第17届ACM SIGKDD知识发现和数据挖掘国际会议论文集 2011

知识发现(KDD)的11

2011年8月21日至24日

圣地亚哥，加利福尼亚州，美国

430 8

10.1145/2020408.2020477

Pennacchiotti

米

Popescu

我

推特用户分类的机器学习方法

Proc Int AAI Conf Web Soc媒体 2011 5 1 281 8

饶

Yarowsky

Shreevats

一个

古普塔

米

对Twitter中的潜在用户属性进行分类

第二届搜索和挖掘用户生成内容国际研讨会论文集 2010

SMUC的10

10月30日

加拿大多伦多

37 44

10.1145/1871985.1871993

De Choudhury

米

Diakopoulos

NgydF4y2Ba

乃缦

米

在Twitter上展开事件景观:用户类别的分类和探索

ACM 2012年计算机支持合作工作会议论文集 2012

CSCW的12

2012年2月11日至15日

西雅图，华盛顿州，美国

241 4

10.1145/2145204.2145242

霍姆博格

Eriksson-Backa

埃克

年代

发关于糖尿病和饮食的推文——内容和对话联系

第五届信息社会福祉国际会议论文集 2014

威斯康星州的14

2014年8月18日至20日

芬兰图尔库

45 56

10.1007 / 978 - 3 - 319 - 10211 - 5 - _5

Bergsma

年代

Dredze

米

范Durme

威尔逊

Yarowsky

通过Twitter上基于通信的名称和位置聚类，广泛改进用户分类

计算语言学协会北美分会2013年会议记录:人类语言技术 2013

HLT-NAACL“13

2013年6月9日至14日

亚特兰大，佐治亚州，美国

1010 9

哈里斯

集市

一个

Moreland-Russell

年代

Caburnay

糖尿病话题与Twitter参与度相关

既往慢性疾病 2015 05 07 12 约

10.5888 / pcd12.140402

25950569

约

PMC4436046

汗

一个

西尔弗曼

一个

罗

一个

罗

年代

蜱虫

米

外种皮

年代

多兹

Alabbas

Borum

毫升

谁在推特上说炎症性肠病呢?

GW年度研究日2018 2018

GW Research '18

2018年4月10日至11日

虚拟

176

罗

一个

罗

年代

西尔弗曼

一个

Borum

毫升

推特上的克罗恩病信息:谁在说话?

胃肠病学 2018 01 1 154 1 向 4

10.1053 / j.gastro.2017.11.059

Roccetti

米

Casari

一个

Marfia

慢性自身免疫性疾病社区内部:克罗恩病患者行为和医疗信息的社会网络视角

2015年IEEE/ACM社会网络分析和挖掘进展国际会议论文集 2015

ASONAM”15

2015年8月25-28日

法国巴黎

1089 96

10.1145/2808797.2808813

奥尼尔

Shandro

Poullis

一个

炎症性肠病患者对社交媒体远程医疗的看法

未来健康 2020 10 7 3. 241 4

10.7861 / fhj.2020 - 0094

33094237

futurehealth

PMC7571747

Frohlich

做

Zmyslinski-Seelig

一个

揭秘造口术如何挑战造口术的耻辱，并鼓励其他人也这样做

新媒体Soc 2014 07 09 18 2 220 38

10.1177 / 1461444814541943

Perez-Perez

米

Perez-Rodriguez

Fdez-Riverola

Lourenco

一个

使用Twitter了解人类肠道疾病社区:关键主题的探索性分析

J医疗互联网服务 2019 08 15 21 8 e12610

10.2196/12610

31411142

v21i8e12610

PMC6711036

马戈利斯

巴勒斯坦权力机构

Maddali

Gloor

巴勒斯坦权力机构

慢性病患者网络社区结构比较

国际风琴工程 2016 4 1／2 113 36

10.1504 / ijode.2016.10001025

科恩

呃

明镜

范Oijen

毫克

Tu1068推特提供洞察溃疡性结肠炎的健康相关生活质量(HRQoL)

胃肠病学 2013 05 5 144 s - 751

10.1016 / s0016 - 5085 (13) 62785 - 7

Dietterich

莱斯罗普

Lozano-Perez

解决轴平行矩形的多实例问题

Artif智能 1997 01 89 1 - 2 31 71

10.1016 / s0004 - 3702 (96) 00034 - 3

徐

多实例问题中的统计学习

怀卡托大学 2003 6

2018-07-15

https://www.cs.waikato.ac.nz/~ml/publications/2003/xinxu_thesis.pdf

布莱

唉

约旦

心肌梗死

潜狄利克雷分配

J Mach Learn Res 2003 3. 993 1022

福尔兹

弗兰克

多实例学习假设回顾

知识及Rev 2010 03 01 25 1 1 24

10.1017 / s026988890999035x

越南盾

多实例学习算法的比较

怀卡托大学 2006 2

2018-07-15

https://researchcommons.waikato.ac.nz/bitstream/handle/10289/2453/thesis.pdf?sequence=1&isAllowed=y

舒尔特

Routley

聚合预测与关联分类的聚合特征

2014年IEEE计算智能与数据挖掘研讨会论文集 2014

CIDM的14

2014年12月9日至12日

奥兰多，佛罗里达州，美国

121 8

10.1109 / cidm.2014.7008657

Pedregosa

Varoquaux

Gramfort

一个

米歇尔

蒂里翁

Grisel

他们批判

米

Prettenhofer

维斯

Dubourg

Vanderplas

斯帕索斯

一个

Cournapeau

布鲁赫

米

Perrot

米

Duchesnay

Scikit-learn: Python中的机器学习

J Mach Learn Res 2011 12 2825 30.

食品综合数据集组成(CoFID)

英国公共卫生部 2015 3. 25

2019-09-16

https://www.gov.uk/government/publications/composition-of-foods-integrated-dataset-cofid: ~:文本= % 20 'composition % % 20的20种食物% 20集成,在% 20 % 20猪肉食谱% 20 % 20节

FoodData中央

美国农业部农业研究局 2019

2019-09-16

https://fdc.nal.usda.gov/

自然语言理解

IBM云API文档 2020

2021-07-15

https://cloud.ibm.com/apidocs/natural-language-understanding

艾哈迈德

浴

巴勒斯坦权力机构

Demartini

Woodfield

使用Twitter作为数据源:伦理、法律和方法挑战的概述

在线研究的伦理(研究伦理与诚信进展，第二卷) 2017

彬格莱先生,英国

翡翠集团出版

79 107

Fiesler

Proferes

NgydF4y2Ba

“参与者”对Twitter研究伦理的看法

媒体系统 2018 03 10 4 1 205630511876336

10.1177 / 2056305118763366

威廉姆斯

毫升

Burnap

斯隆管理学院

在社会研究中发布Twitter数据的道德框架:考虑到用户的观点、在线上下文和算法估计

社会学 2017 12 51 6 1149 68

10.1177 / 0038038517708140

29276313

10.1177 _0038038517708140

PMC5718335

Bengio

Ducharme

文森特

Jauvin

一个神经概率语言模型

J Mach Learn Res 2003 3. 1137 55

Collobert

韦斯顿

自然语言处理的统一架构:具有多任务学习的深度神经网络

第25届国际机器学习会议论文集 2008

ICML 08年

2008年7月5日至9日

芬兰赫尔辛基

160 7

10.1145/1390156.1390177