JMIR医学信息学-通过社交媒体数据分析了解新发疾病的管道:乳房植入疾病的案例研究gydF4y2Ba

原始论文gydF4y2Ba

Vishal戴伊gydF4y2Ba^1gydF4y2Ba二元同步通信,gydF4y2Ba ；gydF4y2Ba
彼得KrasniakgydF4y2Ba^2gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
明阮gydF4y2Ba^2gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
克拉拉李gydF4y2Ba^2gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
夏宁gydF4y2Ba^{1，gydF4y2Ba}^{2，gydF4y2Ba}^3.gydF4y2Ba博士gydF4y2Ba

^1gydF4y2Ba美国俄亥俄州哥伦布市俄亥俄州立大学计算机科学与工程系gydF4y2Ba

^2gydF4y2Ba美国俄亥俄州哥伦布市俄亥俄州立大学生物医学信息系gydF4y2Ba

^3.gydF4y2Ba翻译数据分析研究所，俄亥俄州立大学，哥伦布，OH，美国gydF4y2Ba

通讯作者:gydF4y2Ba

夏宁博士gydF4y2Ba

生物医学信息系gydF4y2Ba

俄亥俄州立大学gydF4y2Ba

大炮路1800号gydF4y2Ba

哥伦布，OH, 43210gydF4y2Ba

美国gydF4y2Ba

电话:1 6143662287gydF4y2Ba

电子邮件:gydF4y2Baning.104@osu.edugydF4y2Ba

背景:gydF4y2Ba一种新的疾病可以在医学上定义、正式记录或系统研究之前，通过社交媒体引起公众的注意。其中一个例子是一种被称为乳房植入物疾病(BII)的疾病，尽管在医学文献中对其定义模糊，但在社交媒体上已被广泛讨论。gydF4y2Ba

摘要目的:gydF4y2Ba本研究的目的是构建一个数据分析管道，利用社交媒体数据来了解新出现的疾病，并应用该管道来了解BII的关键属性。gydF4y2Ba

方法:gydF4y2Ba我们使用自然语言处理和主题建模构建了一个社交媒体数据分析管道。使用临床文本分析和知识提取系统从社交媒体数据中提取与体征、症状、疾病、障碍和医疗程序相关的提及。我们将提及映射到标准医学概念，然后使用潜在狄利克雷分配将这些映射的概念总结为主题。最后，我们应用这个管道从几个BII专用的社交媒体网站来理解BII。gydF4y2Ba

结果:gydF4y2Ba我们的管道确定了与BII高度相关的毒性、癌症和心理健康问题相关的主题。根据社交媒体的讨论，我们的管道还显示，癌症、自身免疫性疾病和精神健康问题是与乳房植入物相关的新问题。此外，该管道还确定了诸如破裂、感染、疼痛和疲劳等公众自我报告的常见问题，以及对硅胶植入物毒性的担忧。gydF4y2Ba

结论:gydF4y2Ba我们的研究可以启发未来对BII症状和因素的研究。我们的研究首次使用自然语言处理技术从社交媒体中分析和获得了BII知识，并证明了使用社交媒体信息更好地理解类似新发疾病的潜力。gydF4y2Ba

JMIR Med Inform 2021;9(11):e29768gydF4y2Ba

doi: 10.2196/29768gydF4y2Ba

关键字gydF4y2Ba

乳房植入疾病gydF4y2Ba；gydF4y2Ba 社交媒体gydF4y2Ba；gydF4y2Ba 自然语言处理gydF4y2Ba；gydF4y2Ba 主题建模gydF4y2Ba

背景gydF4y2Ba

社交媒体的无所不在导致了在系统研究新疾病之前，社交媒体平台上对新疾病和进化疾病的早期描述[gydF4y2Ba1gydF4y2Ba-gydF4y2Ba7gydF4y2Ba]，尤其是在医疗互联网时代[gydF4y2Ba8gydF4y2Ba-gydF4y2Ba14gydF4y2Ba］．社交媒体用户越来越多地转向Twitter (Twitter Inc)、Facebook (Facebook Inc)和YouTube(谷歌LLC)等平台，分享个人经历，包括他们经历过的疾病和疾病，或寻求支持和资源，如健康和医疗资源。最近的研究表明，社交媒体在检测精神疾病和抑郁症方面具有潜力。gydF4y2Ba15gydF4y2Ba-gydF4y2Ba17gydF4y2Ba]以及及早发现食源性疾病[gydF4y2Ba18gydF4y2Ba-gydF4y2Ba20.gydF4y2Ba]及其他传染病[gydF4y2Ba2gydF4y2Ba，gydF4y2Ba21gydF4y2Ba-gydF4y2Ba24gydF4y2Ba］．此外，一些研究表明，在多次流感爆发期间，社交媒体是传播有关症状、个人健康和公共卫生资源信息的有效工具[gydF4y2Ba25gydF4y2Ba-gydF4y2Ba28gydF4y2Ba］．在COVID-19的早期阶段，研究[gydF4y2Ba4gydF4y2Ba，gydF4y2Ba29gydF4y2Ba，gydF4y2Ba30.gydF4y2Ba]分析了新浪微博(中国主要的微博网站)上的帖子，以描述中国多个省份的患者症状和公众担忧。从微博(微博公司)的帖子分析，Huang等[gydF4y2Ba30.gydF4y2Ba]的结论是，受感染的患者大多是老年人，发烧是最常见的症状。这些研究表明，可以利用公共社交媒体数据更好地了解新出现的疾病，并及时作出反应。gydF4y2Ba

我们在这篇手稿中研究的一种新疾病是乳房植入物疾病(BII)。在过去的20年里，隆胸手术越来越流行。gydF4y2Ba31gydF4y2Ba］．在此期间，美国每年有超过40万名女性接受了隆胸或乳房切除术后手术[gydF4y2Ba32gydF4y2Ba］．2017年至2018年期间，隆胸手术数量增加了4%，同期乳房植入物移除手术增加了6% [gydF4y2Ba32gydF4y2Ba］．此外，人们对隆胸手术的安全性亦有所关注[gydF4y2Ba33gydF4y2Ba-gydF4y2Ba38gydF4y2Ba]并坚持[gydF4y2Ba39gydF4y2Ba-gydF4y2Ba45gydF4y2Ba］．然而，尽管隆胸和全身性疾病之间的因果关系还没有得到明确的证明，一种现象被称为gydF4y2Ba乳房植入疾病gydF4y2Ba，将全身症状归咎于隆胸，[gydF4y2Ba46gydF4y2Ba］．然而，与其他新的医学疾病不同，BII在医学文献中鲜有报道，主要局限于社交媒体[gydF4y2Ba11gydF4y2Ba，gydF4y2Ba47gydF4y2Ba-gydF4y2Ba50gydF4y2Ba］．例如，最近的一项分析[gydF4y2Ba49gydF4y2Ba]根据2018年2月至2019年2月推特和谷歌趋势数据显示，公众对BII的兴趣越来越大。为了总结界定BII的主要症状、疾病和障碍，几项队列研究[gydF4y2Ba51gydF4y2Ba，gydF4y2Ba52gydF4y2Ba分析了患者报告的乳房移植手术前后的结果。这些研究表明，在患者群体中，外植体手术和特定症状的改善之间存在一些潜在的关系。不幸的是，这些研究不是决定性的，因为它们的研究设计有限，其次是缺乏对照组、数据收集偏差和缺乏随机化。由于缺乏关于BII的医学知识，很难对这种疾病进行定义，因此几乎不可能进行严格的流行病学或临床研究。BII只是一种明显缺乏医学知识的疾病过程，但还有许多其他新疾病也是如此。任何有足够社交媒体数据支持的初始知识，对于未来的正式研究都是有意义的参考，因此，发现这些知识的技术是非常需要的。gydF4y2Ba

目标gydF4y2Ba

为了识别和总结一种新疾病的关键属性，在本研究中，我们构建了一个用于BII社交媒体数据分析的数据分析管道。该管道结合了自然语言处理(NLP)和主题建模方法。我们的主要目标是通过构建数据分析管道并将该管道应用于社交媒体数据，获得关于BII的新知识，BII是一种在医学文献中尚未系统研究和定义的医学疾病。由于关于BII的医学知识和文献尚未建立，相关概念也没有得到很好的定义或接受，因此使用社交媒体数据来理解新出现的问题可能是一个有意义的起点。我们应用这个管道来更好地理解与BII相关的症状和体征。据我们所知，本研究是第一个使用社交媒体数据从社交媒体中获得BII知识的研究。这证明了使用社交媒体信息来更好地理解主要在社交媒体上报道的情况的潜力。它还建立了我们管道的有效性，以及它在了解其他新疾病方面的潜在应用。在接下来的讨论中，我们已经在BII上下文中描述了我们的分析管道。然而，我们的产品线并不针对BII，也适用于其他疾病。gydF4y2Ba

数据gydF4y2Ba

我们从精选的社交媒体网站上收集和使用数据。之所以选择这些网站，是因为它们致力于BII讨论和信息，并专注于对BII感兴趣的用户群体。通常，专门的社交媒体网站(如论坛和Twitter页面)可用于特定的疾病或疾病。例如，一些专门的网站[gydF4y2Ba53gydF4y2Ba-gydF4y2Ba55gydF4y2Ba]包含不同癌症患者的故事和经历，有些[gydF4y2Ba56gydF4y2Ba，gydF4y2Ba57gydF4y2Ba]包含用户经历慢性疼痛和疾病的帖子和故事，以及其他[gydF4y2Ba58gydF4y2Ba-gydF4y2Ba60gydF4y2Ba]包含COVID-19幸存者的故事和经历。我们研究中使用的社交媒体来源如下:gydF4y2Ba

BII [gydF4y2Ba61gydF4y2Ba:这是一个专门的公共网站，有与bii相关主题的文章，并提供与植入和外植体程序等相关的资源。该网站还允许个人发布他们对隆胸和相关健康问题的经历和担忧。我们从网站上提取了个别帖子(截至2019年5月10日)，得到的数据集被称为BIIweb。gydF4y2Ba
治疗性BII [gydF4y2Ba62gydF4y2Ba:这个网站包含了关于植体后疾病、植体后愈合、乳房植入安全等方面的信息。这个网站的讨论区有很多帖子和评论，都是关于隆胸者或隆胸者所经历的症状、体征等。从本网站讨论区提取的数据集(截至2019年5月10日)称为HealingBII。gydF4y2Ba
Instagram上关于BII的帖子[gydF4y2Ba63gydF4y2Ba]:这个网站包含了一组公开的Instagram帖子gydF4y2BabreastimplantillnessgydF4y2Ba作为一个标签。我们提取了每个Instagram帖子的相关文本，时间戳为2012年1月10日至2019年9月4日。从该站点提取的数据集称为IG-BII。gydF4y2Ba

来自这3个网站的所有评论和帖子都包含在相应的数据集中。gydF4y2Ba表1gydF4y2Ba提供收集的社交媒体数据的摘要。BIIweb数据集只有187个帖子(其中每个帖子平均有129个单词，SD 124)，但这些帖子平均比其他两个数据集的帖子更大(帖子的平均单词长度更大)。HealingBII是第二大数据集，有1920个帖子，每个帖子平均85个单词(lgydF4y2Ba_avggydF4y2Ba) (sd107)。IG-BII是最大的数据集，有28987条帖子，平均每条帖子123字(SD 113)。gydF4y2Ba

表1。分析社交媒体数据的统计总结。gydF4y2Ba

数据集gydF4y2Ba	的帖子gydF4y2Ba^{一个gydF4y2Ba}(n=31,094)， n (%)gydF4y2Ba	lgydF4y2Ba_{马克斯gydF4y2Ba}^bgydF4y2Ba	lgydF4y2Ba_{最小值gydF4y2Ba}^cgydF4y2Ba	lgydF4y2Ba_avggydF4y2Ba^dgydF4y2Ba，平均值(SD)gydF4y2Ba	单词gydF4y2Ba^egydF4y2Ba， n (%)gydF4y2Ba
BIIwebgydF4y2Ba	187 (0.6)gydF4y2Ba	669gydF4y2Ba	3.gydF4y2Ba	129 (124)gydF4y2Ba	24191 (0.64)gydF4y2Ba
HealingBIIgydF4y2Ba	1920 (6.17)gydF4y2Ba	1330gydF4y2Ba	1gydF4y2Ba	85 (107)gydF4y2Ba	165090 (4.38)gydF4y2Ba
IG-BIIgydF4y2Ba	28987 (93.22)gydF4y2Ba	515gydF4y2Ba	1gydF4y2Ba	123 (113)gydF4y2Ba	3581081 (94.98)gydF4y2Ba

^{一个gydF4y2Ba}Posts:在各自的数据集中的帖子和评论的数量。gydF4y2Ba

^bgydF4y2BalgydF4y2Ba_{马克斯gydF4y2Ba}:一篇文章的最小长度。gydF4y2Ba

^cgydF4y2BalgydF4y2Ba_{最小值gydF4y2Ba}:一篇文章的最大长度。gydF4y2Ba

^dgydF4y2BalgydF4y2Ba_avggydF4y2Ba:帖子的平均长度。gydF4y2Ba

^egydF4y2Ba单词:各数据集中的单词总数。gydF4y2Ba

管道gydF4y2Ba

概述gydF4y2Ba

图1gydF4y2Ba显示管道的概述。我们通过以下3个步骤从数据集中提取主要与症状、疾病和医疗程序相关的主要主题。后面将详细讨论每个步骤。第一步是数据预处理。我们删除了所有停止词、数字字符、超链接、标签等，并将其余字符转换为小写字母。第二步是提及提取和概念映射。我们使用临床文本分析和知识提取系统(cTAKES)提取与体征、症状、疾病、障碍和医疗程序相关的提及[gydF4y2Ba64gydF4y2Ba］．提取的提及被进一步映射到统一医学语言系统(UMLS)中由概念唯一标识符(cui)表示的标准医学概念[gydF4y2Ba65gydF4y2Ba本体。第三步涉及主题建模。我们利用潜狄利克雷分配(LDA)将映射的概念总结为主题[gydF4y2Ba66gydF4y2Ba］．LDA是一种用于主题建模的概率生成模型。它将每个文档表示为潜在主题的混合，其中每个主题被建模为单词的分布。该建模分为三个阶段:(1)提及替换，(2)LDA主题建模，(3)分析与评价。在提及替换中，我们将每个提取的提及替换为其映射的cui，并丢弃帖子中的所有其他单词。我们在本节中更详细地讨论了这一步gydF4y2Ba主题建模gydF4y2Ba．然后，在使用LDA进行主题建模时，给定映射cui的语料库，LDA生成文档-主题和主题- cui概率分布。我们在本节中更详细地讨论了这一步gydF4y2Ba主题建模gydF4y2Ba．最后，在我们的分析和评估过程中，我们进一步分析了这些分布，以使用最具代表性的提及率得出主题列表，并总结了每个数据集提取的提及率。我们在本节中更详细地讨论了这一步gydF4y2Ba结果:LDA主题gydF4y2Ba．gydF4y2Ba

图1。乳房植入疾病管道社交媒体分析。ASCII:美国信息交换的标准代码;CUI:概念唯一标识符;LDA:潜狄利克雷分配;临床文本分析与知识提取系统。gydF4y2Ba

数据预处理gydF4y2Ba

我们使用了自然语言工具包的标记器[gydF4y2Ba67gydF4y2Ba]来标记每个数据集的原始文本。从获得的标记中，我们使用自然语言工具包英语停止词列表删除了停止词(最频繁出现的功能词，如连词、介词、限定词等)。由于停止词在BII中只包含很少或没有关于我们感兴趣的主题的信息，因此可以安全地删除它们，就像在NLP中通常所做的那样。我们还使用正则表达式匹配删除了所有数字字符、表情符号、非美国信息交换标准代码(ASCII)字符、超链接、标签和Instagram句柄，并将所有剩余的令牌转换为小写，以统一不同的大小写，以便后续处理。gydF4y2Ba

提到提取和概念映射gydF4y2Ba

提述提取是指提取表达医学概念的词语或短语。我们使用cTAKES工具进行提及提取。cTAKES工具是一个开源的NLP工具，用于从非结构化的临床文本中提取临床信息。cTAKES从帖子中提取提及(即传达医学概念的单词或短语)，并将这些提及映射到标准医学概念。在此过程中，它还将每个提取的提及分为5类:体征、症状、疾病、障碍、药物、程序和解剖;也就是说，cTAKES在提取提及的同时，也会自动将提及分类为5个类别之一。例如，在“这些年来，我的耳鸣变得越来越严重，几乎到了衰弱的程度”这句话中，就有摘录gydF4y2Ba耳鸣gydF4y2Ba作为标志和症状范畴的提及。下面，我们将详细讨论如何配置ctake。gydF4y2Ba

我们使用cTAKES中的快速字典查找注释器从处理过的数据中提取提及。这个注释器识别并提取文本中的提及，并将它们规范化为UMLS标准医学本体中的cui。将提取的提及归一化到cui中称为概念映射。UMLS本体中的每个CUI唯一地标识一个医学概念。因此，我们使用cTAKES将提及映射到的cui的标准医学概念来表示提取的提及。我们将注释器配置为使用精确的字符串匹配并使用all-term-persistence属性。因此，注释器可以保留所有术语，而不考虑每个术语的语义属性。例如，对于短语gydF4y2Ba背部疼痛gydF4y2Ba，注释器将注释通用术语gydF4y2Ba疼痛gydF4y2Ba以及精确的术语gydF4y2Ba背部疼痛gydF4y2Ba．我们选择使用全术语持久性属性来保留关于精确和通用医学概念的最大信息。最后，注释器将生成的注释存储在XML元数据交换(XMI)文件中。gydF4y2Ba

为了从XMI文件中获得人类可读格式的注释，我们执行了以下步骤(gydF4y2Ba图2gydF4y2Ba)．我们使用一个自定义解释器来处理ctake生成的XMI文件，并从ctake获得提及和cui之间的映射。我们首先搜索gydF4y2BaUmlsConceptgydF4y2BaXMI文件中的XML标识符，其中每个gydF4y2BaUmlsConceptgydF4y2BaXML标识符通常分组在gydF4y2BaFSArraygydF4y2Ba，以及gydF4y2BaFSArraygydF4y2Ba是与单一本体概念和范畴概念相关联的。每个概念被分配到5个类别中的一个类别:体征、症状、疾病、障碍、药物、程序和解剖。每个本体概念进一步与UMLS CUI和gydF4y2BaontologyConceptArrgydF4y2Ba标识符。必须注意的是，一个提及可以映射到多个cui。例如，提到gydF4y2Ba过敏反应gydF4y2Ba分为体征和症状，但映射到2个不同的cui:gydF4y2BaC1527304gydF4y2Ba而且gydF4y2BaC0020517gydF4y2Ba．然后，我们提取了描述这些类别中的任何一个的本体论概念:疾病、失调、迹象、症状和医疗程序。最后，我们使用gydF4y2Ba开始gydF4y2Ba而且gydF4y2Ba结束gydF4y2Ba与每个相关的标记gydF4y2BaontologyConceptArrgydF4y2Ba标识符，以获取在输入文章中注释的提及的位置。在这项工作中，我们只对前3类(即体征、症状、疾病、障碍和过程)感兴趣，以了解bii相关问题。因此，我们只使用这三种类别中的任何一种。gydF4y2Ba

图2。从临床文本分析和知识提取系统中获取注释的管道。cTAKES临床文本分析与知识抽取系统CUI:概念唯一标识符;UMLS:统一的医学语言系统。gydF4y2Ba

主题建模gydF4y2Ba

为了进行主题建模，我们对帖子进行了如下处理:我们将帖子中的每个提及替换为其映射的cui，并丢弃帖子中所有被cTAKES视为非医学概念或不属于3个兴趣类别的单词。如果一个提及被映射到多个cui，我们就用多个cui替换它。如果多个提及被映射到同一个CUI，我们用CUI替换所有这样的提及。通过这种方式，每个帖子都被表示为一个cui袋，而不是一个提及的集合，作为主题建模的输入，我们的词汇表由cui组成。在主题建模的基础上，我们对主题- cui分布进行了解释，从而得到主题。gydF4y2Ba

我们使用LDA [gydF4y2Ba66gydF4y2Ba]，以了解每篇文章的主题分布和每个主题的CUI分布。LDA是一种生成概率模型，用于在文档语料库中建模主题。LDA将语料库中的每个文档建模为潜在主题的混合，其中每个主题建模为所有文档中单词的分布。LDA通过最大化观察语料库的可能性来获得最佳分布，遵循视角分布。中提供了LDA的简要描述gydF4y2Ba多媒体附件1gydF4y2Ba［gydF4y2Ba66gydF4y2Ba］．在我们的实验中，LDA使用上述生成的一袋cui作为文档，其中cui为文档中的单词。我们使用了lda-c软件[gydF4y2Ba68gydF4y2Ba，这是LDA方法的一个非常有效的实现，可以进行主题建模。gydF4y2Ba

当LDA用于一般文档(如新闻、科学文献)的主题建模时，会使用文档中的单词及其频率。然而，在我们的分析中，我们旨在从社交媒体文本中了解与BII相关的医学概念。不同的词语可能表示相同的医学概念。例如，关节疼痛、关节疼痛、关节痛和关节疼痛都表示关节疼痛，并与由单个CUI表示的单个医学概念相关。因此，在我们的LDA分析中，我们没有使用文字，而是使用了由cui表示的医学概念。由于表示同一医学概念的多个单词可以映射到同一个CUI，因此使用CUI还可以聚合和加强来自多个单词的信息，而使用单词则可能是稀疏的，因此不容易从中学习主题。gydF4y2Ba

cTAKES注释gydF4y2Ba

表2gydF4y2Ba给出了注释提及的汇总统计信息，以及通过ctake映射的cui信息。在BIIweb中，cTAKES提取了2186个提及，并将它们映射到475个唯一的cui。在HealingBII中，cTAKES提取了11,080个提及，并将它们映射到1177个唯一的cui。在最大的数据集IG-BII中，cTAKES提取了5530个独特的提及，并将它们映射到2871个独特的cui。注意，相同的提及可以映射到多个CUI，并且可以有多个类别(每个CUI只有一个类别)。例如，提到gydF4y2Ba闪光gydF4y2Ba映射到2个不同的cui，然后映射到2个不同的类别:疾病和医疗程序。gydF4y2Ba表2gydF4y2Ba为每个提取提及的类别提供统计数据。对于每个数据集，大部分提取的提及都被cTAKES归类为体征和症状。gydF4y2Ba

表2。临床文本分析与知识提取系统注释的统计总结。gydF4y2Ba

数据集gydF4y2Ba	cwordsgydF4y2Ba^{一个gydF4y2Ba}	annotsgydF4y2Ba^bgydF4y2Ba	地图gydF4y2Ba^cgydF4y2Ba	米gydF4y2Ba^dgydF4y2Ba	CgydF4y2Ba^egydF4y2Ba	M / CgydF4y2Ba^fgydF4y2Ba	C / MgydF4y2Ba^ggydF4y2Ba	年代gydF4y2Ba^hgydF4y2Ba	DgydF4y2Ba^我gydF4y2Ba	PgydF4y2Ba^jgydF4y2Ba
BIIwebgydF4y2Ba	24034年gydF4y2Ba	2186gydF4y2Ba	661gydF4y2Ba	640gydF4y2Ba	475gydF4y2Ba	1.39gydF4y2Ba	1.03gydF4y2Ba	385gydF4y2Ba	149gydF4y2Ba	106gydF4y2Ba
HealingBIIgydF4y2Ba	163352年gydF4y2Ba	11080年gydF4y2Ba	1740gydF4y2Ba	1685gydF4y2Ba	1177gydF4y2Ba	1.48gydF4y2Ba	1.03gydF4y2Ba	891gydF4y2Ba	503gydF4y2Ba	292gydF4y2Ba
IG-BIIgydF4y2Ba	3116966年gydF4y2Ba	185339年gydF4y2Ba	5694gydF4y2Ba	5530gydF4y2Ba	2871gydF4y2Ba	1.98gydF4y2Ba	1.03gydF4y2Ba	3049gydF4y2Ba	1549gydF4y2Ba	932gydF4y2Ba

^{一个gydF4y2Ba}cwords:临床文本分析与知识提取系统识别的总字数。gydF4y2Ba

^bgydF4y2Ba注释:提取的属于3种语义类型(即，体征、症状、疾病、障碍和医疗程序)的提及的总数。gydF4y2Ba

^cgydF4y2Ba映射:唯一提及概念唯一标识符映射的数量。gydF4y2Ba

^dgydF4y2BaM:提取的唯一提及的数量。gydF4y2Ba

^egydF4y2BaC:唯一映射概念的唯一标识符的个数。gydF4y2Ba

^fgydF4y2BaM/C:映射到给定概念唯一标识符的提取提及的平均数量。gydF4y2Ba

^ggydF4y2BaC/M:映射到一个提取的提及的概念唯一标识符的平均数量。gydF4y2Ba

^hgydF4y2BaS:映射到症状和症状类别的唯一提取提及数。gydF4y2Ba

^我gydF4y2BaD:映射到疾病和障碍类别的独特提取提及的数量。gydF4y2Ba

^jgydF4y2BaP:映射到医疗程序类别的唯一提取提及的数量。gydF4y2Ba

为了确定cTAKES是否能够充分提取相关的提及，我们执行了一个手动注释，并比较了两个提取的提及列表:一个来自使用cTAKES，另一个来自使用手动注释。我们从3个数据集中随机抽取了50个帖子，并对这些帖子进行了手工注释。通过手动注释，我们提取了表达社交媒体用户涉及bii相关症状、疾病和医疗程序的担忧和经历的提及(单词或短语)。对于50个帖子的随机样本(lgydF4y2Ba_avggydF4y2Ba=134.18)从BIIweb中，使用手动标注获得575次提及，使用cTAKES获得637次提及;有479个常见的提及。每个提及都与一个帖子标识符和一个字符偏移量相关联。如果一个提及出现在两个列表中，且具有相同的帖子标识符和字符偏移量，则认为该提及属于两个列表。我们发现83.3%(479/575)的人工注释提及被ctake覆盖。如此高的覆盖率表明cTAKES可以捕获大多数相关的医学概念。相比之下，人工标注覆盖了75.2%(479/637)的ctake注释提及。这进一步证明了大多数注释提到的ctake都可以通过手动注释来确认。同样，随机抽取50篇文章(lgydF4y2Ba_avggydF4y2Ba=80.02)的HealingBII, 69.5%(194/279)的人工注释提及被cTAKES覆盖;70.3%(194/276)的cTAKES注释的提及是通过人工注释确认的。对于50个帖子的随机样本(lgydF4y2Ba_avggydF4y2BaIG-BII =121.00)，对应值分别为75.2%(182/242)和64.3%(182/283)。根据我们研究中使用的多个数据集的手动注释和cTAKES之间的结果有很高的重叠，我们有理由假设cTAKES是通过社交媒体数据进行BII研究的手动注释的一个不错的替代品。gydF4y2Ba

LDA的话题gydF4y2Ba

为了确定最佳主题模型，我们使用网格搜索来确定狄利克雷先验α∈{0.01,0.05,0.1,0.5,1,1.5,2,5,10,15,20,25}和主题K∈{3,4,5,10,15,20}的最佳参数值。为了评估主题模型，我们分析了每一个α和K值组合对应的低困惑度分数的LDA主题建模结果[gydF4y2Ba66gydF4y2Ba，gydF4y2Ba69gydF4y2Ba，gydF4y2Ba70gydF4y2Ba］．gydF4y2Ba

对于每个主题建模结果，我们分析了文档-主题和主题- cui概率分布，以导出主题及其各自的前10个代表性提及。某一特定主题的前10个代表性提及次数是最高的，对应于前10个cui，属于该主题的概率最高。多次提及可以映射到给定的CUI (gydF4y2Ba表2gydF4y2Ba)．我们只给出了最频繁的提及，因为映射到相同CUI的所有提及都具有相似的语义。我们进一步评估了主题建模的质量，基于衍生主题总结最具代表性提及的程度。我们分析了每种α和K组合下的LDA主题建模结果，并选择了衍生主题不同且最具代表性的主题。最后，我们使用(1)BIIweb的K=4和α=10， (2) HealingBII的K=5和α=10，以及(3)IG-BII的K=5和α=1.5，确定了不同且有意义的主题。我们观察到，K值越高，各个主题中最具代表性的提及次数就越相似。因此，衍生主题不明确，难以解释。gydF4y2Ba

表3gydF4y2Ba-gydF4y2Ba5gydF4y2Ba列出前10个代表性的提及次数，与提及次数对应的cui的频率(%)，以及提及次数所表示的主题的解释(如常见症状和体征)。请注意，cui的频率是在所有帖子中，而不仅仅是在那些属于某个主题的概率最高的帖子中。我们给出这些频率是因为每个帖子都有一定的概率属于某个主题，因此所有帖子之间的频率可以更好地代表所有帖子之间的主题信息。这些表格还提供了一些帖子的例子，这些帖子极有可能属于相应的主题。在示例中，有高概率属于相应主题的提及用斜体表示。请注意，我们使用LDA中的cui来派生主题和单词分布(如方法-主题建模一节中所讨论的)，但是我们已经在这些表中展示了映射到各自cui(没有语义的标识符)的最频繁提及(具有明确的语义)。这些表中的提及是根据对应cui属于各自主题的概率进行排序的。请注意，这些概率没有在表中显示(它们不是表中显示的频率)。因此，每个主题都由其最具代表性的提及来代表，从而总结了这些提及。例如，如果有大量提及与疼痛有关的话题，如颈部疼痛、胸痛和头痛，我们就会将其解释为疼痛和其他迹象。 Please note that the topics have not been sorted, and the first columns in Tables 3 to 5 are nominal identifiers. Below, we have discussed the topics derived from LDA for BIIweb and HealingBII data sets from the original posts. Note that 2 topics can still share the same representative mention with different probabilities in the LDA.

表3。BIIweb中的派生主题。gydF4y2Ba

主题gydF4y2Ba	被提及次数前10名gydF4y2Ba	解释gydF4y2Ba
1gydF4y2Ba	测试(2.34);疾病(4.46);问题(2.82);工作(1.17);肿胀(0.78);排水管(0.61);感觉普通(2.51);疲劳(1.82);耗尽(0.39);灵敏度(0.95)gydF4y2Ba ‎gydF4y2Ba 例子:“我五年前做了硅胶植入手术，三年前，我去看了医生gydF4y2Ba乏力gydF4y2Ba^{一个gydF4y2Ba}(我每天睡14-16个小时gydF4y2Ba疲惫gydF4y2Ba)”gydF4y2Ba ‎gydF4y2Ba	常见的体征和症状gydF4y2Ba
2gydF4y2Ba	隆胸(6.80);删除(1.30);癌症(0.95);自身免疫性(0.95);感染(0.87);硬皮病(0.39);疼痛(3.68);诊断(0.30);间变性大细胞淋巴瘤引起(0.30);乳腺癌(0.30)gydF4y2Ba ‎gydF4y2Ba 例子:“我的乳房已经到了第四期gydF4y2Ba癌症gydF4y2Ba接受了化疗和放疗。我试图拥有我的gydF4y2Ba隆胸gydF4y2Ba由于gydF4y2Ba疼痛gydF4y2Ba.．.然后我得了急性gydF4y2Ba感染gydF4y2Ba发生在他们植入新植入物一个半月后他们被迫进行紧急手术gydF4y2Ba删除gydF4y2Ba新的植入物。我已经有了乳房植入物疾病的所有症状——即使在移除它们之后。”gydF4y2Ba ‎gydF4y2Ba	疾病或失调gydF4y2Ba
3.gydF4y2Ba	隆胸(6.80);疾病(4.46);毒性(1.17);异物(0.87);治愈(0.78);支持(0.65);断裂(0.52);癌症(0.95);意识(0.35);炎症(0.56)gydF4y2Ba ‎gydF4y2Ba 示例:“……直到2006年我才有问题，当时我以为发生了什么事，但我的外科医生说我一定是拉伤了肌肉gydF4y2Ba植入物gydF4y2Ba看起来很好。现在那个外科医生老了，商店也关门了。在过去的13年里，我一直饱受关节炎、疲劳、脑雾的折磨，gydF4y2Ba炎症gydF4y2Ba荷尔蒙失衡，肾上腺疲劳……”gydF4y2Ba ‎gydF4y2Ba	毒性gydF4y2Ba
4gydF4y2Ba	疼痛(3.68);感觉(2.51);疲劳(1.82);背部疼痛(0.87);疾病(4.46);关节疼痛(0.56);更糟的是(0.65);焦虑(0.52);耳鸣(0.39);头痛(0.39)gydF4y2Ba ‎gydF4y2Ba 例子:“直到2017年，我才开始体验gydF4y2Ba焦虑gydF4y2Ba以及恐慌症发作(当时我并不知道自己有这种症状)。随之而来的是疯狂gydF4y2Ba头痛gydF4y2Ba我感到头晕、恶心、头昏眼花，我的右眼总是肿，也不知道为什么。”gydF4y2Ba ‎gydF4y2Ba	疼痛和压力相关的疾病gydF4y2Ba

^{一个gydF4y2Ba}例子中提到的属于相应主题的概率高的部分用斜体表示。gydF4y2Ba

表4。HealingBII中的派生主题。gydF4y2Ba

主题gydF4y2Ba	被提及次数前10名gydF4y2Ba	解释gydF4y2Ba
1gydF4y2Ba	断裂(1.34);支持(0.87);阅读(1.17);痛苦(0.87);快乐(0.6);乳房切除术(0.46);工作(0.96);恐慌(0.77);重建(0.41);核磁共振(0.72)gydF4y2Ba ‎gydF4y2Ba 例如:“双gydF4y2Ba乳房切除术gydF4y2Ba^{一个gydF4y2Ba}在2015年。gydF4y2Ba重建gydF4y2Ba2016年初，先用膨胀器处理，然后用1000毫升盐水植入。之后我做了9次手术，还做了子宫切除术，现在又出现了很多健康问题。”gydF4y2Ba ‎gydF4y2Ba	手术和程序gydF4y2Ba
2gydF4y2Ba	疼痛(3.91);关节疼痛(0.79);疲劳(0.96);疾病(4.70);删除(0.84);脱发(0.52);头痛(0.47);肌肉疼痛(0.34);皮疹(0.39);感染(0.84)gydF4y2Ba ‎gydF4y2Ba 例:“除了神经肌肉痉挛和gydF4y2Ba疼痛gydF4y2Ba在美国，我患有慢性致残性疾病gydF4y2Ba乏力gydF4y2Ba脑雾和混乱(是的，即使是在开车时)，视力和听力丧失，眩晕，神秘的皮肤gydF4y2Ba皮疹、脱发、偏头痛……gydF4y2Ba”gydF4y2Ba ‎gydF4y2Ba	疼痛和其他症状gydF4y2Ba
3.gydF4y2Ba	问题(2.64);癌症(0.90);自身免疫性(0.57);乳腺癌(0.38);疤痕(0.35);治疗(0.43);诊断(0.29);自身免疫性疾病(0.27);红斑狼疮(0.29);关节炎(0.26)gydF4y2Ba ‎gydF4y2Ba 例子:“大约从2010年开始，我的双侧乳房都形成了胶囊。我从2005年开始出现BII症状，多次感染，需要静脉注射和口服抗生素。我的环境和药物过敏变得更严重了，开始gydF4y2Ba关节炎gydF4y2Ba、皮疹、gydF4y2Ba自身免疫性gydF4y2Ba症状开始变低gydF4y2Ba癌症……gydF4y2Ba”gydF4y2Ba ‎gydF4y2Ba	癌症和其他疾病gydF4y2Ba
4gydF4y2Ba	乳房植入(3.85);疾病(4.70);毒性(3.05);治疗(1.56);capsulectomy (0.64);感染(0.84);炎症(0.39);解毒(0.32);异物(0.25);流血(0.23)gydF4y2Ba ‎gydF4y2Ba 例子:“有些女人用硅胶gydF4y2Ba毒性gydF4y2Ba有淤青gydF4y2Ba出血gydF4y2Ba问题。如果我是你，我会尝试对淋巴结进行定位，检查是否有硅酮，如果它受到了无法排毒的污染，就像去除硅酮肉芽肿一样去除它。”gydF4y2Ba ‎gydF4y2Ba	毒性gydF4y2Ba
5gydF4y2Ba	情感(3.70);认为(2.26);感觉(0.84);正常的(0.65);焦虑(0.50);生病(0.61);感觉(0.33);累了(0.28);溃疡(0.27);抑郁症(0.33)gydF4y2Ba ‎gydF4y2Ba 例子:“更令人心碎和沮丧的是gydF4y2Ba情感gydF4y2Ba由于臀部和膝盖疼痛，以及腿和脚的痉挛，不能和她在地板上自由玩耍的痛苦……但我有很多困难gydF4y2Ba感情gydF4y2Ba作为妻子和母亲的失败，因为身体的限制。”gydF4y2Ba ‎gydF4y2Ba	心理健康gydF4y2Ba

^{一个gydF4y2Ba}斜体文本表示例子中提到的内容属于相应主题的概率高。gydF4y2Ba

表5所示。IG-BII中的衍生主题。gydF4y2Ba

主题gydF4y2Ba	被提及次数前10名gydF4y2Ba	解释gydF4y2Ba
1gydF4y2Ba	治愈(1.46);工作(0.90);加权(1.05);能力(0.99);其他(0.37);压力(0.29);锻炼(0.28);治疗(0.35);睡眠(0.36);运行(0.23)gydF4y2Ba ‎gydF4y2Ba 例子:“我的外植体手术已经14个月了。的旅程gydF4y2Ba疗愈gydF4y2Ba^{一个gydF4y2Ba}由于挫折和复发，这并不容易，但比日常过敏反应好，因为感冒，食物，气味，哭泣，gydF4y2Ba锻炼gydF4y2Ba而且gydF4y2Ba压力gydF4y2Ba然后加上过敏反应引起的心绞痛发作。”gydF4y2Ba ‎gydF4y2Ba	身体健康gydF4y2Ba
2gydF4y2Ba	恶性肿瘤(1.10);删除(0.96);疤痕(0.75);capsulectomy (0.68);断裂(0.43);ciactrice (0.43);间变性大细胞淋巴瘤引起(0.41);增加(0.37);淋巴瘤(0.35);移除植入物(0.29)gydF4y2Ba ‎gydF4y2Ba 例子:“隆胸的丑陋一面。这不是你会不会生病的问题……它是什么时候。植入物在不破裂的情况下泄露有毒重金属，这叫做凝胶出血。植入物的女性大脑、肺和其他器官发育的可能性要高出3倍gydF4y2Ba淋巴癌gydF4y2Ba比做隆胸手术的女性要好。”gydF4y2Ba ‎gydF4y2Ba	癌症和医疗程序gydF4y2Ba
3.gydF4y2Ba	爱(2.43);幸福(2.11);情感(1.64);认为(1.05);感觉(0.87);恐慌(0.55);信心(0.35);累了(0.38);情感(0.27);感觉(0.33)gydF4y2Ba ‎gydF4y2Ba 例子:“我是gydF4y2Ba害怕gydF4y2Ba看起来不完整。在对自己进行了深入的内心锻炼之后，我意识到我的价值并不取决于我的长相或我的胸部有多大。我意识到这是真的gydF4y2Ba幸福gydF4y2Ba来自于对自己的100%接受”gydF4y2Ba ‎gydF4y2Ba	心理健康gydF4y2Ba
4gydF4y2Ba	乳房植入(7.21);疾病(5.67);毒性(1.67);意识到(0.96);感觉更糟(0.36分);测试(0.64);异物(0.45);(0.33);痛苦(0.21);并发症(0.20)gydF4y2Ba ‎gydF4y2Ba 示例:“……我们得到了gydF4y2Ba有毒gydF4y2Ba从硅胶的化学组成来看gydF4y2Ba有毒gydF4y2Ba当外壳降解、破裂甚至发霉时释放的化学物质。”gydF4y2Ba ‎gydF4y2Ba	毒性gydF4y2Ba
5gydF4y2Ba	疼痛(2.52);炎症反应(0.89);疲劳(0.83);焦虑(0.72);过敏反应(0.43);抑郁症(0.37);关节疼痛(0.33);自身免疫性疾病(0.32);膨胀(0.43);感染(0.31)gydF4y2Ba ‎gydF4y2Ba 例子:“三年来，医生们一直无法诊断或解释上半身无力gydF4y2Ba疼痛gydF4y2Ba，和一般gydF4y2Ba炎症gydF4y2Ba．我曾有过兴奋的时候gydF4y2Ba炎症gydF4y2Ba使人衰弱gydF4y2Ba乏力gydF4y2Ba偏头痛，无法减肥，失眠，性欲低下，身体和gydF4y2Ba关节疼痛gydF4y2Ba脱发、皮肤干燥、眼睛干涩、脑雾等。”gydF4y2Ba ‎gydF4y2Ba	常见的疾病gydF4y2Ba

^{一个gydF4y2Ba}斜体文本表示例子中提到的内容属于相应主题的概率高。gydF4y2Ba

表3gydF4y2Ba给出了数据集BIIweb数据集中的主题。虽然BIIweb是最小的数据集(gydF4y2Ba表1gydF4y2Ba)，我们仍然能够确定4个最具代表性的主题，即疲劳、感染、毒性和焦虑。gydF4y2Ba表4gydF4y2Ba展示了HealingBII数据集中的主题，这些主题与BIIweb中的主题有一些共同的主题和代表性的提及。例如，疼痛、癌症和毒性在这两个数据集中很常见。然而，HealingBII的一个独特主题是手术和程序，人们(主要是患者)在那里讨论程序并分享他们的相关经验。HealingBII的另一个独特主题是心理健康。gydF4y2Ba

除了身体症状外，个人还报告了严重的情绪和精神困难，如抑郁，并在社交媒体上表达了严重的症状。gydF4y2Ba表5gydF4y2Ba给出数据集IG-BII数据集中的主题。IG-BII是最大的数据集(gydF4y2Ba表1gydF4y2Ba)，并且比另外两个帖子要多得多。我们观察到，癌症、心理健康和毒性是这个大型数据集中的重要主题，与HealingBII中的数据一致。在IG-BII中，人们还讨论了他们从与BII相关的问题或事件中恢复的过程。我们从这3个数据集中确定了经常提到的破裂、疼痛和疲劳。我们还发现了癌症、狼疮和自身免疫性疾病。请注意gydF4y2Ba表3gydF4y2Ba包含4个主题的BIIweb，但是gydF4y2Ba表4gydF4y2Ba而且gydF4y2Ba5gydF4y2BaHealingBII和IG-BII分别包含5个主题。这是因为主题的数量是由主题的不同程度决定的，而不是由预先指定的主题数量决定的。gydF4y2Ba

表6gydF4y2Ba结合BIIweb、HealingBII和IG-BII 3个数据集，给出了前10个有代表性的提及量，提及量对应的cui的频率(%)，以及在统一数据集上对主题的解释。通过将这3个数据集中的所有帖子合并到一个语料库中，我们得到了一个统一的数据集。为了执行主题建模，我们处理统一数据集中的帖子与处理单个数据集中的帖子的方法相同(在方法-主题建模一节中讨论)。在主题建模上，我们使用K=5和α=1.5确定了5个不同的主题。我们观察到，身体健康、癌症、心理健康、毒性和常见疾病在统一数据集中成为重要主题，与IG-BII中的主题一致。这是因为IG-BII是三个数据集中最大的数据集，占统一数据集的93.22%(28,987/31,094)。我们还从个人和统一的数据集中确定了常见的问题，如疼痛、过敏、抑郁、体重增加、癌症、炎症和毒性问题。这表明上述因素与BII的相关性较高。gydF4y2Ba

表6所示。统一数据集中的派生主题。gydF4y2Ba

主题gydF4y2Ba	被提及次数前10名gydF4y2Ba	解释gydF4y2Ba
1gydF4y2Ba	工作(1.45);(0.92);体重(0.79);运行(0.40);思考(2.68);锻炼(0.25);谈话(0.50);散步(0.35);营养(0.15);(0.28);gydF4y2Ba ‎gydF4y2Ba 示例:“……我现在比我过去7年的生活都要健康!我在2018年2月外植，外植几个月后，我获得了我的gydF4y2Ba重量gydF4y2Ba^{一个gydF4y2Ba}回来了，找到了真正的爱，照顾自己和gydF4y2Ba工作gydF4y2Ba”。gydF4y2Ba ‎gydF4y2Ba	身体健康gydF4y2Ba
2gydF4y2Ba	疾病(4.45);癌症(0.87);破裂(0.77);删除(0.76);意识(0.73);遭受(0.83);capsulectomy (0.54);自身免疫性(0.52);隆胸(0.30);增加(0.28);gydF4y2Ba ‎gydF4y2Ba 例子:“我被诊断出患有乳腺癌gydF4y2Ba癌症gydF4y2Ba在30岁的时候，作为手术的一部分，她接受了双乳切除手术……十年后的今天，我在15周前刚刚切除了植入物。他们有gydF4y2Ba破裂gydF4y2Ba是有毒的，会给我带来健康问题。”gydF4y2Ba ‎gydF4y2Ba	癌症和医疗程序gydF4y2Ba
3.gydF4y2Ba	感觉(5.94);爱(2.97);思考(2.68);快乐(1.64);感情(1.47);害怕(0.66);信心(0.27);支持(0.79);能力(0.77);活着(0.17);gydF4y2Ba ‎gydF4y2Ba 例子:“当我发现我生病了，我不得不撕裂我的身体来恢复健康时，我从来没有想过我会再对自己感到快乐。我已经手术4周了gydF4y2Ba感觉gydF4y2Ba比以前更快乐更健康我还担心我永远都不会gydF4y2Ba爱gydF4y2Ba了。”gydF4y2Ba ‎gydF4y2Ba	心理健康gydF4y2Ba
4gydF4y2Ba	治愈(2.26);疤痕(0.58);伤痕累累(0.33);排水管(0.26);有毒的(1.97);风景(1.25);炎症(0.68);凸起(0.36);温柔(0.20);红色(0.15); damage (0.16); ‎gydF4y2Ba 例子:“我很担心怎么做gydF4y2Ba红色的gydF4y2Ba举起我的gydF4y2Ba伤疤gydF4y2Ba是……然后他们变得非常发炎，疼痛，大约3周，我真的很有压力。然后一夜之间gydF4y2Ba炎症gydF4y2Ba红晕就消失了……”gydF4y2Ba ‎gydF4y2Ba	常见的体征、症状和毒性gydF4y2Ba
5gydF4y2Ba	疼痛(2.09);一直很累(0.69);焦虑(0.57);关节疼痛(0.46);脱发(0.39);体重增加(0.37);过敏反应(0.35);抑郁症(0.29);背部疼痛(0.23);头痛(0.22)gydF4y2Ba ‎gydF4y2Ba 例如:“在我做外植体之前，我有许多无法解释的症状(脑雾，gydF4y2Ba关节疼痛gydF4y2Ba，背部和颈部疼痛，gydF4y2Ba总是很累gydF4y2Ba我从手术中醒来后，颈部、背部或关节完全没有疼痛。”gydF4y2Ba ‎gydF4y2Ba	常见的疾病gydF4y2Ba

^{一个gydF4y2Ba}斜体文本表示例子中提到的内容属于相应主题的概率高。gydF4y2Ba

表7gydF4y2Ba显示每个主题的帖子百分比，其中一个帖子gydF4y2BadgydF4y2Ba如果在所有主题中，认为属于一个主题zgydF4y2BadgydF4y2Baz的概率最大。尽管数据集之间的分布并不完全一致，但毒性仍然是所有数据集中值得注意的主题。这表明这些是与BII显著相关的常见问题。此外，疼痛、癌症、心理健康和其他疾病也与隆胸有关。gydF4y2Ba

表7所示。各专题的职位分配情况。gydF4y2Ba

数据集和主题gydF4y2Ba		岗位，n (%)gydF4y2Ba
BIIwebgydF4y2Ba
	常见的体征和症状gydF4y2Ba	62 (33.2)gydF4y2Ba
	疾病或失调gydF4y2Ba	28日(15)gydF4y2Ba
	毒性gydF4y2Ba	50 (26.7)gydF4y2Ba
	疼痛和压力相关的疾病gydF4y2Ba	47 (25.1)gydF4y2Ba
HealingBIIgydF4y2Ba
	手术和程序gydF4y2Ba	713 (37.1)gydF4y2Ba
	疼痛和其他症状gydF4y2Ba	221 (11.5)gydF4y2Ba
	癌症和其他疾病gydF4y2Ba	221 (11.5)gydF4y2Ba
	毒性gydF4y2Ba	505 (26.3)gydF4y2Ba
	心理健康gydF4y2Ba	260 (13.6)gydF4y2Ba
IG-BIIgydF4y2Ba
	身体健康gydF4y2Ba	11299 (39)gydF4y2Ba
	癌症和医疗程序gydF4y2Ba	3890 (13.4)gydF4y2Ba
	心理健康gydF4y2Ba	4879 (16.8)gydF4y2Ba
	毒性gydF4y2Ba	5415 (18.7)gydF4y2Ba
	常见的疾病gydF4y2Ba	3504 (12.1)gydF4y2Ba
统一gydF4y2Ba
	身体健康gydF4y2Ba	4760 (15.3)gydF4y2Ba
	癌症和医疗程序gydF4y2Ba	10637 (34.2)gydF4y2Ba
	心理健康gydF4y2Ba	7954 (25.6)gydF4y2Ba
	常见的体征、症状和毒性gydF4y2Ba	4030 (13)gydF4y2Ba
	常见的疾病gydF4y2Ba	3713 (11.9)gydF4y2Ba

主要研究结果gydF4y2Ba

为了了解与BII相关的体征、症状和疾病或障碍，我们收集了社交媒体上的帖子，并使用NLP和主题建模进行分析。BII是一种主要在社交媒体上报道的疾病，而不是在医疗报告中报道。我们使用ctake提取与体征、症状、疾病、失调和医疗程序相关的提及，将它们映射到标准医学概念，并使用LDA将映射的概念总结为主题。我们发现诸如破裂、感染、炎症、疼痛和疲劳是常见的自我报告问题。我们还发现，心理健康相关的担忧，如压力、焦虑和抑郁，以及癌症和自身免疫疾病等疾病，是常见的担忧。cTAKES也能够提取药物和解剖信息，但它们没有用于我们的LDA分析，因为我们的研究目标不是研究所使用的药物或与BII相关的解剖。gydF4y2Ba

在我们的方法中，我们依靠cTAKES和丰富的UMLS字典来提取所有相关的提及，包括它们的词汇变体(同义词、缩写、释义)。为了确定cTAKES是否能够充分提取相关的提及，我们执行了一个手动注释来提取所有相关的提及，并将它们与从cTAKES中提取的提及进行比较。我们发现cTAKES能够充分捕捉相关的医学概念，并且与手动注释具有可比性。值得注意的是，我们没有评估我们的提及提取模块在每个数据集的所有帖子上的性能，当每个提及都有与之相关的真实标签时，通常使用精度和召回指标来执行。但是，为了有这样的标签，需要基于BII的领域知识进行仔细的手动注释。不幸的是，关于与BII相关或由BII引起的并发症、症状和其他问题的领域知识并不完全可用。我们在这项研究中的目标是从社交媒体数据中提供有用的信息，以补充我们现有的知识。因此，在这项初步研究中，我们使用了所有带注释的提及，假设ctake能够提供高质量的注释。gydF4y2Ba

优势与局限gydF4y2Ba

我们承认cTAKES可能无法从我们的社交媒体数据集中提取所有相关提及。这是因为cTAKES最初是为从临床记录中提取医疗实体而设计的，与社交媒体数据相比，临床记录的措辞和写作风格非常不同。由于社交媒体数据包括非正式短语、简短的模糊文本、表情符号和与单个概念对应的广泛的词汇变体，cTAKES可能不会在社交媒体数据上完美地工作，尽管我们从cTAKES中观察到合理的输出。我们还观察到，ctake经常将一个提及与属于同一类别的多个cui相关联。我们认为这是因为在UMLS变叙龙中存在多个给定的映射。无论如何，提取的提及以及提及到UMLS cui的映射(由cTAKES生成)被用于主题建模，而无需任何手动验证或评估。在未来，我们将制定一个详细的指导方针，以进一步评估提取的提及，然后将它们用于主题建模。gydF4y2Ba

我们的研究有一些局限性。首先，LDA是一种无监督学习技术，其中主题的数量(K)是先验已知的。然而，对于给定的数据集，很难准确地估计K。在我们的研究中，我们使用网格搜索来获得不同的K值。即使没有完整的领域知识，对每个K值的LDA结果进行评估也不是简单的。在我们的研究中，我们根据α和K值选择主题。我们没有使用perplexity [gydF4y2Ba66gydF4y2Ba，gydF4y2Ba69gydF4y2Ba，gydF4y2Ba70gydF4y2Ba]，是主题建模中广泛使用的度量标准，用于选择主题，因为正如文献中所研究的那样(例如，Chang等人[gydF4y2Ba71gydF4y2Ba])，困惑度往往与主题可解释性没有很好的相关性;在我们的案例中，最低程度的困惑并不总是能够实现直观或有意义的主题。在未来，我们将开发更严格的方法来选择主题的数量和评估主题建模结果。在这项研究中，我们没有对帖子进行情感分析，以了解帖子中表达的积极或消极意见。我们计划在主题建模之前包括这个过程，以便为主题建模生成更清晰的数据集。gydF4y2Ba

值得注意的是，社交媒体数据的质量可能是不稳定的(例如，拼写错误、误解和有偏见的观点)，特别是与医学文献数据相比。任何人都可以在社交媒体上发布，因此衍生的内容可能来自那些可能患有其他植入物特定问题的人，如包膜挛缩或植入物感染。因此，从社交媒体数据中了解与药物、疾病或医疗程序相关的疾病、紊乱、症状、体征等，总是存在混淆因素或错误的风险。然而，鉴于BII的医学知识和文献还没有很好地建立起来，相关概念也没有很好地定义或被广泛接受，使用社交媒体数据来理解新出现的问题可能是一个有意义的起点。不过，任何来自社交媒体数据的发现都需要基于医学和生物学知识、实验、临床实践等进行严格的评估和验证。此外，我们只分析了3个，尽管是致力于BII讨论的最相关和最多产的网站。在更大的规模上对社交媒体数据进行更全面的分析，将有助于更好地理解更大、更多样化的人群中的BII。对社交媒体数据的情感分析可能是另一种有价值的分析，可以更深入地了解用户或患者的健康体验及其情绪或感受。当我们对BII有了更好的理解后，我们会在未来的研究中考虑情感分析，我们可以准确地注释社交媒体数据。gydF4y2Ba

结论gydF4y2Ba

本研究对未来的方法学和临床研究具有重要意义。未来NLP的方法学研究可以包括BII与社交媒体提及的症状和体征之间的因果关系推断，以了解它们之间的关系等。我们的发现可以为临床研究提供相关领域，以寻求制定BII的测量方法并确定其原因。更具体地说，我们的结果可以提供一个患者衍生的BII定义，这对于临床医生治疗有BII问题的患者时使用这种以患者为中心的语言是有用的。我们在这项研究中应用的方法和信息学策略也将为从社交媒体数据中分析其他新出现但定义不明确的疾病提供工作示例。gydF4y2Ba

我们对社交媒体数据的分析确定了诸如破裂、感染、炎症、疼痛和疲劳等问题，这些都是BII社交媒体网站上常见的自我报告问题。此外，我们的分析显示，相当数量的用户评论和帖子还涉及隆胸后的心理和身体健康以及毒性问题。我们的研究结果可以用于进一步的BII科学研究，以及有上述症状的患者的护理，允许临床医生开发一种以患者为中心的语言，以更好地接近患者的担忧。我们的研究首次使用NLP技术从社交媒体中分析和获得了BII知识，并证明了使用社交媒体信息更好地理解新发疾病的潜力。gydF4y2Ba

致谢gydF4y2Ba

XN构思研究，获得研究经费，并监督VD;PK, MN和CL提供了大量的医学背景和见解;Vishal Dey和夏宁进行了研究，包括数据管理、方法设计和实施以及分析;Vishal Dey起草了原始手稿;Vishal Dey和夏宁进行了手稿编辑;PK、MN、CL对稿件进行了审阅，并提出了建设性的意见和反馈。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba

多媒体附件1gydF4y2Ba

潜狄利克雷分配的简要描述。gydF4y2Ba

DOCX文件，53 KBgydF4y2Ba

Barros JM, Duggan J, Rebholz-Schuhmann D.基于互联网的资源在公共卫生监测中的应用(infosurveillance):系统综述。J Med Internet Res 2020年3月13日;22(3):e13680 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Schillinger D, Chittamuru D, Ramírez AS。从“信息学”到健康促进:社交媒体在公共卫生中的作用的新框架。美国公共卫生杂志2020年9月;110(9):1393-1396。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李丹，乔杜里·H，张震。基于社交媒体数据挖掘的COVID-19抑郁症状时空模式建模。国际环境与公共卫生2020年7月10日;17(14):4988 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
沈超，陈安，罗超，张杰，冯波，廖伟。利用社交媒体上的症状和诊断报告预测中国大陆COVID-19病例数:观察性信息监测研究。J Med Internet Res 2020年5月28日;22(5):e19421 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Aiello AE, Renson A, Zivich PN。基于社交媒体和互联网的公共卫生疾病监测。公共卫生2020年4月02日;41:101-118。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李超，陈丽娟，陈霞，张敏，庞鹏鹏，陈慧。基于网络搜索和社交媒体数据预测新冠肺炎疫情的可能性分析，中国，2020。欧洲监测2020年3月25日(10):2000199 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Ginsberg J, Mohebbi MH, Patel RS, Brammer L, Smolinski MS, Brilliant L.利用搜索引擎查询数据检测流感流行。自然杂志2009年2月19日;457(7232):1012-1014。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Naslund JA, Grande SW, Aschbrenner KA, Elwyn G.通过社交媒体自然发生的同伴支持:严重精神疾病患者使用YouTube的经历。PLoS One 2014;9(10):e110171 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Foufi V, Timakum T, gaudt - blavignac C, Lovis C, Song M.来自reddit的文本健康信息挖掘:具有提取实体及其关系的慢性病分析。J Med Internet Res 2019 6月13日;21(6):e12876 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Wakamiya S, Morita M, Kano Y, Ohkuma T, Aramaki E.基于twitter的疾病监测的twitter分类:新数据、方法和评估。J Med Internet Res 2019年2月20日;21(2):e12783。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Attai DJ, Cowher MS, Al-Hamadani M, Schoger JM, Staley AC, Landercasper J. Twitter社交媒体是乳腺癌患者教育和支持的有效工具:患者报告的调查结果中国医学杂志，2015;17(7):e188 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Osadchiy V, Mills JN, Eleswarapu SV。理解社交媒体时代患者的焦虑:在线男性不育社区的定性分析和自然语言处理。J Med Internet Res 2020年3月10日;22(3):e16728 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
noble AL, Leas EC, Althouse BM, Dredze M, Longhurst CA, Smith DM，等。在社交媒体平台上要求诊断性传播疾病。美国医学杂志2019年11月05日;322(17):1712-1713。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Kahlor L, Mackert M.访问互联网的女性患者对不孕不育信息和支持来源的看法。《中华医学杂志》2009年1月27日，第1期。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Guntuku SC, Yaden DB, Kern ML, Ungar LH, Eichstaedt JC。在社交媒体上检测抑郁症和精神疾病:一项综合综述。Curr Opin Behav science 2017 12月;18:43-49。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
卡门C，雄RC, Wetter T.通过组合和增强多种NLP方法筛选网络论坛参与者的抑郁症状。计算方法与程序，2015年6月，120(1):27-36。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Dreisbach C, Koleck TA, Bourne PE, Bakken S.从患者撰写的电子文本数据中对症状进行自然语言处理和文本挖掘的系统综述。国际医学杂志2019年5月;125:37-46 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
查普曼B，雷蒙德B，鲍威尔D.社交媒体作为对抗食源性疾病工具的潜力。展望公共卫生2014年7月;134(4):225-230。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Harris JK, Mansour R, Choucair B, Olson J, Nissen C, Bhatt J，疾病控制预防中心。卫生部门使用社交媒体识别食源性疾病——芝加哥，伊利诺伊州，2013-2014年。MMWR Morb Mortal Wkly Rep 2014年8月15日;63(32):681-685 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Casas J, Mugellini E, Abou K.在社交媒体上早期发现食源性疾病。第二届人类互动与新兴技术国际会议论文集:未来应用(IHIET-AI 2020)。瑞士洛桑:施普林格;2020发表于:第二届人类互动与新兴技术国际会议:未来应用(IHIET-AI 2020);2020年4月23-25日;瑞士洛桑，第415-420页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
McGough SF, Brownstein JS, Hawkins JB, Santillana M.结合传统疾病监测与搜索、社交媒体和新闻报道数据，预测2016年拉丁美洲爆发的寨卡病毒发病率。PLoS Negl Trop杂志2017年1月;11(1):e0005295 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
赵娟，韩华，钟波，谢伟，陈勇，支敏。社交媒体上的健康信息有助于减轻克罗恩病症状，改善患者的临床病程。Comput Hum Behav 2021 Feb;115:106588。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
陈晓明，陈晓明，陈晓明，陈晓明，等。使用Reddit基于社交媒体的阿片类药物流行分析。发表于:AMIA年度研讨会;2018年11月3日至7日;旧金山，加州867-876页网址:gydF4y2Bahttp://europepmc.org/abstract/MED/30815129gydF4y2Ba
马奎斯-托莱多CD, Degener CM, Vinhal L, Coelho G, Meira W, Codeço CT，等。通过网络预测登革热:推特是在国家和城市一级估计和预测登革热的有用工具。PLoS Negl Trop Dis 2017 7月;11(7):e0005729 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
A先生，Segre上午，Polgreen下午。在甲型H1N1流感大流行期间，美国使用Twitter追踪疾病活动水平和公众关注。PLoS One 2011;6(5):e19467 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Broniatowski DA, Paul MJ, Dredze M.通过Twitter进行国家和地方流感监测:2012-2013年流感流行的分析。PLoS One 2013;8(12):e83672 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Klembczyk JJ, Jalalpour M, Levin S, Washington RE, Pines JM, Rothman RE，等。谷歌流感趋势空间变异性与急诊部门流感相关就诊进行验证。中国医学杂志，2016;18(6):e175 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
信息流行病学和信息监测:一套新兴的公共卫生信息学方法的框架，用于分析互联网上的搜索、传播和发布行为。中国医学杂志，2009;11(1):e11 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李娟，徐强，Cuomo R, Purushothaman V, Mackey T.中国社交媒体平台微博在COVID-19疫情早期的数据挖掘和内容分析:一项回顾性观察性信息监测研究。JMIR公共卫生监测2020年4月14日;6(2):e18700 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
黄超，徐旭，蔡勇，葛强，曾刚，李霞，等。挖掘中国COVID-19患者特征:社交媒体帖子分析J Med Internet Res 2020年5月17日;22(5):e19087 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
2019年整形外科统计报告。美国整形外科医生协会。2019.URL:gydF4y2Bahttps://www.plasticsurgery.org/news/plastic-surgery-statistics?sub=2019+Plastic+Surgery+StatisticsgydF4y2Ba[2021-03-29]访问gydF4y2Ba
2018年全国整形外科统计。美国整形外科医生协会。2018.URL:gydF4y2Bahttps://www.plasticsurgery.org/documents/News/Statistics/2018/plastic-surgery-statistics-report-2018.pdfgydF4y2Ba[2019-07-18]访问gydF4y2Ba
Balk EM, Earley A, Avendano EA, Raman G.硅胶乳房植入术后的长期健康结果:一项系统综述。Ann实习医学2016 Feb 02;164(3):164-175。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
瓦塔德A，罗森博格V, Tiosano S, Tervaert JW, Yavne Y, Shoenfeld Y，等。硅胶乳房植入物和自身免疫/风湿性疾病的风险:现实世界的分析。国际流行病学杂志2018年12月1日;47(6):1846-1854。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Labadie JG, Korta DZ, Barton N, Mesinkovska NA。乳房植入物相关的皮肤超敏样反应:综述。皮肤外科杂志2018年3月44日(3):323-329。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Calobrace MB, Stevens WG, Capizzi PJ, Cohen R, Godinez T, Beckstrand M.胶囊挛缩的风险因素分析:一项使用圆形、光滑和有纹理的植入物进行隆胸的10年sientra研究。整形外科杂志2018年4月14日(4):20-28。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Rohrich RJ, Kaplan J, Dayan E.硅胶植入疾病:科学与神话?中国整形外科杂志;2019;44(1):98-109。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Coroneos C, Selber J, Offodile A, Butler C, Clemens M.美国FDA乳房植入物批准后研究:99,993例患者的长期结果神经外科杂志2019年1月;269(1):30-36。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Gabriel SE, O'Fallon WM, Kurland LT, Beard CM, Woods JE, Melton LJ。乳房植入后结缔组织疾病和其他疾病的风险。中华外科杂志1994 6月16日;33(24):1697-1702。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Peters W, Smith D, Fornasier V, Lugowski S, Ibanez D. 100名女性硅胶隆胸后的结果分析。中华骨科杂志1997 7月;39(1):9-19。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Janowsky EC, Kupper LL, Hulka BS。硅胶乳房植入物与结缔组织疾病风险之间关系的meta分析中华医学杂志2000年3月16日;342(11):781-790。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Rohrich RJ, Kenkel JM, Adams WP, Beran S, Conner WC。乳房硅胶植入手术的前瞻性分析。整形外科2000年6月;105(7):2529-2538。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Nahabedian MY, Tsangaris T, Momen B, Manson PN。扩张器和植入物乳房重建后的感染并发症。整形外科2003年8月;112(2):467-476。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
西格尔科W, Klosterhalfen B, Klinge U, Rath W, Faridi A.硅胶隆胸术后局部并发症分析。乳房2004年4月13(2):122-128。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Lee I, Cook NR, Shadick NA, Pereira E, Buring JE。乳房植入物与结缔组织疾病风险的前瞻性队列研究国际流行病学杂志2011 Feb;40(1):230-238 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
唐世勇，Israel JS, Afifi AM。乳房植入疾病:症状、患者担忧和社交媒体的力量。整形外科2017年11月;140(5):765-766。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
唐世永，以色列JS，普尔SO，阿菲菲AM。Facebook事实:乳房再造患者使用社交媒体报告的结果。整形外科杂志2018年5月;141(5):1106-1113。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Magnusson MR, Cooter RD, Rakhorst H, McGuire PA, Adams WP, Deva AK。乳房植入疾病:前进的道路。整形外科2019年3月;143(3S):74-81。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Adidharma W, Latack KR, Colohan SM, Morrison SD, Cederna PS.乳房植入疾病:社交媒体和互联网让患者生病了吗?整形外科2020年1月;145(1):225-227。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Keane G, Chi D, Ha A, Myckatyn T.全囊切除术治疗乳房植入疾病:社交媒体现象?中华外科杂志2021;21(4):448-459。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
韦文杰，王志刚，王志刚，等。了解乳房植入物移植前后的疾病:一项患者报告的结果研究。Ann Plast Surg 2020七月;85(S1增刊1):82-86 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李，李，李志强，张晓明。乳房植入物疾病的生物膜假说。2020年4月8(4):e2755。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
博客-癌症网。URL:gydF4y2Bahttps://www.cancer.net/bloggydF4y2Ba[2021-01-05]访问gydF4y2Ba
博客-超越乳腺癌。URL:gydF4y2Bahttps://www.lbbc.org/bloggydF4y2Ba[2021-01-05]访问gydF4y2Ba
来自乳腺癌、肺癌和其他癌症患者的故事。美国癌症治疗中心。URL:gydF4y2Bahttps://www.cancercenter.com/patient-storiesgydF4y2Ba[2021-01-05]访问gydF4y2Ba
慢性疾病。Mighty Well档案馆。URL:gydF4y2Bahttps://blog.mighty-well.com/category/chronic-illness/gydF4y2Ba[2021-01-05]访问gydF4y2Ba
实用的疼痛管理-症状，原因，治疗，药物慢性疼痛。补救健康媒体有限责任公司网址:gydF4y2Bahttps://www.practicalpainmanagement.com/patientsgydF4y2Ba[2021-01-05]访问gydF4y2Ba
资源:供患者使用。政治体。URL:gydF4y2Bahttps://www.wearebodypolitic.com/resourcesgydF4y2Ba[2021-01-05]访问gydF4y2Ba
冠状病毒博客团队。媒介。URL:gydF4y2Bahttps://medium.com/@coronavirus_blog_teamgydF4y2Ba[2021-01-05]访问gydF4y2Ba
COVID-19患者的故事。约翰霍普金斯医学。URL:gydF4y2Bahttps://www.hopkinsmedicine.org/coronavirus/patient-stories/gydF4y2Ba[2021-01-05]访问gydF4y2Ba
关于乳房植入疾病。乳房植入物疾病。URL:gydF4y2Bahttps://www.breastimplantillness.com/symptoms/gydF4y2Ba[2019-05-10]访问gydF4y2Ba
乳房植入疾病-症状，移植体，外科医生，排毒。治疗乳房植入物疾病。URL:gydF4y2Bahttps://healingbreastimplantillness.comgydF4y2Ba[2019-05-10]访问gydF4y2Ba
Instagram上的#乳房plantillness标签。Instagram。URL:gydF4y2Bahttps://www.instagram.com/explore/tags/breastimplantillnessgydF4y2Ba[2019-09-05]访问gydF4y2Ba
Savova GK, Masanz JJ, oggren PV, Zheng J, Sohn S, Kipper-Schuler KC，等。梅奥临床文本分析和知识提取系统(cTAKES):架构，组件评估和应用。中国医学信息杂志2010;17(5):507-513 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Bodenreider O.统一医学语言系统(UMLS):整合生物医学术语。Nucleic Acids Res 2004 Jan 1;32(数据库issue):267-270 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Blei DM, Ng AY, Jordan MI.潜狄利克雷分配。J Mach Learn Res 2003; 3:93 -1022。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Loper E, Bird S. NLTK:自然语言工具包。见:关于自然语言处理和计算语言学教学有效工具和方法的ACL-02研讨会论文集。美国:计算语言学协会;2002年发表于:ACL-02自然语言处理和计算语言学教学的有效工具和方法研讨会;2002年7月7日;宾夕法尼亚州费城，第63-70页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
潜狄利克雷分配(LDA)变分EM的Blei DM. C实现。Github。2013。URL:gydF4y2Bahttps://github.com/blei-lab/lda-cgydF4y2Ba[2019-07-02]访问gydF4y2Ba
概率潜在语义索引。见:第22届国际Acm Sigir信息检索研究与发展会议论文集。美国:计算机协会;1999年发表于:SIGIR99:第22届国际ACM信息检索研究与发展会议;1999年8月15日至19日;美国加州伯克利，第50-57页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
李志强，李志强。相关主题模型。见:神经信息处理系统进展。美国剑桥:麻省理工学院出版社;2006年发表于:神经信息处理系统的进展;2006年12月4日至7日;加拿大温哥华。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
张军，王超，王晓明，王晓明。阅读茶叶:人类如何解读主题模型。见:神经信息处理系统进展。美国:Curran Associates Inc;2009年发表于:神经信息处理系统的进展;2009年12月;加拿大温哥华。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba

‎gydF4y2Ba

ASCII码:gydF4y2Ba美国信息交换标准代码gydF4y2Ba

BII:gydF4y2Ba乳房植入疾病gydF4y2Ba

cTAKES:gydF4y2Ba临床文本分析与知识提取系统gydF4y2Ba

崔:gydF4y2Ba概念唯一标识符gydF4y2Ba

LDA:gydF4y2Ba潜在狄利克雷分配gydF4y2Ba

NLP:gydF4y2Ba自然语言处理gydF4y2Ba

uml:gydF4y2Ba统一的医学语言系统gydF4y2Ba

XMI:gydF4y2BaXML元数据交换gydF4y2Ba

C·洛维斯编辑;提交19.04.21;同行评议:A Chen, V Foufi, S Wakamiya, T Timakum;对作者05.06.21的评论;订正版本收到31.07.21;接受23.09.21;发表29.11.21gydF4y2Ba

©Vishal Dey, Peter Krasniak, Minh Nguyen, Clara Lee，夏宁。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com)， 2021年11月29日。gydF4y2Ba

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息，https://medinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。gydF4y2Ba

本文内容如下gydF4y2Bae-collection /主题问题:gydF4y2Ba

通过社交媒体数据分析了解新发疾病的管道:乳房植入疾病的案例研究gydF4y2Ba

通过社交媒体数据分析了解新发疾病的管道:乳房植入疾病的案例研究gydF4y2Ba

原始论文gydF4y2Ba

通讯作者:gydF4y2Ba

摘要gydF4y2Ba

关键字gydF4y2Ba

简介gydF4y2Ba

背景gydF4y2Ba

目标gydF4y2Ba

方法gydF4y2Ba

数据gydF4y2Ba

管道gydF4y2Ba

概述gydF4y2Ba

数据预处理gydF4y2Ba

提到提取和概念映射gydF4y2Ba

主题建模gydF4y2Ba

结果gydF4y2Ba

cTAKES注释gydF4y2Ba

LDA的话题gydF4y2Ba

讨论gydF4y2Ba

主要研究结果gydF4y2Ba

优势与局限gydF4y2Ba

结论gydF4y2Ba

致谢gydF4y2Ba

利益冲突gydF4y2Ba

参考文献gydF4y2Ba

缩写gydF4y2Ba