JMIR医学信息学-通过社交媒体数据分析了解新发疾病的管道:乳房植入疾病的案例研究gydF4y2Ba

原始论文gydF4y2Ba

Vishal戴伊gydF4y2Ba^1gydF4y2Ba二元同步通信,gydF4y2Ba ；gydF4y2Ba
彼得KrasniakgydF4y2Ba^2gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
明阮gydF4y2Ba^2gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
克拉拉李gydF4y2Ba^2gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
夏宁gydF4y2Ba^{1，gydF4y2Ba}^{2，gydF4y2Ba}^3.gydF4y2Ba博士gydF4y2Ba

^1gydF4y2Ba美国俄亥俄州哥伦布市俄亥俄州立大学计算机科学与工程系gydF4y2Ba

^2gydF4y2Ba美国俄亥俄州哥伦布市俄亥俄州立大学生物医学信息系gydF4y2Ba

^3.gydF4y2Ba美国俄亥俄州哥伦布市俄亥俄州立大学转化数据分析研究所gydF4y2Ba

通讯作者:gydF4y2Ba

夏宁博士gydF4y2Ba

生物医学信息系gydF4y2Ba

俄亥俄州立大学gydF4y2Ba

大炮路1800号gydF4y2Ba

俄亥俄州哥伦布市，邮编43210gydF4y2Ba

美国gydF4y2Ba

电话:1 6143662287gydF4y2Ba

电子邮件:gydF4y2Baning.104@osu.edugydF4y2Ba

背景:gydF4y2Ba在医学定义、正式记录或系统研究之前，一种新的疾病可能会通过社交媒体引起公众的注意。一个例子是一种被称为乳房植入病(BII)的疾病，尽管在医学文献中对其定义模糊，但它在社交媒体上被广泛讨论。gydF4y2Ba

摘要目的:gydF4y2Ba本研究的目的是构建一个数据分析管道，利用社交媒体数据了解新发疾病，并应用该管道了解BII的关键属性。gydF4y2Ba

方法:gydF4y2Ba我们使用自然语言处理和主题建模构建了一个社交媒体数据分析管道。使用临床文本分析和知识提取系统从社交媒体数据中提取与体征、症状、疾病、障碍和医疗程序相关的提及。我们将提及映射到标准医学概念，然后使用潜在狄利克雷分配将这些映射的概念总结为主题。最后，我们应用这个管道从几个BII专用的社交媒体网站上了解BII。gydF4y2Ba

结果:gydF4y2Ba我们的产品线确定了与BII高度相关的毒性、癌症和心理健康问题。我们的研究还显示，根据社交媒体的讨论，癌症、自身免疫性疾病和心理健康问题正在出现与隆胸相关的担忧。此外，该研究还发现，破裂、感染、疼痛和疲劳是公众自我报告的常见问题，同时也对硅胶植入物的毒性表示担忧。gydF4y2Ba

结论:gydF4y2Ba我们的研究可以启发未来对BII的症状和因素的研究。我们的研究首次利用自然语言处理技术从社交媒体中分析和获得了有关BII的知识，并展示了利用社交媒体信息更好地了解类似新出现疾病的潜力。gydF4y2Ba

中华医学杂志，2011;9(11):391 - 391gydF4y2Ba

doi: 10.2196/29768gydF4y2Ba

关键字gydF4y2Ba

隆胸病gydF4y2Ba；gydF4y2Ba 社交媒体gydF4y2Ba；gydF4y2Ba 自然语言处理gydF4y2Ba；gydF4y2Ba 主题建模gydF4y2Ba

背景gydF4y2Ba

社交媒体的无所不在导致在社交媒体平台上对新的和正在发展的疾病进行早期描述，然后才可以对其进行系统研究[gydF4y2Ba1gydF4y2Ba-gydF4y2Ba7gydF4y2Ba]，尤其是在医疗互联网时代[gydF4y2Ba8gydF4y2Ba-gydF4y2Ba14gydF4y2Ba]。社交媒体用户越来越多地转向Twitter (Twitter Inc .)、Facebook (Facebook Inc .)和YouTube (Google LLC)等平台来分享个人经历，包括他们所经历的疾病，或寻求支持和资源，如健康和医疗资源。最近的研究表明，社交媒体在检测精神疾病和抑郁症方面具有潜力[gydF4y2Ba15gydF4y2Ba-gydF4y2Ba17gydF4y2Ba]以及及早发现食源性疾病[gydF4y2Ba18gydF4y2Ba-gydF4y2Ba20.gydF4y2Ba]及其他传染病[gydF4y2Ba2gydF4y2Ba，gydF4y2Ba21gydF4y2Ba-gydF4y2Ba24gydF4y2Ba]。此外，几项研究表明，在多次流感爆发期间，社交媒体是传播有关症状、个人健康和公共卫生资源信息的有效工具[gydF4y2Ba25gydF4y2Ba-gydF4y2Ba28gydF4y2Ba]。在COVID-19的早期阶段，研究[gydF4y2Ba4gydF4y2Ba，gydF4y2Ba29gydF4y2Ba，gydF4y2Ba30.gydF4y2Ba]分析了新浪微博(中国主要的微博网站)上的帖子，以描述中国多个省份的患者症状和公众关注的问题。从对微博(微博公司)帖子的分析来看，Huang等[gydF4y2Ba30.gydF4y2Ba]得出结论，大多数受影响的病人是老年人，发烧是最常见的症状。这些研究表明，可以利用公共社交媒体数据更好地了解新出现的疾病，并及时做出反应。gydF4y2Ba

本文研究的一种新疾病是乳房植入病(BII)。在过去的20年里，隆胸手术越来越流行。gydF4y2Ba31gydF4y2Ba]。在此期间，美国每年有超过40万女性接受隆胸或乳房切除术后手术[gydF4y2Ba32gydF4y2Ba]。2017年至2018年间，隆胸手术数量增加了4%，同期隆胸手术数量增加了6% [gydF4y2Ba32gydF4y2Ba]。对隆胸植入物安全性的关注亦有所增加[gydF4y2Ba33gydF4y2Ba-gydF4y2Ba38gydF4y2Ba并坚持[gydF4y2Ba39gydF4y2Ba-gydF4y2Ba45gydF4y2Ba]。然而，尽管隆胸与全身性疾病之间的因果关系尚未得到明确的证明，一种现象被称为gydF4y2Ba隆胸病gydF4y2Ba将全身性症状归因于隆胸的研究已经出现[gydF4y2Ba46gydF4y2Ba]。然而，与其他新的医学疾病不同，医学文献中对BII的报道很少，主要局限于社交媒体[gydF4y2Ba11gydF4y2Ba，gydF4y2Ba47gydF4y2Ba-gydF4y2Ba50gydF4y2Ba]。例如，最近的一项分析[gydF4y2Ba49gydF4y2Ba根据2018年2月至2019年2月的Twitter和谷歌趋势数据显示，公众对BII的兴趣越来越大。为了总结定义BII的主要症状、疾病和障碍，一些队列研究[gydF4y2Ba51gydF4y2Ba，gydF4y2Ba52gydF4y2Ba分析了乳房移植手术前后患者报告的结果。这些研究表明，移植手术与患者群体中特定症状的改善之间存在一些潜在的关系。不幸的是，由于缺乏对照组、数据收集偏倚和缺乏随机化，这些研究设计有限，因此这些研究并不是决定性的。由于缺乏有关BII的医学知识，很难确定病情，因此几乎不可能进行严格的流行病学或临床研究。BII只是一种明显缺乏医学知识的疾病过程，但还有许多其他新疾病也是如此。任何有足够的社交媒体数据支持的初始知识对于未来的正式研究都是有意义的，因此，发现这些知识的技术是非常需要的。gydF4y2Ba

目标gydF4y2Ba

为了识别和总结一种新疾病的关键属性，在本研究中，我们构建了一个用于BII社交媒体数据分析的数据分析管道。该管道结合了自然语言处理(NLP)和主题建模方法。我们的主要目标是通过构建数据分析管道并将该管道应用于社交媒体数据，获得关于BII的新知识，这是一种在医学文献中尚未系统研究和定义的医学状况。由于关于BII的医学知识和文献尚未建立，相关概念尚未得到很好的定义或接受，使用社交媒体数据来了解新出现的问题可能是一个有意义的起点。我们应用这个管道来更好地了解与BII相关的症状和体征。据我们所知，这项研究是第一个使用社交媒体数据从社交媒体中获得BII知识的研究。这显示了利用社交媒体信息来更好地了解主要在社交媒体上报道的情况的潜力。它还确立了我们的管道的有效性及其在了解其他新疾病方面的潜在应用。在接下来的讨论中，我们描述了我们在BII上下文中的分析管道。然而，我们的产品线并非针对BII，也适用于其他疾病。gydF4y2Ba

数据gydF4y2Ba

我们从选定的社交媒体网站收集和使用数据。之所以选择这些网站，是因为它们致力于BII讨论和信息，并专注于对BII感兴趣的用户群体。通常，专门的社交媒体网站(如论坛和Twitter页面)可用于特定疾病或疾病。例如，一些专用网站[gydF4y2Ba53gydF4y2Ba-gydF4y2Ba55gydF4y2Ba]包含与不同癌症作斗争的病人的故事和经历，有些[gydF4y2Ba56gydF4y2Ba，gydF4y2Ba57gydF4y2Ba]包含用户经历慢性疼痛和疾病的帖子和故事，以及其他[gydF4y2Ba58gydF4y2Ba-gydF4y2Ba60gydF4y2Ba]包含COVID-19幸存者的故事和经历。我们研究中使用的社交媒体来源如下:gydF4y2Ba

BII [gydF4y2Ba61gydF4y2Ba]:这是一个专门的公共网站，有关于bii相关主题的文章，并提供与种植体和外植体手术等相关的资源。该网站还允许个人发布他们对隆胸和相关健康问题的经历和担忧。我们从网站(截至2019年5月10日)提取了单个帖子，并将结果数据集称为BIIweb。gydF4y2Ba
治疗BII [gydF4y2Ba62gydF4y2Ba]:该网站包含关于植入后疾病、植入后愈合、乳房植入物安全性等方面的信息。这个网站的讨论板上有很多帖子和评论，关于乳房植入者或接受过乳房移植的人所经历的症状、体征等。从本网站讨论区提取的数据集(截至2019年5月10日)称为HealingBII。gydF4y2Ba
关于BII的Instagram帖子[gydF4y2Ba63gydF4y2Ba]:这个网站包含了一组公开可用的Instagram帖子gydF4y2BabreastimplantillnessgydF4y2Ba作为一个标签。我们提取了时间戳在2012年1月10日至2019年9月4日之间的每个Instagram帖子的相关文本。从该站点提取的数据集称为IG-BII。gydF4y2Ba

3个网站的所有评论和帖子都被纳入相应的数据集。gydF4y2Ba表1gydF4y2Ba展示了收集到的社交媒体数据的摘要。BIIweb数据集只有187篇文章(平均每篇文章有129个单词，SD为124)，但这些文章的平均长度比其他2个数据集的文章要大(文章的平均长度大于字数)。HealingBII是第二大数据集，有1920篇文章，每篇平均85个单词gydF4y2Ba_avggydF4y2Ba) (sd 107)。IG-BII是最大的数据集，有28,987篇文章，平均每篇文章123个单词(SD 113)。gydF4y2Ba

表1。社交媒体数据分析统计汇总。gydF4y2Ba

数据集gydF4y2Ba	的帖子gydF4y2Ba^{一个gydF4y2Ba}(n=31,094)， n (%)gydF4y2Ba	lgydF4y2Ba_{马克斯gydF4y2Ba}^bgydF4y2Ba	lgydF4y2Ba_{最小值gydF4y2Ba}^cgydF4y2Ba	lgydF4y2Ba_avggydF4y2Ba^dgydF4y2Ba，均值(SD)gydF4y2Ba	单词gydF4y2Ba^egydF4y2Ba， n (%)gydF4y2Ba
BIIwebgydF4y2Ba	187 (0.6)gydF4y2Ba	669gydF4y2Ba	3.gydF4y2Ba	129 (124)gydF4y2Ba	24191 (0.64)gydF4y2Ba
HealingBIIgydF4y2Ba	1920 (6.17)gydF4y2Ba	1330gydF4y2Ba	1gydF4y2Ba	85 (107)gydF4y2Ba	165090 (4.38)gydF4y2Ba
IG-BIIgydF4y2Ba	28987 (93.22)gydF4y2Ba	515gydF4y2Ba	1gydF4y2Ba	123 (113)gydF4y2Ba	3581081 (94.98)gydF4y2Ba

^{一个gydF4y2Ba}Posts:各个数据集中的帖子和评论的数量。gydF4y2Ba

^bgydF4y2BalgydF4y2Ba_{马克斯gydF4y2Ba}:一篇文章的最小字数。gydF4y2Ba

^cgydF4y2BalgydF4y2Ba_{最小值gydF4y2Ba}:一篇文章的最大字数。gydF4y2Ba

^dgydF4y2BalgydF4y2Ba_avggydF4y2Ba:帖子的平均长度，以单词为单位。gydF4y2Ba

^egydF4y2Ba字数:各个数据集中的字数总和。gydF4y2Ba

管道gydF4y2Ba

概述gydF4y2Ba

图1gydF4y2Ba显示管道的概览。我们通过以下3个步骤从数据集中提取主要与症状、疾病和医疗程序相关的主要感兴趣主题。后面将详细讨论每个步骤。第一步涉及数据预处理。我们删除了所有的停止词、数字字符、超链接、标签等，并将剩余的字符转换为小写字母。第二步是提及提取和概念映射。我们使用临床文本分析和知识提取系统(cTAKES)提取与体征、症状、疾病、失调和医疗程序相关的提及[gydF4y2Ba64gydF4y2Ba]。提取的提及进一步映射到统一医学语言系统(UMLS)中由概念唯一标识符(gui)表示的标准医学概念[gydF4y2Ba65gydF4y2Ba本体。第三步涉及主题建模。我们使用潜在狄利克雷分配(latent Dirichlet allocation, LDA)对映射到主题的概念进行了总结[gydF4y2Ba66gydF4y2Ba]。LDA是一种用于主题建模的概率生成模型。它将每个文档表示为潜在主题的混合物，其中每个主题都被建模为单词的分布。该建模包括3个阶段:(1)提及替换，(2)使用LDA进行主题建模，(3)分析和评估。在提及替换中，我们用其映射的gui替换帖子中每个提取的提及，并丢弃帖子中的所有其他单词。我们已经在本节中详细讨论了这一步骤gydF4y2Ba主题建模gydF4y2Ba．然后，在使用LDA进行主题建模时，给定映射的gui语料库，LDA生成文档-主题和主题- cui的概率分布。我们已经在本节中详细讨论了这一步骤gydF4y2Ba主题建模gydF4y2Ba．最后，在我们的分析和评估过程中，我们进一步分析了这些分布，以使用最具代表性的提及得出主题列表，并总结了每个数据集提取的提及。我们已经在本节中详细讨论了这一步骤gydF4y2Ba结果:LDA主题gydF4y2Ba．gydF4y2Ba

图1所示。乳房植入疾病的社交媒体分析。美国信息交换标准代码;CUI:概念唯一标识符;LDA:潜在狄利克雷分配;临床文本分析与知识提取系统。gydF4y2Ba

数据预处理gydF4y2Ba

我们使用了自然语言工具箱标记器[gydF4y2Ba67gydF4y2Ba]来标记每个数据集的原始文本。在获得的标记中，我们使用Natural Language Toolkit英语停止词列表删除了停止词(最频繁出现的功能词，如连词、介词、限定词等)。由于停顿词在BII中很少或根本没有关于我们感兴趣的主题的信息，因此可以安全地删除它们，就像在NLP中通常所做的那样。我们还使用正则表达式匹配删除了所有数字字符、表情符号、非美国信息交换标准代码(ASCII)字符、超链接、标签和Instagram句柄，并将所有剩余的令牌转换为小写，以统一不同的大小写，以便后续处理。gydF4y2Ba

提到抽取和概念映射gydF4y2Ba

提述提取是指提取表达医学概念的单词或短语。我们使用cTAKES工具提取提及。cTAKES工具是一个开源的NLP工具，用于从非结构化临床文本中提取临床信息。从帖子中提取提及(即传达医学概念的单词或短语)，并将这些提及映射为标准医学概念。在此过程中，它还将每个提取的提及分类为5个cTAKES类别之一:体征、症状、疾病、紊乱、药物、程序和解剖;也就是说，ctake在提取提及的同时，也会自动将提及分类为5类之一。例如，在“这些年来，我的耳鸣变得越来越严重，几乎到了让人虚弱的程度”这句话中gydF4y2Ba耳鸣gydF4y2Ba作为一种提及体征和症状的范畴。下面，我们将详细讨论如何配置ctake。gydF4y2Ba

我们使用cTAKES中的快速字典查找注释器从处理过的数据中提取提及。该注释器识别和提取文本中的提及，并将其规范化为UMLS标准医学本体中的gui。将提取的提及归一化到gui中称为概念映射。UMLS本体中的每个CUI唯一地标识一个医学概念。因此，我们使用ctake将提及映射到的gui的标准医学概念来表示提取的提及。我们将注释器配置为使用精确的字符串匹配并使用all-term-persistence属性。因此，注释器可以保留所有术语，而不考虑每个术语的语义属性。例如，对于短语gydF4y2Ba背部疼痛gydF4y2Ba，注释者将注释通用术语gydF4y2Ba疼痛gydF4y2Ba以及准确的术语gydF4y2Ba背部疼痛gydF4y2Ba．我们选择使用全术语持久性属性来保留有关精确和通用医学概念的最大信息。最后，注释器将生成的注释存储在XML元数据交换(XML Metadata Interchange, XML)文件中。gydF4y2Ba

为了从xml文件中获得人类可读格式的注释，我们执行了以下步骤(gydF4y2Ba图2gydF4y2Ba）.我们使用自定义解释器来处理ctake生成的xml文件，并从ctake获取提及和gui之间的映射。我们首先搜索的是gydF4y2BaUmlsConceptgydF4y2BaXML标识符在XML文件中，其中每个gydF4y2BaUmlsConceptgydF4y2BaXML标识符通常分组在gydF4y2BaFSArraygydF4y2Ba，每个gydF4y2BaFSArraygydF4y2Ba是与单个本体概念和范畴概念相关联的。每个概念在ctake的5个类别中被划分为一个类别:体征、症状、疾病、紊乱、药物、程序和解剖。每个本体概念都进一步与UMLS CUI和uml相关联gydF4y2BaontologyConceptArrgydF4y2Ba标识符。必须注意的是，一个提及可以映射到多个gui。例如，提及gydF4y2Ba过敏反应gydF4y2Ba分为体征和症状，但映射到两个不同的gui:gydF4y2BaC1527304gydF4y2Ba和gydF4y2BaC0020517gydF4y2Ba．然后，我们提取了描述这些类别的本体概念:疾病、失调、体征、症状和医疗程序。最后，我们使用gydF4y2Ba开始gydF4y2Ba和gydF4y2Ba结束gydF4y2Ba与每个相关的标记gydF4y2BaontologyConceptArrgydF4y2Ba标识符，以获取输入帖子中已注释提及的位置。在这项工作中，我们只对前3类(即体征、症状、疾病、障碍和程序)感兴趣，以了解与bi相关的问题。因此，我们只使用这三种类型中的一种。gydF4y2Ba

图2。从临床文本分析和知识提取系统中获取注释的管道。cTAKES:临床文本分析与知识提取系统;CUI:概念唯一标识符;UMLS:统一医学语言系统。gydF4y2Ba

主题建模gydF4y2Ba

为了进行主题建模，我们对帖子进行如下处理:我们将帖子中的每个提及替换为其映射的gui，并丢弃帖子中所有被ctake视为非医学概念或不在3个感兴趣类别中的其他单词。如果一个提及被映射到多个gui，我们就用多个gui替换它。如果多个提及被映射到相同的CUI，我们将用CUI替换所有这样的提及。通过这种方式，每个帖子都被表示为一个cui包，而不是一个提及的集合，作为主题建模的输入，我们的词汇表由gui组成。在主题建模上，我们解释了主题- cui分布以派生主题。gydF4y2Ba

我们使用LDA [gydF4y2Ba66gydF4y2Ba]来了解每个帖子的话题分布和每个话题的CUI分布。LDA是一种生成概率模型，用于对文档语料库中的主题进行建模。LDA将语料库中的每个文档建模为潜在主题的混合物，其中每个主题被建模为所有文档中单词的分布。LDA通过最大化观察语料库的可能性来派生最佳分布，遵循透视图分布。中提供了LDA的简要描述gydF4y2Ba多媒体附录1gydF4y2Ba［gydF4y2Ba66gydF4y2Ba]。在我们的实验中，如上所述生成的一个gui包被用作LDA中的文档，并且gui是文档中的单词。我们使用了lda-c软件[gydF4y2Ba68gydF4y2Ba]，这是一种非常有效的LDA方法的实现，可以进行主题建模。gydF4y2Ba

当LDA用于一般文档(如新闻、科学文献)的主题建模时，将使用文档中的单词及其频率。然而，在我们的分析中，我们旨在从社交媒体文本中了解与BII相关的医学概念。不同的词可能表示相同的医学概念。例如，关节痛、关节痛、关节痛和关节痛都表示关节痛，并与单个CUI所代表的单个医学概念相关联。因此，在我们的LDA分析中，我们没有使用文字，而是使用了由gui表示的医学概念。由于表示相同医学概念的多个单词可以映射到同一个CUI上，因此使用gui还可以聚合和强化来自多个单词的信息，而使用单词可能是稀疏的，因此不容易从中学习主题。gydF4y2Ba

cTAKES注释gydF4y2Ba

表2gydF4y2Ba给出了注释提及及其由ctake映射的gui的汇总统计信息。在BIIweb中，cTAKES提取了2186个提及，并将它们映射到475个唯一的gui。在HealingBII中，cTAKES提取了11,080个提及，并将它们映射到1177个唯一的gui。在最大的数据集IG-BII中，cTAKES提取了5530个唯一提及，并将它们映射到2871个唯一gui。请注意，相同的提及可以映射到多个gui，并且可以具有多个类别(每个CUI只有一个类别)。例如，提及gydF4y2Ba闪光gydF4y2Ba映射到2个不同的gui，然后是2个不同的类别:疾病和医疗程序。gydF4y2Ba表2gydF4y2Ba给出了提取提及的每个类别的统计数据。对于每个数据集，大多数提取的提及被ctake分类为体征和症状。gydF4y2Ba

表2。临床文本分析与知识提取系统注释统计汇总。gydF4y2Ba

数据集gydF4y2Ba	cwordsgydF4y2Ba^{一个gydF4y2Ba}	annotsgydF4y2Ba^bgydF4y2Ba	地图gydF4y2Ba^cgydF4y2Ba	米gydF4y2Ba^dgydF4y2Ba	CgydF4y2Ba^egydF4y2Ba	M / CgydF4y2Ba^fgydF4y2Ba	C / MgydF4y2Ba^ggydF4y2Ba	年代gydF4y2Ba^hgydF4y2Ba	DgydF4y2Ba^我gydF4y2Ba	PgydF4y2Ba^jgydF4y2Ba
BIIwebgydF4y2Ba	24034年gydF4y2Ba	2186gydF4y2Ba	661gydF4y2Ba	640gydF4y2Ba	475gydF4y2Ba	1.39gydF4y2Ba	1.03gydF4y2Ba	385gydF4y2Ba	149gydF4y2Ba	106gydF4y2Ba
HealingBIIgydF4y2Ba	163352年gydF4y2Ba	11080年gydF4y2Ba	1740gydF4y2Ba	1685gydF4y2Ba	1177gydF4y2Ba	1.48gydF4y2Ba	1.03gydF4y2Ba	891gydF4y2Ba	503gydF4y2Ba	292gydF4y2Ba
IG-BIIgydF4y2Ba	3116966年gydF4y2Ba	185339年gydF4y2Ba	5694gydF4y2Ba	5530gydF4y2Ba	2871gydF4y2Ba	1.98gydF4y2Ba	1.03gydF4y2Ba	3049gydF4y2Ba	1549gydF4y2Ba	932gydF4y2Ba

^{一个gydF4y2Ba}cwords:临床文本分析和知识提取系统识别的单词总数。gydF4y2Ba

^bgydF4y2Ba注释:属于3种语义类型(即体征、症状、疾病、失调和医疗程序)的提取提及的总数。gydF4y2Ba

^cgydF4y2Ba映射:唯一提及概念的唯一标识符映射的数量。gydF4y2Ba

^dgydF4y2BaM:唯一提取的提及数。gydF4y2Ba

^egydF4y2BaC:唯一映射概念唯一标识符的个数。gydF4y2Ba

^fgydF4y2BaM/C:映射到给定概念唯一标识符的提取提及的平均数量。gydF4y2Ba

^ggydF4y2BaC/M:映射到提取的提及的概念唯一标识符的平均数量。gydF4y2Ba

^hgydF4y2BaS:映射到体征和症状类别的唯一提取提及数。gydF4y2Ba

^我gydF4y2BaD:映射到疾病和失调类别的唯一提取提及数。gydF4y2Ba

^jgydF4y2BaP:映射到医疗程序类别的唯一提取提及的数量。gydF4y2Ba

为了确定cTAKES是否能够充分提取相关的提及，我们执行了手动注释，并比较了两个提取的提及列表:一个来自使用cTAKES，另一个来自使用手动注释。我们从3个数据集中随机抽取50篇文章，并对这些文章进行手动注释。通过手动标注，我们提取了表达社交媒体用户涉及bi相关症状、疾病和医疗程序的担忧和经历的提及(单词或短语)。对于50个帖子的随机样本(lgydF4y2Ba_avggydF4y2Ba=134.18)，我们通过人工标注获得575次提及，通过ctake标注获得637次提及;共有479次被提及。每次提及都与一个帖子标识符和一个字符偏移量相关联。如果一个提及出现在两个列表中，并且具有相同的post标识符和字符偏移量，则认为它属于两个列表。我们发现83.3%(479/575)的人工标注提及被ctake覆盖。这种高覆盖率表明ctake可以捕获大多数相关的医学概念。相比之下，ctake注释的提及中有75.2%(479/637)被人工注释覆盖。这进一步表明，大多数注释中提到的ctake都可以通过手动注释来确认。同样，对于50个帖子的随机样本(lgydF4y2Ba_avggydF4y2Ba=80.02)， 69.5%(194/279)的人工标注提及被ctake覆盖;70.3%(194/276)的ctake注释被人工注释确认。对于50个帖子的随机样本(lgydF4y2Ba_avggydF4y2Ba=121.00)，对应值分别为75.2%(182/242)和64.3%(182/283)。根据我们研究中使用的多个数据集的人工标注和ctake的结果高度重叠，我们有理由认为ctake是通过社交媒体数据进行BII研究的人工标注的一个不错的替代品。gydF4y2Ba

LDA的话题gydF4y2Ba

为了确定最佳主题模型，我们使用网格搜索来确定Dirichlet先验α∈{0.01,0.05,0.1,0.5,1,1.5,2,5,10,15,20,25}和主题个数K∈{3,4,5,10,15,20}的最佳参数值。为了评估主题模型，我们分析了低困惑分数对应的α值和K值的每种组合的每个LDA主题建模结果[gydF4y2Ba66gydF4y2Ba，gydF4y2Ba69gydF4y2Ba，gydF4y2Ba70gydF4y2Ba]。gydF4y2Ba

对于每个主题建模结果，我们分析了文档-主题和主题- cui的概率分布，以得出主题及其各自的前10个代表性提及。给定主题的前10个代表性提及是最频繁的提及，对应于前10个gui，属于该主题的概率最高。多个提及可以映射到给定的CUI (gydF4y2Ba表2gydF4y2Ba）.我们只呈现最频繁的提及，因为映射到同一CUI的所有提及都具有相似的语义。我们进一步评估了主题建模的质量，基于衍生主题总结了最具代表性的提及。我们对每个α和K组合的LDA主题建模结果进行了分析，并选择了衍生主题不同且最能总结最有代表性提及的主题。最后，我们使用(1)BIIweb的K=4和α=10， (2) HealingBII的K=5和α=10，以及(3)IG-BII的K=5和α=1.5来确定不同且有意义的主题。我们观察到，当K值较高时，最具代表性的提及在主题之间是相似的。因此，衍生的主题不明确，难以解释。gydF4y2Ba

表3gydF4y2Ba-gydF4y2Ba5gydF4y2Ba列出提及次数最多的10个代表、提及次数对应的gui频率(以%为单位)，以及提及次数所表示主题的解释(例如，常见体征和症状)。注意，ui的频率是在所有帖子中，而不仅仅是在那些属于某个主题的概率最高的帖子中。我们给出这些频率是因为每个帖子都有属于某个主题的一定概率，因此所有帖子之间的频率可以更好地表示所有帖子的主题信息。这些表格还提供了高概率属于相应主题的帖子示例。在示例中，高概率属于相应主题的提及被斜体化。请注意，我们在LDA中使用gui来派生主题和单词分布(如方法-主题建模一节中所讨论的)，但是我们展示了映射到这些表中各自的gui(没有语义的标识符)的最频繁的提及(具有明确的语义)。这些表中的提及是根据它们对应的gui属于各自主题的概率进行排序的。请注意，这些概率并没有出现在表格中(它们不是表格中出现的频率)。因此，每个主题用其最具代表性的提及来代表，从而总结这些提及。例如，如果有大量提及与疼痛相关的内容，如颈部疼痛、胸痛和头痛，我们就会将一个主题解释为疼痛和其他迹象。 Please note that the topics have not been sorted, and the first columns in Tables 3 to 5 are nominal identifiers. Below, we have discussed the topics derived from LDA for BIIweb and HealingBII data sets from the original posts. Note that 2 topics can still share the same representative mention with different probabilities in the LDA.

表3。BIIweb中的派生主题。gydF4y2Ba

主题gydF4y2Ba	提及次数最多的10次gydF4y2Ba	解释gydF4y2Ba
1gydF4y2Ba	测试(2.34);疾病(4.46);问题(2.82);工作(1.17);肿胀(0.78);排水管(0.61);感觉自己很普通(2.51);疲劳(1.82);耗尽(0.39);灵敏度(0.95)gydF4y2Ba ‎gydF4y2Ba 例子:“我五年前做了硅胶植入手术，三年前我去看了医生gydF4y2Ba乏力gydF4y2Ba^{一个gydF4y2Ba}(我每天睡14-16个小时，很安静gydF4y2Ba疲惫gydF4y2Ba)"gydF4y2Ba ‎gydF4y2Ba	常见的体征和症状gydF4y2Ba
2gydF4y2Ba	隆胸(6.80);删除(1.30);癌症(0.95);自身免疫性(0.95);感染(0.87);硬皮病(0.39);疼痛(3.68);诊断(0.30);间变性大细胞淋巴瘤引起(0.30);乳腺癌(0.30)gydF4y2Ba ‎gydF4y2Ba 例子:“我有四期乳房gydF4y2Ba癌症gydF4y2Ba做了化疗和放疗。我想要我的gydF4y2Ba隆胸gydF4y2Ba由于gydF4y2Ba疼痛gydF4y2Ba…然后我得了急性病gydF4y2Ba感染gydF4y2Ba发生在他们植入新植入物一个半月后他们被迫进行紧急手术gydF4y2Ba删除gydF4y2Ba新的植入物。隆胸病的所有症状我都有——甚至在隆胸手术摘除之后。”gydF4y2Ba ‎gydF4y2Ba	疾病或失调gydF4y2Ba
3.gydF4y2Ba	隆胸(6.80);疾病(4.46);毒性(1.17);异物(0.87);治愈(0.78);支持(0.65);断裂(0.52);癌症(0.95);意识(0.35);炎症(0.56)gydF4y2Ba ‎gydF4y2Ba 示例:“……直到2006年我才有了问题，当时我以为发生了什么事，然而，我的外科医生说我一定是拉伤了肌肉gydF4y2Ba植入物gydF4y2Ba看起来很好。现在那个外科医生老了，商店也关门了。在过去的13年里，我饱受关节炎，疲劳，脑雾的折磨，gydF4y2Ba炎症gydF4y2Ba、激素失衡、肾上腺疲劳……”gydF4y2Ba ‎gydF4y2Ba	毒性gydF4y2Ba
4gydF4y2Ba	疼痛(3.68);感觉(2.51);疲劳(1.82);背部疼痛(0.87);疾病(4.46);关节疼痛(0.56);更糟的是(0.65);焦虑(0.52);耳鸣(0.39);头痛(0.39)gydF4y2Ba ‎gydF4y2Ba 例子:“直到2017年，我才开始体验gydF4y2Ba焦虑gydF4y2Ba以及惊恐发作(我当时并不知道自己有这种症状)。随之而来的是疯狂gydF4y2Ba头痛gydF4y2Ba我感到头晕、恶心、头晕，而且我的右眼总是肿起来，却不知道为什么。”gydF4y2Ba ‎gydF4y2Ba	疼痛和压力相关的疾病gydF4y2Ba

^{一个gydF4y2Ba}示例中属于相应主题的高概率的提及是斜体的。gydF4y2Ba

表4。HealingBII中的派生主题。gydF4y2Ba

主题gydF4y2Ba	提及次数最多的10次gydF4y2Ba	解释gydF4y2Ba
1gydF4y2Ba	断裂(1.34);支持(0.87);阅读(1.17);痛苦(0.87);快乐(0.6);乳房切除术(0.46);工作(0.96);恐慌(0.77);重建(0.41);核磁共振(0.72)gydF4y2Ba ‎gydF4y2Ba 例如:“双gydF4y2Ba乳房切除术gydF4y2Ba^{一个gydF4y2Ba}在2015年。gydF4y2Ba重建gydF4y2Ba2016年初，用扩张器进行处理，然后永久植入1000毫升生理盐水。之后又做了9次手术，切除了子宫，现在又出现了许多健康问题。”gydF4y2Ba ‎gydF4y2Ba	手术和程序gydF4y2Ba
2gydF4y2Ba	疼痛(3.91);关节疼痛(0.79);疲劳(0.96);疾病(4.70);删除(0.84);脱发(0.52);头痛(0.47);肌肉酸痛(0.34);皮疹(0.39);感染(0.84)gydF4y2Ba ‎gydF4y2Ba 例子:“除了神经肌肉痉挛和gydF4y2Ba疼痛gydF4y2Ba我患有慢性致残症gydF4y2Ba乏力gydF4y2Ba，脑雾和混乱(是的，即使在开车的时候)，视力和听力丧失，眩晕，神秘的皮肤gydF4y2Ba皮疹、脱发、偏头痛……gydF4y2Ba”gydF4y2Ba ‎gydF4y2Ba	疼痛和其他症状gydF4y2Ba
3.gydF4y2Ba	问题(2.64);癌症(0.90);自身免疫性(0.57);乳腺癌(0.38);疤痕(0.35);治疗(0.43);诊断(0.29);自身免疫性疾病(0.27);红斑狼疮(0.29);关节炎(0.26)gydF4y2Ba ‎gydF4y2Ba 例子:“大约从2010年开始，我的双乳都长了胶囊。从2005年开始，我就出现了BII症状，很多感染都需要静脉注射和口服抗生素。我的环境和药物过敏越来越严重，开始gydF4y2Ba关节炎gydF4y2Ba、皮疹;gydF4y2Ba自身免疫性gydF4y2Ba症状开始恶化gydF4y2Ba癌症……gydF4y2Ba”gydF4y2Ba ‎gydF4y2Ba	癌症和其他疾病gydF4y2Ba
4gydF4y2Ba	隆胸(3.85);疾病(4.70);毒性(3.05);治疗(1.56);capsulectomy (0.64);感染(0.84);炎症(0.39);解毒(0.32);异物(0.25);流血(0.23)gydF4y2Ba ‎gydF4y2Ba 例子:“有些女人用硅胶gydF4y2Ba毒性gydF4y2Ba有淤青和gydF4y2Ba出血gydF4y2Ba问题。如果我是你，我会尝试将淋巴结定位并检查是否有硅胶，如果它被污染到无法解毒的程度，就像硅胶肉芽肿被切除一样，将其切除。”gydF4y2Ba ‎gydF4y2Ba	毒性gydF4y2Ba
5gydF4y2Ba	情感(3.70);认为(2.26);感觉(0.84);正常的(0.65);焦虑(0.50);生病(0.61);感觉(0.33);累了(0.28);溃疡(0.27);抑郁症(0.33)gydF4y2Ba ‎gydF4y2Ba 例子:“更令人心碎和沮丧的是gydF4y2Ba情感gydF4y2Ba由于臀部和膝盖疼痛，腿和脚痉挛，不能自由地在地板上和她玩耍的痛苦……但我有很多问题gydF4y2Ba感情gydF4y2Ba因为身体上的限制而无法胜任妻子和母亲的角色。”gydF4y2Ba ‎gydF4y2Ba	心理健康gydF4y2Ba

^{一个gydF4y2Ba}斜体文本表示示例中提及的极有可能属于相应主题的内容。gydF4y2Ba

表5所示。IG-BII中的派生主题。gydF4y2Ba

主题gydF4y2Ba	提及次数最多的10次gydF4y2Ba	解释gydF4y2Ba
1gydF4y2Ba	治愈(1.46);工作(0.90);加权(1.05);能力(0.99);其他(0.37);压力(0.29);锻炼(0.28);治疗(0.35);睡眠(0.36);运行(0.23)gydF4y2Ba ‎gydF4y2Ba 例子:“我植牙已经14个月了。到…的旅程gydF4y2Ba疗愈gydF4y2Ba^{一个gydF4y2Ba}由于挫折和反复发作，这并不容易，但比每天因感冒、食物、气味、哭泣而引起的过敏反应要好，gydF4y2Ba锻炼gydF4y2Ba和gydF4y2Ba压力gydF4y2Ba然后加上过敏反应引起的心绞痛发作。”gydF4y2Ba ‎gydF4y2Ba	身体健康gydF4y2Ba
2gydF4y2Ba	恶性肿瘤(1.10);删除(0.96);疤痕(0.75);capsulectomy (0.68);断裂(0.43);ciactrice (0.43);间变性大细胞淋巴瘤引起(0.41);增加(0.37);淋巴瘤(0.35);移除种植体(0.29)gydF4y2Ba ‎gydF4y2Ba 例子:“隆胸的丑陋一面。这不是你会不会生病的问题……它是什么时候。植入物会泄漏有毒重金属而不会破裂这叫做凝胶出血。植入假体的女性患脑、肺和肺的可能性要高出3倍gydF4y2Ba淋巴癌gydF4y2Ba比做过植入手术的女性要多。”gydF4y2Ba ‎gydF4y2Ba	癌症和医疗程序gydF4y2Ba
3.gydF4y2Ba	爱(2.43);幸福(2.11);情感(1.64);认为(1.05);感觉(0.87);恐慌(0.55);信心(0.35);累了(0.38);情感(0.27);感觉(0.33)gydF4y2Ba ‎gydF4y2Ba 例子:“我是gydF4y2Ba害怕gydF4y2Ba看起来不完整。在对自己进行了深刻的内心反思之后，我意识到我的价值并不取决于我的长相或我的胸脯有多大。我意识到这是真的gydF4y2Ba幸福gydF4y2Ba来自于百分之百地接受我是谁和我是什么。”gydF4y2Ba ‎gydF4y2Ba	心理健康gydF4y2Ba
4gydF4y2Ba	隆胸(7.21);疾病(5.67);毒性(1.67);意识到(0.96);感觉更糟(0.36);测试(0.64);异物(0.45);(0.33);痛苦(0.21);并发症(0.20)gydF4y2Ba ‎gydF4y2Ba 示例:“……我们得到了gydF4y2Ba有毒gydF4y2Ba从硅胶的化学成分来看gydF4y2Ba有毒gydF4y2Ba壳降解时释放出的化学物质，因破裂而生病，有时还会发霉。”gydF4y2Ba ‎gydF4y2Ba	毒性gydF4y2Ba
5gydF4y2Ba	疼痛(2.52);炎症反应(0.89);疲劳(0.83);焦虑(0.72);过敏反应(0.43);抑郁症(0.37);关节疼痛(0.33);自身免疫性疾病(0.32);膨胀(0.43);感染(0.31)gydF4y2Ba ‎gydF4y2Ba 例子:“三年来，医生一直无法诊断或解释上半身无力，手gydF4y2Ba疼痛gydF4y2Ba，一般情况下gydF4y2Ba炎症gydF4y2Ba．我经历过几次高潮gydF4y2Ba炎症gydF4y2Ba使人衰弱gydF4y2Ba乏力gydF4y2Ba，偏头痛，无法减肥，失眠，性欲低下，身体虚弱gydF4y2Ba关节疼痛gydF4y2Ba比如脱发、皮肤干燥、眼睛干涩、脑雾等。”gydF4y2Ba ‎gydF4y2Ba	常见的疾病gydF4y2Ba

^{一个gydF4y2Ba}斜体文本表示示例中提及的极有可能属于相应主题的内容。gydF4y2Ba

表3gydF4y2Ba表示BIIweb数据集中的主题。虽然BIIweb是最小的数据集(gydF4y2Ba表1gydF4y2Ba)，我们仍然能够确定最具代表性的4个不同主题，即疲劳、感染、毒性和焦虑。gydF4y2Ba表4gydF4y2Ba给出了HealingBII数据集中的主题，该数据集与BIIweb中的主题共享了一些常见主题和代表性提及。例如，疼痛、癌症和毒性在这两个数据集中是常见的。然而，HealingBII的一个独特的焦点话题是手术和程序，人们(主要是患者)在他们之间讨论程序并分享他们的相关经验。《康复ii》的另一个独特主题是心理健康。gydF4y2Ba

除了身体症状外，个人还报告了严重的情绪和精神困难，如抑郁，并在社交媒体上表达了严重的症状。gydF4y2Ba表5gydF4y2Ba给出了数据集IG-BII数据集中的主题。IG-BII是最大的数据集(gydF4y2Ba表1gydF4y2Ba)，职位也明显多于其他两个。我们观察到，癌症、心理健康和毒性在这个大型数据集中成为重要的主题，与HealingBII中的数据一致。在IG-BII中，人们还讨论了他们从与BII相关的问题或事件中恢复的过程。我们从这3组数据中确定了经常提到的破裂、疼痛和疲劳。我们还发现了癌症、狼疮和自身免疫性疾病。请注意gydF4y2Ba表3gydF4y2Ba包含4个主题的BIIweb，但是gydF4y2Ba表4gydF4y2Ba和gydF4y2Ba5gydF4y2Ba包含HealingBII和IG-BII的5个主题。这是因为主题的数量取决于主题的不同程度，而不是预先指定的主题数量。gydF4y2Ba

表6gydF4y2Ba给出了最具代表性的10个被提及次数、被提及次数对应的gui频率(以%为单位)，以及在统一数据集上对主题的解释，该数据集结合了BIIweb、HealingBII和IG-BII这3个数据集。我们将3个数据集中的所有帖子合并到一个语料库中，得到一个统一的数据集。为了执行主题建模，我们以与处理单个数据集中的帖子相同的方式处理统一数据集中的帖子(在方法-主题建模一节中讨论)。在主题建模中，我们使用K=5和α=1.5确定了5个不同的主题。我们观察到，在统一的数据集中，身体健康、癌症、精神健康、毒性和常见疾病成为重要的主题，与IG-BII的数据一致。这是因为IG-BII是三者中最大的数据集，占统一数据集的93.22%(28,987/31,094)。我们还从个人和统一的数据集中确定了常见的问题，如疼痛、过敏、抑郁、体重增加、癌症、炎症和毒性问题。这意味着上述因素经常与BII相关。gydF4y2Ba

表6所示。统一数据集中的派生主题。gydF4y2Ba

主题gydF4y2Ba	提及次数最多的10次gydF4y2Ba	解释gydF4y2Ba
1gydF4y2Ba	工作(1.45);(0.92);体重(0.79);运行(0.40);思考(2.68);锻炼(0.25);谈话(0.50);散步(0.35);营养(0.15);(0.28);gydF4y2Ba ‎gydF4y2Ba 示例:“……我现在比过去7年都要健康!我在2018年2月移植，几个月后，我获得了我的gydF4y2Ba重量gydF4y2Ba^{一个gydF4y2Ba}回来了，找到了真正的爱和自我照顾gydF4y2Ba工作gydF4y2Ba”。gydF4y2Ba ‎gydF4y2Ba	身体健康gydF4y2Ba
2gydF4y2Ba	疾病(4.45);癌症(0.87);破裂(0.77);删除(0.76);意识(0.73);遭受(0.83);capsulectomy (0.54);自身免疫性(0.52);隆胸(0.30);增加(0.28);gydF4y2Ba ‎gydF4y2Ba 例子:“我被诊断出患有乳腺癌gydF4y2Ba癌症gydF4y2Ba在我30岁的时候，我做了双乳切除手术。现在10年过去了，就在15个星期前，我摘除了植入物。他们有gydF4y2Ba破裂gydF4y2Ba都是有毒的，给我带来了健康问题”gydF4y2Ba ‎gydF4y2Ba	癌症和医疗程序gydF4y2Ba
3.gydF4y2Ba	感觉(5.94);爱(2.97);思考(2.68);快乐(1.64);感情(1.47);害怕(0.66);信心(0.27);支持(0.79);能力(0.77);活着(0.17);gydF4y2Ba ‎gydF4y2Ba 例子:“当我发现我生病了，我不得不撕裂我的身体来让自己好起来的时候，我从来没有想过我会对自己感到满意。我刚做完手术4周gydF4y2Ba感觉gydF4y2Ba比以前更快乐，更健康。我担心我永远都不会gydF4y2Ba爱gydF4y2Ba了。”gydF4y2Ba ‎gydF4y2Ba	心理健康gydF4y2Ba
4gydF4y2Ba	治愈(2.26);疤痕(0.58);伤痕累累(0.33);排水管(0.26);有毒的(1.97);风景(1.25);炎症(0.68);凸起(0.36);温柔(0.20);红色(0.15); damage (0.16); ‎gydF4y2Ba 例子:“我很担心如何gydF4y2Ba红色的gydF4y2Ba让我的gydF4y2Ba伤疤gydF4y2Ba是……然后在3周左右，它们变得非常发炎，疼痛，并且升高，我真的很紧张。一夜之间gydF4y2Ba炎症gydF4y2Ba红了下来……”gydF4y2Ba ‎gydF4y2Ba	常见的体征、症状和毒性gydF4y2Ba
5gydF4y2Ba	疼痛(2.09);总是很累(0.69);焦虑(0.57);关节疼痛(0.46);脱发(0.39);体重增加(0.37);过敏反应(0.35);抑郁症(0.29);腰痛(0.23);头痛(0.22)gydF4y2Ba ‎gydF4y2Ba 例子:“在我接受移植之前，我有许多无法解释的症状(脑雾)，gydF4y2Ba关节疼痛gydF4y2Ba背部和颈部疼痛，gydF4y2Ba总是很累gydF4y2Ba比如牛皮癣、心房纤颤等等。自从我从手术中醒来后，我的脖子、背部和关节完全没有疼痛。”gydF4y2Ba ‎gydF4y2Ba	常见的疾病gydF4y2Ba

^{一个gydF4y2Ba}斜体文本表示示例中提及的极有可能属于相应主题的内容。gydF4y2Ba

表7gydF4y2Ba表示每个主题的帖子百分比，其中一个帖子gydF4y2BadgydF4y2Ba被认为属于主题z，如果在所有主题中gydF4y2BadgydF4y2Baz的概率最高。尽管分布在数据集之间并不完全一致，但毒性在所有数据集中仍然是一个值得注意的主题。这表明这些都是与BII显著相关的常见问题。此外，疼痛、癌症、心理健康和其他疾病也与隆胸有关。gydF4y2Ba

表7所示。帖子在主题之间的分布。gydF4y2Ba

数据集和主题gydF4y2Ba		职位，n (%)gydF4y2Ba
BIIwebgydF4y2Ba
	常见的体征和症状gydF4y2Ba	62 (33.2)gydF4y2Ba
	疾病或失调gydF4y2Ba	28日(15)gydF4y2Ba
	毒性gydF4y2Ba	50 (26.7)gydF4y2Ba
	疼痛和压力相关的疾病gydF4y2Ba	47 (25.1)gydF4y2Ba
HealingBIIgydF4y2Ba
	手术和程序gydF4y2Ba	713 (37.1)gydF4y2Ba
	疼痛和其他症状gydF4y2Ba	221 (11.5)gydF4y2Ba
	癌症和其他疾病gydF4y2Ba	221 (11.5)gydF4y2Ba
	毒性gydF4y2Ba	505 (26.3)gydF4y2Ba
	心理健康gydF4y2Ba	260 (13.6)gydF4y2Ba
IG-BIIgydF4y2Ba
	身体健康gydF4y2Ba	11299 (39)gydF4y2Ba
	癌症和医疗程序gydF4y2Ba	3890 (13.4)gydF4y2Ba
	心理健康gydF4y2Ba	4879 (16.8)gydF4y2Ba
	毒性gydF4y2Ba	5415 (18.7)gydF4y2Ba
	常见的疾病gydF4y2Ba	3504 (12.1)gydF4y2Ba
统一gydF4y2Ba
	身体健康gydF4y2Ba	4760 (15.3)gydF4y2Ba
	癌症和医疗程序gydF4y2Ba	10637 (34.2)gydF4y2Ba
	心理健康gydF4y2Ba	7954 (25.6)gydF4y2Ba
	常见的体征、症状和毒性gydF4y2Ba	4030 (13)gydF4y2Ba
	常见的疾病gydF4y2Ba	3713 (11.9)gydF4y2Ba

主要研究结果gydF4y2Ba

为了了解与BII相关的体征、症状和疾病或障碍(主要在社交媒体上而不是在医疗报告中报道)，我们收集了社交媒体帖子，并使用NLP和主题建模对其进行了分析。我们使用ctake提取与体征、症状、疾病、失调和医疗程序相关的提及，将它们映射到标准医学概念，并使用LDA将映射的概念总结为主题。我们发现，诸如破裂、感染、炎症、疼痛和疲劳是常见的自我报告问题。我们还发现，与精神健康相关的问题，如压力、焦虑和抑郁，以及癌症和自身免疫性疾病等疾病，都是常见的问题。ctake也能够提取药物和解剖信息，但鉴于我们的研究目的不是研究与BII相关的药物或解剖结构，因此它们没有用于我们的LDA分析。gydF4y2Ba

在我们的方法中，我们依赖于ctake和丰富的UMLS字典来提取所有相关的提及，包括它们的词法变体(同义词、缩写、释义)。为了确定ctake是否能够充分提取相关提及，我们执行了手动注释来提取所有相关提及，并将它们与从ctake中提取的提及进行比较。我们发现ctake可以充分捕获相关的医学概念，并且可以与手动注释相媲美。值得注意的是，我们没有评估提及提取模块在每个数据集的所有帖子上的性能，当每个提及都有基本事实标签时，通常使用精度和召回率指标来执行。然而，为了获得这样的标签，需要基于BII的领域知识进行仔细的手工注释。不幸的是，这些关于与BII相关或由BII引起的并发症、症状和其他问题的领域知识并不完全可用。我们在这项研究中的目标是从社交媒体数据中提供有用的信息，以补充我们目前的知识。因此，在这项初步研究中，我们使用了所有带注释的提及，假设cTAKES支持高质量的注释。gydF4y2Ba

优势与局限gydF4y2Ba

我们承认，cTAKES可能无法从我们的社交媒体数据集中提取所有相关提及。这是因为cTAKES最初是为从临床记录中提取医疗实体而设计的，与社交媒体数据相比，临床记录的措辞和写作风格非常不同。由于社交媒体数据包括非正式短语、简短的模糊文本、表情符号和与单个概念对应的广泛的词汇变体，尽管我们观察到ctake的合理输出，但ctake可能无法完美地处理社交媒体数据。我们还观察到，ctake经常将一次提及与属于同一类别的多个gui关联起来。我们认为这是因为在UMLS元词典中存在多个给定提及的映射。无论如何，提取的提及以及提及到由ctake生成的UMLS gui的映射都用于主题建模，而无需任何手动验证或评估。将来，我们将制定详细的指导方针，在将提取的提及用于主题建模之前进一步评估它们。gydF4y2Ba

我们的研究有一些局限性。首先，LDA是一种无监督学习技术，其中假设主题的数量(K)是先验已知的。然而，对于给定的数据集，很难准确地估计K。在我们的研究中，我们使用网格搜索来获得不同的K值。即使没有完整的领域知识，评估每个K值的LDA结果仍然是非平凡的。在我们的研究中，我们根据α值和K值来选择主题。我们没有使用perplexity [gydF4y2Ba66gydF4y2Ba，gydF4y2Ba69gydF4y2Ba，gydF4y2Ba70gydF4y2Ba]，一个在主题建模中广泛使用的度量，来选择主题，因为正如文献所研究的那样(例如Chang等[gydF4y2Ba71gydF4y2Ba])，困惑往往与话题的可解释性不太相关;在我们的例子中，最低的困惑并不总是能够产生直观或有意义的主题。在未来，我们将开发更严格的方法来选择主题数量和评估主题建模结果。在本研究中，我们没有对帖子进行情绪分析，以了解帖子中表达的积极或消极意见。我们计划在主题建模之前包含此过程，以便为主题建模生成更清晰的数据集。gydF4y2Ba

值得注意的是，社交媒体数据可能质量不一(例如，拼写错误、误解和有偏见的观点)，特别是与医学文献数据相比。任何人都可以在社交媒体上发帖，因此衍生内容可能来自可能患有其他种植体特异性问题的个人，例如包膜挛缩或种植体感染。因此，从社交媒体数据中理解与药物、疾病或医疗程序相关的疾病、失调、症状、体征等，总是会面临混杂因素或错误的风险。然而，鉴于关于BII的医学知识和文献还没有很好地建立起来，相关概念也没有很好地定义或被广泛接受，使用社交媒体数据来了解新出现的问题可能是一个有意义的起点。不过，任何来自社交媒体数据的发现都需要基于医学和生物学知识、实验、临床实践等进行严格的评估和验证。此外，我们只分析了3个，虽然最相关和最多产的网站致力于BII的讨论。对更大规模的社交媒体数据进行更全面的分析，将有助于更好地了解更大、更多样化人群中的BII。社交媒体数据的情绪分析可能是另一种有价值的分析，可以更深入地了解用户或患者的健康体验及其情绪或感受。我们将在未来的研究中考虑情感分析，当我们更好地理解BII，我们可以准确地注释社交媒体数据。gydF4y2Ba

结论gydF4y2Ba

本研究对今后的方法学和临床研究具有重要意义。未来NLP的方法学研究可以包括BII与社交媒体的症状和符号提及之间的因果关系推断，以了解它们之间的关系等。我们的发现可以为临床研究提供相关领域，以寻求制定BII的措施并确定其原因。更具体地说，我们的结果可以提供一个患者衍生的BII定义，这对于临床医生使用这种以患者为中心的语言来治疗BII患者是有用的。我们在本研究中应用的方法和信息学策略也将为从社交媒体数据中分析其他新兴但尚未定义明确的疾病提供工作示例。gydF4y2Ba

我们对社交媒体数据的分析确定了诸如破裂、感染、炎症、疼痛和疲劳等提及，这些都是专门针对BII的社交媒体网站上常见的自我报告问题。此外，我们的分析显示，大量的用户评论和帖子也涉及隆胸后的精神和身体健康以及毒性问题。通过让临床医生开发以患者为中心的语言来更好地接近有顾虑的患者，我们的研究结果可以用于进一步对BII的科学研究，以及对出现所描述症状的患者的护理。我们的研究首次利用NLP技术从社交媒体中分析和获得了有关BII的知识，并展示了利用社交媒体信息更好地了解新出现疾病的潜力。gydF4y2Ba

致谢gydF4y2Ba

XN构思了这项研究，获得了研究资金，并监督了VD;PK、MN和CL提供了丰富的医学背景和见解;Vishal Dey和夏宁进行了研究，包括数据管理、方法设计和实施以及分析;Vishal Dey起草了原始手稿;Vishal Dey和夏宁进行了稿件编辑;PK、MN、CL审阅稿件，并提出建设性意见和反馈。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba

多媒体附录1gydF4y2Ba

潜在狄利克雷分配的简要描述。gydF4y2Ba

DOCX文件，53 KBgydF4y2Ba

张建军，张建军，张建军，等。基于网络的公共卫生信息监测系统研究进展。[J]互联网研究与发展，2020;22(3):563 - 568 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Schillinger D, Chittamuru D, Ramírez AS。从“信息流行病”到健康促进:社会媒体在公共卫生中的作用的新框架。中华卫生杂志，2020;11(9):1393-1396。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
李东，乔杜里，张震。基于社交媒体数据挖掘的新型冠状病毒感染抑郁症状时空模式建模。国际环境与公共卫生杂志2020年7月10日;17(14):4988 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
沈超，陈安，罗超，张杰，冯斌，廖伟。基于社交媒体症状和诊断报告的中国大陆COVID-19病例数预测:观察性信息监测研究。[J]医学信息学报，2020,28;22(5):e19421 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Aiello AE, Renson A, Zivich PN。基于社交媒体和互联网的公共卫生疾病监测。公共卫生年度报告2020年4月02日;41:101-118。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
李超，陈丽娟，陈霞，张敏，庞鹏鹏，陈慧。基于网络搜索和社交媒体数据预测新冠肺炎疫情的可能性回顾性分析，中国，2020。欧洲监测2020年3月;25(10):2000199 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Ginsberg J, Mohebbi MH, Patel RS, Brammer L, Smolinski MS, Brilliant L.基于搜索引擎查询数据的流感流行检测。Nature 2009年2月19日;457(7232):1012-1014。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Naslund JA, Grande SW, Aschbrenner KA, Elwyn G.通过社交媒体自然发生的同伴支持:严重精神疾病患者使用YouTube的经历。科学通报，2014;9(10):e110171 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
傅菲，刘建军，高德-布拉维纳克，宋梅。基于文本的健康信息挖掘:基于提取实体的慢性疾病分析。[J]中国医学杂志，2019;21(6):e12876 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Wakamiya S, Morita M, Kano Y, Ohkuma T, Aramaki E.基于twitter的疾病监测的Tweet分类:新的数据、方法和评价。医学与互联网研究，2019年2月20日;21(2):e12783。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Attai DJ, Cowher MS, Al-Hamadani M, Schoger JM, Staley AC, Landercasper J. Twitter社交媒体是乳腺癌患者教育和支持的有效工具:患者报告的调查结果。医学互联网研究，2015;17(7):e188 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Osadchiy V, Mills JN, Eleswarapu SV。理解社交媒体时代患者的焦虑:在线男性不育社区的定性分析和自然语言处理。[J]互联网研究与发展，2020;22(3):888 - 888 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
noble AL, Leas EC, Althouse BM, Dredze M, Longhurst CA, Smith DM等。在社交媒体平台上请求诊断性传播疾病。中华医学杂志，2019,11,31(17):1712-1713。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
访问互联网的女性患者对不孕症信息和支持来源的认知。植物学报，2009,31(1):83-90。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Guntuku SC, Yaden DB, Kern ML, Ungar LH, Eichstaedt JC。在社交媒体上检测抑郁症和精神疾病:一项综合综述。网络行为科学，2017(12);18:43-49。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
王晓明，熊瑞春，王晓明。网络论坛参与者抑郁症状的筛选研究。生物工程学报，2015,31(1):27-36。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Dreisbach C, Koleck TA, Bourne PE, Bakken S.自然语言处理和从电子患者撰写的文本数据中挖掘症状的系统综述。中华医学杂志;2019;25 (5):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
查普曼B，雷蒙德B，鲍威尔D.社交媒体作为对抗食源性疾病工具的潜力。展望公共卫生2014年7月;134(4):225-230。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
张建军，张建军，张建军，张建军，张建军，张建军。卫生部门使用社交媒体识别食源性疾病——芝加哥，伊利诺伊州，2013-2014年。MMWR Morb Mortal weekly Rep 2014 Aug 15;63(32):681-685 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Casas J, Mugellini E，关于K.社交媒体中食源性疾病的早期发现。第二届人类互动与新兴技术国际会议论文集:未来应用(IHIET-AI 2020)。瑞士洛桑:斯普林格出版社;第二届人类互动与新兴技术:未来应用国际会议(IHIET-AI 2020);2020年4月23-25日;瑞士洛桑，第415-420页。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
McGough SF, Brownstein JS, Hawkins JB, Santillana M.结合传统疾病监测与搜索、社交媒体和新闻报道数据预测2016年拉丁美洲寨卡疫情的发病率。中国生物医学工程学报，2017,11(1):50005295 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
赵军，韩华，钟斌，谢伟，陈勇，志明。社交媒体上的健康信息有助于缓解克罗恩病症状，改善患者的临床病程。计算机学报(自然科学版);2011;33(2):357 - 357。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Pandrekar S, Chen X, Gopalkrishna G, Srivastava A, Saltz M, Saltz J，等。基于社交媒体的阿片类药物流行分析使用Reddit。发表于:AMIA年度研讨会;2018年11月3日至7日;旧金山，加利福尼亚州，第867-876页gydF4y2Bahttp://europepmc.org/abstract/MED/30815129gydF4y2Ba
marques_toledo CD, Degener CM, Vinhal L, Coelho G, Meira W, codealdo CT，等。通过网络预测登革热:推特是在国家和城市层面估计和预测登革热的有用工具。中华医学杂志，2017;11(7):e0005729 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Signorini A, Segre AM, Polgreen PM。在甲型H1N1流感大流行期间，使用Twitter跟踪美国疾病活动水平和公众关注程度。PLoS One 2011;6(5):e19467 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Broniatowski DA, Paul MJ, Dredze M.通过Twitter进行国家和地方流感监测:2012-2013年流感流行分析。科学通报，2013;8(12):863 - 867 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Klembczyk JJ, Jalalpour M, Levin S, Washington RE, Pines JM, Rothman RE，等。谷歌流感趋势空间变异性验证对急诊室流感相关访问。医学互联网研究，2016;18(6):e175 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
信息流行病学和信息监测:一套新兴的公共卫生信息学方法框架，用于分析互联网上的搜索、交流和出版行为。医学信息学报，2009;11(1):11 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
李军，徐强，Cuomo R, Purushothaman V, Mackey T.中国社交媒体平台微博疫情早期数据挖掘与内容分析:回顾性观察性信息监测研究。公共卫生监测2020年4月14日;6(2):e18700 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
黄超，徐翔，蔡勇，葛强，曾刚，李翔，等。挖掘中国新冠肺炎患者的特征:社交媒体帖子分析。[J]医学互联网研究，2020;17;22(5):e19087 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
2019年整形外科统计报告。美国整形外科学会(ASPS)。2019.URL:gydF4y2Bahttps://www.plasticsurgery.org/news/plastic-surgery-statistics?sub=2019+Plastic+Surgery+StatisticsgydF4y2Ba[2021-03-29]访问gydF4y2Ba
2018年全国整形外科统计。美国整形外科学会(ASPS)。2018.URL:gydF4y2Bahttps://www.plasticsurgery.org/documents/News/Statistics/2018/plastic-surgery-statistics-report-2018.pdfgydF4y2Ba[2019-07-18]访问gydF4y2Ba
杨建军，杨建军，李建军，等。硅胶隆胸术的临床研究进展。中华医学杂志2016年2月2日;36(3):164-175。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Watad A, Rosenberg V, Tiosano S, Tervaert JW, Yavne Y, Shoenfeld Y，等。硅胶乳房植入物和自身免疫/风湿病的风险:现实世界的分析。国际流行病学杂志，2018;47(6):1846-1854。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Labadie JG, Korta DZ, Barton N, Mesinkovska NA。与乳房植入物相关的皮肤过敏样反应:综述。皮肤外科杂志2018;44(3):323-329。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
张建军，张建军，张建军，张建军，等。隆胸术中软性假体对乳房包膜挛缩的影响因素分析。整形外科杂志，2018;41(4):20-28。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Rohrich RJ, Kaplan J, Dayan E.硅胶植入疾病:科学与神话?中国整形外科杂志;2019;31(1):391 - 391。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
张建军，张建军，张建军，等。隆胸手术后的临床疗效分析。中华外科杂志，2019,26(1):30-36。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Gabriel SE, O'Fallon WM, Kurland LT, Beard CM, Woods JE, Melton LJ。乳房植入后结缔组织疾病和其他疾病的风险。中华医学杂志，1994,16(3):397 - 397。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
张建军，刘建军，刘建军，等。硅胶隆胸术后100例临床分析。中华外科杂志1997;39(1):9-19。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Janowsky EC, Kupper LL, Hulka BS。硅胶乳房植入物与结缔组织疾病风险关系的meta分析。中华医学杂志，2000,16(3):391 - 391。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Rohrich RJ, Kenkel JM, Adams WP, Beran S, Conner WC。硅胶乳房假体植入术患者的前瞻性分析。外科整形外科杂志;2009;31(7):559 - 558。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Nahabedian m, Tsangaris T, Momen B, Manson PN。乳房扩张器和假体重建后的感染并发症。外科整形外科杂志2003;11(2):467-476。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
刘建军，刘建军，刘建军，等。隆胸硅胶假体植入术术后并发症分析。2004年4月;13(2):122-128。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Lee I, Cook NR, Shadick NA, Pereira E, Buring JE。乳房植入物与结缔组织疾病风险的前瞻性队列研究。中华流行病学杂志，2011;40(1):230-238 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Tang SY, Israel JS, Afifi AM乳房植入疾病:症状、患者担忧和社会媒体的力量。外科整形外科，2017,11(5):765-766。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Tang SY, Israel JS, Poore SO, Afifi AM。Facebook事实:乳房重建患者使用社交媒体报告的结果。中国整形外科杂志;2018;41(5):1106-1113。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Magnusson先生，Cooter RD, Rakhorst H, McGuire PA, Adams WP, Deva AK。隆胸病:前进的道路。整形外科2019年3月;143(3S):74-81。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Adidharma W, Latack KR, colhan SM, Morrison SD, Cederna PS。隆胸疾病:社交媒体和互联网是否让患者感到担忧?中国整形外科杂志，2016,31(1):344 - 344。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Keane G, Chi D, Ha A, Myckatyn T.乳房种植体疾病的整体荚膜切除术:一种社会媒体现象?中华外科杂志，2011;41(4):448-459。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
魏思杰，尤尼斯J, Isbester K, Smith A, Wangler B, Sarode AL，等。了解乳房植入前后的疾病:一项患者报告的结果研究。中华外科杂志(英文版);2009;31 (1):82-86 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
李建军，李建军，李建军。乳房植入病:生物膜假说。中国整形外科杂志;2020年4月8日(4):755。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
博客- Cancer.net。URL:gydF4y2Bahttps://www.cancer.net/bloggydF4y2Ba[2021-01-05]访问gydF4y2Ba
博客-乳腺癌之外的生活。URL:gydF4y2Bahttps://www.lbbc.org/bloggydF4y2Ba[2021-01-05]访问gydF4y2Ba
来自乳腺癌、肺癌和其他癌症患者的故事。美国癌症治疗中心。URL:gydF4y2Bahttps://www.cancercenter.com/patient-storiesgydF4y2Ba[2021-01-05]访问gydF4y2Ba
慢性疾病。Mighty Well档案馆。URL:gydF4y2Bahttps://blog.mighty-well.com/category/chronic-illness/gydF4y2Ba[2021-01-05]访问gydF4y2Ba
实用的疼痛管理-症状，原因，治疗，慢性疼痛的药物。补救健康媒体有限责任公司网址:gydF4y2Bahttps://www.practicalpainmanagement.com/patientsgydF4y2Ba[2021-01-05]访问gydF4y2Ba
资源:供患者使用。政治体。URL:gydF4y2Bahttps://www.wearebodypolitic.com/resourcesgydF4y2Ba[2021-01-05]访问gydF4y2Ba
冠状病毒博客团队。媒介。URL:gydF4y2Bahttps://medium.com/@coronavirus_blog_teamgydF4y2Ba[2021-01-05]访问gydF4y2Ba
COVID-19患者的故事。约翰霍普金斯医学院。URL:gydF4y2Bahttps://www.hopkinsmedicine.org/coronavirus/patient-stories/gydF4y2Ba[2021-01-05]访问gydF4y2Ba
关于隆胸病。乳房植入疾病。URL:gydF4y2Bahttps://www.breastimplantillness.com/symptoms/gydF4y2Ba[2019-05-10]访问gydF4y2Ba
乳房植入疾病-症状，外植体，外科医生，排毒。治疗乳房植入疾病。URL:gydF4y2Bahttps://healingbreastimplantillness.comgydF4y2Ba[2019-05-10]访问gydF4y2Ba
Instagram上的#乳房植物#标签。Instagram。URL:gydF4y2Bahttps://www.instagram.com/explore/tags/breastimplantillnessgydF4y2Ba[2019-09-05]访问gydF4y2Ba
Savova GK, Masanz JJ, Ogren PV, Zheng J, Sohn S, Kipper-Schuler KC，等。梅奥临床文本分析和知识提取系统(cTAKES):架构，组件评估和应用。中华医学杂志，2010;17(5):507-513 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
统一医学语言系统(UMLS):整合生物医学术语。核酸学报2004年1月1日;32(数据库问题):267-270 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
李建平，李建平。潜在Dirichlet分配。[J]中文信息学报，2003;3:993-1022。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
李志强，李志强。自然语言工具集。参见:自然语言处理和计算语言学教学的有效工具和方法ACL-02研讨会论文集。美国:计算语言学协会;2002年在ACL-02“自然语言处理和计算语言学教学的有效工具和方法”研讨会上发表;2002年7月7日;宾夕法尼亚州费城，第63-70页。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
潜在狄利克雷分配(LDA)的变分EM实现。Github。2013。URL:gydF4y2Bahttps://github.com/blei-lab/lda-cgydF4y2Ba[2019-07-02]访问gydF4y2Ba
霍曼。概率潜在语义索引。见:第22届国际Acm信息检索研究与发展年会论文集。美国:计算机协会;第22届国际ACM SIGIR信息检索研究与发展会议;1999年8月15日至19日;美国加州伯克利第50-57页。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Blei D, Lafferty J.相关主题模型。见:《神经信息处理系统进展》。美国剑桥:麻省理工学院出版社;2006年发表于:Advances in Neural Information Processing Systems;2006年12月4日至7日;加拿大温哥华。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
张杰，王超，王磊，张建军，张建军。茶叶阅读:人类对主题模型的解读。见:《神经信息处理系统进展》。美国:Curran Associates Inc;2009年发表于:Advances in Neural Information Processing Systems;2009年12月;加拿大温哥华。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba

‎gydF4y2Ba

ASCII码:gydF4y2Ba美国信息交换标准代码gydF4y2Ba

BII:gydF4y2Ba隆胸病gydF4y2Ba

cTAKES:gydF4y2Ba临床文本分析与知识提取系统gydF4y2Ba

崔:gydF4y2Ba概念唯一标识符gydF4y2Ba

LDA:gydF4y2Ba潜在狄利克雷分配gydF4y2Ba

NLP:gydF4y2Ba自然语言处理gydF4y2Ba

uml:gydF4y2Ba统一医学语言系统gydF4y2Ba

XMI:gydF4y2BaXML元数据交换gydF4y2Ba

C·洛维斯编辑;提交19.04.21;A Chen, V Foufi, S Wakamiya, T Timakum的同行评审;对作者05.06.21的评论;收到修订版31.07.21;接受23.09.21;发表29.11.21gydF4y2Ba

©Vishal Dey, Peter Krasniak, Minh Nguyen, Clara Lee, Xia Ning。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com)， 2021年11月29日。gydF4y2Ba

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到https://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。gydF4y2Ba

本文内容如下gydF4y2Bae-collection /主题问题:gydF4y2Ba

通过社交媒体数据分析了解新发疾病的管道:乳房植入疾病的案例研究gydF4y2Ba

通过社交媒体数据分析了解新发疾病的管道:乳房植入疾病的案例研究gydF4y2Ba

原始论文gydF4y2Ba

通讯作者:gydF4y2Ba

摘要gydF4y2Ba

关键字gydF4y2Ba

介绍gydF4y2Ba

背景gydF4y2Ba

目标gydF4y2Ba

方法gydF4y2Ba

数据gydF4y2Ba

管道gydF4y2Ba

概述gydF4y2Ba

数据预处理gydF4y2Ba

提到抽取和概念映射gydF4y2Ba

主题建模gydF4y2Ba

结果gydF4y2Ba

cTAKES注释gydF4y2Ba

LDA的话题gydF4y2Ba

讨论gydF4y2Ba

主要研究结果gydF4y2Ba

优势与局限gydF4y2Ba

结论gydF4y2Ba

致谢gydF4y2Ba

利益冲突gydF4y2Ba

参考文献gydF4y2Ba

缩写gydF4y2Ba