原始论文gydF4y2Ba
摘要gydF4y2Ba
背景:gydF4y2Ba在医学定义、正式记录或系统研究之前,一种新的疾病可能会通过社交媒体引起公众的注意。一个例子是一种被称为乳房植入病(BII)的疾病,尽管在医学文献中对其定义模糊,但它在社交媒体上被广泛讨论。gydF4y2Ba
摘要目的:gydF4y2Ba本研究的目的是构建一个数据分析管道,利用社交媒体数据了解新发疾病,并应用该管道了解BII的关键属性。gydF4y2Ba
方法:gydF4y2Ba我们使用自然语言处理和主题建模构建了一个社交媒体数据分析管道。使用临床文本分析和知识提取系统从社交媒体数据中提取与体征、症状、疾病、障碍和医疗程序相关的提及。我们将提及映射到标准医学概念,然后使用潜在狄利克雷分配将这些映射的概念总结为主题。最后,我们应用这个管道从几个BII专用的社交媒体网站上了解BII。gydF4y2Ba
结果:gydF4y2Ba我们的产品线确定了与BII高度相关的毒性、癌症和心理健康问题。我们的研究还显示,根据社交媒体的讨论,癌症、自身免疫性疾病和心理健康问题正在出现与隆胸相关的担忧。此外,该研究还发现,破裂、感染、疼痛和疲劳是公众自我报告的常见问题,同时也对硅胶植入物的毒性表示担忧。gydF4y2Ba
结论:gydF4y2Ba我们的研究可以启发未来对BII的症状和因素的研究。我们的研究首次利用自然语言处理技术从社交媒体中分析和获得了有关BII的知识,并展示了利用社交媒体信息更好地了解类似新出现疾病的潜力。gydF4y2Ba
doi: 10.2196/29768gydF4y2Ba
关键字gydF4y2Ba
介绍gydF4y2Ba
背景gydF4y2Ba
社交媒体的无所不在导致在社交媒体平台上对新的和正在发展的疾病进行早期描述,然后才可以对其进行系统研究[gydF4y2Ba
-gydF4y2Ba ],尤其是在医疗互联网时代[gydF4y2Ba -gydF4y2Ba ]。社交媒体用户越来越多地转向Twitter (Twitter Inc .)、Facebook (Facebook Inc .)和YouTube (Google LLC)等平台来分享个人经历,包括他们所经历的疾病,或寻求支持和资源,如健康和医疗资源。最近的研究表明,社交媒体在检测精神疾病和抑郁症方面具有潜力[gydF4y2Ba -gydF4y2Ba ]以及及早发现食源性疾病[gydF4y2Ba -gydF4y2Ba ]及其他传染病[gydF4y2Ba ,gydF4y2Ba -gydF4y2Ba ]。此外,几项研究表明,在多次流感爆发期间,社交媒体是传播有关症状、个人健康和公共卫生资源信息的有效工具[gydF4y2Ba -gydF4y2Ba ]。在COVID-19的早期阶段,研究[gydF4y2Ba ,gydF4y2Ba ,gydF4y2Ba ]分析了新浪微博(中国主要的微博网站)上的帖子,以描述中国多个省份的患者症状和公众关注的问题。从对微博(微博公司)帖子的分析来看,Huang等[gydF4y2Ba ]得出结论,大多数受影响的病人是老年人,发烧是最常见的症状。这些研究表明,可以利用公共社交媒体数据更好地了解新出现的疾病,并及时做出反应。gydF4y2Ba本文研究的一种新疾病是乳房植入病(BII)。在过去的20年里,隆胸手术越来越流行。gydF4y2Ba
]。在此期间,美国每年有超过40万女性接受隆胸或乳房切除术后手术[gydF4y2Ba ]。2017年至2018年间,隆胸手术数量增加了4%,同期隆胸手术数量增加了6% [gydF4y2Ba ]。对隆胸植入物安全性的关注亦有所增加[gydF4y2Ba -gydF4y2Ba 并坚持[gydF4y2Ba -gydF4y2Ba ]。然而,尽管隆胸与全身性疾病之间的因果关系尚未得到明确的证明,一种现象被称为gydF4y2Ba隆胸病gydF4y2Ba将全身性症状归因于隆胸的研究已经出现[gydF4y2Ba ]。然而,与其他新的医学疾病不同,医学文献中对BII的报道很少,主要局限于社交媒体[gydF4y2Ba ,gydF4y2Ba -gydF4y2Ba ]。例如,最近的一项分析[gydF4y2Ba 根据2018年2月至2019年2月的Twitter和谷歌趋势数据显示,公众对BII的兴趣越来越大。为了总结定义BII的主要症状、疾病和障碍,一些队列研究[gydF4y2Ba ,gydF4y2Ba 分析了乳房移植手术前后患者报告的结果。这些研究表明,移植手术与患者群体中特定症状的改善之间存在一些潜在的关系。不幸的是,由于缺乏对照组、数据收集偏倚和缺乏随机化,这些研究设计有限,因此这些研究并不是决定性的。由于缺乏有关BII的医学知识,很难确定病情,因此几乎不可能进行严格的流行病学或临床研究。BII只是一种明显缺乏医学知识的疾病过程,但还有许多其他新疾病也是如此。任何有足够的社交媒体数据支持的初始知识对于未来的正式研究都是有意义的,因此,发现这些知识的技术是非常需要的。gydF4y2Ba目标gydF4y2Ba
为了识别和总结一种新疾病的关键属性,在本研究中,我们构建了一个用于BII社交媒体数据分析的数据分析管道。该管道结合了自然语言处理(NLP)和主题建模方法。我们的主要目标是通过构建数据分析管道并将该管道应用于社交媒体数据,获得关于BII的新知识,这是一种在医学文献中尚未系统研究和定义的医学状况。由于关于BII的医学知识和文献尚未建立,相关概念尚未得到很好的定义或接受,使用社交媒体数据来了解新出现的问题可能是一个有意义的起点。我们应用这个管道来更好地了解与BII相关的症状和体征。据我们所知,这项研究是第一个使用社交媒体数据从社交媒体中获得BII知识的研究。这显示了利用社交媒体信息来更好地了解主要在社交媒体上报道的情况的潜力。它还确立了我们的管道的有效性及其在了解其他新疾病方面的潜在应用。在接下来的讨论中,我们描述了我们在BII上下文中的分析管道。然而,我们的产品线并非针对BII,也适用于其他疾病。gydF4y2Ba
方法gydF4y2Ba
数据gydF4y2Ba
我们从选定的社交媒体网站收集和使用数据。之所以选择这些网站,是因为它们致力于BII讨论和信息,并专注于对BII感兴趣的用户群体。通常,专门的社交媒体网站(如论坛和Twitter页面)可用于特定疾病或疾病。例如,一些专用网站[gydF4y2Ba
-gydF4y2Ba ]包含与不同癌症作斗争的病人的故事和经历,有些[gydF4y2Ba ,gydF4y2Ba ]包含用户经历慢性疼痛和疾病的帖子和故事,以及其他[gydF4y2Ba -gydF4y2Ba ]包含COVID-19幸存者的故事和经历。我们研究中使用的社交媒体来源如下:gydF4y2Ba- BII [gydF4y2Ba ]:这是一个专门的公共网站,有关于bii相关主题的文章,并提供与种植体和外植体手术等相关的资源。该网站还允许个人发布他们对隆胸和相关健康问题的经历和担忧。我们从网站(截至2019年5月10日)提取了单个帖子,并将结果数据集称为BIIweb。gydF4y2Ba
- 治疗BII [gydF4y2Ba ]:该网站包含关于植入后疾病、植入后愈合、乳房植入物安全性等方面的信息。这个网站的讨论板上有很多帖子和评论,关于乳房植入者或接受过乳房移植的人所经历的症状、体征等。从本网站讨论区提取的数据集(截至2019年5月10日)称为HealingBII。gydF4y2Ba
- 关于BII的Instagram帖子[gydF4y2Ba ]:这个网站包含了一组公开可用的Instagram帖子gydF4y2BabreastimplantillnessgydF4y2Ba作为一个标签。我们提取了时间戳在2012年1月10日至2019年9月4日之间的每个Instagram帖子的相关文本。从该站点提取的数据集称为IG-BII。gydF4y2Ba
3个网站的所有评论和帖子都被纳入相应的数据集。gydF4y2Ba
展示了收集到的社交媒体数据的摘要。BIIweb数据集只有187篇文章(平均每篇文章有129个单词,SD为124),但这些文章的平均长度比其他2个数据集的文章要大(文章的平均长度大于字数)。HealingBII是第二大数据集,有1920篇文章,每篇平均85个单词gydF4y2BaavggydF4y2Ba) (sd 107)。IG-BII是最大的数据集,有28,987篇文章,平均每篇文章123个单词(SD 113)。gydF4y2Ba数据集gydF4y2Ba | 的帖子gydF4y2Ba一个gydF4y2Ba(n=31,094), n (%)gydF4y2Ba | lgydF4y2Ba马克斯gydF4y2BabgydF4y2Ba | lgydF4y2Ba最小值gydF4y2BacgydF4y2Ba | lgydF4y2BaavggydF4y2BadgydF4y2Ba,均值(SD)gydF4y2Ba | 单词gydF4y2BaegydF4y2Ba, n (%)gydF4y2Ba |
BIIwebgydF4y2Ba | 187 (0.6)gydF4y2Ba | 669gydF4y2Ba | 3.gydF4y2Ba | 129 (124)gydF4y2Ba | 24191 (0.64)gydF4y2Ba |
HealingBIIgydF4y2Ba | 1920 (6.17)gydF4y2Ba | 1330gydF4y2Ba | 1gydF4y2Ba | 85 (107)gydF4y2Ba | 165090 (4.38)gydF4y2Ba |
IG-BIIgydF4y2Ba | 28987 (93.22)gydF4y2Ba | 515gydF4y2Ba | 1gydF4y2Ba | 123 (113)gydF4y2Ba | 3581081 (94.98)gydF4y2Ba |
一个gydF4y2BaPosts:各个数据集中的帖子和评论的数量。gydF4y2Ba
bgydF4y2BalgydF4y2Ba马克斯gydF4y2Ba:一篇文章的最小字数。gydF4y2Ba
cgydF4y2BalgydF4y2Ba最小值gydF4y2Ba:一篇文章的最大字数。gydF4y2Ba
dgydF4y2BalgydF4y2BaavggydF4y2Ba:帖子的平均长度,以单词为单位。gydF4y2Ba
egydF4y2Ba字数:各个数据集中的字数总和。gydF4y2Ba
管道gydF4y2Ba
概述gydF4y2Ba
显示管道的概览。我们通过以下3个步骤从数据集中提取主要与症状、疾病和医疗程序相关的主要感兴趣主题。后面将详细讨论每个步骤。第一步涉及数据预处理。我们删除了所有的停止词、数字字符、超链接、标签等,并将剩余的字符转换为小写字母。第二步是提及提取和概念映射。我们使用临床文本分析和知识提取系统(cTAKES)提取与体征、症状、疾病、失调和医疗程序相关的提及[gydF4y2Ba ]。提取的提及进一步映射到统一医学语言系统(UMLS)中由概念唯一标识符(gui)表示的标准医学概念[gydF4y2Ba 本体。第三步涉及主题建模。我们使用潜在狄利克雷分配(latent Dirichlet allocation, LDA)对映射到主题的概念进行了总结[gydF4y2Ba ]。LDA是一种用于主题建模的概率生成模型。它将每个文档表示为潜在主题的混合物,其中每个主题都被建模为单词的分布。该建模包括3个阶段:(1)提及替换,(2)使用LDA进行主题建模,(3)分析和评估。在提及替换中,我们用其映射的gui替换帖子中每个提取的提及,并丢弃帖子中的所有其他单词。我们已经在本节中详细讨论了这一步骤gydF4y2Ba主题建模gydF4y2Ba.然后,在使用LDA进行主题建模时,给定映射的gui语料库,LDA生成文档-主题和主题- cui的概率分布。我们已经在本节中详细讨论了这一步骤gydF4y2Ba主题建模gydF4y2Ba.最后,在我们的分析和评估过程中,我们进一步分析了这些分布,以使用最具代表性的提及得出主题列表,并总结了每个数据集提取的提及。我们已经在本节中详细讨论了这一步骤gydF4y2Ba结果:LDA主题gydF4y2Ba.gydF4y2Ba
![](https://asset.jmir.pub/assets/6551dbdb88fd2d0c62f7d0d4ea99d784.png)
数据预处理gydF4y2Ba
我们使用了自然语言工具箱标记器[gydF4y2Ba
]来标记每个数据集的原始文本。在获得的标记中,我们使用Natural Language Toolkit英语停止词列表删除了停止词(最频繁出现的功能词,如连词、介词、限定词等)。由于停顿词在BII中很少或根本没有关于我们感兴趣的主题的信息,因此可以安全地删除它们,就像在NLP中通常所做的那样。我们还使用正则表达式匹配删除了所有数字字符、表情符号、非美国信息交换标准代码(ASCII)字符、超链接、标签和Instagram句柄,并将所有剩余的令牌转换为小写,以统一不同的大小写,以便后续处理。gydF4y2Ba提到抽取和概念映射gydF4y2Ba
提述提取是指提取表达医学概念的单词或短语。我们使用cTAKES工具提取提及。cTAKES工具是一个开源的NLP工具,用于从非结构化临床文本中提取临床信息。从帖子中提取提及(即传达医学概念的单词或短语),并将这些提及映射为标准医学概念。在此过程中,它还将每个提取的提及分类为5个cTAKES类别之一:体征、症状、疾病、紊乱、药物、程序和解剖;也就是说,ctake在提取提及的同时,也会自动将提及分类为5类之一。例如,在“这些年来,我的耳鸣变得越来越严重,几乎到了让人虚弱的程度”这句话中gydF4y2Ba耳鸣gydF4y2Ba作为一种提及体征和症状的范畴。下面,我们将详细讨论如何配置ctake。gydF4y2Ba
我们使用cTAKES中的快速字典查找注释器从处理过的数据中提取提及。该注释器识别和提取文本中的提及,并将其规范化为UMLS标准医学本体中的gui。将提取的提及归一化到gui中称为概念映射。UMLS本体中的每个CUI唯一地标识一个医学概念。因此,我们使用ctake将提及映射到的gui的标准医学概念来表示提取的提及。我们将注释器配置为使用精确的字符串匹配并使用all-term-persistence属性。因此,注释器可以保留所有术语,而不考虑每个术语的语义属性。例如,对于短语gydF4y2Ba背部疼痛gydF4y2Ba,注释者将注释通用术语gydF4y2Ba疼痛gydF4y2Ba以及准确的术语gydF4y2Ba背部疼痛gydF4y2Ba.我们选择使用全术语持久性属性来保留有关精确和通用医学概念的最大信息。最后,注释器将生成的注释存储在XML元数据交换(XML Metadata Interchange, XML)文件中。gydF4y2Ba
为了从xml文件中获得人类可读格式的注释,我们执行了以下步骤(gydF4y2Ba
).我们使用自定义解释器来处理ctake生成的xml文件,并从ctake获取提及和gui之间的映射。我们首先搜索的是gydF4y2BaUmlsConceptgydF4y2BaXML标识符在XML文件中,其中每个gydF4y2BaUmlsConceptgydF4y2BaXML标识符通常分组在gydF4y2BaFSArraygydF4y2Ba,每个gydF4y2BaFSArraygydF4y2Ba是与单个本体概念和范畴概念相关联的。每个概念在ctake的5个类别中被划分为一个类别:体征、症状、疾病、紊乱、药物、程序和解剖。每个本体概念都进一步与UMLS CUI和uml相关联gydF4y2BaontologyConceptArrgydF4y2Ba标识符。必须注意的是,一个提及可以映射到多个gui。例如,提及gydF4y2Ba过敏反应gydF4y2Ba分为体征和症状,但映射到两个不同的gui:gydF4y2BaC1527304gydF4y2Ba和gydF4y2BaC0020517gydF4y2Ba.然后,我们提取了描述这些类别的本体概念:疾病、失调、体征、症状和医疗程序。最后,我们使用gydF4y2Ba开始gydF4y2Ba和gydF4y2Ba结束gydF4y2Ba与每个相关的标记gydF4y2BaontologyConceptArrgydF4y2Ba标识符,以获取输入帖子中已注释提及的位置。在这项工作中,我们只对前3类(即体征、症状、疾病、障碍和程序)感兴趣,以了解与bi相关的问题。因此,我们只使用这三种类型中的一种。gydF4y2Ba![](https://asset.jmir.pub/assets/b6dc0d8d67c970e47b6b2a637886bc48.png)
主题建模gydF4y2Ba
为了进行主题建模,我们对帖子进行如下处理:我们将帖子中的每个提及替换为其映射的gui,并丢弃帖子中所有被ctake视为非医学概念或不在3个感兴趣类别中的其他单词。如果一个提及被映射到多个gui,我们就用多个gui替换它。如果多个提及被映射到相同的CUI,我们将用CUI替换所有这样的提及。通过这种方式,每个帖子都被表示为一个cui包,而不是一个提及的集合,作为主题建模的输入,我们的词汇表由gui组成。在主题建模上,我们解释了主题- cui分布以派生主题。gydF4y2Ba
我们使用LDA [gydF4y2Ba
]来了解每个帖子的话题分布和每个话题的CUI分布。LDA是一种生成概率模型,用于对文档语料库中的主题进行建模。LDA将语料库中的每个文档建模为潜在主题的混合物,其中每个主题被建模为所有文档中单词的分布。LDA通过最大化观察语料库的可能性来派生最佳分布,遵循透视图分布。中提供了LDA的简要描述gydF4y2Ba [gydF4y2Ba ]。在我们的实验中,如上所述生成的一个gui包被用作LDA中的文档,并且gui是文档中的单词。我们使用了lda-c软件[gydF4y2Ba ],这是一种非常有效的LDA方法的实现,可以进行主题建模。gydF4y2Ba当LDA用于一般文档(如新闻、科学文献)的主题建模时,将使用文档中的单词及其频率。然而,在我们的分析中,我们旨在从社交媒体文本中了解与BII相关的医学概念。不同的词可能表示相同的医学概念。例如,关节痛、关节痛、关节痛和关节痛都表示关节痛,并与单个CUI所代表的单个医学概念相关联。因此,在我们的LDA分析中,我们没有使用文字,而是使用了由gui表示的医学概念。由于表示相同医学概念的多个单词可以映射到同一个CUI上,因此使用gui还可以聚合和强化来自多个单词的信息,而使用单词可能是稀疏的,因此不容易从中学习主题。gydF4y2Ba
结果gydF4y2Ba
cTAKES注释gydF4y2Ba
给出了注释提及及其由ctake映射的gui的汇总统计信息。在BIIweb中,cTAKES提取了2186个提及,并将它们映射到475个唯一的gui。在HealingBII中,cTAKES提取了11,080个提及,并将它们映射到1177个唯一的gui。在最大的数据集IG-BII中,cTAKES提取了5530个唯一提及,并将它们映射到2871个唯一gui。请注意,相同的提及可以映射到多个gui,并且可以具有多个类别(每个CUI只有一个类别)。例如,提及gydF4y2Ba闪光gydF4y2Ba映射到2个不同的gui,然后是2个不同的类别:疾病和医疗程序。gydF4y2Ba 给出了提取提及的每个类别的统计数据。对于每个数据集,大多数提取的提及被ctake分类为体征和症状。gydF4y2Ba
数据集gydF4y2Ba | cwordsgydF4y2Ba一个gydF4y2Ba | annotsgydF4y2BabgydF4y2Ba | 地图gydF4y2BacgydF4y2Ba | 米gydF4y2BadgydF4y2Ba | CgydF4y2BaegydF4y2Ba | M / CgydF4y2BafgydF4y2Ba | C / MgydF4y2BaggydF4y2Ba | 年代gydF4y2BahgydF4y2Ba | DgydF4y2Ba我gydF4y2Ba | PgydF4y2BajgydF4y2Ba |
BIIwebgydF4y2Ba | 24034年gydF4y2Ba | 2186gydF4y2Ba | 661gydF4y2Ba | 640gydF4y2Ba | 475gydF4y2Ba | 1.39gydF4y2Ba | 1.03gydF4y2Ba | 385gydF4y2Ba | 149gydF4y2Ba | 106gydF4y2Ba |
HealingBIIgydF4y2Ba | 163352年gydF4y2Ba | 11080年gydF4y2Ba | 1740gydF4y2Ba | 1685gydF4y2Ba | 1177gydF4y2Ba | 1.48gydF4y2Ba | 1.03gydF4y2Ba | 891gydF4y2Ba | 503gydF4y2Ba | 292gydF4y2Ba |
IG-BIIgydF4y2Ba | 3116966年gydF4y2Ba | 185339年gydF4y2Ba | 5694gydF4y2Ba | 5530gydF4y2Ba | 2871gydF4y2Ba | 1.98gydF4y2Ba | 1.03gydF4y2Ba | 3049gydF4y2Ba | 1549gydF4y2Ba | 932gydF4y2Ba |
一个gydF4y2Bacwords:临床文本分析和知识提取系统识别的单词总数。gydF4y2Ba
bgydF4y2Ba注释:属于3种语义类型(即体征、症状、疾病、失调和医疗程序)的提取提及的总数。gydF4y2Ba
cgydF4y2Ba映射:唯一提及概念的唯一标识符映射的数量。gydF4y2Ba
dgydF4y2BaM:唯一提取的提及数。gydF4y2Ba
egydF4y2BaC:唯一映射概念唯一标识符的个数。gydF4y2Ba
fgydF4y2BaM/C:映射到给定概念唯一标识符的提取提及的平均数量。gydF4y2Ba
ggydF4y2BaC/M:映射到提取的提及的概念唯一标识符的平均数量。gydF4y2Ba
hgydF4y2BaS:映射到体征和症状类别的唯一提取提及数。gydF4y2Ba
我gydF4y2BaD:映射到疾病和失调类别的唯一提取提及数。gydF4y2Ba
jgydF4y2BaP:映射到医疗程序类别的唯一提取提及的数量。gydF4y2Ba
为了确定cTAKES是否能够充分提取相关的提及,我们执行了手动注释,并比较了两个提取的提及列表:一个来自使用cTAKES,另一个来自使用手动注释。我们从3个数据集中随机抽取50篇文章,并对这些文章进行手动注释。通过手动标注,我们提取了表达社交媒体用户涉及bi相关症状、疾病和医疗程序的担忧和经历的提及(单词或短语)。对于50个帖子的随机样本(lgydF4y2BaavggydF4y2Ba=134.18),我们通过人工标注获得575次提及,通过ctake标注获得637次提及;共有479次被提及。每次提及都与一个帖子标识符和一个字符偏移量相关联。如果一个提及出现在两个列表中,并且具有相同的post标识符和字符偏移量,则认为它属于两个列表。我们发现83.3%(479/575)的人工标注提及被ctake覆盖。这种高覆盖率表明ctake可以捕获大多数相关的医学概念。相比之下,ctake注释的提及中有75.2%(479/637)被人工注释覆盖。这进一步表明,大多数注释中提到的ctake都可以通过手动注释来确认。同样,对于50个帖子的随机样本(lgydF4y2BaavggydF4y2Ba=80.02), 69.5%(194/279)的人工标注提及被ctake覆盖;70.3%(194/276)的ctake注释被人工注释确认。对于50个帖子的随机样本(lgydF4y2BaavggydF4y2Ba=121.00),对应值分别为75.2%(182/242)和64.3%(182/283)。根据我们研究中使用的多个数据集的人工标注和ctake的结果高度重叠,我们有理由认为ctake是通过社交媒体数据进行BII研究的人工标注的一个不错的替代品。gydF4y2Ba
LDA的话题gydF4y2Ba
为了确定最佳主题模型,我们使用网格搜索来确定Dirichlet先验α∈{0.01,0.05,0.1,0.5,1,1.5,2,5,10,15,20,25}和主题个数K∈{3,4,5,10,15,20}的最佳参数值。为了评估主题模型,我们分析了低困惑分数对应的α值和K值的每种组合的每个LDA主题建模结果[gydF4y2Ba
,gydF4y2Ba ,gydF4y2Ba ]。gydF4y2Ba对于每个主题建模结果,我们分析了文档-主题和主题- cui的概率分布,以得出主题及其各自的前10个代表性提及。给定主题的前10个代表性提及是最频繁的提及,对应于前10个gui,属于该主题的概率最高。多个提及可以映射到给定的CUI (gydF4y2Ba
).我们只呈现最频繁的提及,因为映射到同一CUI的所有提及都具有相似的语义。我们进一步评估了主题建模的质量,基于衍生主题总结了最具代表性的提及。我们对每个α和K组合的LDA主题建模结果进行了分析,并选择了衍生主题不同且最能总结最有代表性提及的主题。最后,我们使用(1)BIIweb的K=4和α=10, (2) HealingBII的K=5和α=10,以及(3)IG-BII的K=5和α=1.5来确定不同且有意义的主题。我们观察到,当K值较高时,最具代表性的提及在主题之间是相似的。因此,衍生的主题不明确,难以解释。gydF4y2Ba-gydF4y2Ba 列出提及次数最多的10个代表、提及次数对应的gui频率(以%为单位),以及提及次数所表示主题的解释(例如,常见体征和症状)。注意,ui的频率是在所有帖子中,而不仅仅是在那些属于某个主题的概率最高的帖子中。我们给出这些频率是因为每个帖子都有属于某个主题的一定概率,因此所有帖子之间的频率可以更好地表示所有帖子的主题信息。这些表格还提供了高概率属于相应主题的帖子示例。在示例中,高概率属于相应主题的提及被斜体化。请注意,我们在LDA中使用gui来派生主题和单词分布(如方法-主题建模一节中所讨论的),但是我们展示了映射到这些表中各自的gui(没有语义的标识符)的最频繁的提及(具有明确的语义)。这些表中的提及是根据它们对应的gui属于各自主题的概率进行排序的。请注意,这些概率并没有出现在表格中(它们不是表格中出现的频率)。因此,每个主题用其最具代表性的提及来代表,从而总结这些提及。例如,如果有大量提及与疼痛相关的内容,如颈部疼痛、胸痛和头痛,我们就会将一个主题解释为疼痛和其他迹象。 Please note that the topics have not been sorted, and the first columns in Tables 3 to 5 are nominal identifiers. Below, we have discussed the topics derived from LDA for BIIweb and HealingBII data sets from the original posts. Note that 2 topics can still share the same representative mention with different probabilities in the LDA.
主题gydF4y2Ba | 提及次数最多的10次gydF4y2Ba | 解释gydF4y2Ba |
1gydF4y2Ba |
|
常见的体征和症状gydF4y2Ba |
2gydF4y2Ba |
|
疾病或失调gydF4y2Ba |
3.gydF4y2Ba |
|
毒性gydF4y2Ba |
4gydF4y2Ba |
|
疼痛和压力相关的疾病gydF4y2Ba |
一个gydF4y2Ba示例中属于相应主题的高概率的提及是斜体的。gydF4y2Ba
主题gydF4y2Ba | 提及次数最多的10次gydF4y2Ba | 解释gydF4y2Ba |
1gydF4y2Ba |
|
手术和程序gydF4y2Ba |
2gydF4y2Ba |
|
疼痛和其他症状gydF4y2Ba |
3.gydF4y2Ba |
|
癌症和其他疾病gydF4y2Ba |
4gydF4y2Ba |
|
毒性gydF4y2Ba |
5gydF4y2Ba |
|
心理健康gydF4y2Ba |
一个gydF4y2Ba斜体文本表示示例中提及的极有可能属于相应主题的内容。gydF4y2Ba
主题gydF4y2Ba | 提及次数最多的10次gydF4y2Ba | 解释gydF4y2Ba |
1gydF4y2Ba |
|
身体健康gydF4y2Ba |
2gydF4y2Ba |
|
癌症和医疗程序gydF4y2Ba |
3.gydF4y2Ba |
|
心理健康gydF4y2Ba |
4gydF4y2Ba |
|
毒性gydF4y2Ba |
5gydF4y2Ba |
|
常见的疾病gydF4y2Ba |
一个gydF4y2Ba斜体文本表示示例中提及的极有可能属于相应主题的内容。gydF4y2Ba
表示BIIweb数据集中的主题。虽然BIIweb是最小的数据集(gydF4y2Ba ),我们仍然能够确定最具代表性的4个不同主题,即疲劳、感染、毒性和焦虑。gydF4y2Ba 给出了HealingBII数据集中的主题,该数据集与BIIweb中的主题共享了一些常见主题和代表性提及。例如,疼痛、癌症和毒性在这两个数据集中是常见的。然而,HealingBII的一个独特的焦点话题是手术和程序,人们(主要是患者)在他们之间讨论程序并分享他们的相关经验。《康复ii》的另一个独特主题是心理健康。gydF4y2Ba
除了身体症状外,个人还报告了严重的情绪和精神困难,如抑郁,并在社交媒体上表达了严重的症状。gydF4y2Ba
给出了数据集IG-BII数据集中的主题。IG-BII是最大的数据集(gydF4y2Ba ),职位也明显多于其他两个。我们观察到,癌症、心理健康和毒性在这个大型数据集中成为重要的主题,与HealingBII中的数据一致。在IG-BII中,人们还讨论了他们从与BII相关的问题或事件中恢复的过程。我们从这3组数据中确定了经常提到的破裂、疼痛和疲劳。我们还发现了癌症、狼疮和自身免疫性疾病。请注意gydF4y2Ba 包含4个主题的BIIweb,但是gydF4y2Ba 和gydF4y2Ba 包含HealingBII和IG-BII的5个主题。这是因为主题的数量取决于主题的不同程度,而不是预先指定的主题数量。gydF4y2Ba给出了最具代表性的10个被提及次数、被提及次数对应的gui频率(以%为单位),以及在统一数据集上对主题的解释,该数据集结合了BIIweb、HealingBII和IG-BII这3个数据集。我们将3个数据集中的所有帖子合并到一个语料库中,得到一个统一的数据集。为了执行主题建模,我们以与处理单个数据集中的帖子相同的方式处理统一数据集中的帖子(在方法-主题建模一节中讨论)。在主题建模中,我们使用K=5和α=1.5确定了5个不同的主题。我们观察到,在统一的数据集中,身体健康、癌症、精神健康、毒性和常见疾病成为重要的主题,与IG-BII的数据一致。这是因为IG-BII是三者中最大的数据集,占统一数据集的93.22%(28,987/31,094)。我们还从个人和统一的数据集中确定了常见的问题,如疼痛、过敏、抑郁、体重增加、癌症、炎症和毒性问题。这意味着上述因素经常与BII相关。gydF4y2Ba
主题gydF4y2Ba | 提及次数最多的10次gydF4y2Ba | 解释gydF4y2Ba |
1gydF4y2Ba |
|
身体健康gydF4y2Ba |
2gydF4y2Ba |
|
癌症和医疗程序gydF4y2Ba |
3.gydF4y2Ba |
|
心理健康gydF4y2Ba |
4gydF4y2Ba |
|
常见的体征、症状和毒性gydF4y2Ba |
5gydF4y2Ba |
|
常见的疾病gydF4y2Ba |
一个gydF4y2Ba斜体文本表示示例中提及的极有可能属于相应主题的内容。gydF4y2Ba
表示每个主题的帖子百分比,其中一个帖子gydF4y2BadgydF4y2Ba被认为属于主题z,如果在所有主题中gydF4y2BadgydF4y2Baz的概率最高。尽管分布在数据集之间并不完全一致,但毒性在所有数据集中仍然是一个值得注意的主题。这表明这些都是与BII显著相关的常见问题。此外,疼痛、癌症、心理健康和其他疾病也与隆胸有关。gydF4y2Ba
数据集和主题gydF4y2Ba | 职位,n (%)gydF4y2Ba | |
BIIwebgydF4y2Ba | ||
常见的体征和症状gydF4y2Ba | 62 (33.2)gydF4y2Ba | |
疾病或失调gydF4y2Ba | 28日(15)gydF4y2Ba | |
毒性gydF4y2Ba | 50 (26.7)gydF4y2Ba | |
疼痛和压力相关的疾病gydF4y2Ba | 47 (25.1)gydF4y2Ba | |
HealingBIIgydF4y2Ba | ||
手术和程序gydF4y2Ba | 713 (37.1)gydF4y2Ba | |
疼痛和其他症状gydF4y2Ba | 221 (11.5)gydF4y2Ba | |
癌症和其他疾病gydF4y2Ba | 221 (11.5)gydF4y2Ba | |
毒性gydF4y2Ba | 505 (26.3)gydF4y2Ba | |
心理健康gydF4y2Ba | 260 (13.6)gydF4y2Ba | |
IG-BIIgydF4y2Ba | ||
身体健康gydF4y2Ba | 11299 (39)gydF4y2Ba | |
癌症和医疗程序gydF4y2Ba | 3890 (13.4)gydF4y2Ba | |
心理健康gydF4y2Ba | 4879 (16.8)gydF4y2Ba | |
毒性gydF4y2Ba | 5415 (18.7)gydF4y2Ba | |
常见的疾病gydF4y2Ba | 3504 (12.1)gydF4y2Ba | |
统一gydF4y2Ba | ||
身体健康gydF4y2Ba | 4760 (15.3)gydF4y2Ba | |
癌症和医疗程序gydF4y2Ba | 10637 (34.2)gydF4y2Ba | |
心理健康gydF4y2Ba | 7954 (25.6)gydF4y2Ba | |
常见的体征、症状和毒性gydF4y2Ba | 4030 (13)gydF4y2Ba | |
常见的疾病gydF4y2Ba | 3713 (11.9)gydF4y2Ba |
讨论gydF4y2Ba
主要研究结果gydF4y2Ba
为了了解与BII相关的体征、症状和疾病或障碍(主要在社交媒体上而不是在医疗报告中报道),我们收集了社交媒体帖子,并使用NLP和主题建模对其进行了分析。我们使用ctake提取与体征、症状、疾病、失调和医疗程序相关的提及,将它们映射到标准医学概念,并使用LDA将映射的概念总结为主题。我们发现,诸如破裂、感染、炎症、疼痛和疲劳是常见的自我报告问题。我们还发现,与精神健康相关的问题,如压力、焦虑和抑郁,以及癌症和自身免疫性疾病等疾病,都是常见的问题。ctake也能够提取药物和解剖信息,但鉴于我们的研究目的不是研究与BII相关的药物或解剖结构,因此它们没有用于我们的LDA分析。gydF4y2Ba
在我们的方法中,我们依赖于ctake和丰富的UMLS字典来提取所有相关的提及,包括它们的词法变体(同义词、缩写、释义)。为了确定ctake是否能够充分提取相关提及,我们执行了手动注释来提取所有相关提及,并将它们与从ctake中提取的提及进行比较。我们发现ctake可以充分捕获相关的医学概念,并且可以与手动注释相媲美。值得注意的是,我们没有评估提及提取模块在每个数据集的所有帖子上的性能,当每个提及都有基本事实标签时,通常使用精度和召回率指标来执行。然而,为了获得这样的标签,需要基于BII的领域知识进行仔细的手工注释。不幸的是,这些关于与BII相关或由BII引起的并发症、症状和其他问题的领域知识并不完全可用。我们在这项研究中的目标是从社交媒体数据中提供有用的信息,以补充我们目前的知识。因此,在这项初步研究中,我们使用了所有带注释的提及,假设cTAKES支持高质量的注释。gydF4y2Ba
优势与局限gydF4y2Ba
我们承认,cTAKES可能无法从我们的社交媒体数据集中提取所有相关提及。这是因为cTAKES最初是为从临床记录中提取医疗实体而设计的,与社交媒体数据相比,临床记录的措辞和写作风格非常不同。由于社交媒体数据包括非正式短语、简短的模糊文本、表情符号和与单个概念对应的广泛的词汇变体,尽管我们观察到ctake的合理输出,但ctake可能无法完美地处理社交媒体数据。我们还观察到,ctake经常将一次提及与属于同一类别的多个gui关联起来。我们认为这是因为在UMLS元词典中存在多个给定提及的映射。无论如何,提取的提及以及提及到由ctake生成的UMLS gui的映射都用于主题建模,而无需任何手动验证或评估。将来,我们将制定详细的指导方针,在将提取的提及用于主题建模之前进一步评估它们。gydF4y2Ba
我们的研究有一些局限性。首先,LDA是一种无监督学习技术,其中假设主题的数量(K)是先验已知的。然而,对于给定的数据集,很难准确地估计K。在我们的研究中,我们使用网格搜索来获得不同的K值。即使没有完整的领域知识,评估每个K值的LDA结果仍然是非平凡的。在我们的研究中,我们根据α值和K值来选择主题。我们没有使用perplexity [gydF4y2Ba
,gydF4y2Ba ,gydF4y2Ba ],一个在主题建模中广泛使用的度量,来选择主题,因为正如文献所研究的那样(例如Chang等[gydF4y2Ba ]),困惑往往与话题的可解释性不太相关;在我们的例子中,最低的困惑并不总是能够产生直观或有意义的主题。在未来,我们将开发更严格的方法来选择主题数量和评估主题建模结果。在本研究中,我们没有对帖子进行情绪分析,以了解帖子中表达的积极或消极意见。我们计划在主题建模之前包含此过程,以便为主题建模生成更清晰的数据集。gydF4y2Ba值得注意的是,社交媒体数据可能质量不一(例如,拼写错误、误解和有偏见的观点),特别是与医学文献数据相比。任何人都可以在社交媒体上发帖,因此衍生内容可能来自可能患有其他种植体特异性问题的个人,例如包膜挛缩或种植体感染。因此,从社交媒体数据中理解与药物、疾病或医疗程序相关的疾病、失调、症状、体征等,总是会面临混杂因素或错误的风险。然而,鉴于关于BII的医学知识和文献还没有很好地建立起来,相关概念也没有很好地定义或被广泛接受,使用社交媒体数据来了解新出现的问题可能是一个有意义的起点。不过,任何来自社交媒体数据的发现都需要基于医学和生物学知识、实验、临床实践等进行严格的评估和验证。此外,我们只分析了3个,虽然最相关和最多产的网站致力于BII的讨论。对更大规模的社交媒体数据进行更全面的分析,将有助于更好地了解更大、更多样化人群中的BII。社交媒体数据的情绪分析可能是另一种有价值的分析,可以更深入地了解用户或患者的健康体验及其情绪或感受。我们将在未来的研究中考虑情感分析,当我们更好地理解BII,我们可以准确地注释社交媒体数据。gydF4y2Ba
结论gydF4y2Ba
本研究对今后的方法学和临床研究具有重要意义。未来NLP的方法学研究可以包括BII与社交媒体的症状和符号提及之间的因果关系推断,以了解它们之间的关系等。我们的发现可以为临床研究提供相关领域,以寻求制定BII的措施并确定其原因。更具体地说,我们的结果可以提供一个患者衍生的BII定义,这对于临床医生使用这种以患者为中心的语言来治疗BII患者是有用的。我们在本研究中应用的方法和信息学策略也将为从社交媒体数据中分析其他新兴但尚未定义明确的疾病提供工作示例。gydF4y2Ba
我们对社交媒体数据的分析确定了诸如破裂、感染、炎症、疼痛和疲劳等提及,这些都是专门针对BII的社交媒体网站上常见的自我报告问题。此外,我们的分析显示,大量的用户评论和帖子也涉及隆胸后的精神和身体健康以及毒性问题。通过让临床医生开发以患者为中心的语言来更好地接近有顾虑的患者,我们的研究结果可以用于进一步对BII的科学研究,以及对出现所描述症状的患者的护理。我们的研究首次利用NLP技术从社交媒体中分析和获得了有关BII的知识,并展示了利用社交媒体信息更好地了解新出现疾病的潜力。gydF4y2Ba
致谢gydF4y2Ba
XN构思了这项研究,获得了研究资金,并监督了VD;PK、MN和CL提供了丰富的医学背景和见解;Vishal Dey和夏宁进行了研究,包括数据管理、方法设计和实施以及分析;Vishal Dey起草了原始手稿;Vishal Dey和夏宁进行了稿件编辑;PK、MN、CL审阅稿件,并提出建设性意见和反馈。gydF4y2Ba
利益冲突gydF4y2Ba
没有宣布。gydF4y2Ba
gydF4y2Ba潜在狄利克雷分配的简要描述。gydF4y2Ba
DOCX文件,53 KBgydF4y2Ba参考文献gydF4y2Ba
- 张建军,张建军,张建军,等。基于网络的公共卫生信息监测系统研究进展。[J]互联网研究与发展,2020;22(3):563 - 568 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Schillinger D, Chittamuru D, Ramírez AS。从“信息流行病”到健康促进:社会媒体在公共卫生中的作用的新框架。中华卫生杂志,2020;11(9):1393-1396。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 李东,乔杜里,张震。基于社交媒体数据挖掘的新型冠状病毒感染抑郁症状时空模式建模。国际环境与公共卫生杂志2020年7月10日;17(14):4988 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 沈超,陈安,罗超,张杰,冯斌,廖伟。基于社交媒体症状和诊断报告的中国大陆COVID-19病例数预测:观察性信息监测研究。[J]医学信息学报,2020,28;22(5):e19421 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Aiello AE, Renson A, Zivich PN。基于社交媒体和互联网的公共卫生疾病监测。公共卫生年度报告2020年4月02日;41:101-118。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 李超,陈丽娟,陈霞,张敏,庞鹏鹏,陈慧。基于网络搜索和社交媒体数据预测新冠肺炎疫情的可能性回顾性分析,中国,2020。欧洲监测2020年3月;25(10):2000199 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Ginsberg J, Mohebbi MH, Patel RS, Brammer L, Smolinski MS, Brilliant L.基于搜索引擎查询数据的流感流行检测。Nature 2009年2月19日;457(7232):1012-1014。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Naslund JA, Grande SW, Aschbrenner KA, Elwyn G.通过社交媒体自然发生的同伴支持:严重精神疾病患者使用YouTube的经历。科学通报,2014;9(10):e110171 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 傅菲,刘建军,高德-布拉维纳克,宋梅。基于文本的健康信息挖掘:基于提取实体的慢性疾病分析。[J]中国医学杂志,2019;21(6):e12876 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Wakamiya S, Morita M, Kano Y, Ohkuma T, Aramaki E.基于twitter的疾病监测的Tweet分类:新的数据、方法和评价。医学与互联网研究,2019年2月20日;21(2):e12783。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Attai DJ, Cowher MS, Al-Hamadani M, Schoger JM, Staley AC, Landercasper J. Twitter社交媒体是乳腺癌患者教育和支持的有效工具:患者报告的调查结果。医学互联网研究,2015;17(7):e188 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Osadchiy V, Mills JN, Eleswarapu SV。理解社交媒体时代患者的焦虑:在线男性不育社区的定性分析和自然语言处理。[J]互联网研究与发展,2020;22(3):888 - 888 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- noble AL, Leas EC, Althouse BM, Dredze M, Longhurst CA, Smith DM等。在社交媒体平台上请求诊断性传播疾病。中华医学杂志,2019,11,31(17):1712-1713。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 访问互联网的女性患者对不孕症信息和支持来源的认知。植物学报,2009,31(1):83-90。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Guntuku SC, Yaden DB, Kern ML, Ungar LH, Eichstaedt JC。在社交媒体上检测抑郁症和精神疾病:一项综合综述。网络行为科学,2017(12);18:43-49。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 王晓明,熊瑞春,王晓明。网络论坛参与者抑郁症状的筛选研究。生物工程学报,2015,31(1):27-36。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Dreisbach C, Koleck TA, Bourne PE, Bakken S.自然语言处理和从电子患者撰写的文本数据中挖掘症状的系统综述。中华医学杂志;2019;25 (5):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 查普曼B,雷蒙德B,鲍威尔D.社交媒体作为对抗食源性疾病工具的潜力。展望公共卫生2014年7月;134(4):225-230。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 张建军,张建军,张建军,张建军,张建军,张建军。卫生部门使用社交媒体识别食源性疾病——芝加哥,伊利诺伊州,2013-2014年。MMWR Morb Mortal weekly Rep 2014 Aug 15;63(32):681-685 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Casas J, Mugellini E,关于K.社交媒体中食源性疾病的早期发现。第二届人类互动与新兴技术国际会议论文集:未来应用(IHIET-AI 2020)。瑞士洛桑:斯普林格出版社;第二届人类互动与新兴技术:未来应用国际会议(IHIET-AI 2020);2020年4月23-25日;瑞士洛桑,第415-420页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- McGough SF, Brownstein JS, Hawkins JB, Santillana M.结合传统疾病监测与搜索、社交媒体和新闻报道数据预测2016年拉丁美洲寨卡疫情的发病率。中国生物医学工程学报,2017,11(1):50005295 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 赵军,韩华,钟斌,谢伟,陈勇,志明。社交媒体上的健康信息有助于缓解克罗恩病症状,改善患者的临床病程。计算机学报(自然科学版);2011;33(2):357 - 357。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Pandrekar S, Chen X, Gopalkrishna G, Srivastava A, Saltz M, Saltz J,等。基于社交媒体的阿片类药物流行分析使用Reddit。发表于:AMIA年度研讨会;2018年11月3日至7日;旧金山,加利福尼亚州,第867-876页gydF4y2Bahttp://europepmc.org/abstract/MED/30815129gydF4y2Ba
- marques_toledo CD, Degener CM, Vinhal L, Coelho G, Meira W, codealdo CT,等。通过网络预测登革热:推特是在国家和城市层面估计和预测登革热的有用工具。中华医学杂志,2017;11(7):e0005729 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Signorini A, Segre AM, Polgreen PM。在甲型H1N1流感大流行期间,使用Twitter跟踪美国疾病活动水平和公众关注程度。PLoS One 2011;6(5):e19467 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Broniatowski DA, Paul MJ, Dredze M.通过Twitter进行国家和地方流感监测:2012-2013年流感流行分析。科学通报,2013;8(12):863 - 867 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Klembczyk JJ, Jalalpour M, Levin S, Washington RE, Pines JM, Rothman RE,等。谷歌流感趋势空间变异性验证对急诊室流感相关访问。医学互联网研究,2016;18(6):e175 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 信息流行病学和信息监测:一套新兴的公共卫生信息学方法框架,用于分析互联网上的搜索、交流和出版行为。医学信息学报,2009;11(1):11 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 李军,徐强,Cuomo R, Purushothaman V, Mackey T.中国社交媒体平台微博疫情早期数据挖掘与内容分析:回顾性观察性信息监测研究。公共卫生监测2020年4月14日;6(2):e18700 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 黄超,徐翔,蔡勇,葛强,曾刚,李翔,等。挖掘中国新冠肺炎患者的特征:社交媒体帖子分析。[J]医学互联网研究,2020;17;22(5):e19087 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 2019年整形外科统计报告。美国整形外科学会(ASPS)。2019.URL:gydF4y2Bahttps://www.plasticsurgery.org/news/plastic-surgery-statistics?sub=2019+Plastic+Surgery+StatisticsgydF4y2Ba[2021-03-29]访问gydF4y2Ba
- 2018年全国整形外科统计。美国整形外科学会(ASPS)。2018.URL:gydF4y2Bahttps://www.plasticsurgery.org/documents/News/Statistics/2018/plastic-surgery-statistics-report-2018.pdfgydF4y2Ba[2019-07-18]访问gydF4y2Ba
- 杨建军,杨建军,李建军,等。硅胶隆胸术的临床研究进展。中华医学杂志2016年2月2日;36(3):164-175。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Watad A, Rosenberg V, Tiosano S, Tervaert JW, Yavne Y, Shoenfeld Y,等。硅胶乳房植入物和自身免疫/风湿病的风险:现实世界的分析。国际流行病学杂志,2018;47(6):1846-1854。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Labadie JG, Korta DZ, Barton N, Mesinkovska NA。与乳房植入物相关的皮肤过敏样反应:综述。皮肤外科杂志2018;44(3):323-329。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 张建军,张建军,张建军,张建军,等。隆胸术中软性假体对乳房包膜挛缩的影响因素分析。整形外科杂志,2018;41(4):20-28。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Rohrich RJ, Kaplan J, Dayan E.硅胶植入疾病:科学与神话?中国整形外科杂志;2019;31(1):391 - 391。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 张建军,张建军,张建军,等。隆胸手术后的临床疗效分析。中华外科杂志,2019,26(1):30-36。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Gabriel SE, O'Fallon WM, Kurland LT, Beard CM, Woods JE, Melton LJ。乳房植入后结缔组织疾病和其他疾病的风险。中华医学杂志,1994,16(3):397 - 397。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 张建军,刘建军,刘建军,等。硅胶隆胸术后100例临床分析。中华外科杂志1997;39(1):9-19。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Janowsky EC, Kupper LL, Hulka BS。硅胶乳房植入物与结缔组织疾病风险关系的meta分析。中华医学杂志,2000,16(3):391 - 391。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Rohrich RJ, Kenkel JM, Adams WP, Beran S, Conner WC。硅胶乳房假体植入术患者的前瞻性分析。外科整形外科杂志;2009;31(7):559 - 558。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Nahabedian m, Tsangaris T, Momen B, Manson PN。乳房扩张器和假体重建后的感染并发症。外科整形外科杂志2003;11(2):467-476。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 刘建军,刘建军,刘建军,等。隆胸硅胶假体植入术术后并发症分析。2004年4月;13(2):122-128。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Lee I, Cook NR, Shadick NA, Pereira E, Buring JE。乳房植入物与结缔组织疾病风险的前瞻性队列研究。中华流行病学杂志,2011;40(1):230-238 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Tang SY, Israel JS, Afifi AM乳房植入疾病:症状、患者担忧和社会媒体的力量。外科整形外科,2017,11(5):765-766。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Tang SY, Israel JS, Poore SO, Afifi AM。Facebook事实:乳房重建患者使用社交媒体报告的结果。中国整形外科杂志;2018;41(5):1106-1113。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Magnusson先生,Cooter RD, Rakhorst H, McGuire PA, Adams WP, Deva AK。隆胸病:前进的道路。整形外科2019年3月;143(3S):74-81。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Adidharma W, Latack KR, colhan SM, Morrison SD, Cederna PS。隆胸疾病:社交媒体和互联网是否让患者感到担忧?中国整形外科杂志,2016,31(1):344 - 344。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Keane G, Chi D, Ha A, Myckatyn T.乳房种植体疾病的整体荚膜切除术:一种社会媒体现象?中华外科杂志,2011;41(4):448-459。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 魏思杰,尤尼斯J, Isbester K, Smith A, Wangler B, Sarode AL,等。了解乳房植入前后的疾病:一项患者报告的结果研究。中华外科杂志(英文版);2009;31 (1):82-86 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 李建军,李建军,李建军。乳房植入病:生物膜假说。中国整形外科杂志;2020年4月8日(4):755。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 博客- Cancer.net。URL:gydF4y2Bahttps://www.cancer.net/bloggydF4y2Ba[2021-01-05]访问gydF4y2Ba
- 博客-乳腺癌之外的生活。URL:gydF4y2Bahttps://www.lbbc.org/bloggydF4y2Ba[2021-01-05]访问gydF4y2Ba
- 来自乳腺癌、肺癌和其他癌症患者的故事。美国癌症治疗中心。URL:gydF4y2Bahttps://www.cancercenter.com/patient-storiesgydF4y2Ba[2021-01-05]访问gydF4y2Ba
- 慢性疾病。Mighty Well档案馆。URL:gydF4y2Bahttps://blog.mighty-well.com/category/chronic-illness/gydF4y2Ba[2021-01-05]访问gydF4y2Ba
- 实用的疼痛管理-症状,原因,治疗,慢性疼痛的药物。补救健康媒体有限责任公司网址:gydF4y2Bahttps://www.practicalpainmanagement.com/patientsgydF4y2Ba[2021-01-05]访问gydF4y2Ba
- 资源:供患者使用。政治体。URL:gydF4y2Bahttps://www.wearebodypolitic.com/resourcesgydF4y2Ba[2021-01-05]访问gydF4y2Ba
- 冠状病毒博客团队。媒介。URL:gydF4y2Bahttps://medium.com/@coronavirus_blog_teamgydF4y2Ba[2021-01-05]访问gydF4y2Ba
- COVID-19患者的故事。约翰霍普金斯医学院。URL:gydF4y2Bahttps://www.hopkinsmedicine.org/coronavirus/patient-stories/gydF4y2Ba[2021-01-05]访问gydF4y2Ba
- 关于隆胸病。乳房植入疾病。URL:gydF4y2Bahttps://www.breastimplantillness.com/symptoms/gydF4y2Ba[2019-05-10]访问gydF4y2Ba
- 乳房植入疾病-症状,外植体,外科医生,排毒。治疗乳房植入疾病。URL:gydF4y2Bahttps://healingbreastimplantillness.comgydF4y2Ba[2019-05-10]访问gydF4y2Ba
- Instagram上的#乳房植物#标签。Instagram。URL:gydF4y2Bahttps://www.instagram.com/explore/tags/breastimplantillnessgydF4y2Ba[2019-09-05]访问gydF4y2Ba
- Savova GK, Masanz JJ, Ogren PV, Zheng J, Sohn S, Kipper-Schuler KC,等。梅奥临床文本分析和知识提取系统(cTAKES):架构,组件评估和应用。中华医学杂志,2010;17(5):507-513 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 统一医学语言系统(UMLS):整合生物医学术语。核酸学报2004年1月1日;32(数据库问题):267-270 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 李建平,李建平。潜在Dirichlet分配。[J]中文信息学报,2003;3:993-1022。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 李志强,李志强。自然语言工具集。参见:自然语言处理和计算语言学教学的有效工具和方法ACL-02研讨会论文集。美国:计算语言学协会;2002年在ACL-02“自然语言处理和计算语言学教学的有效工具和方法”研讨会上发表;2002年7月7日;宾夕法尼亚州费城,第63-70页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 潜在狄利克雷分配(LDA)的变分EM实现。Github。2013。URL:gydF4y2Bahttps://github.com/blei-lab/lda-cgydF4y2Ba[2019-07-02]访问gydF4y2Ba
- 霍曼。概率潜在语义索引。见:第22届国际Acm信息检索研究与发展年会论文集。美国:计算机协会;第22届国际ACM SIGIR信息检索研究与发展会议;1999年8月15日至19日;美国加州伯克利第50-57页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- Blei D, Lafferty J.相关主题模型。见:《神经信息处理系统进展》。美国剑桥:麻省理工学院出版社;2006年发表于:Advances in Neural Information Processing Systems;2006年12月4日至7日;加拿大温哥华。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
- 张杰,王超,王磊,张建军,张建军。茶叶阅读:人类对主题模型的解读。见:《神经信息处理系统进展》。美国:Curran Associates Inc;2009年发表于:Advances in Neural Information Processing Systems;2009年12月;加拿大温哥华。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
gydF4y2Ba
缩写gydF4y2Ba
ASCII码:gydF4y2Ba美国信息交换标准代码gydF4y2Ba |
BII:gydF4y2Ba隆胸病gydF4y2Ba |
cTAKES:gydF4y2Ba临床文本分析与知识提取系统gydF4y2Ba |
崔:gydF4y2Ba概念唯一标识符gydF4y2Ba |
LDA:gydF4y2Ba潜在狄利克雷分配gydF4y2Ba |
NLP:gydF4y2Ba自然语言处理gydF4y2Ba |
uml:gydF4y2Ba统一医学语言系统gydF4y2Ba |
XMI:gydF4y2BaXML元数据交换gydF4y2Ba |
C·洛维斯编辑;提交19.04.21;A Chen, V Foufi, S Wakamiya, T Timakum的同行评审;对作者05.06.21的评论;收到修订版31.07.21;接受23.09.21;发表29.11.21gydF4y2Ba
版权gydF4y2Ba©Vishal Dey, Peter Krasniak, Minh Nguyen, Clara Lee, Xia Ning。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 2021年11月29日。gydF4y2Ba
这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2Ba