这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
了解个人对一个话题的想法,即心理模型,可以显著改善沟通,尤其是在情绪和影响很高的医学领域。神经发育障碍(ndd)是一组诊断,影响全球18%的人口,涉及认知或社会功能发展的差异。在这项研究中,我们关注两种ndd,注意力缺陷多动障碍(ADHD)和自闭症谱系障碍(ASD),它们涉及多种症状和干预措施,需要两个重要的利益相关者:父母和卫生专业人员之间的互动。对于每个利益相关者的心理模型之间的差异,我们的理解存在差距,这使得利益相关者之间的沟通变得更加困难。
我们的目标是从与每个利益相关者相关的基于网络的信息中构建知识图(KGs),作为心智模型的代理。这些kg将加速确定利益相关者之间共有的和不同的关注点。所开发的kg可以帮助改善ADHD和ASD患者的知识动员、沟通和护理。
我们通过收集基于网络的论坛和PubMed的关于ADHD和ASD的摘要,创建了两个数据集。我们利用统一医学语言系统(UMLS)检测生物医学概念,并应用正点互信息(Positive Pointwise Mutual Information)和截断奇异值分解(truncated Singular Value Decomposition)对每个数据集进行基于语料库的概念嵌入。每个数据集使用属性图模型表示为一个KG。通过计算概念之间的语义相关度来对概念之间的关系强度进行排序,并将其作为关系权重存储在KG中。UMLS与障碍相关的语义类型用于提供关于每个概念领域的附加分类信息。
所开发的KGs包含来自两个数据集的概念,节点大小表示概念的共现频率,边缘大小表示概念之间的相关性。来自不同语义类型的ADHD和asd相关概念显示了不同的关注领域和复杂的条件需求。KG确定了卫生专业人员文献(PubMed)和父母关注点(基于网络的论坛)之间的趋同和分歧概念,这可能对应于每个利益相关者的心理模型之间的差异。
我们首次表明,从基于网络的数据生成kg可以捕捉处理ADHD或ASD的家庭的复杂需求。此外,我们还展示了家庭和卫生专业人员的KG之间的契合点。基于自然语言处理的KG提供了大样本量的访问,这通常是传统的面对面心理模型映射的限制因素。我们的工作提供了对心理模型地图的高通量访问,可用于进一步的面对面验证、知识动员项目,以及在ndd交互中有关利益相关者潜在盲点的交流基础。未来的研究将需要确定每个利益相关者的概念如何以不同的方式相互作用。
神经发育障碍(ndd)很常见,代表了一组由认知、运动或社交技能发展差异组成的诊断[
对医疗复杂性的研究表明,通过建立每个利益相关者对一种被称为心理模型的疾病的表征,可以改善沟通和护理。心智模式是动态的,是一套不断发展的信念和知识,它们决定了父母和专业人士的决定和行为[
知识图(Knowledge graphs, KGs)作为一种基于图的信息表示形式,已广泛应用于人工智能和信息的结构表示[
开发的kg描述了来自两个来源的信息概念图:在线社区和PubMed摘要。它们有助于识别具有相似或不同相关性或优先级的概念,以及它们在两个涉众的情况下出现的频率。这种方法是必不可少的,因为直接从利益相关者那里获得这些信息需要大量的努力,包括招聘和进行访谈或分发调查(通常回复率有限)。
搜索查询“神经发育障碍[MeSH]”、“自闭症”、“自闭症谱系障碍[MeSH]”、“自闭症障碍”、“注意力缺陷和破坏性行为障碍[MeSH]”、“注意力缺陷伴多动障碍[MeSH]”和“多动症”是在PubMed中使用国家生物技术信息中心的Entrez Programming Utilities应用程序编程接口执行的。创建了一个包含226660个文章标识符的唯一列表,并通过另一个PubMed应用程序编程接口调用检索摘要,该调用返回118,153个非空摘要。
我们手动搜索了NDD主题周围公开的网络论坛或社区和reddit子版块,以收集社交媒体数据,并审查了他们的隐私政策和使用条款。我们选择了三个来源:healthboards.com [
所有PubMed摘要和论坛帖子(以下简称文档)都使用自然语言工具包Python库进行了预处理,以删除标点符号,将句子标记为单词,删除停止词,并将单词[
文本处理与知识图谱生成方法。数据收集包括使用Scrapy的论坛抓取、Reddit包装器应用程序编程接口调用和PubMed应用程序编程接口调用。收集的文档通过自然语言处理管道进行处理。知识图谱由选定语义类型下与条件概念(自闭症谱系障碍或注意缺陷多动障碍)相关的前25个概念发展而来。ADHD:注意缺陷多动障碍;ASD:自闭症谱系障碍;PMI:逐点互信息;UMLS:统一的医学语言系统。
UMLS是一个包含超过100个受控词汇的集合,包括但不限于国际疾病分类-第10分类、医学主题标题和SNOMED临床术语,包含超过400万个概念[
从PubMed共检测到124种UMLS语义类型,从论坛共检测到122种UMLS语义类型,这些语义类型适用于医学领域的所有子领域。彭等[
如果一个概念与多个语义类型相关联,那么scispaCy实体链接器将返回所有语义类型的列表,并且不考虑句子的上下文来选择正在讨论的语义类型。由于它返回所有语义类型的列表,所以我们只考虑返回的第一个语义类型。对语料库中至少10个文档中出现的概念进行了进一步分析。因此,我们在PubMed文档中有4494个独特的概念,在论坛中有3627个独特的概念。
所有带有UMLS概念注释的文档都通过了一个过滤器,该过滤器删除了文本中没有提及与自闭症相关和adhd相关概念的文档。在UMLS中,ASD、阿斯伯格综合症和自闭症是不同的概念;所有在摘要或标题中提到这些的文件都被认为是在ASD下。此外,阿斯伯格综合症和自闭症障碍的概念被ASD取代。结果,我们获得了55,461篇PubMed摘要的最终数据集,其中37,728篇提到了ASD, 20,805篇提到了ADHD, 3072篇同时提到了这两种情况。对于论坛,最终的数据集包含153,098个帖子,其中72,669个帖子是关于ASD的,90,372个帖子是关于ADHD的,9943个帖子有关于这两种情况的陈述。
从不同数据源收集的文档数量。
源 | 自闭症谱系障碍 |
注意缺陷多动 |
自闭症谱系障碍和注意缺陷多动障碍都有记录 |
66552年 | 87022年 | 9302 | |
心理论坛 | 5029 | 1966 | 395 |
健康委员会 | 1088 | 1384 | 246 |
来自3个论坛的文件总数 | 72669年 | 90372年 | 9943 |
PubMed | 37728年 | 20805年 | 3072 |
在VSM中,基于语料库的概念数字表示基于上下文表示概念的含义。它假定在一个环境(文档级、句子级或特定大小的邻域窗口)中一起出现的概念彼此相关或相似。上下文框架的大小会影响VSM中概念的表示,许多单词嵌入模型(如Skip-gram模型和连续单词袋模型)使用基于窗口上下文的方法,称为局部上下文。文档级共现(称为全局上下文)提供了关于概念的更多主题信息,因为许多主题建模方法使用全局上下文来检测文档中的潜在主题[
使用正点互信息(PPMI)和截断奇异值分解(SVD)来嵌入概念,这与基于神经网络的嵌入模型(如Word2Vec[])提供了比较性能。
其中c我=我th概念或行
PMI范围为-1 ~ 1。如果PMI为0,两个概念的共现不能提供任何信息,只是偶然。当联合概率远高于边际概率时,共现就不是偶然的。如果PMI小于0,则概念c我和cj比同时出现的信息更丰富。如果PMI值小于0,则PPMI将PMI值设置为0。
PPMI提供了一个大小为n × n的方阵M。对于PubMed, n=4494,对于forum, n=3627,这使得VSM具有较高的维数。
SVD是一种降维技术,用于获得密集矩阵M的低秩近似。SVD将矩阵M分解为3个矩阵的乘积:
其中U和V是大小为n × n的正交矩阵,S是一个n × n对角线矩阵,对角线值从高到低排序。由式(3)可以得到矩阵M的秩k (k 你在哪里k是一个n × k矩阵,Sk是k × k对角矩阵,VkT是一个k × n矩阵。Uk年代k为n × k大小的矩阵,表示k维的n个概念。设k=300,使用Python scikit-learn库实现截断SVD,得到300D概念嵌入[
语义相关性方法根据所使用的上下文来检测给定概念中最相关的概念。语义相似性和相关性任务看起来是一样的,但相似性指的是同义词,可以互换使用的概念,而相关性指的是由于在同一上下文中使用而相关的概念。例如,自闭症谱系障碍和攻击行为是相关的,但并不相似。两个概念之间的概念关联我和cj使用余弦相似度作为上下文向量C我和Cj:
亲缘ij取值范围为(- 1,1),其中接近1的值表示c我和cj两个向量在VSM中方向相同,且彼此密切相关;接近0的值表示c我和cj,且两个向量在VSM中正交;和人际关系ij(-1)表示c我和cj在多维空间中方向相反。
属性图图式,
知识图谱模式。概念(蓝色圆圈)和条件(橙色圆圈)的共现频率被存储为概念的频率。概念与条件的相关性得分被存储为概念与语义类型之间isA关系的权重(也是蓝色圆圈)。as关系的方向可以是任意一种。
PubMed和论坛开发的KG表示描述了双方利益相关者的心理模型。我们在与adhd相关和与自闭症相关的PubMed和论坛数据集中发现了许多与不同语义类型相关的UMLS概念。所有检测到的概念及其语义相关度得分都列在
从PubMed摘要生成的ADHD kg(见
ASD PubMed摘要的KG表示(见
PubMed中的注意缺陷多动障碍相关概念以及特定统一医学语言系统语义类型的论坛。
统一的医学语言系统语义类型 | PubMed | 论坛 |
精神或行为障碍 |
注意力不集中 冲动行为 极度活跃的行为 注意缺陷障碍 药物滥用问题 品行障碍 |
执行功能障碍 精神问题 焦虑 极度活跃的行为 注意力不集中 精神抑郁 |
年龄段 |
青少年 成人 年轻的成年人 |
成人 青少年 孩子 |
日常或娱乐活动 |
体育 青少年体育 娱乐活动 |
阅读活动 演讲活动 锻炼 |
教育活动 |
心理教育 培训项目 社会化 |
家庭作业 家庭教育 培训项目 |
社会行为 |
父母的行为 社会技能 亲子关系 |
生活方式 谈话 社会行为 |
在特定的统一医学语言系统语义类型下,PubMed和论坛中的自闭症谱系障碍相关概念。
统一的医学语言系统语义类型 | PubMed | 论坛 |
精神或行为障碍 |
发育障碍 社会交往障碍 精神分裂症 精神发育迟滞 |
欺凌 失语症 社会焦虑 刻板运动障碍 |
年龄段 |
孩子 成人 婴儿 |
孩子 成人 青少年 |
社会行为 |
沟通 社会技能 社会认知 |
社会技能 社交场合 眼神交流 |
心理过程 |
感知 认知 |
刻板印象 情报 |
日常或娱乐活动 |
体育活动 青少年体育 口语和阅读活动 |
体育 游戏 口语和阅读活动 |
教育活动 |
社会化 培训项目 计算机辅助教学 特殊教育 家长培训 |
社会化 培训项目 特殊教育 厕所训练 家庭教育 |
KG有助于确定家庭和保健专业人员之间相似和不同的相关/优先概念。了解共享理解(共享思维模式)已被证明是医疗保健领域有效协作和高质量沟通的关键因素[
为了总结相似和不相似相关性/优先级的概念,我们比较了论坛(FR)和PubMed (PR)中所有概念的相关性得分,并计算得分差值(得分差值= FR - PR)。如果概念的相关性得分与利益相关者相似,且概念的得分差异在µ±2σ范围内,其中µ为平均值,σ为得分差异的标准差,则该概念具有相似的优先级。如果得分差异为>µ+ 2σ,则该概念与家庭(论坛)更相关,并被认为是他们的优先考虑,因为分数差异很大。如果得分差异<µ- 2σ,则认为该概念更相关,或作为卫生专业人员的优先考虑(PubMed)。有趣的是,如
类似地,使用相关性评分差异和KG表示比较两种来源中的asd相关概念,提供了各种相似和不相似相关性的概念,如图所示
围绕精神或行为功能障碍语义类型(绿色箭头)的注意缺陷多动障碍论坛和PubMed的知识图表示。概念标签的字体大小与概念在源代码中的出现频率成正比。“sameAs”关系(橙色箭头)连接了重叠的概念。边缘“isA”(紫色箭头)的厚度表示概念与病情(注意缺陷多动障碍)的相关性评分。注意力缺陷多动障碍。
PubMed和论坛数据中注意缺陷多动障碍概念优先级的收敛和发散。
|
概念列表 |
与注意缺陷多动有相似相关性的概念 |
冲动行为 注意力不集中 焦虑 精神抑郁 极度活跃的行为 失眠 情绪调节 注意 培训项目 社会化 |
与注意缺陷多动障碍论坛高度相关的概念 |
执行功能障碍 忘记 赛车的想法 精神问题 紧张 疲惫 睡过头了 迟缓 学习习惯 拖延症 |
在PubMed中与注意缺陷多动障碍高度相关的概念 |
药物滥用问题 药物依赖 品行障碍 反社会行为 成瘾行为 睡眠阶段延迟 Amotivation 焦虑症状 对立的行为 行为规范 |
PubMed和论坛数据集中自闭症谱系障碍概念的收敛和发散优先级。
|
概念列表 |
对两种自闭症谱系障碍来源具有相似相关性的概念 |
社会交往障碍 发育障碍 失语症 自闭症行为 智力障碍 精神障碍 广泛性发育障碍 脑瘫 癫痫发作 重复的行为 社会互动 非语言的 沟通 社会行为 眼神交流 社会技能 攻击行为 有自伤行为 刻板的行为 行为抽搐 |
与自闭症谱系障碍论坛高度相关的概念 |
欺凌 痴迷 社交恐惧症 社会焦虑 乱发脾气 缄默症 紧张 社会问题 内向的人 社会生活 拥挤 |
在PubMed中与自闭症谱系障碍高度相关的概念 |
免疫失调 社会认知 自适应行为 |
了解患者及其家属的需求和关切最近被认为是卫生专业人员与家属之间更好沟通的关键因素。这导致了对心理模型在医疗实践中的作用的新兴研究[
从理论的角度来看,我们的工作展示了KG构建技术和NLP如何通过使用大规模数据集来帮助创建心理模型,并避免限制专家访问和家庭隐私/可用性等瓶颈。虽然所使用的NLP方法已经得到了广泛的认可,但使用NLP生成kg来推导心理模型,并在家庭和卫生保健专业人员的观点之间进行比较,这对我们来说是完全新颖的。我们发现,来自论坛的基于网络的数据捕捉了患有两种重要ndd (ASD和ADHD)的个体父母关注的多样性。公开可获得的基于网络的数据可以反映从更传统的方法获得的数据,如文献中发表的咨询或调查。我们展示了如何使用基于网络的数据,使我们不仅可以识别诊断标准、药物、症状或疾病的合并症,而且还可以识别有关教育活动、娱乐活动和疾病周围的社会问题等其他领域的信息,这些通常被认为主要通过采访来获得。我们还表明,这些主题不仅与争议或未经证实的疗法有关,这往往是在医学领域不使用基于网络的信息的理由。同样,与医学专家的访谈往往是了解医学领域问题的瓶颈。
我们还说明了如何使用基于网络的数据来确定涉及复杂医疗条件(如ADHD和ASD)的不同利益相关者之间优先事项的收敛点。确定趋同点,即卫生专业人员和家庭感兴趣的相似概念,可以帮助临床医生和推广政策制定者确定“对话启动者”或共同兴趣。确定每个利益相关者的分歧概念甚至盲点对临床医生和家庭都起着重要作用。例如,与家庭高度相关的概念可以被临床医生用来构建持续的药物教育或培训增强。对于家庭来说,他们可以成为知识动员、公共教育运动或进一步研究的重点,以提高对其障碍和相关病症的认识。
从实际的角度来看,我们提出了一个框架,允许我们通过使用基于语料库的嵌入和语义相关性方法来识别和排序不同来源的相关概念,而不是简单的共现频率来对相关概念进行排序。开发相关概念的KG来表示心理模型可视化可以进一步帮助比较两个来源之间的收敛和发散概念。据我们所知,由于没有黄金标准的数据集来评估ndd中概念的相关性,我们的框架建议使用图形分析工具(如Gephi)来手动分析和探索KG可视化,这可以帮助专家验证结果。让专家(中间的专家)来审查NLP方法的结果有助于检测不正确的概念,这是缩写到概念的错误映射的结果。总之,我们的研究提供了一个原理证明,将产生对kg作为心理模型地图的认识,并用于广泛的医学领域的多学科研究人员。
我们将我们的发现与以前的文献或报告进行了比较,这些文献或报告是使用传统方法的研究结果,如访谈或调查,并涉及来自ASD和ADHD社区的参与者(父母或卫生专业人员)。例如,对于多动症,我们发现使用论坛的个人(父母、朋友、护理人员)的优先事项与药物处方和医生类型有关。这反映了文献中所讨论的问题,参与研究的父母关注药物和非药物干预(首选行为干预)[
关于ASD,我们在本研究中的另一个NDD用例,我们发现PubMed摘要和ASD论坛反映的最重叠的主题对于不同的利益相关者具有相似的优先级。这些主题包括ASD伴随的病情、症状和行为的分类,以及与社会互动相关的主题。事实上,我们发现人们使用ASD论坛的优先事项包括关注社会互动,如社交技能、沟通和友谊,以及说话等日常活动。这与Lai和Weiss发布的一项调查结果相似。
我们表明,来自PubMed论文的KG概括了上述关于ADHD和ASD主题的立场论文的发现。然而,我们的研究结果和基于参与者的研究结果之间的一些差异可能是由于样本量的差异或选择偏差(照顾者的年龄,因此,儿童可能小于上学年龄或成年年龄)造成的。收集到的基于网络的论坛数据比基于访谈的研究的参与者数量大得多,因此可能包括以前没有确定的观点。或者,我们可以推测,家庭成员可能更倾向于在网上分享个人担忧,而不是在采访中,尽管我们没有找到针对这一主题的发表研究。此外,我们已经包括了所有的PubMed论文和基于网络的论坛,不管它们的出版或发布时间(PubMed可能包括更老的概念,这不再是当代关注的问题),而不是上面提到的来自过去5年或更短时间的专家意见。
尽管代表关系中涉及的个人的优先事项和概念已经被证明有利于沟通和效率,使用基于网络的数据提供了包括更多数量的个人的能力,如图所示。这样可以更好地反映不同的意见,并反映经验的差异。我们还发现,论坛帖子和PubMed论文对所有被研究的领域都具有相同的覆盖密度,这表明它们呈现出丰富的视角,而不仅仅是趋势。此外,在未来,我们的方法可以用于比较不同国家的个人关注的问题,例如在城市与农村环境中,或者在一个国家的新来者中。从基于语料库的VSM中获取相关概念,并将其表示为基于属性图模型的KG中的连接节点,有助于通过使用不同的可解释性维度来识别收敛性和发散性概念。节点大小是文档中关于某个条件的概念出现的频率,它表明该概念在源代码中被广泛讨论的程度。边缘厚度与语义相关度分数成正比,根据使用的上下文,可以告诉我们一个概念与疾病(ASD或ADHD)的相关度。这是很重要的,因为它可以帮助把注意力集中在知识转化和医学教育以及政策和研究发展上。
其中一些限制与用于构建图表的数据的性质有关。论坛帖子提出了一些挑战。这些论坛并没有精确地定义用户是自闭症谱系障碍和多动症患者的父母、照顾者,还是潜在的家庭成员。这可能会影响请求的信息类型。此外,根据定义,用户是根据他们使用技术收集信息来选择的。这可能是一种基于获得技术的偏见,而技术将受到健康的社会决定因素的影响,因此可能不完全反映父母的关切。此外,出于保密的考虑,父母可能不会分享他们对患有ADHD或ASD的家庭成员的所有担忧。另一个重要的一点是,这里的PubMed文献代表了医疗保健。虽然PubMed确实代表了一个高质量的医学文献语料库,但它可能不能完全反映医疗保健提供者所讨论的内容,比如如果他们在场的话,使用基于网络的论坛。此外,从技术角度来看,我们提出的基于语义关联的KG表示仅利用了关于UMLS概念的分类信息,这些信息由KG中的“isA”关系表示。 However, UMLS provides a semantic network, which shows several meaningful relationships between different semantic types in the form of triples, that is, type1, relation, type2, etc: for instance, (“Mental or Behavioral Dysfunction,” “associated_with,” “Daily or Recreational Activity”) and (“Disease or Syndrome,” “co-occurs_with,” “Mental or behavioral dysfunction”). Utilizing this information could provide more meaningful and direct relations between the concepts of different semantic types. We aim to apply the distantly supervised relation extraction approach on each document corpus, which utilizes the UMLS semantic network to obtain diverse relations between different concepts [
我们的研究显示了使用基于文本NLP分析结果开发的KGs的好处。这些图表代表了ASD和ADHD患者父母的主要关注点的心理模型,并将其与在同一领域建立在医学专家知识基础上的模型进行了比较。通过比较可以确定兴趣的重叠点和分歧点。我们展示了在这两种类型的涉众中有一些收敛点和广泛的关注点列表。这一点很重要,因为直接从利益相关者那里获得此类信息需要在招聘和进行访谈或分发调查方面付出大量努力(通常回复率有限)。此外,我们还发现,对ADHD或ASD家庭或医学专家进行的民意调查或采访的公开报告,与我们通过NLP和图表比较确定的问题相似。未来的实地工作将补充我们的工作,这可能有助于理解不同的概念如何呈现出复杂的相互作用,或者特定人群如何基于不同的因素(如健康的社会决定因素)而彼此不同。
PubMed和论坛常用语义类型柱状图。
自闭症谱系障碍和注意缺陷多动障碍的概念排名与相关性得分(多张表)。
统一医学语言系统规范概念与论坛和PubMed文本词汇的映射。
注意缺陷多动障碍pubmed选择的语义类型和概念(为清晰起见分为子图)。
注意缺陷多动障碍知识图谱——论坛选择的语义类型和概念(为清晰起见,分为子图)。
自闭症谱系障碍知识图pubmed选择的语义类型和概念(为清晰起见,分为子图)。
自闭症谱系障碍知识图谱——论坛选择的语义类型和概念(为清晰起见,分为子图)。
知识图代表了最相关的注意缺陷多动障碍概念之间的异同。
论坛和PubMed概念相关度得分比较。
知识图代表了最相关的自闭症谱系障碍概念之间的相似点和不同点。
PubMed抽象数据集。
注意缺陷多动障碍
自闭症谱系障碍
知识图谱
神经发育障碍
自然语言处理
点互信息
正的点互信息
奇异值分解
统一的医学语言系统
向量空间模型
我们要感谢Osmar Zaiane博士和阿尔伯塔大学的同事们进行了有益的讨论。这项工作由加拿大健康研究所和自然科学与工程研究理事会向FVB提供的运营拨款资助。PubMed数据由美国国家医学图书馆提供,并共享于
FVB设计了这个项目。MZR和MK设计了方法。MK实现了文本分析管道,并对结果进行了分析。FVB和EW对结果进行了分析。MK, EW, JC, KK, MZR和FVB撰写了手稿。FVB和MZR监督该项目。
没有宣布。