发表在10卷,第9号(2022): 9月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/38414,首次出版
利用表示学习构建和应用中医知识图谱:框架开发研究

利用表示学习构建和应用中医知识图谱:框架开发研究

利用表示学习构建和应用中医知识图谱:框架开发研究

原始论文

1广州中医药大学第二附属医院中医湿证国家重点实验室,中国广州

2广东财经大学信息科学学院,中国广州

通讯作者:

老应荣,博士

中医湿证国家重点实验室

广州中医药大学第二附属医院

大德路111号

广州,510120

中国

电话:86 81887233转35933

电子邮件:laoyingrong@qq.com


背景:从中国医生的治疗数据记录中发现知识是人工智能(AI)模型在中医研究中的应用面临的一个巨大挑战。

摘要目的:本文旨在构建中国医师的中医知识图谱(KG),并将其应用于中医诊疗决策。

方法:设计了一种基于表示学习的中医知识库构建与应用框架。将基于变压器的情境化知识图嵌入(CoKE)模型应用于KG表示学习和知识提炼。将多跳关系的自动识别和扩展作为管道集成到CoKE模型中。在此基础上,构建了包含疾病、症状、检查、药物等59,882个实体、17个关系和604,700个三元组的中医KG。通过链接预测任务对框架进行验证。

结果:实验表明,该框架在使用标准度量平均倒数秩(MRR)和Hits@N的链路预测任务中优于一组基线模型。知识图嵌入(KGE)多标签中医判别诊断指标也表明,与基线模型相比,我们的框架有所改进。

结论:实验表明,临床KG表征学习与应用框架能够有效地帮助诊断和治疗过程中的知识发现和决策辅助。我们的框架在融合kge的多模态信息诊断、基于kge的文本分类、基于知识推理的医学问答等任务中显示出优越的应用前景。

中国生物医学工程学报;2010;31 (9):888 - 888

doi: 10.2196/38414

关键字



背景

中医具有5000年的悠久历史,具有整体观和辨证论治的科学思想,以及个性化治疗技术方法的长期实践。中医具有临床疗效精准、用药相对安全、治疗灵活、成本相对低廉等优点[1].然而,我国医师存在大量的经验知识,难以直接应用于辅助临床决策系统。与此同时,仅仅废除医疗指南并不能应对所有情况,现有的临床辅助决策系统也不能像资深专家那样解释诊断决策的来龙去脉。

知识图谱(KGs)和人工智能(AI)模型的结合具有“黑箱”和“逻辑”的双边优势。利用知识图嵌入(KGE)技术,KGE模型可以通过表示大量实体、关系和属性来部分模拟人类大脑的认知过程。结合因果关系提取技术从事件描述文本中提取的因果事件,可以将事件信息以结构化的形式呈现出来。KGs和机器学习模型有望被整合,以帮助机器理解和概念解释,使机器的决策过程是可解释的。然而,如何构建中医质量评价模型并将其应用于质量评价模型仍然是一个具有挑战性的问题。

为此,本文提出了一种利用表征学习方法构建和应用中医知识库的新框架。中医知识是根据我们之前的1部作品从中国医生那里提取出来的[2]通过使用信息提取概念归一化的自动过程,实体对齐。该框架收集了多模式的中药信息,支持中医根据临床疾病治疗情况自动构建个性化知识库。我们的框架在文本分类、基于kg的问题回答以及从业者和专业的推荐方面具有应用潜力。

本文的主要贡献有三个方面:(1)提出了利用表示学习构建和应用中医知识库的新框架;(2)通过集成多跳关系,将基于变压器的情境化知识图嵌入(CoKE)模型应用于知识库的表示学习和知识提炼;(3)构建了包含59,882个实体、17个关系和604,700个triples的中医知识库。

相关工作

医学知识图谱

KG的概念是Google在2012年提出的。以前,研究应用程序通过改进搜索引擎的功能和增强与金融、医疗保健、地理、电子商务和医疗保健相关的用户的搜索质量和体验而发展。有很多知识图谱,包括谷歌知识图谱[3.], DBpedia [4],另一个伟大的本体论(YAGO;马克斯普朗克计算机科学研究所)[5]和FreeBase (Metaweb Technologies, Inc.) [6].在中国,有智立方(搜狗)、智新(百度)、智视。(上海交通大学)[7]、GDM实验室中国KG项目(复旦大学)[8].在医学领域,医学的千克数NKIMed [9]是由中国科学院计算机技术研究所开发的,而中医的KG [10]由中国中医药科学院中药信息研究所构建。中医语言系统(Traditional Chinese Medicine Language System, TCMLS)是一个相对较大的中医KG语义网络[11],包含10万多个概念和100万个语义关系,基本涵盖了中医学科的概念体系。其规模和完整性在中医药界处于领先地位。Rotmensch等[12]从电子病历(emr)中的结构化和非结构化数据中提取对疾病和症状(概念)的正面提及,并使用它们自动构建健康KG。

知识图表示学习

图神经网络(gnn)是针对图结构数据的深度学习架构,它将端到端学习与归纳推理相结合。gnn是人工智能中很有前途的研究课题,有望解决传统深度学习模型无法处理的因果推理和可解释性问题。KG表示学习是gnn研究的一个重要分支,在知识获取和下游应用中发挥着重要作用。KG表示学习由表示空间(点空间、复向量空间、高斯分布、流形和组)、评分函数(基于距离和语义匹配的评分函数)和编码模型(线性/双线性、分解模型和神经网络)等元素组成。

平移模型利用平移距离(例如,L1或L2范数)来模拟头部和尾部实体之间的关系。TransE是具有代表性的翻译模型之一[13].在处理1对n、n对1和n对n关系时,TransE在表示头或尾实体时存在效率低下的问题。为了缓解这些问题,KGE模型,包括TransH [14], TransR [15]和TransD [16],旨在通过不同的实体投影策略施加平移距离约束。RotatE将关系的嵌入向量视为复杂空间中从源实体到目标实体的旋转[17].

分解模型的基本思想是将三维张量中各片的矩阵分解为低维空间中实体向量与关系矩阵的乘积。RESCAL模型利用关系关联矩阵来捕获头部和尾部实体之间的相互作用,这需要大量参数来建模关系[18].因此,在DistMult中引入了关系的向量形式[19]通过将相互作用矩阵限制为对角矩阵来减少模型参数。为了增加头部和尾部实体之间的相互作用,在表达性HolE模型中使用了循环相关运算作为得分函数[20.].受DistMult的启发,ComplEx模型通过在复杂空间中嵌入向量来扩展实体和关系的表示[21].一种名为SimplE的表达性KGE模型通过去除冗余计算简化ComplEx,为每个实体使用2个向量来学习独立参数[22].

近年来,受卷积运算的启发,基于卷积的KGE模型,如ConvE [23], [24]和CapsE [25],被设计为不同的策略来捕获实体和关系之间的特征,用于KG表示学习。一个名为知识库注意(KBAT)的KGE模型通过探索给定实体的多跳表示,通过多头注意和图注意机制进行表示聚合,扩展了图注意(GAT)网络。26].自然语言预训练模型BERT [27]学会了基于变压器的表示在KG中整合上下文信息[28].可口可乐(29使用变压器对边缘和路径序列进行编码。由于卷积在表示学习中的高效率,这些有前途的方法受到了广泛的关注。CoKE的目标是学习基于丰富的图结构上下文的实体和关系的动态自适应表示。与静态表示相比,上下文模型的表现是最先进的,因为与上下文语义信息相结合的表示更丰富、更灵活。尽管使用了变压器,可口可乐仍然是参数高效的,以更少的参数获得有竞争力的性能。KG表示学习模型的比较见表1

表1。基线KGE比较一个模型。
模型 评分函数fr(h, t) 实体与关系嵌入
平移模型

TransE [13

TransH [14

TransR [15

TransD [16
线性或双线性模型

简单的(22

孔(20.
旋转模型

QuatE [30.

旋转(17
卷积神经网络

挂(23

ConvKB [24
GNNb

KBATc26
神经网络变压器

可口可乐d29

一个知识图谱嵌入。

bGNN:图神经网络。

cKBAT:知识库关注。

d情境化知识图谱嵌入。

医学知识图谱的应用

医学知识库应用的热点是融合知识库的多模态信息诊断、基于知识库的文本分类、基于知识推理的医学问答与辅助诊断。沈等[31]重用现有知识库,构建高质量的KG,并设计预测模型,探索药理学和KG特征。该模型允许用户从药物相似度的角度更好地了解药物的性质,并获得在单个药物中不易观察到的见解。Zheng等[32]利用4种模态数据(x线图像、计算机断层扫描(CT)图像、超声图像和诊断文本描述)构建KG。该模型利用多模态KG关注嵌入对COVID-19进行诊断。实验结果表明,在多模态模型中,捕获和结合单、多层模态信息的重要性是至关重要的。Li等[33[gm66nd]设计了一款人工智能语音助手,通过构建一个包含阿尔茨海默病和相关痴呆症(ADRD)、饮食护理和用户资料本体的综合知识库。他们用外部KG扩展了该模型,例如FoodData Central和DrugBank,它们通过基于语义的KG搜索和推理引擎提供个性化的ADRD饮食服务。

随着深度学习方法的发展,诊断决策变得可解释。理论上,基于规则的引擎可以通过挖掘扩展的知识无限逼近非线性分类器的性能。换句话说,通过集成可解释的知识规则,基于规则的引擎可以近似深度学习模型的性能。通过对规则的深度挖掘,临床辅助决策系统可以在动态阈值下进行多轮规则扩展,进一步扩展基于现有知识的决策能力。


中医知识图谱

构建TCM KG (表2)用于疾病诊断和治疗辅助等普通用途,我们对中医疾病诊断和治疗的EMR数据集进行了清洗,并以三元组表示实体关系。例如,给定胰岛素抵抗作为2型糖尿病机制的描述文本,提取句子中的实体和关系,并将其组织成一个疾病机制三重(胰岛素抵抗,机制=>疾病,糖尿病)。KG定义为G=(E,R,S),其中实体、关系和三元组,而|E|和|R|分别是实体和关系的计数。三元组由实体、关系、描述概念或属性组成。

传统的KGE模型被设计用来学习实体和关系的静态表示。通过表示相邻实体和关系来获得图上下文的特征。在不同的语境中,不同的实体和关系表达了不同的意义,因为单词出现在不同的文本语境中。多跳关系(即实体之间的路径)可以为KG中的推理提供丰富的上下文特征[29].现有工作[34]表明多跳关系路径包含实体之间丰富的推理模式。由于并非所有的关系路径都是可靠的,我们设计了一个因果约束算法来过滤关系路径的可靠性。通过关系嵌入的语义组合来表示关系路径。将筛选的多跳关系扩展到三重选择组合。

筛选潜在多跳因果关系的规则见图1。例如,存在三元组(胰岛素抵抗治疗糖尿病)及(二甲双胍机制胰岛素抵抗)在临床KG中描述临床机制与疾病(或药物)之间的关系,作为图中的正例。根据“药物=>机制”和“机制=>疾病”的规律,可以推断出一种药物与一种疾病之间的因果多跳关系,表明二甲双胍可以治疗胰岛素抵抗型糖尿病。三元组(血脂异常症状糖尿病)及(血脂异常症状慢性肾病[其中CKD指慢性肾脏疾病])同时发生,不能反映糖尿病与CKD或血脂异常之间的因果关系。这些阴性三元组是按照规定筛选的。

中医疾病(腹部肿块)的偶然多跳关系=>机制的一个例子(痰湿毒素血瘀)机制= >机制(清算heat-toxin消除湿)疾病= >药物(汉语词根白头翁)可以根据规则(腹部肿块疾病= >药物痰湿毒素血瘀), (痰湿毒素血瘀机制= >机制清算heat-toxin消除湿),及(腹部肿块疾病= >药物汉语词根白头翁)。也就是说,可以推断出中医偶然性的多跳关系,符合中医“病-证-理-法-方-药”的认知,即上述路径“病=>机=>治=>药”。

实体的语义糖尿病二甲双胍通过嵌入由三元组推断的两跳路径(二甲双胍机制胰岛素抵抗)及(胰岛素抵抗治疗糖尿病).表示多跳关系,给定从实体出发的2跳路径二甲双胍糖尿病糖尿病,三重形式(二甲双胍mechanism-treat糖尿病)用于一致性。由于融合了多跳特征,实体和关系的表示往往具有较强的推理能力,有利于实体链路的预测。KG被表示为描述实体的多跳关系的文本三元组。

表2。TCM概述一个公斤b
名字的关系 头,n 反面,n 三元组,n
= >症状症状 8101 8544 51345年
= >疾病症状 12225年 15071年 133648年
疾病= >药物 12650年 11526年 84524年
机制= >机制 527 51 590
= >症状的药物 3941 6145 24724年
= >症状的机制 6544 1096 10906年
= >疾病症状 8101 10391年 87651年
机制= >部门 1908 65 4408
症状= >身体部位 318 85 548
机制= >身体部位 2217 72 3221
机制= >症状 2147 4191 16377年
症状= >部门 10157年 178 24870年
疾病= >机制 7774 5304 46425年
疾病= >身体部位 7607 110 13505年
疾病= >部门 14484年 284 40762年
= >疾病 9728 10545年 40575年
疾病机制= > 2228 5443 20621年

一个中医:传统的中医。

bKG:知识图谱。

图1所示。多跳关系滤波和生成的正反例。CKD:慢性肾脏疾病;T2DM: 2型糖尿病。
查看此图

知识图谱表示框架

在对中医KG数据进行预处理后,基于中西医诊疗KG数据,应用基于coke的KG表征学习模型,提出了一种新的KG表征框架。与TransE和KBAT等流行的知识表示学习模型相比,我们的框架融合了CoKE和多跳关系。该框架通过下游应用程序进行验证,例如辅助决策和问题回答,如图2

图2。提出中医KG表征学习框架。情境化知识图谱嵌入;KG:知识图谱;中医:传统的中医。
查看此图

实体链路预测

本文利用CoKE模型作为基础模型。利用BERT模型来学习CoKE中实体和关系的上下文化嵌入。输入序列X = (X1, x2,…,xn)由头部实体x的嵌入组成1尾部是xn,关系的嵌入用x表示2从xn - 1。鉴于x从输入序列中,隐藏的表示h表示为式1:

在哪里元素的嵌入是和吗是元素的位置嵌入。前者用于识别中的当前实体或关系,后者表示元素在序列中的位置特征。将构造的隐藏表示馈送到L层的变压器编码器中,如式2:

在哪里是x的隐式表示吗在编码器的第l层。转换器利用了多头自关注机制,它允许每个元素有效地关注上下文特征建模序列中的其他元素。由于变压器的使用最近已变得无处不在,我们省略了变压器的详细描述。最终隐藏表示是序列x中实体和关系的表示。学习到的表示被自然地语境化并自动适应输入。

多跳关系表示学习

给定KG中的三元组(s,r,o),头和尾实体之间的上下文可以描述为一条边和一条路径。一条边s→r→o被表示为一个序列,它可以被看作一个三元组。例如,一条边二甲双胍机制胰岛素抵抗可以组成一个三组(二甲双胍机制胰岛素抵抗)等价。作为KG的基本单位,边(或三元组)是描述实体的图上下文的最简单形式。另一个上下文是路径s→r1→→r…k→0作为一个由头和尾实体组成的序列,以及它们之间的链接关系列表。例如,路径描述头部实体之间的多跳关系二甲双胍尾部实体糖尿病糖尿病,在那里胰岛素抵抗中间实体是否在路径中,而机制治疗是关系。路径可以表示为三元组(二甲双胍mechanism-treat糖尿病).多跳路径表示由实体的上下文特征组成,可用于KG中的推理。

为了验证该模型的有效性,对知识图补全(KGC)中的实体链接预测进行了实验[35],进行多跳关系表征学习。实体链接预测是指预测三元组(h, r, ?)和(?)的缺失目标实体的任务。, r, t),由KGE模型的语义约束集合的候选实体。PathQuery回答[36]用于多跳关系表示学习实验。给定源实体s和关系路径p,预测通过路径p从源实体s推断出的一组目标实体。

在实体链接预测中,我们的模型被训练来预测缺失的目标实体,给定KG中的上下文,回答1跳或多跳查询。考虑了不同的策略来训练我们的模型关于边和路径的情况。每条边s→r→o与2个实例相关联?→r→o和s→r→?,可视为1跳查询应答。例如,二甲双胍机制是回答这个问题,m的机制是什么etformin?同样,每条路径都是s→r1→→r…k→o还与2个实例相关联,一个用于预测s,另一个用于预测o,这可以看作是多跳问答。例如,就是回答这个问题,什么疾病可以通过机制来治疗二甲双胍

在训练过程中,将边缘或路径统一为输入序列X = (X)1, x2,…,xn).通过替换x创建了两个实例1使用特殊的令牌[MASK]进行s预测并替换xn使用[MASK]进行预测。将掩码序列输入到变换编码块中,得到最终的隐藏表示,用于目标实体的预测。

与BERT模型一样,将被屏蔽实体的表示输入前馈神经网络,并利用标准Softmax层进行分类(公式3):

在z1和znh的表示是什么l1和hln由前馈层产生,而是一个与输入元素共享的矩阵,用于分类的嵌入矩阵。D是隐藏的大小,V是实体词汇表的大小,p1和pn为目标实体s和0的预测分布,利用交叉熵损失作为损失函数进行分类(式4):

在yt和pt分别为1-热标签向量y和分布向量p的第t个分量。利用标签平滑策略来减少1-hot标签的限制。换句话说,目标实体的值设为ε,而yt= (1 - ε)/(V - 1)表示候选实体集中不正确的实体。

知识蒸馏

受TinyBERT的启发[37]的知识蒸馏模型,我们的CoKE-distillation模型包含一个teacher和一个student的知识蒸馏模型,如图所示图3

图3。焦炭蒸馏体系结构。情境化知识图谱嵌入。
查看此图

我们提出的焦炭精馏模型包括3层精馏:嵌入层精馏、变压器层精馏和预测层精馏。在嵌入层蒸馏层面,学生和教师模型的嵌入矩阵受到均方误差(MSE)损失的约束(式5):

在哪里是一个可训练的线性变换矩阵,用于将学生模型的嵌入投影到教师模型的语义空间。学生模型和教师模型的嵌入矩阵表示为式中,l为序列的长度,d0为教师模型嵌入的大小,d为学生模型嵌入的大小。

在变压器层蒸馏层面,焦炭蒸馏模型以k层为间隔进行知识蒸馏。例如,如果学生模型有4层,则每3层计算一次变压器损耗,因为教师模型有12层。学生模型的第一层与教师模型的第三层相对应,学生模型的第二层与教师模型的第六层相对应,以此类推。每一层的变压器损耗分为两部分:基于关注的知识蒸馏和基于隐式状态的知识蒸馏。每一层的损失包括基于注意力的知识蒸馏损失和基于隐藏状态的知识蒸馏损失。

基于注意力的知识蒸馏损失表示为式6:

h是注意头的数量,表示教师或学生第i个头部对应的注意矩阵,l为输入文本的长度。

基于状态的隐性知识蒸馏损失表示为式7:

其中矩阵分别参考学生模型和教师模型的隐藏表示。在预测层精馏层面,预测损失如式8所示:

在zT和z年代分别为学生和老师预测的logit向量,CE为交叉熵损失,t为温度值。在我们的实验中,t设为。


数据集

为了评估所提出的模型,广泛使用的标准数据集FB15k-237 [38,这是Freebase知识库的一个子集[6]有14,541个实体和237个关系。由于FB15k数据集中存在冗余关系,FB15k -237去掉了逆关系,防止模型通过逆关系直接推断目标实体。FB15k-237数据集随机分为3个集(训练集、验证集和测试集),其中训练集有272,115个三元组,验证集有17,535个三元组,测试集有20,466个三元组。

我们构建了一个中医诊疗数据集,称为TCMdt,它由实体和关系构成三元组。该数据集包含17种关系,59,882个实体,604,700个三元组,无重复关系和逆关系。N-1关系有3811种,如关系组合mechanism-body部分机制。其余为N-N关系,共600,868个。数据集中不存在1-1和1-N关系。数据集分为训练集、验证集和测试集,共包含59,882个实体和17个关系。FB15k-237和TCMdt数据集的详细信息如下所示表3

高血压数据集(表4)用于多标签建模任务,在我们的实验中评估KGE学习的有效性。中医已被用于高血压的诊断,具有显著的优势。中医症状分析与建模为临床医生准确、高效地诊断高血压提供了途径。在这项研究中,最初的数据是从训练有素的医生和临床医生那里收集的。从广东省立医院临床科室收集928例高血压患者的详细资料,包括荔湾区的住院和门诊病历[39].将所有信息不完整的病例从数据集中剔除,剩余886例(95.47%)用于本研究的分析。

数据集中每个病例有129个中医症状特征维度和1-hot格式的证候诊断标签。每个病例有2-5个经培训的临床医生重新鉴定的中医证候诊断标签。利用上述中医数据集构建证候实体的KGE和症状向量与矩阵。

表3。FB15k-237数据集和构建的TCMdt数据集的统计。
数据集 实体,n 关系,n 训练集中的三元组n 验证集中的三元组,n 测试集中的三元组n
fb15k - 237 14541年 237 272115年 17535年 20446年
TCMdt 59882年 17 544230年‬ 30235年 30235年
表4。中医高血压病数据集统计一个
特性,n 类、n 总病例数,N 验证
121 8 886 10倍交叉验证

一个中医:传统的中医。

基线

实验中使用基线方法进行比较,包括平移模型、双线性模型、旋转模型、GNN和基于变压器的模型。模型及其类型的详细信息见表5

表5所示。KG的基线方法一个表示学习。
模型类型 模型
平移模型 TransE [13], TranH [14], TransR [15], TransD [16
线性或双线性模型 复杂的(21], DistMult [19],简单的[22
旋转模型 旋转(17
GNNb KBATc26
Transformer-based模型 可口可乐d29

一个KGE:知识图谱。

bGNN:图神经网络。

cKBAT:知识库关注。

d情境化知识图谱嵌入。

评价指标

对于评价指标,Sun等[40]发现一些高性能可归因于不适当的评估协议,并提出了一个评估协议来解决这个问题。该方案在处理模型偏差方面具有更强的鲁棒性,而模型偏差可能会对最终结果产生重大影响。Ruffinelli等[41]对各种KGE模型的训练方法进行了系统的实验,发现一些早期的模型(如RESCAL)在调整训练策略和探索更大的超参数搜索空间后,可以优于最先进的模型。这表明,由于训练策略可能起关键作用,模型的性能改进可能不能反映其优势。因此,我们建立了统一的评价标准,以挖掘模型的宝贵思想和优势。

我们使用了平均倒数秩(MRR)和Hits@N,这是KGs中经常用于链路预测任务的评估指标(公式9和10)。应用Wang等人给出的过滤设置[14],测试三元组中头部或尾部实体的排名(e, rkej)在过滤后的实体集中计算。过滤后的实体集包含可用于生成有效三元组的实体,这些三元组在训练集中没有有效的头或尾实体。MRR的较大值表明KGE模型具有精确实体表示的能力,而Hits@N表示经验排名在N(1,3或10)内的头尾实体的比率。

在方程式中,|Γt|是测试三重集Γ的大小t, I(·)为指标函数,而表示头实体和尾实体的秩值e和ej,分别。

模特表演

在比较中,我们使用256、512、1024和2048维的嵌入向量和足够的迭代来评估模型,以确保获得的嵌入符合下游任务的要求。结果显示在表67。与基线模型相比,CoKE模型在标准数据集和构建的TCMdt数据集上都表现出较好的性能。CoKE模型的MRR最高,CoKE-多跳模型的MRR最好Hits@10。与焦炭模型相比,焦炭-多跳-蒸馏模型在MRR和HIT@10上仍然具有竞争力。

为了评估KGE学习的有效性,在多标签建模任务实验中使用了10倍交叉验证。与典型模型multilabel k nearest neighbors (MLKNN)、RandomForest-RAkEL(其中RAkEL指随机k-labelset)、LogisticRegression-RAkEL和deep neural network (DNN)相比[42],所提出的模型在指标精度、召回率和F1分数上优于基线模型,见表8。此外,添加KGE的多标签模型的性能优于未添加KGE的多标签模型。结果表明,学习后的KGE能够提高深度学习模型的性能。

如图所示图4在训练过程中,DNN+BILSTM- kge (BILSTM指双向长短期记忆)在评估指标(如精度和F1分数)上优于DNN。与DNN相比,DNN+BILSTM-KGE的平均精度和F1分数有所提高,前50次迭代的Hamming损失显著降低。

表6所示。FB15k-237数据集上链路预测的性能比较。
模型 MRR一个 Hits@N

@10 @3 @1
TransE 0.296 0.499 0.330 0.196
简单的 0.306 0.496 0.341 0.212
旋转 0.314 0.505 0.347 0.221
复杂的 0.296 0.489 0.333 0.200
DistMult 0.309 0.506 0.346 0.211
KBATb 0.103 0.337 0.248 0.103
ConvKB 0.407 0.527 0.333 0.200
可口可乐c 0.362 0.550 0.400 0.269

一个MSE:均方误差。

bKBAT:知识库关注。

c情境化知识图谱嵌入。

表7所示。TCMdt数据集上链路预测的性能比较。
模型 MRR一个 Hits@N

@10 @3 @1
TransE 0.243 0.428 0.279 0.150
简单的 0.162 0.436 0.222 0.113
旋转 0.146 0.424 0.193 0.090
复杂的 0.137 0.411 0.177 0.080
DistMult 0.164 0.438 0.223 0.117
ConvKB 0.271 0.464 0.302 0.192
可口可乐b 0.332 0.491 0.365 0.250
KBATc 0.129 0.369 0.178 0.088
CoKE-multihop 0.251 0.515 0.278 0.261
CoKE-multihop-distillation 0.32 0.483 0.374 0.260

一个MSE:均方误差。

bKBAT:知识库关注。

c情境化知识图谱嵌入。

表8所示。深度学习多标签模型的10倍交叉验证结果。
指数 精度 回忆 F1的分数
MLKNN一个(汉明损失= 0.186;最佳参数:K=26)

Micro-avg 0.810 0.710 0.760

Macro-avg 0.800 0.610 0.660
RandomForest-RAkELb(汉明损失= 0.186;最佳参数:n_estimators=800)

Micro-avg 0.790 0.740 0.760

Macro-avg 0.760 0.640 0.670
LogisticRegression-RAkEL (Hamming loss=0.173;最佳参数:C=0.5)

Micro-avg 0.810 0.750 0.780

Macro-avg 0.760 0.660 0.700
c(汉明损失= 0.186;最佳参数:hidden=500, layer=3)

Micro-avg 0.790 0.740 0.760

Macro-avg 0.750 0.670 0.700
款+ LSTMd-KGEe(汉明损失= 0.167;最佳参数:hidden=500, layer=3, LSTM=128)

Micro-avg 0.800 0.790 0.790

Macro-avg 0.740 0.740 0.740
款+ BILSTMf-KGE (Hamming loss=0.127;最佳参数:LSTM=128)

Micro-avg 0.860 0.820 0.840

Macro-avg 0.810 0.770 0.790

一个MLKNN:多标签k近邻。

bRAkEL:随机k-标签集。

cDNN:深度神经网络。

dLSTM:长短期记忆。

e知识图谱嵌入。

f双向长短期记忆。

图4。DNN和DNN+BILSTM-KGE的性能。BILSTM:双向长短期记忆;DNN:深度神经网络;知识图谱嵌入。
查看此图

学习到的实体表示通过t-SNE可视化,如图所示图5。症状和中医证候要素分别用〇和X表示。表征分布符合中医理论常识,不同类型中医证候之间边界明显(剪影评分>0.44)。通过KGE学习方法,学习到的表征直观地保留了中医证候的语义信息。此外,实体之间的关系杨多动头晕是否类似于实体之间的关系肝脏抑郁绳的脉冲,表明训练后翻译距离的语义约束得到了保留。结果表明,采用KGE学习方法学习的表征能够提供中医的语义信息。

图5。学习实体可视化的表示。
查看此图

主要研究结果

实验表明,该模型性能稳定,可用于改进下游任务。我们假设KGE学习可以改善下游任务,因为KGE提供的语义信息保存在KGC任务中缺失实体和关系的学习表示中。KGE适用于存在不完整性问题的场景,包括中医诊断和治疗的知识发现和辅助决策。基于临床KGE模型,根据医师对临床知识本体的定义,自动提取医师治疗的优势疾病、证据、症状、理论、治疗方法、处方、药物、概念映射等信息。受Luo等人的启发[43], Jin等[44],将临床KG中的三元组用于学习中国医生的个性化KGE模型。

通过个性化KGE模型的实体链接预测,缓解了KGE模型的不完备性问题。通过KG的可视化,我们的系统帮助专家识别和扩展实体的潜在关系和邻居,以获得隐性知识的显式性。通过多次迭代的嵌入式学习,KGE模型适合于中国医生的治疗决策。理论、治疗方法、处方、因果推理能力和可解释性都有所提高。

由中医子宫内膜异位症的理论、治疗方法、处方和药物组成,我们的KG可视化如图所示图6。构建个性化妇科KG,协助专家进行知识发现和决策。箭头的厚度代表潜在因果关系的强度,淋巴结的大小代表其在妇科EM KG中的重要性。我们的系统对节点进行聚类,并用不同颜色的聚类表示它们。不同形状的节点表示不同的实体类型。

我们参考了大量古今文献和中西医诊疗资料,结合自然语言处理中的实体提取和因果关系提取技术。根据中医对领域知识的定义,来自真实案例的有效实体和关系包括中医疾病名称、中医处方名称、检验检查名称、西药疾病名称、中医症状名称、医院科室。在训练过程中,对CoKE模型的权重进行更新,直到收敛,以生成捕获临床可解释性语义特征的嵌入向量。该模型可用于中国医生的个性化推荐、问题解答和诊断模型的优化。

受异构网络表示学习模型的启发[45],提出了中医知识发现与决策的框架,见图7

图6。由中医EM理论、治疗方法、处方和药物组成的个性化KG可视化。新兴市场:子宫内膜异位症;KG:知识图谱;中医:传统的中医。
查看此图
图7。框架在中医知识发现与决策中的应用。CKG:协同知识图谱;TCM:传统中医;QA:提问和回答。
查看此图

对于医疗推荐和辅助决策,第一步是收集关于四种诊断方法的客观信息。临床KG结合了从舌头和面部诊断设备中识别的多模态信息,即使在少量的学习场景中,也可以用来提高模型的性能。KGs可以有效地解决推荐系统中的稀疏性和冷启动问题。将KGs作为外部信息集成到推荐系统中,有利于系统具备常识性推理能力。基于gnn强大的信息聚合能力和推理能力,我们设计了一个推荐症状、疾病和中国医生的推荐系统,有效地提高了推荐的性能。此外,gnn的信息传播和推理能力也为推荐结果提供了可解释性。

该模型可用于基于多模态信息和专业问卷的高质量辅助诊疗决策。我们的系统帮助医生和病人有效地建立在线档案,提高了临床病例的研究价值。基于自然语言构建的KGs与文本挖掘有很强的联系。KGE可用于提高文本分类和生成模型的性能。例如,在回答哪种降糖药物对肥胖糖尿病患者更好的问题时,可以利用KGE来消除实体歧义。与链接预测类似,问答中的知识推理在给定KG的情况下推断实体之间的新关系,这通常是一个多跳关系推理过程。例如,可以将问题视为查询通过可口可乐的PathQuery应答可以预测哪些药物推荐,从而获得相关药物,包括二甲双胍46-49].

结论

本文提出了一种kg融合多跳关系自适应CoKE框架,用于筛选增强、知识补充、知识推理和知识蒸馏。实验和临床实践证明了该模型在中医知识发现和辅助决策方面的优越性。中医是一门注重传承和实践的系统学科。古代文献和中国医生的实验案例中隐藏着大量的知识,可供研究人员挖掘。未来,我们的目标是提高中医人机协作知识库智能系统的质量。在异构gnn的知识融合、KGs与gnn的复杂推理、gnn的可解释学习等方面将进行更深入的研究。

致谢

国家自然科学基金(#61871141)、广东省重点领域研发计划项目(#2021A1111120008)、广州中医药大学协同创新团队(#2021XK08)、中医湿证国家重点实验室(#SZ2021ZZ3004、SZ2021ZZ01)资助。

利益冲突

没有宣布。

  1. 杜军,史丹。中医治疗慢性病的优势及中医对现代医学治疗模式的启示。北京中医药杂志,2010;29(4):3。
  2. 翁宏,刘志,严松。中药知识图谱自动化构建框架。健康信息科学2017:170。[CrossRef
  3. 谷歌知识图谱搜索API。URL:https://developers.google.com/knowledge-graph[2022-08-09]访问
  4. Paulheim H.数据驱动的dbpedia映射和本体联合调试。2017年出席:第十四届国际欧洲语义网会议;2017年5月28日至6月1日;porororov,斯洛文尼亚,第404-418页。[CrossRef
  5. 张建军,张建军,张建军,等。语义知识的核心。2007年发表于:第十六届国际互联网会议;2007年5月8日至12日;班夫,阿尔伯塔,加拿大,第697-706页。[CrossRef
  6. Bollacker K, Evans C, Paritosh P. Freebase:一个用于构建人类知识的协作创建的图形数据库。2018年发表于:SIGMOD/PODS '08:数据管理国际会议;2008年6月9日至12日;加拿大温哥华1247-1250页。[CrossRef
  7. 刘震,崔安。大数据智能:互联网时代的机器学习和自然语言处理。北京:电子工业出版社;2016.
  8. 程X,金X, Y,李郭J (T) g .大数据系统调查和分析技术。软件学报,2014(9):1889-1908。
  9. 周旭,曹晨。基于本体的医学知识获取方法。中国:中国科学院计算技术研究所智能信息处理重点实验室;2003.
  10. 贾磊,刘健,于涛,朱磊,高斌,刘磊。中药知识图谱的构建。中华医学杂志,2015:51-53。
  11. 贾丽,朱丽,董艳。中药语言体系评价体系的研究与建立。中华指医学2012;07(01):13-16。
  12. 刘建军,刘建军,刘建军,等。基于电子病历的健康知识图谱研究。科学通报2017;7(1):5994 [j]免费全文] [CrossRef] [Medline
  13. 张建军,张建军,张建军,等。多关系数据建模中嵌入的翻译。Adv神经信息处理系统2013:26。
  14. 王铮,张军,冯军,陈哲。基于超平面翻译的知识图嵌入。中国生物医学工程学报,2014;28(1):1112-1119。[CrossRef
  15. 林勇,刘震,孙敏,刘勇,朱霞。基于学习实体和关系嵌入的知识图谱补全。中国农业科学学报,2015;29(1):2181-2187。[CrossRef
  16. 肖华,黄明,朱鑫。从一点到流形:面向精确链接预测的知识图嵌入。2015年出席:第25届国际人工智能联合会议;2016年7月9日至15日;纽约,纽约,1315-1321页。
  17. 季刚,何生,徐磊,刘凯,赵杰。基于动态映射矩阵的知识图嵌入。2015年在第53届计算语言学学会年会暨第7届国际自然语言处理联合会议上发表;2015年7月;北京,中国,687-397页。[CrossRef
  18. Nickel M, Tresp V, Kriegel HP。多关系数据集体学习的三向模型。2011年发表于:第28届国际机器学习会议;2011年6月28日至7月2日;Bellevue, WA p. 809-816。
  19. 杨斌,叶伟,何翔,高军,邓磊。基于实体和关系的知识库学习与推理嵌入。ICLR 2015:13。
  20. 张建军,李建军,张建军。知识图谱的全息嵌入。中国生物医学工程学报,2016;30(1):55- 61。[CrossRef
  21. 周建军,李建军,郭建军,等。一种基于复杂嵌入的简单链接预测方法。ICML 2016:2071 - 2080。
  22. 李志强,李志强。知识图谱中链接预测的简单嵌入。NeurIPS 2018:神经信息处理系统年会;2018年12月3日至8日;加拿大montr薪金,第4284-4295页。
  23. Dettmers T, Minervini P, Stenetorp P, Riedel S.卷积二维知识图嵌入。2018年4月25日出席:AAAI-18:第三十二届AAAI人工智能会议;2018年2月2-7日;新奥尔良,洛杉矶(1811-1818)[CrossRef
  24. 阮德强,阮涛,阮鹏。一种基于卷积神经网络的知识库补全嵌入模型。2018年:计算语言学协会北美分会2018年会议:人类语言技术;2018年6月1日至6日;新奥尔良,洛杉矶327-333页。[CrossRef
  25. 吴涛,阮道德,阮德强。基于胶囊网络的知识图谱补全和搜索个性化嵌入模型。2019年在计算语言学协会北美分会2019年会议上发表:人类语言技术;2019年6月1日至8日;明尼阿波利斯,明尼苏达州,第2180-2189页。[CrossRef
  26. 张建军,张建军。基于学习注意力的知识图关联预测方法。2019年发表于:计算语言学协会第57届年会上;2019年7月28日至8月2日;佛罗伦萨,意大利第4710-4723页。[CrossRef
  27. Devlin J, Toutanova LK. BERT:基于深度双向变换的语言理解预训练。2019年在计算语言学协会北美分会2019年会议上发表:人类语言技术;2019年6月1日至8日;明尼阿波利斯,明尼苏达州第4171-4186页。
  28. Vaswani A, Shazeer N, Parmar N,注意力就是你所需要的。2017年发表于:第31届神经信息处理系统国际会议;2017年12月4日至9日;长滩,加州,p. 6000-6010。
  29. 王强,黄鹏,王海焦:情境化知识图嵌入。arXiv 2019:2168。[CrossRef
  30. 钱伟,付超,朱勇,蔡东,何霞。基于关系注意机制的知识图嵌入翻译。2018年发表于:第二十七届国际人工智能联合会议;2018年7月13日至19日;斯德哥尔摩,瑞典,4286-4292页。[CrossRef
  31. 沈勇,袁凯,戴军,唐斌,杨敏,雷凯。KGDDS:基于知识图谱的药物替代相似性度量系统。医学系统杂志2019年3月05日;43(4):92。[CrossRef] [Medline
  32. 郑伟,闫磊,苟昌,张志超,贾森·张军,胡敏,等。关注医患对话:针对COVID-19诊断的多模态知识图关注图像-文本嵌入。中国生物医学工程学报(英文版);31 (5):391 - 391 [j]免费全文] [CrossRef] [Medline
  33. 李静,Maharjan B,谢波,陶晨。基于语音的阿尔茨海默病及相关痴呆护理人员个性化饮食助手:系统开发与验证。[J]医学互联网研究,2020,Sep 21;22(9):e19897 [J]免费全文] [CrossRef] [Medline
  34. 林勇,刘志,栾华。知识库表示学习的关系路径建模。2015年发表于:自然语言处理经验方法会议;2015年9月17-21日;里斯本,葡萄牙,705-714页。[CrossRef
  35. 刘建军,刘建军。基于基线的知识库完备性研究。2017年发表于:第二届NLP表征学习研讨会;2017年8月;温哥华,加拿大,第69-74页。[CrossRef
  36. 郭凯,Miller J,梁平。向量空间知识图的遍历。2015年发表于:自然语言处理经验方法会议;2015年9月;里斯本,葡萄牙第318-327页。[CrossRef
  37. 焦霞,尹勇,尚玲,姜霞,李丽,王峰,等。TinyBERT:将BERT提炼成自然语言理解。见:计算语言学协会的调查结果。Stroudsburg, PA:计算语言学协会;2020:4163 - 4174。
  38. 知识库与文本推理的观察特征与潜在特征。2015年发表于:第三届连续向量空间模型及其组合性研讨会;2015;北京,中国,第57-66页。[CrossRef
  39. 或者,林X,李·g·李维斯:中医高血压数据集。2013年发表于:IEEE生物信息学与生物医学国际会议;2013年12月18-21日;上海,中国,第192-197页。[CrossRef
  40. 孙忠,王志强,王志强。知识图谱补全方法的再评价。2020年发表于:计算语言学协会第58届年会上;2020年7月5日至10日;西雅图,华盛顿州5516-5522页。[CrossRef
  41. rufinelli D, Broscheit S, Gemulla R.你可以教老狗新把戏!关于知识图嵌入的训练。2019年出席:第七届国际学习表征会议;2019年5月6日至9日;新奥尔良,洛杉矶。[CrossRef
  42. 麦克斯韦A,李锐,杨波,翁华,欧安,洪华,等。智能健康风险预测的多标签分类深度学习架构。BMC Bioinform 2017 Dec 28;18(增刊14):523 [j]免费全文] [CrossRef] [Medline
  43. 罗勇,侯辉,陆军。基于知识图实验挖掘的杨尼智教授糖尿病肾病诊疗规律分析。中药现代化-世界科学技术,2020;22(5):1464-1471。
  44. 金丽,张涛,何伟。张仲德教授临床特点及方剂分析。现代传统中药与世界科学技术,2021:1-11。
  45. 杨超,肖燕,张燕,孙燕,韩杰。异构网络表征学习:基于调查和基准的统一框架。计算机工程学报(英文版);2010;01 - 01。
  46. 胡林,杨涛,石晨。基于图神经网络的知识图谱研究进展。CCF 2020;016(008):38。
  47. 邱鑫,孙涛,徐宇,邵宇,戴宁,黄霞。自然语言处理的预训练模型研究进展。中国科学技术科学2020年9月15日;63(10):1872-1897。[CrossRef
  48. 杜斌,万刚,季勇。基于几何深度学习的知识图技术综述。航空武器装备,2020;27(3):1-10。
  49. 关松,金霞,贾宇,王宇,程霞。基于知识图的知识推理研究进展。[j]软件学报,2018;29(10):2966-2994。


ADRD:阿尔茨海默病及相关痴呆
人工智能:人工智能
BILSTM:双向长短期记忆
CKD:慢性肾病
可口可乐:情境化知识图谱嵌入
款:深度神经网络
新兴市场:子宫内膜异位
EMR:电子病历
GNN:图神经网络
KBAT:知识库注意
公斤:知识图谱
KGC:知识图谱补全
KGE:知识图嵌入
MLKNN:多标签k个近邻
MRR:平均倒数秩
均方误差:均方误差
RAkEL网:随机k-labelsets
中医:中医
TCMLS:中医语言系统


郝编辑;提交31.03.22;同行评议的C,李;对作者的评论09.05.22;收到04.07.22修订版本;接受27.07.22;发表02.09.22

版权

©翁恒,陈杰龙,欧爱华,老应荣。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 02.09.2022。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map