这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
来自同行评审文献的证据是设计应对COVID-19等全球威胁的基石。在大量快速增长的语料库中,如COVID-19出版物,吸收和综合信息具有挑战性。利用一个健壮的计算管道来评估多个方面,如网络拓扑特征、社区及其时间趋势,可以使这个过程更有效。
我们的目标是证明可以使用文献的底层无监督词嵌入中的时间变化来捕获和跟踪新知识。进一步的即将到来的主题可以通过机器学习来预测单词之间不断发展的联系。
频繁出现的医疗实体是从世界卫生组织数据库中发表的15万多篇COVID-19文章的摘要中提取的,这些文章从2020年2月开始每月收集一次。在每个月的文献上训练词嵌入,以余弦相似度作为边权来构建实体网络。根据先前的模式预测接下来一个月网络的拓扑特征,并使用监督机器学习预测新的链路。社区检测和冲积图被用来跟踪几个月来演变的生物医学主题。
我们发现,早在2020年8月,就发现血栓栓塞并发症是一个新兴的主题。2021年3月观察到长COVID并发症症状的转变,2021年6月神经并发症显著增加。一个前瞻性验证的链接预测模型实现了一个面积下的接收者工作特征曲线为0.87。基于前几个月观察到的模式,预测建模揭示了COVID-19出版物中的主要研究主题:易感条件、症状、交叉感染和神经并发症。
基于机器学习的新兴链接预测可以通过捕获由医学实体组所代表的主题,从而有助于指导研究,这些主题基于随着时间推移的语义关系模式。
COVID-19大流行是一项全球健康威胁,并已被证明是一个谜,其临床表现多样,治疗证据有争议,疫苗研发快速,系统性影响尚不明确。大多数国家都受到COVID-19的影响,截至2021年7月13日,短时间内约有1.87亿例确诊病例,有400多万人死亡[
文章摘要包含了文献中大量的信息。摘要中的命名实体在从大量文本中推断有价值的信息和影响文学趋势方面发挥着至关重要的作用[
预测“医学术语”之间的联系对于理解文献和现象中的潜在主题具有重要意义。链路预测是根据一组拓扑特征预测复杂网络中2个节点之间是否存在链路的任务。近年来,现实世界时间网络中的链路预测问题已经被探索了很多[
我们主要关注快速出现的COVID-19文献,以训练和验证我们的研究架构。我们预测了命名实体对在前几个月的时间趋势中产生的语义和拓扑接近特征。此外,我们使用这些预测特征来预测从文本数据中提取的临床实体之间的联系,使用机器学习算法在预测的时间间隔内。此外,这些链接被用于创建一个由预测余弦相似度加权的网络,用于检测倾向于反映当月发表文章主题的实体社区。为了评估我们的预测模型的有效性,我们使用均方误差(MSE)验证了从自回归综合移动平均(ARIMA)预测的实体对的接近特征。我们还评估了机器学习算法在3个月时间跨度内预测链接的性能。
工作流程的示意图已被演示(
所建议的框架的图解说明了完整的工作流程。管道将抽象作为输入,使用命名实体识别从抽象中提取实体。生成嵌入,将其用作纵向网络的特征。这些网络用于使用冲积图、链接预测和预测主题预测的前k个有影响力的模块来可视化趋势。自回归综合移动平均。
数据集是根据公开的世卫组织数据库中发表的约15万篇COVID-19文章摘要创建的[
(A)图表显示每月出现的文章数量。该曲线显示,自2020年2月以来,每个月的文章数量都在急剧增长。(B)围绕关键词“后covid综合征”可视化的疾病词嵌入潜空间,显示离其最近的100个孤立点。(C)柱状图显示了使用命名实体识别(NER)提取的摘要文集中顶部疾病的频率。(D)柱状图显示了使用NER提取的摘要语料库中顶部化学物质的频率。HCQ:羟氯喹;IL:白介素。
命名实体识别(NER)用于从经过审查的研究文章的原始摘要中提取2种类型的实体(疾病和化学品),使用由生物医学自然语言处理开源项目SciSpacy在BC5CDR语料库上预训练的模型[
词汇嵌入是根据从世卫组织数据库获得的摘要进行训练的,这些摘要随着每月提供的新出版物和预印本而得到更新。对于摘要语料库中出现的单词,使用带有跳跃式图算法的Word2Vec模型和在Gensim中实现的固定窗口大小为5来学习低维表示(d=100) [
高余弦相似度代表单词之间的强关联。我们使用历时词嵌入来捕捉各种疾病之间不断演变的上下文相似性,并研究随时间的演变。利用提取实体词向量之间的相似度作为边权,构建加权网络。从每个月的摘要语料库中,提取出前N(=100)个最常发生的疾病,并使用基于相应月份的词嵌入的余弦相似度大于90百分位的对来创建跨月份的实体联合集,保存为时间网络中的节点。因此,每个月的网络都有一组固定的节点,这些节点具有不同的链接,根据余弦相似度的阈值标记为0或1,以及根据不断进化的语义紧密度计算的不同权重。所述阈值是在实验的基础上进行经验选择的;我们选择了一个高阈值来描述存在于同一潜在空间的两个单词之间的上下文相似性。为了培训和评估,使用上述程序,从2020年2月至2021年2月发表的论文摘要中确定的疾病创建了一组固定的实体对。在接下来的几个月里,词嵌入模型在各自的摘要语料库上进行训练,如果它们出现在词汇表中,则分配固定节点对集之间的链接,并通过它们的词向量之间的余弦相似度进行加权。使用Infomap算法在每月的网络中进行社区检测[
为了预测接下来几个月网络中节点之间是否存在链接,我们计算了每个月网络的5个邻里接近度分数。花牌相似,共同邻居,优先依恋
每个接近度得分被建模为每个节点对的时间序列,并使用ARIMA模型预测接下来一个月的值[
使用ARIMA模型预测的接近度分数进一步用于识别网络G中实体之间是否存在链接+1基于邻近性得分和所有以前的网络链接(G1G2G3.,…),使用监督机器学习。我们利用逻辑回归试验了所提出的链路预测方法[
使用最佳性能模型预测的节点对之间的链接来创建由ARIMA模型预测的余弦相似度评分加权的网络。在预测的和原始的测试网络上应用Infomap算法,将节点聚类为10个模块。这些模块使用交集/并集(IOU)进行比较,并使用以下公式:
其中A表示预测的第i个模块中的节点集合,i∊{1,2,…,10},B表示原始的第j个模块中的节点集合,j∊{1,2,…,10}。
总共鉴定出46,885种不同的疾病和53,375种独特的化学物质。顶部实体显示在
我们对不同月份的冲积图进行了详细的推断,以图形化的方式探索文献中基于流行医学实体的动态和同质网络及其相关余弦相似度的时间趋势。
我们进一步推进了趋势分析,以预测未来几个月实体对之间的联系。我们提出的时间链路预测框架通过使用ARIMA模型对时间序列建模,有效地预测了节点对之间的5个接近度得分,包括语义和拓扑度量。2021年4月、2021年5月和2021年6月各邻近得分预测的MSE为
分析了预测模块与原始模块之间的节点交集,以前瞻性地验证所提出的预测框架的有效性。
对基于化学实体构建的网络的分析揭示了COVID-19文献中研究的各种药物的进化。在2020年2月期间,主要模块包含扑热息痛、托法替尼、沙利度胺、维生素、锌和其他相关化学物质等实体。另一个相关模块包括多西环素、鲁索利替尼、肝素和伊维菌素等中心实体,这些实体在治疗和预防COVID-19的科学研究中被讨论。相比之下,我们最近更新的模型显示,2021年11月期间出现了各种免疫抑制药物(如他克莫司)和抗炎药物(如糖皮质激素和秋水仙碱)的证据(
(A)用于跟踪2020年趋势的冲积图,来自3月、8月和12月的网络。(B)用于监测2021年趋势的冲积图,来自1月、3月和6月的网络。冲积图便于在不同时间间隔追踪文献的时间动态。
(A)评估2021年4月、2021年5月和2021年6月网络的原始接近度得分与预测接近度得分之间的均方误差(MSE)。(B) 2021年4月、2021年5月和2021年6月AdaBoost分类器结果归一化值的混淆矩阵。AdaBoost是这三个月里表现最好的模型。(C) 2021年3月至2021年6月疾病实体之间的联系预测结果,误差范围为95% ci。通过在重采样的测试集上测试模型,记录度量指标的平均值。AUROC:受试者工作特征曲线下面积;RF:随机森林;支持向量机:支持向量机。
2021年1月和2021年6月预测网络中的疾病集群或模块。
模块ID | 2021年1月 | 2021年6月 | ||
|
前节点一个 | 借据b | 前节点 | 借据 |
1 | 急性肾损伤,ARDSc凝血功能障碍、心肌损伤、肺栓塞 | 0.45 | 头痛,淋巴细胞减少,呼吸困难,思维混乱,脑炎,恶心 | 0.71 |
2 | 心血管疾病糖尿病慢性阻塞性肺病d、高血压 | 0.66 | 纤维化,凝血障碍,血栓形成,缺氧,炎症,谵妄 | 0.70 |
3. | 呼吸道感染,中东呼吸综合征e、呼吸系统疾病 | 0.55 | 共病,哮喘,慢性阻塞性肺病,高血压,痴呆,糖尿病 | 0.64 |
4 | 抑郁,失眠,焦虑,孤独 | 0.71 | 创伤,焦虑,抑郁,孤独,倦怠,失眠 | 0.81 |
5 | 肌痛,淋巴细胞减少,头痛,嗅觉丧失,呼吸困难 | 0.43 | 免疫功能低下,慢性疾病,比如肺结核 | 0.33 |
一个提到了每个集群中顶部交叉节点的子集,它们共同表示主题。
b给定的交集在联合(IOU)之间的集群预测和原始网络的各自月份计算。
cARDS:急性呼吸窘迫综合征。
dCOPD:慢性阻塞性肺病。
e中东呼吸综合征(MERS):中东呼吸综合征。
在本文中,我们演示了一种计算方法EvidenceFlow,在这种方法中,用户与快速扩展的COVID-19文献进行交互,以推导和预测新出现的主题。所提出的框架跟踪实体对之间语义和拓扑接近性变化的模式。此外,它还预测了未来几个月可能出现的链接和网络社区。因此,用户可以关注有助于新兴主题社区的论文,例如,早在2020年8月捕获的关于血栓栓塞并发症的文献,以及2020年底期间的心理健康因素。在EvidenceFlow模型的交互界面上与聚类交互显示,长冠状病毒的症状,如疲劳、头痛、肌痛、咳嗽和嗅觉丧失,在2021年3月形成了一个中心聚类。这一积累证据的早期信号后来在大型前瞻性和回顾性COVID-19患者队列中得到验证[
对实体中心性上升所代表的主题进行预测,有助于形成有前景的研究假设。文学的动态揭示了中心主题的出现,是近代已有主题的结合[
我们对选定的化学和疾病实体的PageRank中心性趋势进行了分析。他汀类药物是一类降脂药物,与之前的值相比,在2021年底被发现越来越占中心地位(
为了探索无监督词嵌入和改变词间余弦相似度的潜力,我们分析了与所选关键词具有最大相似度的词的趋势。例如,我们通过找到与“疫苗”最相似的前10个术语,分析了几个月来“疫苗”上下文的时间变化
“疫苗”一词的上下文在交替月份中的时间演变。根据每月Word2Vec嵌入的余弦相似度,绘制出前10个最相似的单词。在最初的几个月,药物再利用的起源和演变,犹豫,和疫苗候选人在后面的几个月被强调。
我们的研究有一些局限性。首先,尽管世卫组织数据库是使用COVID-19文献的详细搜索策略建立的,但它没有明确报告搜索和决策过程的确切目的或准确性。文件[
此外,我们目前正在使用研究文章的摘要来提取命名实体,在训练词嵌入时,可能会遗漏文章全文中包含的细节。因此,今后的工作可以在这一框架的基础上,在任何可能的地方包括条款的全文。据报道,我们研究中使用的NER模型在基准数据集上取得了84.49%的F1分数[
为了推进COVID-19相关研究,在全球范围内成立了财团。全球的关注导致研究和预防疾病传播的科学文献广泛增加,从而从多个角度了解疾病。我们引入了一个基于世卫组织审查的covid -19特异性文献的框架,并将其部署为一个名为EvidenceFlow的仪表板[
补充文本。
COVID-19文献中属于特定类别的文章的频率。
用于本研究的软件和软件包的列表,以及它们的来源和本研究可重复性的标识符。
2021年6月节点对之间接近性得分预测的误差分布(用作模型训练中的特征)。
用于训练的模型和各自的参数。
围绕关键字“精神障碍”可视化的疾病和化学品词嵌入的潜在空间,显示离它最近的100个孤立点。
使用在整个语料库上训练的Word2Vec模型生成的词嵌入,按余弦相似度降序计算出具有选定关键词(“疫苗”、“共病”、“不良反应”、“社会”和“心理”)的前10个相似实体(疾病、病症或化学品)。
评估2021年4月、2021年5月和2021年6月网络的原始接近分数和预测接近分数之间的均方误差。
2021年4月、2021年5月和2021年6月实体之间的时间链接预测结果,误差范围为95%置信区间。
2021年6月测试集算法性能的韦尔奇检验结果。
2021年6月预测和实际网络的社区检测结果。
截至2021年6月,基于训练数据预测后续网络的社区检测结果。
2021年6月发表的文章摘要中提到属于实际(A)和预测(B)网络中每个模块的疾病的百分比。
用于跟踪2020年2月至2021年11月网络中化学实体趋势的冲积图。
(A)“他汀类药物”,(B)“糖皮质激素”,(C)“抑郁症”和(D)“血栓栓塞性”的PageRank中心性的时间趋势。
自回归综合移动平均
接收机工作特性曲线下面积
交集除以并集
均方误差
命名实体识别
世界卫生组织
我们感谢来自德里因陀罗普拉斯塔信息技术学院卓越医疗保健中心和卓越人工智能中心的支持。
RP和HC设计并实现了计算框架,对结果进行了解释,并撰写了论文。HB参与了相关仪表板的编写和创建。RA和AN解释了结果,并对统计方法提供了反馈。TS设计了研究,分析了结果,并贡献了写作。所有作者阅读并批准了最终论文。
没有宣布。