发表在gydF4y2Ba在gydF4y2Ba第八卷第6期(2020年):6月gydF4y2Ba

本文的预印本(早期版本)可在gydF4y2Bahttps://preprints.www.mybigtv.com/preprint/16678gydF4y2Ba,首次出版gydF4y2Ba.gydF4y2Ba
老年人虚弱状况的预测建模:机器学习方法gydF4y2Ba

老年人虚弱状况的预测建模:机器学习方法gydF4y2Ba

老年人虚弱状况的预测建模:机器学习方法gydF4y2Ba

原始论文gydF4y2Ba

1gydF4y2Ba建模与数据科学,都灵大学数学系,都灵,意大利gydF4y2Ba

2gydF4y2Ba都灵大学临床和生物科学系,都灵,意大利gydF4y2Ba

3.gydF4y2Ba意大利都灵,都灵3地方卫生股,区域卫生局流行病学股gydF4y2Ba

4gydF4y2Ba都灵大学兽医科学系数据分析与建模单元,意大利都灵gydF4y2Ba

通讯作者:gydF4y2Ba

Adane Tarekegn,理学硕士gydF4y2Ba

数学系建模与数据科学“,gydF4y2Ba

都灵大学gydF4y2Ba

卡洛·阿尔贝托,10岁gydF4y2Ba

都灵gydF4y2Ba

意大利gydF4y2Ba

电话:39 3394246167gydF4y2Ba

电子邮件:gydF4y2Baadanenega.tarekegn@unito.itgydF4y2Ba


背景:gydF4y2Ba虚弱是老年人中最重要的与年龄有关的疾病之一。它通常被认为是晚年生理机能下降的一种综合征,其特征是对不良健康结果的明显脆弱性。然而,到目前为止,尚未就脆弱性的明确操作定义达成一致。有广泛的研究检测虚弱及其与死亡率的关系。其中一些研究集中在与老年人群衰弱相关的可能的风险因素上,而预测谁将会增加衰弱的风险在临床环境中仍然被忽视。gydF4y2Ba

摘要目的:gydF4y2Ba我们研究的目标是基于临床特征和社会经济因素的数据库,使用不同的机器学习方法开发老年人虚弱状况的预测模型。gydF4y2Ba

方法:gydF4y2Ba使用了一个包含1,095,612名65岁以上老年人的行政健康数据库,其中有58个输入变量和6个输出变量。我们首先确定并定义了六个问题/输出作为脆弱的替代品。然后,我们通过重新采样过程解决了数据的不平衡性质,并在不同的机器学习(ML)算法-人工神经网络(ANN)、遗传规划(GP)、支持向量机(SVM)、随机森林(RF)、逻辑回归(LR)和决策树(DT)之间进行了比较研究。每个模型的性能都使用一个单独的不可见数据集进行评估。gydF4y2Ba

结果:gydF4y2Ba神经网络(TPR 0.81, TNR 0.76,准确度0.78,F1-score 0.79)和支持向量机(TPR 0.77, TNR 0.80,准确度0.79,F1-score 0.78)对死亡率结局的预测优于其他结局。平均而言,在六个问题中,DT分类器显示出最低的精度,而其他模型(GP, LR, RF, ANN和SVM)表现得更好。所有模型都显示,预测红色代码的紧急入院事件的准确性低于预测骨折和残疾。在预测紧急住院方面,各评价指标经10倍交叉验证,仅SVM的TPR为0.75,TNR为0.77,准确率为0.73,F1-score为0.76,均优于其他模型。gydF4y2Ba

结论:gydF4y2Ba我们开发了用于预测虚弱状况(死亡率、紧急住院、残疾、骨折和紧急入院)的机器学习模型。结果表明,在不同的评估指标下,机器学习模型的预测性能在不同的问题之间有显著的差异。通过进一步改进,表现更好的模型可以作为开发决策支持工具的基础,以改善虚弱老年人的早期识别和预测。gydF4y2Ba

JMIR Med Inform 2020;8(6):e16678gydF4y2Ba

doi: 10.2196/16678gydF4y2Ba

关键字gydF4y2Ba



随着老年人口负担的急剧增加,与老龄化相关的健康挑战是一个主要的医疗和社会问题。老年人口,按传统定义为实际年龄为65岁或以上[gydF4y2Ba1gydF4y2Ba,在服务和成本方面,对每个国家来说都是一个有意义的挑战[gydF4y2Ba2gydF4y2Ba].根据联合国2017年的一份报告[gydF4y2Ba3.gydF4y2Ba], 2000年,60岁及以上的世界老年人口为6亿,预计到2050年将增至约20亿。人口老龄化具有深远的影响,其中一个与这一现象相关的主要问题是虚弱状况的患病率较高[gydF4y2Ba4gydF4y2Ba].虚弱是最重要的和新出现的与年龄有关的疾病之一,通常代表着日常活动的日益限制。老年人会出现各种各样与年龄有关的疾病,这些疾病会增加他们对轻微压力事件的脆弱性,并导致丧失自主能力。这种现象通常被称为虚弱[gydF4y2Ba2gydF4y2Ba,gydF4y2Ba5gydF4y2Ba].被认为体弱多病的人特别容易出现不良后果,包括残疾、摔伤、住院和死亡。这些健康结果导致生活质量差,对医疗和社会护理的需求增加,并与个人和卫生系统成本增加有关。根据一项研究[gydF4y2Ba6gydF4y2Ba],与低年龄组相比,高年龄组的医疗支出显著增加。老年人(70岁及以上)更有可能患有多种慢性疾病和功能限制。这种结合与进入急诊科(ED)的可能性更大有关,同时住院医院、训练有素的护理设施和家庭健康服务的医疗保险支出也更高。然而,虚弱并不是衰老的必然结果,它是可以预防和管理的,以促进更长寿和更健康的生活。早期发现和筛查将有助于提供预防性干预措施并扭转虚弱状况。gydF4y2Ba

已经提出了几种用于检测脆弱性的尺度和模型[gydF4y2Ba7gydF4y2Ba-gydF4y2Ba10gydF4y2Ba];然而,对虚弱的精确的操作定义或其筛查和诊断的标准方法仍然缺乏[gydF4y2Ba11gydF4y2Ba,gydF4y2Ba12gydF4y2Ba].在缺乏虚弱标准测量的临床环境中,老年人的护理是优先考虑的,因此根据所研究人群的特征,必须有一个特定的模型来预测虚弱。因此,本研究旨在利用意大利皮埃蒙特老年人的大型行政健康数据库,检测虚弱的多种结果(死亡率、残疾、骨折、住院和急诊入院)。gydF4y2Ba

该研究检查了现有的机器学习技术(人工神经网络[ann]、遗传编程[GP]、支持向量机[svm]、逻辑回归[LR]、决策树[DTs]和随机森林[RFs]),以根据不同的不良健康结果预测虚弱。这些方法在分析不同类型的医疗数据时考虑了它们的性能和实际用途。gydF4y2Ba


数据源gydF4y2Ba

本研究基于皮埃蒙特纵向研究。这些数据是通过意大利2011年人口普查与意大利国家统计计划中包括的行政和健康数据库(登记注册、出院、药物处方、门诊临床调查数据库和健康豁免)之间的约400万皮埃蒙特(意大利)居民的个人记录链接收集的。研究对象年龄在65岁及以上。数据集包含1,095,612个主题和64个变量(58个输入变量和6个输出变量)。该数据集包括各种各样的预测变量,包括临床和社会经济方面,以及每个受试者的六个目标变量:死亡率、残疾、紧急住院、骨折、可预防的住院和使用红色代码进入急诊科(ED)。每个医院分配给患者的颜色代码可能不同,但在这项研究中,红色代码用于识别需要立即护理的严重症状患者。由于我们打算为这些脆弱性指标开发预测模型,因此我们提取了2016年收集的数据作为输入数据,而使用2017年收集的数据作为输出值。gydF4y2Ba

为了简单的实现和分析,数据被转换为六个数据集,每个输出变量对应一个数据集。结果,与虚弱条件相关的六个问题被确定和定义。在分析中分别考虑了六个数据集,这导致了六个独立的二元分类问题。本研究中使用的所有输入变量均列于gydF4y2Ba多媒体附件1gydF4y2Ba.gydF4y2Ba表1gydF4y2Ba包含所有输出变量的描述性统计信息,其中输出变量的每个类别的频率分布以计数和百分比表示。gydF4y2Ba表1gydF4y2Ba清楚地显示了数据集对于每个输出变量是如何不平衡的。事实上,大约4%的记录的死亡风险为1,其他96%的记录的死亡风险为0。红色代码紧急入院、骨折、可预防住院、残疾和紧急住院的风险记录数量与1相似。这显然表明数据集不平衡,因为正面样本的受试者数量远远小于负面样本的受试者数量。gydF4y2Ba

表1。数据集中输出变量的描述。gydF4y2Ba
变量gydF4y2Ba 代码gydF4y2Ba 值,n (%)gydF4y2Ba
死亡率gydF4y2Ba


没有gydF4y2Ba 0gydF4y2Ba 1053790 (96.18)gydF4y2Ba

是的gydF4y2Ba 1gydF4y2Ba 41823 (3.82)gydF4y2Ba
进入EDgydF4y2Ba一个gydF4y2Ba红色代码gydF4y2Ba


没有gydF4y2Ba 0gydF4y2Ba 1088124 (99.32)gydF4y2Ba

是的gydF4y2Ba 1gydF4y2Ba 7489 (0.68)gydF4y2Ba
残疾gydF4y2Ba


没有gydF4y2Ba 0gydF4y2Ba 1064186 (97.13)gydF4y2Ba

是的gydF4y2Ba 1gydF4y2Ba 31427 (2.87)gydF4y2Ba
骨折gydF4y2Ba


没有gydF4y2Ba 0gydF4y2Ba 1088530 (99.35)gydF4y2Ba

是的gydF4y2Ba 1gydF4y2Ba 7083 (0.65)gydF4y2Ba
紧急住院治疗gydF4y2Ba


没有gydF4y2Ba 0gydF4y2Ba 1056695 (96.45)gydF4y2Ba

是的gydF4y2Ba 1gydF4y2Ba 38918 (3.55)gydF4y2Ba
预防住院gydF4y2Ba


没有gydF4y2Ba 0gydF4y2Ba 1076541 (98.26)gydF4y2Ba

是的gydF4y2Ba 1gydF4y2Ba 19072 (1.74)gydF4y2Ba

一个gydF4y2Ba急诊室。gydF4y2Ba

大多数机器学习技术都受到这种极度不平衡的数据集的影响,因此,它们可能偏向于大多数类。用一种试图最大化精度的算法来指导一个模型,自然会导致将所有东西都分类为主要类别,并且不会给出可接受的结果。gydF4y2Ba

处理不平衡数据集gydF4y2Ba

每个问题(死亡率、带红色代码的急诊科、残疾、骨折、紧急住院和可预防住院)的数据集都是不平衡的,如图所示gydF4y2Ba表1gydF4y2Ba.六个数据集的正类和负类之间的不平衡比例被独立处理。文献中已经使用了各种方法来处理不平衡数据,例如重新采样[gydF4y2Ba13gydF4y2Ba]及成本敏感型学习方法[gydF4y2Ba14gydF4y2Ba].gydF4y2Ba

在本研究中,我们选择了基于欠采样的重采样方法[gydF4y2Ba15gydF4y2Ba]和过采样[gydF4y2Ba16gydF4y2Ba].这些方法是有利的,因为它们与分类器无关,可以用作预处理步骤,其中处理的数据可以作为任何分类器的输入。过采样是从少数类中复制样本以平衡数据的过程。过采样的局限性在于,它可能会导致过拟合问题,因为它克隆相同的实例,并且与欠采样方法相比需要更多的时间来执行。因此,当数据集的大小相当小时,建议使用这种方法。过采样的另一个问题是,由于我们的目标是检测少数类,过采样改变了我们想要识别的类,这在一些关键的实时问题中可能是不可接受的[gydF4y2Ba17gydF4y2Ba].欠抽样通过减少多数类样本的大小来平衡不平衡的数据。不足抽样方法的一个局限性是它可能导致重要信息的丢失或在数据中引入偏差。从实际的角度来看,一些文献表明,在某些情况下,欠采样往往优于过采样[gydF4y2Ba18gydF4y2Ba],而其他人则证明过采样比欠采样表现更好[gydF4y2Ba19gydF4y2Ba].在高维数据中,过采样的表现更差[gydF4y2Ba20.gydF4y2Ba],而欠采样在非常小的数据集中表现更差。在我们的案例中,由于收集的数据量足够,我们采用欠抽样来重新平衡样本分布,然后进行统计检验以避免偏差并确保样本之间的代表性。由于我们有多个输出数据,我们遵循以下简单的步骤来获得平衡和独立的数据集:gydF4y2Ba

  • 根据输出变量的值从原始数据集中过滤所有正样本和负样本。六个结果中至少有一个类别值为阳性的样本被分组为阳性样本,占原始数据集的10%,其余所有样本被分组为阴性样本,占原始数据集的90%。gydF4y2Ba
  • 将所有10%的样本保留在阳性类(少数组)中,我们从阴性类(多数组)中随机选择相同数量的样本(10%)。gydF4y2Ba
  • 检查随机选择的10%阴性样本是否代表其余的阴性样本(90%)。在检查测试是否相当重要之后,我们获得了一个新的多输出数据集,每个数据集的大小为211924。对所有变量进行统计检验,以确定10%样本中某个变量的频率分布是否代表90%样本中的同一变量。由于本研究中的所有变量都是分类变量,因此我们采用卡方独立检验(显著性水平为0.05)来检验10%样本和90%样本在输入变量方面是否存在显著差异。所得卡方统计量和gydF4y2BaPgydF4y2Ba数值被评估以支持测试结论的重要性。10% - 90%阴性样本卡方检验结果见gydF4y2Ba多媒体附件1gydF4y2Ba.gydF4y2Ba
  • 一旦测试具有显著性,我们将多输出数据集分解为六个独立的数据集。然后从每个数据集中随机选择相等数量的阳性和阴性样本。gydF4y2Ba

预测模型gydF4y2Ba

本研究选择的机器学习方法是svm、ann、rf、DTs、LR和GP。我们在下面对这些学习算法进行了简要的总结。gydF4y2Ba

SVM是一种鲁棒分类器,用于识别需要大量训练数据来选择有效决策边界的两个类。一些研究使用支持向量机进行疾病预测[gydF4y2Ba21gydF4y2Ba-gydF4y2Ba24gydF4y2Ba].SVM算法用于通过绘制训练数据集来预测事件,其中超平面将点分为两类,存在和不存在脆弱性。支持向量机基于核函数,将线性不可分割的输入数据投影到高维空间,以便更好地分类。使用不同的核和参数来提高支持向量机的分类性能[gydF4y2Ba25gydF4y2Ba].在本研究中,采用不同gamma值和正则化参数的径向基函数核来解决各个分类问题。gydF4y2Ba

人工神经网络是一种分析技术,已经成功地解决了不同领域的分类问题[gydF4y2Ba26gydF4y2Ba-gydF4y2Ba30.gydF4y2Ba].基于生物神经网络的功能,ann是由相互连接的人工神经元组成的密集网络,它们根据输入被激活。多层感知器神经网络(MLPNN)是人工神经网络中最常用的范式之一。MLPNN包括一个输入层、一个或多个隐藏层和一个输出层。在MLPNN中,输入节点将值传递给第一个隐藏层,第一个隐藏层的节点将值传递给第二层,以此类推,直到产生输出。针对每个分类工作,配置MLPNN的主要参数,包括激活函数、解算器、隐层大小和学习率。gydF4y2Ba

我们还探索了基于树的分类器(DTs和RFs)在每个脆弱性问题中预测结果的潜力。DTs以树形结构的形式建立分类模型[gydF4y2Ba31gydF4y2Ba].DTs中使用的主要算法有ID3、C4.5和分类回归树[gydF4y2Ba32gydF4y2Ba],利用信息熵的概念构建dt。在我们的研究中,使用分类和回归树算法对每个问题设置超参数来构建DT。rf由大量单独的dt组成,这些dt作为一个集合运行。每棵树给出一个分类,森林选择投票最多的分类(在森林中所有的树中)。射频以医学领域的预测任务而闻名[gydF4y2Ba33gydF4y2Ba-gydF4y2Ba35gydF4y2Ba].已经为每个问题设置了超参数(如森林中树的数量、分裂节点时考虑的最大特征数量、每个DT中的最大层数等)。gydF4y2Ba

LR是一种特定类型的多元回归,是最常见和最完善的二元分类器[gydF4y2Ba36gydF4y2Ba].LR仅用于对二分变量建模,它通常表示基于一组预测变量的结果或事件的存在或不存在。它通过将数据集拟合到logit函数中来预测发生的事件。在这项研究中,像其他机器学习模型一样,LR已被用于区分虚弱和非虚弱的受试者。gydF4y2Ba

另一种应用于预测任务的技术是GP,通常用于解决自动程序合成和自动编程问题。GP通过使用自然选择的操作在许多代中生成计算机程序的种群来完成这一任务[gydF4y2Ba37gydF4y2Ba].GP中的许多工作都集中在分类器归纳上,这是一项可以通过使用GP的进化来完成的任务[gydF4y2Ba38gydF4y2Ba,gydF4y2Ba39gydF4y2Ba].在GP中,设置控制参数是操作数据并取得良好效果的重要第一步。在我们的数据集中,我们尝试了几个实验,通过使用启发式clab工具中提出的GP控制参数来分类任务[gydF4y2Ba40gydF4y2Ba].我们实验用到的GP的参数值列在gydF4y2Ba多媒体附件2gydF4y2Ba.gydF4y2Ba

性能指标gydF4y2Ba

绩效评估是基于老年人死亡率、紧急住院、可预防住院、残疾、骨折和急诊住院的比例(红色代码)来考虑的。在现实世界实践中应用时,在大量受试者中预测这些不良结果是重要的。因此,真阳性率(TPR)是要考虑的主要指标。总体准确率、真负率(TNR)和f1得分(精密度和召回率的调和平均值)被用作额外的性能指标。准确度、TPR和TNR采用真阳性(TPs)、假阳性(FPs)、真阴性(TNs)和假阴性(FNs)来制定。这些度量定义在公式中gydF4y2Ba图1gydF4y2Ba[gydF4y2Ba41gydF4y2Ba].gydF4y2Ba

‎gydF4y2Ba
图1。评价指标。gydF4y2Ba
查看此图gydF4y2Ba

数据分析工具gydF4y2Ba

本研究使用的数据分析工具是Python Scikit-learn库、RStudio软件包和HeuristicLab。在这项工作中,探索性数据分析部分和统计检验分析使用R3.5.0完成,而整个svm、rf、nn和DTs的分类问题使用Python 3.7实现。gydF4y2Ba多媒体gydF4y2Ba给出了实验中使用的一些Python代码。HeuristicLab是一个用于启发式和进化算法的软件工具。在本研究中,使用HeuristicLab对GP进行分类问题。gydF4y2Ba

实验设置gydF4y2Ba

模型评价gydF4y2Ba

在分析数据进行预测时,输出变量代表下一年的发生情况,并提出预测模型,根据一年内紧急住院、预防性住院、残疾、骨折、红色代码进入急诊科和死亡的预期风险来预测衰弱。每种结果预测使用四个指标评估各种预测模型的性能:准确性、TPR、TNR和f1评分。这些指标提供了一种有效而简单的方法来评估分类器的性能。使用这四种测量方法,模型分别使用holdout方法[gydF4y2Ba42gydF4y2Ba]和交叉验证方法[gydF4y2Ba43gydF4y2Ba].gydF4y2Ba图2gydF4y2Ba给出了预测机器学习模型的一般实验流程。gydF4y2Ba

‎gydF4y2Ba
图2。预测机器学习模型的实验工作流。gydF4y2Ba
查看此图gydF4y2Ba
坚持的方法gydF4y2Ba

在这项研究中,我们的第一个实验是通过使用保留方法探索机器学习方法的预测性能开始的。该方法将数据集按照给定的比例随机分为训练和测试两部分。每个机器学习模型都使用训练数据集(70%)进行训练,并使用测试数据集(30%)进行评估。使用训练数据集构建模型,使用测试数据集评估模型的预测能力。gydF4y2Ba

K-Fold交叉验证gydF4y2Ba

K-fold交叉验证程序应用于每个问题的数据。交叉验证是一种最常用的模型评估方法,它通过多次重复分裂过程来扩展坚持方法。K-fold交叉验证技术将数据集划分为大小大致相等的K个折叠。然后使用K-1部分对被评估的模型进行训练,并保留一部分用于模型验证。在本研究中,我们使用了10 fold,将数据集分为三个部分进行模型训练和测试:训练集用于构建模型,验证集用于选择模型参数,测试集用于根据所选参数评估最终模型的性能。gydF4y2Ba

Hyperparameter调优gydF4y2Ba

在所有实验中,每种机器学习方法的超参数集都是在训练开始前选定的。超参数允许机器学习算法更好地调整问题细节。每个模型的超参数都是使用Python Scikit-learn中带有交叉验证的网格搜索进行调优的,正如Mueller和Guido所描述的[gydF4y2Ba44gydF4y2Ba].gydF4y2Ba多媒体附件2gydF4y2Ba给出了本研究中用于训练每个机器学习模型的超参数列表。gydF4y2Ba


研究人群gydF4y2Ba

从1,095,612名65岁及以上老年人的原始数据集中,我们检索了83,646名死亡患者,77,836名紧急住院患者,62,854名残疾患者,38,144名可预防住院患者,14,978名以红色代码进入急诊科,14,166名骨折患者。检索过程使用重采样方法进行,每个问题都使用广泛使用的机器学习模型进行独立分析。在本节中,通过特征选择分析,介绍了使用保留和交叉验证方法的机器学习模型的预测性能。gydF4y2Ba

特征选择gydF4y2Ba

特征选择提供了一种有效的方法来去除不相关和/或冗余的特征,这可以减少运行时间,提高学习精度,并有助于更好地理解模型[gydF4y2Ba45gydF4y2Ba,gydF4y2Ba46gydF4y2Ba].不必要的特征也会增加过拟合的机会,并降低测试数据的泛化性能。我们使用滤波方法进行特征选择[gydF4y2Ba47gydF4y2Ba,gydF4y2Ba48gydF4y2Ba].卡方检验是本研究中使用的一种过滤方法,用于确定特征和目标之间的统计显著性。卡方值,连同gydF4y2BaPgydF4y2Ba显著性水平为.05的值用于识别最重要的特征及其等级(即,通过卡方检验分析显示与结果显著相关的变量[gydF4y2BaPgydF4y2Ba<。05]were selected for model building).PgydF4y2Ba<措施在d我c一个tes that there is an association between the input and the target variables. The strength of the association between the input variables and the target is ranked based on the chi-square value. Out of the 58 predictor variables, 25, 24, 10, 7, 4, and 3 nonsignificant variables were discarded for preventable hospitalization, urgent hospitalization, emergency admission with red code, fracture, mortality, and disability, respectively.表2gydF4y2Ba按死亡率和骨折问题的重要性递减顺序,列出了排名前15位的特征。中给出了其它问题的最显著特征gydF4y2Ba多媒体附件4gydF4y2Ba.gydF4y2Ba

表2。死亡率和骨折问题中最重要的变量。gydF4y2Ba
排名gydF4y2Ba 死亡率问题gydF4y2Ba 断裂的问题gydF4y2Ba

变量gydF4y2Ba PgydF4y2Ba价值gydF4y2Ba 变量gydF4y2Ba PgydF4y2Ba价值gydF4y2Ba
1gydF4y2Ba 年龄gydF4y2Ba <措施gydF4y2Ba 年龄gydF4y2Ba <措施gydF4y2Ba
2gydF4y2Ba Charlson指数gydF4y2Ba <措施gydF4y2Ba 股骨骨折gydF4y2Ba <措施gydF4y2Ba
3.gydF4y2Ba #紧急住院gydF4y2Ba <措施gydF4y2Ba #紧急住院gydF4y2Ba <措施gydF4y2Ba
4gydF4y2Ba 住院总人数gydF4y2Ba <措施gydF4y2Ba 颈部骨折gydF4y2Ba <措施gydF4y2Ba
5gydF4y2Ba 无效gydF4y2Ba <措施gydF4y2Ba 绿色代码gydF4y2Ba <措施gydF4y2Ba
6gydF4y2Ba # nontraumaticgydF4y2Ba <措施gydF4y2Ba 住院总人数gydF4y2Ba <措施gydF4y2Ba
7gydF4y2Ba 残疾gydF4y2Ba <措施gydF4y2Ba Charlson指数gydF4y2Ba <措施gydF4y2Ba
8gydF4y2Ba 保利处方gydF4y2Ba <措施gydF4y2Ba 保利处方gydF4y2Ba <措施gydF4y2Ba
9gydF4y2Ba 绿色代码gydF4y2Ba <措施gydF4y2Ba 无效gydF4y2Ba <措施gydF4y2Ba
10gydF4y2Ba 黄色的代码gydF4y2Ba <措施gydF4y2Ba 残疾gydF4y2Ba <措施gydF4y2Ba
11gydF4y2Ba 血gydF4y2Ba <措施gydF4y2Ba 神经疾病gydF4y2Ba <措施gydF4y2Ba
12gydF4y2Ba 贫血gydF4y2Ba <措施gydF4y2Ba 抑郁症gydF4y2Ba <措施gydF4y2Ba
13gydF4y2Ba 循环系统疾病gydF4y2Ba <措施gydF4y2Ba 血gydF4y2Ba <措施gydF4y2Ba
14gydF4y2Ba 呼吸道疾病gydF4y2Ba <措施gydF4y2Ba 贫血gydF4y2Ba <措施gydF4y2Ba
15gydF4y2Ba 尿路疾病gydF4y2Ba <措施gydF4y2Ba 黄色的代码gydF4y2Ba <措施gydF4y2Ba

特征的重要性可以通过指出哪些变量在类之间最有区别,从而让我们深入了解问题。例如,在gydF4y2Ba表2gydF4y2Ba在预测死亡率时,年龄和查尔森指数是最重要的特征,这在问题的背景下是有意义的。特征的等级因问题不同而不同,除了可变年龄,它在所有问题中得分最高。除年龄属性外,股骨骨折、紧急住院次数和颈部骨折等变量是骨折问题中最具鉴别性的特征,而家庭类型和家庭生活状况是最不显著的变量。精神病、多处方、循环系统疾病是紧急住院和可预防住院中排名最高的变量。年龄、查尔森指数和紧急住院次数是红色代码急诊入院的最重要预测因素。紧急住院和可预防住院排名最低的共同特征包括婚姻状况、教育水平、工作状况和收入。每个预测模型(SVM, ANN, LR, RF和DT)都使用了六个问题中最重要的特征。GP与其他机器学习模型的不同之处在于它在进化过程中自动执行隐式特征选择。GP学习哪些特征组合对分类有用,并自动确定特征的最佳数量。gydF4y2Ba

通过坚持方法的性能gydF4y2Ba

在本研究中,我们的第一个实验结果是通过holdout (train-test split)方法获得的,所有特征子集(从前3位到前58位特征)使用模型的默认参数。但是,这些方法带来了RF和DT训练数据过拟合的问题,如图所示gydF4y2Ba图3gydF4y2Ba而且gydF4y2Ba4gydF4y2Ba.为了减少过拟合问题并提高性能,使用网格搜索以及与每个结果相关的最重要特征来调整每个模型的参数。gydF4y2Ba表3gydF4y2Ba显示了SVM, RF, ANN, DT和GP的性能,使用在每个问题上选择的最佳特征和参数。gydF4y2Ba

‎gydF4y2Ba
图3。死亡率数据的训练精度(左)和测试精度(右),无需进行任何参数调优,并使用所有特征子集(从前3个到前58个特征子集)。左图显示了随机森林和决策树对训练数据的过度拟合,随着特征数量的增加,它们在测试数据上的泛化效果很差。gydF4y2Ba
查看此图gydF4y2Ba
‎gydF4y2Ba
图4。训练精度(左)和测试精度(右)的裂缝数据不进行参数调整,并使用所有的特征子集(从前3到前58个特征子集)。左图显示了随机森林和决策树对训练数据的过度拟合,随着特征数量的增加,它们在测试数据上的泛化效果很差。gydF4y2Ba
查看此图gydF4y2Ba
表3。用真正确率和真负确率对六个问题进行预测。gydF4y2Ba
问题gydF4y2Ba 支持向量机gydF4y2Ba一个gydF4y2Ba 射频gydF4y2BabgydF4y2Ba 安gydF4y2BacgydF4y2Ba DTgydF4y2BadgydF4y2Ba 全科医生gydF4y2BaegydF4y2Ba

TPRgydF4y2BafgydF4y2Ba TNRgydF4y2BaggydF4y2Ba TPRgydF4y2Ba TNRgydF4y2Ba TPRgydF4y2Ba TNRgydF4y2Ba TPRgydF4y2Ba TNRgydF4y2Ba TPRgydF4y2Ba TNRgydF4y2Ba
死亡率gydF4y2Ba 0.78gydF4y2Ba 0.78gydF4y2Ba 0.79gydF4y2Ba 0.77gydF4y2Ba 0.79gydF4y2Ba 0.78gydF4y2Ba 0.60gydF4y2Ba 0.79gydF4y2Ba 0.75gydF4y2Ba 0.76gydF4y2Ba
残疾gydF4y2Ba 0.78gydF4y2Ba 0.72gydF4y2Ba 0.78gydF4y2Ba 0.71gydF4y2Ba 0.75gydF4y2Ba 0.75gydF4y2Ba 0.78gydF4y2Ba 0.69gydF4y2Ba 0.71gydF4y2Ba 0.67gydF4y2Ba
骨折gydF4y2Ba 0.75gydF4y2Ba 0.74gydF4y2Ba 0.77gydF4y2Ba 0.72gydF4y2Ba 0.77gydF4y2Ba 0.72gydF4y2Ba 0.79gydF4y2Ba 0.66gydF4y2Ba 0.70gydF4y2Ba 0.73gydF4y2Ba
紧急住院治疗gydF4y2Ba 0.61gydF4y2Ba 0.73gydF4y2Ba 0.65gydF4y2Ba 0.68gydF4y2Ba 0.66gydF4y2Ba 0.68gydF4y2Ba 0.64gydF4y2Ba 0.68gydF4y2Ba 0.66gydF4y2Ba 0.62gydF4y2Ba
预防住院gydF4y2Ba 0.74gydF4y2Ba 0.73gydF4y2Ba 0.73gydF4y2Ba 0.72gydF4y2Ba 0.73gydF4y2Ba 0.73gydF4y2Ba 0.76gydF4y2Ba 0.66gydF4y2Ba 0.73gydF4y2Ba 0.64gydF4y2Ba
艾德承认gydF4y2Bah,我gydF4y2Ba 0.63gydF4y2Ba 0.73gydF4y2Ba 0.63gydF4y2Ba 0.72gydF4y2Ba 0.63gydF4y2Ba 0.74gydF4y2Ba 0.62gydF4y2Ba 0.73gydF4y2Ba 0.73gydF4y2Ba 0.63gydF4y2Ba

一个gydF4y2Ba支持向量机:支持向量机。gydF4y2Ba

bgydF4y2BaRF:随机森林。gydF4y2Ba

cgydF4y2BaANN:人工神经网络。gydF4y2Ba

dgydF4y2BaDT:决策树。gydF4y2Ba

egydF4y2BaGP:基因规划。gydF4y2Ba

fgydF4y2BaTPR:真阳性率。gydF4y2Ba

ggydF4y2BaTNR:真实负利率。gydF4y2Ba

hgydF4y2Ba急诊室。gydF4y2Ba

我gydF4y2Ba红色代码。gydF4y2Ba

在我们的实验中,我们探索了每种机器学习算法在脆弱性预测中的常见变化。从实验的结果来看gydF4y2Ba表3gydF4y2Ba,很明显,所有算法对每个不同的问题都有不同的表现。对于死亡率数据集,RF和ANN产生了较高的TPR值(0.79),而DT产生了最低的性能。对于骨折问题,DT的TPR值最高(0.79),GP的TPR值最低。另一方面,GP在紧急住院数据集上具有较高的TPR值。RF在所有问题中总体平均TPR略高,SVM在所有问题中TNR值略高,DT在所有问题中平均TPR最低。从数据集测试部分的结果来看,所有机器学习模型对有红色代码问题的紧急住院和急诊科的预测性能都较低,而死亡率和残疾的预测结果值高于其他结果。在残疾问题上,GP的TPR较SVM、RF、ANN和DT低,而在使用红色代码访问ED时,GP的TPR最高。对于其他问题,GP产生类似的结果。使用统计测试将GP的性能与其他机器学习方法进行比较,以得出更好的结论。我们使用Wilcoxon符号秩检验在30次GP运行和每个机器学习模型之间进行了成对统计检验。 The Wilcoxon statistical test is a nonparametric test that ranks the differences in performances of GP and other algorithms over each frailty problem. The Wilcoxon test is based on the TPR of each algorithm in each problem on the test data. The results of the test in terms ofPgydF4y2Ba显著性水平为0.01的值见gydF4y2Ba表4gydF4y2Ba.gydF4y2Ba

表4。的Wilcoxon符号秩检验结果gydF4y2BaPgydF4y2Ba值。gydF4y2Ba
问题/数据集gydF4y2Ba 支持向量机gydF4y2Ba一个gydF4y2Ba和全科医生gydF4y2BabgydF4y2Ba 射频gydF4y2BacgydF4y2Ba和全科医生gydF4y2Ba 神经网络gydF4y2BadgydF4y2Ba和全科医生gydF4y2Ba DTgydF4y2BaegydF4y2Ba和全科医生gydF4y2Ba
死亡率gydF4y2Ba <措施gydF4y2Ba .003gydF4y2Ba 措施gydF4y2Ba <措施gydF4y2Ba
骨折gydF4y2Ba <措施gydF4y2Ba 02gydF4y2Ba <措施gydF4y2Ba .002gydF4y2Ba
残疾gydF4y2Ba 06gydF4y2Ba 04gydF4y2Ba . 01gydF4y2Ba .003gydF4y2Ba
紧急住院治疗gydF4y2Ba 点gydF4y2Ba . 01gydF4y2Ba .37点gydF4y2Ba . 01gydF4y2Ba
预防住院gydF4y2Ba .68点gydF4y2Ba 03gydF4y2Ba .87点gydF4y2Ba .005gydF4y2Ba
进入EDgydF4y2BafgydF4y2Ba红色代码gydF4y2Ba .006gydF4y2Ba <措施gydF4y2Ba . 01gydF4y2Ba <措施gydF4y2Ba

一个gydF4y2Ba支持向量机:支持向量机。gydF4y2Ba

bgydF4y2BaGP:基因规划。gydF4y2Ba

cgydF4y2BaRF:随机森林。gydF4y2Ba

dgydF4y2Ba神经网络。gydF4y2Ba

egydF4y2BaDT:决策树。gydF4y2Ba

fgydF4y2Ba急诊室。gydF4y2Ba

如所述gydF4y2Ba表4gydF4y2Ba在美国,Wilcoxon检验允许拒绝11个假设。的gydF4y2BaPgydF4y2Ba值小于0.01表示各算法的TPR差异显著,而gydF4y2BaPgydF4y2Ba高于0.01的值表明算法在预测脆弱条件时表现相似。SM和GP之间的检验结果仅在残疾、紧急住院和可预防住院方面有统计学意义。结合实验结果和Wilcoxon符号秩检验结果,得出SVM在死亡率和骨折的TPR评分上优于GP, GP在急诊住院和红码急诊科评分上优于SVM和RF。尽管DT算法在可预防住院方面的TPR值高于其他算法,但其TNR值最低的结果表明劣势较大。ANN在可预防和紧急住院事件方面与GP有相似的表现。gydF4y2Ba

通过10倍交叉验证的性能gydF4y2Ba

10倍交叉验证通过平均超过10个不同的子样本减少了结果估计的方差。这种10次交叉验证可以解决拒止法的局限性,如减少过拟合,因此更可靠,对测试数据具有更好的泛化性能。因此,在我们的第二个实验中,我们对六个数据集中的每个数据集都使用了10倍交叉验证方法。在10倍交叉验证的10个样本中,每个模型的准确性的变化在gydF4y2Ba图5gydF4y2Ba而且gydF4y2Ba6gydF4y2Ba分别为最大数据集(即死亡率)和最小数据集(即骨折)。从图中可以看出,在10个样本中,模型在预测死亡率方面比预测骨折更稳定。在10个样本中,其他结果的分类率也有轻微的变化。gydF4y2Ba

‎gydF4y2Ba
图5。5个模型在10个验证样本上对死亡率问题的得分。gydF4y2Ba
查看此图gydF4y2Ba
‎gydF4y2Ba
图6。5个模型在10个验证样本中对断裂问题的评分。gydF4y2Ba
查看此图gydF4y2Ba

如图所示gydF4y2Ba图5gydF4y2Ba,对于死亡率问题,10倍交叉验证中10个样本的分类率在每个分类器中略有不同。对于每个模型,从样本1到样本10的断裂问题,精度的变化更大,如gydF4y2Ba图6gydF4y2Ba.特别是,LR在模型中表现出了最大的性能变化,在断裂问题中,它在样本7中表现出最低的精度,在样本9中表现出最高的精度。DT在死亡率样本10和骨折问题样本3中显示出最高的分类率,而在其他样本中准确率最低。每个问题中10次交叉验证的平均性能如图所示gydF4y2Ba表5gydF4y2Ba,其中每个模型的性能使用精度、TPR、TNR和f1评分来衡量。gydF4y2Ba

表5所示。使用10倍交叉验证的模型预测结果。gydF4y2Ba
模型gydF4y2Ba 精度gydF4y2Ba TPRgydF4y2Ba一个gydF4y2Ba TNRgydF4y2BabgydF4y2Ba F1-scoregydF4y2Ba
死亡率gydF4y2Ba




安gydF4y2BacgydF4y2Ba 0.78gydF4y2Ba 0.81gydF4y2Ba 0.76gydF4y2Ba 0.79gydF4y2Ba

支持向量机gydF4y2BadgydF4y2Ba 0.79gydF4y2Ba 0.77gydF4y2Ba 0.80gydF4y2Ba 0.78gydF4y2Ba

射频gydF4y2BaegydF4y2Ba 0.78gydF4y2Ba 0.79gydF4y2Ba 0.76gydF4y2Ba 0.76gydF4y2Ba

LRgydF4y2BafgydF4y2Ba 0.78gydF4y2Ba 0.78gydF4y2Ba 0.79gydF4y2Ba 0.78gydF4y2Ba

DTgydF4y2BaggydF4y2Ba 0.75gydF4y2Ba 0.80gydF4y2Ba 0.70gydF4y2Ba 0.76gydF4y2Ba
骨折gydF4y2Ba




安gydF4y2Ba 0.75gydF4y2Ba 0.77gydF4y2Ba 0.73gydF4y2Ba 0.75gydF4y2Ba

支持向量机gydF4y2Ba 0.75gydF4y2Ba 0.77gydF4y2Ba 0.74gydF4y2Ba 0.75gydF4y2Ba

射频gydF4y2Ba 0.75gydF4y2Ba 0.78gydF4y2Ba 0.72gydF4y2Ba 0.76gydF4y2Ba

LRgydF4y2Ba 0.75gydF4y2Ba 0.75gydF4y2Ba 0.75gydF4y2Ba 0.75gydF4y2Ba

DTgydF4y2Ba 0.74gydF4y2Ba 0.76gydF4y2Ba 0.72gydF4y2Ba 0.74gydF4y2Ba
残疾gydF4y2Ba




安gydF4y2Ba 0.74gydF4y2Ba 0.76gydF4y2Ba 0.71gydF4y2Ba 0.75gydF4y2Ba

支持向量机gydF4y2Ba 0.75gydF4y2Ba 0.78gydF4y2Ba 0.73gydF4y2Ba 0.76gydF4y2Ba

射频gydF4y2Ba 0.75gydF4y2Ba 0.77gydF4y2Ba 0.72gydF4y2Ba 0.75gydF4y2Ba

LRgydF4y2Ba 0.75gydF4y2Ba 0.76gydF4y2Ba 0.73gydF4y2Ba 0.74gydF4y2Ba

DTgydF4y2Ba 0.73gydF4y2Ba 0.78gydF4y2Ba 0.70gydF4y2Ba 0.75gydF4y2Ba

一个gydF4y2BaTPR:真阳性率。gydF4y2Ba

bgydF4y2BaTNR:真实负利率。gydF4y2Ba

cgydF4y2BaANN:人工神经网络gydF4y2Ba

dgydF4y2Ba支持向量机:支持向量机。gydF4y2Ba

egydF4y2BaRF:随机森林。gydF4y2Ba

fgydF4y2Ba逻辑回归。gydF4y2Ba

ggydF4y2BaDT:决策树。gydF4y2Ba

从所有模型的结果中得出每个结果gydF4y2Ba表5gydF4y2Ba而且gydF4y2Ba6gydF4y2Ba,我们可以看到预测死亡事件表现出最高的性能,而预测紧急住院和使用红色代码进入急诊科表现出较低的性能。其次是死亡率问题,对残疾和骨折问题的预测性能更好。这意味着本研究中的数据集在预测死亡率方面比预测其他结果更好。在预测紧急住院方面,在所有使用10倍交叉验证训练的模型中,只有SVM在所有测量(准确度、TPR、TNR和f1评分)中表现最佳。在死亡率问题中,ANN(精度0.78,TPR 0.81, TNR 0.76, F1-score 0.79)和SVM(精度0.79,TPR 0.77, TNR 0.80, F1-score 0.78)的平均性能最高,其次是LR(精度0.78,TPR 0.78, TNR 0.79, F1-score 0.78)。在死亡率问题上,DT产生了最高的TPR (0.80), RF显示了类似的结果(准确性0.78,TPR 0.79, TNR 0.76, f1评分0.76)。对于骨折和残疾问题,SVM、RF和LR具有相似的准确性(0.75),尽管它们在TPR、TNR和f1评分上都有所不同。gydF4y2Ba

表6所示。使用10倍交叉验证程序的模型预测结果。gydF4y2Ba
模型gydF4y2Ba 精度gydF4y2Ba TPRgydF4y2Ba一个gydF4y2Ba TNRgydF4y2BabgydF4y2Ba F1-scoregydF4y2Ba
紧急住院治疗gydF4y2Ba




安gydF4y2BacgydF4y2Ba 0.67gydF4y2Ba 0.64gydF4y2Ba 0.71gydF4y2Ba 0.66gydF4y2Ba

支持向量机gydF4y2BadgydF4y2Ba 0.75gydF4y2Ba 0.77gydF4y2Ba 0.73gydF4y2Ba 0.76gydF4y2Ba

射频gydF4y2BaegydF4y2Ba 0.66gydF4y2Ba 0.65gydF4y2Ba 0.67gydF4y2Ba 0.66gydF4y2Ba

LRgydF4y2BafgydF4y2Ba 0.67gydF4y2Ba 0.72gydF4y2Ba 0.62gydF4y2Ba 0.65gydF4y2Ba

DTgydF4y2BaggydF4y2Ba 0.66gydF4y2Ba 0.65gydF4y2Ba 0.67gydF4y2Ba 0.65gydF4y2Ba
预防住院gydF4y2Ba




安gydF4y2Ba 0.74gydF4y2Ba 0.73gydF4y2Ba 0.74gydF4y2Ba 0.73gydF4y2Ba

支持向量机gydF4y2Ba 0.74gydF4y2Ba 0.71gydF4y2Ba 0.76gydF4y2Ba 0.73gydF4y2Ba

射频gydF4y2Ba 0.73gydF4y2Ba 0.73gydF4y2Ba 0.74gydF4y2Ba 0.73gydF4y2Ba

LRgydF4y2Ba 0.74gydF4y2Ba 0.71gydF4y2Ba 0.76gydF4y2Ba 0.73gydF4y2Ba

DTgydF4y2Ba 0.72gydF4y2Ba 0.73gydF4y2Ba 0.71gydF4y2Ba 0.72gydF4y2Ba
进入EDgydF4y2BahgydF4y2Ba红色代码gydF4y2Ba




安gydF4y2Ba 0.70gydF4y2Ba 0.65gydF4y2Ba 0.74gydF4y2Ba 0.67gydF4y2Ba

支持向量机gydF4y2Ba 0.68gydF4y2Ba 0.64gydF4y2Ba 0.72gydF4y2Ba 0.66gydF4y2Ba

射频gydF4y2Ba 0.68gydF4y2Ba 0.66gydF4y2Ba 0.70gydF4y2Ba 0.67gydF4y2Ba

LRgydF4y2Ba 0.69gydF4y2Ba 0.64gydF4y2Ba 0.74gydF4y2Ba 0.67gydF4y2Ba

DTgydF4y2Ba 0.67gydF4y2Ba 0.70gydF4y2Ba 0.65gydF4y2Ba 0.68gydF4y2Ba

一个gydF4y2BaTPR:真阳性率。gydF4y2Ba

bgydF4y2BaTNR:真实负利率。gydF4y2Ba

cgydF4y2BaANN:人工神经网络。gydF4y2Ba

dgydF4y2Ba支持向量机:支持向量机。gydF4y2Ba

egydF4y2BaRF:随机森林。gydF4y2Ba

fgydF4y2Ba逻辑回归。gydF4y2Ba

ggydF4y2BaDT:决策树。gydF4y2Ba

hgydF4y2Ba急诊室。gydF4y2Ba

从实验的结果中,观察到各种机器学习技术在不同评估指标的性能方面可能存在显著差异是很重要的。例如,在死亡率问题中,SVM在TNR值上优于DT和ANN (.80), ANN在F1-score上优于SVM和DT(0.79),而DT在TPR值上优于两个模型(0.80)。由于六个问题中每个问题的特征空间、大小和数据多样性的差异,所有模型在所有问题中的性能都有所不同。所有使用死亡率数据训练的模型(规模最大)的预测性能都比使用红色代码数据(规模较小)访问急诊科训练的模型的性能要好得多,这表明数据的大小是更好性能的重要因素,但并非所有模型都是如此。此外,每种机器学习技术的性能因问题而异。例如,在死亡率、骨折、残疾、可预防住院、带红色代码进入急诊科和紧急住院方面,在TPR中测量的ANN性能分别为0.81、0.77、0.76、0.74、0.70和0.67,而在DT中,每个问题的TPR分别为0.80、0.75、0.78、0.73、0.70和0.65。考虑这两种机器学习方法(ANN和DT)在TPR值上的表现,ANN在死亡率和骨折问题上优于DT,而DT在残疾和进入红码问题上优于ANN。我们还可以看到,在死亡率问题中LR的TPR值高于SVM。这表明,更复杂的机器学习模型(如ANN, SVM)并不一定总是优于更简单的模型(如DT, LR)。在10次交叉验证中,RF分类器在大多数问题上取得了与SVM和ANN相当的性能。 On the other hand, tree-based classifiers (RF and DT) are more sensitive to bad features and quality of data. Therefore, effective feature selection is an important step to improve their performance. The SVM model tends to perform well in high-dimensional classification problems; however, it may not perform well if the sample classes of the problem are highly overlapping. ANN can generally outperform other techniques if the dataset is very large and if the structure of the dataset is complex (eg, if it has many layers).

总的来说,机器学习是一个探索性的过程,不存在一刀切的问题。特别是,没有一种公认的模型可以为所有问题类型、领域或数据集实现最高性能[gydF4y2Ba49gydF4y2Ba].根据变量的特征、数据的大小和使用的度量标准,性能最好的机器学习模型因问题而异。这个想法类似于“没有免费的午餐”定理[gydF4y2Ba50gydF4y2Ba,gydF4y2Ba51gydF4y2Ba,它指出,不存在对所有问题都最有效的通用算法。然而,为了达到有效的预测设计,通过仔细评估每个模型来研究每个问题是很重要的。研究结果还表明,使用各种优化参数值以及使用最重要的预测变量仔细探索和评估机器学习技术的性能是至关重要的。特别是,基于树的分类器(如RF和DT)对过拟合问题更敏感,如图所示gydF4y2Ba图3gydF4y2Ba而且gydF4y2Ba4gydF4y2Ba在死亡率和断裂问题上,如果没有选择正确的特征子集,或者没有正确配置模型所需的参数值。图中的精度清楚地表明,RF和DT中特征数量的增加导致模型过拟合。有趣的是,支持向量机和神经网络模型在训练和测试中表现出相对一致的性能,即使特征数量增加。gydF4y2Ba


主要研究结果gydF4y2Ba

一个可以使用行政卫生数据的预测模型将在各种情况下有用,以分类那些有脆弱风险的个人并提供预防性干预措施。在这项研究中,我们使用不同的分类技术进行了几个实验,以建立脆弱的预测模型。结果表明,就不同的评估指标而言,机器学习模型在不同的问题之间可能存在显著差异。与预测残疾、骨折、红色代码紧急入院、紧急住院和可预防住院相比,所探索的模型显示出可靠的预测能力,可以更好地估计死亡风险。虽然每个模型都不是预测所有虚弱结果的综合模型,但我们已经证明,当使用10倍交叉验证时,SVM模型在预测死亡率和紧急住院方面比其他模型显示出更高的总体准确性(0.79)。另一方面,除了神经网络,所有其他机器学习模型在预测红色代码的急诊入院方面都表现出相对较差的整体准确性。gydF4y2Ba

此外,我们的结果显示,减少特征显著提高性能。为了减少过拟合问题,提高分类器的预测性能,执行特征选择过程,其中选择可用特征的最佳子集。在每个二元分类问题中,所有自变量都使用卡方特征选择方法在坚持和交叉验证方法中对每个结果进行排名。对死亡率问题进行10倍交叉验证,ANN、SVM、RF、LR和DT的TPR值(也称为敏感性)分别为0.81、0.77、0.79、0.78和0.80。在holdout方法中,ANN、SVM和RF得到了几乎相似的结果,而DT在死亡率问题上使用10倍交叉验证得到了比holdout方法更高的TPR值。一般来说,10倍交叉验证通过平均超过10个不同的分区来减少方差;因此,它对训练和测试数据中的任何分区偏差都不那么敏感。在预测急诊入院红色代码时,GP的TPR值优于SVM、ANN、LR、RF和DT,而SVM在预测急诊住院的各项评价指标上均优于所有模型。gydF4y2Ba

一般来说,从实验结果中可以观察到一个重要的现象:平均而言,一些机器学习模型从相同的结果中产生了非常相似的结果,而表现最好的模型在不同的指标方面因结果而异。例如,SVM和ANN在死亡率和住院结果的所有评估指标上平均产生相似的性能。RF和LR在残疾和骨折结果的所有测量中平均表现相似。然而,每个机器学习模型的预测结果从死亡率到骨折或骨折到住院等不同。这可以证明通过定期收集的行政健康数据库识别虚弱的老年受试者的可行性。gydF4y2Ba

优势与局限gydF4y2Ba

我们研究的优势在于可以使用最强大的预测机器学习模型来包含多维管理数据库。与之前的研究相比,预测模型使用了各种各样的输入变量,包括临床和社会经济方面,同时有六个结果。使用常规收集的社会临床数据可以代表个人储备的多维损失,从而可以预测老年人的预期结果。此外,评估和分析了六种不良结果对虚弱的预测,这在研究虚弱与虚弱者多种健康状况之间的关系方面向前迈出了一步。gydF4y2Ba

我们的研究有局限性。尽管原始数据有多个结果,但每个机器学习算法都是为预测单一结果而设计的,并且每个结果都是独立于其他结果进行分析的。因此,应进一步研究构建一个预测模型,考虑输出变量之间的相关性,为给定的、以前未见过的患者提供相关输出列表。此外,患者的性别等信息也可纳入研究,以了解与性别有关的因素,以及它们对老年人住院和死亡率的影响。gydF4y2Ba

结论gydF4y2Ba

利用行政卫生数据库提供的信息进行预测建模是一种有效的方法,可以识别出适合进行干预以防止不良后果的虚弱老年人。所提出的预测模型可用于检测和预测不良结果风险增加的虚弱人群。这项研究表明,基于机器学习的预测模型可用于使用临床和社会经济变量筛查未来的虚弱状况,这些变量通常在社区医疗机构收集。通过努力提高预测性能,这种基于机器学习的方法可以进一步有助于改善老年社区的虚弱干预措施。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba
多媒体附件1gydF4y2Ba

变量描述及样本间的统计检验。gydF4y2Ba

DOCX文件,50kbgydF4y2Ba

‎gydF4y2Ba
多媒体附件2gydF4y2Ba

用于训练模型的超参数。gydF4y2Ba

DOCX文件,18kbgydF4y2Ba

‎gydF4y2Ba
多媒体gydF4y2Ba

研究中使用的Python实现代码。gydF4y2Ba

RAR文件,305kbgydF4y2Ba

‎gydF4y2Ba
多媒体附件4gydF4y2Ba

列出每个结果中最重要的特征。gydF4y2Ba

DOCX文件,18kbgydF4y2Ba

  1. 卫生统计和信息系统:非洲老年人MDS项目的拟议工作定义。日内瓦:世界卫生组织网址:gydF4y2Bahttp://www.who.int/healthinfo/survey/ageingdefnolder/en/index.htmlgydF4y2Ba[2020-05-18]访问gydF4y2Ba
  2. Kojima G, Liljas AEM, Iliffe S.虚弱综合征:对医疗保健政策的影响和挑战。风险管理健康政策2019;12:23-30 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  3. 联合国。2017年世界人口老龄化热点gydF4y2Bahttps://www.un.org/en/development/desa/population/publications/pdf/ageing/WPA2017_Highlights.pdfgydF4y2Ba[2020-05-18]访问gydF4y2Ba
  4. Comans TA, Peel NM, Hubbard RE, Mulligan AD, Gray LC, Scuffham PA。医疗保健费用的增加与老年人出院后急性过渡护理计划的虚弱有关。2016年3月45日(2):317-320。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  5. 罗克伍德K,宋X, MacKnight C, Bergman H, Hogan DB, McDowell I,等。老年人健康和虚弱的全球临床测量。CMAJ 2005 Aug 30;173(5):489-495 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  6. 纽曼·T,库班斯基·J,黄·J,达米科·A.凯撒家庭基金会。2015年1月14日。寿命延长的成本不断上升:传统医疗保险中受益人按年龄划分的医疗保险支出分析网址:gydF4y2Bahttp://files.kff.org/attachment/report-the-rising-cost-of-living-longer-analysis-of-medicare-spending-by-age-for-beneficiaries-in-traditional-medicaregydF4y2Ba[2020-05-18]访问gydF4y2Ba
  7. Aguayo GA, Donneau A, Vaillant MT, Schritz A, Franco OH, Stranges S,等。在一般人群中,35个公布的虚弱评分之间的一致。Am J流行病2017年8月15日;186(4):420-434 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  8. 傅瑞德,李志强,李志强,等。老年人的虚弱:表型的证据。《老年医学杂志》2001年3月56(3):M146-M156。[gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  9. 理解脆弱:护士指南。2017年9月52(3):349-361。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  10. Mohd Hamidin FA, Adznam SN, Ibrahim Z, Chan YM, Abdul Aziz NH。马来西亚半岛东岸社区老年人衰弱综合征的患病率及其相关因素。SAGE Open Med 2018;6:2050312118775581 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  11. Fougère B, Kelaiditi E, Hoogendijk EO, Demougeot L, Duboué M, Vellas B,等。疗养院居民虚弱指数与生活质量:来自研究的结果。中国老年医学杂志2016年3月;71(3):420-424。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  12. Santos-Eggimann B, Sirven N.虚弱筛查:老年人群和老年个体。公共卫生Rev 2016;37:7 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  13. 重采样方法提高了类不平衡数据集建模的预测能力。国际环境与公共卫生杂志2014年9月18日;11(9):9776-9789 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  14. 汗SH,哈亚特M, Bennamoun M, Sohel FA, Togneri R.从不平衡数据深度特征表示的代价敏感学习。IEEE跨神经网络学习系统2018年8月;29(8):3573-3587。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  15. 刘旭,吴娟,周震。类不平衡学习的探索性欠采样。电子工程学报2009年4月;39(2):539-550。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  16. Parsa AB, Taghipour H, Derrible S, Mohammadian AK。实时事故检测:处理不平衡数据。Accid肛前2019年8月;129:202-210。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  17. 阿明,安瓦尔,阿德南,纳瓦兹,霍华德,卡迪尔,等。比较过采样技术处理类别不平衡问题:客户流失预测案例研究。IEEE Access 2016;4:7940-7957。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  18. 华莱士B,小K,布罗德利C,特里卡利诺斯t。2011年发表于:IEEE第11届数据挖掘国际会议;2011;温哥华。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  19. 李晓明,李志强,李志强,等。主成分分析与SMOTE重采样相结合提高肺癌数据的预测率。应用软件学报,2013年9月18日;[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  20. Blagus R, Lusa L. smte用于高维类不平衡数据。BMC生物信息学2013 Mar 22;14:106 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  21. Kavakiotis I, Tsave O, Salifoglou A, Maglaveras N, Vlahavas I, Chouvarda I.糖尿病研究中的机器学习和数据挖掘方法。中国生物工程学报(英文版);2017;26 (3):387 - 387 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  22. 潘磊,刘刚,毛旭,李辉,张静,梁辉,等。使用机器学习算法开发疑似中枢性性早熟女孩的预测模型:回顾性研究。JMIR Med Inform 2019年2月12日;7(1):e11728 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  23. 黄敏,陈超,林伟,柯生,蔡晨。支持向量机和支持向量机组合在乳腺癌预测中的应用。PLoS One 2017;12(1):e0161501 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  24. O'Dwyer L, Lamberton F, Bokde ALW, Ewers M, Faluyi YO, Tanner C,等。多扩散指数支持向量机用于轻度认知障碍的自动分类。PLoS One 2012;7(2):e32441 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  25. 王志强,王志强。基于可加性核支持向量机的分类方法。IEEE Trans - Pattern Anal Mach intel 2013年1月;35(1):66-77。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  26. 胡伟杰,朱晓明,杨晓明,等。数据驱动的血糖动态建模和预测:机器学习在1型糖尿病中的应用。Artif Intell Med 2019年7月;98:109-134。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  27. Putra FR, Nursetyo AA, Thakur SS, Roy RB, Syed-Abdul S, Malwade S,等。应用人工神经网络预测血液透析患者的临床事件。种马健康技术通知2019年8月21日;264:1570-1571。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  28. 李志强,李志强,杨晓娟,Edén P, Bendahl P, Rydén L.基于神经网络的乳腺癌淋巴结转移预测方法。BMC Cancer 2019 Jun 21;19(1):610 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  29. 马志强,陈晓明,陈志强,等。使用常规临床实验室测试和机器学习预测猫慢性肾病的早期风险。J Vet实习医学2019年9月26日[gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  30. 韦纳B, Grand J, Canzone E, Coarr M, Brady PW, Simmons J,等。预测到重症监护室的计划外转移:利用不同临床要素的机器学习方法。JMIR Med Inform 2017 11月22日;5(4):e45 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  31. Aris-Brosou S, Kim J, Li L, Liu H.预测客户投诉的原因:用机器学习预测体外诊断分析质量问题的第一步。JMIR Med Inform 2018年5月15日;6(2):e34 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  32. 使用随机森林的患者特异性预测建模:对危重病人的观察性研究。JMIR Med Inform 2017年1月17日;5(1):e3 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  33. 吴娟,昝鑫,高丽,赵娟,范军,石华,等。基于常规血液指标识别肺癌的机器学习方法:定性可行性研究。JMIR Med Inform 2019年8月15日;7(3):e13476 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  34. Beunza J, Puertas E, García-Ovejero E, Villalba G, Condes E, Koleva G,等。临床事件预测(冠心病风险)的机器学习算法的比较。J Biomed Inform 2019年9月;97:103257。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  35. 徐涛,王涛,戴伟,陈晓明,王晓明。基于电子病历的慢性疾病住院预测方法。电子工程学报,2018年4月;30 (4):690-707 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  36. Hyun S, Moffatt-Bruce S, Cooper C, Hixon B, Kaewprag P.医院获得性压疮发展的预测模型:回顾性队列研究。JMIR Med Inform 2019年7月18日;7(3):e13785 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  37. 波利R,兰登W,麦克菲N.遗传编程现场指南。伦敦:Lulu Enterprises;2008.gydF4y2Ba
  38. 范妮斯基,范妮西奥,马丽丽,马丽丽。机器学习技术在乳腺癌生存预测中的应用。BioData Min 2011年5月11日;4:12 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  39. 高伟,陈旭,陈东。氯致腐蚀隧道结构寿命预测的遗传规划方法。J Adv Res 2019 11月;20:141-152 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  40. HeuristicLab。URL:gydF4y2Bahttps://dev.heuristiclab.com/trac.fcgi/gydF4y2Ba[2019-02-21]访问gydF4y2Ba
  41. 奥尔森DL。高级数据挖掘技术。纽约:施普林格;2008.gydF4y2Ba
  42. Wshah S, Skalka C, Price M.预测创伤后应激障碍风险:机器学习方法。JMIR Ment Health 2019年7月22日;6(7):e13946 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  43. Sena GR,利马TPF, Mello MJG, Thuler LCS,利马JTO。开发用于预测老年癌症患者早期死亡的机器学习算法:可用性研究。JMIR Cancer 2019 9月26日;5(2):e12163 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  44. Müller A, Guido S.机器学习介绍Python。塞瓦斯托波尔:O'Reilly Media;2015.gydF4y2Ba
  45. Suomi V, Komar G, Sainio T, Joronen K, Perheentupa A, Blanco Sequeiros r高强度超声治疗子宫肌瘤疗效分级的综合特征选择科学通报2019 7月29日;9(1):10907 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  46. Cerruela García G, Pérez-Parras Toledano J, de Haro García A, García-Pedrajas N.二元QSAR模型开发中的滤波特征选择器。SAR QSAR环境决议2019年5月;30(5):313-345。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  47. 李国强,李国强,李国强,等。基于遗传算法的医疗数据集特征选择方法。基因组学2019年7月2日。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  48. 鲁巴诺维兹,米克M,拉卡瓦W,奥尔森RS,摩尔JH。基于浮雕的特征选择:介绍和回顾。J Biomed Inform 2018年9月;85:189-203 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  49. 许志刚,涂金彬,何捷,李伟东,李世德。使用来自数据挖掘和机器学习文献的方法进行疾病分类和预测:一个检查心力衰竭亚型分类的案例研究。中国临床流行病学杂志2013 Apr;66(4):398-407 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  50. 学习算法之间缺乏先验区别。神经网络学报,1996;26 (3):339 - 344 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  51. spic I, Krzeminski D, Corcoran P, Balinsky A.从纵向患者记录中临床试验的队列选择:文本挖掘方法。JMIR Med Inform 2019 10月31日;7(4):e15980 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba


‎gydF4y2Ba
安:gydF4y2Ba人工神经网络gydF4y2Ba
DT:gydF4y2Ba决策树gydF4y2Ba
艾德:gydF4y2Ba急诊科gydF4y2Ba
FN:gydF4y2Ba假阴性gydF4y2Ba
外交政策:gydF4y2Ba假阳性gydF4y2Ba
医生:gydF4y2Ba遗传规划gydF4y2Ba
LR:gydF4y2Ba逻辑回归gydF4y2Ba
MLPNN:gydF4y2Ba多层感知器神经网络gydF4y2Ba
射频:gydF4y2Ba随机森林gydF4y2Ba
支持向量机:gydF4y2Ba支持向量机gydF4y2Ba
TN:gydF4y2Ba真正的负gydF4y2Ba
TNR:gydF4y2Ba真实负利率gydF4y2Ba
TP:gydF4y2Ba真阳性gydF4y2Ba
TPR:gydF4y2Ba真阳性率gydF4y2Ba


编辑:Z Huang;提交15.10.19;M Boukhechba, Z Zhang, P Giabbanelli同行评审;对作者07.12.19的评论;订正版本收到07.01.20;接受16.02.20;发表04.06.20gydF4y2Ba

版权gydF4y2Ba

©Adane Tarekegn, Fulvio Ricceri, Giuseppe Costa, Elisa Ferracin, Mario Giacobini。最初发表于JMIR医学信息学(http://medinform.www.mybigtv.com), 04.06.2020。gydF4y2Ba

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,http://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba


Baidu
map