发表在20卷,9号(2018):9月

本文的预印本(早期版本)是可用的https://preprints.www.mybigtv.com/preprint/9227,第一次出版
改善住院的风险预测在慢性阻塞性肺疾病:应用机器学习来远程控制数据

改善住院的风险预测在慢性阻塞性肺疾病:应用机器学习来远程控制数据

改善住院的风险预测在慢性阻塞性肺疾病:应用机器学习来远程控制数据

原始论文

1Pharmatics,英国爱丁堡

2开创人口健康科学和信息学研究所、爱丁堡大学、英国爱丁堡

3学术单位初级医疗保健,谢菲尔德大学,英国谢菲尔德

4气象局,英国埃克塞特

通讯作者:

,医学博士布莱恩·麦金MBChB FRCP(艾丁)FRCGP FFCI

引导人口健康科学和信息学研究所

爱丁堡大学

9号Bioquarter

9小法国道路

爱丁堡EH16 4用户体验

联合王国

电话:44 1316502378

电子邮件:brian.mckinstry@ed.ac.uk


背景:远程控制的症状和生理体征被建议作为一种手段,早期发现慢性阻塞性肺疾病(COPD)急性加重,以建立及时的治疗。然而,算法识别频繁发作导致假阳性结果,增加了工作量。机器学习应用于预测建模时,可以确定风险因素有助于提高预报质量的模式。

摘要目的:我们的目标是(1)确定机器学习技术应用到远程控制数据集提高预测住院和决定开始糖皮质激素,和(2)确定的天气数据进一步提高了这样的预测。

方法:我们每天使用症状、生理指标和药物数据,与基线人口统计学,慢性阻塞性肺病严重程度、生活质量,和住院的飞行员和大型随机对照试验在慢性阻塞性肺病遥控。我们从英国气象服务与天气数据。我们使用特征选择和提取时间序列技术构建153预测模式(特性)症状,药物,和生理测量。我们使用的变量构建预测模型拟合训练集的患者比较常见symptom-counting算法。

结果:我们的意思是363天的远程控制来自135名患者的数据。最实用的两个传统score-counting算法,与完整的数据限制情况下,导致接受者操作特征曲线下面积(AUC)估计为0.60 (95% CI 0.51 - -0.69)和0.58 (95% CI 0.50 - -0.67)预测招生根据一天的阅读。然而,在真实的场景中允许缺失的数据,更多的患者每日数据和住院(N = 57150, N+分别为= 55),所有的传统算法的性能下降,其中包括基于2天的数据。最常用的算法之一的表现并不比机会。所有被认为是机器学习模型演示了显著改善;基于57150集最好的机器学习算法导致了聚合AUC为0.74 (95% CI 0.67 - -0.80)。添加天气数据测量没有改善预测性能最好的模型(AUC 0.74, 95%可信区间0.69 - -0.79)。为真阳性率达到80%(灵敏度),传统的算法是假阳性率80%:我们的算法减少了一半这个利率大约40%(特异性约60%)。适度的机器学习算法优于最佳symptom-counting算法(AUC 0.77, 95%可信区间0.74 - -0.79 vs AUC 0.66, 95%可信区间0.63 - -0.68)在预测糖皮质激素的必要性。

结论:慢性阻塞性肺病的早期检测和管理仍然是一个重要的目标由于其巨大的个人和经济成本。机器学习的方法,可以根据每个人的基线配置文件,可以从经验中学习的个别病人,优于现有预测算法和显示承诺在实现这一目标。

试验注册:国际标准随机对照试验ISRCTN96634935数量;由WebCite http://www.webcitation.org/722YkuhAz http://www.isrctn.com/ISRCTN96634935(存档)

J地中海互联网Res 2018; 20 (9): e263

doi: 10.2196 / jmir.9227

关键字



背景

急性加重的慢性阻塞性肺疾病(COPD)是一种急性住院的主要原因。提示用抗生素和糖皮质激素干预可以预防招生和改善生活质量1,2),但困难识别早期症状的恶化3)经常导致延迟访问保健(2,4),开始治疗。远程控制症状和生理测量一直倡导促进发作的早期识别和治疗。然而,尽管患者的看法(4),从随机对照试验的证据表明,远程医疗预防招生小于说服(5- - - - - -9]。原因之一是,远离澄清发作的早期检测,以前使用算法(通常是基于国际的定义加重(10)生成频繁,临床上不必要的警报(11]。

新流行的算法建立的旨在提高识别和评估急性加重(12,13]。有证据表明,复合测量血氧饱和度和心率结合症状可能预测恶化需要治疗用抗生素或皮质类固醇14),尽管这些日常生理指标有显著的变化,这可能掩盖细微变化由于个别病人的早期急性加重(15]。最优算法是不清楚。

最近,已经有了很大的进步在发展中计算和统计方法分析噪声、不完整的数据,大致描述为机器学习和数据挖掘16,17]。当应用于预测模型,这些方法可以确定风险因素的模式有助于改善预测的质量。这是与传统的算法相比,它通常使用少量的风险因素。然而,这些技术还没有在使用预测住院的COPD患者进行远程控制。

客观的

慢性阻塞性肺病Telescot远程控制程序(数据4,11包括日常症状和生理指标,这可能与卫生保健使用(磋商、处方药物和住院);基线数据在年龄、严重的慢性阻塞性肺病、伴随疾病,焦虑和抑郁评分;和上下文相关的数据(如从气象局天气条件(联合王国(英国)气象服务)(18]。使用机器学习和高维数据挖掘,我们旨在使用这个大型数据集来识别模式预测住院或决策的糖皮质激素。


慢性阻塞性肺病Telescot试验(ISRCTN 96634935) (11之前在2009 - 2011年)进行试点研究[4)在2008年洛锡安,苏格兰。伦理批准被授予洛锡安研究伦理委员会(参考08 / S1101/60)与英国国民健康服务(NHS)管理批准NHS洛锡安,苏格兰。

数据集和处理

远程控制数据库的日常症状和生理指标Telescot COPD试验(11和初步研究4英国国民健康保险制度)举行。这些有关洛锡安的避风港和试验数据的研究团队和住院数据。数据集前鉴定分析。

远程控制数据集

慢性阻塞性肺病Telescot程序(4,11)包括146名患者中度到重度慢性阻塞性肺病(在第一秒用力呼气量过期(FEV1]和用力肺活量均< 70%)和至少一个入院前一年的慢性阻塞性肺病的恶化。他们记录数据和一些差距平均16个月。病人被要求提供每日症状和生理读数(脉搏和血氧饱和度,研究人口也提供了肺量测定法数据的一个子集不定期)和抗生素和类固醇使用记录。症状得分是基于存在的主要症状(2)得分或次要症状(1)得分基于Anthonisen et al(的工作19)和其他(2,10,11,15)(见文本框1)。数据检查每日呼吸专业或受过训练的远程健康监控,和如果他们开始接触患者症状得分超过5。可接受范围分别为脉搏和血氧饱和度,和患者联系如果读数下降超出这些范围。

慢性阻塞性肺疾病恶化发作的定义t作为预测天入院t+ 1。注意,过去3定义不能用于这评价,除非一个早期检测,检测时的发病与一天延迟恶化。对于这些定义,我们报告一个近似上限假设下的预测性能的恶化可以检测到。

  1. 主要症状
    1. 呼吸困难、痰的颜色和痰量。
  2. 轻微的症状
    1. 冷,喘息,喉咙痛,咳嗽,发烧。
  3. 症状方面
    1. nMajor =数量的主要症状出现在天t,
    2. nMinor =数量的轻微症状出现在天t,
    3. 纳尔= nMajor + nMinor。
  4. 定义
    1. 定义1(后Anthonisen et al。19):nMajor≥2。
    2. 定义2(修改Rodriguez-Roisin [10):纳尔≥5。
    3. 定义3(修改恶化1 Seemungal et al。2):定义一个“糟糕的一天”(nMajor≥2)或([nMajor = 1]和[nMinor≥1])。据说恶化发生在一天t如果天tt+ 1是坏的,但天t1,t2不坏。
    4. 定义4(修改Seemungal et al。2]在伯顿et al。15):像定义3,但糟糕的一天被定义为一个(nMajor≥1)和纳尔(≥3)。
    5. 定义5(小桥后et al。11):一个恶化据说发生在一天t如果:
      1. (纳尔≥5)天t,或
      2. (纳尔= 4)天t(纳尔≥4)天t+ 1。

文本框1。慢性阻塞性肺病恶化发作的定义t天作为预测在t + 1天入院。注意,过去3定义不能用于这评价,除非一个早期检测,检测时的发病与一天延迟恶化。对于这些定义,我们报告一个近似上限假设下的预测性能的恶化可以检测到。
试验数据

基线人口特征试验数据,身体质量指数,肺量测定法,医学研究委员会呼吸困难量表(20.),医院焦虑和抑郁量表(21),圣乔治呼吸问卷(22),之前的住院,和伴随疾病也可用。在试验结束后,我们在医院记录搜索招生试验过程中,和2临床医生决定是否承认是由于慢性阻塞性肺病,部分原因是慢性阻塞性肺病或与慢性阻塞性肺病无关。

气象局预测健康数据

英国气象局健康前景服务使用一个基于规则的模型,结合观察和预测参数,包括季节、湿度、温度、空气质量、和利率预测流感样疾病的问题。这些已被证明提供为期10天的预警时间的慢性阻塞性肺病急性加重的风险更高的人口水平(18),但目前尚不清楚这是预测在个体水平。我们假设包括气象局数据远程控制和基线数据会提高算法的预测。因此我们结合遥控数据集与气象局COPD健康预测数据集。这个由英国气象局的输出的健康前景COPD预警算法(18),最大和平均气温在过去的48小时内,和3二进制温度指标(平均温度< 2°C,最高温度< 4°C,最高温度< 7°C)。

选择的结果

我们给患者参与研究一个个性化的行动计划,通常建议开始抗生素如果他们的症状得分超过5,所以抗生素课程非常频繁的事件。代表更严重的恶化,我们测试了两个主要的预测结果:入院治疗慢性阻塞性肺病和起始口服皮质类固醇治疗。

预处理

我们定义病人发作作为我们的滑动窗口的数据连续固定数量的天到目前的一天(输入),与入学或皮质类固醇结果第二天(输出)。

我们认为简单score-counting算法的完整的数据设置,我们只用集没有任何缺失的症状变量来计算风险评分1 -或为期两天的窗口。此外,我们评估了score-counting算法和机器学习模型在归责设置使用相同的病人发作,我们估算每个缺失变量通过复制过去的观测变量的病人15天。我们排除了事件的结果变量是失踪,病人发作,我们不能归咎于观察由于长期的窗户没有提供数据。我们使用归责,为每个变量在病人集中,我们定义了一个辅助指标编码输入变量是否估算或提供的病人;我们使用这些辅助变量作为额外的输入到机器学习模型。注意,样本大小和归责设置招生的数量高于完整的数据设置。例如,如果一些测量没有报道之前住院,然后我们排除这一事件的完整的数据分析,但是我们可以保留在估算设置当报道变量是准确和失踪的变量是估算。

数据分析

我们确定了大量的潜在的利用数据挖掘技术建立预测特性(见下文)和测试组合使用嵌套的交叉验证过程,我们选择和提取的特征只使用数据的内部培训折叠。因为数据不完整,我们进行了单独的分析(1)限于时间没有缺失的数据,和(2)时期缺失数据的归责。

小说的识别特征

对于每个病人,我们建造153预测模式(特性)症状,药物,和生理测量,利用时间序列的特征提取技术(23,24),假设的预测未来事件(2)(见多媒体附录1)。完整和估算之间的确切数字不同的设置,取决于哪种类型的变量(远程控制,天气,和它们的组合)作为输入。我们估算变量测量基线通过使用人口中位数为连续变量或人口模式分类变量,我们假设变量固定(固定)在整个研究。我们使用的变量构建预测模型拟合训练集的患者。我们只用过去,而不是未来,为将丢失的变量或变量构建每个病人的时间序列特性集。由此产生的变量在隐藏层结合学习附加功能(神经网络),用于计算特征空间相似性函数(非参数方法),或由过滤结合特征选择(25)设置先验hyperparameters培训期间(自适应正则化分类器)。当我们使用输出变量直接或间接选择或提取特征在训练期间,我们确保程序嵌套在训练折叠,以便用于评估的数据仍然是看不见的。

标准的恶化模型

我们考虑几个发作的定义标准的基础上Anthonisen et al (19和临床指南26),用于研究慢性阻塞性肺病急性加重(2,10,11,15]。主要症状是患者自我报告的变化呼吸困难,痰液的颜色,痰液量,轻微的症状是冷,喘息,喉咙痛,咳嗽,发烧。使用文献的定义,我们认为5恶化的定义(文本框1)。我们评估了在某一天发作的急性加重(t)作为预测入学第二天(t+ 1)。注意,只考虑定义,定义1和2可以用于这种类型的评估。例如,定义3被定义为存在的主要症状,至少连续两天或一个主要和至少一个次要症状,发病与恶化被当症状标准得到满足(第一天1,2,27),而定义4是轻微的修改(15]。因此,对于定义3到5天使用恶化指标t作为一个天承认的标志t+ 1,我们评价一个上限假设下的预测性能这些发作可以早期发现(例如,通过准确的预测未来的症状)。

小说预测建模

我们评估我们如何预测住院和决定开始皮质类固醇治疗的病人接受远程控制使用提取的特性。我们考虑几种类型的模型。(1)非参数预测方法,如稀疏最大边际分类器(16,28,29日:这些方法允许协变量的复杂映射目标结果获得高质量的“黑盒”的预测。(2)正规化分类器基于自适应扩展的弹性网(30.]:在低维空间中,这些方法产生可预测的优点,但他们有时可能会导致较低的预测性能比非参数方法由于各个刚性约束协变量和结果之间的映射。(3)提高总体分类器(31日),我们将非常适合处理高不平衡数据集,例如我们(集对应于慢性阻塞性肺病招生的数量是几个数量级低于集的数量没有招生)。(4)长期短期记忆多任务神经网络模型:这些方法是最先进的语音识别,非常大的数据集是可用的(32]。然而,我们发现他们的表现稍微比其他模型的较小的不完整的不平衡数据集。我们认为这些模型使用上述预处理策略和使用培训为复发性网络反向传播的变异。

我们重复的过程考虑特性发生(1)24小时住院或更早之前,和(2)决定开始前24小时内糖皮质激素或更早。我们拟合回归模型1和2的结果只在远程控制(生理、药物治疗和症状变量),天气变量,远程控制和天气变量共同。我们使用了多个计算昂贵的模型(3和4)回归结果在远程控制变量估算的场景。Hyperparameters学会了网格搜索(模型1和2)或通过随机搜索(模型3和4)内折叠的嵌套交叉验证过程。

我们将这些方法与传统算法使用多个定义的发作文本框1作为预测未来的临床招生和皮质类固醇治疗。

验证新的预测模型

为了测试这个范围的模型,我们使用k倍交叉验证,我们将数据分成k不相交的子集(“折叠”)的大小,和反复拟合模型k1培训折叠,折叠评估他们剩下的测试。这个过程是重复k次,总体性能评估结果进行聚合,在测试折叠。在嵌套的交叉验证,我们为每个选择的测试数据进行交叉验证过程在一个嵌套循环,我们内部培训折叠用于特征提取和选择和估计模型参数,我们使用内部验证估算hyperparameters折叠(如程度的模型复杂性),我们使用外部测试折叠纯粹绩效评估。在实施过程中,我们确保了测试外折叠的人没有出现在训练集或内部折叠(即我们没有病人集用于个人从测试数据集作为训练数据的任何部分)。因此,我们使用了外部测试集的病人纯粹是为了评估,而不是为变量选择,参数学习,或hyperparameter学习。我们评估了预测性能表示为聚合接受者操作特征曲线下面积(AUC),一个calibration-invariant衡量预测的二元分类器的性能。聚合是通过合并的预测平均的分类器在测试折叠和合并后的AUC跨多个重复的交叉验证随机褶皱分区。

实验比较

我们排除了11个人95%以上缺失数据和分析数据为135人提供定期的症状和生理测量。我们选择外折叠有大约相同数量的病人,尽管平等分裂得不到保证,患者不平等数量的测量报告。我们使用10内在和嵌套的外折交叉验证过程,但是需要大量的计算模型。评估性能的变化,我们用10分的嵌套与不同的培训或交叉验证测试褶皱分区。

我们评估简单score-counting算法不需要过去一系列的症状来生成预测,完成和归责的场景。我们使用机器学习模型所需的部分缺失,过去的观测时间序列归责的场景。在这种情况下,我们排除了所有病人发作,我们不能归咎于据认为过程由于太多的数据丢失。多个模型的一个公平的比较,我们确保归罪的一致性和患者发作在折叠。


个人预测住院

在完整数据的场景中,我们评估的传统定义如何恶化发病预测一天24小时住院第二天,使用的定义文本框1。根据算法的选择,我们在14106年和17610年之间病人发作,8至17住院。我们获得最好的预测通过定义5 (AUC 0.657, 95%可信区间0.523 - -0.792,N = 16170病人发作,我们计算上的误差AUC的一致估计的方法实证重采样,切比雪夫,和DeLong和他的同事们33];表1);然而,我们这个估计基于数据集只有N+= 9招生。此外,使用这个定义,一个恶化开始一天只能检测到当比分保持第二天(见升高文本框1),这使得预测一个不切实际的入学第二天。Score-counting算法定义1和2,发作的急性加重一天计算,导致了AUC估计为0.600 (95% CI 0.509 - -0.692)和0.578 (95% CI 0.496 - -0.672),分别为N = 17610集和N+= 17招生(表1)。

当评估务实imputed-data场景允许缺失的数据,与更多的患者发作(N = 57150)和更多的住院之前症状和生理测量(N+= 55),所有的传统定义的性能恶化降至接近随机。例如,对于定义2中,我们获得了AUC为0.524 (95% CI 0.486 - -0.544);看到表1。最可能的原因下降是需要依靠一个简单的归责的策略由于有限的可用性的日常症状住院之前数天的数据。

机器学习模型演示了显著改进传统symptom-counting方法预测未来的招生。使用imputed-data场景,最好的机器学习模型(神经网络)使用远程控制数据导致聚合AUC为0.740 (95% CI 0.673 - -0.803)评估为N = 57150的测试数据集,N+= 55招生(表1)。其他机器学习模型有相似的性能,意味着聚合AUC的0.721 - -0.738,这表明在症状评分改善可以实现一系列模型(见多媒体附录2)。达到80%的真阳性率(灵敏度),传统的算法是假阳性率80%(特异性为20%);我们的算法减少了一半这个速度大约40%(特异性60%左右)。

添加天气数据(健康前景判据和额外的与天气有关的变量),远程控制测量结果无显著改善预测性能最好的模型中,聚合AUC为0.739 (95% CI 0.685 - -0.794 N = 57150 N+= 55)。这个无法解释天气变量与远程医疗的变量,使用天气数据的最佳模型的随机AUC只有0.526 (95% CI 0.504 - -0.548 N = 107078 N+= 151)。

招生改装的最佳模型对整个数据集135年使用的模型选择变量和描述是很困难的。通过线性化输出,我们发现大多数因素预测包括所有三组变量的收集的远程控制,一起吸烟现状:目前的症状,目前和推迟生理指标,当前和延迟自述的药物。

表1。预测住院的准确性和使用糖皮质激素的不同定义的恶化。
描述 实用 AUC一个(经验95%置信区间) 事件,N+ 样本,N
24小时招生预测使用恶化定义,完整的数据

定义1 是的 0.600 (0.509 - -0.692) 17 17610年

定义2 是的 0.578 (0.496 - -0.672) 17 17610年

定义3 没有 0.553 (0.440 - -0.666) 8 14106年

定义4 没有 0.490 (0.424 - -0.556) 8 14106年

定义5 没有 0.657 (0.523 - -0.792) 9 16170年
24小时招生预测使用恶化定义,估算数据

定义1 是的 0.513 (0.477 - -0.551) 55 57150年

定义2 是的 0.524 (0.486 - -0.544) 55 57150年

定义3 没有 0.496 (0.471 - -0.521) 55 56702年

定义4 没有 0.505 (0.473 - -0.536) 55 56702年

定义5 没有 0.517 (0.479 - -0.555) 55 57150年
预测24小时使用皮质类固醇决策恶化定义,完整的数据

定义1 是的 0.655 (0.630 - -0.679) 238年 9768年

定义2 是的 0.605 (0.581 - -0.628) 238年 9768年

定义3 没有 0.568 (0.544 - -0.592) 178年 8489年

定义4 没有 0.544 (0.522 - -0.567) 178年 8489年

定义5 没有 0.646 (0.622 - -0.670) 237年 9322年
预测24小时使用皮质类固醇决策恶化定义,估算数据

定义1 是的 0.660 (0.639 - -0.681) 316年 13899年

定义2 是的 0.605 (0.585 - -0.625) 316年 13899年

定义3 没有 0.564 (0.543 - -0.586) 228年 10442年

定义4 没有 0.543 (0.524 - -0.564) 228年 10442年

定义5 没有 0.647 (0.626 - -0.668) 316年 12477年
使用机器学习模型预测24小时招生,估算数据

机器学习模型 是的 0.740 (0.673 - -0.803) 55 57150年
预测24小时使用皮质类固醇决策恶化定义,估算数据

机器学习模型 是的 0.765 (0.738 - -0.791) 316年 13503年

一个AUC:接受者操作特征曲线下面积。

在人群中预测在症状评分达到顶峰

健康的前景(18)算法和天气变量没有改善的质量的预测住院个人在我们的数据集。然而,人口层面上我们发现,在一些连续的时间段,主要是在秋季和冬季,预测两平均值baseline-adjusted症状评分使用健康前景的预测变量表现简单的延迟baseline-adjusted症状评分。真正的和预测的结果之间的斯皮尔曼相关测试数据折叠增加从0.44 - -0.55(滞后启发式)0.66 - -0.75(健康的前景),和肯德尔秩相关增加从0.27 - -0.38到0.44 - -0.52。看到多媒体附录1额外的细节。

预测个人开始糖皮质激素

住院的预测相比,标准score-counting算法决定的决定开始皮质类固醇治疗,在完整的数据和imputed-data场景。在这里,我们只包括在分析事件,患者没有服用糖皮质激素的第一天报道恶化。发病事件被定义为在第二天服用皮质类固醇。使用定义1 (文本框1),我们获得了AUC为0.655 (95% CI 0.630 - -0.679)与N = 9768集的完整的数据场景和N+= 238皮质类固醇治疗发作(表1)。imputed-data场景中,我们获得了AUC为0.660 (95% CI 0.639 - -0.681)与N = 13899集和N+= 316皮质类固醇治疗发作。虽然机器学习模型有助于提高预测,导致AUC为0.765 (95% CI 0.738 - -0.791)的测试数据集,这种改善相对低于预测的情况下录取。该算法从预测皮质类固醇(非参数模型)使用153的特性,最重要的一个,建议通过线性化,是当前天总症状评分。


主要结果

在远程控制的背景下,传统的算法预测急性加重的归责缺失症状数据没有比机会当他们被用于预测COPD承认在随后的24小时内,和只有一个小比机会与患者所提供的完整的数据子集。机器学习算法的性能更加准确,在实践中并受一些条件,会减半假警报的数量相比与传统的方法(见多媒体附录1为更多的细节)。算法容易识别那些在高和低风险的承认,这表明,在一个资源受限的环境中,一个简单的分类策略,针对额外护理可以基于使用我们的方法的输出。气象数据没有显著提高模型的准确性在个人层面上,虽然这样做,在某种程度上,在组织层面上的预测平均baseline-adjusted症状评分,这可能是价值的服务计划。我们发现这两个标准symptom-counting算法和机器学习算法是合理准确的预测决定开始在24小时内糖皮质激素。

限制

尽管Telescot COPD试验(11)的远程医疗的最大分别随机试验在慢性阻塞性肺病,招生之前立即的绝对数量的完整记录生理和症状变量是相对较小,这可能减少了算法的可靠性。

缺乏一个黄金标准定义什么是一个恶化是一个挑战在这一领域的研究。许多轻度至中度发作是由药物的使用,和病人的个性化管理计划建议毕业典礼的抗生素与症状(例如,如果他们的痰是深绿色)。一些人还把糖皮质激素,他们如果他们非常扣人心弦或气喘的。这种自我管理可能干扰原本已经恶化的自然历史,减少一些症状和体征和结果之间的关系(住院),但可能会加强算法的一些组件和决策之间的关系开始皮质类固醇。尽管如此,我们发现机器学习算法可以预测未来招生尽管调整了自我报告的药物是令人鼓舞的。

方法论的限制我们的方法之一是交叉验证的依赖,而不是多个独立的同伴评价的预测性能。除了忽视可能的协变量或跨多个群分布变化,交叉验证的另一个众所周知的缺点是近似置信区间的复杂性的绩效指标34),特别是对于小或不平衡数据集。重采样的方法,如交叉验证的使用是不可避免的少数大型遥控试验对慢性阻塞性肺病。需要进一步验证无关的数据集来证实我们的发现。我们的方法的一个优势是互补的机器学习方法的使用在最优算法的推导过程和结果的一致性的方法。考虑方法包括正则化参数和核方法,学习提高,表示。我们的方法的一个限制是固定长度的依赖特征向量提取时间序列数据,而不是变长预测。我们认为,尽管有一些近期作品使用变长为时间序列预测方法(35),他们在其他方法演示了性能优越的病例数超过了我们几个数量级,广泛与稀疏分类器相比,他们并没有依赖归责方法。最接近的匹配这样的模型从那些我们认为是短期记忆与归责策略描述above-did不能提高在其他模型。处理系统在变长missingness条件模型研究领域是一个积极,会考虑在未来,并很可能成为有用的一次大的遥控收集数据集。在这项研究中,我们通过采用前馈使用归责,这可以说是最实用的方法之一在推理时对过去数据的访问点是有限的;其他技术可能被考虑。

本研究的目的是为了演示机器学习的潜力预测COPD招生和皮质类固醇的使用,不要阐明每个特性的影响或组合的特性在不同的调整。现代人工智能方法预测临床事件使用成百上千的特性来预测临床结果(34,36]。由于复杂的架构和多个变量之间的相互作用,它是具有挑战性的估计每个特性的影响(37,38]。在这项研究中,我们调查了影响只类的变量(远程医疗、天气和它们的组合),而不是每一个变量。这是一个高维的一般限制方法;未来的工作是需要调查的边际和条件的影响,和设备的验证试验之前需要翻译临床实践。

我们工作的一个限制是,一些措施可以在只有1或2时间点(如焦虑和抑郁评分、生活质量,锻炼或体力活动数据,和吸烟状况进行评估的开始和结束1年试验),和时间序列数据可能包含更多的信息。其他多组分分数是慢性阻塞性肺病的预测结果(如身体质量指数、阻塞、呼吸困难、运动指数(39]或呼吸困难、障碍、吸烟、恶化指数(40)可能是有用的预测,将串行FEV1和更详细的系列药物的信息变化。我们的机器学习平台是可扩展这些新类型的数据源,包括系统或信息missingness强度的方法。

与之前的工作

兴趣的发展更准确预测使用机器学习算法是提高;Sanchez-Morillo和他的同事们(41)在最近的一次审查得出结论,尽管其中一些承诺,它们都是基于相对少量的病人和事件(42,43]。他们需要验证在较大的样本病人,的时间更长。最接近我们的可能是国王的最近的工作等(44),使用逻辑回归来预测未来的加重和使用脉搏率表明,血氧饱和度、呼吸速率(从脉搏血氧计)显示,与传统算法相比提高了predictivity的慢性阻塞性肺病急性加重。我们的结果对气象数据的价值是一致的工作Steventon这个et al (45在健康的前景在住院率的影响。

结论

慢性阻塞性肺病的早期检测和管理仍然是一个重要的目标考虑到巨大的个人和经济成本的条件。机器学习的方法,可以根据每个人的基线配置文件,可以从经验中学习的个别病人,显示承诺在实现这一目标。需要更大的数据集来开发更精确的算法;然而,缺乏一个远程医疗在慢性阻塞性肺病的影响在试验有效地阻止大的实现技术。一个解决方案(如果治理法规是可以克服的)合并现有国际数据集。另一个可能是探索算法预测温和的能力(nonhospitalized)急性加重与上面所述的所有挑战。此外,机器学习的潜力,阐明最佳干预措施应该探索。

确认

这项工作是由英国医学研究理事会的信心格兰特和英国进一步支持的创新概念。最初的数据收集是由苏格兰政府首席科学家办公室。额外的财政支持是来自爱丁堡临床试验单位。这项工作不可能完成不参与患者和临床医生从NHS洛锡安。

的利益冲突

足总在Pharmatics有限公司创始人兼涉众CS是气象局的一名员工,部门的营运基金业务,能源和工业的策略。

多媒体附录1

补充数据。

PDF文件(Adobe PDF文件),665 kb

多媒体附录2

接受者操作特征(ROC)多任务的神经网络(MTNN)和symptom-counting恶化预测评分([2]之后)24小时使用估算招生数据的场景。意味着总ROC曲线下面积的测试数据分别为0.52 ~ 0.74 ~。

PNG文件,69 kb

  1. Guarascio AJ,雷SM,芬奇CK,自我TH。慢性阻塞性肺疾病的临床和经济负担在美国。Clinicoecon结果Res 5:235 2013; 245免费的全文][CrossRef][Medline]
  2. Seemungal助教,唐纳森GC, Bhowmik Jeffries DJ, Wedzicha农协。时间进程和恢复患者的急性加重的慢性阻塞性肺疾病。161年5月,是J和保健医疗2000 (5):1608 - 1613。(CrossRef][Medline]
  3. GC Seemungal助教,唐纳森,保罗•EA Bestall JC, Jeffries DJ, Wedzicha农协。恶化对慢性阻塞性肺疾病患者的生活质量。157年5月,1998 J和护理(5 Pt 1): 1418 - 1422。(CrossRef][Medline]
  4. 保证J,小桥H,汉利J,基德G,考尔,Tarling, et al .驾驶平台在慢性阻塞性肺病:混合方法的探索问题的设计和实现。拘谨的保健和J 2012年3月,21 (1):57 - 64 (免费的全文][CrossRef][Medline]
  5. 麦克莱恩,Nurmatov U,刘JL Pagliari C,汽车J,谢赫•a . Telehealthcare慢性阻塞性肺疾病。科克伦数据库系统转速2011 (7):CD007718。(CrossRef][Medline]
  6. Polisena J, Tran K,西门K,赫顿B,麦吉尔,帕默K,等。慢性阻塞性肺疾病的家庭远程医疗:系统回顾和荟萃分析。J拉Telecare 2010; 16 (3): 120 - 127。(CrossRef][Medline]
  7. 博尔顿CE、水域CS,皮尔斯年代,埃尔温·g·证据不足的好处:系统回顾COPD的家庭远程控制。J Eval Pract 2011; 12月17 (6):1216 - 1222。(CrossRef][Medline]
  8. Steventon这个,巴兹利米,比林斯J, Dixon J,娃娃H, Hirani年代,et al .远程医疗对使用二级护理和死亡率的影响:从整个系统演示集群随机试验结果。BMJ 2012; 344: e3874 [免费的全文][Medline]
  9. 小桥H,汉利J,刘易斯,马克尼W, Pagliari C,范德堡尔M, TELESCOT项目小组。遥测的影响慢性阻塞性肺疾病监控服务:随机对照试验与经济评价和嵌套的定性研究。整洁的保健和J 2009年9月,18 (3):233 - 235 (免费的全文][CrossRef][Medline]
  10. Rodriguez-Roisin r向共识定义慢性阻塞性肺病急性加重。胸部2000 117年5月,生理(2):398 - 401年代。(Medline]
  11. 小桥H,汉利J, McCloughan L,托德,Krishan,刘易斯,et al .遥控集成到现有的临床服务的有效性对住院的慢性阻塞性肺疾病的恶化:研究员盲目,多中心、随机对照试验。BMJ 2013; 347: f6070 [免费的全文][Medline]
  12. 罗伯茨Leidy NK, Wilcox TK,琼斯PW, L,权力JH, Sethi年代,EXACT-PRO学习小组。标准化测量慢性阻塞性肺疾病急性加重。patient-reported日记的信度和效度。2011 J和护理2月01;183 (3):323 - 329。(CrossRef][Medline]
  13. 琼斯PW,哈丁G,贝瑞P的功能,但我,陈W,克莱恩LN。开发和慢性阻塞性肺病的第一验证评估测试。欧元和J 2009年9月,34 (3):648 - 654 (免费的全文][CrossRef][Medline]
  14. 赫斯特小,唐纳森GC、五胞胎JK·戈德林JJP, Patel弧,Wedzicha农协。住处的脉搏血氧测量在慢性阻塞性肺疾病的恶化:未来的初步研究。(52 BMC Pulm地中海2010年10月20日;免费的全文][CrossRef][Medline]
  15. 伯顿C,小桥H,麦金斯b .遥控生理变量的变化在慢性阻塞性肺病加重病人的症状。J拉Telecare 2015年1月,21 (1):29-36。(CrossRef][Medline]
  16. 格拉汉姆·古德费勒我,Bengio Y,考维尔深度学习。剑桥,麻州:麻省理工学院出版社;2016年。
  17. Hastie T, Tibshirani R,弗里德曼j .统计学习的元素:数据挖掘、推理和预测。第二版。纽约:施普林格;2011年。
  18. Sarran C, D哈尔平,利维ML, Prigmore年代,Sachon p的回顾性研究的影响电话提醒服务(健康前景)对慢性阻塞性肺疾病患者住院。NPJ拘谨的保健和地中海2014年10月23日,24:14080 [免费的全文][CrossRef][Medline]
  19. Anthonisen NR, Manfreda J,沃伦CP Hershfield,哈丁g·纳尔逊NA。抗生素治疗在慢性阻塞性肺疾病急性加重。安实习生地中海1987年2月,106 (2):196 - 204。(Medline]
  20. R Bestall JC,保罗•EA·加罗德表明,Garnham R,琼斯PW, Wedzicha农协。有用的医学研究理事会(MRC)呼吸困难量表来衡量残疾患者的慢性阻塞性肺疾病。胸腔1999年7月,54 (7):581 - 586 (免费的全文][Medline]
  21. Zigmond,史卢比。医院焦虑和抑郁量表。Acta Psychiatr Scand 1983年6月,67 (6):361 - 370。(Medline]
  22. 琼斯PW。圣乔治呼吸问卷:MCID。慢性阻塞性肺病2005;3月2 (1):75 - 79。(Medline]
  23. 吉尔茨p模式提取时间序列分类。:德Raedt L,摘要,编辑。数据挖掘和知识发现的原则。德国柏林:施普林格;2001:115 - 127。
  24. Caruana R,卢Y,耶尔克J,科赫P, Elhadad n .理解医疗模型:肺炎风险预测和医院30天重新接纳。2015发表于:21 ACM SIGKDD国际会议上的知识发现和数据挖掘;8月10号至13号,2015;澳大利亚悉尼p。1721 - 1730。(CrossRef]
  25. 盖恩我Elisseeff a介绍变量和特征选择。1182 J马赫学习Res 3:1157 2003;免费的全文]
  26. Counseil du药剂魁北克。(急性支气管炎和慢性阻塞性肺疾病急性加重的,临床指南)。魁北克QC:国家研究所d 'excellence en健康和在社会服务》;2009年10月。
  27. 威尔金森TMA,唐纳森GC,赫斯特小,Seemungal焦油,Wedzicha农协。早期治疗慢性阻塞性肺疾病急性加重的改善结果。2004 J和护理6月15日,169 (12):1298 - 1303。(CrossRef][Medline]
  28. Bonilla E, F Agakov,威廉姆斯c .内核多任务学习使用特定于任务的特性。2007发表于:十一人工智能国际会议上和统计(AISTATS 2007);3月21 - 24日,2007;波多黎各的圣胡安p。43-50 URL:http://proceedings.mlr.press/v2/bonilla07a/bonilla07a.pdf
  29. 粉丝再保险,Chang千瓦,谢长廷CJ,王XR,林CJ。对于大型线性分类LIBLINEAR:图书馆。1874 J马赫学习Res 9:1871 2008;免费的全文]
  30. 邹H, Hastie t .正则化变量选择通过弹性网。J皇家统计Soc 2005; 67 (2): 301 - 320免费的全文]
  31. Galar M,费尔南德斯,Barrenechea E, Bustince H, Herrera f .回顾集合体的类不平衡问题:装袋,促进和混合型方法。IEEE反式系统人Cybern C:转速2012 7月一部分;42 (4):463 - 484。(CrossRef]
  32. Sak H,高级啊,Beaufays f .长期短期记忆递归神经网络基础架构大词汇量语音识别。2014年。URL:https://arxiv.org/pdf/1402.1128.pdf访问[2018-08-31][WebCite缓存]
  33. 德龙,德龙DM, Clarke-Pearson DL。比较在两个或两个以上的相关接收机操作特性曲线:nonparamentric方法。生物识别技术1988年9月,44 (3):837。(CrossRef]
  34. Bengio Y, Y Grandvalet没有k-fold交叉验证的方差的无偏估计量。1105 J马赫学习Res 5:1089 2004;免费的全文]
  35. 格瓦拉Z, Purushotham年代,曹K,桑塔格D,刘y .复发性神经网络的多变量时间序列与缺失值。2016年。URL:https://arxiv.org/pdf/1606.01865.pdf访问[2018-08-30][WebCite缓存]
  36. 哦,J,苏格兰诗人M,褐C,麦卡弗里R,饶K, Ryan EE等。可概括的,数据驱动的方法来预测每日梭状芽胞杆菌的感染风险两大学术医疗中心。感染控制Hosp论文2018年4月,39 (4):425 - 433。(CrossRef][Medline]
  37. 里贝罗MT,辛格年代,Guestrin c .我为什么要信任你?解释任何分类器的预测。22 ACM SIGKDD学报》国际会议上知识发现和数据挖掘。纽约:计算机协会;2016:1135 - 1144。
  38. Doshi-Velez F,金正日对一种严谨的科学解释的机器学习。2016年。URL:https://arxiv.org/pdf/1702.08608.pdf访问[2018-08-30][WebCite缓存]
  39. Esteban C, Quintana JM, Moraza J, Aburto M, Aguirre U, Aguirregomoscorta霁,et al . BODE-Index vs HADO-score在慢性阻塞性肺疾病:在惯例使用哪一个?BMC地中海2010年5月24日,[剩免费的全文][CrossRef][Medline]
  40. Sundh J,詹森C, Lisspers K, Stallberg B,蒙哥马利s .呼吸困难,阻碍,吸烟,恶化(剂量)指数预测慢性阻塞性肺病的死亡。整洁的保健和J 2012年9月,21 (3):295 - 301 (免费的全文][CrossRef][Medline]
  41. 马Sanchez-Morillo D, Fernandez-Granero Leon-Jimenez a使用预测算法的家庭监控的慢性阻塞性肺疾病和哮喘:一个系统的复习。时间和说2016年8月,13 (3):264 - 283。(CrossRef][Medline]
  42. Fernandez-Granero马,Sanchez-Morillo D, Lopez-Gordo马,莱昂答:机器学习的方法来预测慢性阻塞性肺疾病急性加重的。:Ferrandez韦森特JM Alverez-Sanchez JR,拉巴斯德洛佩兹F, Toledo-Moreo FJ埃德里J,编辑器。人工计算生物学和医学。瑞士Cham:施普林格自然瑞士;2015年。
  43. Amalakuhan B, Kiljanek L, Parvathaneni,海丝特,Cheriyath P,费奇曼d当时求职中介再入院慢性阻塞性肺病的预测模型:迎头赶上,我们摒住呼吸,和提高一个国家的问题。J社区Hosp实习教谕2012;2 (1):1 - 7 (免费的全文][CrossRef][Medline]
  44. 沙阿SA, Velardo C,农民,Tarassenko l在慢性阻塞性肺疾病急性加重:使用数字医疗系统识别和预测。J地中海互联网Res 2017年3月7日,19 (3):e69 [免费的全文][CrossRef][Medline]
  45. Steventon这个,巴兹利米,玉米n的影响电话的警报系统(健康前景)对慢性阻塞性肺疾病患者:一项队列研究和匹配控制。J公共卫生(Oxf) 2015年6月,37 (2):313 - 321。(CrossRef][Medline]


AUC:接受者操作特征曲线下的面积
慢性阻塞性肺病:慢性阻塞性肺疾病
FEV1:用力呼气量在第一第二的过期
国民健康保险制度:国家卫生服务
英国:联合王国


由G Eysenbach编辑;提交30.10.17;同行评议的C Velardo N Limsopatham Y王;评论作者19.02.18;修订版本收到19.04.18;接受18.06.18;发表21.09.18

版权

©彼得果园,安娜Agakova,希拉里小桥,克里斯托弗·大卫·伯顿Christophe Sarran Felix Agakov,布莱恩·麦金斯。最初发表在《医学互联网研究(//www.mybigtv.com), 21.09.2018。

这是一个开放分布式根据条知识共享归属许可(https://creativecommons.org/licenses/by/4.0/),它允许无限制的使用、分配、和繁殖在任何媒介,提供原工作,首先发表在《医学网络研究,正确地引用。完整的书目信息,原始发布在//www.mybigtv.com/上的链接,以及这个版权和许可信息必须包括在内。


Baidu
map