JMIR医疗信息学-从数据到最佳决策:数据驱动的概率机器学习方法，为败血症患者提供决策支持

原始论文

¹美国加州大学戴维斯分校计算机科学系和基因组中心

²美国加州大学戴维斯分校内科

^3.北加州退伍军人管理局医疗保健系统，马瑟，加州，美国

通讯作者:

Ilias Tagkopoulos博士

计算机科学系与基因组中心“，

加州大学戴维斯分校

希尔兹大街一号

戴维斯，CA 95616

美国

电话:1 5307527707

传真:1 5307526747

电子邮件:iliast@ucdavis.edu

背景:医学信息学中一个诱人的问题是如何从异构数据集中构建知识，并作为扩展，为临床决策提供信息。电子健康记录(EHR)中大规模数据集成的出现带来了巨大的机遇。然而，由于临床状态和决策过程的复杂性，数据缺失和缺乏基于统计关系的分析工具，我们有效提取知情决策支持的能力有限。

摘要目的:开发和评估一种数据驱动的方法，推断脓毒症患者当前状态的概率分布，可能的轨迹，与抗生素管理相关的最佳行动，预测死亡率和住院时间。

方法:我们提出了一个数据驱动的概率框架，用于败血症相关病例的临床决策支持。我们首先在1492名患者的EHR数据集中定义基于临床实践、专家知识和数据表示的状态、行动、观察和奖励。然后，我们使用部分可观察马尔可夫决策过程(POMDP)模型，根据个体患者轨迹推导出最优策略，并在单独的测试集中评估模型派生策略的性能。政策决定的重点是要使用的抗生素组合类型。多类别和鉴别分类器被用于预测死亡率和住院时间。

结果:数据衍生的抗生素管理政策在49%的病例中导致了良好的患者结果，而在遵循替代政策时则为37% (P= 1.3 e-13)。对模型参数和缺失数据进行敏感性分析，提出了一种能够承受参数变化和数据不确定性的高鲁棒性决策支持工具。当采用最优策略时，387例(25.9%)患者90%的状态转变为较好状态，503例(33.7%)患者90%的状态转变为较差状态(P=4.0e-06)，而在非政策病例中，这些数字分别为192例(12.9%)和764例(51.2%)(P分别为= 4.6 e - 117)。此外，与非政策病例相比，遵循政策后轨迹内导致更好或更好/相同状态的转变比例显著高于非政策病例(605 vs 344例患者，P= 8.6 e-25)。在一般情况下，预测死亡率的AUC为0.7和0.82，预测住院时间的效果相似(AUC为0.69至0.73，准确度为0.69至0.82)。

结论:数据驱动的模型能够高精度地建议有利的行动，预测死亡率和住院时间。这项工作为脓毒症治疗的可扩展的概率临床决策支持框架提供了坚实的基础，该框架可以扩展到其他临床相关的状态和行动，以及可以在其他有足够训练数据的临床领域采用的数据驱动模型。

中国医学医学杂志2015;3(1):e11

doi: 10.2196 / medinform.3445

关键字

脓毒症; 临床决策支持工具; 概率建模; 部分可观察马尔可夫决策过程; POMDP; 信用违约互换

在过去的几十年里，我们的社会已经过渡到这样一种状态，瓶颈已经从缺乏数据转变为提取有意义的知识并随后使用这些知识来推动决策的限制。这种数据丰富、知识匮乏的矛盾在计算驱动的临床决策支持系统(CDSS)中尤其真实，其中自动化高通量数据采集和电子健康记录的进步尚未转化为知识提取和概率决策指导。即使在对人类健康构成危险和普遍威胁的情况下也是如此，败血症就是其中之一。败血症是对感染的一种压倒性的全身免疫反应，导致患者自身组织和器官受损。这一过程可能发生在任何年龄，无论潜在的健康状况如何，也可能发生在看似良性的事件中。严重败血症每年约有1800万人(美国有75万例)，并具有非常高的短期死亡风险(28%至50%)[1严重败血症是重症监护病房(ICU)死亡的主要原因(占发展中国家ICU死亡的60-80%)，全球每年有600多万儿童死于严重败血症[2］．

令人惊讶的是，虽然败血症是最常见的疾病之一(死亡人数超过前列腺癌、乳腺癌和艾滋病毒/艾滋病的总和[3.)，该州的科研经费资助率最低。这与它在我们社会中的严重程度和发生率形成鲜明对比(败血症住院人数在过去10年里增加了一倍多[2])和用于防治疟疾的资金(2008年为146亿美元，平均每年增长11.9%)。败血症的诊断通常会延迟，因为它很难与其他高风险疾病区分开来，这种延迟会导致患者病情迅速恶化。解决这一问题的一种潜在的变革性方法是利用隐藏在患者电子健康记录(EHR)中的大量信息来获得CDSS。

卫生保健系统采用电子病历预计将大大提高病人护理的效率和质量[4］．不幸的是，尽管电子病历的采用呈爆炸式增长，相关资本支出巨大，但这些收益尚未实现[5，6］．失败的原因之一是我们利用复杂的大规模数据来生成知识并为临床决策提供信息的能力仍然有限。例如，虽然CDSS已经存在了几十年，但它们大多局限于警报系统和(数据无关的)基于代理的建议，这些建议依赖于硬编码的标准。虽然在某些系统中，患者的病例被用于概率训练，但这些努力的重点是特征相关性和最终的临床结果[7-10]而非可执行的政策(见[11，12)。我们之前关于乳酸预测工作中EHR观测之间的关联的工作也属于这一类(11)。

在临床决策支持中，一些最强大的建模决策方法是将学习问题视为马尔可夫决策过程(MDPs) [13］．MDP是一种离散随机控制过程，下一个状态仅取决于当前状态和决策者所执行的操作，而它与所有其他状态和操作是有条件独立的。对mdp的扩展是部分可观察的mdp (POMDPs)，其中状态本身是隐藏的，只有观测值可用。在这种情况下，关于当前系统状态的信念是基于观察及其基于状态的可能性形成的[14］．求解mdp /POMDPs的方法有很多，包括动态规划、线性规划和强化学习[13-17］．当问题变得棘手时，强化学习方法是首选，因为它们不需要底层MDP模型的知识。

令人惊讶的是，尽管MDP方法在临床环境中的使用已经得到了很好的建立，但只有少数几个值得注意的例子，其中POMDP已被探索用于具有概率结果的特定疾病决策支持。MDP已被用于决策支持，以确定肝移植的肝脏接受度[18-20.]、爱滋病病毒治疗开始[21]、乳癌筛检[22]、丙型肝炎的治疗[23]，他汀类药物治疗时机[24]，以及其他[25］．然而，在大多数情况下，病理是复杂的，患者的潜在状态是潜在的，我们只能观察发射信号(观察结果)具有一定的不确定性。在医疗决策支持中采用POMDP的一个显著例子是Hauskrecht和Fraser [26，27他们用包括治疗和测试行动的POMDP模型来模拟缺血性心脏病。这项工作使用了一个令人印象深刻的状态变量层次模型，并在预测给定场景下的最优策略方面表现得相当不错。同样，Turgay等人[28]使用POMDP模型来支持个性化的乳房x光筛查决策，该模型使用了六种状态，其中三种状态是完全可观察到的。Kreke等人为肺炎相关败血症患者创建了2状态POMDP模型，其中仅包括细胞因子测试作为调查行动，并将顺序器官衰竭评估(SOFA)评分用于MDP状态空间定义[29，30.］．在所有这些情况下，状态模型和策略都是粗粒度的，参数空间有限，训练集只有几十个病人。

在这里，我们使用基于点的POMDP求解器以及1492例患者的数据集，其中包括带有时间戳的血液测试、生命体征和其他有关败血症的记录。我们通过定义数据驱动的状态、观察、概率信念、行动和奖励来模拟患者的轨迹和治疗。然后，我们评估了这种方法的潜力，以告知抗生素组合的最佳管理，定义为抗生素“政策”。此外，我们还评估了应用机器学习方法来预测患者死亡率和住院时间的预测能力，以推动临床决策支持。

数据收集

EHR数据库包含1492例成年患者(≥18岁;已删除个人健康信息并符合至少两项全身炎症反应综合征(SIRS)标准的ICU病例[31被加州大学戴维斯健康系统(UCDHS)录取，用于所有的分析，图1(a).所有受试者均获得知情同意，分析得到加州大学戴维斯分校机构审查委员会(irb# 254575)的批准。1492例患者中45.0%为女性，平均住院时间为17.0天(SD 36.7天)，38.0%为急诊科入院。表1总结使用的数据集;图2提供总/ICU住院时间的直方图)。UCDHS是一个三级护理的学术医疗中心，在研究期间没有用于诊断或治疗败血症的主动电子病历警报系统。所有数据都是通过结构化查询语言对去标识的关系数据库进行查询，从EHR中抽象出来的。在2010年1月1日至2010年12月31日期间住院和出院的患者被纳入数据库。以下六个变量被用作观测变量在我们的模型中图1(a):温度、呼吸频率(RR)、白细胞计数(WBC)、平均动脉压(MAP)、收缩压(SBP)和血液培养结果，并明确提及培养中存在的细菌种类。前五个变量是对病人一段时间内记录的病情的测量;温度、RR、WBC和MAP是SIRS标准的一部分。

表1。数据库的特征。

数据集中的状态和状态转移分布
状态	转换(共4200个)	患者(1492例)
没有先生们	1300例(30.85%)	915例(61.33%)
先生们	294例(6.98%)	264例(17.70%)
脓毒症	41 (0.97%)	38 (2.54%)
感染性休克	17 (0.40%)	17 (1.14%)
私人秘书(可能的SIRS)	1929例(45.79%)	939例(62.94%)
菌血症	157例(3.73%)	121例(8.11%)
菌血症可能败血症	323例(7.67%)	179例(11.99%)
PSS(可能感染性休克)	139例(3.30%)	135例(9.05%)
人口统计学和最终诊断
特征	价值

女性性别	677例(45.37%)
男性的性别	815例(54.63%)
死亡率	376例(25.2%)
停留时间(天)	意思是:17 中位数:8
重症监护病房住院日(天)	意思是:6.5 值:1
脓毒症诊断	188例(12.60%)
感染性休克诊断	21 (1.41%)
严重脓毒症诊断	8 (0.53%)

图1。脓毒症临床决策支持系统(CDSS)的开发与评估。(A) EHR数据库的概要，生命体征、状态、动作的分布。似然函数用于计算特定状态的转移和观测概率。(B)状态-作用图描述了基于观察变量值的潜在患者状态、可能的转变和信念。有两种吸收状态，“死亡”和“解雇”。应用于状态-动作空间的POMDP模型的训练对信念样本集执行值迭代更新，有效地使用蒙特卡罗方法进行采样，并使用动态规划计算值迭代。(C)信念(即患者状态的概率分布)基于所采取的行动和新的观察而更新。在每个时间步骤观察病人的生命体征，并采取与最佳政策相对应的行动。一组新的观察(生命体征、测试)将导致更新的信念，从而可能导致采取新的行动。 The update is asynchronous, as it is calculated on-the-fly as new information arrives. (D) Evaluation of the CDSS framework was performed through 5-fold cross validation and data size sensitivity analysis.

图2。死亡率分类/预测的ROC曲线。支持向量机训练结果，给定提供的生命和死亡率模型，在一个10倍交叉验证方案。用于分类的特征是温度、呼吸频率、WBC、MAP和乳酸水平，在1492例DB中考虑了所有7个变量的745例患者。采用径向基函数(RBF)核进行支持向量机训练。五个测量变量通过每个患者轨迹的平均值和标准偏差(STD)进行总结。主成分分析(PCA)还用于评估在这种情况下是否可以实现特征空间的线性变换和降维。采用滤波方法，以受试者工作特征(ROC)曲线下面积(Area Under the Curve, AUC)作为排序准则。死亡率预测的阳性/阴性类别分别定义为活着/死亡。(A)使用具备所有特征的患者进行分类。 The maximum prediction accuracy when all patients with available all vitals are used, is 0.72 (72%) and the AUC is 0.70. (Inset) Classification using the 170 patients that have a diagnosis related to Sepsis. The maximum prediction accuracy is 0.71 (71%) and the AUC is 0.61. (B) SVM classification performance when the patient group that have ratio of transitions to better states with policy drugs vs all transitions to better states > 0.9 (302 patients out of 745) is used. (Inset) SVM classification performance for the patient group that have ratio of transition to better states with policy drugs vs all transitions to better states less or equal to 0.1 (190 patients out of 745).

脓毒症模型

国家的定义

我们在公式中所包含的状态是根据定义良好的标准和专家意见选择的，图1(a).如上所示，每一种状态都由若干特征来定义表2．定义各自状态的SIRS标准为hr>每分钟90次，rr>每分钟20次呼吸(或动脉CO分压)₂< 32mm Hg)，温度为>38°C或<36°C，白细胞为> 12000或<4000个细胞/mm3(或> 10%条带)。对于被诊断为败血症的患者，至少需要存在两项SIRS标准，并且应该存在疑似感染(例如，通过血液检测结果明显)。败血症性休克发生在败血症引起的低血压(收缩压低于90mmhg，低于基线< 40mmhg，或MAP低于70mmhg)，尽管进行了充分的液体复苏，但仍持续存在。此外，我们还包括了在训练阶段由于缺少数据库信息而无法完全确定的状态，例如缺少重要指标测量和时间戳。这些状态是“可能的感染性休克”(PSS:低血压，血液测试阳性，没有足够的生命体征来确定SIRS和/或败血症)，“可能的SIRS”(PS:没有感染，没有生命体征来确定SIRS)，“菌血症可能的SIRS”(BPS:感染，但没有生命体征来确定SIRS和/或败血症)。我们在这项工作中没有包括“严重败血症”状态，因为目前的数据集没有提供足够的信息来将器官衰竭纳入患者状态定义。

表2。各州及其基于生命体征和血液测试的定义。

状态	特性
没有先生们
先生们	心率(HR)每分钟90次
	呼吸频率(RR) >每分钟20次呼吸 (或动脉CO2分压< 32)
	温度>38°C或<36°C
	白细胞计数(WBC) > 12000或<4000个细胞/mm3(或> 10%条带)
脓毒症	SIRS与感染(血检结果)
严重脓毒症	败血症和器官衰竭(ICL代码显示)
感染性休克	败血症和低血压(收缩压(SBP)低于90mmhg，低于基线40 mm Hg，或平均动脉压(MAP)低于70 mm Hg

PS	没有感染，没有生命体征来判断SIRS
菌血症	感染(血检结果)&无SIRS
个基点	感染-没有生命体征来判断SIRS(因此是败血症)
PSS	低血压，血检阳性，无生命体征判定SIRS(因此败血症)

行动

策略是遵循的一个或多个操作。每种抗生素组合都被认为是一种可能的作用。我们分析的患者EHR中共包含48种抗生素。在这里，我们考虑了最常用的五种抗生素(万古霉素、头孢吡肟、甲硝唑、头孢曲松和美罗培南)及其所有可能的组合，再加上一种包含所有其他可能使用过的抗生素的组合。这就产生了32种可能的组合，每种组合都定义了五种最常用抗生素的不同作用。万古霉素是一种糖肽抗生素，可抑制革兰氏阳性细菌的细胞壁合成，但由于其肾毒性和耳毒性而避免使用。头孢吡肟和头孢噻松都是头孢菌素类抗生素，对革兰氏阴性和革兰氏阳性细菌都有活性，特别用于治疗中重度肺炎。头孢吡肟也被用于治疗多重耐药微生物菌株引起的感染。甲硝唑是一种硝基咪唑类抗生素，特别用于厌氧菌和一些原生动物。美罗培南是一种超广谱抗生素和β -内酰胺，可抑制细菌壁合成。 Combinations of all states with all possible actions comprise the state-action space for our sepsis model,图1(b，左侧)。

奖励

奖励/成本值由医生根据每个状态的严重程度提供经验。从好到坏分别是:健康(10万)，无SIRS(5万)，可能的败血症(PS, 5000)， SIRS(-50)，菌血症(-10,000)，菌血症可能的败血症(BPS， -12,500)，可能的脓毒症休克(PSS， -15,000)，败血症(-40,000)，脓毒症休克(-60,000)，死亡(-100,000)。中也描述了此信息图3，第一个面板。

图3。临床决策支持系统的图形用户界面(GUI)。医生可以访问给定患者的实时和历史生命史(左上)，以及状态史(右上)。状态历史记录显示事件，如果采用最优策略，最可能的路径，以及与当前患者具有相似配置文件(即过去的状态和生命体征)的前三位患者的过去轨迹。状态图(左下)描述了状态转换概率及其基于当前状态的更新。GUI还显示信念分布、给定当前信念的最优操作和次优替代操作。显示用药史和重大事件(右下)。虽然用户可以灵活地修改期望的奖励值(左上)，然后手动触发最优策略的重新计算，但该工具会自动使用新数据更新值。

转换和观测概率的计算

转换概率计算为每个状态-动作组合中状态-动作-下一状态模式的频率。类似地，观察概率是根据在任何给定状态下观察重要值(以箱为单位)组合的频率来计算的。为了提取观察组合的概率，我们拟合最能描述每个重要数据和状态数据的分布，然后将其划分为五个不重叠、大小相等的容器。选择的bin数量使每个bin中有足够的数据(>10个样本)。对于每一种状态，五个生命值的分布在它们的最小-最大范围内被分为五个相等的部分(每个分配来自分布的概率)，血液测试用二进制变量(存在/不存在细菌)建模。这导致了6250种组合(2∙5⁵）.

POMDP配方

POMDP被定义为一个8元组(S, A, Z, T, O, R, b₀,γ),年代是有限状态的集合，一个是有限动作的集合，T: s × a × s→p (s)是状态转移函数，T (s, a, s ')表示概率P(s ' | s, a)从一个州到另一个州的行动一个，R: s × a→ℜ是奖励函数，P (s)表示执行动作的即时奖励一个在国家S， γ∈[0,1]是折现因子，Z是有限观测集，O: s × a→p (s)是观测函数，O(s, a, z)表示概率P (z |年代,)感知的观察z什么时候采取行动一个到达州年代，b₀是初始状态概率分布，b状态概率分布和b₀(年代)表示状态开始的概率年代．一项政策πPOMDP问题的定义为π(b)→它的价值是我们执行行动后将获得的累计预期折现奖励一个当我们有信念时b．使这个累积值最大化的策略称为最优政策．我们使用了一种基于蒙特卡罗近似的POMDP模型训练方法来解决采样信念空间上的值迭代方法，图1(b，右侧)。值迭代通过求解Bellman方程(图4）.

如果我们有信念b(s)处于状态s，执行行动一个我们观察到z这是对处于状态的最新信念b(年代)显示在图1(c)和图5．

统计评价

我们使用珀尔修斯［32]，一种基于点的随机值迭代算法，在默认设置下提取最优策略。我们使用5倍交叉验证来评估策略的泛化误差，图1(d).对于特定的过渡，如果该患者使用了保单中的一种或多种抗生素，则cdss衍生保单将被视为遵循该保单。比较与每种转换的cdss衍生策略一致的处理和不一致的处理(非cdss衍生策略)，测量在两种情况下导致更好/相同/更差状态的转换的百分比。在轨迹水平上，我们比较了有cdss衍生政策和没有cdss衍生政策的情况下，轨迹平均向更好状态移动的百分比。算法在减少数据的情况下执行的鲁棒性是通过将患者数据分为3部分来测试的，其中3部分中只有2部分用于训练。该算法在随机选择的2/3训练数据的子集上进行训练，这些子集对应于总训练集的期望百分比。性能总是在相同的测试集(即总数据集的1/3)中进行评估，整个过程重复10次以减少偏差，图1(d)。P值的计算使用多重假设修正的超几何分布(Benjamini-Hochberg)。

住院时间和死亡率推断

对于住院时间(LOS)预测，我们首先根据患者的LOS分布将患者分成大小相等的箱子，从而最大化熵并避免对训练数据的偏差。然后我们使用不同核函数的支持向量机[33，34］．在支持向量机分类中，训练特征向量被映射到高维空间，支持向量机在高维空间中确定一个线性分离的超平面，该超平面由最大边界[35］．为了在给定患者生命体征的情况下预测生存结果，考虑到每个患者的五个特征(温度、呼吸频率、WBC、MAP和乳酸水平)和死亡率状态，使用SVM分类方法进行二元和多类分类。对于后者，我们考虑组合成对方案和单一对所有方案[36]，我们观察到我们的结果没有显著差异。我们通过执行交叉验证(CV)和计算接收者-操作者-特征(ROC)曲线、置信区间(CI)和曲线下面积(AUC)来评估分类器的性能。

基于数据驱动机器学习方法的最优政策预测

我们进行了5次交叉验证(CV)来评估我们方法的泛化误差，在所有折叠中都得到了相似的结果，图6(一)和表2而且3.．在每一个过渡阶段中，cdss衍生的最优政策比医生所遵循的治疗不符合cdss衍生政策时，更能导致更好的状态(遵循cdss衍生政策时，49%的人过渡到更好的状态，反之为37%;P= 1.3 e-13)。有趣的是，当使用非CDSS政策时，患者倾向于保持相同的状况(非CDSS政策为35%，CDSS政策为25%，P=5.1e-13)，而CDSS衍生政策和非CDSS政策之间的差异在向更坏的情况过渡时不具有统计学意义(非CDSS政策28% vs CDSS政策26%，P= 4.2 e 1)。然后，我们独立地分析了每个患者的轨迹，以估计在遵循或不遵循该政策的情况下，轨迹中导致更好状态的过渡次数。结果表明，当遵循最优策略预测(即使预期累积奖励最大化的策略，如方法部分所定义)时，存在一个显著的转向轨迹，其90%以上的转变导致更好的状态，图6(b).当实施该政策时，387名患者(25.9%)90%的状态转变为较好状态，503名患者(33.7%)90%的状态转变为较差状态(P=4.0e-06)，而在非政策病例中，这些数字分别为192例(12.9%)和764例(51.2%)(P分别为= 4.6 e - 117)。此外，遵循策略的情况下，轨迹内导致更好或更好/相同状态的转换百分比显著高于非策略情况。事实上，605名患者对344名患者(P=8.6e-25)在遵循cdss衍生政策和不遵循cdss衍生政策时，90%的人都过渡到更好的状态，图1(a).这一结果在5倍CV的所有5次运行中都观察到了，并且在完整数据集上也观察到了，因此它对不同的数据分布都成立。

接下来，我们评估了POMDP框架对减少训练数据集的鲁棒性。为了进行分析，我们迭代地缩减训练集，并在相同的测试数据集中进行评估(参见方法)。结果表明，该方法对数据量减少具有鲁棒性。图6(c)以及图3而且7，主要是由于每次组合提出的最优策略中，各种抗生素存在明显的重叠。为了通过减少训练集来更深入地了解政策是如何变化的，我们为每个状态构建了一个最优政策的综合地图，图6(d).由此产生的图谱提供了cdss衍生的药物组合，在每个州都带来了更有利的结果，表3．重要的是要注意，这些策略对应于一个明确的知识，即患者是那个特定的状态(信念/概率为1)，这几乎是不可能的，因为他/她以前的历史(以前的状态，临床信息等)在任何给定时间塑造了所有状态的信念分布。此外，所描述的药物组合总体上与更好的结果相关，并不是在任何情况下患者处于特定状态时的最佳组合，因为强效药物组合用于更严重的病例，这些病例更有可能过渡到更糟糕的状态。任何状态下的最佳决策最终都是所有观察结果(生命体征、血液结果等)的函数。它们之间的联系将取决于CDSS培训所用数据的结构。

表3。基于POMDP CDSS工具的最优策略。请注意，该结果假设当前状态是已知的，并在状态列中给定(信念/概率为1)。

状态	药物
先生们	甲硝哒唑头孢吡肟,头孢曲松钠
PS	甲硝哒唑、头孢曲松钠、MEROPENEM
菌血症	头孢吡肟,头孢曲松钠
脓毒症	头孢曲松钠
个基点	万古霉素、头孢吡肟、头孢曲松钠
PSS	甲硝哒唑、头孢曲松钠
感染性休克	头孢曲松钠

图6。脓毒症POMDP临床决策支持系统的性能和鲁棒性。(A) 5次交叉验证结果描述了使用政策建议的抗生素组合的每一次折叠(左，蓝色)和不使用(右，棕色)的性能。每个单元格包含转换的数量(总共4225个转换;每次测试折叠843个过渡)，在每种情况下导致更差、相同或更好的状态。所有折叠中特定于州的百分比允许在不同的策略策略之间进行比较。(B)患者轨迹的数量vs.他们过渡到更好状态的百分比。(C)基于数据集分层约简的CDSS性能对数据大小的依赖关系。结果显示了政策建议的抗生素组合(左)和不同状态的所有其他组合(右)(D)在计算的最优政策中建议的抗生素组合的变化是数据大小减少的函数。每行是一个状态，每列表示一个药物训练集组合。 The two tables depict which drug combinations were found to lead to better outcomes when in the perspective state, in the general case. States are as defined in the Methods sections, with three states denoting uncertainty due to missing data (PS: probable sepsis; BPS: bacteremia, probable sepsis; PSS: probable septic shock).

图7。预测患者住院时间(LOS)。数据库中有完整记录的745例患者的LOS直方图(中位住院时间为10.4天)。以4天、8天或12天作为两类之间的界限时，二元分类器的ROC曲线。

死亡率的预测

使用支持向量机(Support Vector Machines，见方法)可以准确地对临床结果进行分类。为了预测患者的死亡率，我们使用了五个特征(温度、呼吸频率、WBC、MAP和乳酸水平)以及每个患者的最终结果。这导致在1492名患者中有745名患者的数据集，所有6个变量都可用。5个测量变量通过每个患者轨迹的平均值和标准偏差(STD)进行总结[37］．主成分分析(PCA)也用于评估在这种情况下是否可以实现特征空间的线性变换和降维[38］．采用滤波方法，将受试者工作特征(ROC)曲线下面积(Area-Under-the-Curve, AUC)作为排序准则[39］．采用径向基函数(RBF)核进行10倍交叉验证方案的支持向量机训练。死亡率预测的阳性/阴性类别分别定义为活着/死亡。745例患者的死亡分类AUC为0.70 (SD 0.04;95% CI)，准确度为0.72，图2(a).当测试集集中在170例脓毒症患者组时，AUC为0.61(SD为0.14)，准确度为0.71，图2(a).对于better-to-all转换比大于0.9的患者组(745例患者中有302例)，AUC较高，为0.74 (SD 0.07)，准确性为0.81，图2(b)，而对于better-to-all比率小于0.1的患者，AUC下降至0.58 (SD 0.10)。这些结果的比较表明，训练后的分类器在使用所提议的政策的情况下表现更好，更准确，当这些政策导致有利的结果时，其辨别能力更高。

住院时间预测

为了预测住院时间(LOS)，我们用两个额外的特征训练SVM分类器，这两个特征被发现是有信息的:阳性血液培养的发生和患者住院期间政策药物管理的次数。然后，我们根据住院时间将患者分为两类。这种歧视的阈值是由住院的中位时间(10.4天)决定的，因此我们选择了4、8和12天的阈值。采用10倍交叉验证方案对分类器进行评价。分类器的AUC为0.69 ~ 0.73,CI偏差较小(0.02 ~ 0.05)，准确度为0.69 ~ 0.82，图7．对多个停留时间(0- 3,3 - 6,6 - 12,12 +天)的多类别分类有相似的结果，尽管在预测两个中间类别(3-6和6-12)时AUC下降到0.53，图6．

在这项工作中，我们使用1492例患者的EHR构建了脓毒症患者的决策支持工具和预测分类器。尽管数据集在患者数量和可用功能方面都有限，但CDSS方法导致了数据驱动的政策，从而显著改善了患者的结果。同样，我们证明了有时间戳的EHR观察数据，如患者的生命体征和血液结果，可用于预测死亡率和住院间隔时间，具有更高的准确性和鉴别性能。

考虑到治疗和结果的巨大组合空间，开发统计决策支持工具的主要挑战之一是以临床相关和计算可行的方式定义状态和行动。为了创建一个平衡这些权衡的框架，我们使用专家知识和统计方法在POMDP框架内有效地表示临床病例，同时确保每个状态-动作组合都有足够的数据用于模型训练和测试。随着临床数据库规模的扩大，可以应用自动化状态和动作定义技术，这可能会导致对每种情况下的医学相关内容的有趣见解。我们的稳健性分析认为，即使对于小样本量，基于ppd的工具也相当稳健性，对于更大的综合数据集，更复杂的具有额外特征的状态-行动空间，以及复杂的临床病史，这种方法的泛化边界仍有待观察。与任何数据驱动的预测方法一样，结果的泛化误差和适用性取决于模型能够捕捉真实状态和行为空间的扩展，以及由于有限的样本量、数据质量和精度而产生的各种偏差。例如，患者群体的差异、病房的微生物耐药性模式、患者的抗感染前治疗、药物(如血管升压药)或治疗(如呼吸机支持)的应用，目前尚未被捕获，因为它们可以极大地改变拟议的政策和行动，因此限制了本研究的适用性。为了解决这些问题，本文提出的方法可以应用于更大的数据集，这些数据集可以支持更广泛的状态、动作和可观察对象建模，同时纠正不同属性之间可能的偏差。

这项初步研究为脓毒症治疗的预测性CDSS铺平了几个有趣的方向。除了SIRS标准和感染的指示外，考虑到可能的功能障碍器官是有用的，这是我们在这里使用的数据库中没有的一组信息。因此，我们可以为器官功能障碍定义九种状态:缺失、呼吸、凝血、肝脏、中枢神经系统、肾脏、代谢、心血管、多器官功能障碍(后者定义为两个或两个以上器官功能衰竭)。序贯器官衰竭评估(SOFA)准则及评分[40可以用于此目的。行动空间同样可以扩展到包括对脓毒症治疗很重要的其他几个行动，如静脉输液的管理和剂量、血管活性药物、机械通气的开始、氧治疗、血液透析、脓毒症顺序设置的使用以及其他入院和/或转移决定。为此，在特征和患者方面，更广泛的数据集是至关重要的，这样状态/动作组合空间将有足够的训练样本。此外，扩展复合特征的数量是很重要的，因为在本研究中，我们只考虑了七个特征。这样的延长可能会导致更准确的预测死亡率和病人的住院时间。从技术角度来看，重要的是要努力建立一个算法框架，可以从不同的轨迹中区分已经达到状态的患者，因为每种情况下的最佳治疗方法可能有本质上的不同。虽然这在一般情况下会违反马尔可夫性质，但人们可以研究可以容纳这种设置的有限内存模型。

最后，任何CDSS工具的一个重要方面是对患者状态、过去历史和决策空间的直观和交互式可视化。在这项工作中，我们开发了一个交互式图形用户界面(GUI)，它与POMDP解算器和数据库连接，可以显示生命特征、药物和状态历史、状态信念、所有可能的转换及其概率的状态图，以及给定患者状态的当前信念的最佳/近乎最佳操作。图3．用户还可以为每个状态定义奖励，并重新计算由pomdp派生的最优策略。此外，该患者的轨迹将与数据库中其他患者的轨迹进行实时比较，以便对潜在结果进行比较和可视化。新颖的可视化方法和交互式工具，如非突兀的头戴式显示器，是与所提出的CDSS配对的有前途的候选者，无论是作为显示和采集设备。最终目标应该是利用从现成的EMR数据中获得的实时学习和分析，警告临床医生患者“状态”的重要变化，以及需要采取新的“行动”来改善严重败血症患者的结局。因此，“大数据”分析与普适计算的整合有可能彻底改变我们所知道的急诊和重症监护医学。

致谢

我们要感谢Jeffrey Green博士，Hien Nguyen博士和Jason Adams博士关于CDSS工具临床相关性的有益讨论，Aaron Bair博士关于测试CDSS工具的适当临床环境的建议，Sergey Levine博士和Kee-Eung Kim博士关于POMDP方法的建议。这项工作由社会利益信息技术研究中心(CITRIS)通过种子基金#2469085和美国国立卫生研究院国家推进转化科学中心(基金#UL1 TR000002)向IT提供支持。

作者的贡献

AT完成了所有实验并分析了数据。TA对该研究的临床方法和相关性提出了建议。IT部门在所有计算方面提供建议，并监督研究的数据分析。AT, TA和IT写了手稿。

利益冲突

没有宣布。

‎

多媒体附件1

补充表格和图表。

PDF档案(adobepdf档案)，453KB

伍德KA，安格斯DC。脓毒症新疗法的药物经济学意义。药物经济学2004;22(14):895 - 906。［Medline］
Hall MJ, Williams SN, DeFrances CJ, Golosinskiy A.败血症的住院护理:患者和医院的挑战。见:NCHS数据简报。海茨维尔，马里兰州:国家卫生统计中心;2011.
脓毒症的事实。脓毒症的事实。URL:http://world-sepsis-day.org/../?MET=HOME&vLANGUAGE=EN[访问时间:2015-02-09][WebCite缓存］
甘特TD，特里NP。美国和澳大利亚国家电子健康记录体系结构的出现:模型、成本和问题。医学互联网研究杂志2005;7(1)。
冯凯奇，泰勒。卫生信息技术采用的状态和模式。兰德公司2005;409。
Kellermann AL, Jones SS.如何才能实现健康信息技术尚未实现的承诺。卫生Aff (Millwood) 2013年1月;32(1):63-68。［CrossRef] [Medline］
吴晓峰，李晓峰，李晓峰，李晓峰。基于Agent模型的大规模数据挖掘研究。2003年发表于:第二届IEEE认知信息学国际会议(ICCI);2003年8月18日至20日;英国伦敦，143-150页。
Catley C, Frize M.一个基于xml的集成智能新生儿重症监护病房的原型实现。2003年8月18日发表于:第四届IEEE国际生物医学信息技术应用会议;2003;英国伦敦，第322-325页。
Balter J, Labarre-Vila A, Ziébelin D, Garbay C.基于知识驱动的肌电图数据挖掘框架。中国生物医学工程学报，2004,25(4):375-382。［Medline］
Clermont GC, Angus DC, DiRusso SM, Griffin M, Linde-Zwirble WT.预测重症监护病房患者的医院死亡率:人工神经网络与逻辑回归模型的比较。Crit Care Med 2001 Feb;29(2):291-296。［Medline］
福斯特D, McGregor C, El-Masri S.基于代理的智能决策支持系统的调查，以支持临床管理和研究。2005年7月25日发表于:第四届自主代理和多代理系统国际联合会议;2005;荷兰乌得勒支，第16-34页。
计算机技术和临床工作:仍在等待戈多的到来。中国医学杂志2005 3月9日;293(10):1261-1263。［CrossRef] [Medline］
一个马氏决策过程。在:没有。p - 1066。圣塔莫尼卡:兰德公司;1957.
王志刚，王志刚。随机随机域的规划与行为。人工智能1998;101(1):99-134。
李文杰，李志强，李志强。机器人学习方法的研究进展。机器人与自动化系统，2009;57(5):469-483。
霍华德RA。动态规划和马尔可夫过程。在:科技出版社。波士顿，马萨诸塞州:麻省理工学院;1960.
Watkins CJ, Dayan P. q . learning。Mach Learning 1992;8(3-4):279-292。
Alagoz O, Maillart LM, Schaefer AJ, Roberts MS.活体肝移植的最佳时机。管理科学学报，2004;30(10):1420-1430。
Alagoz O, Maillart LM, Schaefer AJ, Roberts MS.使用等待名单的隐式模型确定尸体肝脏的接受度。操作决议2007;55(1):24-36。
Alagoz O, Maillart LM, Schaefer AJ, Roberts MS.活体肝脏和尸体肝脏之间的选择。管理科学学报，2007;29(4):344 - 344。
Shechter SM, Bailey MD, Schaefer AJ, Roberts MS.在有序健康状态下开始HIV治疗的最佳时间。操作决议2008;56(1):20-33。
马雅丽，李丽娟，李丽娟。动态乳腺癌筛查政策评估。操作决议2008;56(6):1411-1427。
费索尔DM，格里芬PM。丙型肝炎和其他疾病的检测和治疗时机。2007年发表于:INFORMS国际会议;2007年7月;波多黎各第11页。
丹顿BT，库尔特M，沙阿ND，科比SC，史密斯SA。优化糖尿病患者他汀类药物治疗起始时间。医学Decis Making 2009;29(3):351-367。［CrossRef] [Medline］
马可夫决策过程:不确定性下连续决策的一个工具。2010;30(4):474-483 [免费全文] [CrossRef] [Medline］
用部分可观察的马尔可夫决策过程模拟缺血性心脏病的治疗。在:Proc AMIA Symp. 1998;1998 p. 538-542 URL:http://europepmc.org/abstract/MED/9929277
Hauskrecht M, Fraser H.计划治疗缺血性心脏病与部分可观察马尔可夫决策过程。2000年3月18日(3):221-244。［Medline］
艾尔T，阿拉戈斯O，斯托特NK。一种POMDP方法用于个性化乳房x线摄影筛查决策。运筹研究2012 6月12日;60(5):1019-1034。
Kreke我。为肺炎相关败血症患者建模疾病管理决策。宾夕法尼亚州匹兹堡:匹兹堡大学;2007.
Kreke JE, Bailey MD, Schaefer AJ, Angus DC, Roberts MS.为肺炎相关败血症患者建模出院政策。国际工程学报，2008;40(9):853-860。
Bone RC, Balk RA, Cerra FB, Dellinger RP, Fein AM, Knaus WA等。脓毒症和器官衰竭的定义和脓毒症创新疗法的使用指南。重症监护医学1992;20(6):864-874。
跨度打MTJ。，Vlassis N.. Perseus: Randomized Point-based Value Iteration for POMDPs. Journal of Artificial Intelligence Research 2005 Jul 01;24(1):195-220 [免费全文］
王世林，吴峰，王波峰。支持向量机模型预测严重脓毒症。Adv Exp Med biology 2010;68:75-81。［CrossRef] [Medline］
Tang CH, Middleton PM, Savkin AV, Chan GS, Bishop S, Lovell NH。使用非线性支持向量机对严重脓毒症和全身炎症反应综合征进行无创分类的初步研究。physical Meas 2010 Jun;31(6):775-793。［CrossRef] [Medline］
统计学习理论。纽约:John Wiley & Sons;1998.
徐志伟，林志杰。多类支持向量机方法的比较。神经网络学报，2002;13(2):415-425。［CrossRef] [Medline］
杨晓明，王晓明，王晓明。生物信息学中特征选择技术的研究进展。生物信息学2007;23:。
Jolliffe它。主成分分析。纽约:施普林格;2005.
王锐，唐凯。ROC曲线下面积最大化的特征选择。2009年12月6日发表于:IEEE国际数据挖掘研讨会;2009;美国佛罗里达州，第400-405页。
Vincent JL, Moreno R, Takala J, Willatts S, De Mendonça A, Bruining H，等。SOFA(败血症相关器官衰竭评估)评分，用于描述器官功能障碍/衰竭。代表欧洲重症监护医学学会败血症相关问题工作组。重症监护医学1996七月;22(7):707-710。［Medline］

‎

AUC:曲线下面积

个基点:菌血症可能是SIRS

信用违约互换:临床决策支持系统

置信区间:置信区间

简历:交叉验证

电子健康档案:电子健康记录

加护病房:重症监护室

洛杉矶:停留时间

地图:平均动脉压

MDP:马尔可夫决策过程

主成分分析:主成分分析

POMDP:部分可观察马尔可夫决策过程

PS:可能的先生们

PSS:可能的感染性休克

RBF:径向基函数

中华民国:receiver-operator-characteristic

RR:呼吸速率

SBP:收缩压

先生们:全身炎症反应综合征

沙发:顺序器官衰竭评估

支持向量机:支持向量机

UCDHS:加州大学戴维斯健康系统

白细胞:白细胞计数

G·艾森巴赫(G Eysenbach)编辑;提交03.04.14;同行评议G Rätsch, S Tafelski;作者评论02.07.14;订正版本收到26.08.14;接受11.10.14;发表24.02.15

©Athanasios Tsoukalas, Timothy Albertson, Ilias Tagkopoulos。最初发表于JMIR医学信息学(http://medinform.www.mybigtv.com)， 2015年2月24日。

这是一篇开放获取的文章，根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息，http://medinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

从数据到最优决策:数据驱动的概率机器学习方法，为败血症患者提供决策支持