卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J Med Internet Res

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析

加拿大多伦多

v25i1e36477

36716097

10.2196/36477

原始论文

使用行政数据和医院健康的社会决定因素支持紧急中风分诊的机器学习方法:回顾性研究

Eysenbach

冈瑟

Somanchi

斯利

Ayavaci

穆罕默德

马洛塔

尼古拉

程ydF4y2Ba

明ydF4y2Ba

文学学士，硕士，博士 1

https://orcid.org/0000-0001-7490-1512

棕褐色

宣

理学士、理学硕士、博士 2

https://orcid.org/0000-0003-0074-8898

Padman

瑞玛

BTECH，硕士，博士 3.

约翰海因茨三世信息系统和公共政策学院卡耐基梅隆大学

福布斯大道4800号

汉堡馆2101D

匹兹堡，宾夕法尼亚州，15213

美国 1 412 268 2180 rpadman@cmu.edu

https://orcid.org/0000-0003-4250-4357

1 信息系统与商业分析系商学院佛罗里达国际大学

佛罗里达州迈阿密,

美国 2 信息系统与分析系利维商学院圣克拉拉大学

圣克拉拉，加州

美国 3. 约翰海因茨三世信息系统和公共政策学院卡耐基梅隆大学

宾夕法尼亚州匹兹堡

美国

通讯作者:Rema Padman rpadman@cmu.edu

2023

30. 1 2023

e36477

14 2 2022 6 4 2022 17 7 2022 18 12 2022

©陈敏，谭轩，Rema Padman。原发表于医学互联网研究杂志(//www.mybigtv.com)， 30.01.2023。

2023

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

背景

有效的脑卒中管理的关键是及时诊断和分诊。为帮助检测中风而开发的机器学习(ML)方法专注于解释详细的临床数据，如临床记录和诊断成像结果。然而，在对患者进行初步分类时，这些信息可能并不容易获得，特别是在农村和服务不足的社区。

客观的

本研究旨在基于患者住院时广泛可用的数据开发ML卒中预测算法，并评估健康社会决定因素(SDoH)在卒中预测中的附加价值。

方法

我们对2012年至2014年佛罗里达州所有急症护理医院的急诊科和住院记录进行了回顾性研究，并合并了美国社区调查的SDoH数据。采用病例对照设计构建卒中和卒中模拟队列。我们比较了基于3组预测因子的ML模型(即梯度增强机和随机森林)与逻辑回归模型的算法性能和特征重要性度量。为了深入了解预测并最终帮助护理提供者做出决策，我们使用TreeSHAP的基于树的ML模型来解释中风预测。

结果

我们的分析包括了143,203例特殊患者的医院就诊，根据出院时的主要诊断，这些患者中有73% (n=104,662)发生了中风。本研究提出的方法灵敏度高，在减少危险中风变色龙的误诊(假阴性率<4%)方面特别有效。ML分类器在所有3种输入组合中始终优于基准逻辑回归。我们发现这些模型在解释其性能的特征上具有显著的一致性。最重要的特征是年龄、入院时慢性病的数量和主要付款人(如医疗保险或私人保险)。虽然个体和社区水平的SDoH特征都有助于提高模型的预测性能，但个体水平的SDoH特征的改善程度(接受者工作特征曲线下面积从0.694增加到0.823)远远大于社区水平的SDoH特征(接受者工作特征曲线下面积从0.823增加到0.829)。

结论

利用患者住院时广泛可用的数据，我们开发了一种具有高灵敏度和合理特异性的脑卒中预测模型。预测算法使用由提供者和付款人定期收集的变量，对于资源不足、敏感诊断工具可用性有限或数据收集能力不完整的医院可能有用。

中风诊断伤检分类决策支持健康的社会决定因素预测机器学习可解释性医疗决策回顾性研究索赔数据

介绍背景

诊断错误已成为一个主要的公共卫生问题，造成可预防的患者伤害和过度的卫生支出。美国国家科学院最近发表的一份题为《提高医疗诊断水平》的报告指出，几乎每个人一生中至少都会受到一次医疗误诊的影响，有时还会带来灾难性的后果。 1]．在美国，误诊每年至少造成4万至8万人在医院死亡，可能造成相当数量的残疾[ 2]．医生报告的错误和封闭的医疗事故索赔表明，中风是最常见和最危险的误诊医疗状况之一。 3.- 5]．诊断错误导致的可预防的脑卒中死亡发生率比心肌梗死死亡率高≥30倍[ 6， 7]．

中风的诊断由于大量的中风模仿和中风变色龙而变得复杂。大约30%的有典型中风症状的住院患者最终出现了非中风症状(即中风模拟症状)[ 8]．许多其他疾病也可能表现出类似中风的症状，如癫痫发作、偏头痛、精神紊乱、药物或酒精中毒[ 8， 9]．将模拟物误认为急性中风可能会使患者接受不必要的诊断和治疗，浪费有限的资源，并产生额外的费用。相反，更危险的是，中风变色龙是实际的中风症状，表现为非典型或未被认识到的中风症状，并伪装成非中风的医疗状况。大约25%的中风患者在发病时不表现出典型的“面部、手臂、语言”症状，急救医疗服务在这类患者中识别中风是具有挑战性的[ 10]．对变色龙的误诊会导致对中风患者的识别和治疗的严重延误。大约三分之一的潜在符合条件的患者未能接受阿替普酶(组织纤溶酶原激活剂)，这是治疗急性缺血性卒中的金标准[ 10]．这要么是因为缺乏专家进行适当的临床评估，要么是因为在向具有所需中风处理能力的卫生保健机构转诊的过程中出现延误[ 11]．特别是黑人、西班牙裔、妇女、老年医保患者和农村地区的人在中风后更容易误诊和延迟接受组织纤溶酶原激活剂[ 10]．此外，由于紧急情况的时效性和动态性、快节奏的环境、频繁的中断、普遍存在的信息差距和高工作量，在急诊科(EDs)准确诊断中风尤其具有挑战性[ 12- 15]．一个可以无缝集成到临床工作流程中的自动筛选工具，可以快速分析可用信息并建议中风诊断(“中风警报”弹出)，这可能非常有帮助[ 16]．

机器学习(ML)是人工智能的一个重要分支，它有可能从大量数据中识别隐藏的见解，并通过从示例输入(即训练数据)中迭代学习，在未见过的数据(即测试数据)上生成预测。机器学习问题通常可以分为3种主要类型:分类和回归，称为监督学习，以及无监督学习，在机器学习应用的上下文中通常指聚类。在卒中研究的文献中，ML算法已被应用于不同的任务，例如识别与未来卒中风险相关的因素[ 17- 19]，制定中风严重程度的措施[ 20.， 21]，并预测中风结果[ 22， 23]．为了提高诊断水平，研究人员专注于开发(基于电子健康记录[EHR]的)算法来确定中风亚型[ 24- 26]并应用深度学习方法促进成像评估[ 27， 28]．表型算法和深度学习模型的最新进展通过使用多种类型的电子病历数据，特别是临床记录和先进的诊断测试，显著改善了中风的预测。然而，当详细的临床评估和诊断测试不容易获得时，只有少数调查集中在使用ML的诊断算法在紧急分诊中的应用。

大多数疑似中风患者的第一次脑成像是非对比CT扫描，该扫描在患者到达急诊科的几分钟内完成。然而，非对比CT扫描不足以诊断急性中风，因为头部CT检查在大多数情况下不能显示超急性中风，并且它降低了对腔隙性中风的敏感性[ 29]．更敏感的诊断工具，如弥散加权磁共振成像，可以很早就显示出缺血性改变。尽管近年来先进的神经成像技术的使用有所增加，但在ED中使用磁共振成像诊断脑卒中仍然有限，特别是在迫切需要诊断的情况下[ 30.]．此外，到急诊科就诊的患者可能容易受到信息缺口的影响，因为他们通常病情严重，在不规律的时间迅速向医院报告，并且经常在初级医生不知情的情况下去急诊科就诊。这些因素使得急诊医师很难获得及时准确诊断所需的所有信息(如临床记录、报告和诊断测试结果)。

除了医疗风险因素外，健康的社会决定因素(SDoH)已被证明与中风和许多其他疾病的风险有关[ 31， 32]．社会健康包括各种社区和社会因素，例如“人们出生、成长、工作、生活和衰老的条件”和“这些条件的基本驱动因素”[ 33]．根据广泛使用的人口健康模型，个人健康只有20%与临床护理有关，其中包括获得护理和卫生保健服务的质量。个人健康的另外80%与他们的物理环境、社会决定因素以及运动或吸烟等行为因素有关[ 34， 35]．近年来，对人口健康的日益关注促使人们努力解决健康健康的上游因素，如获得健康食品和可行的交通选择。有大量文献致力于调查各种SDoH因素与中风风险之间的相关性，这已被充分记录[ 36- 39]．然而，只有少数研究将SDoH信息纳入其预测模型，并明确评估SDoH信息对脑卒中诊断和分诊的附加价值[ 40]．无论是在文献中还是在从业者群体中，都呼吁明确评估SDoH数据是否以及如何有助于改善患者风险分层和预测[ 40， 41]．

本研究目的

在这项研究中，我们的目的是开发一种基于患者住院时广泛可用的数据的ML卒中预测算法，并评估SDoH在卒中预测中的附加价值。由于预测模型不需要临床记录或诊断测试结果，因此在处理症状较轻和非典型的中风患者时，它可能特别有助于解决误诊挑战;在小容量或非中风中心的急诊科，急诊人员每天接触中风的机会有限。 16];在农村地区和小社区，敏感的诊断工具有限，数据收集能力不完整或不可靠[ 3.， 5]．该模型还可以应用于紧急医疗服务和远程医疗，实时无缝地对患者进行分诊，并提醒提供者和护理团队。此外，我们分析了最具影响力的驱动特征，有助于每个患者的诊断，特别是SDoH在预测中的作用。研究结果可以深入了解预测模型在这一关键环境中的价值，并最终帮助急诊护理提供者做出更明智的决定。

方法伦理批准

本研究检查的二级医院出院数据来自医疗保健成本和利用项目国家特定数据库，医疗保健研究和质量机构。医疗保健成本和利用项目数据库符合有限数据集的定义，使用有限数据集不需要机构审查委员会的审查[ 42]．

数据源

我们的数据来自两个主要来源。我们获得了纵向管理数据，其中包含来自佛罗里达州医院的住院和急诊科就诊的遭遇级信息。第二个数据来源是美国人口普查局进行的美国社区调查[ 43]．ACS数据提供了邮政编码级别的SDoH信息，如人口统计、社会、住房、交通和其他社会经济因素。

数据提取与合成中风和中风模拟组

我们采用病例-对照设计，我们方法的初始阶段是为模型训练创建具有代表性的示例，并确保卒中病例和对照有明确的分离。我们回顾性地提取了2012年至2014年在佛罗里达州以急性脑血管病为主要诊断的127,114例住院记录，使用由卫生保健研究和质量机构开发的临床分类工具[ 44]．由于我们希望及时预测患者入院时中风的可能性，因此我们限制了对护理提供者在患者首次到达医院时可以获得的变量的关注(例如，年龄、性别、种族、入院时间、主要付款人、入院时慢性病的数量等)。因此，我们排除了只能在住院或出院时获得的额外信息(例如，所执行的程序、住院时间和总费用)。

模型准确预测中风的关键是区分中风和类似中风的情况(“中风模拟”)。我们精心创建了一个中风模拟数据集，以模拟棘手的诊断决策，并区分实际的中风事件和类似中风的事件。使用所有涉及非卒中患者的记录来构建预测模型将导致包括完全不相关的病例，如分娩和髋关节置换术，并创建一个高度不平衡的数据集。因此，我们咨询了医生，了解哪些情况可能表现出与中风患者相似的初始症状。根据他们的建议，我们使用Epocrates(医疗保健提供者在护理点使用的临床参考信息的移动应用程序)获得了一份条件列表[ 45]．包括脑肿瘤、转换和躯体化障碍、韦尼克脑病、癫痫和后脑缺陷、复杂偏头痛(偏瘫偏头痛和先兆偏头痛)、低血糖和高血压脑病。接下来，我们检索了医学文献来确认卒中模拟列表的有效性，并在每个卒中模拟列表与其对应的《国际疾病分类》第九版代码之间建立了一条交叉通道。然后，我们使用人行横道提取就诊原因为一种或多种卒中模拟但随后出院诊断为非卒中的患者。

我们汇总了卒中和卒中模拟数据集，并仅保留了患者首次入院时收集的数据。在合并中风数据和中风模拟数据后，我们再次执行了重复数据删除，因为患者可能首次因中风入院，但再次入院时可能出现中风模拟症状，反之亦然。如果一个病人出现在两个数据集中，我们只保留第一次出现。由于患者可能多次返回医院，提供者可能已经获得了关于再次入院患者的更多信息。仅保留患者的索引相遇可确保我们的模型仅基于患者在医院初次就诊时可用的信息来预测中风。我们获得了2010年至2014年的数据，因此我们在2012年之前有2年的“缓冲期”。纳入分析的患者是那些在2010年或2011年没有记录的患者。“确诊中风”数据集包含所有出院记录证实患有中风的患者;因此，它不仅包括典型中风症状的患者，也包括轻度和非典型症状的患者。中风模拟数据集包括一般表现与实际中风患者相似的患者，包括出院诊断为癫痫、糖尿病、酒精和药物戒断的患者。多媒体附录1列出最终分析数据集中前20个主要诊断的分布。

SDoH数据的特征提取与选择

我们从ACS中提取的原始SDoH数据包含了大量的特征。我们采用了多种方法来降低噪声和维数，避免过拟合。首先，我们进行探索性数据分析，如主成分分析，了解特征分布，识别特征之间的模式和多重共线性。然后，我们结合领域知识和稀疏回归方法(最小绝对收缩和选择算子)来去除不相关的特征并合并高度稀疏的特征。

总的来说，从ACS数据中的431个变量的大集合中为佛罗里达州的983个邮政编码构建了4个类别。这些类别代表了文献中提到的与中风相关和心血管健康状况相关的社会、经济、住房、职业、健康保险和人口特征( 多媒体附录2）.例如，低收入、低教育水平和贫困已被证明会导致更高的中风风险[ 31， 46， 47低收入和受教育程度低与心脏健康状况较差、心力衰竭和死亡风险较高有关[ 48， 49]．职业类型和受教育程度与患心脏病的风险有关[ 50]．健康保险的状况和类型也与心血管健康有关[ 51， 52]．总之，这些相互关联的社会经济因素决定了一个人的整体社会经济地位，毫不奇怪，随着时间的推移，这些因素与健康状况有关系。分析中包含的一些ACS变量直接代表了社会经济地位(例如，平均家庭收入和至少受过高中教育的人口百分比)，而其他变量则作为代理(例如，没有车辆的住房单位百分比和家中使用非英语语言的人口百分比)。

我们还执行了马尔可夫毯特征选择方法，以确定产生最佳分类性能的相关特征的最小子集[ 53]．请注意，基于树的机器学习算法(例如随机森林[RF])具有内置的特征选择功能，并在模型训练期间固有地消除不相关的特征。

根据患者的邮政编码信息，将患者级数据与社区级ACS数据合并，形成最终的分析数据集。图1给出了数据处理流水线的流程图。在我们的最终输入数据集中，卒中病例的数量明显大于对照组的数量(即，73%的患者出院时确诊为卒中，27%的患者最终出现卒中模拟)。为了解决中风事件在真实数据中的不平衡分布，我们采用了自适应合成采样，这是一种针对训练数据中的少数类(例如，非中风“控制”)的过采样技术[ 25， 54- 56]．

图1

数据处理管道。美国社区调查;NA:不可用;SDoH:健康的社会决定因素;SID:国家住院病人数据库。

数据建模与验证

我们首先利用入院时患者水平的可用信息来预测二元结果，表明患者出院时的最终诊断是否为中风。我们运行了三种不同的模型，这些模型在文献中已经很好地建立了训练过程:(1)逻辑回归，(2)RF和(3)梯度增强机(GBM)。每个模型使用不同的预测变量组合来评估不同变量的附加预测价值。

逻辑回归是一种常用的方法，用于对一组预测变量和二元结果变量之间的关系进行建模，并用于基准测试[ 57]．RF是一种监督学习算法，它在数据的不同子样本上拟合多个决策树，对结果进行分类，以防止过拟合的问题[ 58， 59]．预测精度是所有决策树的平均值。它还提供了有关特性重要性的见解。参数调优有助于确定RF中提供最佳性能的树的数量和每个树的允许深度。GBM与RF类似，因为它也构建了多个决策树进行预测;然而，不同之处在于GBM构建决策树的方式和它结合决策树结果的方式[ 60]．

我们首先对所有3个模型的超参数进行了调优，以便在整个数据集上使用网格搜索和5倍交叉验证来找到最佳配置。交叉验证的评价指标为受试者工作特征曲线下面积(AUC)。我们在数据集上使用80-20随机分割，因为这是ML模型中使用的标准分割方法，通常用于测试模型性能，为EDs中的提供者设计支持ML的诊断工具[ 16]．我们采用自适应合成采样技术，对训练数据中的少数类(如非卒中“控制”)生成合成数据，以解决现实世界数据中卒中事件分布不平衡的问题。使用超参数的最佳配置，然后我们使用平衡的训练数据集开发和评估我们的模型，重复5倍交叉验证和成本敏感分类，以避免过拟合。对于每个折叠，对模型的性能指标进行评估，包括AUC、准确性、精密度、灵敏度或召回率、特异性和 F₁-score，使用测试数据集。逻辑回归和RF模型在Python(版本3.9.12,Python Software Foundation)中使用scikit-learn(版本1.0.2;大卫Cournapeau)。GBM在Python 3.9.12中使用CatBoost (version 1.0.6, Yandex LLC)实现。每个ML模型的关键超参数的配置列在多媒体附录3．

作为稳健性检验，我们采用了另一种数据分割方法，即使用2012年的历史数据预测2013年，同时使用2012年和2013年的数据预测2014年。

尽管ML模型可以产生准确的预测，但它们通常被视为缺乏可解释性的黑箱模型。这是一个重要的问题，特别是在医疗保健中，因为临床医生通常不愿意在没有明确潜在推理的情况下接受机器建议[ 57]．然而，根据最近的一篇综述，医学领域中涉及可解释性的ML研究数量非常有限[ 58]．在这项研究中，我们遵循了Saarela和Jauhiainen在他们2021年的论文中概述的方法[ 59]进行特征重要性度量的比较，以增强模型结果的可解释性或可解释性。为了深入了解预测并最终协助护理提供者做出决策，我们使用TreeSHAP的基于树的ML模型来解释每个患者的中风预测(请参阅结果部分)。图2展示了基于合成数据开发模型所遵循的研究路径，并对模型进行比较和解释，以得出用于中风预测的最佳预训练ML模型。

图2

分析管道。美国社区调查;GBM:梯度增压机;LR:逻辑回归;RF:随机森林;SDoH:健康的社会决定因素;SID:国家住院病人数据库。

结果数据集的描述性统计

在最终的数据集中，有143,203名独特患者就诊，根据出院记录确认其中73% (n=104,662)的患者发生了中风。预测模型包括来自医院管理数据集的12个患者级特征，以及来自ACS数据集的16个社区级特征。我们将患者水平的预测因素归纳为3类:患者人口统计学、就诊水平特征和个体水平的SDoH;他们的统计摘要载于下表( 表1）.最终被诊断为中风的患者往往年龄较大，有更多的慢性疾病，并且有医疗保险作为主要付款人。2-样本的结果 t经Bonferroni校正的双尾检验显示，所有患者水平的预测因子在卒中患者和卒中模拟患者之间存在统计学差异，显著性水平为0.05 P的最后一列中的值表1）.将16个社区层面的SDoH特征归纳为:地区人口统计、社会经济地位、职业和人口层面的医疗保险覆盖率。多媒体附录2包含有关社区级预测器的详细信息。

表1

患者水平预测因子的描述性统计。

特性			总样本(n=143,203)，均值(SD)	卒中队列(n=104,662)，平均(SD)	卒中模拟队列(n=38,541)，平均(SD)	P价值
病人的人口统计
	年龄(年)		65.2843 (19.97)	71.1259 (14.68)	49.4207 (23.49)	<措施
	性别(女)		0.5019 (0.50)	0.5014 (0.50)	0.5031 (0.50)	03
	慢性疾病数量		6.5066 (3.21)	7.1200 (3.00)	4.8410 (3.17)	<措施
	种族和民族
		白色	0.6594 (0.47)	0.6736 (0.47)	0.6209 (0.49)	<措施
		黑色的	0.1802 (0.38)	0.1706 (0.38)	0.2064 (0.40)	<措施
		拉美裔	0.1348 (0.34)	0.1302 (0.34)	0.1472 (0.35)	<措施
		其他种族	0.0256 (0.16)	0.0257 (0.16)	0.0255 (0.16)	.04点
Visit-level特性
	紧急入院		0.9030 (0.30)	0.9094 (0.29)	0.8859 (0.32)	<措施
	选择性入学		0.0403 (0.20)	0.0214 (0.14)	0.0914 (0.29)	<措施
	转换指示器		0.0913 (0.37)	0.0929 (0.37)	0.0869 (0.36)	<措施
	夜班^一个		0.3409 (0.47)	0.3257 (0.47)	0.3821 (0.49)	<措施
	周末指示器		0.2558 (0.44)	0.2581 (0.44)	0.2496 (0.43)	<措施
个体层面的SDoH^b
	城市住宅		0.9529 (0.21)	0.9515 (0.21)	0.9567 (0.20)	<措施
	主要的付款人
		医疗保险	0.6239 (0.48)	0.7027 (0.46)	0.4099 (0.49)	<措施
		医疗补助计划	0.1103 (0.31)	0.0714 (0.26)	0.2159 (0.41)	<措施
		私人保险	0.1505 (0.36)	0.1331 (0.34)	0.1980 (0.40)	<措施
		其他费用	0.1153 (0.32)	0.0929 (0.29)	0.1762 (0.38)	<措施
	家庭收入中位数
		0-25th百分位	0.4025 (0.49)	0.3984 (0.49)	0.4134 (0.49)	<措施
		26 th-50th百分位	0.3261 (0.47)	0.3289 (0.47)	0.3186 (0.47)	<措施
		51圣-第75个百分位	0.1992 (0.40)	0.1994 (0.40)	0.1986 (0.40)	.04点
		76 th -第100个百分位	0.0722 (0.26)	0.0733 (0.26)	0.0694 (0.25)	<措施

^一个晚上7点至早上7点入场。

^bSDoH:健康的社会决定因素。

型号性能及选型

表2显示了在3个输入组合和3个分类器(逻辑回归、RF和GBM)上运行的9个模型的测试集上测量的算法性能。ML分类器在所有3种输入组合中始终优于基准逻辑回归。更具体地说，GBM分类器在前两种输入组合(即，当使用患者和访问级别的特征集时)中始终优于逻辑回归和RF。当将患者、就诊和社区层面的变量作为输入(即最完整的输入组合)时，ML模型在逻辑回归中占主导地位。纳入个体水平的SDoH特征提高了所有3种分类器的性能，特别是GBM模型，其AUC从0.694(模型3)增加到0.823(模型6)。进一步纳入社区水平的SDoH特征提高了总体预测性能指标、AUC、敏感性和特异性，2ml模型(模型8和9)。

我们根据实际护理环境中的绩效指标和临床需求来选择模型。请注意，误诊的代价是不对称的。对中风的误诊(将真正的中风贴上非中风的标签)可能比过度诊断(即假阳性的中风诊断)对病人和医生都有更严重的不良后果。因此，所选择的模型应具有较高的灵敏度，同时将特异性保持在合理的范围内。两种ML模型(RF和GBM)都正确检测出至少97%(101,522/104,662)的卒中患者，因此显著优于院前卒中预测量表(范围在0.38至0.62之间)[ 61以很大的优势胜出。用约登指数(Youden index)从试验的敏感性和特异性的总和中减去1来计算，用于评价诊断试验的总体判别能力。约登指数没有被包括在内表2由于空间的限制;然而，它可以很容易地计算使用敏感性和特异性，这两个都包含在表中。根据最近的几篇文献综述，紧急医疗服务、救护车和急诊室设置中使用的卒中预测量表的约登指数范围为0.30至0.54 [ 61， 62]，而我们的中风预测模型在0.56到0.62之间。

多媒体附录4利用2012年的历史数据，给出了采用备选数据分割方法对模型进行训练的结果。我们的模型仍然表现出良好的整体性能，具有>90%的高灵敏度 F₁-得分在0.83到0.88之间。

表2

脑卒中预测模型的性能。

输入组合和型号			分类器		精度		AUC^一个		灵敏度		特异性		F₁分数
患者人口统计和访问信息
	1	分对数		0.828		0.693		0.960		0.626		0.893
	2	射频^b		0.804		0.680		0.928		0.632^c		0.877
	3.	“绿带运动”^d		0.832		0.694		0.968		0.619		0.896
患者人口统计，就诊信息和个人SDoH^e
	4	分对数		0.830		0.810		0.960		0.630		0.895
	5	射频		0.794		0.724		0.899		0.656		0.868
	6	“绿带运动”		0.835		0.823		0.965		0.631		0.898
患者人口统计、就诊信息、个体SDoH和社区水平SDoH
	7	分对数		0.822		0.810		0.967		0.629		0.891
	8	射频		0.831		0.828		0.972		0.626		0.896
	9	“绿带运动”		0.834		0.829		0.970		0.647		0.898

^一个AUC:接收机工作特性曲线下的面积。

^b随机森林。

^c对于每个输入组合，3个分类器中性能最好的分类器已被斜体化。

^dGBM:梯度增压机。

^eSDoH:健康的社会决定因素。

特征重要性分析

我们发现这三种模型在解释其性能的最重要特征上是一致的( 图3;使用的术语术语表以及变量定义可以在多媒体附录5）.前5个特征涉及年龄、入院时慢性病的数量和主要付款人(如医疗保险或私人保险)。最重要的两个特征是年龄和慢性疾病的数量。RF和GBM模型都将患者的年龄确定为最重要的特征之一。这与最近的一项研究结果一致，该研究使用了一种新的混合特征选择模型，该模型集成了各种过滤和包装方法来检测中风风险[ 63]．年龄越大，预测中风的概率越大，年龄越小，预测中风的概率越低。影响模型性能的第二个最重要的特征是入院时慢性病的数量。入院时患有慢性病的人数越多，预测中风的概率就越大。

值得注意的是，患者的入院类型(例如，是急诊还是选择性入院)和入院时间(例如，他们是否在夜班期间入院)有助于中风预测的准确性。已有研究调查了“周末效应”对死亡率的影响[ 64- 66]以及根据病人到达医院或入院的时间，他们所得到的治疗质量的差异[ 67， 68]．总的来说，这些研究主要集中在急诊入院。如果患者的不良结果(如死亡率)与不同的工作实践和工作人员在非工作时间的可用性有关，那么急性疾病的诊断可能会受到类似的影响，我们目前的研究结果证实了这一假设。

除年龄外，其他患者层面的人口统计和社会经济因素，包括性别、种族和主要付款人(即医疗费用是否由医疗保险、医疗补助、私人保险或其他付款人支付)，也有助于模型的预测。这些发现补充了最近观察到的不同种族和性别群体中风风险模式的差异[ 69， 70]．例如，Howard等人[ 69研究发现，在45岁到74岁之间，白人女性比白人男性患中风的可能性要小;然而，当白人男性和女性年龄≥75岁时，卒中风险没有差异。相比之下，他们发现黑人女性在≤64岁时中风的风险低于黑人男性，此后中风的风险相似[ 69]．另一项研究发现，黑人妇女比白人妇女患中风的风险更大，而在50至60岁的妇女中，种族差异最大。 70]．此外，我们的研究结果表明，健康保险状况不仅与医疗保健使用有关，而且是中风的重要预测因素。这些发现具有重要的意义，并表明千篇一律的方法可能无法很好地预防中风。例如，针对没有医疗保险覆盖的社会弱势群体的干预措施可能在减少差距方面提供最大的好处。

图3

特征重要性比较:梯度增强机(GBM)的20个最重要特征;左上)，随机森林(右上)和逻辑回归(底部)。美国社区调查;Qrtl:四分位数。

一些社区层面的SDoH变量(例如，单身妇女的百分比;从事与金融、零售和制造业密切相关职业的人口比例;平均上班时间)也在前20名之列。然而，它们对脑卒中预测的影响程度远小于患者水平的人口统计学和社会经济特征。这与文献[ 40的预测性能表2．虽然个体和社区水平的SDoH特征都有助于提高预测性能，但个体水平的SDoH特征的改善程度(AUC从0.694增加到0.823)远远大于社区水平SDoH特征的改善程度(AUC从0.823增加到0.829)。在没有个体SDoH特征的情况下，仅在访问级数据中加入社区SDoH特征，AUC从0.694增加到0.724。

消融研究通常用于为特征分配重要性分数[ 71- 73]．在这种方法中，特征的重要性是根据其移除导致的性能降低来决定的。我们做了如下的消融分析。首先，我们在训练数据集上训练GBM模型，并使用精度度量计算测试数据集上的基础分数。其次，我们从训练数据集中去掉一个特征，再次训练GBM模型，然后计算该模型在测试数据集中的得分。这对模型中包含的每个特征都是重复的。最后，我们根据特征不存在时计算的分数与基本分数(当所有特征都存在时计算的分数)之间的差异对特征进行排名。与特征重要性比较分析的结果一致，消融分析中排名前2位的特征是年龄和慢性病数量，其次是个体水平的SDoH特征，然后是社区水平的SDoH特征( 多媒体附录6）.

个体预测解释

为了深入了解预测并最终协助护理人员做出决策，我们试图使用TreeSHAP解释中风预测模型[ 74]，用于基于树的ML模型的Shapley加性解释(SHAP)的一种变体。SHAP方法从联合博弈论中计算Shapley值，以量化每个特征对预测的贡献[ 75- 77]．TreeSHAP使用条件期望来估计单个树的效果，而树集合的Shapley值是单个树的Shapley值的加权平均值。

图4显示了SHAP值来解释中风预测的2个例子(使用的术语表以及变量定义可以在多媒体附录5）.我们将特征归因可视化为“力”，每个特征值都是一种力，可以从基线开始增加或减少预测。基值或期望值是模型输出对训练数据的平均值，等于1.084 [ 75]．将预测推高(向右)的特征显示为红色，而将预测推低的特征显示为蓝色。第一个示例(预测演示示例1)的输出值(即对该观测值的预测)为1.96，高于基值，因此，该示例被预测模型标记为stroke。作为黑人，入院时患有10种慢性病，并且有私人保险作为主要付款人，这些都推高了中风的预测。这与文献表明的在急诊科被误诊为中风的可能性在医疗保险或医疗补助的接受者中比在私人保险的患者中要低一致。 7]．相比之下，我们还查看了另一个示例(预测演示示例2)的SHAP值，其中模型成功地预测了卒中模拟。第二个示例获得了−0.27的低输出值。与论证例1相似，论证例2年龄为50岁;然而，作为白人，在入院时有3种慢性疾病，并且在夜班期间入院，降低了中风的预测。

图4

Shapley加法解释值，例如患者。美国社区调查。

这些例子表明，个体水平的中风预测因素可能因病例而异，可用于个性化诊断和护理点的治疗决策，而人群水平的分析提供了住院时中风重要预测因素的总体排名，可用于制定最佳实践指南和患者管理计划。

讨论主要研究结果

在这项研究中，我们开发了一种基于ml的方法，使用常规收集的行政数据来帮助减少中风误诊。我们的研究结果表明，在获得诊断成像或实验室检查结果之前，可以根据患者的人口统计数据和医院就诊时可用的SDoH信息来预测中风。该算法的AUC为83%，提供了准确的结果(高精度为84%)，并且返回了所有阳性结果的绝大多数(101,522/104,662,97%)(高灵敏度)。

这项研究填补了目前支持中风分诊的一个关键空白，该分诊要么侧重于提高院前设置的特异性，要么需要详细的神经学评估和成像结果。一方面，先进的机器学习技术已被应用于协助自动解释临床记录和成像，但这是基于这些信息源的可用性。另一方面，由于紧急医疗服务人员缺乏必要的时间和培训来进行详细的神经学评估，因此开发了简短而简单的临床方法，即院前卒中量表，以支持现场的初始分诊，例如辛辛那提院前卒中量表，洛杉矶院前卒中量表和方便掌握的现场评估卒中分诊。这些量表在临床实践中表现出广泛的性能变化;然而，一般来说，它们具有可接受到良好的特异性，但灵敏度较低[ 62， 78- 80]．文献综述比较了不同院前卒中量表的研究，发现这些量表的准确性各不相同，误诊了该领域高达30%的急性卒中。根据样本和研究地点的不同，洛杉矶院前卒中量表和辛辛那提院前卒中量表的诊断能力相似，灵敏度范围为0.79 ~ 0.91，使用方便抓握现场评估卒中分诊法检测大血管闭塞性卒中的灵敏度为0.62。这意味着这些量表有助于检测假阳性，从而减少医疗资源的浪费。然而，它们的低灵敏度导致人们担心这些量表会遗漏相当大比例的中风患者。因此，重要的是要有一个额外的筛查或决策支持工具来补充临床评估，并提供有价值的信息，以提高在医院就诊时发现中风的敏感性，从而减少漏诊[ 81]．在医院拥挤，医疗资源和临床人员短缺的情况下，我们提出的基于ml的模型可以帮助快速对患者进行适当的干预。如果患者出现中风或类似中风的症状，将触发一个自动的、计算机辅助的筛查工具，快速分析患者在医院就诊时的所有可用信息，并根据中风的最佳预训练ML模型提出诊断建议。如果该模型预测患者中风的风险很高，就会触发中风弹出式警报，提醒急诊科团队。图5说明何时以及如何在现场实现此决策支持预测。

图5

脑卒中预测决策支持。急诊科。

该模型可与其他基于急诊室电子病历的人工智能预测或决策支持系统集成，以进一步改善卒中分诊和诊断。尽管电子病历数据包含丰富而详细的临床信息，但某些也可能是重要风险因素的社会和行为决定因素(例如，种族)在电子病历中既没有得到充分的代表(包括“未知”类别)，也没有得到充分的描述[ 82]．此外，缺乏互操作性等各种障碍限制了电子病历数据的充分利用，以改善医疗服务的提供。因此，现有的研究大多基于单一地理区域内单一电子病历系统的患者数据[ 83]．相比之下，行政数据(如索赔数据)遵循索赔中包含的变量的结构和含义的特定标准，几乎每个医疗保健提供者都必须以相同的格式向其付款人或结算所提交电子索赔。因此，此类管理数据提供了一种有效的方法来补充电子病历数据，以衡量医疗保健服务的许多重要方面，并提供解决方案。我们利用广泛可用的管理数据和SDoH信息，在医院就诊时对患者进行筛选和快速排序，然后使用EHR数据和丰富的临床文档和诊断测试结果，进一步评估和根据风险对患者进行分层，从而获得了两全其美的效果。

与前期工作比较

在比较研究中报告的各种形式的绩效指标时，考虑特定的临床需求和护理环境是很重要的。在中风的情况下，对中风的误诊(将真正的中风贴上非中风的标签)通常会导致比过度诊断更严重的患者不良后果。虽然假阳性中风模拟很少导致法律后果，但假阴性可能导致关键治疗的延误，并经常引起医疗失误的指控。此外，考虑到敏感性和特异性之间的内在权衡，院前卒中量表对特异性的关注(即减少过度诊断)可能导致大量卒中误诊，需要在患者的医院报告中加以解决。因此，最大限度地减少假阴性率或最大限度地提高灵敏度是至关重要的急性护理设置为病人和提供者。最近的几项研究比较了目前可用的临床评估工具，如野外卒中分诊量表、美国国立卫生研究院卒中量表、洛杉矶运动量表和快速动脉闭塞评估，其中包括皮层体征(如凝视偏差、失语和忽视)以及运动功能障碍。并发现这些工具在检测大血管闭塞患者方面的诊断准确性优于区分急性卒中和模拟卒中[ 81]．许多研究被设计为排除出血或卒中模拟患者[ 81]．旨在区分急性卒中和卒中模拟的临床评估工具在院前环境中显示出适度的诊断准确性和低灵敏度，范围从38%到62% [ 61]．为急诊科设计的中风诊断工具，如急诊室中风识别量表和FABS评分系统，被发现比院前量表具有更高的敏感性(高达93%)，它们需要神经科医生的临床评估、脑CT检查结果或其他临床信息，如心房颤动[ 81， 84]．据我们所知，本研究中算法的敏感性，不依赖于额外的临床信息或影像学发现的可用性，优于院前或急诊科设置中使用的任何评分量表。

这项研究也是第一个大规模的研究，系统地评估SDoH信息在基于人群的风险预测设置中使用行政数据的附加价值。尽管许多研究表明，各种社会或行为因素与健康结果有关，但很少有研究明确地考察这些因素的知识是否能提高对临床事件或健康结果的预测。我们的结果与早期的研究结果一致，这些研究将SDoH数据与电子病历数据联系起来，以预测急诊科就诊[ 85]或需要转介各种社会服务[ 86]．然而，由于电子病历系统尚未实现完全的互操作性，这些研究大多局限于来自单一地理区域内单一电子病历系统的患者数据。本研究通过利用跨越不同卫生保健系统和地区的常规收集数据来扩展文献，以补充与人口健康分析相关的一些必要的初步步骤。此外，电子健康信息交换的发展有助于汇集来自多个来源的信息，并将行政索赔数据与临床数据结合起来。这样的进步使得在医院就诊时创建患者的综合档案成为可能，并进一步增强了我们的预测分析能力．

局限性与未来研究

本研究有进一步完善的空间，留待以后的研究。首先，这是一项回顾性研究，卒中病例的确认依赖于国际疾病分类代码。对病人复杂的医疗记录进行复核以确定中风的诊断是可取的;然而，这一过程是劳动密集型和昂贵的，特别是当这是一项涉及不同卫生系统数十万患者的大规模研究时。我们的结果需要进一步验证，但有可能改善中风的分类和诊断。

其次，我们提出的算法不应该被认为是中风诊断的金标准。相反，我们认为该算法补充了院前或急诊室设置中使用的现有中风评分系统，并且可以集成到基于ml的决策支持系统中，该系统结合了患者的病史、SDoH和临床数据。这样的决策系统将具有敏捷和迭代的优势，因为随着ED中收集的数据越来越多，可以定期重新评估模型结果，以及具有最有希望相关性的变量的集成。

第三，本研究的重点是仅根据患者在医院首次就诊时可获得的信息来预测中风。这是因为首次或新发中风患者占美国每年中风患者的绝大多数(77%)[ 87]，而对于那些第一次出现在急诊科却没有历史数据的病人来说，要准确地预测中风就更具挑战性了。反复再入院患者和单次就诊患者可能遵循不同的轨迹，具有不同的潜在社会和行为决定因素[ 88]．未来的研究可能会继续探索如何最好地结合过去的信息来提高预测和识别重复患者的关键危险因素。

最后，我们的研究结果仅限于行政数据中可用的SDoH变量，这表明开发标准和工具的重要性，以常规收集和筛选个人层面的SDoH数据，并有效地将其整合到电子病历和结构化索赔数据中。我们目前的预测不需要任何额外的努力来收集额外的个人水平的SDoH。社区一级的ACS变量已被纳入最佳预训练模型的一部分。在我们的预测中使用的患者层面细节是:(1)基本人口统计数据，包括年龄、性别、种族和民族，以及主要付款人(即医疗保险、医疗补助、私人保险或其他);(2)到达信息(例如，是急诊还是择期入院，患者是在周末还是夜班期间入院);(三)病人居住在城市还是农村，以及他们的家庭收入中位数下降的四分位数( 表1)，两者都基于邮政编码变量。所有这三类信息都是由医院急诊科的分诊护士在初次分诊时例行收集的。例如，邮政编码可以从患者的家庭住址中获得，主要付款人可以从保险信息中识别出来。因此，对于目前提出的预测，患者不需要回答任何额外的sdoh相关问题。为了纳入更多患者层面的SDoH并进一步提高预测性能，需要更多的努力来开发SDoH筛查和收集工具。国家正在从初级保健开始努力，例如《应对和评估患者资产、风险和经验调查方案》，这是一项标准化的患者风险评估工具，由一套解决患者SDoH问题的国家核心措施组成。未来的研究还可以利用更先进的机器学习算法(如深度学习)来促进对大型高维数据集的更全面、更有效的分析，包括索赔、EHR和SDoH数据。

结论

中风是最常见和最危险的误诊疾病之一。黑人、西班牙人、妇女、享受医疗保险的老年人和农村地区的人在中风后被及时诊断出来接受治疗的可能性较小。及时发现是有效管理和改善患者预后的关键。

我们开发了一种高性能的基于ml的中风预测算法，其性能优于现有的预警评分系统。该算法基于常规收集的变量，并在患者住院时随时可用，可能为加强患者监测和卒中分诊以及改善健康结果提供机会。由于预测模型不需要临床记录或诊断测试结果，因此在资源不足的农村急诊科和服务不足的社区特别有用，这些社区的敏感诊断工具可用性有限，数据收集能力不完整。此外，该算法可以纳入自动化的人工智能决策支持系统，该系统结合了ED呈现时广泛可用的管理数据以及随后可用的临床记录和诊断测试结果，以进一步改善中风的诊断、分诊和管理。

多媒体附录1

分析样本中排名前20的主要诊断。

多媒体附录2

健康变量的社区一级社会决定因素。

多媒体附录3

机器学习模型中的调优超参数。

多媒体附录4

基于备选数据分割方法的脑卒中预测模型性能研究。

多媒体附录5

所用术语的术语表以及变量定义。

多媒体附录6

烧蚀分析结果。

缩写

ACS

美国社区调查

AUC

接收机工作特性曲线下的面积

计算机断层扫描

艾德

急诊科

电子健康档案

电子健康记录

“绿带运动”

梯度增压机

毫升

机器学习

射频

随机森林

SDoH

健康的社会决定因素

世鹏科技电子

沙普利加法解释

作者感谢卫生保健研究和质量局及其合作组织佛罗里达卫生保健管理局通过卫生保健成本和利用项目提供对国家住院病人数据库的访问。

他们感谢2019年运筹学与管理科学学会医疗会议、2020年信息技术与系统研讨会、医疗信息与管理系统学会2020年大数据研讨会和生产与运营管理学会第31届年会上三位匿名审稿人和与会者的评论和建议，这些会议介绍了本工作的早期版本。以及卡耐基梅隆大学亨氏学院的研究生，感谢他们在数据收集和初步分析方面的帮助。

MC和RP构思了这项研究的想法。MC, RP和XT设计了这项研究。MC和XT在RP的广泛投入和批判性建议下进行了分析并起草了手稿。所有作者对结果进行解读，修改稿件，阅读并批复定稿。

没有宣布。

球

小

Balogh

改善医疗保健中的诊断:来自国家科学院、工程院和医学院的一份报告的亮点

Ann实习医生 2016 01 05 164 1 59 61

10.7326 / m15 - 2256

26414299

2449071

军刀德黑兰的

作为

李

马修斯

海岸

一个

纽约

妈

普罗诺弗斯特

Newman-Toker

德

美国医疗事故诊断错误索赔的25年总结1986-2010:来自国家从业者数据库的分析

英国医学杂志质量指南 2013 08 22 8 672 80

10.1136 / bmjqs - 2012 - 001550

23610443

bmjqs - 2012 - 001550

Venkat

一个

Cappelen-Smith

阿

年代

托马斯。

公关

Bhaskar

年代

Tam

一个

麦克杜格尔

哈吉金森

Cordato

急诊科卒中误诊相关因素:回顾性病例对照研究

神经 2018 51 3 - 4 123 7

10.1159 / 000491635

30092562

000491635

希夫

哈桑

金

年代

艾布拉姆斯

考斯比

兰伯特

提单

Elstein

作为

汉斯勒

年代

Kabongo

毫升

Krosnjar

Odwazny

Wisniewski

曼氏金融

麦克纳特

类风湿性关节炎

医学诊断错误:583例医生报告错误的分析

高级实习医师 2009 11 09 169 20. 1881 7

10.1001 / archinternmed.2009.333

19901140

169/20/1881

Tarnutzer

李

上海

罗宾逊

卡

王

Edlow

晶澳

Newman-Toker

德

现代神经影像学时代ED对脑血管事件的误诊:荟萃分析

神经学 2017 04 11 88 15 1468 77

10.1212 / WNL.0000000000003814

28356464

WNL.0000000000003814

PMC5386439

杜波依斯

布鲁克

可预防的死亡:谁、多久、为什么?

Ann实习医生 1988 10 01 109 7 582 9

10.7326 / 0003-4819-109-7-582

3421565

Newman-Toker

德

Moy

瓦伦特

科菲

海恩斯

艾尔

急诊科卒中的漏诊:一项基于大量人群样本的横断面分析

诊断(Berl) 2014 06 1 2 155 66

10.1515 / dx - 2013 - 0038

28344918

/ j / dx.2014.1.issue-2 / dx - 2013 - 0038 / dx - 2013 - 0038. - xml

PMC5361750

美利奴

詹

露比

米

本森

戴维斯

拉

夏朝

亚历山大-伍尔兹

拉图

噢

林奇

Warach

年代

8187例卒中服务患者急性卒中模拟的预测因子

脑血管病 2013 11 22 8 e397 403

10.1016 / j.jstrokecerebrovasdis.2013.04.018

23680681

s1052 - 3057 (13) 00138 - 9

PMC3812364

骄雅

信用证

Zewude

凯特

国会议员

丽丝

罗

黑洞

巴克

Jeerakathil

屠夫

急性中风患者院前收缩压高于模拟中风患者

神经学 2016 06 07 86 23 2146 53

10.1212 / WNL.0000000000002747

27194383

WNL.0000000000002747

PMC4898317

展览馆

老

Khatri

里夫斯

乔丹

史密斯

储蓄者

莱托

Bhatt

戴斯。莱纳姆:

Grau-Sepulveda

考克斯

米

彼得森

艾德

Fonarow

Schwamm

韩

为什么急性缺血性脑卒中患者不接受静脉注射tPA?结果来自国家登记处

神经学 2016 10 11 87 15 1565 74

10.1212 / WNL.0000000000003198

27629092

WNL.0000000000003198

PMC5067546

Bayona

Ropero

萨拉查

佩雷斯

格兰哈

曼氏金融

马丁内斯

Useche

约

优化脑血管疾病医疗服务的综合远程中风网络:算法开发

J Med Internet Res 2020 07 27 22 7 e18058

10.2196/18058

32716302

v22i7e18058

PMC7418009

伯格

老年痴呆症

作为

Goransson

柯

Ostergren突然

弗罗林

埃伦伯格

一个

急诊部门工作中断:一项观察和访谈研究

英国医学杂志质量指南 2013 08 22 8 656 63

10.1136 / bmjqs - 2013 - 001967

23584208

bmjqs - 2013 - 001967

哈姆登

Jeanmonod

Gualtieri

Jeanmonod

在急诊科设置住院医师和中级医师生产力的比较

新兴医学J 2014 03 31 3. 216 9

10.1136 / emermed - 2012 - 201904

23360904

emermed - 2012 - 201904

Schnapp

黑洞

唱ydF4y2Ba

我

金

莱托

不走正路的

沙阿

学术急诊科的认知错误

诊断(Berl) 2018 09 25 5 3. 135 42

10.1515 / dx - 2018 - 0011

30016277

dx - 2018 - 0011

Stiell

一个

福斯特

Stiell

搞笑

范·沃伦文

急诊科信息缺口的普遍性及其对患者预后的影响

医疗协会 2003 11 11 169 10 1023 8

14609971

PMC236227

阿贝迪

汗

一个

乔杜里

Misra

Avula

Mathrawala

克劳斯

马歇尔

卡

乔杜里

李

Schirmer

厘米

Scalzo

李

詹德

利用人工智能提高急诊科中风诊断:一个实用的框架

他们的Adv神经紊乱 2020 8 25 13 1756286420938962

10.1177 / 1756286420938962

32922515

10.1177 _1756286420938962

PMC7453441

Letham

鲁丁

麦考密克

马迪根

使用规则和贝叶斯分析的可解释分类器:建立更好的中风预测模型

安·苹果Stat 2015 9 1 9 3. 1350 71

10.1214 / 15-aoas848

李

Lim

海关

金

胫骨

金

柳

赵

全民医保个人健康档案中风风险预测模型的开发与实现

计算方法和程序 2018 01 153 253 7

10.1016 / j.cmpb.2017.10.007

29157457

s0169 - 2607 (16) 31470 - 5

销量

迈向利用电子健康记录预测中风

BMC Med Inform Decis mark 2018 12 04 18 1 127

10.1186 / s12911 - 018 - 0702 - y

30509279

10.1186 / s12911 - 018 - 0702 - y

PMC6278134

20.

唱

科幻小说

谢长廷

花王杨

本产品

林

沪江

程ydF4y2Ba

胡

本产品

利用数据挖掘技术建立基于行政数据的脑卒中严重程度指数是可行的

临床流行病学杂志 2015 11 68 11 1292 300

10.1016 / j.jclinepi.2015.01.009

25700940

s0895 - 4356 (15) 00017 - 7

唱

科幻小说

程ydF4y2Ba

谢长廷

李

赖

电子商务

胡

本产品

卒中严重程度代理措施在索赔数据研究中的比较:一项基于人群的队列研究

药物流行病学药物安全 2016 04 25 4 438 43

10.1002 / pds.3944

26696591

Asadi

道林

严

米切尔

机器学习在急性缺血性卒中动脉内治疗后预后预测中的应用

《公共科学图书馆•综合》 2014 2 10 9 2 e88225

10.1371 / journal.pone.0088225

24520356

玉米饼- d - 13 - 41819

PMC3919736

Heo

尹

詹

公园

金

码

不结盟运动

海关

Heo

基于机器学习的急性中风预后预测模型

中风 2019 05 50 5 1263 5

10.1161 / STROKEAHA.118.024293

30890116

Garg

哦

Naidech

一个

科德

普拉巴卡兰

年代

利用机器学习和自然语言处理自动化缺血性中风亚型分类

脑血管病 2019 07 28 7 2045 51

10.1016 / j.jstrokecerebrovasdis.2019.02.004

31103549

s1052 - 3057 (19) 30048 - 5

倪

Alwell

Moomaw

吸引

Adeoye

费海提

毫升

Ferioli

年代

麦基

De Los Rios La Rosa

马提尼

年代

Khatri

Kleindorfer

Kissela

对表型中风:利用数据从大规模流行病学研究检测中风诊断

《公共科学图书馆•综合》 2018 2 14 13 2 e0192586

10.1371 / journal.pone.0192586

29444182

玉米饼- d - 17 - 01062

PMC5812624

赵

傅

年代

Bielinski

德克尔

巴勒斯坦权力机构

张伯伦

我

罗杰

六世

刘

拉森

注

从电子健康记录中识别突发中风的自然语言处理和机器学习:算法开发和验证

J Med Internet Res 2021 03 08 23 3. e22951

10.2196/22951

33683212

v23i3e22951

PMC7985804

Mouridsen

Thurner

Zaharchuk

人工智能在中风中的应用

中风 2020 08 51 8 2573 9

10.1161 / STROKEAHA.119.027479

32693750

沈

张

姜

程ydF4y2Ba

首歌

刘

他

黄

方

PH值

明

周

人工智能与临床医生在疾病诊断中的对比:系统综述

JMIR Med Inform 2019 08 16 7 3. e10010

10.2196/10010

31420959

v7i3e10010

PMC6716335

Kabra

罗比

康纳

以头晕和眩晕为表现的急性缺血性脑卒中患者的MRI诊断率和影响

中国Radiol 2015 07 70 7 736 42

10.1016 / j.crad.2015.01.016

25956665

s0009 - 9260 (15) 00107 - 5

30.

查图尔维迪

年代

探讨

年代

Baye

迈尔斯

菲普斯

米

Sico

Damush

Miech

里夫斯

米

约翰

威廉姆斯

陆军研究实验室

程

余

Bravata

临床医生是否对TIA和轻微中风患者采用脑MRI ?

神经学 2017 01 17 88 3. 237 44

10.1212 / WNL.0000000000003503

27927939

WNL.0000000000003503

PMC5272790

常ydF4y2Ba

罗伯茨

二者

Buttorff

束帆索

群落特征与死亡率:不同群落特征关联的相对强度

公共卫生 2014 09 104 9 1751 8

10.2105 / AJPH.2014.301944

25033152

PMC4151920

山

韦斯顿

杰克逊

将社会环境变量与主要具体健康结果的发生联系起来

Psychol健康 2014 29 7 753 67

10.1080 / 08870446.2014.884221

24438045

在一代人时间内缩小差距:通过对健康的社会决定因素采取行动实现卫生公平。CSDH最终报告

世界卫生组织，健康问题社会决定因素委员会 2008

2022-06-26

瑞士日内瓦

世界卫生组织

https://apps.who.int/iris/bitstream/handle/10665/43943/97892?sequence=1

健康的社会决定因素

Promedia 2022-06-26

https://www.promedica.org/social-determinants-of-health/

县卫生排名和路线图

威斯康星大学人口健康研究所 2022

2022-06-26

https://www.countyhealthrankings.org/

贾德

古铁雷斯

纽比

霍华德

打孔机

莱托

Kissela

Shikany

饮食模式与偶发性中风有关，并增加了美国黑人中风的风险

中风 2013 12 44 12 3305 11

10.1161 / STROKEAHA.113.002636

24159061

STROKEAHA.113.002636

PMC3898713

阿根廷

米

针对

毫米

美国老年人中风的差异:财富是比收入和教育更有力的风险指标吗?

中风 2008 05 39 5 1533 40

10.1161 / STROKEAHA.107.490383

18436891

STROKEAHA.107.490383

PMC3079499

针对

毫米

阿根廷

米

哈斯

年代

伯克曼

低频

首次中风发病率的生命历程、社会条件和种族差异

安论文 2008 12 18 12 904 12

10.1016 / j.annepidem.2008.09.010

19041589

s1047 - 2797 (08) 00298 - 6

PMC2796851

Salaycik

Kelly-Hayes

米

Beiser

一个

阮

啊

布雷迪

凯斯

狼

巴勒斯坦权力机构

抑郁症状和中风风险:弗雷明汉研究

中风 2007 01 38 1 16 21

10.1161/01. str.0000251695.39877.ca

17138952

01. str.0000251695.39877.ca

程ydF4y2Ba

米

棕褐色

Padman

电子健康记录中健康的社会决定因素及其对分析和风险预测的影响:系统审查

美国医学信息协会 2020 11 01 27 11 1764 73

10.1093 /地点/ ocaa143

33202021

5959858

PMC7671639

Freij

米

Dullabh

霍维

伦纳德

卡

一个

Dhopeshwarkar

将健康的社会决定因素纳入电子健康记录:对顶级供应商当前做法的观点进行定性研究

芝加哥大学NORC教授 2018 11 13

2022-06-26

https://aspe.hhs.gov/sites/default/files/private/pdf/259901/NORCSDH.pdf

HIPAA

医疗保健成本和利用项目用户支持 2023-01-23

https://www.hcup-us.ahrq.gov/DUA/dua_508/DUA508version.jsp#hipaa

美国社区调查(ACS)

美国人口调查局 2022-01-27

https://www.census.gov/programs-surveys/acs

临床分类软件(CCS)的ICD-9-CM情况说明书

医疗保健成本和利用项目(HCUP) 2012

2022-01-27

洛克维尔，马里兰州，美国

医疗保健研究和质量机构

https://www.hcup-us.ahrq.gov/toolssoftware/ccs/ccsfactsheet.jsp

Epocrates，一个雅典娜健康服务

Epocrates 2019

2022-06-26

https://www.epocrates.com/

刘易斯

兆瓦

Khodneva

Safford

毫米

卒中研究中获得护理、收入、教育和冠心病结局的地理和种族差异的原因

循环 2016 03 133 suppl_1 A43

10.1161 / circ.133.suppl_1.43

明ydF4y2Ba

易

Anugu

巴特勒

基米-雷克南

哈特利

助教

Mwasongwe

年代

诺伍德

房颤

西姆斯

米

王

冬天

科雷亚

一个

心血管疾病负担和社会经济相关性:来自杰克逊心脏研究的发现

我心脏协会 2017 08 04 6 8 e004416

10.1161 / JAHA.116.004416

28778943

JAHA.116.004416

PMC5586401

其实

Tsakos

Chandola

Sheiham

一个

瓦特

口腔和全身健康的社会梯度

J邓特·雷斯 2007 10 86 10 992 6

10.1177 / 154405910708601014

17890677

86/10/992

Fretz

一个

施耐德

艾尔

McEvoy

设备

巴兰坦

厘米

Coresh

Selvin

ARIC研究中社会经济地位与亚临床心肌损害、心血管事件和死亡率的关系

流行病学杂志 2016 03 01 183 5 452 61

10.1093 / aje / kwv253

26861239

kwv253

PMC4772435

冈萨雷斯

妈

罗德里格斯Artalejo

Calero

小

1960-1993年队列和病例对照研究中社会经济地位与缺血性心脏病的关系

国际流行病学 1998 06 27 3. 350 8

10.1093 / ije / 27.3.350

9698119

帕特尔

Arora

年代

Lahewala

年代

沙阿

帕特尔

Bambhroliya

Dhaduk

帕特尔

Aneja

帕特尔

年代

Panaich

年代

Badheka

一个

充血性心力衰竭:再入院和短期死亡率的预测因素-一个国家的观点

循环 2016 134 suppl_1 A15225

10.1161 / circ.134.suppl_1.15225

Agyemang

艾尔斯

巴林顿

苏雷什

McClurkin

米

Powell-Wiley

食品不安全和健康保险覆盖面不足是美国成年人理想心血管健康的障碍:来自国家健康和营养检查调查(NHANES)的数据

循环 2013 128 suppl_22 A14135

10.1161 / circ.128.suppl_22.A14135

白

Padman

拉姆齐

冲刺

禁忌搜索增强的高维分类图形模型

INFORMS J计算 2008 08 20. 3. 423 37

10.1287 / ijoc.1070.0255

他

白

加西亚

李

年代

ADASYN:不平衡学习的自适应综合采样方法

2008年IEEE国际神经网络联合会议论文集(IEEE世界计算智能大会) 2008

IJCNN 08年

2008年6月1日至8日

中国香港

1322 8

10.1109 / ijcnn.2008.4633969

赛斯

晶澳

Luengo

Stefanowski

Herrera

结合SMOTE和集成滤波处理不平衡分类中的边界和噪声样本

第十五届智能数据工程与自动化学习国际会议论文集 2014

理想的14

2014年9月10日至12日

西班牙萨拉曼卡

61 8

10.1007 / 978 - 3 - 319 - 10840 - 7 - _8

王

Japkowicz

合成样本的不平衡数据集学习

2004 IRIS机器学习研讨会论文集 2004

虹膜的14

二四年六月九日

加拿大渥太华

Hosmer小

Lemeshow

年代

斯特

处方

应用逻辑回归。第三版 2013

美国新泽西州霍博肯

约翰威利父子公司

何

随机决策森林

第三届文献分析与识别国际会议论文集 1995

ICDAR 95

1995年8月14日至16日

加拿大蒙特利尔

278 82

10.1109 / icdar.1995.598994

何

构造决策森林的随机子空间方法

IEEE跨模式肛门机英特尔 1998 8 20. 8 832 44

10.1109/34.709601

弗里德曼

贪心函数逼近:一个梯度增强机

安集权 2001 10 1 29 5 1189 232

10.1214 /市场/ 1013203451

阮

van den Wijngaard

红外

博世

范美女

范Zwet

电子战

Dofferhoff-Vermeulen

Duijndam

科斯特

de Schryver

埃尔

Kloos

de Laat

Aerden

拉

Zylicz

Wermer

乔丹

Kruyt

院前量表在救护车环境下预测大前血管闭塞的比较

JAMA神经 2021 02 01 78 2 157 64

10.1001 / jamaneurol.2020.4418

33252631

2773646

PMC8015863

Duvekot

Venema

Rozeman

Moudrous

Vermeij

跳频

Biekart

米

Lingsma

高频

Maasland

Wijnhoud

穆德

Alblas

范Eijkelenburg

Buijck

赞美上帝

Plaisier

作为

Hensen

Lycklama À Nijeholt

范Doormaal

范西文

交流

范德卢格特

一个

Kerkhoff

因为发明

Roozenbeek

转眼间调查人员

八种院前卒中量表检测疑似卒中颅内大血管闭塞(PRESTO)的比较:一项前瞻性观察研究

柳叶刀神经 2021 03 20. 3. 213 21

10.1016 / s1474 - 4422 (20) 30439 - 7

33422191

s1474 - 4422 (20) 30439 - 7

张

周

张

首歌

卒中风险检测:改进混合特征选择方法

J Med Internet Res 2019 04 02 21 4 e12437

10.2196/12437

30938684

v21i4e12437

PMC6466481

劳埃德

Deeny

老

Steventon这个

一个

周末入院可能与较差的长期合并症记录有关:一项使用行政数据的急诊入院前瞻性研究

BMC健康服务资源 2018 11 16 18 1 863

10.1186 / s12913 - 018 - 3668 - 7

30445942

10.1186 / s12913 - 018 - 3668 - 7

PMC6240268

麦金尼

邓

Kasner

科斯

简森-巴顿

心肌梗死数据采集系统(MIDAS 15)研究组

综合中风中心克服了周末与工作日在中风治疗和死亡率方面的差距

中风 2011 09 42 9 2403 9

10.1161 / STROKEAHA.110.612317

21868723

STROKEAHA.110.612317

默罕默德

妈

Sidhu

Rudge

史蒂文斯

周末住院的选择性病人死亡风险高于急诊病人:英国国家卫生服务医院的回顾性数据库研究

BMC健康服务资源 2012 04 02 12 87

10.1186 / 1472-6963-12-87

22471933

1472-6963-12-87

PMC3341193

汉

萨顿

米

深谷

年代

华纳

多兰

非工作时间住院对病人死亡率的影响:一家三级急症医院的纵向分析

英国医学杂志质量指南 2018 06 27 6 445 54

10.1136 / bmjqs - 2017 - 006784

28971886

bmjqs - 2017 - 006784

PMC5965349

安德森

高

金

生活就是时间:一项基于医院到达时间的创伤患者治疗质量差异的检查

生产管理 2014 12 23 12 2178 90

10.1111 / poms.12236

霍华德

Kissela

Kleindorfer

做

麦克卢尔

拉

苏

易之

贾德

罗兹

Cushman

米

Moy

金沙

卡

霍华德

黑人种族和卒中危险因素在首次与复发性卒中中的作用差异

神经学 2016 02 16 86 7 637 42

10.1212 / WNL.0000000000002376

26791153

WNL.0000000000002376

PMC4762422

吉梅内斯

曼森

我

烹饪

Kawachi

我

Wassertheil-Smoller

年代

哈林

——《

Rhee

Sealy-Jefferson

年代

Rexrode

公里

女性中风风险因素的种族差异

中风 2019 04 50 4 797 804

10.1161 / STROKEAHA.117.017759

30869565

PMC6433502

Casagrande

弗吉尼亚州

钻石

它

树鼩上丘的消融研究

J .神经科 1974 07 156 2 207 37

10.1002 / cne.901560206

4424699

本特森

罗斯

了解特征对共参考分辨率的价值

2008年自然语言处理经验方法会议论文集 2008 10

EMNLP 08年

2008年10月25日至27日

檀香山，嗨，美国

294 303

10.3115/1613715.1613756

塞尔

米

Modayil

范特

Schaul

Ostrovski

Dabney

Horgan

皮奥特

阿扎尔的

米

银

彩虹:结合深度强化学习的改进

程序AAAI配置人工智能 2018 04 29 32 1 3215 22

10.1609 / aaai.v32i1.11796

Lundberg

不

李

如果

树集成一致的个性化特征归属

arXiv 2018

Lundberg

年代

李

如果

解释模型预测的统一方法

第31届神经信息处理系统国际会议论文集 2017 12

NeurIPS的17

2017年12月4日至9日

长滩，加州，美国

4768 77

Lundberg

奈尔

Vavilala

女士

Horibe

米

eis

乔丹

亚当斯

利斯顿

德

低

纽曼

科幻小说

金

李

如果

手术期间预防低氧血症的可解释的机器学习预测

生物医学工程 2018 10 2 10 749 60

10.1038 / s41551 - 018 - 0304 - 0

31001455

10.1038 / s41551 - 018 - 0304 - 0

PMC6467492

Lundberg

不

程ydF4y2Ba

DeGrave

一个

Prutkin

奈尔

卡茨

Himmelfarb

邦萨尔

李

年代

从局部解释到全球理解，通过可解释的树木人工智能

纳特马赫英特尔 2020 01 2 1 56 67

10.1038 / s42256 - 019 - 0138 - 9

32607472

PMC7326367

Brandler

西文

沙玛

米

Sinert

莱文

老

院前中风量表在城市环境:一个系统的回顾

神经学 2014 06 17 82 24 2241 9

10.1212 / WNL.0000000000000523

24850487

WNL.0000000000000523

PMC4113467

Alijanpour

年代

Mostafazdeh-Bora

米

艾哈迈迪Ahangar

一个

不同行程尺度;应该使用哪一种天平?

凯斯宾J实习医学 2021 12 1 1 21

10.22088 / cjim.12.1.1

33680393

PMC7919174

龚

程ydF4y2Ba

史

张

米

徐

张

卢

米

方便掌握的现场评估卒中分诊(CG-FAST):一种改进的尺度来检测大血管闭塞卒中

前神经 2019 4 17 10 390

10.3389 / fneur.2019.00390

31057480

PMC6478663

Antipova

收购方

Macaden

一个

威尔逊

评估急性脑卒中的临床工具的诊断准确性:一项系统综述

BMC新兴医学 2019 09 04 19 1 49

10.1186 / s12873 - 019 - 0262 - 1

31484499

10.1186 / s12873 - 019 - 0262 - 1

PMC6727516

Vaid

一个

Somani

年代

Russak

De Freitas

乔杜里

帕兰杰佩

我

约翰逊

千瓦

李

Miotto

里希特

赵

年代

贝克曼

奈克

克钦独立军

一个

Timsina

拉拉

一个

帕兰杰佩

米

金

Danieletto

米

辛格

米

迈耶

O ' reilly

Huckins

Kovatch

芬克尔斯坦

弗里曼

Argulian

Kasarskis

一个

屎

Aberg

晶澳

Bagiella

霍洛维茨

墨菲

是个好

斯凯特

赵

Cordon-Cardo

柱身

恰尼

帝国

戴斯。莱纳姆:

借钱

莱文

妈

Narula

法

咱

只是

交流

恰尼

亚历山大-伍尔兹

还

Glicksberg

废话

机器学习预测纽约市COVID-19患者队列中的死亡率和关键事件:模型开发和验证

J Med Internet Res 2020 11 06 22 11 e24018

10.2196/24018

33027032

v22i11e24018

PMC7652593

Zanotto

废话

贝克·达·席尔瓦·埃切斯

美联社

木豆黄宗泽

一个

议会

如

Ruschel

De Souza

交流

安德雷德

厘米

维埃加斯

Canuto

年代

路易斯

Ouriques马丁斯

年代

维埃拉

Polanczyk

安德烈Goncalves

米

来自电子医疗记录的脑卒中结局测量:神经和非神经分类器有效性的横断面研究

JMIR Med Inform 2021 11 01 9 11 e29120

10.2196/29120

34723829

v9i11e29120

PMC8593798

Goyal

Tsivgoulis

男性

年代

见过

伊夫蒂哈尔

年代

Kerro

一个

常

弗雷

莱托

Triantafyllou

年代

Papadimitropoulos

阿贝迪

Alexandrov

亚历山大-伍尔兹

Alexandrov

詹德

FABS:一个直观的工具筛选中风模拟在急诊科

中风 2016 09 47 9 2216 20.

10.1161 / STROKEAHA.116.013842

27491733

STROKEAHA.116.013842

背心

小

Ben-Assuli

不同数据来源对预测安全网人口急诊科就诊的贡献

2018年信息系统国际会议论文集 2018

艾多酷的18

2018年12月13日至16日

旧金山，加州，美国

Kasthurirathne

背心

小

Menachemi

霍尔沃森

买点

评估健康数据的社会决定因素的能力，以增强预测模型，确定需要全面社会服务的患者

美国医学信息协会 2018 01 01 25 1 47 53

10.1093 /地点/ ocx130

29177457

4645255

PMC7647142

曹

连续波

每天

亚历山大-伍尔兹

Almarzooq

子

阿隆索

一个

Beaton

阿兹

Bittencourt

女士

伯麦

正义与发展党

巴克斯顿

卡森

美联社

Commodore-Mensah

艾尔金德

女士

埃文森

基米-雷克南

Eze-Nliam

弗格森

摩根富林明

Generoso

何

我

Kalani

汗

党卫军

Kissela

克努森

吉隆坡

莱文

达

刘易斯

刘

循环

女士

妈

Mussolino

我

Navaneethan

霹雳州

我

Poudel

Rezk-Hanna

米

罗斯

遗传算法

施罗德

海尔哥哥

沙阿

上海

查克

埃尔

VanWagner

磅

Virani

党卫军

Voecks

王

纽约

Yaffe

马丁

党卫军

心脏病和中风统计-2022年更新:美国心脏协会的一份报告

循环 2022 02 22 145 8 e153 639

10.1161 / CIR.0000000000001052

35078371

Ben-Assuli

Padman

慢性疾病患者反复再入院的轨迹:风险分层、分析和预测

管理信息系统问 2020 01 01 44 1 201 26

10.25300 / misq / 2020/15101