这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
在过去的20年里,问卷调查被用于预测眩晕的诊断并协助临床决策。基于问卷的机器学习模型有望提高前庭疾病的诊断效率。
本研究旨在开发和验证一个基于问卷的机器学习模型,预测眩晕的诊断。
在这项多中心前瞻性研究中,眩晕患者于2019年8月至2021年3月首次访问7个三级转诊中心的耳鼻喉科和眩晕科诊所时进入连续队列,随访期为2个月。所有参与者在资格筛选后完成诊断问卷。仅接受治疗专家对其主要疾病进行最终诊断的患者被纳入模型开发和验证。2021年2月1日之前入组的患者数据用于建模和交叉验证,之后入组的患者进行外部验证。
共纳入1693例患者,有效率为96.2%(1693/1760)。中位年龄51岁(IQR 38-61岁),女性991例(58.5%);1041例(61.5%)患者在研究期间得到最终诊断。其中928例(54.8%)患者纳入模型开发和验证,随后纳入的113例(6.7%)患者作为测试集进行外部验证。他们被分为5个诊断类别。我们比较了9种候选机器学习方法,重新校准的轻梯度增强机模型的性能最好,交叉验证的曲线下面积为0.937 (95% CI 0.917-0.962),外部验证的曲线下面积为0.954 (95% CI 0.944-0.967)。
基于问卷调查的光梯度增强机能够预测常见的前庭疾病,并协助耳鼻喉科和眩晕诊所的决策。更大样本量的进一步研究和神经学家的参与将有助于评估这种机器学习方法的泛化和鲁棒性。
头晕和眩晕是前庭神经系统疾病患者的主要主诉,估计一生中头晕(包括眩晕)的发生率为15%-35% [
人工智能在诊断头晕和眩晕方面的应用可以追溯到30多年前。专家系统,例如
除了
本研究是耳源性眩晕人工智能研究(OVerAIR)的一部分,其主要目的是建立一个综合平台,利用人工智能对一组耳源性眩晕患者进行诊断、治疗、康复和随访。本研究的具体目标包括开发和验证一个眩晕诊断平台,通过使用机器学习技术协助临床决策,并进一步探索所提议的平台的有效性和临床效用。
根据Barany学会对前庭症状的分类,出现新的眩晕或头晕主诉的患者[
本研究已获得所有参与中心的机构审查委员会的批准(批准号2019091)。本研究遵循个体预后或诊断报告指南的多变量预测模型透明报告[
每位患者都进行了常规的病史收集,随后进行了完整的耳神经检查,必要时还进行了进一步的检查(如纯音听力测量、前庭测试、计算机断层扫描和磁共振成像)。由具有5年以上临床经验的耳鼻喉科专家给出的临床诊断被用作参考诊断,这些专家对问卷回答不知情。参考诊断标准包括美国耳鼻咽喉头颈外科学会关于良性阵发性位置性眩晕(BPPV)的实践指南[
诊断问卷的制定是一个迭代的过程,主要包括以下3个阶段。
焦点小组和小组会议:首先,召开了焦点小组讨论和3次后续小组会议,以确定耳鼻喉科诊所常见的周围前庭神经障碍。在此过程中,确定了16种疾病,并列出了每种疾病的特征表现。对每种疾病的诊断或实践指南的文献进行了搜索,并仔细审查了相关的文献。之后,起草了由43个项目组成的初步问卷。
患者访谈:为了便于理解和填写问卷,对我院耳鼻喉科门诊15例眩晕患者进行了访谈。两名患者报告说,手术时间太长、太耗时。另外3人抱怨被问了太多问题,比如心脏病和吃药了,这些问题似乎与他们的眩晕症无关。在这一阶段,问卷的措辞进行了彻底的简化,删除了6个问题。
专家组会议:在一次全国会议上,邀请了12位专家(来自耳鼻喉科、神经病学、前庭检查、康复)对问卷的适用性和清晰度进行了评估,并提出了进一步修订的建议。在这个过程中,项目被重新排序,一些项目被合并或省略。
我们比较了9种候选机器学习方法,以筛选出性能最好的一种。考虑了五种非集成学习算法,即决策树[
对布尔变量的缺失值在主要结果中用False进行imputation,并通过比较不同的imputation策略(即不进行imputation和用True进行imputation)进行敏感性分析。所有的机器学习算法都是用Python实现的,代码可以在在线资源中找到。超参数根据最先进的机器学习包sklearn设置为默认值。
作为一种促进临床诊断的数据驱动预测方法,需要验证样本数量是否足够用于模型开发和验证。跟随Riley [
此外,现代技术灵活性的增加意味着与逻辑回归等经典方法相比,可靠的估计可能需要更大的样本量。因此,我们采用了van der Ploeg等人的方法[
为了衡量变量的重要性,我们首先根据交叉验证中的信息增益来评估多变量特征的重要性,并选择了前20个重要变量。然后,为了计算单个诊断类别中的特征重要性,每个选择的变量分别用于预测5个诊断类别,并以AUC衡量单变量变量的重要性。
最终问卷由23个项目组成,其中包含分支逻辑。完整版的问卷可在
关于症状特征的一个问题是:头是否旋转?如果不是,那么需要说明头晕的类型(沉重/头脑混乱,摇摇晃晃或其他)
三个问题关于频率,持续时间,以及第一次眩晕发作后的持续时间
关于听力损失的情况,有一个问题,那就是,它的哪一边和如何变化
关于耳鸣、耳胀、耳痛的情况,具体问三个问题,即发作前/发作中加重,发作后减轻,发作前/发作后是否改变,是哪侧?
关于头痛是否存在的问题,特别是头痛发作的时间和相关家族史
一个关于伴随性恐光症或语音恐惧症的问题
一个关于在眩晕发作期间、之后或没有眩晕发作时的不稳定的问题
一个关于站立或行走时症状是否会恶化的问题
关于跌倒的情况,意识状态,攻击时是否失禁两个问题
五题关于眩晕的触发因素,即躺下、翻身、快速起身、屏气、大声刺激、在一些特殊场景、特殊食物或气味、疲劳、失眠、生气
一问到底是颈性眩晕,即上肢麻木疼痛还是颈部疼痛
一个关于前驱症状的问题,即发病前的感冒、发烧和腹泻
一个关于耳科疾病病史的问题,即耳漏,中耳炎,耳部手术
一个关于头颈部创伤和手术史的问题
来自7个参与中心(
在1041例患者中,928例被分为训练集(用于建模和交叉验证),113例被纳入测试集(用于建模和交叉验证)。
参与者的人口学特征(N=1693)。
特征 | 价值 | |
年龄(年),中位数(IQR) | 51 (38 - 61) | |
|
||
|
女 | 991 (58.5) |
|
男性 | 702 (41.6) |
|
||
|
良性阵发性位置性眩晕 | 398 (23.5) |
|
前庭偏头痛 | 203 (12) |
|
梅尼埃病(又名内耳眩晕 | 194 (11.5) |
|
伴有前庭功能障碍的突发性感音神经性听力丧失 | 173 (10.2) |
|
其他人一个 | 73 (4.3) |
|
多个诊断 | 14 (0.8) |
|
可能的诊断 | 145 (8.6) |
|
待定 | 493 (29.1) |
一个这一类包括前庭神经炎、持续性体位知觉性头晕、心因性头晕、迟发性内淋巴积液、前庭阵发性发作、颈源性眩晕、听神经瘤、老老性前庭病、轻cupula、Ramsay-Hunt综合征、迷路瘘管和上半规管断裂综合征。
训练数据集和测试集的特征。
特征 | 训练集(n=928) | 测试集(n=113) | |
年龄(年),中位数(IQR) | 50 (37-60) | 53 (41 - 63) | |
|
|||
|
女 | 536 (57.8) | 72 (63.7) |
|
男性 | 392 (42.2) | 41 (36.3) |
|
|||
|
良性阵发性位置性眩晕 | 348 (37.5) | 50 (44.2) |
|
前庭偏头痛 | 182 (19.6) | 21日(18.6) |
|
梅尼埃病(又名内耳眩晕 | 168 (18.1) | 26 (23) |
|
伴有前庭功能障碍的突发性感音神经性听力丧失 | 164 (17.6) | 9 (8) |
|
其他人一个 | 66 (7.1) | 7 (6.2) |
一个这一类包括前庭神经炎、持续性体位知觉性头晕、心因性头晕、迟发性内淋巴积液、前庭阵发性发作、颈源性眩晕、听神经瘤、老老性前庭病、轻cupula、Ramsay-Hunt综合征、迷路瘘管和上半规管断裂综合征。
在2019年8月至2021年3月期间,对新出现眩晕或头晕症状的患者进行了筛查。随访2个月内记录诊断。
交叉验证的9个模型中LGBM模型的AUC最高,为0.937 (95% CI 0.917-0.962), Brier评分最低,为0.057 (95% CI 0.049-0.068) (
灵敏度分析中,用模态(频率最高的标签)输入缺失值时,9种方法的AUC和Brier评分均下降(
重新校准的LGBM模型在交叉验证中的受试者工作特征曲线如图所示
交叉验证的校准曲线(
各诊断类别的整体收缩因子分析和敏感性分析结果表明,本研究的样本量足以进行模型开发。看到
候选算法的预测性能。
方法 | 曲线下面积(95% CI) | Brier评分(95% CI) | |
|
|||
|
决策树 | 0.765 (0.726 - -0.798) | 0.125 (0.104 - -0.146) |
|
岭回归 | 0.803 (0.780 - -0.831) | 0.087 (0.071 - -0.104) |
|
逻辑回归 | 0.928 (0.907 - -0.956) | 0.060 (0.051 - -0.069) |
|
支持向量分类 | 0.501 (0.499 - -0.505) | 0.239 (0.220 - -0.258) |
|
随机梯度下降 | 0.733 (0.611 - -0.824) | 0.141 (0.083 - -0.254) |
|
|||
|
随机森林 | 0.924 (0.900 - -0.949) | 0.063 (0.056 - -0.070) |
|
自适应增强 | 0.851 (0.793 - -0.901) | 0.148 (0.144 - -0.151) |
|
梯度增强决策树 | 0.925 (0.902 - -0.951) | 0.064 (0.053 - -0.076) |
|
轻型梯度提升机 | 0.935 (0.913 - -0.960) | 0.057 (0.047 - -0.067) |
|
重新校准光梯度增强机 | 0.937 |
0.058 (0.049 - -0.068) |
不同算法在用模式输入缺失数据时的性能。
方法 | 曲线下面积(95% CI) | Brier评分(95% CI) | |
|
|||
|
决策树 | 0.746 (0.690 - -0.791) | 0.137 (0.114 - -0.169) |
|
岭回归 | 0.788 (0.733 - -0.817) | 0.096 (0.076 - -0.121) |
|
逻辑回归 | 0.921 (0.900 - -0.943) | 0.067 (0.057 - -0.082) |
|
支持向量分类 | 0.500 (0.500 - -0.500) | 0.240 (0.222 - -0.258) |
|
随机梯度下降 | 0.727 (0.578 - -0.819) | 0.148 (0.090 - -0.251) |
|
|||
|
随机森林 | 0.919 (0.896 - -0.939) | 0.068 (0.061 - -0.078) |
|
自适应增强 | 0.833 (0.741 - -0.887) | 0.148 (0.143 - -0.156) |
|
梯度增强决策树 | 0.915 (0.888 - -0.935) | 0.073 (0.059 - -0.093) |
|
轻型梯度提升机 | 0.929 (0.906 - -0.950) | 0.062 (0.055 - -0.072) |
|
轻型梯度增厚机(无imput) | 0.935 (0.916 - -0.956) | 0.057 (0.049 - -0.065) |
每个诊断类别的95% CI(2条虚线之间)的受试者工作特征曲线(实线)。每个诊断类别的性能通过一个对休息方案进行评估。良性阵发性位置性眩晕;SSNHL-V:突发性感音神经性听力丧失伴眩晕。
不同诊断类别的预测能力。
AUC一个(95%置信区间) | 敏感度(95% CI) | 特异性(95% CI) | + LRb(95%置信区间) | lrc(95%置信区间) | 准确度(95%置信区间) | ||
|
|||||||
|
简历d | 0.97 (0.96 - -0.99) | 0.94 (0.87 - -0.99) | 0.92 (0.85 - -0.97) | 13.23 (6.55 - -29.3) | 0.07 (0.01 - -0.14) | 0.92 (0.89 - -0.95) |
|
电动汽车e | 0.98 (0.97 - -0.99) | 0.97 (0.92 - 1) | 0.90 (0.83 - -0.94) | 10.23 (5.88 - -17.92) | 0.04 (0 - 0.09) | 0.93 (0.90 - -0.96) |
|
|||||||
|
简历 | 0.91 (0.87 - -0.94) | 0.86 (0.76 - -0.95) | 0.85 (0.74 - -0.95) | 6.58 (3.56 - -13.93) | 0.17 (0.07 - -0.27) | 0.85 (0.78 - -0.92) |
|
电动汽车 | 0.9 (0.87 - -0.92) | 0.66 (0.52 - -0.76) | 0.90 (0.85 - -0.96) | 7.38 (4.71 - -12.05) | 0.38 (0.26 - -0.51) | 0.86 (0.82 - -0.88) |
|
|||||||
|
简历 | 0.99 (0.97 - 1) | 0.95 (0.88 - 1) | 0.95 (0.90 - -0.99) | 25.07 (9.39 - -67.93) | 0.05 (0 - 0.12) | 0.95 (0.91 - -0.98) |
|
电动汽车 | 1.00 (1.00 - -1.00) | 1.00 (1.00 - -1.00) | 0.98 (0.97 - -1.00) | 正f(34.67负) | 0.00 (0.00 - -0.00) | 0.98 (0.97 - 1) |
|
|||||||
|
简历 | 0.96 (0.93 - -0.98) | 0.92 (0.81 - 1) | 0.90 (0.82 - -0.96) | 10.79 (5.28 -22) | 0.09 (0 - 0.21) | 0.90 (0.84 - -0.95) |
|
电动汽车 | 0.97 (0.97 - -0.98) | 0.82 (0.69 - -0.88) | 0.98 (0.95 - -0.99) | 正(18.4负) | 0.19 (0.12 - -0.31) | 0.94 (0.91 - -0.96) |
|
|||||||
|
简历 | 0.86 (0.77 - -0.93) | 0.83 (0.66 - 1) | 0.78 (0.55 - -0.93) | 4.44 (2.10 - -9.77) | 0.21 (0 - 0.44) | 0.78 (0.57 - -0.91) |
|
电动汽车 | 0.92 (0.88 - -0.96) | 0.74 (0.50 - -0.86) | 0.90 (0.85 - -0.94) | 7.59 (5.05 - -12.02) | 0.38 (0.26 - -0.51) | 0.89 (0.85 - -0.93) |
一个AUC:曲线下面积。
b+LR:正似然比。
c-LR:负似然比。
d简历:交叉验证。
eEV:外部验证。
fInf:正似然比为无穷大,因为特异性为1。
基于重新校准的光梯度增强机模型,在验证数据上逐点95%置信限(灰色带)的校准曲线(蓝色实线)。良性阵发性位置性眩晕;SSNHL-V:突发性感音神经性听力丧失伴眩晕。
轻梯度增压机模型中多变量特征的重要性。
变量 | 功能的重要性 |
突发性听力丧失 | 1039.8 |
发作时间 | 912.3 |
听力损失 | 694.8 |
首次发病时间 | 468.1 |
触发:起身、躺下或翻身 | 358.0 |
年龄 | 255.6 |
头痛病史 | 250.6 |
攻击频率 | 221.4 |
波动性听力损失 | 186.3 |
恐光症 | 185.7 |
第一次失聪的时间 | 183.7 |
反复出现的症状 | 155.9 |
耳鸣 | 135.5 |
耳朵丰满 | 135.4 |
发作时头痛 | 117.7 |
因站立或行走而加重 | 80.4 |
诱因:疲劳、睡眠不足 | 69.7 |
眩晕 | 65.0 |
上肢疼痛或麻木 | 62.4 |
攻击时不稳定 | 59.5 |
头痛家族史 | 54.2 |
男性 | 54.1 |
秋天 | 47.3 |
失去意识,大小便失禁 | 44.6 |
耳鸣:发作前加重,发作后减轻 | 36.7 |
触发因素:视觉刺激 | 31.0 |
触发:声音和压力 | 23.0 |
失稳:首次发病后 | 22.4 |
前驱症状:感冒、发烧、呕吐或腹泻 | 22.0 |
头晕家族史 | 17.4 |
诱因:某些食物 | 15.9 |
耳痛 | 11.6 |
摔倒时意识清醒 | 9.8 |
中耳炎或耳部手术史 | 7.2 |
耳鸣:眩晕时加重 | 4.5 |
波动的:逐渐恶化的 | 0.0 |
攻击之间的不稳定 | 0.0 |
近期有头颈部外伤或手术史 | 0.0 |
在单变量预测中,采用曲线下面积作为变量重要性的估计。AUC:曲线下面积;良性阵发性位置性眩晕;SSNHL-V:突发性感音神经性听力丧失伴眩晕。
在这项多中心前瞻性队列研究中,开发了一份用于诊断眩晕的问卷,并使用通过问卷收集的患者历史数据开发了LGBM模型。据我们所知,这是第一个基于问卷的机器学习模型来预测眩晕的多种诊断。由于本研究中所有患者均来自耳鼻喉科和眩晕科诊所,因此诊断分布与以往在神经内科和平衡科诊所进行的研究不同[
我们的模型在预测常见前庭诊断方面优于先前报道的基于问卷的统计模型[
本研究存在以下局限性。诊断分布的不均匀使得模型很难对罕见诊断做出准确的预测。为了减少潜在的噪声,我们在建模中只纳入了最终诊断为1例的患者。排除诊断不确定的患者是一个潜在的偏倚来源。有几个原因导致这些病人没有得到明确的诊断。在某些情况下,BPPV患者在等待预定的位置测试和治疗(1-2周后)时可能会自发缓解,这也解释了我们队列中BPPV患病率相对于其他耳鼻喉科诊所较低的原因[
这项研究提出了第一个基于问卷的机器学习模型预测常见的前庭疾病。该模型采用集成学习方法LGBM,对BPPV、前庭偏头痛、Meniere病和SSNHL-V具有较强的预测能力。作为OVerAIR平台的一部分,它可用于辅助耳鼻喉科诊所的临床决策,并有助于BPPV的远程诊断。我们还在开发一款智能手机应用程序,将调查问卷与转诊、随访、治疗和康复结合起来,以改善眩晕患者的健康状况。OVerAIR研究的下一阶段将涉及神经学家的参与,这有望提高模型对中枢性眩晕的预测能力,并有助于评估其泛化和稳健性。
最终版本的眩晕诊断问卷应用于本研究。
样本量分析。
曲线下面积
良性阵发性位置性眩晕
轻型梯度提升机
耳源性眩晕人工智能研究
伴有前庭功能障碍的突发性感音神经性听力丧失
本研究得到上海市卫生健康委重大疾病(耳源性眩晕)跨学科诊疗能力建设项目、上海市临床重点专科(shslczdzk00801)、上海市卫生健康委科研基金一般项目(grant 202040286)、国家自然科学基金(91846302、72033003)资助。资金来源在本研究的设计和实施中没有任何作用;数据的收集、管理、分析和解释;报告的撰写;或者是提交稿件发表的决定。
FY和HD可以完全访问研究中的所有数据,并对数据的完整性和数据分析的准确性负责。FY、PW、HD、CZ和HL负责本研究的概念和设计。所有作者都对数据的获取、分析或解释做出了贡献,并对重要知识内容的手稿进行了批判性修订。FY, PW, HD起草了手稿。FY和HD进行统计分析。HL和CZ获得了本研究的资助。FY、PW、HD、JW、HY、CZ和HL提供行政、技术或物质支持。HL和CZ监督了这项研究。
没有宣布。