JMIR医学信息学-通过机器学习语音分析检测肌萎缩侧索硬化症患者的球茎受累:诊断决策支持发展研究

原始论文

¹信息和通信技术组，国际工程数值方法中心，巴塞罗那，西班牙

²西班牙莱莱达大学计算机科学系

^3.塔林理工大学控制论研究所，塔林，爱沙尼亚

⁴运动神经元功能组，西班牙巴塞罗那贝尔维奇大学医院

通讯作者:

Francesc Solsona博士

计算机科学系

莱莱达大学

詹姆斯二世，69岁

Lleida

西班牙

电话:34 973702735

电子邮件:francesc.solsona@udl.cat

背景:球受累是一个用于肌萎缩性侧索硬化症(ALS)的术语，指的是脑干皮质球区的运动神经元损伤，导致语言和吞咽功能障碍。球受累的早期症状之一是声音恶化，其特征是发音严重缺陷;言语极其缓慢、费力;标志着过度鼻音;和严厉的苛刻。球茎受累需要及时和精心协调的干预。因此，早期发现对于改善ALS患者的生活质量和延长患者的预期寿命至关重要。最近的研究工作集中在声音分析上，以捕捉球的参与情况。

摘要目的:本文的主要目的是:(1)设计一种通过西班牙语发音元音的声学参数有效诊断球受累的方法;(2)证明自动诊断球受累的性能优于人类诊断。

方法:这项研究的重点是从五个西班牙元音的发音中提取语音子系统的特征——抖动、闪烁、谐波噪声比和音高。然后，我们使用各种监督分类算法，在此之前对得到的特征进行主成分分析。

结果:迄今为止，支持向量机比相关工作中分析的模型表现得更好(准确率为95.8%)。我们还展示了该模型如何改善人类诊断，这通常会误诊球受累。

结论:所得结果令人鼓舞，证明了本文提出的自动化模型的有效性和适用性。它可能是一个适当的工具，以帮助诊断ALS的多学科临床团队，特别是提高对球累及的诊断。

[j] .中华医学杂志，2011;9(3):21331

doi: 10.2196/21331

关键字

肌萎缩侧索硬化症；球的参与；的声音；诊断；机器学习

背景

肌萎缩性侧索硬化症(ALS)是一种不规则和不对称进展的神经退行性疾病，其特征是上下运动神经元的进行性丧失，导致肌肉萎缩、瘫痪和死亡，主要由呼吸衰竭引起。ALS患者的预期寿命在症状出现后的3至5年之间。肌萎缩侧索硬化症会导致肌肉无力、行动、交流、进食和呼吸困难，使患者严重依赖照顾者和亲属，并产生巨大的社会成本。目前，还没有治愈ALS的方法，但早期发现可以减缓疾病的进展[1]。

当症状首先出现在手臂和腿部时，这种疾病被称为脊髓性肌萎缩侧索硬化症(肢体或脊柱发病;80%的病例)和脑髓性肌萎缩侧索硬化症发病于脑神经核(脑髓性发病;20%的病例)。后一种形式的患者往往有较短的寿命，因为负责语言和吞咽的球肌功能的关键性质。然而，80%的ALS患者会出现构音障碍，或发音不清、发音困难[2]。平均而言，在出现第一次球症状后约18个月仍能保持良好的语言能力[3.]。这些症状通常在球型肌萎缩侧索硬化症的发病初期或脊髓型肌萎缩侧索硬化症的晚期变得明显。早期识别ALS患者的球受累对改善诊断和预后至关重要，可能是有效减缓疾病进展的关键。然而，目前尚无标准的诊断程序来评估ALS患者的球茎功能障碍。

语言障碍可能在肌萎缩侧索硬化症确诊前3年就开始出现[3.]，而且随着时间的推移，ALS患者的语言能力也会显著恶化[4]。患有严重构音障碍的ALS患者存在特定的言语产生特征[5-7]。然而，正如以前的研究中所建议的那样，通过客观测量，可以早期(通常是难以察觉的)检测到言语和声音的变化[8-11]。作者得出结论，发音特征可能非常适合早期ALS检测。

假设

基于以往的工作，我们的论文提出，通过自动信号分析从持续元音的稳定部分获得的声学参数可以有效地用作ALS患者球受累的早期检测的预测因子。为此，本研究的主要目标(和贡献)是:(1)设计一种通过西班牙语发音元音的声学参数有效诊断球受累的方法;(2)证明自动诊断球受累的性能优于人工诊断。

为了实现这些目标，45名西班牙ALS患者和18名对照受试者参加了这项研究。他们被一位神经学家招募，并从每个参与者那里引出了五个西班牙语元音片段。这项研究的重点是从每个西班牙元音的发音中提取语音子系统的特征——抖动、闪烁、HNR和音高。

一旦获得特征，我们使用各种分类算法来执行基于监督分类的预测。除了传统的支持向量机[9,16,21,22,24]， nn [9,16,23]和LDA [25]，我们使用了逻辑回归(LR)，这是用于分类目的的最常用模型之一[29,30.];随机森林[31]，这是机器学习中的一种集成方法，涉及构建多个树预测器，这些树预测器是经典的预测分析算法[22];naïve贝叶斯(NaB)，这仍然是一个相关的话题[32]，并基于应用贝叶斯定理。

在输入模型之前，由于该技术在广泛的领域中表现良好，因此将PCA应用于所获得的特征。

参与者

这项研究得到了西班牙巴塞罗那Bellvitge大学医院生物医学研究项目研究伦理委员会(CEIm)的批准。共有45名ALS患者(男性26名，女性19名)，年龄37 ~ 84岁(平均57.8岁，SD 11.8岁)，18名对照组(男性9名，女性9名)，年龄21 ~ 68岁(平均45.2岁，SD 12.2岁)，参加了这项横向研究。所有患有ALS的参与者都由神经科医生诊断。

球受累的诊断遵循主观临床方法[33]，神经科医生就ALS患者是否累及球部做出了诊断。在45名ALS患者中，有5人报告了球部症状，40人报告了脊柱症状，但在研究时，其中14人出现了球部症状。

总而言之，在这项研究的63名参与者中，14名被诊断为ALS并累及球部(3名男性，11名女性;年龄38 ~ 84岁，平均56.8岁，SD 12.3岁);31例被诊断为ALS但未表现出这种功能障碍(男性23例，女性8例，年龄37 ~ 81岁，平均58.3岁，SD 11.7岁);对照组18例，男9例，女9例;年龄21 ~ 68岁，平均45.2岁，SD 12.2岁)。

ALS功能评定量表(ALS Functional Rating Scale-Revised, ALSFRS-R)评估的ALS的严重程度及其球囊表现在参与者中也各不相同。ALSFRS-R评分(0-48)由12个评估功能损害程度的调查问题得出，每个问题的得分从4分(受损最小)到0分(受损最严重)。本研究45名参与者的得分范围为6 ~ 46(平均31.3,SD 8.6;3例患者的评分报告为不可用)。在亚组中，诊断为球受累的患者得分从6到46(平均23.1,SD 9.8)，未出现这种功能障碍的ALS患者得分从17到46(平均30.2,SD 8.0;3例患者的评分报告无法获得)。

ALS患者的主要临床记录总结于多媒体附录1。

元音记录

西班牙语语音系统包括五个元音片段- a, e, i, o和u。这些是从每个ALS患者和每个对照组参与者那里获得并分析的，他们都是西班牙语使用者。

西班牙语元音a、e、i、o和u在中等音量条件下持续取样3-4秒。这些录音是在一个普通的医院房间里使用USB GXT 252 Emita流媒体麦克风(Trust International BV)连接到笔记本电脑上进行的。使用开源应用程序audiity以44.100 Hz的采样率和32位量化记录语音信号[34]。

特征提取

每个单独的发音都被剪掉并匿名标记。语音片段的边界由使用Praat手册的示波图和频谱图确定[35并被大声地检查。边界的起始点被建立为在示波图中观察到的波形中周期能量的起始点，并通过谱图中共振峰的出现来检查。当观察到周期能量的幅度明显减小时，将周期振荡的终点确定为周期振荡的终点。通过示波图中波形的消失和谱图中共振峰的消失来识别。

声学分析是通过考虑以下特征来完成的:抖动、闪烁、HNR和音高。一旦每个参与者的发音被分割，通过Praat[]中使用的标准方法从每个元音中获得参数。35];本节将详细解释它们，包括短期光谱分析和周期检测的自相关方法。

抖动和闪烁是语音信号的声学特性。抖动定义为基周期在一个周期之间的周期性变化，闪烁定义为连续周期的波形幅度的波动。缺乏对声带振动控制的患者往往有较高的抖动值。声门阻力的减小引起声门周期的变化，这与呼吸和发出噪音有关，从而引起微光的增加[18]。

为了计算抖动参数，在Praat中建立了一些可选参数。周期下限和周期上限，定义为分析所考虑的波形周期的最小和最大持续时间，分别设置为0.002秒和0.025秒。最大周期因子——两个连续周期之间可能存在的最大差异——被设定为1.3。这意味着如果周期因子——两个连续周期的持续时间之比——大于1.3，则在抖动的计算中不考虑这对周期。

用于确定微光的方法几乎与用于确定抖动的方法相同，主要区别在于抖动考虑周期，而微光考虑信号的最大峰值幅度。

一旦建立了上述参数，抖动和闪烁由下式得到[35]。

抖动(绝对值)是基本周期的周期间变化(即连续周期之间的平均绝对差值):

在哪里T_我持续时间是我周期和N是循环的总次数。如果T_我或T_我₁是在地板和天花板期之外，还是或大于最大周期因子不算在总和里，和N降低1(如果N如果结果小于2，则计算结果变为“未定义”)。

抖动(相对)是连续周期之间的平均绝对差除以平均周期。它以百分比表示:

抖动(rap)被定义为相对平均扰动——一个周期与这个周期及其相邻两个周期的平均值之间的平均绝对差，除以平均周期:

Jitter(ppq5)是五点周期摄动商，计算方法是一个周期与它和它的四个近邻的平均值之间的平均绝对差，除以平均周期:

微光(dB)表示为峰间振幅的可变性，定义为每个周期的最大正振幅与最大负振幅之差(分贝)，即连续周期振幅之差以10为基数的平均绝对对数乘以20:

在哪里一个_我提取的峰间振幅数据和N是提取的基本周期的个数。

闪烁(相对)定义为连续周期振幅之间的平均绝对差，除以平均振幅，以百分比表示:

微光(apq3)为三点振幅摄动商。这是一个周期的振幅与相邻周期振幅的平均值之间的平均绝对差，除以平均振幅:

微光(apq5)定义为五点振幅摄动商，或一个周期的振幅与该周期与它最近的四个相邻周期的振幅的平均值之间的平均绝对差，除以平均振幅:

Shimmer(apq11)表示为11点振幅摄动商，即一个周期的振幅与该周期及其十个最近邻的振幅的平均值之间的平均绝对差，除以平均振幅:

HNR通过量化周期(谐波)和非周期(噪声)分量之间的比率来指示语音信号的整体周期性。HNR的计算采用Praat [35]，基于归一化自相关函数检测的第二最大值，其应用于下式:

在哪里r(t)为归一化自相关函数，r(t=τ)是归一化自相关和的第二个局部最大值τ是信号的周期。

时间步长(定义为测量间隔)设为0.01 s，基音下限设为60 Hz，沉默阈值设为0.1(相对于全局最大振幅，不包含高于该阈值的振幅的时间步长被认为是沉默的)，每个窗口的周期数设为4.5，由Boersma和Weenink [35]。

本研究采用HNR的均值和标准差。

为了获得基音，Praat[]中实现的自相关方法35]被使用。男性和女性的基音下限分别设置为60 Hz和100 Hz，男性和女性的基音上限分别设置为300 Hz和500 Hz。根据Praat [35]，分别为0.0075 s和0.0125 s。沥青天花板以上和沥青地板以下的沥青没有估计。基音的均值和标准差以及最小和最大基音是由基音度量获得的特征。

文本框1展示了这个过程，灵感来自Praat [35]，用于获得上述特征。全文可在网上免费下载[36]。

获取用于声学分析的特征(抖动、闪烁、谐波噪声比和音高)的算法。

每个元音的每个单独的发音都被剪掉并匿名标记，以定义语音片段的边界。
设置分析可选参数的值:
- 可选参数，获取抖动和闪烁参数
  - 底音:女性100hz，男性60hz
  - 音调上限:女性500赫兹，男性300赫兹
  - 周期下限:0.002 s
  - 周期上限:0.025秒
  - 最大周期因子:1.3
- 可选参数，获取HNR
  - 时间步长:0.01秒
  - 基音地板:60hz
  - 沉默阈值:0.1
  - 每个窗口的周期数:4.5
- 可选参数获取音高
  - 底音:女性100hz，男性60hz
  - 音调上限:女性500赫兹，男性300赫兹
  - 时间步长:女性0.0075秒，男性0.0125秒
计算抖动和闪烁特征-抖动(绝对)，抖动(相对)，抖动(rap)，抖动(ppq5)，闪烁(dB)，闪烁(相对)，闪烁(apq3)，闪烁(apq5)，闪烁(apq11) -使用所建立的配置参数，然后获得每个元音这些参数的平均值。
利用所建立的配置参数计算HNR，得到均值(HNR[mean])和标准差(HNR[SD])值。
使用已建立的配置参数计算螺距，然后获得平均值(pitch[mean])、标准差(pitch[SD])、最小值(pitch[min])和最大值(pitch[max])值。
获取计算出的15个特征的数据集。

文本框1。获取用于声学分析的特征(抖动、闪烁、谐波噪声比和音高)的算法。

主成分分析

PCA技术[37]，一种排序特征提取方法，在R [38]使用Stats包[38]。采用主成分分析法(PCA)将原始数据集分解为主成分(PCs)，得到另一个数据集，该数据集是线性独立的，因此不相关。通过奇异值分解(SVD) [39]。

在应用PCA之前，考虑到对照受试者的平均年龄比ALS患者小大约12岁，我们使用对照受试者的数据，并像Norel等人的研究一样对所有参与者进行校正，从而消除了年龄的影响[21]。我们对提取的健康人及其年龄的特征进行线性拟合。然后，通过将参与者的年龄乘以线性拟合得到的斜率参数，得到每个参与者的每个单个特征的“正常老化”。最后，将计算得到的“正常老化”从特征中去除。然后，通过减去平均值并将年龄调整特征居中于0得到标准化数据集。

然后，对标准化数据集进行奇异值分解，得到分解式:,在那里X是标准化数据集的矩阵，U是一个酉矩阵吗年代对角矩阵是奇异值吗年代_我。个人电脑是由我们,V包含该空间中捕获矩阵特征的最大方差的方向X。得到的pc数与原始特征数相同，所有pc的总方差等于所有特征之间的总方差。因此，保留了原始数据中包含的所有信息。

从PCA中，获得了一个双标图，用于对数据进行视觉评估[40]。双标图使我们能够可视化数据集结构，识别数据变异性和聚类参与者，并显示分析特征的方差和相关性。然后，选择解释几乎100%方差的前8个pc来拟合分类模型。

监督模式

本研究的参与者分为三个不同的组:对照组(n=18)， ALS伴球受累患者(n=14)和ALS伴球不受累患者(n=31)。如果受试者是对照组，则每个受试者被适当地标记为对照组(C);如果受试者是诊断为球囊受累的ALS (B);如果受试者是诊断为无球囊受累的ALS，则每个受试者被适当地标记为无球囊ALS (NB)。此外，ALS (A)标签被添加到每个ALS患者，无论是否累及球。

建立监督模型，通过比较它们之间的四个标记组来获得预测。文本框2总结了用于创建适当分类模型的过程。

用于创建分类模型的算法。

建立数据集:根据五个西班牙语元音的发音特征和累及球茎的分类属性，将每个参与者分为C(对照组)、B(肌萎缩侧索硬化症伴球茎受累)或NB(无球茎受累的ALS)。
在计算特定元音的闪音(apq11)时，很少有参与者发现“未定义”值。它们是通过计算同一参与者发出的其他元音的该参数的平均值来处理的。
年龄的影响从数据集中去除。
声学分析得到的特征值以零为中心，按下式进行缩放(x_我- - - - - -） /σ,在那里x_我是特征向量，是均值，和σ是标准差。在计算主成分分析(PCA)之前，进行缩放以处理高度可变的特征大小。
计算主成分分析，并创建一个新的数据集与前八个主要成分(pc)。
设置一个随机种子来生成相同的随机数序列。它们被用来将数据集分成块并随机排列数据集。随机种子使实验具有可重复性和分类器模型的可比性。
采用10倍交叉验证技术，重复10次试验。数据集被分成十个大小大致相同的连续块。然后，进行10个训练测试实验，方法如下:每个数据块对分类器进行测试，对剩余的数据块进行训练，通过使组分布相等进行上采样替换;实验重复进行了10次试验，每次试验从数据集的随机排列开始。
建立了两种不同的分类阈值;50%和95%(更严格)。分类阈值是将定量测试结果二分类为简单二元决策的值，将高于或等于阈值的值视为正值，将低于阈值的值视为负值。

文本框2。用于创建分类模型的算法。

几个监督分类模型在R [38]来衡量分类性能。该分类模型与前8台pc相匹配，几乎可以解释100%的数据变异性。最后，在R中使用插入符号包[41得出合适的结论。对训练数据采用了带替换的上采样技术，使组分布相等，以处理不平衡的数据集，这可能会使分类模型产生偏差[42]。

第一个使用的分类器是SVM，这是一个强大的、基于核的分类范式。支持向量机使用e1071 [43]。我们使用c -支持向量分类[44]和一个通过tune函数优化的线性核，将0.0001、0.0005、0.001、0.01、0.1和1的值赋给C参数，该参数控制低训练误差和低测试误差之间的权衡。当C参数值为1时，性能最好，因此选择此SVM模型。

接下来，使用RSNNS包实现了一个具有自适应学习率的反向传播技术训练的经典神经网络[45]。经过多次试验确定了神经网络的结构，我们实现了一个包含三个神经元的隐藏层，因为它表现出了最好的性能。激活函数(传递函数)为双曲正切s型函数。

LDA是使用MASS软件包实施的[46]。它估计训练集中的均值和方差，计算协方差矩阵，捕捉组间协方差，通过估计测试集属于每一组的概率进行预测。

LR采用高斯广义线性模型，应用Stats包实现[38]用于二项分布。使用logit链接函数来模拟“成功”的概率。logit链接的目的是采用协变量值的线性组合，并将这些值转换为概率尺度。

基于贝叶斯定理的标准NaB是使用e1071包实现的[43]。

最后，使用randomForest包实现RF分类器[47有500个决策树预测器。对于每个分类问题，使用插入符号包[]中包含的训练函数来优化最优的mtry(表示在每个决策树上随机分布的pc数量的参数)。41]。每个决策树独立执行分类，RF将每个树预测器分类计算为一个“投票”。由所有树预测器计算的大多数投票决定了总体RF预测。

这些实现的代码可在网上免费获得[48]。

性能指标

评估分类算法有几个指标[49]。这些指标的分析及其重要性必须正确解释，以评估这些算法。

在分类任务中有四种可能的结果。如果样本呈阳性并被分类为阳性，则计数为真阳性(TP)，当其被分类为阴性时，则认为是假阴性(FN)。如果样本为阴性，并被分类为阴性或阳性，则分别认为是真阴性(TN)或假阳性(FP)。在此基础上，使用如下所示的三个性能指标来评估分类模型的性能。

准确率:正确分类样本之间的比率。

灵敏度:正确分类的阳性样本占阳性样本总数的比例。

特异性:正确分类的阴性样本占阴性样本总数的比例。

最后，配对Bonferroni-corrected Studentt测试(50]来评价指标结果的统计学意义。为了拒绝原假设，这需要考虑分类器的性能没有差异，显著性水平为α=。所有试验均为0.05。的P通过执行值低于α=的测试获得的值。05拒绝零假设。

首先，对得到的特征分布进行检验。然后，进行主成分分析，并对所研究的监督模型进行评价。

数据探索

本研究共获得15个特征。这些特征是抖动(绝对)，抖动(相对)，抖动(rap)，抖动(ppq5)，闪烁(相对)，闪烁(dB)，闪烁(apq3)，闪烁(apq5)，闪烁(apq11)，音高(平均)，音高(SD)，音高(最小)，音高(最大)，HNR(平均)，HNR(SD)。

图1图中为对照(C)组、伴有延髓受累的ALS患者(B)组和未伴延髓受累的ALS患者(NB)组特征的方框图。B组的平均值高于C和NB组。NB组的均值位于C组和B组均值的中间。相反，B组的平均HNR(mean)和HNR(SD)均最低。还观察了三组间标准差的差异。总的来说，B组得到的特征标准差最高。

图1所示。按组划分特征的箱形图。B:累及球部的肌萎缩侧索硬化症(ALS)患者;C:对照组;HNR:谐波噪声比;注:未累及球部的ALS患者。

主成分分析

使用包含从所有参与者提取的15个特征的数据集进行主成分分析。图2显示相关的PCA双标图。两个轴表示第一个(Dim1)和第二个(Dim2) pc。双标图使用对角化方法以图形方式显示其维度近似[51,52]。双标图的解释包括观察特征向量的长度和方向、数据可变性和参与者的聚类。

可以观察到，相当大比例的方差(70.1%)的闪烁，抖动，音高，和HNR被解释。任意两个矢量特征之间的相对角度表示它们的两两相关性。向量之间距离越近(<90°)，相关性越高。当向量垂直(角度为90°或270°)时，变量的相关性很小或为零。角度接近0°或180°(共线向量)分别表示相关性为1或-1。因此，在这种情况下，闪烁和抖动显示出强烈的正相关。另一个重要的观察反映在图2是组之间的空间接近度以及与特征集的空间接近度。B群在闪烁和抖动矢量上的投影落在矢量特征的左边。这意味着被标记为B组的受试者在这些特征上的平均值高于其他组的平均值。相反，C群在这些变量上的投影落在相反的一边。此外，当投影到闪烁和抖动上时，C和B组彼此之间的距离更远。这表明闪烁和抖动特征是B组和C组参与者分类的最重要特征。

NB组受试者的投射需要特别注意。虽然这些受试者的投影相对于C组具有空间接近性，但他们的变异性更高，超出了对应于B组的灰色圆圈。

这表明NB组中一些受试者的某些特征，特别是闪烁和抖动，与B组的特征有相似的投射。

为了拟合模型，如下一节详细解释的那样，选择前8个pc是为了降低维数，但保留几乎100%的可变性，如下所示图3。

监督模型评价

前8名个人电脑被选中。然后，将每个分类模型应用到这些pc上。因此，与单独应用分类模型相比，获得了更好的结果。由于分类方法对分析的贡献有限，因此没有单独显示分类方法的结果。

表1和2显示在分类阈值分别为50%和95%的情况下，对四种情况测试的监督模型的分类性能(准确性、灵敏度和特异性指标)。

表1。分类阈值为50%的监督模型的分类性能。

		分类性能(%)
模型和指标		C^一个和B^b	C vs NB^c	B vs NB	C与ALS^d
随机森林
	精度	93.6	91.1	75.5	90.3
	灵敏度	91.1	92.1	55.7	92.1
	特异性	95.5	89.6	88.4	85.7
朴素贝叶斯
	精度	91.0	87.9	75.4	90.3
	灵敏度	89.2	86.7	62.7	92.1
	特异性	93.2	90.0	81.2	85.7
逻辑回归
	精度	93.8	91.4	70.1	91.1
	灵敏度	92.5	89.1	62.2	89.6
	特异性	94.8	95.6	73.5	93.3
线性判别分析
	精度	94.3	91.6	71.2	91.6
	灵敏度	95.6	87.4	61.8	88.3
	特异性	90.0	98.8	75.4	87.8
神经网络
	精度	94.8	92.5	70.4	92.2
	灵敏度	91.7	90.3	60.0	90.8
	特异性	97.2	96.4	75.2	95.6
支持向量机
	精度	95.8	91.5	69.9	91.6
	灵敏度	91.4	88.4	59.4	88.9
	特异性	99.3	97.0	74.6	98.2

^一个C:对照组。

^bB:累及球部的肌萎缩侧索硬化症(ALS)患者。

^c注:未累及球部的ALS患者。

^d渐冻症:所有渐冻症患者。

表2。分类阈值为95%的监督模型的分类性能。

		分类性能(%)
模型和指标		C^一个和B^b	C vs NB^c	B vs NB	C与ALS^d
随机森林
	精度	58.3	56.1	68.8	75.1
	灵敏度	4．8	30.4	0.0	65.6
	特异性	100.0	100.0	100.0	98.8
朴素贝叶斯
	精度	82.3	68.8	72.8	75.1
	灵敏度	64.7	54.6	15.8	65.6
	特异性	96.1	93.3	98.6	98.8
逻辑回归
	精度	92.8	77.7	74.1	76.0
	灵敏度	84.8	65.1	16.7	66.4
	特异性	99.0	99.6	100.0	100.0
线性判别分析
	精度	88.1	70.6	71.7	71.1
	灵敏度	72.7	53.5	0．9	59.5
	特异性	100.0	100.0	100.0	100.0
神经网络
	精度	92.6	84.8	73.1	86.8
	灵敏度	83.2	76.1	20.5	81.6
	特异性	100.0	100.0	96.8	99.8
支持向量机
	精度	86.3	71.1	70.7	71.1
	灵敏度	68.8	54.3	6.1	59.4
	特异性	100.0	100.0	100.0	100.0

^一个C:对照组。

^bB:累及球部的肌萎缩侧索硬化症(ALS)患者。

^c注:未累及球部的ALS患者。

^d渐冻症:所有渐冻症患者。

在C组与B组的对比中，将分类阈值设置为50%，结果表明所有分类器都具有良好的分类性能。SVM的准确率最高，为95.8%。显著性检验，报告于多媒体附录2，除了LDA的准确率(94.3%)与SVM模型非常接近外，SVM与其他模型之间的差异具有统计学意义。神经网络也显示出非常好的结果(准确率为94.8%)。

C组与NB组、C组与所有ALS患者的行为相似。在这些病例中，神经网络是最好的模型(C vs NB 92.5%， C vs ALS 92.2%)。同时，B组与NB组相比，表现普遍较差。RF虽然准确率最高(75.5%)，但特异性，尤其是敏感性较以往有明显下降。一般来说，模型性能以95%的阈值下降。在C组和B组中，分类模型的准确性(表2)比分类阈值设为50%时更差。LR的准确率最高(92.8%)。LDA、SVM和NaB的准确率分别为88.1%、86.3%和82.3%。RF似乎不是这个阈值的好模型，准确率为58.3%。

C组与NB组、C组与ALS组相比，结果较低。神经网络表现最好，准确率分别为84.8%和86.8%。

在95%的阈值下，所有情况下的灵敏度性能都下降了，特别是B组与NB组相比，LR获得了最佳性能，准确率为74.1%，但灵敏度为16.7%。

主要研究结果

本研究有两个目标:(1)设计一种通过西班牙语发音元音的声学参数有效诊断球受累的方法;(2)证明自动诊断球受累的性能优于人工诊断。这是基于对所有参与者的五个西班牙元音片段的准确声学分析。共提取了15个声学特征:抖动(absolute)、抖动(relative)、抖动(rap)、抖动(ppq5)、闪烁(relative)、闪烁(dB)、闪烁(apq3)、闪烁(apq5)、闪烁(apq11)、基音(mean)、基音(SD)、基音(min)、基音(max)、HNR(mean)、HNR(SD)。然后，得到这些特征的pc，拟合临床诊断中最常用的监督分类模型:SVM、NN、LDA、LR、NaB和RF。最后，对模型的性能进行了比较。

该研究证明了通过从元音发音中获得的声学特征来自动检测ALS患者球受累的可行性。它还证实，正如Pattee等人所建议的那样，言语障碍是诊断球受累的最重要方面之一[33]。此外，可以使用自动工具在人类听力可感知之前检测到球受累。

从B组提取的语音特征与从C组提取的语音特征相比较，表明该分类模型在确定ALS患者的球受累方面表现最好。

C组与B组的准确率显示SVM的值为95.8%，分类阈值为50%。然而，当阈值提高到95%时，SVM的准确率下降(86.3%)，LR表现出最好的性能(准确率92.8%)。NN也显示出良好的准确率，为92.6%。这意味着NN和LR在寻找精度方面更健壮。

在这种情况下，获得的结果加强了使用监督模型和客观测量来诊断ALS患者球受累的可能性。SVM和LR模型分别在50%和95%阈值下提供了最好的性能。

NB组的球受累分析存在很大的不确定性。对于NN, C组相对于NB组和C组相对于分类阈值为50%的ALS组的准确率分别为92.5%和92.2%。这表明NB组提取的特征与C组有显著差异。较低的表现是意料之中的，因为被标记为C组和NB组的参与者应该有相似的语音表现。这可能表明NB组的一些参与者可能有球受累，但没有被正确诊断，因为他们声音中的扰动无法被人耳感知。或者，这可能仅仅是因为50%的分类阈值过于乐观。在95%的分类阈值下，C组与NB组相比，C组与ALS患者相比获得的结果更低。在两种情况下，神经网络的准确率分别为84.8%和86.8%，表现出最好的性能。

B组和C组的表现优于NB组和C组。尽管如此，与NB组相比，C组的模型出乎意料地表现优异，这仍然表明NB组的一些参与者可能有球受损伤。将分类阈值更改为95%使结果恶化，特别是敏感性，尽管这仍然很重要。

B组与NB组的案例表明，分类模型并没有像区分其他组那样区分B组和NB组参与者。50%阈值的准确率显示RF的最高性能(75.5%)，但模型在识别阳性病例方面存在困难。这可能是由于B组和NB组参与者的数据变化差异很小。95%阈值也发生了同样的情况:LR获得了最高的准确度(74.1%)，但灵敏度仅为16.7%。这些值与C组对B组的值相差甚远。这些结果也强化了NB组参与者被误诊的观点。

在比较C组和NB组时获得的良好模型性能支持了这些发现，并强调了使用客观测量来评估球受累的重要性。这证实了在数据探索和主成分分析中获得的结果，这些结果在结果一节中提出。

NB组在PCA双标图中的投影需要特别注意。虽然这些受试者的投影在空间上与C组接近，但他们的变异性更高，超出了B组对应的圆圈。这表明NB组部分患者的某些特征，特别是闪烁和抖动，与B组有相似的投射。这可能表明NB组的这些患者可能有球受累，但尚未被正确诊断，因为他们的声音的扰动仍然不能被人类听觉所感知。

图1还表明NB组患者的特征均值介于C组和B组的特征均值之间，从而证实了这些假设。

限制

本研究有一定的局限性。首先，在小样本量上使用机器学习使得很难充分评估研究结果的重要性。ALS是一种罕见的疾病，这在很大程度上影响了这项研究的样本量。在研究期间，14名ALS患者出现了球囊症状。这个群体的规模相对较小是因为ALS是一种非常异质性的疾病，并不是所有的ALS患者都表现出相同的症状。此外，对照受试者比ALS患者大约年轻12岁。声音质量会随着年龄的增长而变化，将年轻的对照受试者的声音与老年ALS患者的声音进行比较可能会引入额外的变化。虽然本研究中使用了上采样技术来纠正偏差，并应用年龄调整来纠正由于年龄差异而导致的音质变化，但在未来的研究中，有必要增加参与者的数量，特别是累及球的ALS患者和年龄较大的对照参与者，以得出明确的结论。

其次，手动在谱图上建立语音段边界的固有可变性使得可复制性具有挑战性。说话者的表达方式会有所不同，即使同一说话者在同一语境中也不会说出两种完全相同的话语。在本研究中，录制的语音按照方法部分中详细介绍的统一方法进行手动处理。自动仪器已经开发出来，但不幸的是，这些方法还不够精确，需要人工校正。

与前期工作比较

PCA双标图显示，闪烁和抖动是2-PC模型用于ALS分类的最重要特征;然而，他们也揭示了螺距和HNR参数是用于此目的的良好变量。这些结果与Vashkevich等人[25]，他们在ALS患者的抖动和闪烁方面表现出了显著的差异。Mekyska等人[19]和Teixeira等人[18他提到音调、抖动、闪烁和HNR值是描述病理声音最常见的特征。最后，Silbergleit等[8提示微光、抖动和HNR参数是ALS早期喉部恶化的敏感指标。

关于分类模型，Norel等[21]最近实现了SVM分类器来识别ALS患者是否存在语言障碍。他们在自然语境中识别声学语音特征，对男性分类的准确率达到79%(灵敏度78%，特异性76%)，对女性分类的准确率达到83%(灵敏度86%，特异性78%)。所使用的数据不是来自临床试验或人为研究，也不是在实验室条件下收集的。Wang等[9]使用声学特征并添加发音运动信息(来自舌头和嘴唇)实现SVM和NN。当仅使用声学数据拟合SVM时，总体精度略高于机会水平(50%)。加入关节运动信息后，准确率进一步提高到80.9%。使用神经网络的结果更有希望，仅使用声学特征获得的准确率为91.7%，并且在添加唇和舌头数据后提高到96.5%。增加运动测量显著提高了分类器的准确性，代价是包括更多的侵入性测量来获取数据。我们研究了仅通过分析患者的声音来优化检测ALS球受累准确性的方法。a等人[23]使用cnn对ALS患者和健康人产生的可理解语音进行分类。实验结果表明，该方法的灵敏度为76.9%，特异性为92.3%。Vashkevich等[25]进行LDA的准确率为90.7%，Suhas等[16]使用基于MFCCs的dnn自动检测ALS患者，准确率为92.2%。

从文献中提出的最广泛使用的特征开始，本文中用于自动检测球受损伤的分类模型(C组与B组)比其他作者使用的分类模型表现更好，特别是使用神经网络获得的分类模型(Wang等人[9])和基于mccf的dnn (Suhas等[16])。我们获得了有史以来最好的性能指标。这表明，将原始特征数据集分解为pc以获得另一个数据集，该数据集的数据(即pc)是线性独立的，因此不相关，从而提高了模型的性能。

结论

这篇论文表明，机器学习可能是一个合适的工具来帮助多学科临床团队诊断ALS。特别是，它可以帮助诊断受累的球。这项工作表明，从ALS患者的元音声学分析中提取的特征的准确分析可能用于早期检测球受累。这可以使用监督分类模型自动完成。通过对得到的特征进行先前的PCA处理，可以获得更好的性能。值得注意的是，在对ALS伴球受损伤受试者和对照受试者进行分类时，具有50%分类阈值的SVM的性能超过了其他作者，特别是Wang等[9]和Suhas等人[16]。

此外，可以使用自动工具在人类听力可感知之前检测到球受累。鉴于人类可能经常误诊这一缺陷，研究结果指出，获得客观措施以进行早期和更准确诊断的重要性。这直接回应了东北肌萎缩性侧索硬化症协会球球小组委员会最近发表的一份声明，该声明涉及基于目标的方法的必要性[53]。

未来的工作

未来的工作方向是鉴别ALS患者中未被错误诊断的球受累。将使用时频表示来检测患者在时频域中语音表现的可能偏差。将诊断为球受累的ALS患者和未诊断为球受累的ALS患者的声音分布进行比较，以检测两组之间的模式差异。这可以为区分可能被误诊的未确诊的ALS患者提供指示。此外，还设想通过增加样本量来改进语音数据库。

致谢

这项工作得到了Economía ministry of competitivad的支持，合同编号为2017-84553- c2 -2- r。Einar Meister的研究得到了欧洲区域发展基金通过爱沙尼亚研究卓越中心的支持。巴塞罗那Bellvitge大学医院的神经内科允许对其设施内参与者的声音进行录音。临床记录由卡洛斯·奥古斯托·萨拉查·塔拉维拉绘制。玛尔塔·富拉博士和玛丽亚·卡门·梅杰斯·贝尔蒙特博士对发出声音的过程提出了建议。

利益冲突

没有宣布。

‎

多媒体附录1

肌萎缩性侧索硬化症患者的临床记录摘要。

PDF档案(adobepdf档案)，37kb

‎

多媒体附录2

配对t检验与Bonferroni校正。

PDF档案(adobepdf档案)，55kb

Carmona C, Gómez P, Ferrer MA, Plamondon R, Londral A.关节运动检测肌萎缩侧索硬化症的几个参数研究。中国医学杂志2017年12月18日;4(1):038 [j]免费全文] [CrossRef］
刘建平，刘建平。肌萎缩性侧索硬化症患者构音障碍的研究进展。肌萎缩性侧索硬化症2010;11(1-2):4-15。［CrossRef] [Medline］
Makkonen T, Ruottinen H, Puhto R, Helminen M, Palmio J.肌萎缩侧索硬化症(ALS)患者出现球症状后言语功能减退。国际病毒学杂志，2018,33(2):385-392。［CrossRef] [Medline］
Tomik B, Krupinski J, Glodzik-Sobanska L, Bala-Slodowska M, Wszolek W, Kusiak M，等。肌萎缩侧索硬化症患者构音障碍的声学分析。中华神经科学杂志(英文版);1999;31(1):35-42。［CrossRef] [Medline］
Shellikeri S, Green JR, Kulkarni M, Rong P, Martino R, Zinman L，等。语言运动测量作为肌萎缩侧索硬化症患者球疾病的标志。[J]语言与听觉学报，2016;59(5):887-899 [J]免费全文] [CrossRef] [Medline］
李建军，李建军，李建军。肌萎缩性侧索硬化症并发构音障碍患者的元音特异性可理解性和声学模式。[J]语言与听觉，2019年1月30日;62(1):34-59。［CrossRef] [Medline］
卡彭特RJ，麦克唐纳TJ，霍华德FM。肌萎缩性侧索硬化症的耳鼻喉学表现。耳鼻喉科学1978;86(3):ORL479-ORL484。［CrossRef] [Medline］
刘国强，刘国强，刘国强。肌萎缩侧索硬化症患者声音的声学分析和感知正常的音质。[J] Voice 1997;11(2):222-231。［CrossRef] [Medline］
Wang J, Kothalkar PV, Kim M, Bandini A, Cao B, Yunusova Y，等。从语音声学和发音样本中自动预测ALS患者的可理解说话率。国际语言与病理杂志，2018,11 (6):669-679 [J]免费全文] [CrossRef] [Medline］
Chiaramonte R, Di Luciano C, Chiaramonte I, Serra A, Bonfiglio M.球型肌萎缩性侧索硬化症诊断的多学科临床方案。光学学报，2019;70(1):25-31 [j]免费全文] [CrossRef] [Medline］
王志强，王志强，王志强，Składzień J, Stręk P .肌萎缩性侧索硬化症患者声音质量异常的评价。神经退行性疾病2015;15(4):225-232。［CrossRef] [Medline］
杨志强，刘志强，刘志强，等。应用智能手机app识别和跟踪肌萎缩侧索硬化症(ALS)患者的语言能力下降。奥地利格拉茨;2019举办地点:Interspeech 2019;9月15 - 19;奥地利格拉茨。［CrossRef］
霍维茨-马丁R, Quatieri T, Lammert A.肌萎缩性侧索硬化症自动提取的形成峰轨迹与可理解性丧失和说话率下降的关系。2016年演讲地点:Interspeech 2016;9月16日;旧金山。［CrossRef］
荣鹏。ALS患者发音模式的参数化。2014年演讲地点:Interspeech 2014;9月18日;新加坡。
李建军，李建军，李建军，等。基于分形特征的构音障碍自动检测方法。2017年发表于:IEEE EMBS生物医学与健康信息学国际会议(BHI);2017;奥兰多，佛罗里达州。[CrossRef］
苏哈斯，帕特尔D，饶宁。基于语音自动分类的肌萎缩侧索硬化症患者语音任务和录音设备的比较。2019举办地点:Interspeech 2019;9月15 - 19;奥地利格拉茨。［CrossRef］
Frid A, Kantor A, Svechin D, Manevitz L.帕金森的诊断?年代d我年代ease from continuous speech using deep convolutional networks without manual selection of features. 2016 Presented at: IEEE International Conference on the Science of Electrical Engineering (ICSEE); 2016; Eilat, Israel. [CrossRef］
张建军，张建军，张建军。基于人工神经网络的语音分析方法。计算机学报，2017;21(1):19-26。［CrossRef］
Mekyska J, Janousova E, Gomez-Vilda P, Smekal Z, Rektorova I, Eliasova I，等。病理语音信号分析的鲁棒和复杂方法。神经计算2015年11月;167:94-111。［CrossRef］
刘建军，刘建军，刘建军，等。在临床试验中用传感器客观监测肌萎缩侧索硬化症患者症状:观察性研究。移动医疗Uhealth 2019 Dec 20;7(12):e13433 [j]免费全文] [CrossRef] [Medline］
Norel R, Pietrowicz M, Agurto C, Rishoni S, Cecchi G.声学分析检测肌萎缩侧索硬化症(ALS)。In: Interspeech 2018。2018年演讲地点:Interspeech 2018;9月2 - 6;海得拉巴,印度。［CrossRef］
荣平，Yunusova Y，王杰，Zinman L, Pattee GL, Berry JD，等。基于个体语音子系统退化预测肌萎缩侧索硬化症患者语音清晰度下降。PLoS One 2016;11(5):e0154971 [j]免费全文] [CrossRef] [Medline］
杨建军，杨建军，李建军，等。基于卷积神经网络的肌萎缩性侧索硬化症早期检测。2018年演讲地点:Interspeech 2018;9月2 - 6;海得拉巴,印度。［CrossRef］
王军，王军，王勇。基于机器分类的肌萎缩性侧索硬化症语音变化的早期识别。2019举办地点:Interspeech 2019;9月15 - 19;奥地利格拉茨。［CrossRef］
杨建军，杨建军，李建军，等。基于微扰和振动分析的球ALS检测方法。IEEE 2019信号处理:算法，架构，安排和应用(SPA);9月18 - 20;波兹南,波兰。［CrossRef］
主成分分析。编辑:洛夫里克·M。国际统计科学百科全书。柏林-海德堡:施普林格;2011:1094 - 1096。
张建军，张建军，张建军。气味生物特征识别技术的研究进展。基于知识的系统2013年11月52:279-289。［CrossRef］
赵伟，Chellappa R, Krishnaswamy A.人脸识别主成分判别分析。1998年发表于:第三届IEEE自动人脸和手势识别国际会议;4月14 - 16;日本奈良。［CrossRef］
李建军，李建军。Logistic回归理论与应用。霍博肯，新泽西州:约翰威利父子公司;2000.
Dingen D, van't Veer M, Houthuizen P, Mestrom EHJ, Korsten EH, Bouwman AR，等。回归探索者:逻辑回归模型与子群分析的互动探索。计算机工程学报，2019,25(1):464 - 467。［CrossRef］
张建军，张建军，张建军，人口健康计量研究联盟(PHMRC)。尸检分析的随机森林:使用临床诊断金标准的多地点验证研究。人口健康监测2011年8月04日;9:29 [免费全文] [CrossRef] [Medline］
Bermejo P, Gámez JA, Puerta JM。用朴素贝叶斯分类器加速增量包装器特征子集选择。基于知识的系统2014年1月55:140-147。［CrossRef］
Pattee GL, Plowman EK, Focht Garand KL, Costello J, Brooks BR, Berry JD, NEALS球小组委员会贡献成员。评估肌萎缩性侧索硬化症患者球功能障碍的临时最佳实践指南。肌肉神经学报，2019;59(5):531-536。［CrossRef] [Medline］
Audacity手册内容。无畏》2019。URL:https://manual.audacityteam.org/[2021-02-01]访问
莫尔图，史丹森，韦思，等。合作研究者授权的协商——服务使用者进行心理健康合作研究的经验。残障康复杂志，2012;34(19):1608-1616。［CrossRef] [Medline］
语音特征提取。阿尔贝托Tena。URL:https://github.com/atenad/greco[2021-02-01]访问
金世彬，陈文伟，蒋伟。基于主成分分析的多元非正态分布控制图。专家系统应用，2013,40(8):3044-3054。［CrossRef］
统计计算的R项目。URL:https://www.R-project.org/[2021-02-01]访问
哈斯蒂T, Tibshirani R，弗里德曼J.统计学习的要素:数据挖掘，推断和预测，第二版。柏林:施普林格;2009.
加布里埃尔KR，奥多罗夫CL。生物医学研究中的双标图。医学统计1990年5月;9(5):469-485。［CrossRef] [Medline］
库恩M.使用插入符号包构建预测模型。统计软件学报;2008;28(5):1-26。［CrossRef］
刘建军，刘建军。应用预测模型。纽约:b施普林格;2013.
概率论组统计系的多种职能。R包版本1。2019.URL:https://CRAN.R-project.org/package=e1071[2021-02-01]访问
Boser B, Guyon I, Vapnik V.一种最优边界分类器的训练算法。:计算机协会;1992年举办于:COLT'92;7月;宾夕法尼亚州匹兹堡，第144-152页。［CrossRef］
Bergmeir C, Benítez JM。使用Stuttgart神经网络模拟器的R中的神经网络:RSNNS。统计软件学报;2012;46(7):1-26。［CrossRef］
李建平，李建平。现代应用统计学与数理统计，第四版。美国:施普林格;2002.
刘建军，刘建军。随机森林分类与回归分析。生态学报，2002;2(3):18-22。
als患者球受累自动检测的监督分类模型。阿尔贝托Tena。URL:https://github.com/atenad/greco[2021-02-01]访问
Tharwat A.分类评估方法。2020年8月3日;提前出版[免费全文] [CrossRef］
李建军，李建军，李建军，等。基于模糊模糊理论的基准实验设计与分析。[J] .计算机学报，2005;14(3):675-699。［CrossRef］
矩阵的双标图显示及其在主成分分析中的应用。生物统计学58 1971;(3):453 - 467。［CrossRef］
昂德希尔LG。生态数据矩阵的两种图形显示方法。见:McLachlan A, Erasmus T，编辑。沙滩作为生态系统。多德雷赫特:施普林格;1983:433 - 439。
Plowman EK, Tabor LC, Wymer J, Pattee G.肌萎缩性侧索硬化症患者球功能障碍的评估:美国临床实践模式的调查。肌萎缩性侧索硬化症额颞叶变性2017年8月;18(5-6):351-357 [j]免费全文] [CrossRef] [Medline］

‎

肌萎缩性侧索硬化症:肌萎缩侧索硬化症

ALSFRS-R:ALS功能评定量表-修订版

有线电视新闻网:卷积神经网络

款:深度神经网络

FN:假阴性

外交政策:假阳性

曼:harmonics-to-noise比率

LDA:线性判别分析

LR:逻辑回归

MFCC:Mel频率倒谱系数

NaB:朴素贝叶斯

神经网络:神经网络

PC:主成分

主成分分析:主成分分析

射频:随机森林

圣言:奇异值分解

支持向量机:支持向量机

TN:真正的负

TP:真阳性

G·艾森巴赫编辑;提交11.09.20;E Toki, E Beneteau的同行评审;对作者12.10.20的评论;修订版本收到26.10.20;接受17.01.21;发表10.03.21

©Alberto Tena, Francec Claria, Francesc Solsona, Einar Meister, Monica Povedano。最初发表于JMIR医学信息学(http://medinform.www.mybigtv.com)， 2021年3月10日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到http://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

通过机器学习语音分析检测肌萎缩侧索硬化症患者的球茎受累:诊断决策支持发展研究

通过机器学习语音分析检测肌萎缩侧索硬化症患者的球茎受累:诊断决策支持发展研究

原始论文

通讯作者:

摘要

关键字

介绍

背景

相关工作

假设

方法

参与者

元音记录

特征提取

获取用于声学分析的特征(抖动、闪烁、谐波噪声比和音高)的算法。

主成分分析

监督模式

用于创建分类模型的算法。

性能指标

结果

数据探索

主成分分析

监督模型评价

讨论

主要研究结果

限制

与前期工作比较

结论

未来的工作

致谢

利益冲突

参考文献

缩写