JMIR老化-评估基于网络的阿尔茨海默氏症语音数据自动转录:转录比较和机器学习分析gydF4y2Ba

原始论文gydF4y2Ba

托马斯SoroskigydF4y2Ba^1gydF4y2Ba二元同步通信,gydF4y2Ba ；gydF4y2Ba
蒂亚戈·达·库尼亚·瓦斯科gydF4y2Ba^2gydF4y2Ba ；gydF4y2Ba
莎莉Newton-MasongydF4y2Ba^1gydF4y2Ba二元同步通信,gydF4y2Ba ；gydF4y2Ba
Saffrin劳gydF4y2Ba^2gydF4y2Ba二元同步通信,gydF4y2Ba ；gydF4y2Ba
凯特琳刘易斯gydF4y2Ba^1gydF4y2Ba,英航gydF4y2Ba ；gydF4y2Ba
阿HarisinghanigydF4y2Ba^2gydF4y2Ba二元同步通信,gydF4y2Ba ；gydF4y2Ba
马特奥里索gydF4y2Ba^2gydF4y2Ba，理学士，理学硕士gydF4y2Ba ；gydF4y2Ba
克里斯蒂娜ConatigydF4y2Ba^2gydF4y2Ba硕士、博士gydF4y2Ba ；gydF4y2Ba
加布里埃尔·穆雷gydF4y2Ba^3.gydF4y2Ba硕士、博士gydF4y2Ba ；gydF4y2Ba
朱塞佩CareninigydF4y2Ba^2gydF4y2Ba硕士、博士gydF4y2Ba ；gydF4y2Ba
塔利亚·菲尔德gydF4y2Ba^1gydF4y2Ba， MHSc, MDgydF4y2Ba ；gydF4y2Ba
Hyeju张成泽gydF4y2Ba^2gydF4y2Ba，硕士，博士gydF4y2Ba

^1gydF4y2Ba温哥华中风项目和神经内科，英属哥伦比亚大学医学院，温哥华，不列颠哥伦比亚省，加拿大gydF4y2Ba

^2gydF4y2Ba加拿大不列颠哥伦比亚大学，温哥华，理学院，计算机科学系gydF4y2Ba

^3.gydF4y2Ba计算学院，弗雷泽谷大学，阿伯茨福德，不列颠哥伦比亚省，加拿大gydF4y2Ba

通讯作者:gydF4y2Ba

张惠珠，硕士，博士gydF4y2Ba

计算机科学系gydF4y2Ba

理学院gydF4y2Ba

英属哥伦比亚大学gydF4y2Ba

201-2366 Main MallgydF4y2Ba

温哥华，BC, v6t1z4gydF4y2Ba

加拿大gydF4y2Ba

电话:1 604 822 3061gydF4y2Ba

电子邮件:gydF4y2Bahyejuj@cs.ubc.cagydF4y2Ba

背景:gydF4y2Ba用于医学研究的语音数据可以无创地大量收集。语音分析在诊断神经退行性疾病方面显示出前景。为了有效地利用语音数据，转录很重要，因为词汇内容中包含有价值的信息。人工转录虽然高度准确，但限制了潜在的可扩展性和与基于语言的筛选相关的成本节约。gydF4y2Ba

摘要目的:gydF4y2Ba为了更好地理解使用自动转录对神经退行性疾病的分类，即阿尔茨海默病(AD)、轻度认知障碍(MCI)或主观记忆抱怨(SMC)与健康对照，我们比较了自动生成的转录本与手动校正的转录本。gydF4y2Ba

方法:gydF4y2Ba我们招募了来自记忆诊所的个体(“患者”)，诊断为轻度至中度AD (n=44, 30%)， MCI (n=20, 13%)， SMC (n= 8,5%)，以及生活在社区的健康对照(n=77, 52%)。参与者被要求描述一幅标准化的图片，阅读一段文字，并回忆一段愉快的生活经历。我们通过检查转录置信度评分、转录错误率和机器学习分类准确性，将使用谷歌语音转文本软件生成的转录本与手动验证的转录本进行了比较。对于分类任务，使用了逻辑回归、高斯朴素贝叶斯和随机森林。gydF4y2Ba

结果:gydF4y2Ba转录软件的置信度得分较高(gydF4y2BaPgydF4y2Ba<.001)和较低的错误率(gydF4y2BaPgydF4y2Ba> 0.05)。使用人类验证转录本的分类模型显著(gydF4y2BaPgydF4y2Ba<.001)在两种自发语音任务中都优于自动生成的转录模型。这个比较显示在阅读任务上没有差异。手动向抄本添加暂停对分类性能没有影响。然而，手动纠正这两个自发语音任务可以显著提高机器学习模型的性能。gydF4y2Ba

结论:gydF4y2Ba我们发现，自动转录的语音数据可用于区分AD、MCI或SMC患者与对照组。我们建议使用人工验证步骤来改进自动抄本的性能，特别是对于自发的任务。此外，人工验证可以专注于纠正错误和为文稿添加标点符号。然而，不需要人工添加停顿，这可以简化人工验证步骤，从而更有效地处理大量语音数据。gydF4y2Ba

吉林大学学报(自然科学版);2010;5(3):33460gydF4y2Ba

doi: 10.2196/33460gydF4y2Ba

关键字gydF4y2Ba

阿尔茨海默病gydF4y2Ba；gydF4y2Ba 轻度认知障碍gydF4y2Ba；gydF4y2Ba 演讲gydF4y2Ba；gydF4y2Ba 自然语言处理gydF4y2Ba；gydF4y2Ba 语音识别软件gydF4y2Ba；gydF4y2Ba 机器学习gydF4y2Ba；gydF4y2Ba 神经退行性疾病gydF4y2Ba；gydF4y2Ba 转录软件gydF4y2Ba；gydF4y2Ba 内存gydF4y2Ba

早期识别患有阿尔茨海默病(AD)和轻度认知障碍(MCI)的个体有利于患者护理、家庭支持和卫生保健系统的资源规划[gydF4y2Ba1gydF4y2Ba］．在不可逆转的大脑变化发生之前，识别处于神经退行性疾病早期阶段的个体，也可能允许在最有效的时候使用疾病改善疗法[gydF4y2Ba2gydF4y2Ba］．gydF4y2Ba

语音分析有助于识别患有早期神经退行性疾病的个体，这是一种很有前途的策略，因为语音记录是非侵入性的，可扩展的，并且随着时间的推移很容易重复。这与目前筛查AD或MCI的方法形成对比，如核医学扫描或脊髓液分析，这些方法既昂贵又具有侵入性[gydF4y2Ba3.gydF4y2Ba］．自发或提示语音的简短样本可以通过电话或视频会议远程收集。迄今为止，语音和语言在大量旨在对AD或MCI进行分类的研究中显示出令人鼓舞的结果[gydF4y2Ba4gydF4y2Ba］．gydF4y2Ba

对于使用语音进行AD分类，转录是利用词汇数据中包含的丰富信息的关键步骤[gydF4y2Ba5gydF4y2Ba，gydF4y2Ba6gydF4y2Ba］．DementiaBank [gydF4y2Ba7gydF4y2Ba]是用于研究的最大的MCI和AD语音数据队列，完全是人工转录的。手动转录虽然非常准确，但吞吐量非常低(例如，每一分钟的音频需要4分钟的转录时间[gydF4y2Ba8gydF4y2Ba])，限制了MCI和AD基于语言筛查的潜在可扩展性和成本节约。因此，有一种趋势是自动预处理医学语音，而不是手动转录。gydF4y2Ba

迄今为止，一些研究小组仅使用转录软件自动生成的转录本来研究AD/MCI分类[gydF4y2Ba9gydF4y2Ba，gydF4y2Ba10gydF4y2Ba］．虽然自动转录允许高通量语音转录，每个样本的成本非常低，但这些系统的准确性可能会有所不同(在过去的工作中，从68%到87%不等)。gydF4y2Ba11gydF4y2Ba])，这可能会影响下游语言分析的表现[gydF4y2Ba12gydF4y2Ba］．此外，自动预处理对分类的影响尚未完全了解，应该在继续下游研究之前进行调查。gydF4y2Ba

为了更好地理解自动转录在AD/MCI分类中的使用，我们比较了从Google语音到文本的自动生成转录[gydF4y2Ba13gydF4y2Ba](“自动抄本”)和经过第二阶段手动更正的自动抄本(“手动更正的抄本”)。这些人工更正的记录被用作基础真相。gydF4y2Ba

具体地说，我们首先检查了转录软件中的置信度度量，用于转录来自记忆诊所患者和健康对照组的语音记录。其次，我们测量了自动抄本在单词级别上的准确性。第三，我们比较了机器学习模型的分类性能，使用的数据来自自动和手动校正的文本。基于这些结果，我们讨论了与痴呆分类背景下人工转录验证相关的准确性权衡，并提出了更有效的人工验证方法来提高自动生成转录本的性能。gydF4y2Ba

本研究旨在强调人类与自动处理转录的差异，以推动未来基于自动转录的研究。因此，我们将重点放在比较使用现有机器学习算法的转录方法上，而不是建立一个优于最先进模型的新模型。gydF4y2Ba

这项工作有四个主要贡献，解决了现有文献中的知识差距。首先，我们使用转录置信度、错误率和机器学习分类准确性3个指标来评估老年人AD/MCI分类数据集上的自动转录和手动转录。据我们所知，这种评估转录的方法以前没有使用过。gydF4y2Ba

其次，我们的研究是新颖的，因为我们正在探索自动转录在老年人队列中的稳健性，包括那些有认知障碍和痴呆的老年人。衰老过程包括声音和语言的变化(例如，老音症，找词困难)，这可能会影响自动转录。然而，先前对转录方法的研究仅集中在年轻或异质队列[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba14gydF4y2Ba］．据我们所知，这是对老年人队列中转录方法影响的首次调查。gydF4y2Ba

第三，根据评估结果，对如何使用自动抄写提出了切实可行的建议。这些建议将有助于研究人员更好地利用自动转录来构建基于自然语言处理(NLP)的筛选方法，使用大型数据集来检测AD/MCI或主观记忆抱怨(SMC)，这可能是MCI和AD的前驱状态[j]。gydF4y2Ba15gydF4y2Ba］．gydF4y2Ba

最后，虽然我们的结果是用AD/MCI数据集生成的，但我们的发现也可以外推到其他神经和精神疾病，在这些疾病中，语音分析被作为一种分类工具进行研究。这包括中风[gydF4y2Ba16gydF4y2Ba]、帕金森氏症[gydF4y2Ba17gydF4y2Ba]，脑震荡[gydF4y2Ba18gydF4y2Ba]，焦虑[gydF4y2Ba19gydF4y2Ba]，双相情感障碍[gydF4y2Ba20.gydF4y2Ba]、抑郁和自杀意念[gydF4y2Ba21gydF4y2Ba，gydF4y2Ba22gydF4y2Ba］．gydF4y2Ba

概述gydF4y2Ba

本研究包括3个主要阶段:(1)数据收集，(2)转录，(3)评估。我们的工作流程总结为gydF4y2Ba图1gydF4y2Ba。作为一项大型研究的一部分，我们研究了机器学习算法对记忆诊所患者与健康对照组的分类，我们从亚专科记忆诊所招募了临床诊断为轻度至中度AD、MCI或SMC(“患者”)的参与者，并从社区招募了健康志愿者对照组。参与者接受了一系列测试，包括描述波士顿失语症诊断检查中的“饼干盗窃”图片，一项包含国际阅读速度文本(IReST)六年级水平段落的阅读任务，以及叙述一段愉快的过去经历。他们的语音被记录下来，我们使用谷歌云语音到文本(STT)来自动转录语音数据。然后我们手动修正自动抄本中的错误。gydF4y2Ba

为了进行评估，我们首先汇总了软件提供的转录置信水平，以确定转录软件置信水平在患者和对照组之间是否存在差异。以人工校正的抄本为金标准，计算自动抄本的错误率。然后，我们比较了使用自动或手动校正转录本训练的机器学习模型在将转录本分类为属于“患者”与“对照组”方面的表现。gydF4y2Ba

数据收集gydF4y2Ba

招聘gydF4y2Ba

患者从加拿大不列颠哥伦比亚省的一家记忆诊所招募，并被诊断为AD、MCI或SMC。对照参与者从社区招募，并努力使患者参与者的年龄和性别匹配。所有参与者英语会话流利，可以进行自发对话，年龄在50岁或以上(平均68.8岁，标准差9.5岁)。如果临床患者在18个月内有精神药物变化或除SMC, MCI或AD以外的神经系统疾病，则排除在外。我们报告了来自72名记忆临床患者的数据，其中44名(30%)被诊断为轻中度AD, 20名(13%)被诊断为MCI, 8名(5%)被诊断为SMC(平均年龄71.9,SD 8.9岁)，以及77名(52%)健康志愿者(平均年龄65.7,SD 9.1岁)。gydF4y2Ba

诊断由专业临床医生使用标准护理指南。诊断过程包括认知测试、神经影像学、实验室数据、病史、体格检查和从病人身边的人那里收集的附带信息。gydF4y2Ba

语音样本采集gydF4y2Ba

参与者接受了10分钟的电脑电池测试。他们被要求在录音的同时完成3个语音任务。参与者描述了窃取Cookie的照片[gydF4y2Ba23gydF4y2Ba]，阅读IReST的标准段落，回忆一段愉快的过去。所有的任务都是用英语完成的。在这些自发的语音任务中，使用罗技C922x ProStream网络摄像头录制音频。Cookie盗窃图片描述任务是一种经过验证的自发语音任务，广泛用于AD/MCI分类的前期工作[gydF4y2Ba6gydF4y2Ba，gydF4y2Ba24gydF4y2Ba-gydF4y2Ba26gydF4y2Ba］．这项任务也被用于预测认知正常个体未来患阿尔茨海默病的风险[gydF4y2Ba27gydF4y2Ba］．gydF4y2Ba

在阅读任务中，从IReST中选择了一段文字，IReST是一个短段落(<200字)的集合，设计用于六年级的阅读水平[gydF4y2Ba28gydF4y2Ba］．为了重现自然的阅读环境，如书籍或报纸，整个段落同时显示在屏幕上，而不是像其他一些调查那样单独显示每个句子[gydF4y2Ba29gydF4y2Ba］．在最后一项任务中，参与者被要求描述一段愉快的过去经历(“经历描述任务”)。在开始任务之前，研究人员给了参与者几个例子，比如他们的第一只宠物，他们是如何认识最好的朋友的，或者他们去过的地方。gydF4y2Ba

自动转录gydF4y2Ba

在演讲任务之后，参与者的音频数据被标记为唯一的匿名标识符，并转换为波形音频文件格式。接下来，参与者的音频被上传到Google Cloud STT平台，使用美式英语和16000 Hz设置，启用单词级时间戳，以输出自动抄本。gydF4y2Ba

每个转录出来的单词都被标记为与某个特定任务有关，或者与所有任务无关。在下游实验中，在任务之外说的话被删除。gydF4y2Ba

人类转录纠正gydF4y2Ba

自动转录文件生成后，人工转录员听取录制的音频文件，并根据录制的音频对转录文件进行手动更正。手动抄写包括3个步骤:修正抄写错误，添加标点符号，添加填充停顿和静默停顿注释。gydF4y2Ba

第一步，包括修复转录错误gydF4y2Ba，gydF4y2Ba人工转录员手动替换错误转录的单词(例如，将“cookie far”更改为“cookie jar”)，插入遗漏的单词(例如，将“cookie”更改为“cookie jar”)，并删除额外的单词(例如，将“cookie key jar”更改为“cookie jar”)。gydF4y2Ba

第二步是添加标点符号。虽然Google STT添加了标点符号，但这是非常罕见的，一些转录本只有0个自动添加的标点符号。由于NLP预处理(例如解析)受益于完全形成的句子，人类转录员手动添加标点符号(例如，“。”、“!和“?”)。gydF4y2Ba

对于第三步，它包括添加填充暂停和静默暂停注释gydF4y2Ba，gydF4y2Ba人工抄写员手动添加填充停顿和沉默停顿。停顿被认为是任何“呃”或“嗯”的发音。无论停顿的长度如何，填充停顿都被一致地转录为“uh”或“um”。无声停顿被特别标记为“[pause]”，以区别于“pause”这个词。无声停顿被认为是讲话中任何0.25秒或更长时间的中断或沉默，根据Goldman-Eisler [gydF4y2Ba30.gydF4y2Ba]和Park [gydF4y2Ba31gydF4y2Ba］．参与者不说话但不沉默的情况不会被标记为停顿(例如，咳嗽或笑)。停顿的持续时间没有区别。gydF4y2Ba

图2gydF4y2Ba总结转录过程。使用Google Cloud STT转录声学数据以生成“自动转录”。然后，人工转录员根据录音固定口语单词并添加标点符号，以生成“没有停顿的手动更正文稿”。最后，人工转录员手动添加填充停顿和沉默停顿，以生成“手动更正的转录”数据集。gydF4y2Ba

伦理批准gydF4y2Ba

本研究已获不列颠哥伦比亚大学临床研究伦理委员会批准(H17-02803)。所有参与者在参与本研究前都提供了书面知情同意书。患者和对照组的基线人口学特征总结于gydF4y2Ba多媒体附录1gydF4y2Ba。gydF4y2Ba

评价gydF4y2Ba

转录的信心gydF4y2Ba

对于给定的音频片段，Google STT输出转录的单词和0到1之间的置信水平。这是通过汇总分配给音频中每个单词的可能性值来计算的。数字越高，表示单词越有可能被准确地转录出来。我们使用这些置信水平来确定转录软件的置信水平是否在患者和对照组之间有所不同，并确定患者语音是否比对照组语音更难转录。gydF4y2Ba

错误率评估gydF4y2Ba

为了检查自动抄本的错误率，我们将其与没有停顿的手动更正抄本进行了比较。我们选择不包括停顿，因为自动转录根本不转录停顿;因此，不表示暂停不会被认为是错误。gydF4y2Ba

我们计算了转录准确性的标准测量，包括单词错误率(WER)和匹配错误率(MER) [gydF4y2Ba32gydF4y2Ba]，使用Python包JiWER (v2.1.0, Vassen [gydF4y2Ba33gydF4y2Ba])。这些指标考虑到在手动更正的转录本中替换(例如，“cookie far”到“cookie jar”)、删除(例如，“cookie key jar”到“cookie jar”)和插入(例如，“cookie”到“cookie jar”)的数量。gydF4y2Ba

WER表示输入字数的错误率。计算方法如下:gydF4y2Ba

WER对插入和删除的权重并不相等。例如，含有30个插入错误的6个单词的转录本的WER值为5，而含有30个删除错误的36个单词的转录本的WER值为0.83。gydF4y2Ba

MER表示给定单词匹配不正确的概率，计算方法如下:gydF4y2Ba

例如，MER为0.25意味着手动更正的抄本和自动抄本之间的4个单词匹配中有1个是错误的。MER的计算方法与WER类似。然而，MER会考虑自动和手动编辑的转录本之间的最大字数，而不是只考虑自动转录本中的字数。MER也同样重视插入和删除。gydF4y2Ba

计算每个转录本的WER和MER。然后，计算患者和对照组以及每个任务(例如，图片描述、阅读和经验描述任务)的这些值的平均值和标准差。gydF4y2Ba

机器学习分类gydF4y2Ba

为了确定人工校正是否会影响机器学习对患者和对照组的分类，我们使用自动和手动校正的转录数据集进行了实验。gydF4y2Ba

表1gydF4y2Ba按任务概述整个特性集。对于图片描述任务和经验描述任务，我们根据之前的工作中基于文本的特征从成绩单中提取特征[gydF4y2Ba6gydF4y2Ba，gydF4y2Ba34gydF4y2Ba］．这些特征是基于语法规则、词汇或心理语言学。对于经验描述任务，我们没有包括用于图片描述任务的信息单元，每个信息单元对应于Cookie Theft图片中的视觉特征，例如Cookie、jar、boy或girl。gydF4y2Ba

表1。机器学习分类模型的特征。gydF4y2Ba

任务gydF4y2Ba	特征组和每组中的特征数量(n)gydF4y2Ba
图片描述gydF4y2Ba	Cookie窃取图像信息单元(13)gydF4y2Ba ‎gydF4y2Ba 词性(15)，上下文无关语法规则(44)，句法复杂性(24)，词汇丰富度(4)，心理语言学(5)，重复性(5)gydF4y2Ba ‎gydF4y2Ba
阅读gydF4y2Ba	音节数(1)，停顿数(1)gydF4y2Ba^{一个gydF4y2Ba}，总时长(1)，总说话时间(1)，说话时间占比(1)，说话速度(1)，平均音节时长(1)，每音节停顿(1)gydF4y2Ba^{一个gydF4y2Ba}，暂停率(1)gydF4y2Ba^{一个gydF4y2Ba}，暂停时长(3)gydF4y2Ba^{一个gydF4y2Ba} ‎gydF4y2Ba
经验描述gydF4y2Ba	词性(15)，上下文无关语法规则(44)，句法复杂性(24)，词汇丰富度(4)，心理语言学(5)，重复性(5)gydF4y2Ba ‎gydF4y2Ba

^{一个gydF4y2Ba}这些特征是使用声学数据和文本数据计算的，也受到暂停检测方法的影响(即声学与文本数据)。gydF4y2Ba

对于阅读任务，我们根据Fraser等人的工作使用了12个特定于阅读任务的特征[gydF4y2Ba35gydF4y2Ba］．从阅读任务数据中提取文本特征可能是违反直觉的，因为每个参与者都阅读相同的提示。然而，抄本可能包含重复的单词、读错的单词或填充的停顿，使抄本的文本特征具有潜在的信息。由于自动抄本不包含暂停信息，我们首先通过使用声学数据来检测未填充的暂停，比较自动抄本和手动更正的抄本。作为阅读任务的额外比较，我们比较了从音频中检测到的未填充暂停和在手动更正的抄本中注释的未填充暂停，以确定手动向抄本中添加暂停是否对阅读任务有用。gydF4y2Ba

为了解析文本数据和标记词性，我们使用了斯坦福CoreNLP [gydF4y2Ba36gydF4y2Ba］．使用MRC数据库生成心理语言特征[gydF4y2Ba37gydF4y2Ba]，提供英语单词的具体性、熟悉性和可想象性分数。使用pydub (v0.25.1 [gydF4y2Ba38gydF4y2Ba])，一个Python音频处理包。使用syllable (v1.0.3 [gydF4y2Ba39gydF4y2Ba])，一个Python包。gydF4y2Ba

基于这些特征，我们进行了二元分类，以区分患者和对照组。由于数据的大小，我们选择执行二值分类。精细分类(MCI和SMC)的数据样本数量太少，无法进行多类分类。为了研究人工校正的有效性，我们首先比较了自动和手动校正转录本的性能。为了确定暂停注释的重要性，我们比较了有暂停和没有暂停的手动更正文稿的性能。gydF4y2Ba

我们测试了3种分类算法，这些算法在之前的痴呆症分类工作中表现最好[gydF4y2Ba40gydF4y2Ba]:逻辑回归(LR)、随机森林(RF)和高斯朴素贝叶斯(GNB)。此外，我们使用来自变压器的双向编码器表示(BERT)测试了端到端微调预训练模型[gydF4y2Ba41gydF4y2Ba]进行图片描述和体验描述任务。请注意，我们没有为阅读任务尝试BERT模型，因为参与者阅读的是相同的文本。我们使用了Python包scikit-learn (v0.19.1 [gydF4y2Ba42gydF4y2Ba])进行分类。我们使用了分层的10倍交叉验证方法，并用不同的分层分裂重复该过程共10次，每次都产生一个唯一的随机种子。我们报告的分类性能的面积下的接受者工作特征曲线(AUROC)。AUROC是在不同阈值设置下的分类评估指标，通常用于评估诊断准确性[gydF4y2Ba43gydF4y2Ba］．性能指标在10次折叠和10次运行中取平均值。为了去除高度两两相关的特征和与标签相关性较差的特征，我们进行了相关特征选择[gydF4y2Ba44gydF4y2Ba］．高相关特征定义为Pearson相关系数大于0.85，低相关特征定义为Pearson相关系数小于0.20。gydF4y2Ba

我们对模型结果进行了统计分析，以确定不同的转录数据集是否会导致模型性能的显著变化。对于给定任务的每个分类算法，我们运行一个双面gydF4y2BatgydF4y2Ba-使用零假设进行检验，即自动和手动校正的转录本的平均AUROC没有差异。gydF4y2Ba

转录置信结果gydF4y2Ba

谷歌置信度结果显示在gydF4y2Ba图3gydF4y2Ba。一般来说，Google STT在转录来自控件的音频时产生更高的置信度。例如，在阅读任务中，对照组的平均置信水平为0.94 (SD 0.05)，而患者的平均置信水平为0.91 (SD 0.07)。在阅读和经历描述任务中，对照组的信心水平明显高于患者。gydF4y2Ba

图3。谷歌语音到文本的信心结果。误差条表示标准差。*代表gydF4y2BaPgydF4y2Ba<。001，计算公式为gydF4y2BatgydF4y2Ba以及。gydF4y2Ba

错误率评估结果gydF4y2Ba

图4gydF4y2Ba显示错误率结果。一般来说，自动转录在转录对照语音时的错误率低于患者语音，这可以从平均WER和MER较低的结果中看出。gydF4y2Ba

阅读任务总体上是最准确的，对照组的平均MER为0.15 (SD 0.10)，患者的平均MER为0.22 (SD 0.19)。这可能是因为当人们被要求大声朗读一篇文章时，他们倾向于发音清晰。WER和MER的结果大体相似，表明插入错误率没有不成比例的高。换句话说，与删除或替换单词相比，手动更正并不涉及更多的单词添加。gydF4y2Ba

与阅读和经验描述任务相比，图片描述任务的总体错误率最高。这表明更多的人工校正或较差的准确性自动转录，但目前尚不清楚为什么会这样。gydF4y2Ba

图4。按任务和参与者类型划分的平均错误率。误差条表示标准差。任务之间或任务内部的错误率没有显著差异。MER:匹配错误率;字错误率。gydF4y2Ba

机器学习模型结果gydF4y2Ba

在图片描述和经验描述任务的手动校正转录本上训练的模型明显优于在自动转录本上训练的模型(gydF4y2Ba表2gydF4y2Ba）.然而，使用两种转录方法训练的模型性能与阅读任务没有显著差异。无论是否包括暂停相关的特征，这一发现都是正确的(gydF4y2Ba表3gydF4y2Ba）.gydF4y2Ba

表4gydF4y2Ba显示使用手动校正的转录本的模型结果，图片描述和经验描述任务有或没有暂停。当比较有停顿和没有停顿的转录本时，任何AUROC结果都没有明显的趋势或显著的变化。gydF4y2Ba

表2。在自动抄本上训练的模型的机器学习分类结果与在人工校正抄本上训练的模型的结果的比较。gydF4y2Ba

任务和模型类型gydF4y2Ba		自动抄本gydF4y2Ba^{一个gydF4y2Ba}	手动更正成绩单AUROCgydF4y2Ba	AUROC变化gydF4y2Ba^bgydF4y2Ba
图片描述gydF4y2Ba
	射频gydF4y2Ba^cgydF4y2Ba	0.617gydF4y2Ba	0.687gydF4y2Ba	0.070gydF4y2Ba^dgydF4y2Ba
	GNBgydF4y2Ba^egydF4y2Ba	0.662gydF4y2Ba	0.725gydF4y2Ba	0.063gydF4y2Ba^dgydF4y2Ba
	LRgydF4y2Ba^fgydF4y2Ba	0.671gydF4y2Ba	0.743gydF4y2Ba	0.072gydF4y2Ba^dgydF4y2Ba
	伯特gydF4y2Ba^ggydF4y2Ba	0.618gydF4y2Ba	0.686gydF4y2Ba	0.068gydF4y2Ba^dgydF4y2Ba
经验描述gydF4y2Ba
	射频gydF4y2Ba	0.503gydF4y2Ba	0.636gydF4y2Ba	0.133gydF4y2Ba^dgydF4y2Ba
	GNBgydF4y2Ba	0.549gydF4y2Ba	0.677gydF4y2Ba	0.128gydF4y2Ba^dgydF4y2Ba
	LRgydF4y2Ba	0.543gydF4y2Ba	0.674gydF4y2Ba	0.131gydF4y2Ba^dgydF4y2Ba
	伯特gydF4y2Ba	0.630gydF4y2Ba	0.650gydF4y2Ba	0.020gydF4y2Ba^dgydF4y2Ba

^{一个gydF4y2Ba}AUROC:接收机工作特性曲线下的面积。gydF4y2Ba

^bgydF4y2BaAUROC的正变化表明手动校正的转录模型优于自动转录模型。gydF4y2Ba

^cgydF4y2Ba随机森林。gydF4y2Ba

^dgydF4y2Ba表明gydF4y2BaPgydF4y2Ba<措施。gydF4y2Ba

^egydF4y2BaGNB:高斯朴素贝叶斯。gydF4y2Ba

^fgydF4y2BaLR:逻辑回归。gydF4y2Ba

^ggydF4y2BaBERT:来自变形金刚的双向编码器表示。gydF4y2Ba

表3。使用声学数据或使用文本数据计算暂停特征的阅读任务数据训练的模型的机器学习分类结果。gydF4y2Ba

阅读任务gydF4y2Ba	(1)自动转录AUROCgydF4y2Ba^{a、bgydF4y2Ba}	(2)人工校正成绩单AUROCgydF4y2Ba^bgydF4y2Ba	(3)人工校正成绩单AUROCgydF4y2Ba^cgydF4y2Ba	AUROC变化(3)- (1)gydF4y2Ba
射频gydF4y2Ba^dgydF4y2Ba	0.638gydF4y2Ba	0.655gydF4y2Ba	0.662gydF4y2Ba	0.024gydF4y2Ba
GNBgydF4y2Ba^egydF4y2Ba	0.677gydF4y2Ba	0.677gydF4y2Ba	0.693gydF4y2Ba	0.016gydF4y2Ba
LRgydF4y2Ba^fgydF4y2Ba	0.589gydF4y2Ba	0.587gydF4y2Ba	0.568gydF4y2Ba	−0.021gydF4y2Ba

^{一个gydF4y2Ba}AUROC:接收机工作特性曲线下的面积。gydF4y2Ba

^bgydF4y2Ba从声学数据检测暂停。gydF4y2Ba

^cgydF4y2Ba从文本数据中检测到暂停。gydF4y2Ba

^dgydF4y2Ba随机森林。gydF4y2Ba

^egydF4y2BaGNB:高斯朴素贝叶斯。gydF4y2Ba

^fgydF4y2BaLR:逻辑回归。gydF4y2Ba

表4。在没有停顿的人工纠正文本上训练的模型的机器学习分类结果与在人工纠正文本(有停顿)上训练的模型的结果进行比较。gydF4y2Ba

任务和模型类型gydF4y2Ba		没有停顿的抄本gydF4y2Ba^{一个gydF4y2Ba}	有停顿的抄本gydF4y2Ba	AUROC变化gydF4y2Ba^bgydF4y2Ba
图片描述gydF4y2Ba
	射频gydF4y2Ba^cgydF4y2Ba	0.666gydF4y2Ba	0.687gydF4y2Ba	0.021gydF4y2Ba
	GNBgydF4y2Ba^dgydF4y2Ba	0.730gydF4y2Ba	0.725gydF4y2Ba	−0.005gydF4y2Ba
	LRgydF4y2Ba^egydF4y2Ba	0.755gydF4y2Ba	0.743gydF4y2Ba	−0.012gydF4y2Ba
	伯特gydF4y2Ba^fgydF4y2Ba	0.686gydF4y2Ba	0.691gydF4y2Ba	0.005gydF4y2Ba
经验描述gydF4y2Ba
	射频gydF4y2Ba	0.631gydF4y2Ba	0.636gydF4y2Ba	0.005gydF4y2Ba
	GNBgydF4y2Ba	0.676gydF4y2Ba	0.677gydF4y2Ba	0.001gydF4y2Ba
	LRgydF4y2Ba	0.692gydF4y2Ba	0.674gydF4y2Ba	−0.018gydF4y2Ba
	伯特gydF4y2Ba	0.622gydF4y2Ba	0.649gydF4y2Ba	0.027gydF4y2Ba

^{一个gydF4y2Ba}AUROC:接收机工作特性曲线下的面积。gydF4y2Ba

^bgydF4y2BaAUROC的正变化表明暂停模型优于无暂停模型。gydF4y2Ba

^cgydF4y2Ba随机森林。gydF4y2Ba

^dgydF4y2BaGNB:高斯朴素贝叶斯。gydF4y2Ba

^egydF4y2BaLR:逻辑回归。gydF4y2Ba

^fgydF4y2BaBERT:来自变形金刚的双向编码器表示。gydF4y2Ba

转录的信心gydF4y2Ba

转录置信度结果显示，与患者相比，自动转录软件在转录对照组语音方面始终更有信心。这可能表明患者的语言不同于用于训练自动转录软件的语言(自动转录软件可能是使用来自更一般人群的语言训练的，包括年轻人或认知未受损的个体)。这可能是由于患有阿尔茨海默病的人经常有语言能力受损[gydF4y2Ba45gydF4y2Ba]，例如变形(例如，把“cookie”写成“ook”)和语音错乱(例如，把“kid”写成“tid”)[gydF4y2Ba46gydF4y2Ba］．特别有趣的是，两组之间的信心差异在阅读任务中是最高和最显著的。这证实了阅读任务语音对于区分AD/MCI患者和对照组是有效的，正如之前的研究所显示的那样[gydF4y2Ba35gydF4y2Ba，gydF4y2Ba47gydF4y2Ba，gydF4y2Ba48gydF4y2Ba］．gydF4y2Ba

错误率评估gydF4y2Ba

与AD或MCI患者相比，健康对照的自动转录更准确，这表明患者转录的错误率和信息丢失更高。这一结果在置信度结果的背景下是合乎逻辑的，因为患者转录本的置信度明显较低，这意味着转录软件对其输出更不确定。gydF4y2Ba

我们的结果与谷歌关于他们自己的软件错误率的报告明显不同(谷歌云STT没有透露他们的训练数据集的组成)。根据谷歌的数据，他们的转录程序使用12500小时的语音搜索数据实现了6.7%的识别率，而听写任务的识别率为4.1% [gydF4y2Ba49gydF4y2Ba］．相比之下，对于自发语言任务，我们发现对照组的WER范围为24%至34%，患者的WER范围为29%至38%。阅读任务显示出较低的WER，对照组为15%，患者为23%。gydF4y2Ba

虽然我们的错误率结果与谷歌报告的结果不同，但它们与使用谷歌STT从模拟医疗事故中得出的其他调查结果相当。Kim等人[gydF4y2Ba50gydF4y2Ba]使用了12个模拟病人和医学生互动的音频数据。在本次调查中，Google STT显示的平均WER为34%，与我们的WER结果相似，对照组为34%，完成图片描述任务的患者为38%。Miner等[gydF4y2Ba14gydF4y2Ba[]记录了100名年龄在18-52岁(平均年龄23岁)的患者在治疗期间的音频，发现谷歌STT的平均WER为25%。该结果与我们的经验描述任务的WER相当，患者为29%，对照组为24%。与治疗相关的讨论和经验描述任务通常都涉及在最小提示下的自发语言。gydF4y2Ba

令人惊讶的是，经验描述任务的错误率低于图片描述任务。这可能是因为Google STT在参与者之间反复错误地转录与图片相关的某些短语或单词，导致该任务的平均错误率更高。也有可能经验描述更容易自动转录，因为它更具有会话性，就像Google STT可能已经训练过的材料一样。不同的自发言语任务之间的表现差异有待进一步研究。gydF4y2Ba

我们队列的阅读任务WER明显高于以往的研究。Kepuska等[gydF4y2Ba51gydF4y2Ba[gm66nd]利用谷歌STT转录了630名说话者每人10句话的音频，发现平均误读率为9%。这明显低于我们的调查结果，在我们的调查中，我们发现9句阅读任务在患者中产生了23%的WER，在对照组中产生了15%。造成这种巨大差异的一个可能原因是，Google STT并不针对特定人群(例如，随着时间的推移，老年人可能会经历正常的与年龄相关的喉部和声带变化，称为老年性耳鸣)，并且可能在更广泛的样本中产生更准确的转录。gydF4y2Ba

机器学习模型gydF4y2Ba

尽管我们之前的结果表明，我们数据集的自动转录比谷歌报告的值更不准确，但我们的机器学习模型结果仍然表明，自动转录对AD/MCI是有区别的。其他使用自动转录进行分类实验的研究指出，音频到文本转录的不准确或错误并不一定影响分类结果[gydF4y2Ba52gydF4y2Ba］．gydF4y2Ba

然而，手动纠正图片描述和经验描述任务转录会显著提高机器学习模型的性能。相比之下，自动和手动校正的阅读任务文本都显示出相似的性能，这可能是由于大多数阅读特征都是从音频数据中计算出来的。为了解决这个问题，我们检查了文本和基于音频的静默暂停检测，再次发现性能没有明显变化。这表明使用音频或文本来检测暂停将产生类似的结果，并且手动纠正抄本不会显着改变模型性能。gydF4y2Ba

令人惊讶的是，添加填充停顿和静默停顿并没有显著改变任何任务和算法的性能。此外，在阅读任务中使用从文本中检测到的暂停与使用从音频数据中检测到的暂停显示出相似的分类结果。先前的研究表明，患有阿尔茨海默病的人在说话时表现出多种不流畅，包括停顿。gydF4y2Ba53gydF4y2Ba-gydF4y2Ba55gydF4y2Ba］．然而，手动将停顿作为单词(“um”或“uh”)或标记(“[pause]”)添加到文本中，似乎对分类模型没有任何影响。这可能是因为老年人的语言也会经历与年龄相关的变化，比如沉默停顿的增加[gydF4y2Ba56gydF4y2Ba]，可能会削弱停顿与病人或对照组的联系。或者，这个结果可能是由于没有“直接”为描述任务建模暂停的特征，削弱了任务与暂停的关联。gydF4y2Ba

限制gydF4y2Ba

我们的队列的一些限制包括不同的语言能力和转录者之间的差异。在我们的队列中，13%的患者和21%的对照组的第一语言不是英语，这可能会导致转录错误。此外，我们使用了3个不同的转录员，这可能会导致转录员之间的差异，尤其是在增加标点符号等更主观的纠正步骤中，尽管手动转录的差异是通过转录员之间的审查和标准化转录的协议开发来控制的。我们研究的另一个限制是数据集的大小(N=149)，这对于机器学习实验来说是相当小的。然而，这是大多数使用机器学习进行痴呆症分类的工作所面临的问题，特别是对于新建的数据集(N=55-82) [gydF4y2Ba5gydF4y2Ba，gydF4y2Ba29gydF4y2Ba，gydF4y2Ba35gydF4y2Ba］．虽然DementiaBank和address数据集更大(N=287，分别有687个样本和N=156个样本)，但它们最初是在20世纪80年代中期创建的，受到当时诊断实践的限制。本文描述的工作旨在减轻这一挑战。我们对自动转录的最佳实践建议将有助于在未来以更快的速度收集数据。gydF4y2Ba

同样值得注意的是，这项调查是在说英语的人群中使用谷歌语音转文本软件完成的。竞争对手的语音转文本软件可能会产生不同的结果，因此读者在将我们的结论应用于其他软件时应该谨慎。将类似的方法应用于非英语数据集也可能产生不同的结果，特别是因为其他语言的自动转录可能没有英语那么先进。最后，语音转文本软件也在不断完善和改进。在未来，自动生成的转录本可能与人工生成的转录本难以区分。与此同时，了解自动转录的影响，特别是对医学语音数据集的影响仍然是有价值的。gydF4y2Ba

结论gydF4y2Ba

研究结果表明，基于网络的语音识别平台自动转录的语音数据可以有效地用于区分患者和对照组。根据我们的研究结果，为了提高自动生成的文本的分类性能，特别是那些由自发语音任务生成的文本，建议采用人工验证步骤。我们的分析表明，人工验证应该集中在纠正错误和添加标点符号上，而不需要人工添加停顿，这可以简化人工验证步骤，从而更有效地处理大量语音数据。gydF4y2Ba

致谢gydF4y2Ba

温哥华沿海健康研究所、老龄化和脑健康创新中心、阿尔茨海默氏症协会和加拿大老年神经退行性疾病联盟资助了招募参与者、收集数据、进行分析和综合结果所需的研究人员和设备。gydF4y2Ba

作者的贡献gydF4y2Ba

TS、SNM、CC、GM、GC、TSF和HJ参与了研究的构思和设计。TS、SNM和CL招募研究参与者并进行研究评估。TS组织了数据库。TdCV, SG, AH和HJ设计机器特征并执行所有机器学习分析。TdCV、AH和HJ进行统计学分析。TS进行了其他分析。TS和HJ写了手稿的初稿。TdCV和AH对部分手稿做出了贡献。所有作者都参与了稿件的修改，并阅读并批准了提交的版本。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba

多媒体附录1gydF4y2Ba

总结患者和对照组的基线特征。gydF4y2Ba

DOCX文件，13 KBgydF4y2Ba

阿尔茨海默病——为什么我们需要早期诊断。退行性神经与神经肌肉疾病2019;9 (1):123-130 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
尽管有效性不确定，FDA批准了有争议的阿尔茨海默病药物。英国医学杂志2021年6月08日;373:n1462。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Watson JL, Ryan L, Silverberg N, Cahan V, Bernard MA。阿尔茨海默病临床试验招募的障碍与机遇。卫生Aff (Millwood) 2014年4月;33(4):574-579 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
刘建军，刘建军，刘建军，等。基于语音和语言的阿尔茨海默病自动检测方法研究进展。医学信息学报，2020,11,27(11):1784-1797 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
郭志强，郭志强，Tóth L, Pákáski M, Kálmán J .基于ASR和语言特征的轻度认知障碍和轻度阿尔茨海默病的识别。计算机语音学报，2019(1);53:181-197。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
陈建军，陈建军，陈建军，等。叙事性言语中阿尔茨海默病的语言特征分析。中华老年痴呆症杂志，2016;49(2):444 - 444。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
刘建军，刘建军，李建军，等。老年痴呆症的自然发病机制。研究队列的描述和诊断的准确性。中华神经科杂志，1994;51(6):585-594。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
刘建军，刘建军。人工转录与辅助转录的关系。见:第六届语言资源与评价国际会议论文集。:欧洲语言资源协会;2008年5月演讲:LREC'08;2008年5月;摩洛哥马拉喀什gydF4y2Bahttps://aclanthology.org/L08-1522/gydF4y2Ba
李建军，李建军，李建军，李建军。基于神经网络的脑退化特征识别方法研究。演讲地点:Interspeech 2018;2018年9月;海德拉巴，印度p. 1893-1897gydF4y2Bahttps://www.isca-speech.org/archive/interspeech_2018/mirheidari18_interspeech.htmlgydF4y2Ba［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
李建军，李建军，李建军，李建军。基于语音识别的认知衰退研究。2021年8月发表时间:Interspeech 2021;2021年8月;Brno, Czechia p. 3780-3784gydF4y2Bahttps://www.isca-speech.org/archive/interspeech_2021/luz21_interspeech.htmlgydF4y2Ba［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
李建军，李建军，李建军，李建军。基于语音识别技术的行为健康研究。见:2020年ACM普适和泛在计算国际联合会议论文集和2020年ACM可穿戴计算机国际研讨会论文集。美国:计算机协会;2020年发表于:2020年ACM普适与泛在计算国际联合会议;9月12日;虚拟事件第483-487页gydF4y2Bahttps://dl.acm.org/doi/10.1145/3410530.3414372gydF4y2Ba［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
彭德兰，李文杰，李文杰，等。语言分析中的数据质量相关性:转录错误对多种语言分析方法的影响。在2019年美洲信息系统会议上发表;8月15日;墨西哥坎昆。gydF4y2Ba
谷歌云语音转文本。URL:gydF4y2Bahttps://cloud.google.com/speech-to-textgydF4y2Ba[2019-11-19]访问gydF4y2Ba
Miner AS, Haque A, Fries JA, Fleming SL, Wilfley DE, Terence Wilson G，等。评估心理治疗中自动语音识别的准确性。中华医学杂志2020;3:82 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Kaup AR, Nettiksimmons J, LeBlanc ES, Yaffe K.老年妇女近20年后的记忆抱怨和认知障碍风险。神经病学2015年11月24日;85(21):1852-1858 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
李建军，李建军，李建军，李建军，等。基于自然语言处理的脑卒中症状分析。中华脑病杂志;2009;37 (1):1-12 [j]gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
王晓明，王晓明，王晓明，等。帕金森病的诊断与诊断:基于语音和语音的研究进展。生物医学工程学报(自然科学版);2009;33(4):391 - 391。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
李建军，李建军，李建军，等。基于独立元音的轻度颅脑损伤分类。: IEEE;2013年IEEE声学、语音与信号处理国际会议;可能26-31;温哥华，卑诗省，邮编7577-7581gydF4y2Bahttps://ieeexplore.ieee.org/document/6639136gydF4y2Ba［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
McGinnis EW, Anderau SP, Hruschak J, Gurchiek RD, Lopez-Duran NL, Fitzgerald K，等。让弱势儿童发声:机器学习分析语音可以检测儿童早期的焦虑和抑郁。生物医学学报，2019;23(6):2294-2301 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
李建军，李建军，李建军，等。使用言语对双相情感障碍个体进行生态有效的长期情绪监测。2014年IEEE声学、语音和信号处理国际会议(ICASSP);5月4日;佛罗伦萨，意大利，第4858-4862页gydF4y2Bahttps://ieeexplore.ieee.org/document/6854525gydF4y2Ba［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
康明斯，谢瑞尔，克拉耶夫斯基，施耐德，艾普斯，季立军。基于言语分析的抑郁和自杀风险评估综述。语音通讯2015;07:10-49。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
刘建军，刘建军。大学生语言能力的研究进展。生物医学工程学报，2004;18(8):1121-1133。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
BDAE:波士顿诊断性失语症检查。proedinc.com。费城，宾夕法尼亚州:Lippincott Williams & Wilkins;1972.URL:gydF4y2Bahttps://www.proedinc.com/Products/11850/bdae3-boston-diagnostic-aphasia-examinationthird-edition.aspx?bCategory=TBI !APXDYgydF4y2Ba[2022-09-06]访问gydF4y2Ba
李建军，张建军，张建军，等。基于神经网络模型的老年痴呆症语言特征检测。在:计算语言学协会北美分会2018年会议论文集:人类语言技术。2018提交于:计算语言学协会北美分会2018年会议:人类语言技术;6月1日;新奥尔良，洛杉矶，第701-707页。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
孔伟，张辉，王志强，等。一种基于语言的痴呆预测神经网络模型。发表于:第四届医疗保健机器学习会议;8月8日;安娜堡，密歇根州第270-286页。gydF4y2Ba
卡明斯·l描述Cookie盗窃的画面。实用计算机学报，2019,30(2):153-176。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
李建军，张建军，张建军，等。语言标记物对阿尔茨海默病发病的影响。临床医学[j]; 2011;28 (11): 591 - 583 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
崔策特尔- klosinski S, Dietz K, IReST研究小组。阅读能力的标准化评估:新国际阅读速度文本IReST。中国眼科杂志，2012;33(9):551 - 561。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
张建军，张建军，张建军，等。眼动行为识别在阿尔茨海默病诊断中的应用。j .中国。神经科学2018;17(4):1702-00837。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
[j] .语言生成与语境中词语的可预测性。[J] .心理学报，2018,01;10(2):96-106。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
流利度的测量:二语口语的时间变量和停顿模式。论文，珀杜大学，2016年4月gydF4y2Bahttps://docs.lib.purdue.edu/open_access_dissertations/692/gydF4y2Ba[2021-01-01]访问gydF4y2Ba
李建军，李建军，李建军，等。语音识别错误检测与纠错方法的研究进展。计算机工程学报，2018;28(2):332 - 337。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
自动语音识别评价的相似度度量。Python包索引。2018年6月19日。URL:gydF4y2Bahttps://pypi.org/project/jiwer/gydF4y2Ba[2021-01-01]访问gydF4y2Ba
Barral O, Jang H, Newton-Mason S, Shajan S, Soroski T, Carenini G，等。利用眼动追踪和语言对阿尔茨海默病进行无创分类。在:第五届医疗保健机器学习会议论文集。2020年发表于:第五届医疗保健机器学习会议;8月7日;虚拟p. 813-841。gydF4y2Ba
王志强，王志强，Eckerström M， Öhman F。基于多模态分类器的MCI状态预测。神经科学进展(英文版);2019;11:205。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Manning C, Surdeanu M, Bauer J, Finkel J, Bethard S, McClosky D.斯坦福CoreNLP自然语言处理工具包。在:计算语言学协会第52届年会论文集:系统演示。2014年发表于:计算语言学协会第52届年会;6月;巴尔的摩，马里兰州，第55-60页gydF4y2Bahttps://stanfordnlp.github.io/CoreNLP/gydF4y2Ba［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
MRC心理语言学数据库:机器可用的字典。西澳大利亚大学1987年4月1日URL:gydF4y2Bahttps://websites.psychology.uwa.edu.au/school/MRCDatabase/mrc2.htmlgydF4y2Ba[2020-01-01]访问gydF4y2Ba
Robert J. Pydub。Python包索引。2011年5月3日。URL:gydF4y2Bahttps://github.com/jiaaro/pydubgydF4y2Ba[2019-12-31]访问gydF4y2Ba
音节:Python的快速音节估计器。Python包索引。2018年11月25日。URL:gydF4y2Bahttps://github.com/prosegrinder/python-syllablesgydF4y2Ba[2020-01-01]访问gydF4y2Ba
从书面和口头语言中检测痴呆症。博士论文，英属哥伦比亚大学。温哥华BC;2018年1月8日。URL:gydF4y2Bahttps://doi.org/10.14288/1.0362923gydF4y2Ba[2020-12-31]访问gydF4y2Ba
Devlin J, Chang M, Lee K, Toutanova K. BERT:基于深度双向变换的语言理解预训练。在:计算语言学协会北美分会2019年会议论文集:人类语言技术2019年发表于:计算语言学协会北美分会2019年会议;6月;明尼阿波利斯，明尼苏达州，第4171-4186页gydF4y2Bahttps://aclanthology.org/N19-1423/gydF4y2Ba［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O，等。Scikit-learn: Python中的机器学习。[J]中国科学:自然科学，2011;12 (2):825- 830 [J]gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
Šimundić。诊断准确性的度量:基本定义。农业工程学报2009;19(4):203-211 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
霍尔马。基于相关性的机器学习特征选择。博士论文，怀卡托大学。新西兰怀卡托;1999.URL:gydF4y2Bahttps://researchcommons.waikato.ac.nz/handle/10289/15043gydF4y2Ba[2021-01-01]访问gydF4y2Ba
Ahmed S, Haigh AF, de Jager CA, Garrard P.连接语言作为尸检证实的阿尔茨海默病疾病进展的标志。脑电学报;2013;36(12):3727-3737 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
失语症的语音产生缺陷。参见:语音过程和大脑机制。纽约:斯普林格出版社;1988:93 - 117。gydF4y2Ba
Mirzaei S, El Yacoubi M, Garcia-Salicetti S, Boudy J, Kahindo C, Cristancho-Lacroix V，等。语音参数两阶段特征选择用于早期阿尔茨海默病预测。IRBM 2018;39(6):430-435。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Martínez-Sánchez F, Meilán JJG, Vera-Ferrandiz JA, Carro J, Pujante-Valverde IM, Ivanova O，等。说西班牙语的阿尔茨海默病患者的语言节奏改变。中华神经医学杂志，2017;24(4):418-434。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Chiu C, Sainath T, Wu Y, Prabhavalkar R, Nguyen P, Chen Z，等。最先进的语音识别序列到序列模型。2018年IEEE声学、语音和信号处理国际会议;4月15日;Calgary, AB p. 4774-4778。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
金俊，刘超，Calvo R, McCabe K, Taylor S, Schuller B，等。在线自动语音识别系统与对难以理解语音的非语言反应的比较。在:第12届国际口语对话系统技术研讨会上发表于:第12届国际口语对话系统技术研讨会;2021年11月15日;新加坡。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Këpuska五、语音识别系统对比(Microsoft API, Google API和CMU Sphinx)。国际医学杂志2017年3月;07(03):20-24。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Murray G, Carenini G.总结口头和书面对话。见:2008年自然语言处理经验方法会议论文集。:计算语言学协会;2008年在2008年自然语言处理经验方法会议上发表;檀香山，夏威夷，第773-782页。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Pistono A, Jucla M, Barbeau EJ, Saint-Aubert L, Lemesle B, Calvet B，等。自传体话语中的停顿反映了早期阿尔茨海默病的情景记忆过程。中华老年痴呆症杂志;2016;31 (3):687-698 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Pistono A, Pariente J, bacimzy C, Lemesle B, Le Men J, Jucla m。暂停作为早期阿尔茨海默病代偿机制的研究。神经心理学2019 Feb 18;124:133-143 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
李建军，李建军，李建军，等。一种检测痴呆症患者言语停顿的自动方法。[J]老年痴呆症[J]; journal of nurses training [J]; 2009; 31 (5): 533 - 533 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Bóna J.言语的时间特征:年龄和言语风格的影响。计算机工程学报，2014,33(2):1145 - 1145。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba

‎gydF4y2Ba

广告:gydF4y2Ba阿尔茨海默病gydF4y2Ba

AUROC:gydF4y2Ba接收机工作特性曲线下的面积gydF4y2Ba

伯特:gydF4y2Ba来自变压器的双向编码器表示gydF4y2Ba

GNB:gydF4y2Ba高斯朴素贝叶斯gydF4y2Ba

红外光谱:gydF4y2Ba国际阅读速度文本gydF4y2Ba

LR:gydF4y2Ba逻辑回归gydF4y2Ba

MCI:gydF4y2Ba轻度认知障碍gydF4y2Ba

MER:gydF4y2Ba匹配错误率gydF4y2Ba

NLP:gydF4y2Ba自然语言处理gydF4y2Ba

射频:gydF4y2Ba随机森林gydF4y2Ba

SMC:gydF4y2Ba主观记忆抱怨gydF4y2Ba

STT:gydF4y2Ba语音识别gydF4y2Ba

回答:gydF4y2Ba字错误率gydF4y2Ba

编辑:梁涛、王杰;提交08.09.21;S Kim, M Burns, X Zhou, Y Liu;对作者的评论14.03.22;修订版本收到11.07.22;接受23.07.22;发表21.09.22gydF4y2Ba

©Thomas Soroski, Thiago da Cunha Vasco, Sally Newton-Mason, Saffrin Granby, Caitlin Lewis, Anuj Harisinghani, Matteo Rizzo, Cristina Conati, Gabriel Murray, Giuseppe Carenini, Thalia S Field, hyyeju Jang。最初发表于JMIR Aging (https://aging.www.mybigtv.com)， 2022年9月21日。gydF4y2Ba

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒体上不受限制地使用、分发和复制，前提是原始作品首次发表在JMIR Aging上，并适当引用。必须包括完整的书目信息，到https://aging.www.mybigtv.com上原始出版物的链接，以及版权和许可信息。gydF4y2Ba

本文内容如下gydF4y2Bae-collection /主题问题:gydF4y2Ba

评估基于网络的阿尔茨海默症语音数据自动转录:转录比较和机器学习分析gydF4y2Ba

评估基于网络的阿尔茨海默症语音数据自动转录:转录比较和机器学习分析gydF4y2Ba

原始论文gydF4y2Ba

通讯作者:gydF4y2Ba

摘要gydF4y2Ba

关键字gydF4y2Ba

介绍gydF4y2Ba

方法gydF4y2Ba

概述gydF4y2Ba

数据收集gydF4y2Ba

招聘gydF4y2Ba

语音样本采集gydF4y2Ba

自动转录gydF4y2Ba

人类转录纠正gydF4y2Ba

伦理批准gydF4y2Ba

评价gydF4y2Ba

转录的信心gydF4y2Ba

错误率评估gydF4y2Ba

机器学习分类gydF4y2Ba

结果gydF4y2Ba

转录置信结果gydF4y2Ba

错误率评估结果gydF4y2Ba

机器学习模型结果gydF4y2Ba

讨论gydF4y2Ba

转录的信心gydF4y2Ba

错误率评估gydF4y2Ba

机器学习模型gydF4y2Ba

限制gydF4y2Ba

结论gydF4y2Ba

致谢gydF4y2Ba

作者的贡献gydF4y2Ba

利益冲突gydF4y2Ba

参考文献gydF4y2Ba

缩写gydF4y2Ba