发表在10卷, 3号(2022): Jul-Sep

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/39186,首次出版
呼吸作为一种输入方式在一个游戏式呼吸训练应用程序(微风2):开发和评估研究

呼吸作为一种输入方式在一个游戏式呼吸训练应用程序(微风2):开发和评估研究

呼吸作为一种输入方式在一个游戏式呼吸训练应用程序(微风2):开发和评估研究

原始论文

1苏黎世联邦理工学院管理、技术和经济系数字健康干预中心,苏黎世,瑞士

2圣加仑大学技术管理研究所数字健康干预中心,圣加仑,瑞士

3.瑞士苏黎世大学卫生保健执行科学研究所,苏黎世

4圣加仑大学医学院,瑞士圣加仑

通讯作者:

Yanick Xavier Lukic, MSc, MA

数字健康干预中心

管理、技术和经济学系

苏黎世联邦理工学院

Weinbergstrasse 56/58

苏黎世,

瑞士

电话:41 446328638

电子邮件:ylukic@ethz.ch


背景:慢节奏呼吸训练对生理和心理健康都有积极的影响。不幸的是,使用统计数据表明,坚持呼吸训练应用程序的人很低。最近的研究表明,游戏式呼吸训练可能有助于克服这一挑战。

摘要目的:本研究旨在介绍和评估游戏式呼吸训练应用程序Breeze 2及其新颖的实时呼吸检测算法,该算法使应用程序的交互式组件成为可能。

方法:我们开发了呼吸检测算法,使用深度迁移学习来检测吸入、呼出和非呼吸声音(包括沉默)。一个额外的启发式延长检测到的呼气,以稳定算法的预测。我们对30名参与者(女性:n=14, 47%;年龄:平均29.77岁,SD 7.33岁)。参与者用Breeze 2进行呼吸训练,分戴和不戴耳机两组。他们回答了有关用户参与度(用户参与度量表简表[us - sf])、感知有效性(PE)、感知放松有效性和感知呼吸检测准确性的问题。我们使用Wilcoxon符号秩检验来比较us - sf、PE和知觉放松有效性得分与中性得分。此外,我们将感知到的呼吸检测精度与实际的多类平衡精度相关联,以确定参与者是否能够感知到实际的呼吸检测性能。我们还进行了重复测量方差分析,以调查有启发式和没有启发式以及从耳机和智能手机麦克风捕获的数据分类时呼吸检测平衡准确性的差异。该分析控制了参与者性别对受试者之间的潜在影响。

结果:我们的研究结果显示,在美国- sf (W= 459;P<.001), PE (W= 465;P<.001),感知放松效果(W= 358;P<措施)。感知呼吸检测精度与实际多类平衡精度显著相关(r= 0.51;P<措施)。此外,我们发现启发式方法显著提高了呼吸检测的平衡精度(F1,25= 6.23;P=.02),并且从智能手机麦克风捕获的数据的检测效果优于从耳机捕获的数据(F1,25= 17.61;P<措施)。我们没有观察到性别在受试者之间有任何显著的影响。没有启发式的呼吸检测在收集的录音上达到了74%的多类平衡精度。

结论:大多数参与者(28/ 30,93%)认为Breeze 2具有吸引力且有效。此外,呼吸检测对大多数参与者都很有效,正如感知检测精度和实际检测精度所表明的那样。在未来的工作中,我们的目标是利用收集到的呼吸音来提高呼吸检测的稳定性和性能。我们还计划在针对非传染性疾病的预防和管理的各种研究中使用Breeze 2作为干预工具。

JMIR严肃游戏2022;10(3):e39186

doi: 10.2196/39186

关键字



背景

非传染性疾病是一个重大的全球健康和经济负担[1-3.].慢节奏呼吸训练与生理[4-6]和心理的[7-9)幸福。因此,呼吸训练可以在针对非传染性疾病的干预措施中发挥作用。例如,慢节奏的呼吸训练可以促进放松,帮助抵消压力[8].它还可以改善心脏功能[10],有可能改善心血管疾病的治疗,而心血管疾病是全世界的主要死亡原因[1].此外,它可以增强呼吸肌,使其适用于治疗呼吸系统疾病,如哮喘[4]及慢性阻塞性肺疾病[11].

慢节奏呼吸训练一般旨在指导人们以每分钟5.5至6次呼吸(BPM)的速度呼吸[6].人们可以通过调整BPM来最大化他们的个人效果。例如,一个未经训练的人可以通过>6 BPM的呼吸达到更好的效果,而一个训练有素的人可能想要以<6 BPM的呼吸。然而,6 BPM通常被使用,因为这似乎对大多数人都很有效,每10秒完成一个完整的呼吸循环。一个呼吸循环包括一次吸气,一次呼气,中间最多停顿两次。这些个别阶段的持续时间是一个活跃的研究领域。研究这些不同的阶段是相关的,因为吸入通过抑制迷走神经流出与交感神经系统相关,而呼气通过恢复迷走神经流出与副交感神经系统相关[1213].

因此,呼吸模式通常使用相等的吸气和呼气时间来平衡交感和副交感神经活动,或使用延长的呼气时间来强调副交感神经系统。虽然这两种方法都能有效地诱导放松[14,相关研究认为,长时间的呼气能达到更实质性的放松效果。相比之下,其他相关工作发现吸入和呼出阶段的时间相等,最适合达到心理生理一致性[121315].

呼吸训练的积极作用激发了各种呼吸指导应用程序的发展[16].然而,尽管这些应用程序受到了很多关注,被很多用户下载,但使用统计数据显示,依从性很低[1617].不服从和缺乏参与的问题存在于各个领域,不同的作品假设游戏化是一种潜在的解决方案[1819].此外,对于呼吸训练,各种移动[20.-22],桌面[23]和虚拟现实[2425使用一些游戏元素的应用程序已经被概念化和开发。然而,许多应用程序不具有互动性,也不包括训练过程中的生物反馈,这令人惊讶,因为研究表明,使用生物反馈可以提高呼吸训练的有效性[26-29].

然而,现有的呼吸训练应用程序包括基于心率变异性(HRV)的生物反馈机制[30.]或呼吸[21-2331].尽管基于hrv的生物反馈提供的生物信号通常是呼吸训练的目标[32,它只提供递延反馈。在没有额外硬件的情况下测量HRV也是一项挑战。因此,HRV生物反馈既不具有可扩展性,也不适合作为需要延迟小于1秒的反馈循环的游戏体验的唯一输入。

相比之下,基于呼吸的生物反馈可以是即时的,并且是呼吸训练应用程序中的指导试图改变从而影响HRV的直接信号。然而,迄今为止,使用基于呼吸的生物反馈的方法仅限于在受控环境下进行呼吸训练[21]和早期原型[22].Breeze(数字健康干预中心)是第一批朝这个方向发展的应用程序之一[21].微风的第一个版本的特点是一个单一的环境,用户通过正确地遵循一个固定的呼吸模式来加速帆船。Breeze在提高个体HRV方面的有效性已在实验室得到证实[33].

此外,Lukic等[33]评估Breeze的可视化和视觉呼吸训练指导对参与者内在体验价值的影响。结果显示,在保持相同的感知有效性(PE)的情况下,使用游戏可视化与使用标准引导可视化相比,内在体验价值显著增加[34].然而,调查显示,所使用的呼吸相位检测器(使Breeze具有交互性)非常容易受到噪声和个体呼吸声音差异的影响,并且与所使用的数据集过拟合[21].Islam等的研究[35扩展了呼吸阶段检测的思想,从呼吸训练特定的呼吸到有规律的呼吸。他们专注于监测和诊断,因为测量正常呼吸的呼吸阶段已被用于诊断目的[3637].一般来说,监测和诊断是有关呼吸检测的热门研究领域。尽管Islam等[35目的是监测休息时的呼吸阶段,其他人则试图检测睡眠时的呼吸频率[38]和体育锻炼[39通过智能手机和耳机麦克风。然而,当呼吸训练指导呼吸时,在这段时间内用诊断意图调查呼吸阶段持续时间和呼吸速率没有意义。在呼吸训练的上下文中呼吸检测的目的是向用户提供交互式反馈以增加参与并给他们对他们的表现的有形评估。

目标

本文介绍了Breeze 2,它有几个新的功能,改进了外观,并提出了一种新的呼吸相位检测算法。我们将Breeze 2设计为一个独立的训练和多组件干预中的一个干预组件。Breeze 2增加了一个基于幻灯片的教程,向用户介绍呼吸训练和生物反馈机制。此外,它允许根据用户的呼吸训练经验设置特定的训练参数(即训练时间和呼吸模式)。它还增加了视觉生物反馈环境的程序生成,因此用户在进行呼吸训练时总是有稍微不同的体验。因此,本研究有以下目标:(1)提供Breeze 2的详细描述,这是一款经过修改的智能手机呼吸训练应用程序;(2)引入并评估一种基于深度迁移学习的新型实时呼吸相位检测方法和一种额外的启发式方法,该方法可以延长检测到的呼气以稳定算法的预测;(3)在实验室环境中评估30名参与者的感知参与、PE和呼吸检测性能。


设计与实现

概述

微风2通过游戏可视化提供视觉呼吸指导。此外,它结合了旨在使训练更有吸引力的交互式组件,并为用户提供有关他们呼吸训练性能的有价值的反馈。我们在以下章节中概述了Breeze 2修改后的用户界面设计和呼吸检测算法的细节。

概念与设计
概述

与许多其他呼吸训练系统相比,Breeze 2不依赖于抽象的形状,而是使用一个有形的设置,允许以一种相关的方式设计交互组件。一艘不断向前缓慢移动的帆船引导呼吸训练。根据使用者匹配引导呼吸模式的能力,呼气会在体验中触发更强的风,帆船会加速。通过这种方式,帆船在训练过程中行驶了更长的距离,这使得除了更精确的测量(如呼气的计时精度)之外,还可以使用行驶距离作为训练表现的浓缩测量。

除了呼吸训练本身,Breeze 2还提供了一个教程,可调整的训练参数,和程序生成来改变每一个呼吸训练会议的显示环境。

教程

Breeze 2使用一个简单的基于幻灯片的教程(图1),快速向用户介绍慢节奏呼吸训练的好处,并简要解释指导和交互组件。当用户第一次打开Breeze 2时,主屏幕上的开始按钮被禁用。一旦用户完成了教程,开始按钮被启用,用户可以开始一个培训课程。

图1所示。在Breeze 2中实现的基于幻灯片的教程。它提供了关于慢节奏呼吸训练的好处及其生物反馈机制的高级信息。
查看此图
训练参数

呼吸训练主要包括2个参数:训练时间和呼吸方式。用户可以根据自己的喜好进行调整。Breeze 2通过根据他们所需的呼吸训练经验水平标记可能的持续时间来支持这一过程。我们根据医疗专业人员的反馈选择呼吸训练参数,这些专业人员使用生物反馈指导的呼吸练习作为患者治疗。关于培训时间,用户可以选择2(初学者)3(中间),5(专家)分钟。呼吸训练中的呼吸模式通常采取的形式是inhalation-pause-exhalation-pause.Breeze 2使用了这种模式4-1-5-0并线性调整吸气和呼气持续时间以匹配所需的BPM。例如,如果选择6bpm,则呼吸模式遵循吸气的4,1,5和0秒;第一次暂停;呼出;第二次暂停。但是,如果选择了7bpm,那么模式将遵循4个阶段的3.37、1、4.21和0。作为标准选择,我们使用6 BPM。图2说明了Breeze的设置屏幕。

图2。设置界面,用户可以根据自己的喜好设置训练持续时间和每分钟的呼吸次数。
查看此图
语音命令

Breeze 2允许使用语音命令开始和结束呼吸训练。我们实现这个功能是为了使未来的研究能够使用Breeze收集和分析与研究结果相关的语音特征。如果用户在指定的时间内说话,则Breeze 2批准该命令。我们可以根据研究的需要配置命令的内容和预期的持续时间。因此,Breeze 2不会检查用户是否说了正确的单词,而是检查他们是否说了什么。这样,它更不容易出错,并允许用户更自然地说话,但需要注意的是,它需要信任用户说出显示的单词。我们使用预训练的Yet Another Mobile Network (YAMNet)模型进行必要的语音检测[40].

培训互动

用户可以从开始菜单开始呼吸训练。当训练开始时,视图切换到训练模式。最初,用户从后面看到一艘漂浮在河上的帆船。帆船首先静止不动。下一步,用户需要大声朗读3个语音命令,然后开始倒计时。在倒计时结束时,引导呼吸模式开始。用户设置的BPM参数决定了各个阶段的秒数。帆船帆上的动画代表了不同的阶段。在前5个呼吸周期中,Breeze 2还通过帆船下方的附加文本标签指示呼吸阶段。开始时,帆船以缓慢的匀速前进。 The users must then adapt their breathing to the breathing pattern by following the guidance system. The more accurately the users follow the pattern, the more strongly the sailboat accelerates during the exhalation phase. A correctly timed exhalation triggers a wind animation that propels the sailboat forward. During the inhalation and pause phases, the sailboat’s speed slowly decreases until it reaches the constant base speed. Once users complete a training session, they again speak 3 voice commands aloud. After that, the users see a new screen showing the reached distance and the breathing accuracy over the completed session.图3描述一个完整的训练课程。没有语音命令的完整会话的屏幕记录可以在多媒体附录1

图3。《Breeze 2》的整个过程(从左到右):开始屏幕、开始语音命令、倒计时、吸气阶段、呼气阶段、结束语音命令和最后屏幕。
查看此图
程序代

由于使用者应该定期进行呼吸训练,每次提供视觉变化以支持长期坚持是必不可少的。微风2使用简单的程序生成,在训练期间改变环境的外观和照明,以实现这种视觉多样性。程序生成工作与预定义的配置,包括组的3D模型和不同的着色和照明方案。我们手工制作了这些配置,以确保它们适合在一起。每次会话,应用程序都会随机选择一种配置。随后,程序生成将分配给该配置的岛屿模型沿着帆船的行进路径放置在随机位置。此外,这个配置的着色和照明方案被选择并应用到场景中。图4说明这些生成的场景,包括岛屿、配色方案和风景。

图4。在呼吸训练期间程序生成的景观选择。
查看此图
背景声音

如果用户不戴耳机使用Breeze 2,它不会发出任何声音,以免干扰呼吸检测。除此之外,“微风2”会在训练过程中播放平静的背景音。它结合了柔和的水声和微妙的动物叫声,比如鸟叫声。背景声音可以在屏幕录音中听到多媒体附录1

独立和干预组件

Breeze 2既可以作为独立的呼吸干预,也可以作为多组件干预的干预组件。对于前者,开始界面允许用户通过设置菜单(图2)和一个简单的幻灯片教程(图1).当作为多组件干预的干预组件构建时,训练参数也可以作为参数传递给Breeze 2,并且可以立即开始训练。如果多组件干预(例如,基于智能手机的整体生活方式干预)已经具有教程和选择训练参数的可能性(例如,通过聊天机器人),则参数的移交是有用的。

实现

我们使用了Unity实时开发平台(版本2020.3.4f1;Unity Technologies)来实现Breeze 2。所有3D模型都是自定义创建或通过Unity Asset Store获得的。对于3D模型的创建和修改,我们使用了3D建模软件Blender (Blender Foundation)。背景声音下载自freeesound [41并在知识共享零授权下提供。

实时呼吸检测

概述

交互式呼吸训练的呼吸检测的目的是尽可能快地检测吸入和呼出阶段以使实时反馈成为可能。因此,检测算法必须区分这两个阶段和所有非呼吸音。先前的工作试图在呼吸训练中检测呼吸阶段[21]和休息时的自然呼吸[35]使用预先的呼吸检测门来检查呼吸声音的输入,然后将它们传递给只对呼吸相关类别进行分类的模型。Shih等[21]试图接近实时地检测呼吸,并使用了一个呼吸门,可以在1秒的剪辑中工作。除了吸气和呼气,他们还试图检测呼吸暂停。然而,当他们应用序列模型并想要解释包含不同阶段的片段时,他们将暂停阶段分为吸入-暂停和呼气-暂停。

Islam等[35专注于呼吸监测和诊断,因此使用了1分钟呼吸门。他们还做了一个简化的假设,即呼吸是连续的,没有停顿。这种关注和假设使他们能够将问题减少到吸入和呼出两个类别的主要模型的两类问题。

我们没有应用序列模型,而是着眼于实时预测。因此,我们不能使用1分钟的输入持续时间。此外,我们认为单一模型方法可能是有益的,因为主要模型不仅与有限的领域接触。因此,我们只使用了一个模型,并将问题定义为3类问题,包括吸入、呼出和非呼吸声音(包括沉默)。

类似于Shih等人[21],这项工作的重点是在智能手机上运行的应用程序指导下,将呼吸检测器应用于呼吸训练。这需要注意的是,当使用智能手机的麦克风检测呼气时,有必要区分仅从声音和气流本身检测呼气。在训练过程中,使用者可能会对着设备呼气,导致通常由风产生的录音干扰。如果慢节奏呼吸与闭口呼吸相结合,因为气流变得更加集中,那么识别这些干扰就尤为重要。因此,模型仍应将产生的干扰声检测为呼出声,从而产生呼出类的2个亚型,本文称之为声呼和气流呼。然而,该模型应将两种亚型的样本分配到呼出类,而不管它们是声学呼出还是气流呼出。

数据集

我们从3个独立的数据集中形成了用于训练、验证和初步测试的数据集。第一个由声学呼吸声组成,第二个由呼气产生的气流干扰声组成,第三个由环境声组成。

我们使用了Shih等人的数据集的子集[21呼吸的声音。我们只使用了RØDE NT1000麦克风产生的录音,它的质量最好。此外,我们手动选择仅包含可听到的呼吸和很少或没有恒定背景噪音的录音,从而获得来自20名参与者的音频数据。由于呼吸训练通常是通过鼻子吸气和嘴呼气来进行的,我们只将这些声音包括在呼吸数据集中。前80%(16/20)参与者的数据作为训练和验证数据。验证集包含参与者的最后3个呼吸周期,而我们使用剩余的呼吸周期进行训练。来自其余20%(4/20)参与者的数据作为测试数据,我们使用这些数据来确保只对来自未见过的个体的数据进行模型测试。

由于Shih等人的数据集[21只包含声学呼吸声音,我们记录了通过气流在记录中产生干扰的呼气的新数据。考虑到这些干扰声与风撞击麦克风膜产生的声音相同,它们大多独立于个人的呼吸声。由于麦克风的位置和设备的整体架构会影响到达麦克风膜的空气量,因此所使用的智能手机对麦克风膜的影响更为显著。因此,一名男性和一名女性参与者进行了三次两分钟的呼吸训练。两名参与者使用不同的智能手机进行培训,但没有戴耳机。在训练过程中,两名参与者都对着设备呼气。然后,从产生的录音中手动提取呼出的声音。为了确保气流声音独立于个体,我们只将男性参与者产生的样本纳入训练集和验证集,并将女性参与者产生的样本用于测试集。

对于非呼吸音,我们使用ESC-50数据集[42],其中包含50种环境声音。每段录音长5秒,每节课40段录音。我们从数据集中排除了所有呼吸音,并分别使用折叠1、2和3作为训练集、验证集和测试集。我们还使用了来自Shih等人的呼吸声数据集的非呼吸音和沉默[21].它们的分布方式与训练集、验证集和测试集中的呼吸声相同。我们使用这些非呼吸的声音和沉默来确保模型没有使用录音的环境特征来区分呼吸和非呼吸的声音。

然后将数据集中的所有录音剪辑成0.195秒长的无重叠片段。表1描述数据集的结果组合。

表1。用于训练、验证和测试所开发模型的数据集组合。
样本,n

培训 验证 测试
呼气(声) 4574 941 753
呼气(气流) 418 82 455
吸入 2470 478 663
无呼吸(ESC-50数据集) 9800 9800 9800
呼吸者(实验室) 1952 1952 552
迁移学习方法
概述

我们使用预训练的YAMNet [40模型作为迁移学习的基础。YAMNet是基于MobileNetV1 [43在AudioSet数据集上训练的架构[44]来划分521个类别。迁移学习是指使用预先训练好的模型或模型的相关部分,针对相关问题对其进行微调[45].

预处理

音频样本经过预处理以符合YAMNet的要求。具体来说,我们将音频重新采样到16千赫单声道。这里,我们介绍了针对我们的问题的一个步骤。YAMNet使用至少15,600个数据点作为输入,对应于0.975秒(在内部,它使用0.96秒补丁,但需要额外的样本来计算最终的短时傅里叶变换窗口[40])。然而,对于应该被认为是即时的实时反馈来说,1秒是否足够快是值得怀疑的。基于触摸系统的研究表明,商用触摸屏产生的延迟高达200毫秒[46可感知的延迟在2到100毫秒之间[47].据我们所知,没有这样的研究存在于呼吸输入。我们假设基于呼吸的系统的感知延迟不如基于触摸的系统敏感。

因此,我们的目标是输入大小大于100毫秒,但仍然明显小于1秒,以确保输入包含足够的信息,但仍然可以提供用户可能认为是即时的反馈。我们决定使用0.195秒作为输入大小,对应于3120个样本和YAMNet输入的五分之一。然后,我们将这个代码片段连接起来,得到YAMNet的总输入。不只是用一些恒定的值填充信号,以确保包含不同声源的输入与安静的环境尽可能不同。然后,我们计算了窗口和跳大小分别为25 ms和10 ms的mel谱图。mel谱图由64个mel箱组成,覆盖125至7500 Hz的范围。最后,我们通过计算log()来计算对数谱图。年代+ 0.001),年代是MEL谱图。

可行性检查

为了评估YAMNet的嵌入是否捕获了允许区分吸入、呼出和非呼吸声音的特征,我们使用了t-分布随机邻居嵌入法[48].我们计算了数据集中所有样本的嵌入,得到了1024维的嵌入,然后我们将其缩减为二维嵌入t-分布随机邻居嵌入(与欧几里德度量)。然后,我们在散点图中可视化2D嵌入,并手动检查这些表示(图5).我们观察到气流呼出样本与声学呼吸声音分开聚集。此外,无论人员和设备如何,气流呼出都聚集在一起。呼出声也聚集在一起,但部分与吸入声重叠。可视化还显示,由于ESC-50数据集包含不同类型的声音,非呼吸声音在它们之间形成了不同的集群。来自实验室的含有非呼吸音的样本也分布在很宽的范围内,但与呼吸音区分得很清楚,同时与各种ESC-50集群部分重叠。

图5。可视化的另一个移动网络(YAMNet)嵌入完整的数据集。我们使用t分布随机邻居嵌入来降低嵌入的高维数。环境声音分类数据集。
查看此图
培训

对于迁移学习,我们使用YAMNet生成的1024维嵌入,并将它们输入到一个由2个完全连接层组成的小型神经网络中,其中32个和3个单元。第一层应用了swish [49]激活函数,输出层应用softmax函数。我们以Adam优化器和分类交叉熵作为损失函数,使用小批量梯度下降训练算法。Mini-batch大小设置为32。我们的人工测试表明,算法通常在5到10次epoch后开始对训练集进行过拟合。然后,我们使用10个epoch的耐心提前停止,并根据验证集上达到的最低损失恢复最佳权重。尽管使用的数据集非常不平衡,但我们没有使用任何平衡方法,因为非呼吸声音比呼气和吸气声音更具多样性。通过这种方式,我们想要阻止呼吸声音的误报。否则,探测器可能在不完全安静的环境中产生问题。使用这种迁移学习方法,我们创建了1000个模型,并选择在验证集上达到最低损失的3个模型组合为一个集成。集成采用具有相同模型权重的软投票(选择概率和最大的类)。 This was done to slightly increase the performance and stability of the model’s predictions.

评价

为了评估模型,我们使用了未见过的测试集。我们研究了受试者工作特征(ROC)曲线;混淆矩阵;精准度,召回率/灵敏度,特异性,F1得分,并平衡准确性指标。ROC曲线(图6)的曲线下面积分别为0.96,0.97和0.98的呼出声,吸入声和非呼吸声,表明所有类别之间有良好的区分能力。

图6。左图描绘了模型在测试集上呼气、吸气和非呼吸音的ROC曲线。右图显示了对呼吸类应用不同阈值时所有类的TPR。我们对吸入和呼出使用相同的阈值,但首先应用于呼出。我们使用右图的目视检查来确定呼吸类的合适阈值。ROC:受者工作特性;TPR:真阳性率。
查看此图

为了确定呼气和吸气检测的阈值,我们采用了两种方法。首先,我们通过选择产生最高约登值的阈值分别计算了吸入和呼出的最佳阈值J统计(50].其次,我们绘制了几个阈值的真实阳性率,并通过目视检查建立了一个适当的阈值,从而在3类(图6).我们先将阈值应用于呼气,然后应用于吸气,如果它们不适用,则模型产生无呼吸。我们发现0.3的阈值可以在3个类别之间取得合理的平衡。图7显示了标准阈值(最大概率)、最佳阈值和测试阈值0.3的混淆矩阵。我们得出的结论是,0.3的阈值达到了更好的平衡,因此,阶级之间的歧视。

图7。混淆矩阵显示了在测试数据集上应用3个不同的呼吸类阈值的模型结果。从左到右依次为max(选择预测概率最高的类别),threshold=0.3(先将0.3的阈值应用于呼气,再应用于吸气),optimal threshold(根据Youden J统计量确定呼气和吸气的不同最优阈值)。
查看此图

因此,我们选择这个阈值进行进一步的评估。精密度,召回率/灵敏度,特异性F1中提供了该模型的得分和平衡精度指标表2.他们表明,该模型最好地检测非呼吸声音,这是训练集中最主要的类别。混淆矩阵还显示,该模型更多地将呼气和吸气样本错误地分类为非呼吸声音,而不是错误的呼吸阶段。为了进一步了解正确和不正确的分类,我们对3个主要类的所有子类(图8).图中显示,声呼声同样经常被错误地归类为吸气声和非呼吸声,而气流呼出声只被错误地归类为非呼吸声。吸入产生的结果与声呼相似。对于非呼吸性的声音,来自实验室的样本似乎很容易被模型区分出来。来自ESC-50的声音样本产生了一些错误的分类,大多数是呼气。然而,非呼吸音的错误分类只占这类样本的一小部分。

表2。对来自测试集的数据的呼吸类使用阈值0.3的模型性能度量。
精度 召回/敏感性 特异性 F1分数 平衡精度
呼气 0.72 0.71 0.97 0.71 0.84
吸入 0.57 0.71 0.97 0.63 0.84
呼吸者 0.97 0.96 0.85 0.97 0.90
平均 0.75 0.79 0.93 0.77 0.86
图8。直方图显示了使用0.3呼吸声音阈值的模型的测试集分类。我们根据子集拆分数据。由于非呼吸声音的ESC-50子集比其他子集大得多(9800个样本),我们在1000个样本处切断图表。环境声音分类数据集。
查看此图
模型推断时间测量

我们在3部智能手机上对最终模型进行了基本的性能测量。主要目标是验证模型可以在<0.195秒内执行推理,这对应于音频信号的输入持续时间。因为可以预期,更强大的设备允许更快的推理,我们专注于来自不同设备制造商的中低端Android智能手机。我们使用了TensorFlow (Google Brain Team) Android基准应用程序[51来衡量我们的模型转换为TensorFlow Lite模型后的性能。基准应用程序在实际的Android应用程序中模拟模型的执行。因此,确保Android的调度器将模型推理的线程和进程优先级视为前台应用程序的优先级。我们在三星Galaxy S10e,一加6和华为P30 Lite上运行了推理时间测量。在安装基准测试应用程序之前,所有设备都进行了出厂重置。此外,自动锁定功能被禁用,以确保设备在测量期间不会切换到低功耗模式。没有使用硬件加速(即使用图形处理单元,在基准应用程序中禁用NNAPI, XNNPACK和Hexagon)。我们对1、2和4个中央处理单元线程执行了测量。对于每个设备和线程配置,我们运行了100个推理和1个预热运行。由于模型在目标用例中连续运行,预热和初始化时间可以忽略不计,因此不报告。表3列出了平均测量值及其标准差。在三星Galaxy S10e上,当使用>2个中央处理单元线程时,测量变得不稳定。

表3。模型在一小块Android智能手机电池上的推断时间。
设备 推断时间(μ;ms), mean (SD)

一个CPU一个线程 2个CPU线程 4个CPU线程
三星Galaxy S10e 7.71 (0.10) 5.44 (0.09) 7.05 (1.26)
OnePlus 6 15.37 (0.02) 9.39 (0.06) 6.42 (0.10)
华为P30 Lite 24.17 (0.13) 15.19 (0.99) 11.61 (1.32)

一个CPU:中央处理器。

因此,我们在Breeze 2中使用了2个线程进行模型推断。测量结果表明,该模型可以对所有被测试的智能手机做出低于1个样本输入大小(0.195秒)的推断。因此,它应该能够无缝地监控传入的音频流。

在Breeze 2中的实现

由于反馈机制主要关注于呼气,我们使用了一个额外的启发式呼气检测。对于这个启发式,我们利用了呼气检测的高精度和检测每帧运行的事实(大约每秒30次)。如果检测到呼气,我们使用300 ms的延迟,在此期间启发式将检测到的阶段设置为呼气。每次模型检测到呼气,启发式重置延迟。这样,一旦检测到呼气,用户就可以立即收到反应,启发式至少维持300毫秒。当将模型部署在具有较高背景噪声水平的设置中时,我们使用这种对检测到的呼气的维护来抵消预期的呼气适度检测性能。此外,它防止了帆船加速和减速之间的太突然的变化。因此,启发式是特定于帆船在正确呼气时加速所使用的反馈回路。

用户研究

我们的目标是通过实验室研究来评估Breeze的新迭代,并在新的和真实的数据上评估呼吸检测算法。

参与者

我们招募了30名参与者(女性:n=14, 47%;年龄:平均29.77岁,SD 7.33岁)。由于我们的主要兴趣是收集呼吸声音,并探索微风2的某些方面是如何被感知的,以及呼吸检测是如何工作的,所以样本的性质并不重要。因此,我们主要从ETH z rich招募参与者,但所有感兴趣的各方都可以参与。然而,参与者必须年龄≥18岁且未怀孕。此外,他们被要求不服用任何药物来治疗抑郁、焦虑或情绪障碍的主要症状(如情绪低落),也不患有任何呼吸系统疾病,如哮喘或慢性阻塞性肺病。我们的目的是平衡女性和男性参与者,以解释由于呼吸功能的生理差异而可能出现的呼吸音的潜在差异[52].

材料

我们测量用户参与使用用户参与度量表简表(us - sf) [53].该仪器由4个子量表组成:集中注意力感知易用性的审美情趣,奖励因素.每个子量表共有3个项目。

调查仪器体育呼吸训练包括以下六个项目[54]: (1)呼吸训练有助于放松, (2)呼吸训练是愉快的使用, (3)遵循呼吸训练指导是很容易的(4)呼吸训练有效地教导如何呼吸(5)呼吸训练对减轻压力很有效(6)呼吸训练在增加对呼吸的注意方面是有效的.每个项目都以5分的李克特量表(强烈不同意到强烈同意)进行评分。为了构建PE的分数,我们将所有项目的分数取平均值。为了构建感知放松有效性的分数,我们使用了第1项和第5项的平均值。

参与者报告了他们的感知呼吸检测精度有2个独立的项。第一个是根据efenddic等人的研究改编的[55并问道:“呼吸检测的准确性有多高?”李克特评分为7分(从非常不准确到非常准确)。第二个问题是“呼吸检测仪正确检测到你的呼吸有多少?”参与者使用从0%到100%的滑块进行回答。研究中使用的问卷可以在多媒体附录2

我们在研究中使用了5种不同的智能手机:三星Galaxy S10eOnePlus 6华为P30 LiteiPhone XR,iPhone 11 Pro.每个参与者只使用一台智能手机,这是随机分配的。所有参与者都使用苹果第二代AirPods [56作为耳机。

过程

在研究开始时签署了同意书后,参与者收到了一部安装了独立版Breeze 2的智能手机。然后,研究人员要求参与者用Breeze 2进行两次呼吸练习,一次使用耳机,另一次除了智能手机外没有任何其他硬件。参与者一开始是否戴耳机是随机分配的。每次会议时长为3分钟。在第一次会议之前,研究者要求参与者通读指南(图1),并要求他们将训练时间和呼吸模式分别设置为3分钟和6 BPM。研究人员鼓励参与者在应用程序中提供的说明不够清楚的情况下自由提问。我们决定允许这样一个额外的解释,因为评估教程的质量并不是本研究的主要目的。在第一个呼吸环节后,参与者回答了关于他们参与程度的问题(u.s.s f) [53],可视化的PE [54],呼吸检测算法的感知精度(改编自efenddic等人的研究)[55),并提供了他们的年龄和性别。随后,他们进行了第二轮呼吸训练,之后他们再次回答了有关呼吸检测算法感知准确性的问题。如果参与者愿意,他们可以与Breeze 2进行额外的5分钟互动,但这部分是可选的。最后,研究人员鼓励参与者分享关于Breeze 2和研究的反馈。在呼吸训练过程中捕获的声音被记录下来,用于进一步的离线分析和未来的训练数据,以完善模型。

数据收集

Breeze 2持续监测训练期间显示给用户的呼吸阶段参考,以及使用启发式和不使用启发式时模型检测到的呼吸阶段。该信息每帧采样一次,因此,通常每秒有30个数据点被写入日志文件。然而,这个数字会根据智能手机的计算能力和当前显示的场景而波动。在训练期间,Breeze 2通过设备的麦克风录制并存储音频。当参与者因为研究设计而使用耳机时,Breeze 2用耳机的麦克风录制音频。微风2号尝试用44.1千赫录制。但是,操作系统设置可能会覆盖此设置。在这些情况下,Breeze 2录制的音频至少有16千赫,足以用于呼吸检测模型。Breeze 2同样记录了训练前和训练后的语音命令,并从主要的呼吸训练录音中产生了两段独立的录音。然而,本研究并未对语音指令进行进一步分析。

数据收集后,2名评分员独立地将呼吸训练记录标记为排放吸气.评分者没有手动标记非呼吸音。但是,如果录音的一部分不能分配给呼气,吸气或其他声音,则将其标记为不清楚.录音中未标记的部分被自动标记为无呼吸的声音。Cohen κ值为0.91,表明判读信度接近完美。大多数不匹配来自于时间序列数据中标签开始和结束时间的略微不同。开始或结束时间差异>200 ms的进行人工检查和合并,其他的通过选择两个评分者的平均值进行合并。如果分配了不同的类别标签,则要么为相应的部分选择评分者的标签,要么将其标记为不清楚。然后,我们按照与训练数据相同的步骤将标记数据转换为数据集。结果数据集分别由呼气、吸气和非呼吸声音的20,753、10,459和19,265个样本组成。

统计分析

对于收集到的数据,我们制定了以下假设:(1)敬业度得分高于中性得分(既不同意也不反对;假设1);(2) PE高于中性得分(既不同意也不不同意;假设2.1);(3)感知放松效果高于中性得分(既不同意也不不同意;假设2.2);(4)单独模型的平衡检测精度低于包括启发式(假设3.1)在内的平衡呼气检测精度;(5)耳机麦克风捕获声音的平衡检测精度低于智能手机麦克风(假设3.2);(6)女性和男性参与者的平衡检测准确率存在差异(假设3.3);(7)感知检测精度与实际平衡呼吸检测精度相关(模型包括启发式; hypothesis 4).

为保证结构可靠度,我们计算了McDonald ω [57的所有子量表和总体用户参与评分(UES), PE和感知放松效果。对于所有后续的假设检验,我们使用了0.05的α水平。为了检验假设1、2.1和2.2,我们针对us - sf、PE和感知放松有效性的中性得分3.0进行了Wilcoxon符号秩检验。为了考虑PE的家庭错误率和感知松弛有效性,我们应用Bonferroni校正来调整P值。为了获得更深入的了解,我们对u.s. - sf的4个分量表进行了Wilcoxon符号秩检验,并应用Bonferroni校正对其进行了调整P值来解释家庭误差率。对于假设3.1至3.3,我们计算了模型的平衡检测精度,包括启发式和模型单独基于日志文件的数据与音频记录的标签聚合。我们使用平衡准确度作为启发式,以提高呼气灵敏度,同时降低特异性。它也会影响其他2类的敏感性和特异性测量。

因此,我们采用多级平衡精度[58]作为该分析的因变量,因为它包括所有类别的特异性和敏感性措施[59].然后,我们进行了一个重复测量的方差分析,以平衡的准确性作为因变量,启发式的存在和耳机的使用作为重复测量的因素,参与者的性别作为受试者之间的因素。后者是为了解释男性和女性之间因生理差异而可能存在的呼吸声差异[52].夏皮罗-威尔克测验[60]验证了所有4个单元格的数据的正态分布:启发式(W= 0.93;P=.07),耳机(W= 0.97;P=.68),启发式和耳机(W= 0.94;P=.14),两者都不是(W= 0.97;P= 55)。我们使用Brown-Forsythe检验对细胞内所有基于性别的亚组的方差同质性假设进行了检验,该检验是一种更为稳健的Levene检验[61]用中位数而不是平均值来计算每组的中心[62].启发式(F1,25= 1.75;P=.20),耳机(F1,25= 0.07;P=.79),启发式和耳机式(F1,25= 0.07;P= 0.80),两者都不是(F1,25= 0.79;P= 38)。由于重复测量只有2个水平,因此满足球形假设。为了检验假设4,我们分别对实际平衡呼吸检测准确率和感知检测准确率项目进行Pearson相关检验。这测试了所发现的相关性是否与0不同。然后,我们将响应值的响应缩放到0到1之间(除以每个项目的最大允许值),并将它们与平衡的呼吸检测精度绘制在2个Bland-Altman图中[63来研究这些差异的趋势。

模型评价

我们还研究了该模型(不包括启发式)对收集的录音的离线检测性能。这样做有两个原因;首先,在不使用启发式的情况下,获得对模型检测性能的详细了解。因此,我们获得了更多关于模型的可移植性的信息,这些信息可以用于启发式方法不足够的其他潜在实现。其次,该评估可以作为未来工作的基线,因为它是在收集的呼吸记录上以标准化的方式离线完成的。我们考虑了每一类的ROC曲线。此外,我们还研究了该方法的精密度、召回率/灵敏度、特异性、F1评分,平衡准确性(敏感性和特异性的平均值)指标。我们包含了所有这些指标,以提供模型性能的完整图像。此外,我们分析了通过智能手机和耳机麦克风捕获的样本的检测性能。

数据排除

对于假设3.1至3.3的分析,我们排除了10%(3/30)的参与者(3名女性)。一名参与者的耳机出现了技术问题,导致他们在没有耳机的情况下进行了两次练习。另一名参与者没有断开耳机,导致他们戴着耳机做了两次练习。对于第三位参与者来说,由于呼吸非常安静,耳机无法捕捉到任何声音,而智能手机麦克风能够捕捉到一些呼气,而错过了大多数吸气。我们还将第三位参与者从线下评估中排除,因为评分者将该参与者的大部分数据标记为不清楚。如果我们包含了这个参与者,分析就会错误地转向假设,并在离线评估中任意地倾向于模型的性能。

然而,这些参与者的数据被包括在所有其他测试中,因为参与者仍然能够完成2个呼吸训练课程,尽管第三个参与者收到了非常错误的呼吸反馈。对于后者,该模型预测99.46%的耳机通话和93.53%的智能手机通话为无呼吸,因为大部分捕捉到的声音都是完全无声的。

伦理批准

苏黎世瑞士联邦理工学院伦理委员会(ID 2021-N-134)批准了这项研究,我们对3名参与者(1名女性)进行了预测试。


可靠性检查

我们计算了可靠性检查(表4),使用McDonald ω来测量UES-SF及其子量表,以及测量PE和感知松弛效果(PE结构的第1项和第5项)。各量表的数据均符合正态分布检验。

表4。每个调查结构的可靠性测试。
构建和子量表(项目数) 麦当劳ω
用户粘性得分简表(12) 0.78

集中注意力(3) 0.53

感知可用性(3) 0.58

审美情趣(3) 0.79

奖励因素(3) 0.82
感知有效性(6) 0.58
感知放松效果(2) 0.85

假设测试

用户参与

Wilcoxon检验显示,受试者的ue高于中性反应(平均3.77,标准差0.43)(W= 459;P<措施)。所有子量表也存在差异:集中注意力(平均值3.22,标准差0.66;W= 245;调整P=.15),感知可用性牧师(平均3.90,标准差0.66;W= 348;调整P<.001),审美吸引力(平均值4.00,标准差0.547;W= 406;调整P<.001),奖励因子(均值3.97,标准差0.69;W= 390;调整P<措施)。

有效性

报告的PE高于中性反应(平均4.08,标准差0.49),如Wilcoxon检验(W= 465;调整P<措施)。此外,对于感知到的放松效果(平均值3.82,标准差0.95),Wilcoxon检验表明有积极作用(W= 358;调整P<措施)。

呼吸检测性能

重复测量方差分析显示,使用耳机(F1,25= 17.61;P<.001)和启发式(F1,25= 6.23;P=.02)对模型检测性能的影响。分析并没有显示耳机的使用和启发式(F1,25= 3.39;P=。08)。此外,没有发现性别与耳机使用的相互作用(F1,25= 0.11;P=.74),使用启发式(F1,25= 0.25;P=.62),或两者皆有(F1,25= 2.53;P=点)。此外,没有发现性别对受试者之间的影响(F1,25= 1.38;P= 0。25)图9说明估计的边际均值。

图9。边际图表示了当使用不同设备(智能手机和耳机)和模型模式(无启发式和启发式)时的效果和交互。此外,还描述了女性和男性参与者之间的差异。
查看此图
感知呼吸检测性能

通过7点李克特量表(平均5.17,SD 1.75)和0到100滑块(平均71.17,SD 28.68)报告的感知呼吸检测精度与呼吸检测器的实际性能有一定的相关性(平均0.69,SD 0.08)。李克特量表显示出更强的相关性(r= 0.51;P<.001),实际检测性能比通过滑块报告的感知精度(r= 0.48;P<措施)。然而,两种相关性都是显著的。布兰德-奥特曼情节(图10)表明,当实际呼吸检测的准确性较低时,参与者高估了准确性。同时,在实际检测精度较高的情况下,低估了检测精度。

图10。测量感知呼吸检测准确性的2个项目的Bland-Altman图。较大的差值低估了实际检测精度,较小的差值高估了检测精度。一致性的限制被设置为1.96标准差,这产生95%的ci为差异的平均值。
查看此图

离线呼吸检测模型评估

对模型进行离线评估(无启发式),吸气、呼气和非呼吸音的曲线下面积分别为0.83、0.87和0.91 (图11).通过捕获设备对精度、召回率/灵敏度、特异性和平衡准确性进行分组的详细结果见表5

图11。在研究中使用的呼吸音阈值处的ROC曲线(左)和混淆矩阵(右)。两者都是根据在研究参与者的呼吸训练过程中收集的所有数据为部署的模型计算的。ROC:接收机工作特性。
查看此图
表5所示。模型在研究期间捕获的数据上的性能度量。
类别和设备 精度 召回/敏感性 特异性 F1分数 平衡精度
呼气

结合 0.85 0.59 0.93 0.69 0.76

智能手机 0.84 0.66 0.91 0.74 0.78

耳机 0.86 0.51 0.94 0.64 0.73
吸入

结合 0.67 0.40 0.95 0.50 0.68

智能手机 0.68 0.52 0.93 0.59 0.73

耳机 0.65 0.26 0.97 0.37 0.61
呼吸者

结合 0.62 0.96 0.63 0.75 0.79

智能手机 0.65 0.92 0.73 0.76 0.82

耳机 0.59 0.99 0.53 0.74 0.76
所有课程(平均)

结合 0.71 0.65一个 0.84 0.65 0.74b

智能手机 0.72 0.70一个 0.86 0.70 0.78b

耳机 0.70 0.59一个 0.81 0.59 0.70b

一个对应Kelleher等人的多类平衡精度[64].

b对应于Urbanowicz和Moore的多类平衡精度[58].


主要研究结果

总的来说,Breeze 2的反响很好,30名参与者都可以处理它的各个方面。此外,所有参与者(30/30,100%)都成功地进行了两次3分钟的呼吸训练。

根据ue,参与者认为Breeze 2具有吸引力,这与中性反应有显著差异。因此,我们的数据支持假设1。对注意力集中、感知可用性、审美吸引力和奖励因素的深入分析表明,参与者特别喜欢体验的美学和感知奖励因素,显著高于中性反应。由于可靠性得分较低,对注意力集中和感知可用性得分的解释不如其他两个子量表具有结论性。然而,平均感知可用性很高,确实与中性反应有显著差异。然而,尽管中性反应的平均得分有积极倾向,但集中注意力的得分并没有显著高于中性反应。这一发现表明,参与者只是适度地沉浸在体验中。

全神贯注的感觉很重要,因为这可能会导致一种心流状态,帮助人们集中注意力,并将任务视为有益和有趣的[65].一个可能的解决方案是尝试不同的呼吸训练方式,如虚拟现实设置,因为这种设置显示出正念练习的前景[2466].然而,这将破坏干预的可伸缩性目标的目的。另一种方法可能是引入更多占主导地位的短期反馈回路[65在训练期间培养沉浸感,因为体验的整体奖励因素已经很高了。然而,这种反馈循环需要小心执行,因为过于强烈和令人兴奋的循环可能会抵消训练的目标效果(例如,放松)。

我们的数据也支持假设2.1和2.2,因为PE和感知松弛效果显著高于中性反应。然而,尽管知觉放松有效性的信度得分较高,但对PE的信度得分相对较低。因此,对后者的得分应谨慎解读。我们认为,这种低可靠性可能是因为PE量表包括感知放松效果量表和其他几个项目询问呼吸训练的不平等感知方面。例如,少数参与者(5/ 30,17 %)在训练中没有感到放松,但仍然认为遵循指示并将注意力集中在呼吸上很容易。这一事实得到了支持,即感知松弛有效性子量表产生了高信度,而其平均值低于整体有效性量表。然而,分析支持假设2和假设3,这意味着参与者总体上认为Breeze 2在引导他们的呼吸方面是有效的,最重要的是,它能给人一种放松的感觉。结果与先前的工作一致[3454].

关于启发式对检测性能影响的分析表明,启发式对整体检测性能有显著提高,因此支持假设3.1。使用耳机麦克风而不是智能手机的内置麦克风对检测性能产生了更大的负面影响。这种更大的负面影响支持假设3.2。我们认为这有两个原因。首先,智能手机麦克风的使用允许模型通过产生的气流来检测呼气。最初的模型评估表明,这种方法比声波探测效果更好。其次,现代蓝牙耳机针对语音进行了优化,因此,使用滤波器来减少音频信号中的噪音(例如,Apple AirPods第二代使用[56])。呼吸的声音非常接近噪音(例如,白噪音),因此,触发这些减少算法。

因此,在信号传递到模型之前,耳机可能会严重抑制呼吸信号。这两个原因对观察到的负面影响有多大影响尚不清楚,因为数据标签没有区分声捕获的呼气和通过气流捕获的呼气。关于假设3.3,我们没有观察到任何基于参与者性别的被试之间对检测性能的影响。

此外,我们的研究结果支持假设4,即感知呼吸检测准确性与实际检测性能显着相关。因此,感知呼吸检测的准确性似乎有助于捕捉反馈被感知的清晰程度以及算法执行的好坏。我们观察到,当检测器的实际性能分别较低和较高时,参与者高估和低估了检测器的性能。这种高估和低估可能表明,即使在模型性能不足的情况下,Breeze 2中特定的呼吸反馈实现也会给用户一种有效反馈的感觉。在进行研究时,我们观察到参与者对李克特量表的项目比基于滑块的项目感觉更舒服。因此,我们计划在未来的研究中使用李克特量表项目来监测感知呼吸检测的准确性,以防在现场部署Breeze 2时需要对反馈机制进行更改。

对于没有启发式的模型,与原始测试数据集相比,检测性能明显下降。造成这种情况的原因是多方面的。呼吸声训练和原始测试数据集在同一设置中捕获[21].这种设置也与本研究中使用的设置有很大不同。在这项研究中,参与者第一次在现实环境中使用Breeze 2,他们将设备拿在手中,但对他们来说很舒服。

因此,声音捕捉是在一个少得多的监管方式完成。此外,训练数据只使用了训练和测试数据集之间共享的最小数量的设备,而本研究使用了模型看不到的智能手机和耳机。耳机也提出了一个更复杂的检测问题,从关于假设3.2的分析中可以看出。我们对一个更复杂的检测问题的想法得到了进一步的支持,通过观察,所有的模型性能指标都大大提高了,只有通过智能手机麦克风捕获的数据。这种效应对吸入检测性能的影响要大得多。我们通过观察来解释这一点,即吸入本身已经是非常安静的声音,因此已经很难检测到。耳机产生的衰减进一步强化了这个问题。

尽管如此,该模型对于两种设备类型的呼气声仍然表现得相当好。呼气检测性能受到影响,尤其是灵敏度。然而,低灵敏度并不那么重要,因为该模型每秒运行高达30次的推理,并且该模型对呼气产生了很高的精度。这一推理得到了这样一个事实的支持,即参与者在大多数会议中高估了模型的性能(44/ 60,73%),即使模型确实表现不佳。因此,尽管存在明显的缺陷,该模型似乎已经可以用于呼吸训练中的交互性。

局限性和未来工作

优化Breeze是一个迭代的过程,因此,它有一些限制。基于幻灯片的教程不是很吸引人,还没有提供呼吸训练细节的足够指导。我们计划通过提供基于视频的指导来改进教程。此外,我们正在考虑实现一个交互式教程,以确保用户能够正确地执行呼吸训练,并在他们开始实际的训练之前立即给他们反馈。除了过于基础的教程之外,Breeze 2还没有提供一个足够的机制来指导用户选择合适的训练时间和呼吸模式,除了根据他们的呼吸训练专业水平标记不同的持续时间。我们计划开发交互式测试,以衡量用户的能力并对他们的体验水平进行分类(例如,基于一个人可以吸入或呼出的最长时间,或基于用户最大生理反应的共振频率)。这样的测试将允许我们向用户提供一些训练参数,以适合他们的水平。最后,我们计划了各种研究,将Breeze 2作为多成分干预的干预组成部分(例如,旨在预防非传染性疾病的干预,减少癌症患者的痛苦,或减少学生群体的急性压力)。

本研究在检测模型及其性能方面也存在一定的局限性。共有2名评分员独立完成了标签工作,在后续过程中对分歧进行了认真处理。因此,对标签的正确性有很高的信心。然而,在结果数据集中,1.51%的录音被标记为不清楚。不清楚的部分没有用于进一步分析,可能导致对呼吸检测性能的略微高估。

此外,呼吸可以是非常安静的,因此,有时可能不会被麦克风捕捉到,或者可能被所用硬件(例如,蓝牙耳机)中的算法主动抑制。因此,报告的检测性能应视为所使用设备可捕获的呼吸声音的检测性能。此外,我们在最小数据集上训练模型。尽管大多数参与者认为该模型表现良好,但仍有改进的余地。通过这项研究,我们通过收集新数据迈出了第一步,我们将使用这些数据来改进未来部署的模型。

结论

本文介绍了游戏式呼吸训练应用Breeze的新版本Breeze 2。它由一个慢节奏的呼吸训练由游戏可视化和使用呼吸为基础的互动指导。此外,它允许用户选择训练参数,包括训练时间和呼吸模式。这些特征应该能改善长期坚持呼吸训练,支持个人正确地进行呼吸训练,并帮助不断增加训练强度。为了深入了解Breeze 2是否具有吸引力和有效性,以及所使用的呼吸检测的性能,我们对30名参与者进行了实验室研究。结果显示,大多数参与者(28/ 30,93%)认为Breeze 2具有吸引力和有效性。

此外,呼吸检测在大多数参与者的会话中表现足够好(50/60,83%),如感知检测精度和实际检测精度所示。我们将这些例外归因于耳机的噪音过滤和这些参与者非常安静的呼吸,即使是进行标记的评分者,在录音中也听不到。我们将使用收集到的呼吸声音来改进呼吸检测,使其更稳定,提高其性能。未来的工作将使用Breeze 2作为预防和管理非传染性疾病的各种研究的干预工具。

致谢

作者要感谢Helen Galliker对Breeze 2开发的支持。此外,作者要感谢Shari Klein在本研究的分析和写作阶段提供的宝贵反馈和支持。本研究由瑞士CSS保险公司共同资助。CSS保险在研究设计、应用程序设计、数据管理计划或数据分析和结果解释中没有作用。

作者的贡献

YXL担任Breeze 2的主要开发者,并构思了呼吸检测方法。YXL和GWT设计并进行了用户研究。TK对Breeze 2的开发和研究设计提供了建议。YXL使用来自GWT的输入执行统计分析。YXL撰写报告,GWT和TK对稿件进行反馈。所有作者都审阅并批准了最终稿件。

利益冲突

YXL、GWT、EF和TK隶属于数字健康干预中心,该中心是瑞士苏黎世联邦理工学院管理、技术和经济系与圣加仑大学技术管理学院联合发起的一项倡议,部分资金由瑞士健康保险公司CSS提供。CSS没有参与研究设计、数据收集或结果分析和解释。EF和TK也是Pathmate Technologies的联合创始人,Pathmate Technologies是一家从大学衍生出来的公司,负责创建和提供数字临床路径。Pathmate Technologies不参与本文中描述的学习应用程序。

多媒体附录1

屏幕记录呼吸训练会议与微风2。

MOV文件,188753 KB

多媒体附录2

在用户研究中使用的问卷。

PDF档案(adobepdf档案),12093 KB

  1. GBD 2017死亡原因合作者。1980-2017年195个国家和地区282种死因的全球、区域和国家年龄性别特异性死亡率:2017年全球疾病负担研究的系统分析柳叶刀2018年11月10日;392(10159):1736-1788 [免费全文] [CrossRef] [Medline
  2. 李建军,李建军,李建军,等。中国慢性疾病的流行病学研究进展,2017。PLoS One 2020 May 5;15(5):e0232346 [j]免费全文] [CrossRef] [Medline
  3. 李建军,张建军,张建军,等。18个国家非传染性疾病造成的家庭经济负担。英国医学杂志,2020;2 (2):e002040 [j]免费全文] [CrossRef] [Medline
  4. 心率变异性生物反馈的前景:基于证据的应用。生物反馈41 2013;(3):110 - 120。[CrossRef
  5. Lehrer PM, Gevirtz R.心率变异性生物反馈:如何以及为什么起作用?前沿心理杂志2014年7月21日;5:756 [免费全文] [CrossRef] [Medline
  6. Russell ME, Scott AB, Boggero IA, Carlson CR.横膈膜呼吸的休息期增加高频心率变异性:行为治疗的意义。心理学报,2017;54(3):358-365 [j]免费全文] [CrossRef] [Medline
  7. 舒默MC,林赛EK,克雷斯韦尔JD。消极情绪的简短正念训练:系统回顾和元分析。中华精神病学杂志;2018;36 (7):569-583 [J]免费全文] [CrossRef] [Medline
  8. Goessl VC, Curtiss JE, Hofmann SG。心率变异性生物反馈训练对压力和焦虑的影响:荟萃分析。中华精神医学杂志,2017;47(15):2578-2586。[CrossRef] [Medline
  9. Siepmann M, Aykac V, Unterdörfer J, Petrowski K, Mueck-Weymann M.心率变异性生物反馈对抑郁症患者和健康受试者影响的初步研究。应用心理学报,2008;33(4):195-201。[CrossRef] [Medline
  10. 王明明,叶立明。呼吸训练干预改善心力衰竭患者健康状况:随机对照试验的系统评价和网络荟萃分析。2019年9月26日;7(18):2760-2775 [J]免费全文] [CrossRef] [Medline
  11. Mendes LP, Moraes KS, Hoffman M, Vieira DS, Ribeiro-Samora GA, Lage SM,等。慢性阻塞性肺病患者带和不带闭口呼吸的横膈呼吸的影响。中华呼吸外科杂志,2019,32 (2):359 - 361 [j]免费全文] [CrossRef] [Medline
  12. 罗索MA, Santarelli DM, O'Rourke D.慢呼吸对健康人的生理影响。Breathe (Sheff) 2017; 12;13(4):298-309 [j]免费全文] [CrossRef] [Medline
  13. Magnon V, Dutheil F, Vallet GT。对年轻人和老年人迷走神经张力和焦虑的益处。Sci Rep 2021 Sep 29;11(1):19267 [j]免费全文] [CrossRef] [Medline
  14. 林敏,邰丽,范思义。呼吸频率为每分钟5.5次,吸入呼出比相等,会增加心率变异性。中华心理医学杂志,2014;31(3):391 - 391。[CrossRef] [Medline
  15. 伯吉斯西南。多迷走神经透视。中国生物医学工程学报(英文版);21 (2):391 - 391 [j]免费全文] [CrossRef] [Medline
  16. 鲍梅尔A, Muench F, Edan S, Kane JM。心理健康应用的客观用户参与度:系统搜索和基于面板的使用分析。医学与互联网研究,2019年9月25日;21(9):e14567 [J]免费全文] [CrossRef] [Medline
  17. 刘建军,刘建军,刘建军,刘建军。基于应用程序的慢性疾病干预措施的研究进展。[J]医学互联网研究,2020,Sep 29;22(9):e20283 [J]免费全文] [CrossRef] [Medline
  18. 李建军,李建军,李建军。游戏化在教育中的应用研究。教育技术学报,2015;18(3):75-88。
  19. Johnson D, Deterding S, Kuhn KA, Staneva A, Stoyanov S, Hides L.健康和幸福的游戏化:文献的系统回顾。互联网访谈2016年11月2日;6:89-106 [qh]免费全文] [CrossRef] [Medline
  20. Pham Q, Khatib Y, Stansfeld S, Fox S, Green T.管理焦虑的移动健康游戏的可行性和有效性:“flow”随机对照试验和设计评估。游戏与健康杂志2016;5(1):50-67。[CrossRef] [Medline
  21. Shih CH, Tomita N, Lukic YX, Reguera ÁH, Fleisch E, Kowatsch T. Breeze:基于智能手机的呼吸阶段声实时检测游戏化生物反馈呼吸训练。ACM交互暴民可穿戴无所不在技术2019年12月11日;3(4):1-30。[CrossRef
  22. Agrawal V, Naik V, Duggirala M, Athavale S. Calm是一款基于生物反馈的手机深呼吸游戏。见:2020年人机交互在游戏中的年度研讨会扩展摘要。2020年11月发表于:CHI Play '20;2020年11月2-4日;虚拟第153-157页。[CrossRef
  23. Tabor A, Pradantyo R, Sadprasid B, Birk MV, Scheme E, Bateman S.泡泡呼吸器-一个支持肺炎康复和恢复的呼吸练习游戏。见:2020年人机交互在游戏中的年度研讨会扩展摘要。2020年11月发表于:CHI Play '20;2020年11月2-4日;虚拟第86-90页。[CrossRef
  24. 帕特班达R,米勒FF, Leskovsek M,达克沃斯J.生命树:理解呼吸运动游戏的设计。参见:人机交互在游戏中的年度研讨会论文集。2017,发表于:CHI Play '17;2017年10月15日至18日;阿姆斯特丹,荷兰,第19-31页[CrossRef
  25. 魏德梅斯特,范rooij MM, Maciejewski DF, Engels RC, Granic I.虚拟现实生物反馈视频游戏效果的随机对照研究:焦虑结果和评价过程。科技思维行为2021 Aug 05;2(2):tmb0000028。[CrossRef
  26. 陈建军,陈建军,李建军,等。生物反馈辅助呼吸训练对囊性纤维化患者肺功能的影响。1994年1月;105(1):23-28。[CrossRef] [Medline
  27. Kaushik R, Kaushik RM, Mahajan SK, Rajesh V.生物反馈辅助膈肌呼吸和系统放松与心得安对偏头痛的长期预防作用。补体医学2005 Sep;13(3):165-174。[CrossRef] [Medline
  28. 刘建军,张建军。信息系统的游戏化研究。参见:第22届欧洲信息系统会议论文集。2014年发表于:ECIS '14;2014年6月9-11日;特拉维夫,以色列,第1-17页。
  29. 刘德华,张建军,张建军。面向有意义参与的游戏化信息系统设计与研究。MIS Q 2017四月4;41(4):1011-1034。[CrossRef
  30. Hunter JF, Olah MS, Williams AL, Parks AC, Pressman SD。通过智能手机应用程序进行简短生物反馈对压力恢复的影响:随机实验研究。JMIR严肃游戏2019年11月26日;7(4):e15974 [免费全文] [CrossRef] [Medline
  31. Faust-Christmann CA, Taetz B, Zolynski G, Zimmermann T, Bleser G.一种生物反馈应用程序指导腹部呼吸(呼吸-导师):试点实验。JMIR Mhealth Uhealth 2019 Sep 30;7(9):e13703 [j]免费全文] [CrossRef] [Medline
  32. Shaffer F, Ginsberg JP。心率变异性指标和规范概述。前沿公共卫生2017 Sep 28;5:258 [免费全文] [CrossRef] [Medline
  33. Lukic YX, Shih CH, Hernandez Reguera A, Cotti A, Fleisch E, Kowatsch T.游戏呼吸训练应用程序的生理反应和用户反馈:受试者内实验。JMIR严肃游戏2021 Feb 08;9(1):e22802 [免费全文] [CrossRef] [Medline
  34. 吕基克,李建平,李建平,张建平,张建平。呼吸训练可视化对内在体验价值、感知效果和参与意向的影响:一项在线实验。JMIR严肃游戏2021 9月14日;9(3):e22803 [免费全文] [CrossRef] [Medline
  35. Islam B, Rahman MM, Ahmed T, Ahmed m, Hasan MM, Nathan V等。BreathTrack:从智能手机捕获的未注释的声学数据中检测有规律的呼吸阶段。Proc ACM交互暴民可穿戴无所不在技术2021 Sep 09;5(3):1-22。[CrossRef
  36. Fischer T, Schneider J, Stork W.使用智能手机在家庭环境中录制的音频数据对呼吸和打鼾声音进行分类。2016年IEEE声学、语音和信号处理国际会议论文集,发表于:ICASSP '16;2016年3月20-25日;上海,中国,第226-230页。[CrossRef
  37. 刘建军,刘建军,张建军,张建军。基于深度学习的睡眠呼吸障碍声事件检测方法研究。2019年IEEE声学、语音和信号处理国际会议论文集,发表于:ICASSP '19;2019年5月12日至17日;布莱顿,英国,第810-814页。[CrossRef
  38. 任勇,王超,杨军,陈勇。精细睡眠监测:智能手机聆听呼吸。2015年IEEE计算机通信会议论文集,提交日期:INFOCOM '15;2015年4月26日至5月1日;中国香港1194-1202页。[CrossRef
  39. 李建军,李建军,李建军,李建军,等。基于可穿戴式麦克风的呼吸频率分析。中国生物医学工程学报(英文版);2021(11):7310-7315。[CrossRef] [Medline
  40. 张量流模型:YAMNet。GitHub。2021年9月9日URL:https://github.com/tensorflow/models/tree/master/research/audioset/yamnet[2021-08-20]访问
  41. Freesound。URL:https://freesound.org/[2022-08-10]访问
  42. Piczak KJ。ESC:环境声音分类数据集。参见:第23届ACM国际多媒体会议论文集。2015提交于:MM '15;2015年10月26日至30日;澳大利亚布里斯班,第1015-1018页。[CrossRef
  43. Howard AG,朱明,陈斌,Kalenichenko D,王伟,Weyand T,等。MobileNets:用于移动视觉应用的高效卷积神经网络。arXiv 2022预印本于2017年4月17日在线发布。[免费全文] [CrossRef
  44. 李建军,李建军,李建军,等。音频集:音频事件的本体和人工标记数据集。2017年IEEE声学、语音和信号处理国际会议论文集,发表于:ICASSP '17;2017年3月5日至9日;新奥尔良,洛杉矶,美国第776-780页。[CrossRef
  45. 庄峰,祁忠,段康,席东,朱勇,朱华,等。迁移学习研究综述。[j] .电子工程学报,2011;39(1):444 - 444。[CrossRef
  46. 李建军,李建军,李建军,等。一种低延迟直接触摸输入的设计方法。参见:第25届ACM用户界面软件与技术研讨会论文集。2012,发表于:UIST '12;2012年10月7-10日;剑桥,马萨诸塞州,美国第453-464页。[CrossRef
  47. Deber J, Jota R, Forlines C, Wigdor D.多快才算够快?:用户对延迟的感知&直接和间接触摸的延迟改进。第33届ACM计算系统中人因会议论文集。2015年4月发表于:CHI '15;2015年4月18日至23日;韩国首尔(1827-1836)[CrossRef
  48. van der Maaten L, Hinton G.利用t-SNE可视化数据。[J] .中文信息学报,2008;9(11):2579-2605。
  49. 李建平,李建平,李建平。搜索激活函数。arXiv 2022预印本于2017年10月27日在线发布。[免费全文] [CrossRef
  50. Youden WJ。评级诊断测试的索引。巨蟹座1950年1月;3(1):32-35。[CrossRef] [Medline
  51. Abadi M, Barham P, Chen J, Chen Z, Davis A, Dean J,等。TensorFlow:用于大规模机器学习的系统。参见:第十二届USENIX操作系统设计与实现研讨会论文集。2016年发表于:OSDI '16;2016年11月2日至4日;萨凡纳,佐治亚州,美国。
  52. A.呼吸功能的性别差异。呼吸(Sheff) 2018 Jun;14(2):131-140 [j]免费全文] [CrossRef] [Medline
  53. O 'Brien HL, Cairns P, Hall M.一种用改进的用户参与度量表(UES)和新的UES简短形式衡量用户参与度的实用方法。[J] .计算机工程学报,2018,(4):28-39。[CrossRef
  54. Chittaro L, Sioni R.评估呼吸训练的移动应用:可视化的有效性。计算机人类行为2014年11月;40:56-63。[CrossRef
  55. efendiki E, Van de Calseyde PP, Evans AM。缓慢的响应时间削弱了人们对算法(而不是人类)预测的信任。器官行为学进展[j]; 2010; 37(1):1 - 4。[CrossRef
  56. AirPods(第二代)与充电盒-技术规格。苹果公司URL:https://support.apple.com/kb/SP792[2022-03-10]访问
  57. 麦当劳RP。测试理论:一种统一的治疗方法。伦敦,英国:心理学出版社;2013.
  58. 刘建军,刘建军。ExSTraCS 2.0:描述和评估一个可扩展的学习分类器系统。进化情报2015 Sep;8(2):89-116 [j]免费全文] [CrossRef] [Medline
  59. Velez DR, White BC, Motsinger AA, Bush WS, Ritchie MD, Williams SM等。基于多因素降维的不平衡数据集上位性建模的平衡精度函数。遗传流行病学杂志2007;31(4):306-315。[CrossRef] [Medline
  60. Shapiro SS, Wilk MB.正态性方差检验分析(完整样本)。Biometrika 1965 Dec 01;52(3/4):591-611。[CrossRef
  61. 对概率和统计的贡献:纪念哈罗德·霍特林的论文。美国加州斯坦福:斯坦福大学出版社;1960.
  62. Brown MB, Forsythe AB.方差相等的稳健性检验。社会科学进展[J]; 2004(2): 1 - 7。[CrossRef
  63. 布兰德JM,奥特曼DG。评估两种临床测量方法一致性的统计方法。柳叶刀1986 Feb 08;1(8476):307-310。[Medline
  64. Kelleher JD, Mac Namee B, D'arcy A.预测数据分析的机器学习基础:算法,工作示例和案例研究。美国马萨诸塞州剑桥:麻省理工学院出版社;2015.
  65. coley B, Charles D, Black M, Hickey R.关于电子游戏流的理解。计算机娱乐2008;6(2):1-27。[CrossRef
  66. Roo JS, Gervais R, Frey J, Hachet M.内心花园:将内心状态与正念的混合现实沙盒联系起来。参见:2017 CHI计算系统中人因会议论文集。2017提交时间:CHI '17;2017年5月6日至11日;丹佛,科罗拉多州,美国第1459-1470页。[CrossRef


BPM:每分钟呼吸次数
HRV:心率变异性
非传染性疾病:非传染性疾病
体育:感知的有效性
中华民国:接收机工作特性
问题:用户粘性评分
UES-SF:用户粘性量表简表
YAMNet:另一个移动网络


编辑:N Zary;提交06.05.22;H Li, A Teles, N Chalghaf的同行评审;对作者的评论30.05.22;收到修改版本28.06.22;接受21.07.22;发表16.08.22

版权

©Yanick Xavier Lukic, Gisbert Wilhelm Teepe, Elgar Fleisch, Tobias Kowatsch。最初发表于JMIR严肃游戏(https://games.www.mybigtv.com), 16.08.2022。

这是一篇基于知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)的开放访问文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是原始作品首先在JMIR Serious Games上发表,并适当引用。必须包括完整的书目信息,到https://games.www.mybigtv.com上原始出版物的链接,以及版权和许可信息。


Baidu
map