JMIR mHealth和uHealth -使用瞬时评估和机器学习来识别1型糖尿病自我管理的障碍:观察性研究

原始论文

¹美国田纳西州纳什维尔市范德堡大学工程学院计算机科学系

²美国田纳西州纳什维尔范德堡大学数据科学研究所

^3.范德堡大学生物统计学系，纳什维尔，田纳西州，美国

⁴美国新泽西州霍博肯史蒂文斯理工学院计算机科学系

⁵美国田纳西州纳什维尔范德比尔特大学医学中心儿科

⁶美国田纳西州纳什维尔范德堡大学医学中心生物医学信息系

⁷美国田纳西州纳什维尔市范德堡大学护理学院

通讯作者:

张鹏博士

计算机科学系

工程学院

范德比尔特大学

第十八大道1400号

Rm 2023

纳什维尔，田纳西州，37212

美国

电话:1 615 343 8630

电子邮件:peng.zhang@vanderbilt.edu

背景:对于患有1型糖尿病(T1D)的青少年来说，由于社会心理和环境障碍，完成多项日常自我管理任务，如监测血糖和注射胰岛素，可能具有挑战性。这些障碍很难通过传统的回顾性回忆准确而具体地评估。生态瞬间评估(EMA)使用移动技术来评估日常生活中围绕自我管理决策的环境、主观体验和心理社会过程。然而，通过EMA生成的丰富数据并没有在T1D中频繁检查，也没有与机器学习分析方法集成。

摘要目的:本研究的目标是开发一种机器学习算法，以预测患有T1D的年轻人缺乏自我管理的风险。为了实现这一目标，我们通过学习过滤架构训练并比较了许多机器学习模型，以探索EMA数据与完成两种自我管理行为(用餐时间血糖自我监测(SMBG)和胰岛素管理)的关联程度。

方法:我们使用基于机器学习的过滤架构分析了来自随机对照试点研究的数据，以调查与上下文、社会心理和时间相关因素(即一天中的时间)相关的新信息是否与自我管理有关。我们通过MyDay移动应用程序将ema收集的上下文变量和胰岛素变量与蓝牙血糖数据结合起来，构建机器学习分类器，预测感兴趣的两种自我管理行为。

结果:通过对45名参与者的1231个日水平SMBG频率计数，人口统计学变量和时间相关变量能够预测每日SMBG是否低于每天4次的临床阈值。使用从31名参与者的基于应用程序的EMA数据中获得的1869个数据点，我们学习的过滤架构方法能够以较高的准确性和精度推断不依从事件。尽管回忆得分很低，但模型识别出的非依从性事件是真正的非依从性的可信度很高。

结论:将EMA数据与机器学习方法相结合，显示出与不依从风险之间的关系。接下来的步骤包括收集更大的数据集，这将更有效地支持分类器，从而可以部署来推断个人行为。个人自我管理见解的改善，行为风险预测，增强临床决策，以及糖尿病患者的及时支持都可能来自这种类型的方法。

JMIR Mhealth Uhealth 2022;10(3):e21959

doi: 10.2196/21959

关键字

机器学习； 1型糖尿病；社会心理；自我管理；青少年；行为医学；生态瞬时评价；信息学；移动电话

背景

1型糖尿病(T1D)是一种常见的慢性疾病，全球报告的发病率不断上升[1，2］．这是一种自身免疫性疾病，患者的身体不产生胰岛素，需要患者每天多次执行关键的自我管理任务[3.］．T1D的两个关键自我管理任务是频繁监测血糖(BG)和注射胰岛素。这些任务有助于控制血糖，避免或延缓严重的短期和长期后果，如视网膜病变、神经病变和死亡[4-6］．用餐时间是糖尿病自我管理的关键时间。

在所有年龄组中，青少年和青壮年的血糖控制最差[4］．对于患有糖尿病的年轻人来说，成功地与T1D生活在一起尤其困难，因为自我管理存在许多潜在的心理和环境障碍[7-9］．改善自我管理的一个推荐方法包括促进和支持解决问题的技能，以减少障碍[10］．为了识别与自我管理相关的问题，患者、护理人员和临床医生必须依赖设备中的BG和胰岛素给药数据，以及患者对可能对自我管理构成障碍的行为、情绪和上下文事件的回忆。然而，使用回顾性记忆或回忆过去几天或几周的事件被认为是普遍不可靠的，在本质上有潜在的偏见[11］．在解决糖尿病问题时，对事件的不可靠回忆可能导致对胰岛素方案的不正确修改。

为了解决健康行为研究中人类回忆和偏见的局限性，生态瞬间评估(EMA)方法已经开发出来，并成功地应用于一系列健康状况。与传统的评估方法相比，EMA对影响健康行为和决策的因素进行了更频繁和在体内的动态评估。EMA方法提供了一种更接近、通常更准确、以技术为媒介的方法来监测和评估日常生活中围绕健康决策的背景、主观经验和过程[12，13］．特别是，EMA方法提供更相关和更频繁的人均观察，并生成丰富的数据，以更准确地评估健康行为的相关因素，并确定新的干预相关因素[14］．

EMA文献中的许多研究通常使用混合效应或分层线性建模[15，16］．这种分析方法不提供自动分析的方法，也不使用学习算法来改进和集成传入的数据。一种有前途的识别这种模型的方法包括将EMA与与机器学习相关的技术和工具集成在一起，这是一种数据分析方法，通过识别模式和在最小的人为干预下做出决策来自动化统计模型的构建[17，18］．机器学习已经用于可穿戴传感器数据，也可能用于分析密集的自我报告数据，如EMA。机器学习技术通过为更可行的行为干预提供自动分类和预测，为检查大小数据提供了一种可行的方法。

客观的

我们研究的目标是开发一种机器学习算法来预测错过自我管理的风险。我们试图确定影响T1D自我管理的瞬间社会心理和环境因素，如EMA评估的那样。为了实现这些目标，我们通过学习过滤架构(LFA)训练和比较了许多机器学习模型，以探索EMA数据在多大程度上可以预测两种自我管理行为的完成:胰岛素给药和血糖自我监测(SMBG)。通过整合这两种策略(EMA和机器学习)，我们的目标不仅是从行为角度为研究人员更好地理解可能阻碍或促进青少年坚持T1D方案的因素，而且是一种高效和自适应的分析计算方法。

研究设计与设置

这些子分析分析了来自移动EMA和名为MyDay的反馈应用程序的可行性试验的数据，该应用程序是为青少年T1D患者设计的自我管理反馈和解决问题的工具[19］．范德比尔特埃斯金德儿科糖尿病诊所邀请青少年参加为期30天的评估期，条件是:(1)年龄在13至19岁之间，(2)被诊断患有T1D至少6个月，(3)拥有Android或iPhone智能手机，(4)能听懂并说英语，(5)愿意在研究期间使用蓝牙血糖仪[1］．该研究由范德比尔特大学机构审查委员会(irb# 150685)审查并批准。在青少年同意之前，所有家长都同意。在研究程序开始前，已获得同意和同意。

参与者

试验性研究共招募了48名参与者。在48名参与者中，3人(6%)退出了研究，注意到竞争需求，剩下45人(94%)供我们分析。参与者以2:1的比例随机分配到MyDay应用程序+蓝牙BG(仪表组31/ 44,69%)和对照组(14/ 44,31%)。对照组仅使用蓝牙BG仪提供SMBG数据，但不使用MyDay应用程序。MyDay的设计流程、用户粘性和瞬时关系结果此前已发布[19-21］．

瞬时评估和血糖仪数据

所有SMBG数据均使用iHealth进行客观评估[22葡萄糖测定仪。iHealth血糖仪是市售蓝牙低能仪，可通过其开放应用程序编程接口自动将数据上传到iHealth安全云服务器。在45名参与者中，31名(69%)参与者被要求在每次用餐时间和睡觉时间使用MyDay应用程序回答有关可能影响糖尿病自我管理的因素的问题。

MyDay提供通知，以完成参与者确定的典型用餐时间个性化的EMA评估。时间戳与所有数据条目相关联。在分析中仅使用了用餐时间EMA。与自我管理结果相关的变量被组织成子集。收集所有参与者的前两个变量域:(1)人口统计资料基线数据(即性别、年龄、父亲受教育程度、母亲受教育程度、家庭收入、种族)和(2)时间变量使用收集到的数据条目的原始时间戳进行编码(例如，工作日、周末和用餐时间[早餐、午餐和晚餐])。

以下三个领域的EMA数据仅适用于使用MyDay应用程序的31名参与者:(3)社会环境与青少年在自我管理时谁在一起有关(如父母、兄弟姐妹、独自一人、普通朋友、亲密朋友、其他家庭、其他人、陌生人、男朋友或女朋友)，以及青少年在自我管理时在哪里(如家里、学校、工作、餐馆、朋友家或在路上);（4）压力,疲劳,而且情绪报告的自我管理事件的水平，得分为0到100，得分越高表明压力越大，越疲劳，消极情绪越严重;(5)情境选择障碍在自我管理事件发生时(即参与者匆忙、生病、在路上、饥饿、想要隐私、忙碌、没有用品或玩得开心)。EMA数据收集过程的细节可在Zhang等人的研究中找到[20.］．

结果

我们研究了三种自我管理行为结果:

每天SMBG的频率＜4或≥4每天数次;通常认为每天检查4次葡萄糖是推荐的最低量[23］
吃饭时错过了SMBG
进餐时注射胰岛素

所有45名参与者的数据均可用于分析从米计算的SMBG日数量。所有参与者可用的数据都是人口统计学和时间变量。结果2和3的分析检查了使用MyDay EMA应用程序的参与者的数据(31/ 45,69%)，其中包括用餐时间。

LFA方法

为了通过一系列模型的训练来提取变量域来预测胰岛素给药和SMBG自我管理行为，本研究创建了一个LFA作为副产物，Zhang等人在研究中使用了类似的过程[24，但不是正式构造的。在这项研究中，LFA创建并比较了四种机器学习模型:k-最近邻(KNN)、逻辑回归、随机森林(RF)和支持向量机。这些模型对本研究中观察到的每个行为结果进行了二元分类。

KNN通过找到每个样本在训练集中的k个最相似的实例来对其进行分类，并选择大多数相邻实例所属的类[25］．k的值是通过迭代运行k值变化的KNN模型，并选择产生最优模型的k值来确定的。逻辑回归是一种统计模型，通过使用最大似然估计方法和使用概率阈值(P=。50was used in our study as the threshold such that an output with a probability ofP≥。50was classified as true and false otherwise) to separate the 2 classes [26］．RF是一种流行的集成学习方法，它在数据集的不同部分上训练多个决策树，然后对结果求平均，以提高分类精度[27］．树的数量，或者估计，是通过运行许多具有不同估计值(如10、50和100)的RF模型，并选择产生最性能模型的值来确定的。支持向量机的工作原理是在特征空间中找到一个最优的超平面，该超平面将数据点最佳地分离到不同的类别[28］．

图1介绍了该LFA的工作流程，并展示了从MyDay app收集的SMBG数据和EMA数据被集成为一个完整的数据集，输入到LFA(步骤1和步骤2)。然后LFA进行指定的数据预处理，如对数值进行归一化，删除空项或有许多缺失特征的项，并根据每列的类型进行单热编码(步骤3)。其中，根据可配置的用户输入(如将分组以创建具有临床意义或待观察的特征子集的列名)从已清理的数据中提取变量子集。这些特征按照上面的描述进行分组，以创建多个数据子集。由于可用数据的样本量较小，每个数据子集都被进一步分割，以使用交叉验证(步骤4a和4b)评估每个分类模型。

LFA计算每个数据集的目标变量的分布。如果数据集是平衡的，它会使用k-fold交叉验证来评估每个模型，从而进一步将数据分割为训练集和验证集k乘以并生成性能指标的平均值。否则，如果类分布不均匀，则使用分层k-fold交叉验证来创建k（k=7)分割，训练集和验证集的每个分割都保持原始的类分布。性能指标是对结果的平均k不同的分裂。然后对每个指定的机器学习模型重复该过程(步骤6)。

具体来说，我们使用以下指标来评估模型:(1)准确性，即正确预测的百分比;(2)精密度，即真实阳性和所有预测阳性的比例，用于评估预测阳性中实际正确的比例;(3)查全率，即真阳性与所有实际阳性的比率，计算预测正确的实际阳性的比例;(4) F1分，平均衡量精度和召回率;(5)对于不平衡分类任务，使用Brier评分，这是一个连续评分损失函数，用于评估分类任务中预测概率的优度，数值越低，模型越强，反之亦然。

然后，过滤器组件使用分类结果在所有特征子集之间进行比较(步骤7)。过滤器组件具有可配置的容差值，用于选择与最佳表现模型相比分类结果相对较好的特征子集。接下来，LFA检查是否还有其他特征组需要处理(步骤8)，如果有，则重复特征选择以创建下一个数据子集(步骤9)，否则，过滤过程将终止并输出过滤结果;也就是说，对结果具有相对较强预测能力的变量组(步骤10)。

对分类结果进行筛选，以提取目标类别变量的最佳预测组。例如，如果整体性能指标超过了指定的阈值(例如，与所有特征一起训练的模型的性能指标相比，预测器组被添加到最终输出队列中。当对所有变量组进行评估时，LFA返回从输入中获得的最终见解;也就是说，特征组对本研究中观察到的结果具有显著的预测能力。

尽管每位参与者的观察次数相当可观(平均观察次数为60次)，但参与者的总人数相对较少(n=45次)。因此，收集到的数据在结果的分布上存在一些不平衡，餐时胰岛素缺失是一个相对不常见的事件。使用不平衡数据集构建的分类模型可能导致少数类被忽略[29］．合成少数群体过采样技术[30.]和Tomek link [31]已在文献中用于训练不平衡数据，特别是小数据集[32-35］．然而，鉴于本研究的人口规模较小，使用这种抽样方法可能会引入偏差和误导性的结果。因此，在本研究中，我们使用了分层k褶(k交叉验证[36]评估方法，而不是随机过采样或引入基于现有数据的合成样本。

在分层K-fold交叉验证中，将原始数据集随机分成k折叠。每一次折叠都被进一步分割成单独的训练集和测试集，用于生成模型的评估指标。每个训练和测试集中多数类和少数类的分布遵循原始数据集中多数类和少数类的分布。在对模型进行训练和测试之后k折叠后，对结果进行平均，以表示整体分类性能。

除了前面描述的机器学习方法外，我们还对具有大量特征但样本容量小的整个EMA数据集使用了贝叶斯层次回归模型。该方法用于确认收集到的EMA数据的推断能力，而不是关注哪个特定类别对结果的预测能力最强。

分层建模可以捕获数据集中多个参与者的相似性，同时允许对包含多个参与者的数据的单个参数进行估计。使用贝叶斯方法，整个数据集被认为是已知信息，用于推导模型的未知参数的分布。它是一种概率模型，旨在估计期望值或密度。

在我们的分析中，我们应用了马尔可夫链蒙特卡罗方法[37]以协助模型的形成和采样过程。蒙特卡罗是一种随机抽样概率分布的方法，以接近所期望的目标函数。马尔可夫链是一种抽样技术，它可以生成一系列随机样本，其中当前样本是基于先前的样本绘制的。马尔可夫链蒙特卡洛的目标是构造一个最终稳定在待推断的期望量上的马尔可夫链。具体来说，我们创建了一个非中心贝叶斯层次模型来估计SMBG和胰岛素给药的可能性。

概述

本节首先报告从我们最初的统计分析中得到的结果，然后分析根据前几节中描述的方法构建的LFA获得的结果。表1显示了样品的特征。

表1。样本特征(N=45)。

变量		值
年龄(年)，平均值(SD)		13.3 (1.7)
女性，n (%)		24 (53)
种族，n (%)
	白色	38 (84)
	非裔美国人	4 (10)
	亚洲	1 (2)
	拉美裔	1 (2)
	其他	0 (0)
父亲受教育程度，n (%)
	不到高中	1 (2)
	高中或GED^一个	13 (29)
	2年大学	7 (16)
	四年制大学	15 (33)
	研究生学位	5 (11)
	N/A^b	4 (9)
母亲受教育程度，n (%)
	不到高中	0 (0)
	高中或GED	10 (22)
	2年大学	12 (27)
	四年制大学	17 (38)
	研究生学位	2 (4)
	N/A	12 (27)
家庭收入(美元)n (%)
	< 25000	2 (4)
	25001 - 35000	3 (7)
	35001 - 75000	7 (16)
	75001 - 100000	14 (31)
	> 100000	3 (7)
	N/A	4 (9)
糖尿病病程(年)，平均(SD)		5.5 (3.7)
HbA_{1 c}^c，平均值(SD)		9.0 (1.9)
使用胰岛素泵(是)，n (%)		26 (58)

^一个普通教育发展。

^bN/A:缺失值。

^cHbA_{1 c}:血红蛋白A_{1 c}．

统计分析

使用统计方法对数据集进行预处理。首先，我们观察到数据集包含人口统计学特征中的缺失值:父亲的教育程度和家庭收入类别中都有9%(5/45)的缺失值，母亲的教育类别中有27%(12/45)的缺失值(每个类别中缺失值的百分比在我们的报告中表示为“N/A”条目)。本研究利用母亲受教育程度和父亲受教育程度特征的模态值和家庭收入特征的中值，对一个特征的缺失值进行赋值。数值顺序显著的有序分类变量(如父母受教育程度和家庭收入水平)分别转换为具有数值的单个特征，而意义可以假定的名义变量(如参与者种族和星期几)则使用one-hot编码转换为数值。每个特征都使用最小-最大缩放器进行标准化，以便该特征的所有最终值都在0到1之间。数据预处理的源代码包含在多媒体附件1．

表2-4显示具有的特性的汇总统计信息P< . 05(按升序排列)分别为目标特征(或因变量)为每日SMBG频率、遗漏葡萄糖和未注射胰岛素类别。P值是我们分析中相应特征具有统计学意义的初始指标:(1)对于每日SMBG频率，中报告的大多数特征表2属于人口统计学群体;(2)对于SMBG，来自人口统计、社会背景、障碍和压力或情绪或能量特征组的变量在报告中表3；(3)在胰岛素管理方面，报告了来自人口统计学组、时间变量、压力或情绪或能量以及障碍的变量表4．

表2。汇总统计每日自我监测血糖频率具有统计学意义的特征。

功能	系数	SE	P价值
母亲的教育	0.5221	0.062	<措施
年龄	−0.2494	0.057	<措施
男性	0.2721	0.032	<措施
父亲的教育	−0.1691	0.066	. 01

表3。总结统计血糖自我监测有统计学意义的特征。

功能	系数	SE	P价值
忙	0.1706	0.041	<措施
没有供应	0.7417	0.089	<措施
其他的家庭	0.1436	0.038	<措施
性别	−0.1543	0.019	<措施
母亲的教育	−0.1835	0.033	<措施
收入	−0.2569	0.039	<措施
父	−0.0785	0.026	<措施
黑人种族	−0.1064	0.038	. 01
休闲	−0.084	0.031	. 01
父亲的教育	0.0906	0.035	. 01
与兄弟姐妹	0.0522	0.02	. 01
在餐厅	−0.2582	0.106	02
饿了	−0.0436	0.021	.04点
其他地方	−0.2177	0.108	.045
压力+能量	0.9274	0.466	.047

表4。对胰岛素给药有统计学意义的特征进行汇总统计。

功能	系数	SE	P价值
饿了	−0.0958	0.021	<措施
没有供应	0.3703	0.091	<措施
早餐	0.1134	0.021	<措施
母亲的教育	−0.145	0.034	<措施
黑人种族	−0.1637	0.039	<措施
糖尿病倦怠	0.1495	0.047	<措施
一周的第三天	−0.2369	0.077	<措施
午餐	0.0695	0.022	<措施
忙	0.1219	0.043	<措施
一周的第二天	−0.216	0.077	. 01
一周的第四天	−0.2146	0.077	. 01
周末	−0.1999	0.078	. 01
乏力	0.0508	0.02	. 01
一周的第五天	−0.1765	0.077	02
低血糖	0.0849	0.039	03
性别	−0.0425	0.02	03
情绪	−0.0919	0.043	03
一周的第六天	−0.1602	0.077	.04点

每日SMBG频率

所有参与者的平均年龄为13岁(标准差为1.7岁);53%(24/45)为女性，84%(37/45)为白人，58%(26/45)使用胰岛素泵，受试者平均血红蛋白a_{1 c}(表示总体血糖控制)为9.03% (SD 1.91)。样本的其他特征总结在表4．

从所有参与者(n=45)使用的iHealth蓝牙计量器中总共获得了4475个BG测量值。在这项分析中，研究了人口统计学和时间变量，以确定它们是否对每天SMBG频率的结果有任何影响。测量数据每天进行汇总，以获得1231个条目的新数据集，每个参与者的每个条目是研究期间个人每天的测量总数。SMBG频率为每天1 - 12次。如果参与者在特定的一天没有报告条目，则不会假设当天的条目的SMBG日频率为0，因此不会创建当天参与者的条目。

观测到日SMBG频率的若干分布。共有591项参赛作品＜4频率和640项≥4、．在所有使用相同训练数据训练的分类器中，基于使用相同测试数据的整体分类指标，RF是表现最好的模型。表现最好的RF模型的评估结果的平均值和SD值显示在表5用于SMBG频率＜4(比较所有机器学习模型性能的源代码包含在多媒体附件1)．然后，过滤器将基准值与从每个变量组获得的结果分类结果进行比较。为过滤器配置15%的容差值，以选择具有显著预测能力的子集。如表5， SMBG频率的人口变量组的表现优于时间变量和所有变量。

表5所示。自我监测血糖<4分类结果。

功能组	准确度，平均值(SD)	精度，平均值(SD)	召回，均值(SD)	F1分数，平均值(SD)
人口统计资料	75% (0.04)	75% (0.08)	72% (0.07)	74% (0.06)
时间变量	49% (0.04)	46% (0.06)	21% (0.14)	28% (0.12)
所有	68% (0.03)	67% (0.06)	68% (0.06)	67% (0.03)

餐时未服用SMBG和胰岛素

在应用程序组(31/ 45,69%)中，共有1869个条目与早餐、午餐或晚餐有关，并用于分析可能影响SMBG和胰岛素给药的因素。漏服胰岛素true(漏检)vs false(已实施)结果的分布为1:5.72。相比之下，结果错过了SMBGtrue(漏检)和false(勾选)的类分布为1:5.44。LFA使用分层K-fold方法为每个变量组(即人口统计学、时间、社会背景和心理社会)创建了分类模型，如前所述。与之前的实验类似，与其他模型相比，RF模型在所有指标上的分类性能都是最好的(其中包含了比较所有机器学习模型性能的源代码多媒体附件2)．

表6而且7分别给出漏服SMBG和漏服胰岛素的分类结果。研究结果显示，对于自我管理行为的个别指标组的预测能力，人们的看法不一;但是，它们的联合作用可以用来推断缺乏SMBG或胰岛素注射的时间，准确度和精度很高。

表6所示。餐时血糖测量分级结果缺失。

功能组	精度(%)	精度(%)	回忆(%)	F1得分(%)	Brier检验(%)
人口统计资料	78	38	62	47	22
时间变量	50	13	42	20.	51
社会环境	61	21	55	30.	25
压力、疲劳和情绪	74	22	29	25	33
障碍	73	33	44	33	25
所有	88	78	35	48	12
所有密度^一个）	87	78	25	38	13

^一个马尔科夫链蒙特卡洛。

表7所示。餐时胰岛素给药分级结果缺失。

功能组	精度(%)	精度(%)	回忆(%)	F1得分(%)	Brier检验(%)
人口统计资料	65	25	65	36	36
时间变量	59	21	64	32	41
社会环境	49	16	59	25	51
压力、疲劳和情绪	74	22	28	25	32
障碍	73	26	44	32	27
所有	86	61	14	23	14
所有密度^一个）	85	54	15	24	15

^一个马尔科夫链蒙特卡洛。

主要研究结果

为了更好地了解影响T1D青少年自我管理行为的因素，本研究应用机器学习分析，使用人口统计学、BG、瞬时心理和自我管理数据构建LFA。以所有变量为基准，比较了自我管理行为可预测性5个变量域的相对关联关系。

对于人口统计学数据，结果表明人口统计学与平均每日SMBG频率最相关。这些结果突出了按人口统计学定义的健康社会决定因素的价值。虽然人口因素通常是不可改变的，但健康的社会决定因素越来越多地被用来调整护理，以适应那些最脆弱的人，他们可能无法从目前的保健方法中充分受益[36，37］．

EMA数据能够以较高的准确性和精密度推断SMBG和胰岛素的不依从性。尽管回忆得分很低，但模型确定的非依从性事件是真正的非依从性的可信度很高。回忆得分较低的一个原因与小数据集有关，这些数据集在观察到的类别或结果的频率上存在差异。尽管如此，这项研究在收集更大的数据集方面显示出了希望，这些数据集将更有效地支持可部署在现实世界中的分类器。这些结果也与我们从初步统计分析中报告的结果一致，即(1)人口特征与每日SMBG频率相关;(2)除时间点外，各组特征对SMBG的影响均具有统计学意义;(3)除社会背景外，各组特征对胰岛素给药具有统计学意义的推断力。

这些结果支持了整合EMA和机器学习以改善医疗保健中的行为评估和自动化行为模式识别的可行性和价值[18，38］．我们的学习模型在量化心理社会因素对自我管理的影响方面显示出了希望。在糖尿病患者中，压力和情绪是可改变的因素，可能会受到应对和解决问题干预措施的积极影响[39，40］．在最近的一项关于耳鸣(声音的幻影感知)的研究中，我们也看到了机器学习和EMA的使用，其中射频分类器应用于从TrackYourTinnitus移动应用程序收集的EMA数据，以预测所使用的移动操作系统[41］．

社会背景也为理解风险提供了框架，并可通过关注社会能力和解决问题的干预措施加以修改[39］．在以往的研究中[42，43]，行为观察被用来确定手卫生合规性监测模式，从中我们获得了有用的初步见解，了解哪些变量领域对合规性行为影响最大。

展望未来，主要使用密集的自我报告和被动的心理社会和行为数据流，结合机器学习，可以为基于人群的监测系统提供基础，帮助指导临床风险管理的自动化模式检测。例如，进餐时间的实验性不显眼指标正在开发中[44]，并可经由泵注射胰岛素[44］．如果成功，额外的被动数据流将大大提高我们方法的严谨性和覆盖面[45］．

这里使用的LFA机器学习方法应该应用于一个大的、不同的患者样本，以确认和扩展本文报道的结果。尽管被动方法越来越多地被用于推断行为和心理社会状况[46，47]，还有一些重要的主观体验，比如情绪，可能继续需要自我报告。在可预见的未来，无论是自我报告的实时数据，还是被动数据，如社交网络[48]，可以整合以优化医疗保健的见解。

以往使用传统回顾性问卷调查方法的研究主要集中在确定一般慢性疾病，特别是糖尿病中自我管理的心理社会相关因素和预测因素[9］．除了少数例外，很少有研究使用EMA治疗糖尿病。少数几项研究已经明确了时间因素，如一天中的时间和短暂的消极情绪，与自我管理行为有关[49-51］．

机器学习分析已应用于各种研究，主要集中在改善糖尿病管理和控制。早期的研究构建并微调了不同的机器学习模型，以根据历史生理数据预测未来的血糖水平[52-54]，检测不正确的BG测量[55]，预测低血糖[56，57]，以及管理胰岛素剂量[58]，并将其应用于整合食物识别和能量消耗的生活方式支持[59，60］．这里报告的研究结果推进了先前与自我管理相关的因素的评估和分析，包括压力[49]， mood [61，62]，污名[9，63]，以及社会环境[8，12］．我们的研究还独特地评估了以前没有在T1D人群中研究过的新因素，如疲劳[64]，地点[65]、社会背景[8]，以及周边因素，比如匆忙和旅行。收集到的EMA数据具有很好的推断研究中2种糖尿病自我管理行为的能力。

限制

这项研究有几个局限性。首先，虽然密集评估导致每个参与者进行了大量的观察，但参与者的数量相对较少。虽然在我们的实证分析中确定了该数据的推断能力，但在未来的迭代中，更大的样本量将有助于产生更高质量的结果。其次，这里使用瞬时自我报告收集的一些数据，例如压力，最终可能会成为可行的被动数据流。这可以减轻参与者的即时评估负担，提高数据的准确性和可靠性。对负担的考虑应该影响行为抽样策略和使用瞬时评估的研究设计。最后，本研究采用胰岛素注射的自我报告。展望未来，胰岛素泵或自动化胰岛素给药系统的集成将是准确推断胰岛素剂量和时间的必要条件。

结论

基于目前的研究结果，社会心理环境可以通过瞬间评估与生理数据相结合成功评估，并使用机器学习进行分析，以优化并最终自动化健康行为洞察。需要对更大的样本进行类似的实验，以优先考虑对健康行为有影响的多个潜在领域，并推进本文使用的评估和分析方法。未来通过传感器数据验证自我报告的工作将增强我们使用与健康相关行为的被动指标的能力。例如，进餐时间的实验性不引人注目的指标正在开发中，如果成功，将大大增强我们的方法方法[45］．本文使用的LFA机器学习方法将应用于大量不同的患者样本，以确认和扩展本文报道的结果。

致谢

这项工作得到了美国国立卫生研究院(National Institutes of Health)对作者SAM的资助;国家糖尿病、消化和肾脏疾病研究所DP3;国家先进转化科学中心(美国)UL1 TR000445。

利益冲突

没有宣布。

‎

多媒体附件1

比较血糖频率的日常自我监测模型的源代码。

DOCX文件，154 KB

‎

多媒体附件2

比较血糖和胰岛素管理的自我监测模型的源代码。

DOCX文件，8530kb

张志刚，张志刚，张志刚。1型糖尿病的地理流行病学研究。Autoimmun Rev 2010 3月9日(5):A355-A365。［CrossRef] [Medline］
Dabelea D, Mayer-Davis EJ, Saydah S, Imperatore G, Linder B, Divers J，青少年糖尿病研究。2001年至2009年儿童和青少年1型和2型糖尿病患病率。JAMA 2014 May 07;311(17):1778-1786 [免费全文] [CrossRef] [Medline］
文L, Ley RE, Volchkov PY, Stranges PB, Avanesyan L, Stonebraker AC，等。先天免疫和肠道菌群在1型糖尿病发展中的作用自然2008 10月23日;455(7216):1109-1113 [免费全文] [CrossRef] [Medline］
Wood JR, Miller KM, Maahs DM, Beck RW, DiMeglio LA, Libman IM, T1D交换诊所网络。在T1D交流诊所注册的大多数1型糖尿病青年不符合美国糖尿病协会或国际儿科和青少年糖尿病协会的临床指南。糖尿病护理2013 july;36(7):2035-2037 [免费全文] [CrossRef] [Medline］
White NH, Cleary PA, Dahms W, Goldstein D, Malone J, Tamborlane WV，糖尿病控制并发症试验(DCCT)/糖尿病干预并发症流行病学(EDIC)研究组。青春期糖尿病强化治疗的有益效果:糖尿病控制和并发症试验(DCCT)结论后的结果。中华儿科杂志2001 12月;139(6):804-812。［CrossRef] [Medline］
糖尿病控制并发症试验研究组，Nathan DM, Genuth S, Lachin J, Cleary P, croford O，等。糖尿病强化治疗对胰岛素依赖型糖尿病长期并发症发生和进展的影响中华外科杂志1993年9月30日;29(14):977-986。［CrossRef] [Medline］
Hilliard ME, De Wit M, Wasserman RM, Butler AM, Evans M, Weissberg-Benchell J，等。筛查和支持青年1型糖尿病患者的情绪负担:糖尿病护理提供者的策略。儿科糖尿病2018年5月;19(3):534-543 [免费全文] [CrossRef] [Medline］
Wiebe DJ, Helgeson V, Berg CA.在整个生命周期管理糖尿病的社会背景。Am Psychol 2016 10月;71(7):526-538 [免费全文] [CrossRef] [Medline］
Mulvaney SA, Hood KK, Schlundt DG, Osborn CY, Johnson KB, Rothman RL，等。青少年糖尿病依从性障碍测量的开发和初步验证。糖尿病临床研究2011年10月;94(1):77-83 [免费全文] [CrossRef] [Medline］
Fitzpatrick SL, Schumann KP, Hill-Briggs F.糖尿病自我管理和控制的问题解决干预:文献的系统回顾。糖尿病临床研究2013年5月;100(2):145-161 [免费全文] [CrossRef] [Medline］
谢夫曼S，斯通AA，赫福德先生生态瞬时评价。临床精神病学2008;4:1-32。［CrossRef] [Medline］
邓顿，李敏，许j, Intille S, McConnell R.西班牙裔青少年心理压力、环境与哮喘症状的瞬时评估。Behav Modif 2016 Jan;40(1-2):257-280 [免费全文] [CrossRef] [Medline］
李丽娟，张丽娟，李丽娟，等。与生物方法和自我报告方法相比，非法药物使用的生态即时评估。JMIR Mhealth Uhealth 2016年3月15日;4(1):e27 [免费全文] [CrossRef] [Medline］
布兰农EE，库欣CC，克里克CJ，米切尔TB。青少年动力系统建模的可穿戴传感器和生态瞬时评估措施的前景:可行性和可接受性研究。Transl Behav Med 2016 12月;6(4):558-565 [免费全文] [CrossRef] [Medline］
Myers TC, Wonderlich SA, Crosby R, Mitchell JE, Steffen KJ, Smyth J，等。多冲动性贪食症是一种独特的神经性贪食症:精神病理学和EMA发现。国际饮食失调杂志2006年12月;39(8):655-661。［CrossRef] [Medline］
Hedeker D, Mermelstein RJ, Demirtas H.基于混合效应位置尺度模型的生态瞬时评估数据的主体间和主体内方差建模。统计医学2012年11月30日;31(27):3328-3336 [免费全文] [CrossRef] [Medline］
模式识别和机器学习:所有“只是事实101”材料。印度:施普林格;2013.
Kim H, Lee S, Lee S, Hong S, Kang H, Kim N.使用生态瞬时评估、Actiwatch数据和机器学习预测抑郁症:对独居老年人的观察性研究。JMIR Mhealth Uhealth 2019 10月16日;7(10):e14149 [免费全文] [CrossRef] [Medline］
马万尼，瓦拉，胡德，李巴格，卡罗尔，威廉姆斯，等。青少年1型糖尿病的移动瞬间评估和生物行为反馈:可行性和参与模式。糖尿病科技杂志2018年7月;20(7):465-474 [免费全文] [CrossRef] [Medline］
张平，Schmidt D, White J, Mulvaney S.物联网(IoT)走向精准行为医学:1型糖尿病自我管理工具的迭代设计和优化。见:2018年IEEE医疗保健信息学国际会议论文集(ICHI)。2018年发表于:IEEE医疗保健信息国际会议(ICHI);2018年6月4-7日;美国纽约。［CrossRef］
Mulvaney SA, Vaala SE, Carroll RB, Williams LK, Lybarger CK, Schmidt DC，等。一款移动应用程序识别了与1型糖尿病青少年用餐时间自我管理相关的瞬间社会心理和环境因素。J Am Med Inform association 2019年12月01日;26(12):1627-1631 [免费全文] [CrossRef] [Medline］
iHealth COVID-19抗原快速检测。城。URL:https://ihealthlabs.com[2022-01-28]访问
Miller KM, Foster NC, Beck RW, Bergenstal RM, DuBose SN, DiMeglio LA, T1D交换诊所网络。美国1型糖尿病治疗现状:T1D Exchange诊所注册的最新数据。糖尿病护理2015 Jun;38(6):971-978。［CrossRef] [Medline］
张鹏，White J, Schmidt D.在医疗保健领域利用高频、低保真数据的体系结构和模式。见:2018年IEEE医疗保健信息学国际会议论文集(ICHI)。2018年发表于:2018 IEEE医疗保健信息学国际会议(ICHI);2018年6月4-7日;美国纽约。［CrossRef］
Dudani SA。距离加权k-最近邻规则。IEEE传输系统控制，1976年4月;SMC-6(4):325-327。［CrossRef］
李。线性回归分析。第二版。美国新泽西州霍博肯:威利;2003.
李国强，李国强。基于随机森林的分类与回归。R新闻2002年12月2日3:18-22。
最小二乘支持向量机分类器。神经过程学报1999;9(3):293-300。［CrossRef］
Chawla NV, Japkowicz N, Kotcz A.编辑:关于从不平衡数据集学习的特刊。ACM SIGKDD探索通讯2004年6月;6(1):1-6。［CrossRef］
Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP。合成少数派过采样技术。J Artif Intell Res 2002 6月1日;16:21 -357。［CrossRef］
-。使用编辑的最近邻规则的一个实验。IEEE传输系统控制1976 Jun;SMC-6(6):448-452。［CrossRef］
高维类不平衡微阵列数据的smte评估。2012年第11届机器学习与应用国际会议论文集发表于:2012第11届机器学习与应用国际会议;2012年12月12日至15日;博卡拉顿，佛罗里达州，美国。［CrossRef］
王志强，李志强，李志强。基于T-Link和随机欠采样(RUS)相结合的不平衡数据分类方法。Global J Technol Optim 2016;01(S1)。［CrossRef］
陈晓明，陈晓明。基于重采样数据的最优阈值学习算法。2010年IEEE RIVF计算与电信技术国际会议论文集，发表于:IEEE RIVF计算与电信技术国际会议;2010年11月1日至4日;河内,越南。
Kotsiantis S, Kanellopoulos D, Pintelas P.处理不平衡数据集:综述。计算科学与工程2006;30(1):36 [免费全文］
曾晓霞，陈晓明。基于分布平衡的分层交叉验证的准确度估计。《人工智能理论》2000年1月12日(1):1-12。［CrossRef］
Qian SS, Stow CA, Borsuk ME。贝叶斯推断的蒙特卡罗方法。生态模型，2003年1月，159(2-3):269-277。［CrossRef］
Diez Roux AV, Katz M, Crews DC, Ross D, Adler N.电子健康记录中的社会和行为信息:医学和公共卫生的新机遇。中国预防医学杂志2015年12月;49(6):980-983。［CrossRef] [Medline］
Whittemore R, Jaser SS, Jeon S, Liberti L, Delamater A, Murphy K，等。针对1型糖尿病青少年的网络应对技能培训项目。护理科学，2012;26(6):395-404。［CrossRef］
Kumah-Crystal YA, Hood KK, Ho Y, Lybarger CK, O'Connor BH, Rothman RL，等。1型糖尿病青少年糖尿病问题解决的技术应用:与血糖控制的关系糖尿病科技杂志2015 july;17(7):449-454 [免费全文] [CrossRef] [Medline］
Probst T, Pryss R, Langguth B, Schlee W.日常生活中情绪状态在耳鸣响度和耳鸣痛苦之间的中介作用:来自“TrackYourTinnitus”应用程序的结果。科学报告2016 Feb 08;6:20382 [免费全文] [CrossRef] [Medline］
张鹏，罗德里格斯- cancio M, Schmidt D, White J, Dennis T.手卫生合规性监测应用即服务初步探讨。收录于:《健康期刊》。2017年发表于:HEALTHINF;2017年2月21-23日;葡萄牙的波尔图街头。［CrossRef］
张鹏，张晓明，张晓明，张晓明。应用机器学习方法预测手卫生依从性特征。见:2017年IEEE EMBS生物医学与健康信息学国际会议论文集(BHI)。2017年出席:2017 IEEE EMBS生物医学与健康信息学国际会议(BHI);2017年2月16日至19日;奥兰多，佛罗里达州，美国。［CrossRef］
Farooq M, Sazonov E.基于加速度计的自由生活个体食物摄入量检测。IEEE Sens J 2018 05 01;18(9):3752-3758 [免费全文] [CrossRef] [Medline］
孙文杰，王志强，王志强，等。多变量人工胰腺系统中未通知餐点的自动检测与估计。糖尿病科技杂志2018年3月20日(3):235-246 [免费全文] [CrossRef] [Medline］
Gimpel H, Regal C, Schmidt M. myStress:基于智能手机的不显眼的压力检测。载于:欧洲信息系统会议论文集。2015年发表于:欧洲信息系统会议;2015年5月26-29日;德国明斯特。
阿瑟伯格J，鲁华德J，艾迪M，施拉德N, Sijbrandij M, Riper H.基于手机的日常情绪非突发性生态瞬间评估:一项探索性研究。J Med Internet Res 2016年3月29日;18(3):e72 [免费全文] [CrossRef] [Medline］
拉兰乔L，阿格尔A，内维斯AL, Gallagher AM，卡普兰R，莫蒂默N，等。社交网站对健康行为改变的影响:系统回顾和元分析。美国医学信息学会2015年1月;22(1):243-256 [免费全文] [CrossRef] [Medline］
Merwin RM, Dmitrieva NO, Honeycutt LK, Moskovich AA, Lane JD, Zucker NL，等。1型糖尿病和进食障碍成年患者胰岛素限制的瞬时预测因子糖尿病护理2015 Nov;38(11):2025-2032 [免费全文] [CrossRef] [Medline］
马万尼，罗思曼，杜德丽，杜德丽，等。用手机测量青少年糖尿病依从性。《健康心理》2012年1月;31(1):43-50 [免费全文] [CrossRef] [Medline］
Merwin RM, Moskovich AA, Honeycutt LK, Lane JD, Feinglos M, Surwit RS，等。一天中有进食障碍症状的1型糖尿病患者最常限制胰岛素分泌的时间。心理医学杂志2018;80(2):222-229。［CrossRef］
Georga E, Protopappas V, Fotiadis D.用数据驱动技术预测1型和2型糖尿病患者的血糖。见:面向知识的数据挖掘应用。英国伦敦:IntechOpen;2011.
王勇，吴霞，莫霞。一种新的自适应加权平均血糖预测框架。糖尿病科技杂志2013 Oct;15(10):792-801 [免费全文] [CrossRef] [Medline］
Ståhl F.通过线性和贝叶斯集成模型预测糖尿病血糖。隆德大学，2012。URL:https://portal.research.lu.se/en/publications/diabetes-mellitus-glucose-prediction-by-linear-and-bayesian-ensem[2022-01-31]访问
Bondia J, Tarín C, García-Gabin W, Esteve E, Fernández-Real JM, Ricart W，等。使用支持向量机检测MiniMed CGMS的治疗性不正确测量。中华糖尿病杂志2008 7月;2(4):622-629 [免费全文] [CrossRef] [Medline］
苏harsan B, Peeples M, Shomali M.使用机器学习模型预测2型糖尿病患者的低血糖。中华糖尿病杂志2015 Jan;9(1):86-90 [J]免费全文] [CrossRef] [Medline］
Biester T, Kordonouri O, Holder M, Remus K, Kieninger-Baum D, Wadien T，等。“让算法来工作”:在儿童1型糖尿病患者中，使用传感器增强泵治疗和预测胰岛素悬浮(SmartGuard)来降低低血糖。糖尿病科技杂志2017 Mar;19(3):173-182 [免费全文] [CrossRef] [Medline］
使用机器学习的无模型智能糖尿病管理。阿尔伯塔大学。URL:https://era.library.ualberta.ca/items/fee1e7a7-1993-43f6-8d93-1d93855f6275[2022-01-31]访问
川野勇，柳井佳。实时移动食品识别系统。2013年IEEE计算机视觉与模式识别研讨会论文集，IEEE计算机视觉与模式识别研讨会论文集;2013年6月23日至28日;俄勒冈州的波特兰。［CrossRef］
Ellis K, Kerr J, godole S, Lanckriet G, Wing D, Marshall S.腕部和臀部加速度计预测能量消耗和身体活动类型的随机森林分类器。Physiol Meas 2014 Nov;35(11):2191-2203 [免费全文] [CrossRef] [Medline］
李志刚，李志刚，李志刚。1型糖尿病青少年的自我控制、日常负面情绪和血糖控制健康心理2016年3月25:10.1037/hea0000325(即将出版)[免费全文] [CrossRef] [Medline］
Pugach O, Hedeker D, Richmond M, Sokolovsky A, Mermelstein R.青少年吸烟者情绪变化和共变的建模:双变量位置尺度混合效应模型的应用。尼古丁Tob Res 2014年5月;16附录2:S151-S158 [免费全文] [CrossRef] [Medline］
Schabert J, Browne JL, Mosely K, Speight J.糖尿病的社会病耻感:一个理解日益增长的流行病的日益严重的问题的框架。病人2013;6(1):1 - 10。［CrossRef] [Medline］
蔡振华，蔡振华，张志强，等。开发和评估JIApp:智能手机应用程序系统的可接受性和可用性，以改善青少年特发性关节炎患者的自我管理。JMIR Mhealth Uhealth 2017 Aug 15;5(8):e121 [免费全文] [CrossRef] [Medline］
李涛，林庚。研究美国环境空气污染物与成人哮喘之间特定位置关联的作用。2014年1月25:26-33。［CrossRef] [Medline］

‎

BG:血糖

教育津贴:生态瞬时评价

资讯:再邻居

LFA:学习过滤架构erf:随机森林smbg:自我监测血糖

近年来:1型糖尿病

L Buis编辑;提交29.06.20;S Rostam Niakan Kalhori, H Suominen, J Chen同行评审;对作者21.10.20的评论;修订版本收到16.07.21;接受15.12.21;发表03.03.22

©张鹏，Christopher Fonnesbeck, Douglas C Schmidt, Jules White, Samantha Kleinberg, Shelagh A Mulvaney。最初发表在JMIR mHealth和uHealth (https://mhealth.www.mybigtv.com)， 03.03.2022。

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR mHealth和uHealth上的原创作品。必须包括完整的书目信息，https://mhealth.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

使用瞬时评估和机器学习来识别1型糖尿病自我管理的障碍:观察性研究