这是一篇开放获取的文章,根据创作共用归属许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用了首次发表在JMIR生物医学工程上的原创作品。必须包括完整的书目信息,https://biomedeng.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
在人道主义环境中采用3D成像系统需要与人工测量相媲美的精度,尽管与艰苦环境相关的其他限制。
本研究旨在评估体表翻译公司开发的AutoAnthro 3D成像系统(第三代)测量儿童身高和中上臂围(MUAC)的准确性。
2021年9月至2021年10月在南苏丹马拉卡尔平民保护地点进行的两阶段聚类调查中嵌入了一项装置精度研究。所有选定家庭中6至59个月的儿童都有资格参加。对于每个儿童,由2名人体测量学家按照2006年世界卫生组织儿童生长标准研究中使用的方案进行手工测量。然后,扫描结果由另一个枚举器捕获,该枚举器使用装有定制软件AutoAnthro的三星Galaxy 8手机和英特尔RealSense 3D扫描仪。扫描是用全自动算法处理的。多元逻辑回归模型适合评估调整后的成功扫描的几率。测量的准确性使用Bland-Altman图进行可视化评估,并使用平均偏倚、一致限(LoAs)和个体差异的95%精度区间进行量化。调查人员和Body Surface Translations公司的开发人员远程采访了主要的信息提供者,以了解测试、培训、数据采集和传输方面的挑战。
对539名符合条件的儿童进行了手工测量,其中234名(43.4%)的扫描测量成功处理。至少10.4%(56/539)儿童的照顾者拒绝同意扫描捕获;其他扫描未成功传输到服务器。儿童的人口统计学特征(年龄和性别)、身高和MUAC均与扫描测量的可用性无关;团队显著相关(
对于目前广泛采用的技术来说,扫描测量不够准确。尽管该软件显示出前景,但还需要对软件算法进行进一步投资,以解决扫描传输和极端现场环境的问题,以及改进现场监督。不同团队在准确性上的差异证明,在训练上的投资也可以提高表现。
儿童人体测量是儿科护理的一个标准组成部分,以实现生长监测以及人群水平的评估和临床研究。尽管人们普遍依赖人体测量学,但测量设备的技术进步有限。20世纪80年代,体重测量的精度随着弹簧秤向数字秤的转变而提高[
近年来,有两种不同类型的基于移动设备的技术被提出来替代使用测量仪的人工人体测量:(1)使用几何形态测量模型的应用程序和(2)使用3D成像系统的应用程序。通过将便携式相机连接到标准平板电脑和预装软件,这些成像系统能够从一系列图像捕捉开发的3D模型中估计儿童身高(长度或高度)、头围和中上臂围(MUAC)。几何形态测量模型旨在直接将儿童分类为严重或中度急性营养不良;例子包括严重急性营养不良照片诊断应用程序[
旨在直接对急性营养不良进行分类的软件的初步验证研究遇到了方法学和逻辑上的挑战。在西班牙和塞内加尔进行的照片诊断应用程序验证阶段研究发现,诊断准确率很高,但表明样本人群之间存在显著的形态差异,这意味着需要研究这种形态变异[
虽然儿童生长监控器仍处于开发和测试阶段,但一些研究已经评估了AutoAnthro的性能。最初的疗效研究表明,在美国乔治亚州的受控环境中,设备能够实现高精度——重复3D扫描的可靠性与手动测量身高、头围和MUAC的可靠性在1毫米以内;然而,系统偏差的报告[
鉴于这些地区营养监测面临的额外挑战,建议在人道主义环境中进行进一步测试。收容国内流离失所者和难民的地方通常地处偏远,天气条件恶劣,互联网连接有限或根本没有。这些条件对3D成像技术的训练和使用提出了独特的操作挑战。对软件和硬件进行了更改,以确保设备和操作软件在这些条件下具有健壮性和可接受性。此外,评估的时机——在COVID-19大流行的急性期——提出了新的挑战。由于旅行和行动受到限制,有必要采取更加自主的行动。此外,考虑到传统人体测量(特别是身高和长度测量)所需的物理接触所带来的传播风险,人们对3D成像技术的潜力产生了额外的兴趣。
在人道主义环境中广泛采用AutoAnthro技术要求精度至少与人工测量相当,尽管有额外的限制。因此,本研究旨在修改软件算法后重新评估设备精度。
本研究评估了第三代AutoAnthro 3D成像系统与儿童人体测量手工测量的准确性。第三代软件包含了对上一个版本的重大更新,旨在实现在严峻环境中所需的更高级别的持久性和可移植性,通过扫描捕获和设备性能改善用户体验,自动化图像处理,并实现更改以允许软件在低成本硬件上运行。本研究中使用的AutoAnthro技术的硬件、定位、数据捕获和处理的详细信息与以前的版本进行了比较
AutoAnthro技术用于生产儿童人体测量自动化测量的硬件、数据采集、审查和处理。
|
第一代 | 第二代 | 第三代 |
硬件 | iPad和结构传感器3D扫描仪 | iPad和结构传感器3D扫描仪 | 三星Galaxy 8手机搭载安卓系统和英特尔RealSense 3D扫描仪 |
定位 | 计数人员无法控制孩子的手脚以帮助定位 | 计数人员能够约束孩子的手或脚,以帮助他们定位 | 计数人员能够约束孩子的手或脚,以帮助他们定位 |
实时估计 | 不可用 | 不可用 | 可用 |
扫描次数 | 无限的扫描 | 固定数量的扫描自动捕获 | 固定数量的扫描自动捕获 |
数据采集 | 自动上传到计算机服务器 | 自动上传到计算机服务器 | 自动上传到计算机服务器 |
数据审核 | 由枚举人员手动筛选数据质量的扫描 | 没有统计员进行人工筛检 | 没有统计员进行人工筛检 |
数据处理 | 半自动 | 全自动 | 全自动 |
绩效证据 | 在美国进行的初步疗效研究[ |
危地马拉、肯尼亚和中国的复制研究[ |
在南苏丹的这项研究中使用 |
采用两阶段整群抽样设计对家庭进行抽样,其中营地街区的选择概率与大小成比例。所选街区完全枚举,住户采用系统随机抽样的方式随机选择。针对485名儿童的样本,以达到估计全球急性营养不良患病率的预期精度,这是主要调查目标。考虑到α为.05,幂为0.8,以及之前研究中观察到的SDs,该样本足以检测出高/长0.17 cm和MUAC 0.09 cm的差异[
BST的工作人员远程培训IMC调查经理;培训内容包括儿童的定位,硬件和AutoAnthro软件的使用,以及执行和保存扫描。调查经理亲自为枚举人员重复了培训。人工人体测量组和3D扫描组接受了为期4天的培训。团队共同参加了关于研究目标和手工人体测量的课堂培训。为手工人体测量学家和扫描仪分别组织了实践练习和标准化测试。所有手动测量器均通过了标准化测试,手动测量高度/长度的技术误差(TEM) <1.4, MUAC的测量误差<3.0。
测量由6个4人小组进行,包括2名(50%)测量员,1名(25%)接受过手工人体测量学培训的团队负责人,以及1名(25%)接受过获得3D扫描测量的测量员。对于给定的儿童,由2名手工人体测量学家分别获得手工测量值(体重、身高/长度和MUAC),并输入平板设备上的开放数据工具包(Get ODK)中编程的调查。人体测量学家首先收集体重和MUAC;然后根据2006年世界卫生组织(世卫组织)儿童生长标准研究所用的方案收集身高或长度[
鉴于在初步质量检查和数据处理后,大量扫描结果遗失,我们与统计员(共与12名统计员进行了4次小组访谈)和英国保安科职员(3次单独访谈)进行了深入访谈,以记录挑战。访谈是在美国用英语远程进行的,使用半结构化的访谈指南,并记录下来以方便记录。
示例扫描捕获使用AutoAnthro软件(版本3;机身表面翻译公司)安装在三星Galaxy 8安卓手机和英特尔RealSense 3D扫描仪上。
评估有和没有扫描测量的儿童在人口统计学特征、儿童营养状况和团队人数方面的差异,以评估与成功扫描捕获相关的特征。对于未经调整的比较,使用连续变量的Kruskal-Wallis检验和分类变量的Fisher精确检验来评估差异的统计显著性。多元逻辑回归适合于评估调整后的成功扫描的几率。
使用标准指标-数字偏好评分、异常值比例和SDs评估人体测量的质量[
测量的准确性通过Bland-Altman图进行视觉评估[
在哪里
总的来说,在分析过程中发现了2个不同的数据捕获问题。首先,AutoAnthro软件通过测量儿童3D图像上参考标记之间的距离来估计身高、长度和MUAC。对用于生成扫描值的3D图像的视觉检查表明,在某些情况下,软件在背景中识别出了一个护理人员,导致了一个错位的参考标记,这通常会导致异常值估计。其次,扫描和人工测量使用唯一的ID号连接起来。为每个孩子确定年龄、性别和体重,并通过扫描和手动测量分别输入。对于选定的儿童,儿童id在2个数据集中匹配,但年龄、性别或体重不一致,这表明扫描和手工测量之间存在潜在的不匹配。为了评估这两个数据捕获误差的影响,在排除性别、年龄(>6个月)或体重(>5公斤)等异常值或不匹配的记录后,还计算了Bland-Altman图和所有准确性指标。
为了评估测量差异对每种衍生营养指标(WHZ、HAZ和MUAC)分类的影响,使用手工和扫描衍生测量方法将儿童分为严重、中度急性营养不良或两者均无。分类的一致性被制成表格并可视化地探索。对于WHZ和HAZ, < - 3为严重值,≥- 3和< - 2为中度值。对于MUAC, <11.5 cm为重度,≥11.5 cm至<12.5 cm为中度。所有定量分析均在RStudio (version 1.1.456 20;R统计计算基础)。对于定性分析,在深入访谈中记录了详细的笔记,并由Microsoft Teams软件提供的自动转录支持,并审查以综合关键主题。结果与定量数据进行三角测量,用于解释和解释定量结果。
约翰霍普金斯大学机构审查委员会根据DHHS条例45 CFR 46.102批准了该研究为“非人类研究”。参与研究的儿童的照顾者和关键信息提供者提供了口头知情同意。保留用于分析的研究数据被鉴定。被确定为营养不良的儿童被转送去照料,不再提供进一步的补偿。
共访问了416个家庭,其中325个(78.1%)有符合年龄的孩子并同意参与。在登记的家庭中,所有6至59个月的儿童(N=539)都进行了手工人体测量,43.4%(234/539)的儿童成功地进行了扫描测量。10.4%(56/539)的儿童看护人拒绝接受扫描捕获;此外,据报道,大量捕获的扫描未成功传输到服务器,无法从设备中恢复(
在手动和扫描测量的最终样本中,来自男性参与者(119/234,50.9%)和女性参与者(114/234,48.7%)的比例大致相等,三分之二(154/234,65.8%)来自24至59个月的参与者。使用人工测量时,WHZ分类的消瘦患病率(46/234,19.7%)超过了体重不足(40/234,17.1%)或发育不良(32/234,13.7%);未发现有水肿的儿童。在比较有和没有扫描测量的儿童的人口统计学特征和营养状况时,除了平均年龄外,没有显著差异;两项测量的儿童年龄均较大(31.7,SD 14.9个月vs 28.9, SD 14.5个月;
注册流程图。*在字段中捕获的扫描未成功传输到服务器,且无法从误报的设备或儿童识别号码中恢复,因此扫描派生的值无法与手动测量值匹配。**在32个统计组中,有5个统计组的每次家庭访问结果信息都记录在数据收集过程中因暴雨而丢失的纸质表格上。***与扫描相关联的儿童识别号码与任何手动测量的儿童不匹配。****扫描定位或分辨率太差,无法计算扫描衍生的测量值。*****实地小组为64名儿童进行了两次或两次以上的扫描。当对一个给定的孩子进行多个扫描会话时,将所有可用会话的扫描结合起来,并使用所有单个扫描会话的中位数进行分析。
通过自动扫描数据的可用性来确定样本的特征(N=539)。
|
仅手工测量的儿童(n=305) | 进行手工和扫描测量的儿童(n=234) |
|
|||||
|
<措施 | |||||||
|
第1组(n=85) | 16 (18.8) | 69 (81.2) |
|
||||
|
第二队(112人) | 53 (47.3) | 59 (52.7) |
|
||||
|
第三组(n=106) | 61 (57.5) | 45 (42.5) |
|
||||
|
第4队(n=91) | 78 (85.7) | 13 (14.3) |
|
||||
|
第5组(n=64) | 19日(29.7) | 45 (70.3) |
|
||||
|
第六队(n=81) | 78 (96.3) | 3 (3.7) |
|
||||
年龄(月),平均值(SD) | 28.9 (14.5) | 31.7 (14.9) | 03 | |||||
|
.14点 | |||||||
|
6至23 | 123 (40.3) | 80 (34.2) |
|
||||
|
24至59岁 | 182 (59.7) | 154 (65.8) |
|
||||
|
.89 | |||||||
|
女 | 148 (48.5) | 115 (49.1) |
|
||||
|
男性 | 157 (51.5) | 119 (50.9) |
|
||||
体重过轻b,平均值(SD) | −1.2 (1.0) | −1.2 (1.0) | 36 | |||||
|
获得 | |||||||
|
严重的 | 13 (4.3) | 10 (4.3) |
|
||||
|
温和的 | 42 (13.8) | 30 (12.8) |
|
||||
发育不良b,平均值(SD) | −0.9 (1.4) | −0.9 (1.2) | 点 | |||||
|
.92 | |||||||
|
严重的 | 17 (5.6) | 11 (4.7) |
|
||||
|
温和的 | 32 (10.5) | 21日(9) |
|
||||
浪费b,平均值(SD) | −1.1 (1.1) | −1.0 (1.2) | .86 | |||||
|
算下来 | |||||||
|
严重的 | 10 (3.3) | 9 (3.8) |
|
||||
|
温和的 | 42 (13.8) | 37 (15.8) |
|
||||
MUACd,平均值(SD) | 14.0 (1.2) | 14.0 (1.3) | 点 | |||||
|
点 | |||||||
|
严重的 | 4 (1.3) | 1 (0.4) |
|
||||
|
温和的 | 23日(7.5) | 21日(9) |
|
一个连续变量的Kruskal-Wallis检验;分类变量的Fisher精确检验。
b体重不足被归类为年龄体重
c体重过轻、发育不良和消瘦,包括中度类别
dMUAC:中上臂围。
对整个样本以及与扫描衍生测量相匹配的子集进行手工测量的质量评估。在拥有手工和扫描数据的儿童中(234/539,43.4%),与扫描数据相比,手工测量的身高/长度数字偏好得分几乎是手工测量的两倍(13.5 vs 6.8), MUAC测量的数字偏好得分几乎是扫描测量的三倍(19.6 vs 6.6),这表明手工人体测量学家的终端数字更四舍五入。对于所有其他质量度量,手动度量优于扫描派生的度量。对于采用两种测量方法的儿童,从手动测量中没有确定有固定排除的异常值,只有11个确定有灵活排除的异常值(WHZ n= 3,27%, HAZ n= 8,73%)。相比之下,对于扫描衍生测量,应用固定排除法识别出29个异常值(WHZ为n= 13,45%, HAZ为n= 16,55%),使用灵活排除法识别出61个异常值(WHZ为n= 22,36%, HAZ为n= 39,64%)。所有儿童的MUAC (2.33 vs 1.26)、WHZ (1.56 vs 1.16)和HAZ (1.75 vs 1.23)的扫描衍生测量的SDs明显比手工测量更宽,在年龄较小的儿童中观察到同样的模式,对他们来说测量可能是一个更大的挑战。对于所有质量指标,当扫描测量的质量指标与所有儿童样本(N=539)进行手工测量(
使用数字偏好评分、异常值和SD (N=539)评估手工和扫描测量的质量。
|
手动测量 | Scan-derived测量 | ||||||
|
所有的孩子 | 所有有扫描的儿童(n=234) | 所有有扫描的儿童(n=234) | |||||
|
||||||||
|
高度或长度 | 12.62 | 13.47 | 6.78 | ||||
|
MUAC一个 | 20.87 | 19.63 | 6.63 | ||||
|
||||||||
|
WHZc | 0 | 0 | 13 | ||||
|
热影响区d | 1 | 0 | 16 | ||||
|
||||||||
|
WHZ | 6 | 3. | 22 | ||||
|
热影响区 | 17 | 8 | 39 | ||||
|
||||||||
|
MUAC | 1.21 | 1.26 | 2.33 | ||||
|
WHZ | 1.11 | 1.15 | 1.56 | ||||
|
热影响区 | 1.25 | 1.23 | 1.75 | ||||
|
||||||||
|
MUAC | 0.97 | 0.90 | 2.09 | ||||
|
WHZ | 1.19 | 1.28 | 1.59 | ||||
|
热影响区 | 1.31 | 1.31 | 1.96 |
一个MUAC:中上臂围。
b
cWHZ:身高体重或身高体重
dHAZ:身高年龄或身高年龄
e
f在排除异常值(身高体重或身高体重和年龄身高或年龄身高)后计算的SD。
扫描测量精度的分析使用更新的测量结果,这些测量结果上传到基于云的服务器以进行自动处理。对现场可获得的实时扫描测量数据进行了审查,以确认是否遵守协议,以确保扫描测量数据不与手工人体测量学家共享(图S1)
使用Bland-Altman图目视检查准确性(
由于扫描样本较小(n=3),准确性指标在各个团队之间差异很大。在身高/长度方面,第5组的平均差异最大(−3.8),第1组(−0.2)和第3组(0.2)的平均差异最小。团队5的95% loa宽度(- 42.8到35.2)几乎是团队1的3倍。对于MUAC,团队1到4的平均差异为正,而团队5的平均差异为负,团队5的95% loa(- 7.2到4.8)超过了所有其他团队(
鉴于总体样本中观察到相对较宽的loa,使用灵敏度分析来探索扫描衍生和手动测量的数据捕获和匹配中的潜在错误对整体精度的影响(
各年龄段儿童身高/身高TEM均为8.4 cm;TEM与SD类似,表明3名儿童中有2名儿童的扫描测量值在手工测量值的-8.4 cm至+8.4 cm范围内,95%的儿童在-16.8 cm至+16.8 cm范围内。24至59个月的儿童、男性参与者和第5组的身高/长度TEM较高。去除标记和不一致对时TEM最低(4.2)。所有儿童MUAC TEM均为1.8 cm,年龄和性别差异较小。MUAC第5组TEM最高;排除标记值和不一致值后,MUAC的透射电镜降至1.6 cm。
对每个指标(WHZ、HAZ和MUAC)对营养状况分类的测量差异的影响进行了表征。分别使用扫描和手工测量方法将儿童分为严重、中度和正常,并将这些分类进行比较(
关键信息提供者指出了现场数据收集中可能影响设备性能的几个独特问题。以下部分将重点介绍与(1)beta测试或验证设备算法,(2)培训和现场监督,(3)数据捕获或现场工作,以及(4)数据传输相关的问题。
儿童身高(身高和长度)和中上臂围(MUAC)的Bland-Altman图比较手工和扫描测量。
手工测量和扫描测量之间差异的统计评估(N=234)。
|
测量技术误差 | 平均厘米差(95% CI) | 95%一致限度(厘米) | 皮特曼测试 | 儿童,n (%) | |||||||||
|
|
|
|
|
|
|
||||||||
|
||||||||||||||
|
所有的孩子 | 8.41 | −0.50(−2.03 ~ 1.04) | −23.86 ~ 22.86 | 0.34 | <措施 | 234 (100) | |||||||
|
排除标记和不一致的值一个 | 4.18 | −0.24(−1.19 ~ 0.71) | −11.86 ~ 11.38 | 0.41 | <措施 | 151 (64.5) | |||||||
|
|
|||||||||||||
|
|
0 ~ 23 | 8.02 | −0.35(−2.88 ~ 2.19) | −22.7 ~ 22.01 | 0.65 | <措施 | 80 (34.2) | ||||||
|
|
24至59岁 | 8.62 | −0.58(−2.52 ~ 1.37) | −24.51 ~ 23.36 | 0.46 | <措施 | 154 (65.8) | ||||||
|
|
|||||||||||||
|
|
女 | 6.85 | −1.11(−2.89 ~ 0.68) | −20.06 ~ 17.85 | 0.37 | <措施 | 115 (49.1) | ||||||
|
|
男性 | 9.69 | 0.09(−2.41 ~ 2.59) | −26.88 ~ 27.07 | 0.33 | <措施 | 119 (50.9) | ||||||
|
|
|||||||||||||
|
|
团队1 | 5.10 | −0.15(−1.89 ~ 1.60) | −14.37 ~ 14.08 | 0.20 | .10 | 69 (29.5) | ||||||
|
|
团队2 | 7.20 | 0.87(−1.79 ~ 3.54) | −19.19 ~ 20.94 | 0.33 | . 01 | 59 (25.2) | ||||||
|
|
团队3 | 5.64 | 0.15(−2.27 ~ 2.57) | −15.65 ~ 15.94 | 0.33 | 03 | 45 (19.2) | ||||||
|
|
团队4 | 8.34 | −2.42 (9.68 ~ 4.84) | −25.98 ~ 21.14 | 0.44 | 13。 | 13 (5.6) | ||||||
|
|
团队5 | 14.18 | −3.80(−0.978 ~ 2.19) | −42.83 ~ 35.24 | 0.53 | <措施 | 45 (19.2) | ||||||
|
||||||||||||||
|
所有的孩子 | 1.76 | 0.72 (0.41 ~ 1.03) | −3.95 ~ 5.39 | 0.56 | <措施 | 234 (100) | |||||||
|
排除标记和不一致的值一个 | 1.64 | 0.78(0.43至1.14) | −3.53 ~ 5.10 | 0.51 | <措施 | 151 (64.5) | |||||||
|
|
|||||||||||||
|
|
0 ~ 23 | 1.64 | 0.97 (0.5 ~ 1.44) | −3.18 ~ 5.12 | 0.70 | <措施 | 80 (34.2) | ||||||
|
|
24至59岁 | 1.82 | 0.59(0.19至0.99) | −4.33 ~ 5.50 | 0.58 | <措施 | 154 (65.8) | ||||||
|
|
|||||||||||||
|
|
女 | 1.73 | 0.69 (0.26 ~ 1.13) | −3.93 ~ 5.32 | 0.54 | <措施 | 115 (49.1) | ||||||
|
|
男性 | 1.78 | 0.75(0.31至1.19) | −3.99 ~ 5.48 | 0.57 | <措施 | 119 (50.9) | ||||||
|
|
|||||||||||||
|
|
团队1 | 1.54 | 1.25 (0.82 ~ 1.68) | −2.28 ~ 4.78 | 0.55 | <措施 | 69 (29.5) | ||||||
|
|
团队2 | 1.77 | 1.45 (0.91 ~ 1.98) | −2.60 ~ 5.49 | 0.52 | <措施 | 59 (25.2) | ||||||
|
|
团队3 | 1.40 | 1.08(0.58至1.59) | −2.19 ~ 4.35 | 0.41 | . 01 | 45 (19.2) | ||||||
|
|
团队4 | 1.37 | 0.07(−1.14 ~ 1.29) | −3.86 ~ 4.01 | 0.28 | 36 | 13 (5.6) | ||||||
|
|
团队5 | 2.30 | −1.22(−2.13 ~ -0.3) | −7.20 ~ 4.77 | 0.61 | <措施 | 45 (19.2) |
一个如果扫描得出的绝对身高测量值超出范围,如果身高体重或身高体重超出范围,记录将被排除
b第6组被排除在外,因为同时进行扫描和手工测量的儿童数量较少(n=3)。
基于人工和扫描测量的营养状况分类。HAZ:身高/身高/年龄z值;MUAC:中上臂围;WHZ:身高体重或身高体重z得分。
第三代软件包括旨在完全自动化的主要软件更改以及向Android平台的过渡。然而,COVID-19大流行和由此产生的社会距离政策限制了开发人员测试和改进新算法的能力,就像他们在之前对软件进行实质性修订后所做的那样:
我们想出了这个更新的设备,它安装在装有英特尔扫描仪的安卓手机上,试图提供实时结果。我们知道我们需要在美国得到一些初步的数据来测试系统,验证算法,并尝试对软件进行一些修改,你总是要回来调整估计算法。由于疫情的影响,我们只能接待开发商的孩子……我真正有机会测试的孩子大约在10到16岁之间。所以,没有真正的小孩子。所以,我想说,这对我们来说真的是一个很大的阻碍。在我们不得不把它送到南苏丹之前,我们真的没有严格地测试这个设备,让他们尝试进行试点试验。
用于验证算法的儿童的年龄可能特别相关,因为软件对仰卧位测量的年幼儿童(软件识别出了儿童的脚跟)与站立位测量的大儿童(软件识别出了地板)的操作方式存在差异。在南苏丹进行的Beta测试显示,该软件识别儿童仰卧姿势的能力更加不稳定。在实地工作开始之前,算法被进一步调整。然而,开发人员报告说,在部署设备之前在美国进行进一步的beta测试将是有价值的,特别是考虑到向南苏丹推广软件更新的挑战。
除了初始beta测试中包括的儿童的人口统计数据外,与大流行相关的旅行限制意味着,所有验证算法的预研究测试主要是在美国光线充足的室内空间进行的。为解决这一问题,于2021年6月和2021年7月在南苏丹进行了一项试点研究。Malakal的数据收集被推迟了几个月,让开发人员有时间更新软件,以解决数据收集前发现的问题(例如,扫描捕获需要较长时间)。捐助者的最后期限使开发人员无法在实地测试更新的软件之前花更多的时间来改进算法。
在研究期间,南苏丹要求对国际旅行者进行为期两周的隔离,这使得BST开发人员无法像以往调查中那样前往进行培训和实地监督。与以往对AutoAnthro技术的评估不同,来自美国的BST团队通过网络视频会议对培训人员进行了培训。这被认为是一个主要障碍,因为它限制了在培训期间快速识别数据捕获中的小错误的能力,以及对技术故障排除的支持。
在枚举人员练习对儿童进行扫描时,远程培训的局限性尤其相关。远程观测这些测量结果被证明是不切实际的:
有一次,我们和IMC的团队通话,他们试图获取一个孩子的数据,而我们得到的只是垃圾数据。一点都不好。没有可用的。我们不知道问题出在哪里。但事实证明,有两三个计数人员同时在一个孩子身上使用了这种设备。现在,如果我们中的任何一个人在那里,我们可以在五秒钟内纠正这个问题。因为我们使用结构光方法来生成这些模型,当一个相机在寻找它的模式时,如果另一个相机也在同时运行,它就会生成一个干扰第一个的模式。这是一个5秒钟的问题,我们在一两天内都没有解决。
在对枚举员进行培训期间,每个小组都确定了一名人员接受AutoAnthro技术培训。枚举人员认为,培训所有枚举人员可使他们更好地相互支持;特别是,团队领导(没有接受过软件或定位方面的培训)感到没有权力监督团队扫描的质量。在之前的研究中,所有团队成员都接受了技术培训:
这是技术性工作。我们需要对所有人进行更多的培训……People are trained together, and some are very quick at capturing what [information] we were given in the training. In class, we are not equal...It’s good for people to be trained in one place together and then select [individuals to do scans] who would be the best to do the job.
(我们)需要额外的时间进行设备培训。[BST]需要训练我们所有人(不仅仅是扫描仪),这样我们就可以互相帮助,尤其是在定位方面。需要2天以上的驾驶和设备培训。大概4到5天的时间,这样我们就有足够的时间练习了。
关键的举报人,包括枚举人员和BST开发人员,认为可以通过增加持续时间和改进培训材料和协议来改进培训。虽然本研究的培训时间与之前对AutoAnthro技术的评估时间相似,但回顾起来,关键信息提供者认为培训时间过短。此外,培训是用英文编写的手册组织的,其中很少有照片。由于大多数枚举人员不讲英语或将英语作为第二或第三语言,建议编写更直观的田野手册。最后,对手工和扫描测量进行了标准化测试(每个计数员对10名儿童进行两次测量),但仅对手工结果的准确性和精密度进行了评估,这被认为是一种限制。
数据收集发生在南苏丹的夏季,那里的温度一直是38°C,在数据收集的许多天里,团队都遇到了倾盆大雨。当天气晴朗时,扫描通常在室外阳光直射下进行。当下雨时,扫描通常在室内进行,门窗关闭,以防止水进入,空间和光线都受到限制。枚举人员强调,小空间和低光照条件是获得成功扫描的关键障碍:
(我们被教导的是)如果孩子的位置不正确,结果就不会准确,(但是)没有足够的空间让孩子处于一个好的位置。这就是差异的来源。
在这些条件下进行了有限的测试;然而,开发人员认为这两者都不应该影响扫描性能:
你真的只需要离孩子4英尺远……When you take a picture, how far back do you normally stand? You know, I would say at least six feet. Probably more when you're taking a picture of your friends. And so [the appropriate distance for the scans] might just not be where it is natural to stand.
[光线不好的家庭]不会影响扫描质量。事实上,它可以提高扫描质量,因为你可以避免阳光直射,因为这样你就可以纯粹依靠结构光了。那应该很好。AutoAnthro技术有两种测量距离的方法:通过这种结构光,比如在孩子身上放一个图案,然后知道这些(红外)光点的位置,或者(通过几何形状,利用两个摄像头同时对着物体的角度差异)。在非常明亮的光线下,你只能使用双摄像头,你不能太依赖结构光。
枚举人员注意到的另一个挑战是,手机经常过热,关机,读数无效,这是以前的研究或压力测试中没有观察到的问题。然而,调查前的压力测试限制在2小时,而实地工作每天持续8小时。关键消息人士指出,3D扫描仪的最高工作温度为95°F(35°C),温度的大幅波动会影响扫描仪中用于评估距离的三角函数(例如,影响摄像机和红外光发射之间距离的校准)。然而,他们不确定在高于最高工作温度5°F的情况下操作设备是否有意义:
在采集数据的第三天,设备开始发热。我向[研究主管]报告了这些挑战。设备显示它自己锁定了。当它失败时,我们知道有问题。当设备出现故障时,它可能会显示“00”或MUAC的[测量值]为30 [cm]……当它失败时,您可以单击保存并选择结束会话。当设备显示“00”时,我选择结束会话,[重新启动],然后再次扫描孩子。对我来说,这种情况发生过很多次。在(收集数据的)第三和第四天,可能是3次
用于分析的扫描是自动处理的,但为了了解错误的来源而手动检查。发现的2个最常见的问题是扫描时儿童的脚被遮挡(影响身高和长度测量),以及枚举器太靠近儿童,以至于算法将枚举器的手臂误认为儿童的手臂(影响MUAC测量)。不寻常的光照条件也会影响扫描,但观察到的频率较低:
统计员的手或胳膊几乎总是遮住脚。所以,这里有一些猜测(我没有手动触摸脚,但从算法上来说,脚的位置有很多不确定性)。在这种情况下,我认为我们可以用不同的方式来写指令,比如只抓住孩子的小腿或脚踝,而不是脚掌。对于站着的大孩子,我看到很多情况下,你根本看不到脚。他们离得太近了,或者手机角度不对。在这个例子中[扫描从训练显示],有足够的空间之间的脚的轮廓在底部。然而,在很多情况下,你甚至看不到孩子的脚踝。有时手也可能被切断,但这不是问题,因为(算法)只寻找肘部。这是很罕见的…头部没有被捕获。这种情况发生过几次。 It was pretty rare. The procedural problem that we saw far more often is that the enumerators arms were really close to the child's arms and that would throw a joint (e.g., move it from the child elbow to the enumerators elbow).
在iOS设备的瞄准屏幕上,你很清楚地在三维空间中移动一个立方体——就像屏幕上显示的那样——你试图把孩子放在那个立方体里。你很清楚地知道立方体里有什么,立方体外有什么。你的目标是把孩子完全放进那个立方体里。在Android系统上,这更像是瞄准相机。感觉更像是二维的。我们最终增加了一个有用的身体轮廓,但我认为孩子们仍然被切断了。在iOS系统中,你的截屏并不是屏幕的边缘。你被切断了就像屏幕上的这个瞄准框。因为你用的是iPad,所以当你用双手瞄准时,你的视野(与Galaxy手机相比)更大。
最后,普查人员指出,照护者拒绝的情况非常罕见。尽管在拍摄幼儿,特别是裸体幼儿的照片方面存在文化敏感性,但他们通常能够让护理人员放心,向他们展示3D模型(而不是照片),最终大多数护理人员都同意了。然而,孩子有时会哭泣和发脾气,基于此,照顾者会撤回同意。据普查人员称,在试图捕捉2岁以下儿童的扫描时,通常会观察到这种情况,这些儿童需要平躺在他们的背部,手臂伸展,最好与他们的照顾者分开。
在数据收集结束时,由研究协调员进行数据传输;由于连通性,由枚举人员每日上传是不可行的。在传输过程中总共丢失了198个扫描。开发人员无法复制传输过程中观察到的错误,因此错误发生的来源尚未确定。根据保留的元数据,开发人员认为扫描没有被捕获的可能性比扫描传输失败的可能性更大(例如,子节点被定位,但扫描获取没有成功启动):
在我看来,数据传输仍然是一个谜。我不明白为什么我们可以运行Skype,在他们和我们的服务器之间来回运行视频,但是我们不能一直让数据自动上传。我们经历了各种各样的困难和工作,试图确保我们实际上拥有所有的数据。直到今天,我都不知道为什么我们的软件在上传数据时不能正常工作。在其他地方,这种做法已经奏效。(在南苏丹)它的工作非常不稳定。
我不相信这些会话的数据存在。因为我无法复制我们在南苏丹观察到的情况,在那里我们有……服务器上有100个子节点,但只有20个子节点的数据。据我所知,唯一可能发生的方法是输入子进程的信息来创建新会话,但不实际获取它的数据。
本研究评估了使用第三代AutoAnthro技术计算的6至59个月儿童扫描人体测量数据的准确性。该版本的AutoAnthro系统旨在优化3D成像技术,以便在非研究环境中大规模采用,包括南苏丹农村等艰苦环境。与以前在受控环境下的试验相比,但与其他有效性评估一致,扫描衍生测量的质量远远低于手工人体测量[
2019冠状病毒病(COVID-19)大流行的背景以及南苏丹资源匮乏的环境突出了之前使用3D成像技术未发现的后勤挑战,这可能导致了我们在研究中观察到的低准确性。由于拒绝率较高,扫描质量较差,大量扫描未成功传输,研究中10个儿童中只有4个成功处理了扫描。虽然在以前的3D扫描技术研究中报告了较高的拒签率,但南苏丹问题的严重程度是明显的[
虽然定量分析记录的准确性太低,目前无法支持AutoAnthro软件的广泛采用,但关键的线人访谈提供了可能改善扫描捕获和处理的投资的见解。关于软件平台,还需要进一步改进,以确保扫描可以在低带宽网络上成功传输,并且在极端光照条件下(阳光直射或极弱光)捕获的扫描可以顺利处理。为了支持向完全自动化的过渡,枚举员和现场监督员审查扫描和元数据的能力比Conkle等人在研究中评估的以前版本的技术更受限制[
此外,需要进一步改进培训材料,以确保在没有BST团队直接支持的情况下更优地实施;这最终将需要允许大规模使用。培训方案和材料的更新可通过翻译成当地语言和提供更多插图来支持不讲英语和文化水平低的普查人员。保证充足的练习时间也很重要。与之前的研究一致,我们认为需要进一步指导现场条件下的扫描捕获和定位(如低光、小空间和阳光直射)[
本研究至少有六个局限性。首先,超过三分之一的采样儿童的扫描没有成功传输到云服务器,也无法从设备中恢复。虽然扫描的成功传输与儿童人口特征或营养状况无关,但数据的丢失导致样本量较小,计划分析的能力有限。其次,为了确保手工测量和扫描测量正确匹配,将儿童的年龄、性别和体重输入两个数据集以及儿童识别号码。然而,对于许多身份证号码匹配的儿童来说,这些其他值并不完全匹配,这引发了人们对两个测量值是否真的来自同一个孩子的担忧。第三,以人工测量作为评估扫描测量结果的标准;然而,有一些终端数字偏好评分的迹象,WHZ和HAZ值的SD超过1.1,表明潜在的测量误差[
这项研究是基于对3D成像技术的浓厚兴趣、轻量级硬件的潜在用途、强大的用户可接受性以及支持相对于手动人体测量术的潜在时间节省的证据而发起的[
与扫描可用性和准确性相关的附加表格和数字。
车身表面翻译公司
身高年龄或身高年龄z值
国际医疗队
协议限度
中上臂围
测量技术误差
世界卫生组织
身高体重或身高体重z值
作者非常感谢国际医疗团团队的努力,他们为数据收集活动提供了现场监督和支持,其中包括Ibrahim Maalim Bashir、Dugsiye Ahmed Sirad和Logworong Alex Duku。尽管无法进行人工测量,但来自Body Surface Translations Inc的Gene Alexander、Harris Bergman和Peter Miller的参与对于明确评估的硬件和软件更改、处理扫描衍生的测量,以及提供早期试验和培训的见解,有助于将发现的背景化,是至关重要的。《AutoAnthro: 3D扫描改善冲突地区营养不良评估》得到了“在冲突中创造希望:人道主义大挑战”的支持,该项目由美国国际开发署、英国政府、荷兰外交部和加拿大全球事务部合作,并得到了加拿大大挑战的支持。该奖项的获得者是Body Surface Translations公司,该公司开发了AutoAnthro软件。美国国际开发署人道主义援助局为本研究所在的两阶段类集调查提供了单独的财政援助。资助者在研究设计、数据收集和分析、发表决定或手稿准备中没有任何作用。
作者声明没有利益冲突。这篇论文是由合著者在没有Body Surface Translations公司参与的情况下编写的,作者确认软件性能报告是客观和独立的。