发表在第24卷第8期(2022):8月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/37850,首次出版
使用机器学习算法的个人艾滋病毒和性传播感染风险的基于web的风险预测工具:开发和外部验证研究

使用机器学习算法的个人艾滋病毒和性传播感染风险的基于web的风险预测工具:开发和外部验证研究

使用机器学习算法的个人艾滋病毒和性传播感染风险的基于web的风险预测工具:开发和外部验证研究

原始论文

1墨尔本性健康中心,阿尔弗雷德健康中心,澳大利亚墨尔本

2澳大利亚墨尔本莫纳什大学医学、护理和健康科学学院中央临床学院

3.中澳传染病联合研究中心,西安交通大学医学部,中国西安

4莫纳什大学电子研究中心,工程学院,Airdoc研究,Nvidia人工智能技术研究中心,莫纳什大学,墨尔本,澳大利亚

5澳大利亚墨尔本大学墨尔本人口与全球卫生学院流行病学和生物统计学中心

6东南大学公共卫生学院,中国南京

7澳大利亚墨尔本拉筹伯大学数据分析与认知研究中心

通讯作者:

张磊博士

墨尔本性健康中心

阿尔弗雷德健康

斯旺斯顿街580号

墨尔本,3053

澳大利亚

电话:61 3 9341 6230

传真:61 3 9341 6264

电子邮件:lei.zhang1@monash.edu


背景:艾滋病毒和性传播感染是全球重大公共卫生问题。在全世界15岁至49岁的人群中,每天发生100多万可治愈的性传播感染。检测或筛查不足严重阻碍了消除艾滋病毒和性传播感染。

摘要目的:我们研究的目的是使用机器学习算法开发一种艾滋病毒和性传播感染风险预测工具。

方法:我们使用2015年3月2日至2018年12月31日期间在墨尔本性健康中心检测艾滋病毒和性传播感染的诊所咨询作为开发数据集(培训和测试数据集)。我们还使用了2个外部验证数据集,包括2019年的数据作为外部“验证数据1”,2020年1月和2021年1月的数据作为外部“验证数据2”。我们开发了34个机器学习模型来评估感染艾滋病毒、梅毒、淋病和衣原体的风险。我们创建了一个在线工具来了解个人感染艾滋病毒或性传播感染的风险。

结果:艾滋病毒和性传播感染风险的重要预测因素是性别、年龄、报告与男性发生性行为的男性、随意性伴侣的数量和避孕套的使用。我们基于机器学习的风险预测工具,名为MySTIRisk,在测试数据集上表现出可接受或优秀的水平(HIV的曲线下面积[AUC] =0.78;梅毒AUC =0.84;淋病的AUC =0.78;衣原体的AUC =0.70),并且在2019年的两项外部验证数据上表现稳定(HIV的AUC =0.79;梅毒AUC =0.85;淋病的AUC =0.81;衣原体的AUC =0.69)和2020-2021年的数据(HIV的AUC =0.71;梅毒AUC =0.84;淋病的AUC =0.79; AUC for chlamydia=0.69).

结论:我们基于网络的风险预测工具可以通过简单的自我报告问题准确预测诊所参与者感染艾滋病毒和性传播感染的风险。MySTIRisk可以作为诊所网站或数字健康平台上的艾滋病毒和性传播感染筛查工具,鼓励有艾滋病毒或性传播感染风险的个人进行检测或开始艾滋病毒暴露前预防。公众可以使用这个工具来评估他们的风险,然后决定是否去诊所进行检测。临床医生或公共卫生工作者可以使用这一工具来识别高危人群,以便进行进一步干预。

中国医学杂志,2018;24(8):e37850

doi: 10.2196/37850

关键字



艾滋病毒和性传播感染是全球重大公共卫生问题[12].世界卫生组织(世卫组织)估计,在全世界15岁至49岁的人群中,每天发生100多万可治愈的性传播感染[3.].截至2020年底,澳大利亚估计有29,090人感染了艾滋病毒,15岁以上人群的艾滋病毒流行率为0.14% [4].据估计,2020年澳大利亚所有艾滋病毒感染者中未确诊的艾滋病毒感染率约为9% [4].淋病、衣原体和早期梅毒可无症状。2013年至2017年期间,澳大利亚的性传播感染大幅增加。男性衣原体性传播感染检出率由302.2/10万增至394.9/10万,女性由430.7/10万增至441.8/10万,淋病由91.1/10万增至174.2/10万,女性由39.6/10万增至61.8/10万,梅毒由男性由12.3/10万增至31.1/10万,女性由1.4/10万增至5.5/10万[5].此外,性传播感染在收入有限的国家造成了很大的卫生和经济负担[6].

为了应对不断上升的性传播感染发病率,世卫组织提出了《2016-2021年全球卫生部门性传播感染战略》,旨在到2030年结束作为公共卫生问题的性传播感染流行。具体包括全球淋病发病率较2018年全球基线降低90%,并在80%的国家实现每10万活产新生儿先天性梅毒发病率≤50例[7].2018年,联合国提出了“2030年可持续发展议程”,呼吁到2030年结束艾滋病的流行[8].有效控制这些感染的关键是可获得的卫生保健,特别是频繁的检测,因为经过治疗的感染会迅速变得不具传染性[2].筛查无症状个体对于艾滋病毒和性传播感染的诊断、治疗、预防和控制很重要[9].检测的障碍包括对个人艾滋病毒和性传播感染风险的错误判断,检测的可用性有限,以及检测的高成本[10].因此,开发创新工具将有助于个人准确判断自己感染艾滋病毒和性传播感染的风险,从而增加对高危人群的筛查。

一种易于获取和用户友好的工具,可以准确识别个人的感染风险,成为基于网络的风险预测计划的一部分,并在风险预测和个性化风险管理中发挥作用[11].向公众提供风险预测工具,帮助他们估计艾滋病毒和性传播感染的风险,可能会鼓励高危人群更定期地进行检测。以前的一项研究表明,风险认识的增加与更多的性传播感染保健使用(如检测)有关[12].艾滋病毒和性传播感染风险预测工具可以提高对风险的认识,并激励个人寻求艾滋病毒和性传播感染检测或治疗。另一项回顾研究表明,基于网络的筛查应用程序可以有效地提高普通人群的健康筛查使用率[13].然而,目前还没有一种基于网络的工具可以通过自我报告的问题向用户提供个人目前感染艾滋病毒和性传播感染(淋病、衣原体和梅毒)的定量风险。

可以使用一些数学技术来计算个人感染艾滋病毒和性传播感染的风险。逻辑回归在使用复杂大数据的预测分析中存在局限性。逻辑回归方法需要强大的假设,不能轻易处理非线性关系、相互作用和多重共线性[1415].相比之下,非线性机器学习方法可以解决这些限制,并在使用大数据进行预测分析时具有许多优势(例如,捕获非线性关系和相互作用)[16].机器学习还可以高精度地识别罕见的健康结果[17].集成学习也是一种机器学习方法,它结合了多种机器学习算法来提高模型的性能[18].

尽管机器学习方法具有优势,但目前还缺乏使用机器学习模型对HIV和STI风险进行个人风险预测的工具。现有的使用机器学习算法预测HIV和STI感染的研究主要集中在HIV [19-30.],很少有人关注性传播感染[192131].在这些艾滋病毒预测研究中,有4项研究集中在高危人群(如男男性行为者[MSM]] [20.212429]), 2项研究使用影像或临床文本数据[2230.], 4项研究使用了40多个预测因子[2326-28],还有两项研究评估了未来但不是目前的艾滋病毒预测[1925].在STI预测研究中,1项研究采用MSM [21],另外2项研究集中在未来STI预测[1931].这些研究还发现,非线性机器学习模型(如随机森林[RF]、梯度增强机[GBM]和神经网络)在HIV和STI预测方面比逻辑回归表现得更好[19212431].这些已发表的研究强调了机器学习模型的缺乏,这些模型使用简单的自我报告问题,预测艾滋病毒和性传播感染的风险,并且男性和女性都可以使用。因此,为了解决目前缺乏预测性传播感染和艾滋病毒风险的研究,特别是在低风险的异性恋人群中,我们的目标是使用一个叠加集成学习框架和自我报告问题来预测男性和女性中的艾滋病毒和3种常见的性传播感染(淋病、衣原体和梅毒),以及随后的基于网络的艾滋病毒和性传播感染风险预测工具。


研究人群

墨尔本性健康中心(MSHC)是澳大利亚维多利亚州最大的公共性健康中心,提供免费的艾滋病毒和性传播感染检测和管理[32].在母婴健康中心,每次探访时,会以电脑辅助自我访谈(CASI)记录个人的人口统计资料及性行为,每次最少相隔3个月[33].我们使用来自MSHC电子健康记录(EHR)的临床咨询数据来开发和验证风险预测模型。我们选择2015年3月2日作为开始日期,因为这一天是我们采用淋病和衣原体新检测平台的日子(Aptima Combo, Hologic, Marlborough, MA)。我们的研究数据包括2015年3月2日至2021年1月29日期间在MSHC接受艾滋病毒或性传播感染检测的18岁及以上的男性和女性。我们排除了变性人和18岁以下的人。

我们使用了2015年3月2日至2018年12月31日的数据作为开发数据集(训练和测试数据集)。艾滋病毒研究数据集包括培训和测试数据(88,642次咨询)。梅毒、淋病和衣原体研究数据集分别有92,291、97,473和115,845例咨询。

我们使用时间验证作为外部验证来评估我们的风险预测模型的可移植性和泛化性。COVID-19流行病可能已经改变了参加MSHC的人口统计数据[34].我们进行了两次时间验证,以进一步验证我们的模型,并减少COVID-19可能引起的偏差。2个外部验证数据集包括2019年的数据作为外部“验证数据1”,以及2020年1月和2021年1月的数据作为外部“验证数据2”。对于HIV,第一个外部验证数据集包含28,875次咨询,第二个外部验证数据集包含18,052次咨询。对于梅毒,第一个外部验证数据集包含30302次咨询,第二个外部验证数据集包含19150次咨询。对于淋病,第一个外部验证数据集包含36,805次咨询,第二个外部验证数据集包含22,886次咨询。对于衣原体,第一个外部验证数据集包含36,393次咨询,第二个外部验证数据集包含22,615次咨询。

伦理批准

澳大利亚墨尔本阿尔弗雷德医院伦理委员会批准了该项研究(项目编号:124/18)。所有方法均遵循阿尔弗雷德医院伦理委员会的相关指导方针和规定进行。由于这是一项回顾性研究,对研究参与者的隐私风险最小,因此阿尔弗雷德医院伦理委员会放弃了知情同意的需要。在任何计算分析之前,研究参与者的所有识别细节都被删除。

预测

我们选择的数据字段作为预测因素是根据文献综述、专家意见和先前的工作[21].预测因素是来自EHR的自我报告问题,包括人口统计学、性行为、性传播感染史和性传播感染接触史(总结于表1表S1-S5多媒体附件1).

表1。培训与测试数据集中的临床会诊特征。
变量 艾滋病毒(n=88,642次咨询) 梅毒(n=92,291次咨询) 淋病(n=97,473次咨询) 衣原体(n=115,845例咨询)
性别,n (%)

26651 (30.1) 27134 (29.4) 31282 (32.1) 38548 (33.3)

男性 61991 (69.9) 65157 (70.6) 66191 (67.9) 77297 (66.7)
就诊年龄(年),中位数(IQR) 29.0 (24.0 - -35.0) 29.0 (25.0 - -35.0) 28.0 (24.0 - -35.0) 28.0 (24.0 - -34.0)
出生国家,n (%)

澳大利亚 39148 (44.2) 40990 (44.4) 43881 (45.0) 51162 (44.2)

海外 46003 (51.9) 47670 (51.7) 49835 (51.1) 60272 (52.0)

失踪 3491 (3.9) 3631 (3.9) 3757 (3.9) 4411 (3.8)
STI一个症状,n (%)

没有 56175 (63.4) 57413 (62.2) 54595 (56.0) 68584 (59.2)

是的 25067 (28.3) 27150 (29.4) 34751 (35.7) 38930 (33.6)

失踪 7383 (8.3) 7728 (8.4) 8127 (8.3) 8331 (7.2)
男男性行为者,n (%)

不适用(女性) 26651 (30.1) 27134 (29.4) 31282 (32.1) 38548 (33.3)

没有 16508 (18.6) 17089 (18.5) 15245 (15.6) 26975 (23.3)

是的 45483 (51.3) 48068 (52.1) 50946 (52.3) 50322 (43.4)

一个性传播感染

测量结果

HIV感染定义为基于血清学的HIV新诊断。梅毒感染定义为通过血液检测或核酸扩增试验(NAAT)诊断早期梅毒(原发性、继发性和早期潜伏[<2年])的新诊断。淋病感染定义为在任何解剖部位进行培养或NAAT的淋病新诊断。在临床中,淋病检测最初与NAAT一起进行,培养主要在NAAT阳性后使用。衣原体感染被定义为在任何解剖部位使用NAAT的新诊断。我们以前的出版物详细报道了诊断方法[1921].

风险评估模型开发

我们开发了34个机器学习模型来评估获得艾滋病毒、梅毒、淋病和衣原体的风险图1).

图1。机器学习算法的开发。梯度增压机的结构改编自Feng等[35].LASSO:最小绝对收缩和选择算子。
查看此图
基础的学习者

逻辑回归已被广泛用于预测性传播感染和HIV的风险[3637].GBM采用基于决策树的boosting方法,通过调整参数使损失函数最小,并确定误差最小的最优点[38].RF包括使用自举聚合和预测器随机化的决策树集合,以实现高度的预测准确性[39].朴素贝叶斯(Naive Bayes, NB)方法简单,在大型数据库中具有较高的准确率和速度,已广泛应用于疾病分类[40].深度学习(DL)有效地解决了许多医疗问题,并利用人工神经网络的层次结构来执行分类过程[41].

我们首先建立了4个回归模型,包括逻辑回归、岭回归、最小绝对收缩和选择算子回归(LASSO)和弹性净回归(ENR)。根据4个回归分析的初步结果,我们发现ENR优于其他3个回归分析(详见多媒体附件1).考虑到我们之前对MSM的机器学习研究[21]和NB的优点(例如,在大型数据库中精度和速度高),我们开发了5个基本模型,包括前面提到的ENR、NB、DL(神经网络)、RF和GBM。

堆叠集成学习

堆叠集成学习是一种集成学习方法,它基于2个(或更多)先前机器学习模型的组合预测来训练一个新模型。堆叠集成学习通常比单独的机器学习技术表现更好[42].我们将上述5个基础模型结合起来,系统地建立了26个集成学习模型,以提高艾滋病和性传播感染的预测性能。详情见多媒体附件1(汇总见表S6)。

机器学习训练技术

我们的模型使用单热编码方案进行数据分类。我们没有引入缺失数据,而是创建了一个二进制特征向量来指示缺失值。考虑到4例感染均<10%,数据被认为是“不平衡的”。数据不平衡可能导致预测结果过拟合或表现不佳[43].我们使用5 × 10(5个外褶,10个内褶)嵌套交叉验证(CV)进行模型选择和训练[2144].外部5倍CV用于解决使用单一数据集引起的选择偏差。在训练数据集上使用内部的10倍CV进行机器学习模型的超参数调优。我们使用曲线下面积(AUC)来选择最佳模型。AUC在0.7至0.8之间被认为是可接受的,0.8至0.9被认为是优秀的,>0.9被认为是优秀的[45].机器学习模型是使用R软件(3.6.1和R studio 1.2.5019)中的包(版本3.32.1.2)。

估算艾滋病毒和性传播感染的风险

我们的机器学习模型预测了艾滋病毒或性传播感染的概率,其归一化分布在值0到1之间。模型预测的概率被校准为艾滋病毒和性传播感染的实际流行水平。我们使用logistic函数为每个模型预测的概率和感染流行率提供拟合曲线。我们将估计的感染流行率作为感染的“校准风险”,并在风险报告中提出。我们使用MATLAB R2019a (MathWorks, Natick, MA)将模型预测的概率校准到实际流行水平。该方法在我们之前的论文[19].我们将艾滋病毒或性传播感染的校正风险分为3个风险级别:艾滋病毒(低,<0.1%;中,0.1% - -1.0%;高,>1.0%),梅毒(低,<0.2%;中,0.2% - -5.0%;高,>5.0%),淋病(低,<0.1%;中,0.1% - -1.0%;以及高,≥1.0%)和衣原体(低,<2.0%;中,2.0% - -15.0%;高,>15.0%)。

建立艾滋病毒和性传播感染风险预测工具

为了研究预测因子的影响,我们使用最佳基础机器学习模型来计算HIV、梅毒、淋病和衣原体感染的变量重要性。我们确定并选择了占每种感染总体模型性能80.0%以上的预测因子。我们基于这些预测因素重新训练、重新测试和重新验证了表现最佳的模型。我们比较了AUC、敏感性和特异性,以重新评估模型性能与入围预测因子。我们还使用AUC来评估最佳机器学习模型在预测器入围之前和之后的性能变化多媒体附件1).我们通过汇集重要的预测因素,形成了一份新的问卷,以开发一个基于网络的艾滋病毒和性传播感染风险预测工具。


研究数据的特点

我们的培训和测试数据包括216例(88,642例咨询中0.2%)艾滋病毒感染,787例(92,291例咨询中1.9%)梅毒感染,7581例(97,473例咨询中7.8%)淋病感染,10217例(115,845例咨询中8.8%)衣原体感染。4组感染数据中男性的比例分别为66.7%(77,297/115,845)和70.6%(65,157/92,291)。详情见表1及表格S1多媒体附件1.外部验证数据的特征如表S2-S5所示多媒体附件1

为HIV和STI风险预测工具选择最佳ML模型

我们的结果表明,集成学习模型比单独的机器学习模型表现得更好。在所有34个模型中,我们的最佳模型(集合ENR+GBM+RF)在预测艾滋病毒(AUC=0.78)、梅毒(AUC=0.84)、淋病(AUC=0.78)和衣原体(AUC=0.70;图S1-S3 in多媒体附件1).测试数据分析详见中表S7-S22多媒体附件1.我们的外部验证结果显示,与测试数据分析非常相似的auc(0.69-0.85)。中表S7-S22提供了外部验证分析的详细信息多媒体附件1

选择艾滋病毒和性传播感染风险预测工具的最重要预测因素

4种感染的前10个预测因子占HIV和STI模型总体性能的80.0%。这些预测因素包括性别、出现性病症状,男男同性恋者,年龄、出生地、做爱和一个男人在过去12个月里,随意的男性的性伴侣的数量在过去的12个月里,避孕套的使用与男性合作伙伴在过去12个月中,休闲女性性伴侣的数量在过去的12个月里,药物注射在过去12个月,海外性在过去12个月,过去淋病感染,过去的非特异性尿道炎感染、梅毒感染,与淋病个案、衣原体个案及梅毒个案接触(图2).我们形成了最终的艾滋病毒和性传播感染风险预测问卷,其中包括每种感染的前10个预测因素。

图2。使用梯度增强机预测艾滋病毒或性传播感染(STIs)的前10个预测因素的重要性,用于检测(a)艾滋病毒,(B)梅毒,(C)淋病和(D)衣原体。
查看此图

HIV和STI风险预测工具的建立和评估,MySTIRisk

在选择最重要的预测因子和最佳模型(集成ENR+GBM+RF)的基础上,我们构建了一个HIV和STI风险预测工具,命名为MySTIRisk.我们检查了MySTIRisk并证明其在测试中的表现是可以接受的或优秀的(HIV的AUC =0.78;梅毒AUC =0.84;淋病的AUC =0.78;衣原体的AUC =0.70),与基于预测因子的原始模型相似。我们的风险预测工具在2019年的外部验证数据上获得了稳定的性能(HIV的AUC =0.79;梅毒AUC =0.85;淋病的AUC =0.81;衣原体AUC =0.69)。我们的风险预测工具在2020-2021年的外部验证数据上也取得了稳定的性能(HIV的AUC =0.71;梅毒AUC =0.84; AUC for gonorrhea=0.79; AUC for chlamydia=0.69;图3表S23-S26多媒体附件1).使用所选的预测因子,我们的风险预测工具显示了与使用所有预测因子的最佳机器学习模型的可比auc(表S27)多媒体附件1).

图3。HIV和性传播感染(STI)风险预测工具在(A) 2015-2018年检测数据分析,(B) 2019年外部数据验证分析,(C) 2020-2021年外部数据验证分析上的受试者工作特征曲线表现。AUC:曲线下面积。
查看此图

为了估计艾滋病毒或性传播感染的风险,我们使用logistic函数对数据进行拟合,为每个模型预测的概率和感染流行率提供拟合曲线(图S4-S7)多媒体附件1).然后,使用R Shiny创建了该工具的原型版本[4647]以允许个人输入和艾滋病毒和性传播感染的风险计算。该工具的原型版本可在网上获得[48].该工具的图形用户界面元素总结在图4.web应用程序收集个人特征,处理收集的特征,加载经过训练的机器学习模型,计算定量的HIV和STI风险,并显示风险和建议的结果。web应用程序的输入是使用MSHC运行的以前成功的网站或内部CASI问卷(每年6万个条目)设计的,并使用了个人特征数据,包括人口统计数据、性行为、性传播感染史和性传播感染接触史。web应用程序的输出包括艾滋病毒和性传播感染的风险预测结果和建议,这些建议是与墨尔本大学的Jon Emery教授协商开发的,他是风险沟通方面的专家(见致谢部分)。我们承认这只是一个原型,我们将进一步优化这一输出,以实现准确的风险沟通。

图4。图形用户界面元素的艾滋病毒和性传播感染(STI)风险预测工具,称为MySTIRisk。该工具的原型版本可于[48].机器学习算法被用于预测一个人感染衣原体、淋病、梅毒和艾滋病毒的风险。
查看此图

以下是艾滋病毒和性传播感染风险预测结果的例子:

你的艾滋病风险大约是2/1000。在像我这样的1000人中,有2人会感染艾滋病毒。998人不会感染艾滋病毒。
你的梅毒风险大约是10/1000。在像我这样的1000人中,有10人会感染梅毒。990人不会得梅毒。
你的淋病风险大约是30/1000。在像我这样的1000人中,有30人会得淋病。970人不会得淋病。
你的衣原体感染风险大约是50/1000。在像我这样的1000人中,有50人会感染衣原体。950人不会感染衣原体。

下面的例子描述了测试建议:

  • 检测的好处:预防所有并发症,防止在不知不觉中传染给他人。
  • 不检测的后果:感染并发症,如不孕症(衣原体未经治疗)、慢性疼痛(衣原体未经治疗)、听力损失(梅毒未经治疗)和癌症(艾滋病毒未经治疗)。

主要研究结果

这是第一个基于机器学习算法和自我报告数据的基于网络的风险预测工具,可以准确识别男性和女性的HIV和梅毒、淋病和衣原体感染,并且在外部验证中是稳定的。我们的研究结果表明,机器学习算法可以预测诊所参与者中的HIV和性传播感染。我们的结果还表明,在预测HIV和性传播感染方面,堆叠集成学习算法比单个机器学习模型表现得更好。然后,我们开发了一个基于网络的应用程序,为HIV和3种性传播感染的阳性诊断风险提供即时和个性化的评估。我们的应用程序可以成为诊所网站或数字健康平台的一部分,以识别艾滋病毒和性传播感染风险较高的个人或艾滋病毒暴露前预防(PrEP)的潜在候选人。在其他国家的进一步验证研究可以评估这一风险预测工具的有用性,这有助于降低艾滋病毒和性传播感染的发病率以及艾滋病毒和性传播感染筛查的成本,这需要昂贵的设备和专业知识。

与之前工作的比较

我们的研究结果表明,非线性机器学习算法在预测男性和女性艾滋病和性传播感染方面比传统的逻辑回归提供了更好的性能。我们的发现与之前艾滋病毒和性传播感染的机器学习预测模型的结果一致[19212431].鲍等[21]表明,GBM模型在MSM中的表现优于逻辑回归。我们的研究表明,即使没有集成学习,非线性机器学习模型(如GBM, RF)也可以提供比传统逻辑回归更好的性能。

我们的结果表明,堆叠集成机器学习技术优于单个机器学习模型。我们系统地开发和测试了34个机器学习模型,发现堆叠集成学习技术优于单个机器学习模型[18].以前的研究使用集成学习模型来预测个人的艾滋病毒风险[1925];然而,还没有研究使用整体学习模型来研究淋病、衣原体或梅毒的风险。我们唯一能确定的研究是通过整体学习预测了重复STI的风险。长者等[31]显示,在随访730天内,对于2次或2次以上的重复性传播感染,模型集成比单个分类器表现更好(AUC=0.76)。我们的研究结果发现,堆叠集成技术也可以用于提高HIV预测的性能。我们的HIV综合模型的AUC (AUC=0.78, 95% CI 0.74-0.83)高于在肯尼亚和乌干达进行的HIV风险预测的类似研究(AUC=0.73, 95% CI 0.71-0.76) [25].我们还发现,更多个体机器学习模型的组合并不一定会导致更好的堆叠集成模型。例如,在我们的研究中,梅毒4个模型的堆叠集成学习并不高于3个模型的堆叠集成学习。我们还发现,性能更好的堆叠集成模型总是包含GBM。我们的堆叠集成学习策略的发现可能会对未来的堆叠集成学习框架产生影响。

与之前预测HIV和性传播感染的机器学习模型相比,我们的模型有几个优势。首先,我们的预测模型并不局限于高危人群(如男同性恋者)。艾滋病毒和性传播感染风险预测模型以前已经发表,但主要是针对高危人群,如男同性恋者[20.212429].我们的模型可以预测男性和女性的艾滋病毒和性传播感染,包括同性恋和异性恋者。其次,我们的预测模型只使用自我报告和简单的问题来开发模型。先前发表的研究在其模型中使用了大量预测因子[2326-28].第三,系统地开发了26个集成模型。在我们的研究中,我们测试了5个基本模型的所有可能组合。我们研究的最终优势在于我们对每个模型进行了2次外部验证分析。

我们无法找到任何基于网络的、公开可用的工具来量化STI风险。我们确定了一些可用的基于网络的艾滋病毒预测工具,例如“艾滋病毒风险预测工具”[49]、“爱滋病风险计算器”[50]及“网上风险评估”[51].我们还确定了一些可用的基于网络的性传播疾病预测工具,例如“了解你是否需要进行性传播疾病检测”[52]、“在线STI测试”[53],以及“免费测试”[54].这些艾滋病毒和性传播感染预测工具只提供主观术语,如“高风险”或“建议您进行艾滋病毒/性传播感染检测”。我们的风险预测工具可以量化艾滋病毒和性传播感染的风险。此外,我们基于人工智能(AI)的风险预测工具可以同时为18岁及以上的男性和女性提供艾滋病毒和3种常见性传播感染(淋病、衣原体和梅毒)的风险评分。

影响

我们基于网络的艾滋病毒和性传播感染风险预测工具可作为筛查工具,潜在地增加艾滋病毒和性传播感染检测,并鼓励获得检测和医疗保健(图S8)多媒体附件1).该工具可以在诊所网站上使用,这样公众就可以评估自己的风险,然后决定是否去诊所进行检测。如果诊所的需求太大,无法看到每个就诊的人,也可以在诊所内使用它来识别和分类那些艾滋病毒和性传播感染风险较高的人。然而,基于人工智能的风险预测工具不能在临床环境中取代正式的艾滋病毒和性传播感染检测和治疗,但它可以让个人了解自己的风险,并增加检测的使用。我们的工具可以提高对感染的风险认识和关注,从而增加艾滋病毒和性传播感染的检测。对英国人口的一项研究表明,风险认识的增加与更多的性传播感染保健使用有关[12].在其他国家或地区,如低收入和中等收入国家,对我们基于人工智能的风险预测工具进行进一步的外部验证,可能会提供一个机会,通过更好地将检测重点放在高危人群身上,从而降低艾滋病毒和性传播感染筛查的成本[55].

我们的基于网络的风险预测工具有许多可能的使用方式,包括作为行为干预的一部分,以控制艾滋病毒和性传播感染,或帮助临床医生或公共卫生工作者识别高风险人群,进行风险管理或进一步干预。青少年健康风险行为就是一个例子。研究人员使用个人的风险行为评分和个性化反馈作为健康行为干预的一部分,包括营养行为、身体活动和睡眠[56].在这项随机临床试验中,与对照组相比,干预组的年轻人在3个月时显著降低了他们的风险行为评分[56].我们基于网络的风险预测工具可以以同样的方式作为行为干预工具。

未来的工作将调查这种基于网络的艾滋病毒和性传播感染风险预测工具在收到风险预测结果和检测建议后对行为改变(即接受PrEP或推广避孕套)和性传播感染服务利用行为(及时就诊和接受艾滋病毒和性传播感染检测)的有效性。实施这一基于网络的艾滋病毒和性传播感染预测工具可以鼓励有性传播感染症状的个人或没有症状的高风险人群及时接受卫生服务机构的检测和定期检测。自2009年2月起,青少年健康中心定期向男同性恋者发送短信提醒他们进行性传播感染筛查[57].例如,在短信提醒信息中为高危人群(如男同性恋者)提供艾滋病毒和性传播感染的估计风险和降低风险的建议(即采用预防措施或推广避孕套),可能会鼓励检测和行为改变。

限制

本研究有一定的局限性。首先,预测因素依赖于来自CASI系统的自我报告信息,这受到参与者的回忆、无反应和社会可取性偏见的影响。例如,拒绝报告男性伴侣数量的男同性恋者感染衣原体的风险更高[58].政府已就CASI系统的有效性和准确性进行了大量工作[59].其次,机器学习模型可能会过度拟合。我们使用重复CV来解决过拟合问题。我们还使用集成学习方法来增强模型的通用性。第三,我们的模型对那些没有参加诊所或其他国家或地区的人的概括性是有限的,因为它来自单一的性健康服务。因此,如果在其他国家和地区使用,则需要进一步验证。最后,由于引入了预防措施,艾滋病毒的风险在这段时间内发生了迅速变化,因此考虑到这一单一预防策略的效力,未来的模型将需要包括这个问题。

结论

这是第一个基于网络的风险评估工具,使用机器学习算法和自我报告的数据来识别男性和女性中的艾滋病毒、梅毒、淋病和衣原体。我们的在线风险预测工具可以通过简单的自我管理问卷准确预测诊所参与者感染艾滋病毒和性传播感染的风险。我们的风险预测工具可以是诊所网站或数字健康平台的一部分。公众可以使用这一风险预测工具评估其艾滋病毒和性传播感染风险,为检测提供信息。临床医生或公共卫生工作者可以使用这种风险预测工具来确定高危人群,以便进行进一步干预。

致谢

EC和JJO得到了澳大利亚国家卫生和医学研究委员会新兴领导研究员资助(分别为GNT1172873和GNT1193955)。CKF由澳大利亚国家卫生和医学研究委员会领导研究员赠款(GNT1172900)支持。国家自然科学基金(81950410639)资助;杰出青年学者资助计划(资助号:3111500001);西安交通大学基础研究与职业基金(项目编号:xtr022019003, xzy032020032);流行病学建模与风险评估(批准号:20200344);西安交通大学青年学者资助基金(资助号:YX6J004)。作者想感谢墨尔本性健康中心(MSHC)的Afrizal进行数据提取。作者感谢Glenda Fehler对数据清理的贡献。作者还想感谢墨尔本大学的Jon Emery,他对风险预测工具(例如,图4).我们感谢MSHC的Mark Chung的协助图4

作者的贡献

XX、CKF和LZ构思并设计了该研究。XX整理数据,建立模型和编码,撰写初稿,编辑稿件。WL、EC、CKF和LZ对数据清理有贡献。XX、ZG、ZY、YB和LZ对模型的建立和编码有贡献。JW和XX开发了基于web的应用程序。CKF和LZ为建立基于web的应用程序做出了贡献。EC、CKF和LZ对数据验证和监督做出了贡献。EC、YB、ZY、ZG、JJO、WL、CKF、LZ参与了数据的解释和稿件的修改。所有作者都参与了手稿的准备工作,并批准了最终的手稿。

利益冲突

没有宣布。

多媒体附件1

补充表格和数字。

DOCX文件,728 KB

  1. 在预防和治疗作为预防的时代,面对不断上升的性传播感染。2019年6月;16(3):244-256 [免费全文] [CrossRef] [Medline
  2. 周世峰,葛鲁力,李志强。与有艾滋病毒风险的男性发生性行为的男性的流行病学和性传播感染的预防。柳叶刀HIV 2019年6月;6(6):e396-e405。[CrossRef] [Medline
  3. 2018年全球性传播感染监测报告。世界卫生组织,2018。URL:https://apps.who.int/iris/bitstream/handle/10665/277258/9789241565691-eng.pdf[2019-05-04]访问
  4. 艾滋病毒,病毒性肝炎和性传播感染在澳大利亚年度监测报告2021。柯比研究所,2021年。URL:https://kirby.unsw.edu.au/sites/default/files/kirby/report/Annual-Suveillance-Report-2021_HIV.pdf[2022-04-06]访问
  5. 澳大利亚的艾滋病毒、病毒性肝炎和性传播感染:2018年年度监测报告。柯比研究所,2018。URL:https://kirby.unsw.edu.au/report/hiv-viral-hepatitis-and-sexually-transmissible-infections-australia-annual-surveillance[2019-05-08]访问
  6. 马aud P, Mabey D.控制发展中国家性传播感染的方法:老问题和现代挑战。性传播感染2004 Jun 01;80(3):174-182 [免费全文] [CrossRef] [Medline
  7. 2016-2021年性传播感染全球卫生部门战略。世界卫生组织,2016年10月3日。URL:https://www.who.int/publications/i/item/WHO-RHR-16.09[2021-04-13]访问
  8. 联合国艾滋病规划署2018年数据。联合国艾滋病规划署。2018.URL:https://www.unaids.org/sites/default/files/media_asset/unaids-data-2018_en.pdf[2021-07-12]访问
  9. Levy SB, Gunta J, Edemekong P.性传播疾病筛查。Prim Care 2019 Mar;46(1):157-173。[CrossRef] [Medline
  10. Vermund SH, Wilson CM。艾滋病毒检测的障碍——下一个是哪里?柳叶刀2002年10月;360(9341):1186-1187。[CrossRef
  11. Collins IM, Bickerstaffe A, Ranaweera T, Maddumarachchi S, Keogh L, Emery J等。iPrevent®:一种针对乳腺癌风险评估和管理的定制的、基于web的决策支持工具。乳腺癌Res治疗2016 Feb;156(1):171-182 [免费全文] [CrossRef] [Medline
  12. Clifton S, Mercer CH, Sonnenberg P, Tanton C, Field N, Gravningen K,等。英国人口中的性传播感染风险认知及其与性行为和性传播感染医疗保健使用的关系:来自横断面调查的发现(Natsal-3)。EClinicalMedicine 2018 Aug;2-3:29-36 [免费全文] [CrossRef] [Medline
  13. 黄春春,吴志杰,销售主任,林宏。基于web的应用程序筛选的实施策略:范围审查。J Med Internet Res 2020年7月20日;22(7):e15591 [免费全文] [CrossRef] [Medline
  14. 王晓明,王晓明,王晓明,王晓明。基于人工神经网络和logistic回归模型预测颅脑损伤患者死亡率的比较研究。BMC Med Inform Decis Mak 2005年2月15日;5:3 [免费全文] [CrossRef] [Medline
  15. Rajula HSR, Verlato G, Manchia M, Antonucci N, Fanos V.传统统计方法与机器学习在医学中的比较:诊断,药物开发和治疗。医药(考纳斯)2020年9月08日;56(9):1 [免费全文] [CrossRef] [Medline
  16. 张晓东,李志强,李志强。统计学与机器学习的比较。Nat Methods 2018 Apr 3;15(4):233-234 [免费全文] [CrossRef] [Medline
  17. 葛格R,董S,沙S, Jonnalagadda S.一种bootstrap机器学习方法从电子健康记录中识别罕见病患者。arXiv 2016年9月6日1-8。
  18. 基于集成分类技术提高心脏病风险预测的准确性。医学信息学解锁2019;16:100203。[CrossRef
  19. 徐旭,葛志,周epf,于智,李丹,吴娟,等。一种基于机器学习的风险预测工具,用于在未来12个月内获得艾滋病毒和性传播感染。J临床医学2022年3月25日;11(7):1818 [免费全文] [CrossRef] [Medline
  20. 董勇,刘松,夏东,徐超,于旭,陈宏,等。中国男同性恋人群HIV感染风险的预测模型:验证和稳定性国际环境与公共卫生杂志2022年1月17日;19(2):1010 [免费全文] [CrossRef] [Medline
  21. 鲍艳,麦德兰,范利CK,吴娟,尚霞,周epf,等。使用机器学习方法预测男男性行为者的艾滋病毒和性传播感染的诊断。中华传染病学杂志2021年1月;82(1):48-59。[CrossRef] [Medline
  22. Turbé V, Herbst C, Mngomezulu T, Meshkinfamfard S, Dlamini N, Mhlongo T,等。基于HIV现场快速检测的深度学习。医学杂志2021七月;27(7):1165-1170 [免费全文] [CrossRef] [Medline
  23. Duthe J, Bouzille G, Sylvestre E, Chazard E, Arvieux C, Cuggia M.如何识别潜在的HIV暴露前预防候选者:重用现实世界医院数据的人工智能算法。种马健康技术通知2021年5月27日;281:714-718。[CrossRef] [Medline
  24. 向阳,藤本K,李峰,王强,Del Vecchio N, Schneider J,等。识别社交网络中有影响力的邻居和年轻MSM的场所从属关系:一种预测HIV感染的数据科学方法。爱滋病2021年5月01日;35(增刊1):S65-S73 [免费全文] [CrossRef] [Medline
  25. Balzer LB, Havlir DV, Kamya MR, Chamie G, Charlebois ED, Clark TD,等。机器学习识别肯尼亚和乌干达农村地区人体免疫缺陷病毒感染高危人群。临床感染疫情2020 Dec 03;71(9):2326-2333 [免费全文] [CrossRef] [Medline
  26. 张晓东,张晓东,张晓明,等。使用电子健康记录识别人类免疫缺陷病毒暴露前预防的候选人:当结果罕见时,超级学习在风险预测中的应用。统计医学2020年10月15日;39(23):3059-3073 [免费全文] [CrossRef] [Medline
  27. Marcus JL, Hurley LB, Krakower DS, Alexeeff S, Silverberg MJ, Volk JE。使用电子健康记录数据和机器学习来确定艾滋病毒暴露前预防的候选人:建模研究。柳叶刀HIV 2019年10月6日(10):e688-e695。[CrossRef
  28. 郭文伟,刘志强,李志强,等。开发和验证一种自动艾滋病毒预测算法,以确定暴露前预防的候选人:建模研究。柳叶刀HIV 2019 10月;6(10):e696-e704 [免费全文] [CrossRef] [Medline
  29. 向阳,藤本K,施耐德J,贾勇,志D,陶c。网络环境的影响:基于社交网络的图卷积网络模型提高了男男性行为中未知HIV感染的检测。J Am Med Inform Assoc 2019年11月01日;26(11):1263-1271 [免费全文] [CrossRef] [Medline
  30. 朱克,朱克,尹山,高登P, Elhadad N.基于临床记录和自然语言处理的HIV风险自动评估。中国免疫缺陷综合征杂志2018 Feb 01;77(2):160-166 [免费全文] [CrossRef] [Medline
  31. Elder HR, Gruber S, Willis SJ, Cocoros N, Callahan M, Flagg EW,等。机器学习能否帮助识别有复发性传播感染风险的患者?性变性杂志2021年1月;48(1):56-62。[CrossRef] [Medline
  32. Vodstrcil LA, Fairley CK, Williamson DA, Bradshaw CS, Chen MY, Chow EPF。2012-2018年在澳大利亚墨尔本一家大型性健康诊所就诊的男男性行为者对甲型肝炎的免疫。性传播感染2020年6月;96(4):265-270。[CrossRef] [Medline
  33. 周爱芳,陈美玲,李秀华,陈志强,陈志强,陈志强。2008-2015年澳大利亚墨尔本性健康中心女性淋病感染和海外性接触趋势。公共情报(2018)2018;42:1 [免费全文] [Medline
  34. Chow E, hoking J, Ong J, Phillips T, Fairley C.澳大利亚墨尔本在COVID-19全国封锁前后性传播感染诊断和获得性健康服务。开放论坛感染Dis 2021年1月;8(1):ofaa536 [免费全文] [CrossRef] [Medline
  35. 冯杰,徐勇,姜勇,周振华。软梯度升压机。arXiv 2020 Jun 07:1-16 [免费全文
  36. M Caron, Allard R, Bédard L, Latreille J, Buckeridge DL。肠道疾病发作和获得未来性传播感染的风险:蒙特利尔居民的预测模型。J Am Med Inform association 2016年11月23日(6):1159-1165。[CrossRef] [Medline
  37. 鲍尔斯KA,普赖斯MA, Karita E, Kamali A, Kilembe W, Allen S,等。撒哈拉以南非洲地区新感染hiv -1患者中延长高病毒血症的预测PLoS One 2018;13(4):e0192785 [免费全文] [CrossRef] [Medline
  38. 社区老年人未来认知障碍的预测:基于机器学习的方法。科学通报2019 Mar 04;9(1):3335 [免费全文] [CrossRef] [Medline
  39. Rigatti SJ。随机森林。中国医学杂志,2017;47(1):31-39。[CrossRef] [Medline
  40. 王晓明,王晓明,王晓明,等。基于神经网络的肝脏疾病诊断方法研究。IJDMS 2011 5月31日;3(2):101-114。[CrossRef
  41. 张浩,赵凯。深度学习在医疗数据分析中的应用。Arch Pharm Res 2019 Jun;42(6):492-504。[CrossRef] [Medline
  42. 李志强,李志强,李志强。一种提高分类精度的多层堆叠集成算法。第一版。科学。英2020年7月1日;22(4):74-85。[CrossRef
  43. 李文杰,李文杰。基于非平衡数据的分类规则训练与评估。Data Min Knowl Disc 2012 10月30日;28(1):92-122。[CrossRef
  44. 谢扎德,洛克伍德,史丹利,唐恩,豪利特。痴呆症严重程度分期在线症状跟踪工具中患者报告症状的使用:机器学习方法的开发和验证J Med Internet Res 2020年11月11日;22(11):e20840 [免费全文] [CrossRef] [Medline
  45. 诊断试验评估中的受试者工作特征曲线。中国胸科肿瘤杂志2010年9月;5(9):1315-1316 [免费全文] [CrossRef
  46. Beeley C.使用R开发Web应用程序使用Shiny:构建令人惊叹的图形和交互式数据可视化,以提供尖端的分析。英国伯明翰:Packt Publishing Ltd;2016.
  47. Gregorich M, Heinzel A, Kammer M, Meiselbach H, Böger C, Eckardt K,等。2型糖尿病患者肾功能下降的预测模型:研究方案。Diagn Progn Res 2021 11月18日;5(1):19 [免费全文] [CrossRef] [Medline
  48. MySTIRisk。URL:https://mystirisk.shinyapps.io/mystirisk[2022-03-08]访问
  49. 减少艾滋病毒风险工具。疾病控制和预防中心。URL:https://hivrisk.cdc.gov/risk-estimator-tool/#-sb[2022-04-06]访问
  50. 艾滋病毒/艾滋病风险计算器。URL:https://www.medindia.net/patients/calculators/hiv-risk-calculator.asp[2022-04-06]访问
  51. 在线风险评估。URL:https://aidsconcern.org.hk/en/testing-service/assess/
  52. 找出你是否需要进行性病测试。https://stdwizard.com/#/home
  53. 在线STI测试。URL:https://www.getthefacts.health.wa.gov.au/online-sti-testing
  54. 做一个免费的测试。URL:https://www.couldihaveit.com.au/Take-a-free-test
  55. 李志强,李志强,李志强,等。医疗保健领域的人工智能:为低收入和中等收入国家负责任、可持续和包容性创新奠定基础。全球卫生2020年6月24日;16(1):52 [免费全文] [CrossRef] [Medline
  56. Richardson LP, Zhou C, Gersh E, Spielvogle H, Taylor JA, McCarty CA.电子筛查与个性化反馈对初级保健环境中青少年健康风险行为的影响:一项随机临床试验。2019年美国医学会网络公开赛5月03日;2(5):e193581 [免费全文] [CrossRef] [Medline
  57. 邹海,Fairley CK, Guy R, Bilardi J, Bradshaw CS, Garland SM,等。自动的,计算机生成的提醒和增加的检测淋病,衣原体和梅毒的男性与男性发生性关系。PLoS One 2013;8(4):e61972 [免费全文] [CrossRef] [Medline
  58. 周娥,李文杰,陈敏,陈晓霞,等。使用计算机辅助自我访谈拒绝报告性伴侣数量的相关因素:在澳大利亚墨尔本性健康中心参加个人的横断面研究。性。卫生2018;15(4):350 [免费全文] [CrossRef
  59. Fairley CK, Sze JK, Vodstrcil LA,陈my。性健康诊所的计算机辅助自我访谈。性传播杂志2010年11月37(11):665-668。[CrossRef] [Medline


人工智能:人工智能
AUC:曲线下面积
属于接近:计算机辅助自我访谈系统
简历:交叉验证
DL:深度学习
电子健康档案:电子健康记录
位:弹性净回归
“绿带运动”:梯度增压机
套索:最小绝对收缩和选择算子
MSHC:墨尔本性健康中心
男男同性恋者:和男人做爱的男人
NAAT:核酸扩增试验
注:朴素贝叶斯
准备:暴露前预防
射频:随机森林
RR:岭回归
STI:性传播感染
人:世界卫生组织


R·库卡夫卡编辑;提交09.03.22;X Zou, X Ma, S El kefi同行评审;对作者01.04.22的评论;订正版本收到13.04.22;接受28.07.22;发表25.08.22

版权

©徐祥龙,于震,葛宗元,周鹏飞,鲍以宁,Jason J Ong,李伟,吴锦荣,Christopher K Fairley,张磊。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2022年8月25日。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map