这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
基于人工智能(AI)的聊天机器人可以提供个性化、迷人和按需的健康促进干预措施。
这项系统综述的目的是评估人工智能聊天机器人促进健康行为改变的可行性、有效性和干预特征。
在7个书目数据库(PubMed、IEEE Xplore、ACM数字图书馆、PsycINFO、Web of Science、Embase和JMIR出版物)中进行了全面搜索,以检索1980年至2022年发表的评估人工智能聊天机器人改变行为的可行性或有效性的实证文章。卡塔尔世界杯8强波胆分析根据PRISMA(系统评价和元分析首选报告项目)指南对确定的文章进行筛选、提取和分析。
在纳入的15项研究中,有几项研究证明了人工智能聊天机器人在促进健康生活方式(n= 6,40%)、戒烟(n= 4,27%)、治疗或药物依从性(n= 2,13%)和减少药物滥用(n= 1,7%)方面的高效。然而,在可行性、可接受性和可用性方面有不同的结果。选择的行为改变理论和专家咨询用于开发人工智能聊天机器人的行为改变策略,包括目标设置、监控、实时强化或反馈以及按需支持。在聊天机器人平台上收集用户与聊天机器人的实时交互数据,如用户偏好和行为表现,以确定提供个性化服务的方式。人工智能聊天机器人展示了通过可访问的设备和平台(如智能手机和Facebook Messenger)部署的可扩展性潜力。参与者还报告说,人工智能聊天机器人为交流敏感信息提供了一个非评判的空间。然而,报告的结果需要谨慎解释,因为内部有效性存在中度到高度的风险,对AI技术的描述不足,以及可泛化性的限制。
人工智能聊天机器人已经证明了在大规模和多样化人群中进行健康行为改变干预的有效性;然而,未来的研究需要采用可靠的随机对照试验来建立明确的结论。
人工智能(AI)驱动的聊天机器人(AI chatbots)是一种会话代理,通过与用户进行书面、口头和视觉形式的交流来模拟人类互动[
人工智能聊天机器人通过健康相关对话中的关键数据处理步骤(数据输入、数据分析和数据输出)展示了其有效改变行为的潜力。首先,人工智能聊天机器人可以从不同的来源收集数据集:电子健康记录、非结构化临床记录、使用额外传感器(眼动跟踪、面部识别、运动跟踪和心跳)的实时生理数据点,以及用户交互[
在过去十年中,关于人工智能聊天机器人在提供医疗保健服务方面的可行性和有效性的证据集中在不同的健康环境和技术角度,大多数聊天机器人的目标是改善心理健康结果。在现有的关于人工智能聊天机器人的系统综述中,有6篇文章针对
鉴于人工智能聊天机器人在健康促进方面的优点,最近的文献越来越关注人工智能聊天机器人在健康行为改变方面的应用。哦等[
本系统文献综述的研究方案遵循PRISMA (Preferred Reporting Items for systematic Reviews and meta - analysis)指南[
该搜索使用了来自3个类别的各种关键词的组合。第一类包括与基于人工智能的聊天机器人相关的关键字,包括
关键字的组织方法如下:(1)一个类别内的关键字使用OR运算符(例如,
本文选取了基于人工智能聊天机器人技术的健康行为干预的实证研究,纳入标准如下:(1)以健康行为为重点的干预研究;(2)利用聊天机器人进行实证研究;(3)基于现有AI平台(如IBM Watson Assistant [IBM Corp])或AI算法(如ML、深度学习、自然语言理解和NLP)开发的聊天机器人;(4)报告干预措施定性或定量结果的研究;(5) 1980年至2022年(截至2022年6月2日)期间发表的英文文章。如果文章不是全文的实证研究(如会议摘要或提案),那么它们将被排除在外;(2)基于非人工智能方法的聊天机器人干预研究,如基于规则的方法;(3)没有阐明其人工智能算法的研究;或者(4)只关注心理健康而不关注健康行为的研究。
基于这些标准初步检索和筛选了共1961篇文章。最后,有15篇文章符合纳入标准并被选为本次综述(
资格筛选程序。AI:人工智能。
使用几个摘要表从所选文章中提取信息,包括研究特征(即作者、出版年份、研究设计、参与者、样本年龄、样本量、国家和目标健康行为)、基于聊天机器人的干预特征(即聊天机器人类型、聊天机器人组件或功能、设置、现有AI技术、输入数据源、平台、理论基础和AI算法)和干预结果(即:健康行为结果或主要结果,可行性,可用性,可接受性和参与度)。
可行性、可接受性和可用性在研究中没有一致的定义。因此,为了便于理解和系统表示,作者根据其定义对数据进行了可行性、可接受性和可用性分类。可行性被定义为
根据美国国立卫生研究院的受控干预研究质量评估工具,对所选研究进行质量评估[
针对AI聊天机器人干预的AI技术也使用了针对AI研究的consortium -AI(报告试验综合标准-人工智能)扩展指南进行了评估[
所综述研究的特点总结在
在报告参与者平均年龄的14项研究中,大多数成年参与者的年龄为18 - 30岁(n= 2,14%)、30 - 40岁(n= 3,21%)、40 - 50岁(n= 5,36%)、50 - 60岁(n= 1,7%)和>60岁(n= 1,7%),只有2项(14%)研究的参与者年龄<18岁。所选研究包括有不同既往病史的参与者:体育锻炼和健康饮食水平较低的个体(4/ 15,27 %)、吸烟者(4/ 15,27 %)、肥胖患者(2/ 15,13 %)、乳腺癌患者(1/ 15,7 %)、物质使用障碍患者(1/ 15,7 %)、普通人群(2/ 15,13 %)和医疗保险受益人(1/ 15,7 %)。回顾研究的目标健康行为包括促进健康的生活方式(体育锻炼和饮食;5/ 15,33%),戒烟(4/ 15,27%),坚持治疗或药物治疗(3/ 15,20%),减少有问题的物质使用(1/ 15,7%)。只有27%(4/15)的研究采用了随机对照试验(rct),大多数研究(9/ 15,60 %)采用了不设对照组的准实验设计(即前测和后测),其次是7%(1/15)的研究采用横断面设计,7%(1/15)的研究采用实验后研究方法。
回顾研究的特征(N=15)。
研究 | 研究设计 | 参与者 | 平均(SD)或中位年龄(年) | 样本大小 | 国家 | 针对健康行为或目的 |
朴等[ |
个随机对照试验一个 | 办公室工作人员 | 35 |
N = 106 N =57(干预组) 对照组49例 |
韩国 | 健康的生活方式(体育活动) |
Maher等人[ |
张后研究b | 不符合澳大利亚体育活动指南,不遵循地中海饮食模式的澳大利亚人 | 56.2 (sd 8) |
N = 31 |
澳大利亚 | 健康的生活方式(体育活动和健康饮食) |
卡拉斯科-埃尔南德斯等人[ |
个随机对照试验 | 门诊的吸烟者 | 49.655 |
N = 240 N =120(干预:聊天机器人+药物治疗) N =120(对照:药物治疗) |
西班牙 | 戒烟 |
斯蒂芬斯等[ |
张后研究b | 有肥胖症状的青少年在儿童保健系统 | 15.20 |
N = 23 |
美国 | 治疗依从性(肥胖) |
Perski等[ |
个随机对照试验 | 购买了无烟应用程序的吸烟者 | N/Ac |
N = 6111 n=1061(干预:聊天机器人+无烟应用程序) n=5050 (control: Smoke Free app) |
联合王国 | 戒烟 |
正木等[ |
张后研究b | 有尼古丁依赖的成年吸烟者 | 43.5 (sd 10.5) |
N = 55 |
日本 | 戒烟 |
Chaix等[ |
张后研究b | 乳癌患者 | 48 |
N = 958 |
法国 | 药物依从性 |
Calvaresi等[ |
张后研究b | 来自Facebook社区的吸烟者 | N/A |
N = 270 |
瑞士 | 戒烟 |
Galvão戈梅斯·达·席尔瓦等[ |
定性研究 | 来自心理学院的志愿者 | 23 |
N = 20 |
联合王国 | 健康的生活方式(体育活动) |
斯坦因及布鲁克斯[ |
张后研究b | 超重和肥胖的成年人(BMI≥25) | 46.9 (sd 1.89) |
N = 70 |
美国 | 健康的生活方式(减肥,健康的饮食,体育锻炼,健康的睡眠时间) |
Crutzen等[ |
张后研究b | 对干预感兴趣的青少年 | 15 |
N = 920 |
荷兰 | 健康的生活方式 |
巴拉加等[ |
横断面研究(后研究) | 医疗保险受益人 | 值71 |
N = 99217 |
美国 | 药物依从性 |
普罗查斯卡等[ |
张后研究b | 美国成年人药物滥用筛查呈阳性 | 36.8 (sd 10) |
N = 101 |
美国 | 减少有问题的药物使用 |
等人[ |
准实验设计,不设对照组 | 不活跃的个体(每天中等至高强度体育活动<20分钟) | 49.1 (sd 9.3) |
N = 116 |
澳大利亚 | 健康的生活方式(体育活动) |
比克莫尔等[ |
个随机对照试验(4-arm) | 对于中等或更高强度的身体活动或水果和蔬菜的消费,处于预先考虑或考虑改变阶段的个体 | 33 (sd 12.6) |
N = 122 |
NRd | 健康的生活方式(体育活动和健康饮食) |
一个随机对照试验。
b前后研究没有对照组。
cN/A:不适用。
dNR:没有报道。
质量评估结果载于
在4项RCT研究中,Carrasco-Hernandez等人[
评估了聊天机器人的人工智能组件,以证明人工智能对健康结果的影响(
在15项研究中,7项(47%)研究[
第二,20%(3/15)的研究[
在15项研究中,4项(27%)研究[
在15项研究中,只有1项(7%)研究[
在15项研究中,3项(20%)研究[
只有一项研究进行了定性分析,即Galvão Gomes da Silva等人的研究[
所选研究的结果报告在
在15项研究中,有7项(47%)报告了人工智能聊天机器人在(1)满意度和(2)提供非评判的安全空间方面的可接受性和参与度。在满意度方面,7%(1/15)的研究报告称,大约四分之一的参与者喜欢这些信息[
在15项研究中,11项(73%)报告了AI聊天机器人的可用性,包括:(1)聊天机器人的易用性,(2)办公室外支持,(3)内容的可用性,以及(4)技术难度。总的来说,使用聊天机器人的容易程度是低到中等。易用性取决于参与者的智能手机技能、平台的用户界面以及聊天机器人设计中的文化敏感性。一项研究报告称,聊天机器人被用来为参与者提供办公室外的支持,这证明了人工智能聊天机器人提供可持续和持续支持的潜力[
中总结了聊天机器人的干预特征
习惯形成模型解释了提示、行为和奖励之间的关系,用于健康生活方式指导聊天机器人(HLCC)的提醒系统。莫尔的
基于行为改变理论,人工智能聊天机器人具有多种功能,有助于产生有效的结果。首先,53%(8/15)的研究有针对性
第三,53%(8/15)的研究提供
第四,53%(8/15)的研究报告
第五,27%(4/15)的研究提供
第六,7%(1/15)的研究(CASC [
大多数研究(10/ 15,67%)部署了不同的人工智能技术来提供个性化干预:NLP、ML、混合技术(ML和NLP)、混合健康推荐系统、面部跟踪技术以及基于程序和认识论的知识算法。ml驱动的情感算法在Tess [
聊天机器人使用多模态渠道与用户交流。所有聊天机器人除了NAO [
为了使用AI聊天机器人提供个性化服务,大多数聊天机器人或研究(9/ 15,60%)需要输入用户背景、目标和行为表现的数据,以及聊天机器人的可用性和基于证据的内容。用户的背景信息或基线特征由4个人工智能聊天机器人收集。Paola [
这项综述的结果证明了人工智能聊天机器人在提供有效、有效和可行的健康行为干预方面的潜力。然而,内部有效性的高风险,缺乏对AI技术的充分描述,以及所选研究缺乏概括性,这表明需要用稳健的方法进行进一步研究,以得出明确的结论。无论如何,该综述确定了干预力度的实际意义和研究意义,以及现有研究的局限性和潜在的未来方向。
该综述发现,人工智能聊天机器人在促进健康生活方式方面有效,包括体育锻炼和饮食(6/ 15,40 %)、戒烟(4/ 15,27 %)、治疗或药物依从性(2/ 15,13 %)以及减少药物滥用(1/ 15,7 %)。这些发现与之前的系统综述一致,这些综述报告了使用人工智能聊天机器人来改善身体活动水平和改善药物依从性[
该评估发现,人工智能聊天机器人在可行性、可接受性和可用性方面报告了不同的结果。在可行性方面,关于聊天机器人安全性的证据相当少,因为只有7%(1/15)的研究报告了安全性[
人工智能聊天机器人的基本特征在确定有效结果方面发挥了关键作用。首先,大多数研究(9/ 15,60%)在设计和交付AI聊天机器人时使用了严格选择的行为变化理论。我们的研究结果表明,整合行为改变理论,如CBT、TTM、动机性访谈、情感聚焦疗法、习惯形成模型和莫尔的支持性问责模型,可以通过目标设定、监控或跟踪行为和强化,为用户提供一致的动机支持。这些策略不仅有助于获得更好的主要和次要结果,而且从用户的角度解决了传统面对面干预模型中的几个挑战,例如与专家的连接有限,缺乏一致的动机,随着时间的推移缺乏获取不同信息的途径。之前的系统综述也报道了CBT的使用[
第二,在所有的研究中,
13%(2/15)的研究发现,对更强交互性的需求也与用户粘性的波动有关[
第三,在20%(3/15)的研究中,AI聊天机器人的人文主义和非人文主义结构为用户讨论、分享和询问敏感问题的信息提供了一个安全的空间[
第四,大多数研究(8/ 15,53%)报告称,AI聊天机器人与现有服务的集成门槛较低,但回报很高。大多数传统的行为干预需要亲自提供服务;然而,从实现者的角度来看,这种方法有一些局限性,例如缺乏一致的数据收集、持续监测、可伸缩性和干预的可持续性。人工智能聊天机器人与这些传统服务的整合门槛很低,因为它们不会对现有资源(如专家、时间、金钱和精力)造成压力。聊天机器人可以通过日常使用平台自由部署,用户可以随时访问。聊天机器人的使用可以帮助将行为干预整合到日常临床环境中,避免医疗保健提供者面临的额外压力。例如,聊天机器人可以独立地向用户提供信息传递等低强度服务。此外,聊天机器人可以提供提供者推荐服务,其中,基于对实时用户数据的分析,聊天机器人可以向医疗保健提供者提供建议,以帮助他们提供更有效的服务[
大多数研究(10/ 15,67%)具有庞大而多样化的样本人群,证明了扩大基于聊天机器人的干预的潜力。几乎一半的研究有>200名参与者,27%(4/15)的研究的样本量在大约920至991,217名参与者之间。同样,所选研究不仅包括具有不同健康和行为状况的样本(13/ 15,87%),如乳腺癌、吸烟、肥胖、不健康饮食模式、缺乏体育锻炼、需要药物治疗的情况、药物滥用,而且还包括没有既往病史的样本(2/ 15,13%)。这证明了人工智能聊天机器人在不同环境下接触大量不同人群的潜力。这是因为人工智能聊天机器人有潜力被整合到广泛使用的现有平台,如文本短信、Facebook Messenger和WhatsApp,并通过智能手机、电脑和Alexa等常用设备部署,这使得它非常有可能接触到大量和多样化的人群。这一发现与之前的系统评估相一致,这些评估报告了人工智能聊天机器人与不同平台的集成,如Slack (Slack Technologies, LLC)、Messenger、WhatsApp和Telegram [
近75%(11/15)的文章发表在2019年和2021年,这表明使用人工智能驱动的聊天机器人干预行为改变尚处于起步阶段。大多数研究(9/ 15,60%)采用了没有对照组的前-后研究设计,只有27%(4/15)的研究使用了RCT模型,恢复了在基于人工智能的对话代理和健康行为结果之间建立因果关系的不成熟。这一发现与先前许多系统综述相一致,这些综述报道9项研究中有4项为RCT,其余为准实验研究、可行性研究或试点RCT研究[
本综述的结果应谨慎解释,因为在所选研究中存在中度至高度的内部有效性风险。在纳入的研究中,由于缺乏关于避免其他干预措施影响的措施和遵守干预方案的程度的信息,来自非预期来源的结果的风险很高。由于缺乏对评估人员隐瞒指定的干预措施,以及缺乏使用经过验证和可靠的结果测量,结果测量中的偏倚风险为中等至高。由于较高的退出率,缺乏估计样本量的功率计算,以及缺乏使用意向治疗分析的信息,分析中的偏倚风险为中等至高。这些发现与先前许多系统综述一致,这些综述报告了由于所有准实验研究中的混杂,来自非预期来源的结果存在中度风险[
不同研究在衡量次要结果(即可行性、可用性、可接受性和参与度)方面也存在不一致。这一发现与先前大多数系统综述一致,这些综述报道了次要结局指标的混合结果[
在这篇综述中,大多数研究(14/ 15,93%)没有描述输入数据的特征和处理,以及与AI算法相关的其他过程。这一发现与之前的系统文献综述一致,该文献综述报告了人工智能软件分类的不一致使用以及所报告的人工智能技术和系统缺乏深度[
所选的研究不能代表不同的地理、文化和年龄组,这对研究的概括性产生了强烈的偏见。在13项报告地理位置的研究中,所有(100%)都在高收入国家进行;除韩国和日本的研究外,大部分研究(80%)是嵌入西方文化的;大多数研究(>80%)是在成年人(≥18岁)中进行的。这些发现与之前的系统文献综述一致,即所有的聊天机器人干预研究都是在高收入国家进行的[
为了提高人工智能聊天机器人的有效性和可行性的普遍性,未来的研究需要测试它们在低收入国家或低资源环境以及儿童和青少年中的使用。低收入国家移动连接和互联网使用的增加[
在本综述中,患者安全性的证据有限;然而,有限的证据表明,聊天机器人对行为和心理健康干预是安全的。只有7%(1/15)的研究,即Maher等人的研究[
这个系统的文献综述有几个局限性。首先,未对回顾的研究进行荟萃分析。由于研究设计、结果报告和结果测量的异质性,作者认为荟萃分析不可行。其次,这篇综述没有涵盖一套全面的行为结果。所选研究只关注3种行为结果:健康的生活方式(体育活动和饮食)、戒烟和治疗或药物依从性。然而,这也是因为作者对AI聊天机器人采用了严格的纳入标准,基于规则的聊天机器人的研究被排除在外,限制了所涵盖的行为结果的数量。三是对表的数据匹配没有量化;因此,没有报告编码器之间的可靠性。但是,数据提取和质量评估是由2位作者独立进行的,然后由作者讨论确定表格。第四,来自外部选定数据库的文章(如谷歌Scholar)、未发表的作品和会议文章、灰色文献(如政府报告)以及其他语言的文章未被包括在内。 Fifth, intervention studies that did not provide a clear description of AI chatbots or did not label AI chatbots as a keyword were excluded.
这篇综述提供了人工智能聊天机器人作为行为改变干预媒介的评估。根据所选研究的结果(N=15), AI聊天机器人在促进健康的生活方式(体育活动和饮食)、戒烟和治疗或药物依从性方面有效。然而,就人工智能聊天机器人在不同环境、不同人群中的可行性、可接受性和可用性而言,这些研究的结果喜忧参半。人工智能驱动的聊天机器人干预的有效结果可以归因于人工智能聊天机器人的基本特征:(1)个性化服务,(2)非判断性的安全对话空间,(3)易于集成到现有服务中,(4)吸引人的体验,以及(5)对大量和多样化人群的可扩展性。然而,考虑到人工智能聊天机器人干预领域尚处于初级阶段,因此需要谨慎解释这一综述的结果,因为大多数纳入的研究都具有中等的内部有效性风险。未来的研究需要采用可靠的随机对照试验,并提供人工智能相关过程的详细描述。总的来说,人工智能聊天机器人具有巨大的潜力,可以集成到现有的行为改变服务中,因为它们(1)易于集成;(2)可负担性、可获得性、可扩展性和可持续性的潜力;(3)以非污名化和参与的方式,就敏感问题向弱势群体提供服务;以及(4)持续收集数据以支持医疗保健提供者决策的潜力。
搜索字符串。
基于美国国立卫生研究院控制干预研究质量评估工具的方法学评估。
基于consortium - ai(联合试验报告标准-人工智能扩展)的聊天机器人干预质量评估。
被评审文章的结果。
综述研究中聊天机器人的特征。
人工智能
CureApp戒烟
认知行为疗法
试验报告综合标准-人工智能
百灵健康教练
健康生活方式指导聊天机器人
机器学习
自然语言处理
系统评价和元分析的首选报告项目
随机对照试验
无烟应用程序
跨理论模式
XL和SQ构想了研究主题和问题。CCT和AA进行文献检索和筛选。AA、CCT和SQ进行数据提取和分析。AA和SQ制定了初稿。DW审阅了这篇论文,并提供了关键反馈和编辑。所有的作者都审阅了最终的手稿。
本杂志报道的研究由美国国家过敏和传染病研究所资助,资助项目为R01AI127203-5S1。内容仅为作者的责任,并不一定代表美国国立卫生研究院的官方观点。
作者还想感谢南卡罗来纳大学大数据健康科学中心的慷慨资助,该中心是南卡罗来纳大学卓越倡议项目(授予BDHSC-2021-14和BDHSC-2021-11)。
没有宣布。