医疗网际网路研究杂志-健康照护与福祉中对话代理的设计与评估挑战:选择性回顾研究

审查

¹悉尼科技大学计算机科学学院，澳大利亚新南威尔士州悉尼

²澳大利亚新南威尔士州悉尼麦考瑞大学健康信息学中心

^3.生物行为健康中心，阿比盖尔·韦克斯纳研究所，全国儿童医院，哥伦布市，OH，美国

⁴信息技术研究与创新，阿比盖尔·韦克斯纳研究所，全国儿童医院，哥伦布，OH，美国

⁵Bold Insight UK，伦敦，英国

⁶美国宾夕法尼亚州立大学信息科学与技术学院，宾州大学公园

⁷美国费城德雷塞尔大学计算机与信息学院

⁸美国密歇根州安娜堡市密歇根大学信息学院

⁹加州理工学院，帕萨迪纳，加州，美国

¹⁰新加坡国立大学计算机科学系，新加坡，新加坡市

¹¹哥伦比亚大学生物医学信息系，美国纽约州纽约市

¹²斯蒂尔健康创新研究所，盖辛格，丹维尔，宾夕法尼亚州，美国

¹³IBM研究院-阿尔马登，圣何塞，加州，美国

¹⁴东北大学霍利计算机科学学院，波士顿，马萨诸塞州，美国

¹⁵美国密歇根州安娜堡市密歇根大学艺术与设计学院

¹⁶丹麦技术大学应用数学与计算机科学系认知系统科，丹麦，Kongens Lyngby

¹⁷丹麦，Smørum，需求空调

¹⁸澳大利亚新南威尔士州悉尼麦考瑞大学计算机学院

¹⁹美国加州大学欧文分校信息系

^20.爱尔兰都柏林，都柏林大学，ADAPT中心

²¹佩斯大学计算机科学与信息系统学院，美国纽约州纽约市

²²佐治亚理工学院，亚特兰大，佐治亚州，美国

这些作者的贡献相同

通讯作者:

艾哈迈德·巴基·科卡巴利，硕士，博士

计算机科学学院

悉尼科技大学

房间CB11.7.103

百老汇81号

悉尼，新南威尔士州，2007

澳大利亚

电话:61 295141103

电子邮件:baki.kocaballi@uts.edu.au

背景:医疗保健和福祉是会话代理(ca)的两个主要相互关联的应用领域。这一领域的研究、开发和商业实现有了显著的增长。随着兴趣的增加，在设计和评估ca方面也出现了新的挑战。

摘要目的:本研究旨在找出医疗保健和福祉研究中CAs的关键设计、开发和评估挑战。重点是最近的项目及其新出现的挑战。

方法:对17项受邀研究进行了一项审查研究，其中大部分研究在计算机协会(ACM) CHI 2020年关于ca促进健康和福祉的会议研讨会上发表。资格标准要求研究涉及应用于健康或福祉项目(正在进行或最近完成)的CA。参与的研究被要求报告其项目的设计和评估挑战。我们使用专题分析来回顾这些研究。

结果:调查结果包括一系列主题，从初级保健到照顾老年人再到健康指导。我们确定了4个主要主题:(1)领域信息和集成，(2)用户系统交互和伙伴关系，(3)评估，(4)会话能力。

结论:在大流行期间，人工智能证明了其作为健康筛查工具的价值，预计将继续支持各个卫生保健领域，特别是个人卫生保健。ca投资的增长也显示了其作为私人助理的价值。我们的研究表明，虽然一些挑战与其他CA应用领域相同，但安全和隐私仍然是医疗保健和福祉领域的主要挑战。提高不同机构和实体之间的合作水平可能是解决一些主要挑战的一个有希望的方向，否则这些挑战将过于复杂，无法由范围和预算有限的项目来解决。

[J] .中国医学信息学报，2010;24(11):888 - 888

doi: 10.2196/38525

关键字

会话接口；会话代理；对话系统；卫生保健；幸福

会话代理(ca)是通过自然语言促进人机交互的应用程序。自动语音识别(ASR)和自然语言处理(NLP)模型有助于解释人类语言并产生适当的反应[1]。ca(也被广泛称为聊天机器人、虚拟助手、对话系统或语音助手)用于电子商务、调度服务和问答系统等多个领域[2]。用户-系统交互可以通过文本(例如，通过应用程序或网络服务发送的SMS文本消息)、语音(例如，通过电话进行的交互式语音响应、通过智能手机或智能扬声器进行的语音助手)或多模式(例如，通过智能手机、智能扬声器或任何其他智能和物联网设备进行的视觉、文本和音频反馈和交互)[3.]。

在医疗保健中，CAs已被广泛应用和研究，以支持行为健康和健康生活[3.，4];健康资讯查询[5-9];预约、用药、症状追踪及慢性疾病管理[10-12];促进COVID-19筛查和信息共享[13，14]。在实践中，移动电话所有权支持并增加了潜在的应用程序、可用性和对ca的访问。截至2021年，全球手机拥有量约为150亿[15]， 97%的美国成年人拥有移动设备[16]。目前的研究和随机试验表明，ca可以有效地用于医疗保健服务和改善健康结果，如改善心理健康[17]、产妇保健[18]和健康行为[19]。此外，医疗保健行业对聊天机器人的投资也在增加;一些例子包括Woebot、巴比伦和ADA Health [20.]。

尽管人们对使用ca来支持医疗保健和福祉越来越感兴趣，但在开发、部署和使用ca方面存在许多挑战。最近的检讨研究强调了一些挑战，包括NLP [21，22]、病人安全[1，23，24]，与其他技术的集成[22]、资讯发布[25，26]、医疗法律问题[27]和道德[28]。为此，最近的研讨会探讨了对话式用户界面的挑战和机遇[29-31]和卫生保健CAs的设计与评价[32]。在这里，我们通过报告17个这样的项目的自我评估，为这一发展中的文献做出贡献。

2020年5月，在北京举行了题为“健康和福祉对话代理”的讲习班美国计算机协会计算系统中的人为因素会议(CHI 2020)［32]。其目的是了解最近的研究项目面临的最新挑战，并为未来的研究设计潜在的方向，以解决这些挑战。讲习班包括来自5个国家的30名参与者完成或正在进行的项目，涵盖从支持老年人到心理健康和指导到支持日常健康的各种主题。研讨会结束后，参与者被邀请集体报告医疗保健中ca的设计和评估挑战，为研究人员、设计师和医疗保健专业人员提供有关这些挑战的实用观点。本文旨在介绍在过去两年中进行的最近医疗保健项目中设计和评估ca的挑战。

我们遵循选择性回顾研究设计，重点关注最近关于ca在健康和福祉方面的研究的挑战。共同作者被邀请报告他们在卫生保健和福祉方面的原始CA研究，概述了在他们的研究中使用CA的设计和评估中的主要挑战。共同作者被要求报告他们在项目中面临的设计和评估挑战。在他们的书面报告中，每个共同作者或作者小组(1)描述他们的研究，(2)解释挑战(限于3个主要设计挑战和3个主要评估挑战)，(3)解释他们如何解决挑战或他们计划如何解决，(4)用先前的文献支持他们的发现和建议。只有通过书面报告提供的信息作为案例研究进行分析。每个案例研究都经过了作者之间公开的同行评审过程，并进行了修订。最终病例由3位共同作者(ABK、ES和LC)进行分析。我们使用专题分析来识别、评估和分析案例中的模式[33]。在分析过程中使用了以下步骤:(1)熟悉数据，(2)生成初始代码，(3)搜索主题，(4)审查和精炼主题，(5)定义和命名主题，(6)报告发现(文本框1）.

分析过程中使用的步骤。

熟悉数据
- 为了熟悉数据并理解内容的深度和广度，合著者(ABK、ES和LC)反复阅读案例研究。
生成初始代码
- 遵循开放编码方法(没有预定义的代码，在编码过程中开发和修改)，共同作者(ABK, ES和LC)独立创建初始代码。他们反复地检查代码。对这些代码进行比较，并通过小组决策和共识形成最终的代码。合著者使用谷歌表格创建密码本。
搜索主题
- 首先对代码进行排序，以了解发生的频率。共同作者(ABK, ES和LC)对它们进行了审查以发现模式并将其分组到主题中。每个主题都被标记以指导分组，并由共同作者(ABK, ES和LC)迭代地进行审查。与编码类似，共同作者达成共识，最终确定主题。
回顾和完善主题
- 审查了所有主题。共同作者(ABK, ES和LC)讨论了代码和主题之间的关系。有些主题被结合在一起，被发现是相关的;例如，将获取领域信息和训练数据合并为domain information和training。以协商一致方式审查和最后确定主题，以确保其内容的一致性。
定义和命名主题
- 根据代码、子主题和相应的用例创建了主题的定义。在有分歧的情况下，共同作者审查主题以确保在主题内容、定义和标签上达成共识。
报告调查结果
- 专题分析结果通过包含主题、次主题、定义、相关病例和发生频率的图表进行报告。

文本框1。分析过程中使用的步骤。

概述

该综述包括17项研究，涵盖了从初级保健到照顾老年人到健康指导的许多领域。项目摘要载于表1，每个项目都有一个唯一的项目编号，以便在展示结果时引用。主题分析确定了4个主要主题:(1)领域信息与集成，(2)用户系统交互与伙伴关系，(3)评估，(4)会话能力。表2）.

表1。参与项目的摘要，包括标题、领域、CA^一个目的，CA输入和输出方式。

项目数量	项目标题	健康/健康领域	CA的目的	CA输入/输出	项目状态
1	数字抄写员:绿野仙踪研究	初级护理	与全科医生一起在会诊中记录患者信息	书面和口头/书面，口头和视觉	正在进行的
2	言语多样性与言语界面-透过口吃思考包容性未来[34］	无障碍和包容性/语言多样性	所有基于语音的ca(非特定项目)	口头/书面，口头和视觉	正在进行的
3.	阿黛尔:老年人的人工对话式护理代理35-37］	照顾家里的老人	提供健康和福祉护理、建议和监测	写/写	完成
4	说话:人类对话代理如何建立信任38-41］	有视觉障碍的人	通过让视障人士分享他们的智能手机摄像头信息来支持导航和其他活动。基于摄像头反馈和对话互动，再加上谷歌地图等在线工具的使用，远程视障人士可以为视障人士提供指导。	口语/口语	正在进行的
5	使用对话代理赋予轻度认知障碍老年人及其照顾者权力	老年轻度认知障碍患者^b	增强轻度认知障碍患者及其照顾者的能力;放大照顾者	口语/口语和视觉	正在进行的
6	医疗保健企业的自适应会话代理	医疗保健企业，付款人	帮助用户回答有关医疗保健企业的分析性问题	书面和口头/书面，口头和视觉	完成
7	使用聊天机器人调解员鼓励用户自我披露[42-44］	精神卫生保健	收集真实的自我表露并提供指导	写/写	正在进行的
8	动机性访谈对话代理[45，46］	家庭饮食习惯	以自动化的方式提供一种名为动机访谈的咨询方法，帮助父母和孩子一起吃得更健康	口语/口语	完成
9	患有慢性疾病的非裔美国人会话代理[47，48］	慢性疾病	向患有慢性疾病的非裔美国人提供有关COVID-19的健康信息	写/写	完成
10	探索语音助手在多模式食物日志中的应用[49，50］	食物日志	食物日志条目	口语/书面和口语	完成
11	t2。教练:糖尿病自我管理的聊天机器人健康教练[51，52］	健康指导	2型糖尿病自我管理的健康指导和目标设定	书面/书面和视觉	正在进行的
12	设计融合音景和用户反馈的听力学机器人	听力保健	通过收集用户在真实环境中的反馈，推荐个性化的助听器设置	书面和口头/书面，口头和视觉	正在进行的
13	自我诊断健康聊天机器人在野外应用的案例研究[j]53］	自我诊断	根据病人的意见(如症状)向他们提供医疗建议(如诊断建议)	书面和口头/书面	完成
14	电子谘询:为轮候病人提供专科治疗意见[54］	儿童及其家属转介至尿失禁及睡眠门诊等待预约	讨论治疗方法以鼓励坚持治疗	书面/书面和口头	正在进行的
15	使用会话代理跟踪有特殊保健需要儿童的家庭症状和健康事件[j]55，56］	为有特殊保健需要的儿童提供文件和护理协调支助	协助护理人员和患者跟踪和交流临床环境之外的症状和健康事件，以减少记录负担并促进护理协调	书面和口语/书面和口语	完成
16	会话代理提供精神支持的姑息治疗	老年人护理、精神支持、人代理/机器人交互	发展一个CA，提供临终计划和精神咨询	书面/口头和视觉	正在进行的
17	HarborBot:社交需求筛选的聊天机器人57，58］	公立医院急诊科社会需求筛查	从弱势群体收集高质量的社会需求数据，同时提高参与度	书面/书面和口头	完成

^一个CA:会话代理。

^bMCI:轻度认知障碍。

表2。主题和次级主题及其报告的研究摘要。

主题和副主题		报道了
领域信息与集成
	领域信息和培训	P2^一个p6, p10, p11, p13, p14, p17
	集成和基础设施	P11, p14, p15
用户系统交互和伙伴关系
	个性化	P3, p5, p6, p8, p9, p11, p12, p13, p14
	建立关系	p4, p7, p12, p13, p16, p17
	安全和隐私	P3, p5, p7, p8, p9, p10, p13
	用户参与	P4 p7 p9 p10 p13 p14
评价
	方法的局限性	P1 p8 p11 p12
	实验的局限性	P1 p3 p5 p12 p13 p14 p17
	缺乏评价指导	P1 p2 p9 13 p15
会话能力
	主题检测和ASR^b	P1 p2 p3 p8 p10 p12 p15
	可发现性和会话交互模型	P10 p11 p1 p2 p17
	无障碍及包容性	P2 p5 p8 p9 p14 p16 p17

^一个P:项目。

^bASR:自动语音识别。

领域信息与集成

概述和子主题

医疗保健ca通常在需要集成特定领域信息和语言的特定医疗保健领域内操作。本主题关注的是获取所需的问题域信息、收集训练ca的数据以及将ca与现有系统和基础结构集成的挑战。例如，为帮助初级保健领域的全科医生而设计的CA需要通过大量的医患对话进行培训。获取这类信息具有挑战性，而且需要大量资源。此外，专家医学知识需要转化为会话形式。类似地，ca不能作为孤立的应用程序开发:它们需要与现有的系统和基础设施集成。

领域信息和培训

两个项目(P6和P14)报告了在这些情况下为保健企业和医疗依从性通信获取领域信息的困难。这些困难与领域专家缺乏时间(P6)，领域信息不是会话格式(P6)或分布在许多子领域(P6)以及知识获取瓶颈(P14)有关。虽然P6招募了主题专家来审查会话流程和响应框架，以格式化医疗保健数据，以便进行类似对话的交互，但P14实现了从专家或用户那里增量获取，以减轻获取特定领域信息的问题。

集成和基础设施

三项研究报告了将ca集成到现有基础设施中的一些挑战。其中一个项目(P15)利用ca支持在家中对有特殊需要的儿童进行医疗保健跟踪，解释了将ca收集的信息整合到临床系统和工作流程中的安全和隐私挑战。建议使用互操作性标准(例如，快速医疗保健互操作性资源)与医疗保健专业人员共享护理人员的笔记，作为集成的基本方法之一(P15)。许多ca是使用底层开发平台(如Amazon Alexa Skills或Google Dialogflow)开发的。P14强调了适应快速发展的平台的困难，这些平台可能会使根据以前的平台功能设计的ca停止工作。最后，P11讨论了底层平台的普遍性和丰富性之间的紧张关系。例如，虽然基于短信的短信无处不在，但它纯粹是基于文本的，不提供其他消息平台(如Facebook Messenger或WhatsApp)的一些多模式交互选项(例如，一键建议响应按钮或轮播菜单)。P11使用基于SMS文本消息的消息传递来支持更高程度的可访问性和普遍性;然而，为了扩大用户体验的丰富性，他们加入了更多身临其境的教育内容，包括多媒体信息，包括详细说明每个健康目标选项的信息图表。

用户系统交互和伙伴关系

概述和子主题

这是主要主题之一，它抓住了与用户和ca之间交互的特征和质量以及用户和ca一起工作的方式相关的几个挑战。分主题包括核证机关的个人化、核证机关与用户之间的关系建立、安全和隐私以及用户参与。一些常见的挑战是支持用户对ca的信任，使ca能够表示同情，并确保用户的隐私。

个性化

作为项目的一部分，个性化成为一个基本的设计特征。个性化在10个项目中被认为是一个挑战。个性化的挑战是根据用户的背景(P8和P3)提供适当的回应，为不同年龄范围和不同健康素养水平的用户群体(P14、P6、P9、P11和P12)量身定制对话，并最大限度地减少调查中的问题过载(P13)。虽然有一个项目报告了评估对适应性特征影响的困难(P6)，但另一个项目提出了与双组设计相关的挑战(P5)，其中包括患者和护理者。P5解释说，使用相同设备的双元组带来了几个挑战，包括双元组管理技术的困难，双元组整体广泛的技术素养，以及如何通过CA的功能支持双元组的两个成员。

建立关系

人类和ca可能具有不同形式的关系，从通常以一次性基于任务的会话交换为特征的非常短期的关系到长期关系(ca在较长时间内跨不同主题进行较长时间的会话交互)。关系建立——如何建立和维护人与ca的关系——在13个项目中被认为是一个挑战。信任(P3、P4、P7、P13和P16)、共情(P4、P17和P16)、自我表露(P7)和透明度(P12)被认为是关系建立的重要维度。一个为视障人士设计辅助服务的项目(P4)解释了辅助服务在建立和加强视力正常的Aira代理与视障人士客户之间的信任时，表现同理心的重要性。根据P4，为了将同理心融入到对话互动中，一个智能体不仅必须代表情境本身(例如，存在什么物体，它们的空间关系，运动向量)，还必须代表另一个智能体的经验和对情境的解释。一项为长者护理而设计核证机关的计划(P3)描述了建立信任的困难，原因包括保安、法律问题、分享和储存个人及敏感资料，以及私隐和道德问题等[59]。这些问题和其他问题都有可能严重或最终损害CA和患者之间的关系。为了应对这一挑战，P3从一开始就采用了建立信任和修复策略。先前的研究表明，可靠性可能是在病人和人工护理人员之间建立信任的最重要因素[60，61]。相比之下，能力、仁慈和正直等其他因素也可能显著影响[62]。据报道，转移用户的自我披露是人在环人工智能系统中的一个挑战，其中ca在用户和领域专家之间进行调解(P7)。

安全和隐私

用户数据的安全性和与ca共享的个人信息的隐私性影响了用户对ca的决策和感知。6个项目报告用户安全(P3和P13)和隐私(P5, P7, P8和P10)是挑战。P10解释说，虽然一些用户担心使用语音助手会打扰别人，但当其他人听到他们追踪食物的声音时，其他用户会感到不舒服或担心隐私。为了解决这个问题，P10中提出的一些解决方案包括采用其他设备或方式进行输入(例如，使用手机或网络拍照或输入文本)，以及实现快速命令的食物“模板”功能(例如，说“Alexa，日志1号”或“谷歌，日志和昨天的早餐一样”)。在ca作为2个用户(P7)或多个用户(P5)之间的中介的情况下，隐私挑战可能变得更加重要。由于许多医疗保健ca处理对安全至关重要的用户信息和决策，P3和P13指出，需要对ca采取更严格和标准化的评估措施。

用户参与

为ca建立用户参与策略是改善用户体验和持续使用的基础。然而，有6个项目报告称，实现和维持用户粘性是一项挑战(P4、P7、P9、P10、P13和P14)。P9解释了在帮助患有慢性病的非裔美国人以及在理解文化方面的困难和将文化方面纳入辅助评估的情况下，具有文化敏感性的辅助评估对于支持增加信任和采用的重要性。P10专注于创建一个多模式的食物日志，提到了他们的参与者在记住或发现语音命令来跟踪他们的食物方面的问题，以及有必要更好地将命令映射到多种话语风格和高级意图识别。P13，一个使用自我诊断聊天机器人的项目，报告说他们的用户倾向于放弃与聊天机器人的咨询，特别是在早期阶段，并指出审查和评估可以增加健康聊天机器人的吸收和利用的机制和方法的重要性。P14将各种策略整合到聊天机器人中，以支持等待专家预约的儿科患者更高的治疗依从性。其中包括建立工作联盟;面对面交流的;使用日常会话语言;以及移情语言策略，比如选择、后果和非判断性的肯定。

评价

概述和子主题

评估主题概括了作者在使用CAs的实验中遇到的3个限制:(1)方法上的限制，在评估CAs的相互作用和性能方面存在挑战;(2)与数据收集、分析和研究环境挑战相关的实验局限性;(3)缺乏评估指导，描述了在没有指导或先前证据的情况下导航CAs评估的挑战。

方法的局限性

从本质上讲，CA交互被设计为与人类通信，并且依赖于难以生成或复制的智能构建的双向对话。测试ca的早期工作包括脚本化对话，以客观地度量ca的性能。然而，脚本化的对话在模拟现实世界中可能发生的对话和迭代的实际数量方面存在不足(P1)。此外，有限数量的交互对有效地评估性能造成了障碍。提出的一些解决方案是创建复杂的脚本或对实际患者进行测试(P1)。

为了提供评估ca性能的标准度量，可以使用脚本在受控环境中测试用户- ca交互，例如场景、角色扮演或绿野仙踪测试。然而，由于系统功能和用户场景的模拟性质，这些脚本化的或模拟的交互可能仅限于提供有机流动的对话(P1)和准确的评估(P8)。这样的评估只能在受控环境中产生结果，影响最终用户的判断(P8)。对用户-CA交互的观察可以在一定程度上解释CA的功效，但不能解释其有效性，这可以在现实环境中观察到。在现实环境中使用具有不同健康和福祉需求的实际终端用户，并纵向观察他们，可能会改善CA相互作用的证据(P1、P11和P14)。

实验的局限性

培训材料/计划外事件的影响

培训数据是开发和评估ca绩效的核心要求。然而，很难评估培训材料的效果(P5)。开发人员必须跟踪训练中使用的特性，并将它们与实际的CA使用情况进行比较。同样，计划外或不可预见的事件也会影响CA相互作用评估的结果。2019冠状病毒病大流行使规范转向远程管理实验，导致简单的用户培训和故障排除方面的沟通不畅和效率低下(P5)。

接触弱势群体

重要的是要为不同的人群设计，包括弱势群体，以及有各种社会弊病的人，如无家可归、贫穷和饥饿[58]。然而，在有限的资源和与社区合作伙伴的联系下，招募和吸引他们可能很困难。在改善CA与这些人群的互动和增强对CA的访问方面，需要通过替代平台和技术来自异质群体和不同用户的投入(P12和P14)。例如，在有低文化水平用户的急诊科，CA使用评估可能需要训练有素的人员来指导用户并了解他们的经验(P17)。

在现实环境中测试的挑战

在研究中，测试设置和迭代通常发生在受控环境中，没有真实世界的交互来客观地评估ca。这导致测试脱离上下文，产生有限的结果。在真实世界的真实设置中执行CA测试涉及到一些重大困难。例如，在一项使用ca支持的自动化文档的研究中，P1报告说，如果没有真实世界的电子健康记录交互，许多工作例程就无法测试。即使将CA集成到电子健康记录中，从技术上、后勤上和法律上都很难推出。然而，这些努力对于理解所有最终用户(护士、医生、患者)的看法和医疗工作流程的复杂性是必要的(P17)。P3建议通过研究平台进行分阶段评估，这将允许在模拟护理环境中进行评估。在现实环境中仍然很少有用户ca评估。需要进一步的努力来促进真实世界的测试(在不受控制的真实环境中)。P13解释说，如果不深入了解问题域中的上下文元素，CA设计人员和开发人员就很难弄清楚如何改进用户体验以及如何克服医疗保健CA实际使用中的挑战。

评估缺乏指导

缺乏特殊人群的评价数据

与脆弱人群一样，缺乏对特殊人群的评价数据。这个问题可能导致对具有不同语音模式的人使用ca的用户体验没有真正的了解(P2)。同样，缺乏专门为边缘化或次要用户群体设计的评价材料(P13)，例如低技术素养的非裔美国人(P9)。发展针对特定人群的评价方法和促进参与性设计和互动会议是必要的(P2和P9)。

缺乏评估指南和标准

缺乏评估ca的指导方针导致创建了有效和统一衡量影响和结果的健全框架。此外，由于文献中尚未提供明确的指导，基于ca的干预措施的安全性、有效性和有效性也缺乏(P13)。衡量互动、参与效果的指标和健康结果的措施是必要的。一种解决方案可能是纵向观察交互，以确定用作成功度量标准的关键指标(P15)。

评估ca的理论方法可能与标准措施不一致。在P11中，行为改变技术显示了与可用性指标的不匹配，潜在地显示了用户参与度(用户体验中的沟通质量和CA使用模式)与行为改变技术(例如目标设定)之间的反比关系。结合理论和评价方法可能需要创建多方面的评价度量和三角使用模式。

多模态测试中的困难

CA可能以多种平台和不同的方式提供(例如，基于文本的聊天机器人，带头像的语音助手)。评估多模态系统中的单个模态是必要的，但是很难单独评估图形界面和会话界面。但是，仍然有可能以最小的方式设计视觉元素和布局，以减少它们对用户对CA界面的感知和评估的影响(P1)。

会话能力

概述和子主题

有几个项目讨论了与ca的会话能力相关的挑战，以及这些挑战可能对人们的交互产生的影响。这里的能力指的是准确地理解用户输入并做出适当的响应，对话是否是设计的恰当隐喻，如何最好地促进用户交互，以及如何使CA交互更易于访问和包容。

主题检测和自动语音识别

在一些CA场景中，检测正在讨论的主题可能很困难。社交谈话的无剧本性质，通常是作为照顾互动的一部分进行的，使得很难跟上讨论的主题(P3)。甚至更多的脚本交互，如初级保健咨询，可能是非线性和碎片化的，这在检测当前正在讨论的主题方面造成了进一步的困难(P1)。提出的解决方案包括高级主题检测方法(P3)和协作构建的数据集来支持这些方法(P1)。在交互(P1)和个性化系统(P3)中使用特定的短语来突出主题转换也可能改善ca。

卫生保健环境中CA的主题检测也面临与特定环境和用户相关的挑战。例如，跟踪不同患者和治疗的医疗保健结果需要理解特定的医学术语(P15)。使用Amazon understand Medical等服务[63]以及人工干预可以帮助扩大适当的词汇量，以提高CA的理解。类似地，P12描述了为助听器患者使用ca，这可能需要他们使用一套商定的术语或额外的监督培训来识别“听力学意图”。

更一般地说，在与CA(端点检测)通信时，理解某人何时完成了一个话语是一个持续的挑战。这可能需要对具有不同语言模式的人进行额外的研究，如口吃(P2)，以收集必要的音频数据并了解他们的互动。

除了发现互动中的主题外，医疗保健互动中的ca还面临ASR的困难。这在医疗保健之外的CA互动中也很常见[64]。音频可能会受到录音质量的环境噪音(例如其他设备，例如电视或其他人说话)的影响，可使用定向麦克风(P1及P15) [21]。同样，在更细微的互动中，例如为助听器患者使用助听器，最佳的助听器响应可能需要处理响度和信噪比(P12)等环境信息。在对话框中插入这样的信息可以提高CA对这种类型交互的性能。

除了音频质量之外，用户生成的语言也可能是ca的限制因素。CA主动纠错可能有助于对特定术语的误解和不识别(P10)。对于隐私优先的交互，语音数据的处理可以在设备上本地执行，而不需要与服务器进行任何交互，尽管这可能会降低CA的语音处理能力的性能(P8)。

可发现性和会话交互模型

CA设计中的一个关键挑战是使用户可以发现一组可能的操作或命令[65]。理解和记住如何在不同的上下文中与ca交互可能会给使用这些系统的人带来困难(P10和P11)。使ca是开放的和轻量级的，可以允许人们探索系统的功能，并根据他们的目的调整它们(P10)。对于技术素养水平较低的人来说，ca发起的对话可以以一致的间隔实现，以抵消用户发起的特性缺乏可发现性的问题(P11)。

ca依赖于基于轮询的会话通信和交互模型;但是，它们可能并不总是合适的，或者需要额外的脚手架。例如，全科医生使用CA做笔记时，可能需要中断与患者的互动。相比之下，对于相同的任务，基于屏幕的技术可以支持多模式、更连续的交互和更少的侵入性数据输入(P1)。全科医生继续使用多模式信息输入可以改善或解决中断。此外，监控用户- ca交互中的话语可能不像人与人之间的交互那样顺畅。因此，使CA能够检测某人何时完成发言对于实现更无缝的交互至关重要(P2)。对于不同的语言模式，比如口吃，我们可以借鉴与不同人群互动的建议，尽管至关重要的是，我们必须了解这些互动的细微差别，并在设计ca时考虑到包容性。对于使用ca填写表格和调查等场景，音频可能是一种低效的方式，并且会因顺序问题和等待时间而造成设计紧张(P17)。优化延迟使用以限制不必要的等待时间，使用更短的短语，并允许人们在多模式ca中选择退出音频，这些都可以用来克服这些限制。

无障碍及包容性

有几个项目讨论了是否需要让广泛的人口统计数据可以使用ca，或者侧重于改进系统，使其包括特定类型的人。P14确定有必要提供公平和方便地获得可改善健康和福祉的认证。他们建议允许通过网络浏览器和可下载的软件进行访问，并提供技术支持和可下载的情况说明书，以便与他们的CA一起工作或取代他们的CA。现成的CA可能会给资源较低地区的人们带来困难(例如，有限的互联网接入，财务限制)，这可以通过使用更多离线资源的系统来改善(P8)，尽管这可能会带来需要解决的性能挑战。

教育水平、经验和技术素养也会影响用户与ca的交互(P5、P16和P17)。这些障碍可以通过提供多种模式来弥补人们的偏好和能力(P5和P17)，并参与目标人口统计学的参与式设计(P16)来克服。评估这样的系统可能需要重新制定协议，以包括识字率较低的人，并确保他们能够理解向他们提出的问题(P17)。在设计和评估ca以及在现有的稀疏研究文献(P2和P9)的基础上构建特定社区时，可能还需要额外的考虑。例如，与口吃的人一起工作，很少有关于CA互动的研究，并且需要对成功互动的障碍以及如何克服这些障碍有基本的了解(P2)。P9强调需要考虑非裔美国人社区，以及他们对CA的看法和与他们的互动如何不能假设与其他社区相同。因此，可能需要开发新的方法和评价技术，考虑到不同的人口。

主要研究结果

这篇综述强调了CA交互在医疗保健和福祉领域的许多挑战，包括4个主要主题:领域信息和集成、会话能力、用户系统交互和伙伴关系以及评估。这篇综述中报道的许多挑战与相关CA工作中讨论的问题相呼应。ASR错误是基于语音的人工智能系统长期存在的问题[66可以引导使用者改变他们的语言模式以提高理解能力[67]。当核证机关停止发挥其预期效用时，促进用户参与的困难已被突显出来[68]。现有的研究已经解决了这个问题，例如，通过向用户解释交互错误的原因或允许用户在需要时停止交互[69]。本审查中讨论的可访问性问题也映射到先前基于文本的[70]及以语音为基础的核证机关[71]。研究继续确定如何改善核证机关的可及性[72]和设计建议，例如《网页内容易读性指引》[73已被建议作为解决这些问题的一种手段。先前的研究也报告了让患者参与家庭环境的挑战[74]、短期实验室研究的局限性和纵向评估的挑战[75]，以及多组件系统评估的困难[76]。

除了之前CA文献中确定的类似挑战之外，本综述还确定了一些对医疗保健和福祉领域特定或更重要的挑战，包括移情、安全、招募弱势群体以及测试真实环境中的挑战。先前的工作已经引起了对更广泛的CA领域开放挑战的关注[77]并强调需要建立注重公平、透明和道德的负责任的核证机关。这对于本文讨论的ca至关重要，特别是考虑到相互作用的敏感性和从这些相互作用中收集的基础数据。特别是基于语音的CA工作的碎片化性质最近得到了解决[29，78]。这项先前的工作注意到缺乏可靠的评估指标和涉及现实世界测试的研究。我们的回顾表明，在医疗保健和福祉方面应用CAs也存在类似的问题。然而，这些领域的性质意味着，在进入需要严格考虑医学伦理、法律和标准化实践的研究阶段时，可能存在额外的障碍。与其他学科(例如认知科学、语言学)合作，有助提高核证机关研究和实施的一致性。[78]，结合现有的理论和评估方法(参见“评估中缺乏指导”一节)，并研究学术界和工业界的指导方针[79]。虽然必须在卫生保健和福祉背景下考虑有关ca的广泛挑战，但本综述还确定了这些领域的更细微的挑战。未来的工作应该考虑这些不同的挑战是如何重叠的，这取决于预期的CA场景和用户统计数据。

医疗保健领域中的数据收集

获取特定于领域的信息和收集数据通常具有挑战性。主要有两个原因:首先，能够提供关键领域信息的卫生保健专业人员非常缺乏时间，他们对项目的贡献有限;其次，医疗数据非常敏感，有很多隐私和安全问题。由于招聘一名全职的卫生保健专业人员在经济上是不可行的，一种渐进的获取方法可能是有用的(P14)。数据隐私和安全是医疗保健专业人员关注的重要问题，与其他应用领域相比，消费者在共享信息方面更为犹豫(P1)。例如，Digital Scribe项目需要收集初级保健机构中数以千计的医患对话，以训练他们的NLP算法[21]。然而，管理录音系统，通知患者并征得他们的同意，以及患者和医生的隐私和安全问题，使得数据收集过程极具挑战性。在这种情况下，需要多机构合作来组织和管理数据收集，以减少过程中的摩擦，例如雇用专门的技术人员提供支持，更自动化和易于控制的录音系统，以及简化患者同意收集。这些数据收集挑战并非初级保健所特有，因为许多卫生保健机构都有类似的情况和要求。因此，需要激励机构之间的合作和数据共享，并创建道德框架以促进数据共享，其中一些已经在CA社区中出现[80]。此外，可以提供经过验证的数据安全协议和认证，以确保安全性并增加用户信任。将ca集成到现有系统和实现跨系统的数据共享是报告的其他挑战。快速医疗保健互操作性资源被认为是一个很有前途的互操作性标准(P15)。

在CA互动中发展同理心

关于用户-系统交互和伙伴关系的主题，移情、安全和隐私成为重要的挑战。特别是对于用于心理健康应用的人工智能来说，能够表现出同理心是一种有价值的特征。与移情相关的挑战可以分为两类:检测用户当前对某个话题的情感敏感性的挑战，以及根据用户的情况和偏好制定适当的回应。例如，P4使用他们的CA接口Aira，使用客户端配置文件(典型的交互上下文，首选度量单位)来引用和合并交互中的这些细节，以表示同情。P17的目标是让他们的ca通过更简单的方式表达同理心。这与其他成功但成本更高的嵌入式ca实现形成了对比[81，82在一般的医学环境中。P17设计了一系列对用户回答和其他社会话语的中立和共情反应，以增强问题管理对话。它们包括一些短语，帮助用户在敏感话题被引入之前预测它(例如，“下一个问题是关于你的人身安全的，可能很难回答。”)，为回答中性问题提供致谢(例如，“好吧，我对你的情况有了更好的了解，”“明白了”)，以及对敏感问题的移情反应(例如，“那一定很有压力，我很抱歉听到这个消息。”)。他们还指出了一些用户的不同偏好，比如聊天的社交程度低于其他用户。

在CA应用程序中建立安全和隐私

安全和隐私问题在健康和福利应用中更为重要。一项系统审查发现，在大多数被审查的论文中，很少涉及患者安全问题[1]。同样，Bickmore等[24]发现不受约束的自然语言输入的ca存在严重的安全风险。先前的研究还发现，常用的语音助手无法正确回答安全关键用户的提示[4，6]。由于错误识别提示，无法检测用户提示的严重程度(在没有ASR错误的情况下)，或临床推理存在空白，可能会出现安全风险。一个评估症状检查器不同方面的五阶段架构，可适用于其他核证机关应用程序[83]。个人用户数据的隐私也是至关重要的。个人健康数据被认为是最敏感的信息之一。因此，在医疗保健ca中，保护用户数据的隐私变得更加重要。数据隐私与ca的关系尤其密切，因为许多ca通过云中的第三方服务处理用户提示。因此，对这些信息的安全性的担忧是合理的。局部NLP引擎可能是一个解决方案(P8)。

限制

这一审查包括在保健和福利ca这一新兴领域进行的数量有限的研究，这些研究是在特定时期进行的，并在会议研讨会上报告。主要目的是简要介绍该领域最近的项目所面临的一些主要挑战，而不是对这些挑战进行全面概述。尽管报告的挑战提供了一些重要挑战的有用概述，但它们不应被视为该领域的全部挑战。它们代表了全球在这一领域积极工作的研究人员最近进行的一些项目所面临的挑战。

结论

本文检查了17项关于医疗保健和福祉领域CAs的最新研究，以确定设计和评估方面的挑战。虽然ca的其他应用领域也面临许多挑战，包括可访问性、个性化和移情提供，但在医疗保健领域，安全和隐私仍然是更为关键的主要挑战。

在大流行期间，人工智能证明了其作为健康筛查工具的价值，并将继续留在这里，进一步协助个人卫生保健。ca投资的增长也显示了其作为私人助理的价值。提高不同机构和实体之间的合作水平可能是解决一些主要挑战的一个有希望的方向，否则这些挑战将过于复杂，无法由范围和预算有限的项目来解决。

作者的贡献

ABK参与了研究设计。ABK、ES、LC、JMC、JH-Y、YH、JK、RK、Y-CL、LM、EGM、RJM、PM、EDM、SYP、AP、DR、LMS、DS、BS、ZZ、TZ参与数据报告。ABK、ES和LC进行主题分析。ABK, ES和LC提出了初稿。ABK、ES、LC、JMC、JH-Y、YH、JK、RK、Y-CL、LM、EGM、RJM、PM、EDM、SYP、AP、DR、LMS、DS、BS、ZZ和TZ负责后续草案的修订和定稿。

利益冲突

没有宣布。

Laranjo L, Dunn AG, Tong HL, Kocaballi AB, Chen J, Bashir R，等。会话代理在医疗保健:系统回顾。医学信息学报，2018,01;25(9):1248-1258 [J]免费全文] [CrossRef] [Medline］
S, Schatsky D, Chauhan r。德勤洞察，2021。URL:https://wwwdeloitte.com/us/en/insights/focus/signals-for-strategists/the-future-of-conversational-ai.html[2022-10-19]访问
黄燕，林松。基于语音助手技术的面向患者的行为健康干预:自我管理和健康生活方式行为的研究综述。中国生物医学工程学报，2016,27(3):561 - 561。［CrossRef] [Medline］
刘建军，刘建军，刘建军，等。会话主体对健康和生活方式提示的反应:适当性和表达结构的调查。[J]互联网研究与发展，2020年2月9日;22(2):e15823 [J]免费全文] [CrossRef] [Medline］
杨,李J, Sezgin E,桥J,林美国语音助手在产后抑郁症的临床建议:使用苹果Siri的横断面调查,亚马逊Alexa,助理,谷歌和微软Cortana。[j] Mhealth Uhealth 2021; 1 (1):e24045 [j]免费全文] [CrossRef] [Medline］
米纳AS, Milstein A, Schueller S, Hegde R, Mangurian C, Linos E.基于智能手机的会话代理及其对心理健康、人际暴力和身体健康问题的反应。JAMA Intern Med 2016 May 01;176(5):619-625 [j]免费全文] [CrossRef] [Medline］
Alagha EC, Helbing RR。评估语音助手对消费者疫苗健康问题的回答质量:Alexa、谷歌助手和Siri的探索性比较。中华医学杂志;2019;26(1):e100075 [j]免费全文] [CrossRef] [Medline］
noble AL, Leas EC, Caputi TL, Zhu S, Strathdee SA, Ayers JW。Alexa、Siri、Google Assistant、Cortana和Bixby智能虚拟助手对成瘾求助的回应。中华医学杂志2020;3:11 [j]免费全文] [CrossRef] [Medline］
Wilson N, MacDonald EJ, Mansoor OD, Morgan J.在床上与Siri和Google Assistant:性健康建议的比较。中国医学杂志2017年12月13日;359:j5635。［CrossRef] [Medline］
张建军，张建军，张建军，张建军，等。炎性肠病患者使用聊天机器人的探索:回顾性队列研究[J]互联网研究与发展，2020;22(5):559 - 559 [J]免费全文] [CrossRef] [Medline］
C, Kovacs, Fleisch, Kowatsch。商业语音助手对非传染性疾病管理中与健康相关问题的回答的可靠性:评估反应率和信息来源的析因实验[J]互联网研究与发展[J]; 2009;23(12): 362 - 362 [J]免费全文] [CrossRef] [Medline］
洪光，王超，李晓明，王超。语音助手与癌症筛查:Alexa、Siri、Google Assistant和Cortana的比较。中国生物医学工程学报(英文版);2009;19(5):447-449 [j]免费全文] [CrossRef] [Medline］
疾病控制和预防中心(CDC)。COVID-19的症状。疾病预防控制中心。2022.URL:https://www.cdc.gov/coronavirus/2019-ncov/symptoms-testing/symptoms.html[2022-10-19]访问
苹果公司根据疾控中心指导互联网发布新冠app和网站。苹果公司2020年。URL:https://www.apple.com/newsroom/2020/03/apple-releases-new-covid-19-app-and-website-based-on-CDC-guidance/[2022-10-19]访问
2020-2025年全球移动设备数量。Statista》2020。URL:https://www.statista.com/statistics/245501/multiple-mobile-device-ownership-worldwide/[2022-10-19]访问
美国移动设备拥有量和采用率的人口统计数据。皮尤研究中心，2021。URL:https://www.pewresearch.org/internet/fact-sheet/mobile/[2022-10-19]访问
Abd-Alrazaq AA, Rababeh A, Alajlani M, Bewick BM, Househ M.使用聊天机器人改善心理健康的有效性和安全性:系统评价和meta分析。中国医学信息学报，2020;22(7):116021 [J]免费全文] [CrossRef] [Medline］
Maeda E, Miyata A, Boivin J, Nomura K, Kumazawa Y, Shirasawa H，等。使用聊天机器人促进生育意识和孕前健康:一项随机对照试验。生物医学学报，2020;41(6):1133-1143。［CrossRef] [Medline］
朴敏，刘海，李海，金杰。使用健康生活方式指导聊天机器人App促进上班族爬楼梯习惯:探索性随机对照试验。[j] Mhealth Uhealth 2020年5月19日;8(5):e15085 [j]免费全文] [CrossRef] [Medline］
健康聊天机器人就在这里，资金雄厚，我们必须习惯它们。Crunchbase新闻，2021。URL:https://news.crunchbase.com/news/health-chatbots-startups-vc-funding/[2022-10-19]访问
刘建军，刘建军，刘建军，等。基于数字记录仪的临床记录系统研究进展。中华医学杂志2019;2:114 [j]免费全文] [CrossRef] [Medline］
黑山JLZ, da Costa CA, da Rosa Righi R.健康会话代理调查。专家系统与应用2019 (09):56-67 [免费全文] [CrossRef］
Tudor Car L, dinagaran DA, Kyaw BM, Kowatsch T, Joty S, Theng Y，等。卫生保健中的会话代理:范围回顾和概念分析。[J]医学互联网研究，2020 Aug 07;22(8):e17158 [J]免费全文] [CrossRef] [Medline］
bikmore TW, Trinh H, Olafsson S, O'Leary TK, Asadi R, Rickles NM，等。使用会话助手获取医疗信息时，患者和消费者的安全风险:对Siri、Alexa和谷歌助手的观察性研究。医学互联网研究，2018年9月04日;20(9):e11510 [J]免费全文] [CrossRef] [Medline］
Miner AS, Laranjo L, Kocaballi AB.聊天机器人在抗击COVID-19大流行中的作用。中华医学杂志2020;3:65 [j]免费全文] [CrossRef] [Medline］
Sezgin E, Huang Y, Ramtekkar U, Lin s。语音助手在卫生危机和大流行期间支持卫生保健服务的准备情况。中华医学杂志2020;3:122 [j]免费全文] [CrossRef] [Medline］
Kocaballi AB, Ijaz K, Laranjo L, Quiroz JC, Rezazadegan D, Tong HL，等。设想未来初级保健咨询的人工智能文档助理:与全科医生的共同设计研究。医学信息学报，2020,11 (11):1695-1704 [J]免费全文] [CrossRef] [Medline］
对话代理在全球公共卫生中的伦理含义。《世界卫生杂志》2020年4月1日;98(4):285-287 [j]免费全文] [CrossRef] [Medline］
Clark L, Cowan B, Edwards J, Munteanu C, Murad C, Aylett M，等。映射理解语音界面交互的理论和方法视角。见:2019年中国计算机学会计算系统中人因会议的扩展摘要。纽约:计算机协会;2019年CHI计算系统人为因素会议;2019年5月4日至9日;格拉斯哥，苏格兰，英国，1-8页。［CrossRef］
李建军，李建军，李建军。会话式用户体验设计。见:2017年CHI会议论文集:计算系统中的人为因素扩展摘要。纽约:计算机协会;2017年CHI会议扩展摘要:计算系统中的人为因素;2017年5月6日至11日;丹佛，科罗拉多州。[qh]CrossRef］
李建军，李建军，李建军，等。基于语音的会话用户体验研究与设计。见:2018年中国计算机学会计算系统中人因会议全文摘要。纽约:计算机协会;2018年在2018 CHI计算系统人为因素会议上发表;2018年4月21日至26日;加拿大montracimal, QC, p. 1-8。［CrossRef］
李建军，李建军，李建军，等。健康和幸福的对话代理。见:CHI '20: 2020 CHI计算系统中人因会议论文集。纽约:计算机协会;2020年发表于:CHI '20: CHI计算系统中的人为因素会议;2020年4月25日至30日;火奴鲁鲁，HI, 1-8页。［CrossRef］
主题分析在心理学中的应用。心理学质的研究2006;3(2):77-101。［CrossRef］
李建军，李建军，李建军。语言多样性与语言界面:从口吃的角度考虑包容性的未来。见:第二届会话用户界面会议论文集。纽约:计算机协会;2020年7月出席:CUI '20:第二届会话用户界面会议;2020年7月22日至24日;毕尔巴鄂，西班牙第1-3页。［CrossRef］
李建军，李建军，李建军，等。介绍ADELE:一个个性化的智能伴侣。见:ISIAA 2017:第一届ACM SIGCHI国际研讨会论文集，研究与人工智能体的社会互动。纽约:计算机协会;2017年在:ICMI '17:多式联运互动国际会议;2017年11月13日;格拉斯哥，英国第43-44页。［CrossRef］
李建军，李建军，李建军，等。双元社会文本对话的ADELE语料库:对话行为注释与ISO 24617-2。第十一届国际语言资源与评价会议论文集(LREC 2018)。法国巴黎:欧洲语言资源协会;2018年出席:第十一届语言资源与评价国际会议;2018年5月7日至12日;宫崎，日本p. e1https://aclanthology.org/L18-1633
李建军，张建军，张建军，张建军。中国老年人的养老服务现状与发展趋势。CEUR研讨会论文集。2018。URL:http://ceur-ws.org/Vol-2338/paper2.pdf[2022-10-19]访问
李绍平，于锐，谢军，刘建军，刘建军。基于人工智能的远程视障辅助研究。纽约:计算机协会;IUI’22:第27届智能用户界面国际会议;2022年3月22日至25日;赫尔辛基，芬兰，第63-78页。［CrossRef］
李建军，李建军，李建军，李建军，李建军，李建军，李建军。视障人士视距辅助技术的研究进展。见:CHI '20: 2020 CHI计算系统中人因会议论文集。纽约:计算机协会;2020年发表于:CHI '20: CHI计算系统中的人为因素会议;2020年4月25日至30日;檀香山，HI，第1-12页。［CrossRef］
谢军，Reddie M, Lee S, Billah SM，周志，蔡超，等。计算机视觉介导的远视辅助的迭代设计与原型设计。ACM反式。Comput.-Hum。扶少团2022年8月31日;29(4):1-40。［CrossRef］
谢军，余锐，李松，吕勇，张建军，张建军。基于增强现实地图的视距辅助志愿者研究。在:DIS '22:设计交互系统会议。纽约:计算机协会;出席:DIS '22:设计交互系统会议;2022年6月13-17日;虚拟事件澳大利亚第881-897页。［CrossRef］
李勇，黄勇，李勇。基于聊天机器人的日志管理系统研究。过程。ACM hum . computer。互动2021年4月13日;5(CSCW1):1-27 [免费全文] [CrossRef］
李颖，黄颖。基于聊天机器人的心理健康专业人员深度自我表露研究。过程。ACM hum . computer。互动2020年5月28日;4(CSCW1):1-27。［CrossRef］
李颖，黄颖，傅伟。“我听到你，我感觉到你”:通过聊天机器人鼓励深度自我表露。见:CHI '20: 2020 CHI计算系统中人因会议论文集。纽约:计算机协会;2020年4月发表于:CHI ' 202020; 2020 CHI计算系统中的人为因素会议;2020年4月25日至30日;檀香山，HI，第1-12页。［CrossRef］
Smriti D, Shin J, Mujib M, Colosimo M, Kao T, Williams J，等。量身定制的自主动机访谈对话代理。第14届EAI医疗普及计算技术国际会议论文集。纽约:计算机协会;2020年出席:第14届EAI医疗普及计算技术国际会议;2020年5月18-20日;虚拟的。［CrossRef］
Smriti D, Kao TA, Rathod R，申建勇，彭伟，Williams J，等。父母健康饮食的动机性访谈对话代理:发展与用户测试。[j] .地球物理学报，2010;9(4):888 - 888。［CrossRef] [Medline］
金俊，朴树生。健康与幸福会话代理:回顾与未来议程。见:CHI EA '20: 2020 CHI计算系统中人因会议扩展摘要。纽约:计算机协会;2019年在CHI '20: CHI计算系统中的人为因素会议;2020年4月25日至30日;檀香山，HI . p. 1-8https://deepblue.lib.umich.edu/handle/2027.42/151800
Kim J, Muhic J, Robert LP, Park SY。为美国黑人慢性病患者设计聊天机器人:克服COVID-19的挑战。见:CHI '22: 2022年CHI计算系统中人因会议论文集。纽约:计算机协会;2022年4月发表于:CHI '22: 2022 CHI计算系统中的人为因素会议;2022年4月29日至5月5日;新奥尔良，第1-17页。［CrossRef］
Silva LM, Epstein DA。调查数字食物日志中首选的食物描述实践。纽约:计算机协会;2021年:DIS '21:设计交互系统会议2021;2021年6月28日至2021年7月2日;虚拟事件第589-605页。［CrossRef］
Silva LM, Cibrian FL, Epstein DA, Bhattacharya A, Ankrah EA, Monteiro E，等。在大流行期间适应多设备部署:从两项研究中吸取的教训。IEEE普适计算2022;1;21(1):48-56 [j]免费全文] [CrossRef］
Mitchell EG, Maimone R, Cassells A, Tobin JN, Davidson P, Smaldone AM，等。自动化与人类健康指导。过程。ACM hum . computer。互动2021年4月13日;5(CSCW1):1-37。［CrossRef］
《从幕布到堪萨斯:在野外进行绿野仙踪研究》。见:2021年中国计算机学会计算系统中人因会议的扩展摘要。纽约:计算机协会;2021年发表于:2021 CHI计算系统人为因素会议;2021年5月8-13日;横滨，日本第1-6页。［CrossRef］
王粉丝X,曹国伟D,张Z, D,李X,田f .利用自我诊断健康聊天机器人在实际设置:案例研究。[J] .中国医学信息学报，2009;23(1):998 - 998 [J]免费全文] [CrossRef] [Medline］
richard D, Caldwell P.通过互动网站和虚拟专家尽早改善健康结果。生物医学学报，2018;22(5):1699-1706。［CrossRef] [Medline］
黄勇，李建军，李建军，等。基于语音的医疗日志应用(SpeakHealth)的研究进展[j]。JMIR表格Res 2021 5月11日;5(5):e25503 [免费全文] [CrossRef] [Medline］
黄毅，黄勇，黄勇。“嘿，Siri，帮我照顾我的孩子”:在远程护理管理中使用语音交互和自动语音识别对有特殊医疗需求的儿童照顾者的可行性研究前沿公共卫生2022;10:849322 [j]免费全文] [CrossRef] [Medline］
刘建军，刘建军，刘建军，等。我能和你谈谈你的社交需求吗?了解健康领域会话用户界面的偏好。第3届会话用户界面会议论文集。纽约:计算机协会;2021年在:CUI '21: CUI 2021 -第三届会话用户界面会议;2021年7月27日至29日;毕尔巴鄂(在线)，西班牙第1-10页。［CrossRef］
刘建军，刘建军，刘建军，等。HarborBot:社交需求筛选的聊天机器人。生物力学学报，2019;19 (2):552-561 [j]免费全文] [Medline］
李建军，李建军，李建军，等。老年人护理代理人信任的研究进展。纽约:计算机协会;CUI 2019:第一届会话用户界面国际会议;2019年8月22日至23日;都柏林，爱尔兰，第1-3页。［CrossRef］
Yuksel BF, Collisson P, Czerwinski m。ACM反式。互联网科技2017年03月06日;17(1):1-20 [j]免费全文] [CrossRef］
范晓东，吴绍平，杨建平，等。人-agent协作中agent可靠性对信任的影响。纽约:计算机协会;2008年发表于:ECCE08:欧洲认知工效学会议;2008年9月16日至19日;丰沙尔，葡萄牙第1-8页。［CrossRef］
王伟。在线推荐代理的信任与采用。中国生物工程学报，2005;6(3):72-101。［CrossRef］
亚马逊公司. .Amazon Web Services (AWS) understand Medical。亚马逊公司。URL:https://aws.amazon.com/comprehend/medical/[2022-10-19]访问
李建军，李建军，李建军，等。语音识别系统的错误检测与纠错。计算机科学进展，2018;28 (1):32-37 [j]免费全文] [CrossRef］
我能说什么呢?解决移动语音用户界面可访问性的用户体验挑战。见:MobileHCI '16:第18届移动设备与服务人机交互国际会议文集。纽约:计算机协会;MobileHCI’16:第18届移动设备与服务人机交互国际会议;2016年9月6日至9日;佛罗伦萨，意大利，第72-82页。［CrossRef］
Oviatt S, Bernard J, Levow GA。口语和多模态纠错过程中的语言适应。Lang Speech 1998;41 (Pt 3-4):419-442。［CrossRef] [Medline］
刘建军，刘建军，刘建军。基于人机对话的词汇一致性研究。认知2011;121(1):41-57。［CrossRef] [Medline］
Luger E, Sellen A。“就像拥有一个非常糟糕的PA”:用户期望与会话代理体验之间的鸿沟。见:CHI '16: 2016 CHI计算系统中人因会议论文集。纽约:计算机协会;2016年5月出席CHI'16: CHI Conference on Human Factors in Computing Systems;2016年5月7-12日;圣何塞，加利福尼亚州第5286-5297页。［CrossRef］
李建军，李建军，李建军，等。基于改进的语音界面设计方法。第1届会话用户界面国际会议论文集。纽约:计算机协会;CUI 2019:第一届会话用户界面国际会议;2019年8月22日至23日;都柏林，爱尔兰，第1-8页。［CrossRef］
张建军，张建军，张建军，等。聊天机器人的可访问性:对视觉障碍用户有利的技术现状。在可用性，用户体验和辅助技术的进展。柏林，德国:施普林格出版社;2019:623 - 635。
Brewer R, Findlater L, Kaye, Lasecki W, Munteanu C, Weber A.可访问语音接口。参见:CSCW '18: 2018年ACM计算机支持的协同工作和社会计算会议指南。纽约:计算机协会;CSCW '18:计算机支持的协同工作和社会计算;2018年11月3日至7日;新泽西州泽西城，第44-446页。［CrossRef］
Lister K, Coughlan T, Iniesto F, Freear N, Devine P.可访问会话用户界面:设计考虑。见:W4A '20:第17届国际互联网会议论文集。纽约:计算机协会;2020年出席:W4A '20:第17届万维网大会;2020年4月20日至21日;台北，台湾第1-11页。［CrossRef］
WCAG 2概述。W3C Web无障碍倡议(WAI)。URL:https://www.w3.org/WAI/standards-guidelines/wcag/[2022-10-19]访问
Stara V, Vera B, Bolliger D, Rossi L, Felici E, Di Rosa M，等。失智症患者及其照护者对具身会话代理Anne的可用性与接受度:家庭环境下的探索性研究[j] . Mhealth Uhealth 2017;9(6):e25891 [j]免费全文] [CrossRef] [Medline］
[3]李建军，李建军，李建军，李建军。网络健康中会话代理的设计特征:文献综述。国际人机研究学报(英文版);2010;38(1):1 - 4。［CrossRef］
李建军，张建军，张建军，等。健康生活方式会话代理的研究进展。[J]医学互联网研究，2020年2月6日;22(2):e14058 [J]免费全文] [CrossRef] [Medline］
李M，沈杰，Laban G, Kraus M, Clark L, Porcheron M，等。会话式用户界面的道德规范。第21届中国计算机科学与工程学术会议论文集(英文版)。纽约:计算机协会;2022年出席:CHI '22: CHI计算系统中人因会议;2022年4月29日至5月5日;新奥尔良，洛杉矶，1-7页。［CrossRef］
张建军，张建军，张建军，张建军，等。HCI的现状:趋势、主题和挑战。计算机工程学报，2019;31(4):349-371。［CrossRef］
Murad C, Munteanu C, Cowan B, Clark L, Porcheron M, Candello H，等。让我们来谈谈ui:将会话式用户界面设计付诸实践。见:2021年中国计算机学会计算系统中人因会议的扩展摘要。纽约:计算机协会;2021年发表于:2021 CHI计算系统人为因素会议;2021年5月8-13日;横滨，日本第1-6页。［CrossRef］
语音体验的道德准则是包容性和可信赖性的案例。openvoicenetwork。2022.URL:https://openvoicenetwork.org/documents/ovn_ethical_guidlines_voice_experiences.pdf[2022-08-01]访问
张建军，张建军，张建军，等。社会冲突中移情转述-外在情绪调节的影响。精神病学杂志2012;3:482 [免费全文] [CrossRef] [Medline］
Jain M, Kumar P, Kota R, Patel S.聊天机器人的设计与评价。见:2018设计交互系统会议论文集。纽约:计算机协会;2018年发表于:2018设计交互系统大会;2018年6月9日至13日;中国香港895-906页。［CrossRef］
王志强，王志强，王志强。面向患者的数字症状检测器的安全性研究。柳叶刀2018年11月24日;392(10161):2263-2264。［CrossRef] [Medline］

‎

ASR:自动语音识别

CA:会话代理

MCI:轻度认知障碍

NLP:自然语言处理

R库卡夫卡编辑;提交06.04.22;经R Ahmad、V Stara、M Rampioni、J Kim、C b rub同行评议;对作者03.06.22的评论;修订版本收到17.09.22;接受26.09.22;发表15.11.22

©Ahmet Baki Kocaballi, Emre Sezgin, Leigh Clark, John M Carroll，黄云贵，Jina Huh-Yoo, Junhan Kim, Rafal Kocielnik, Yi-Chieh Lee, Lena Mamykina, Elliot G Mitchell, Robert J Moore, Prasanth Murali, Elizabeth D Mynatt, Sun Young Park, Alessandro Pasta, Deborah Richards, Lucas M Silva, Diva Smriti, Brendan Spillane, Zhang, Tamara Zubatiy。原载于医学互联网研究杂志(//www.mybigtv.com)， 2022年11月15日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

卫生保健和福利中会话代理的设计和评估挑战:选择性回顾研究

卫生保健和福利中会话代理的设计和评估挑战:选择性回顾研究

审查

通讯作者:

摘要

关键字

介绍

方法

分析过程中使用的步骤。

结果

概述

领域信息与集成

概述和子主题

领域信息和培训

集成和基础设施

用户系统交互和伙伴关系

概述和子主题

个性化

建立关系

安全和隐私

用户参与

评价

概述和子主题

方法的局限性

实验的局限性

培训材料/计划外事件的影响

接触弱势群体

在现实环境中测试的挑战

评估缺乏指导

缺乏特殊人群的评价数据

缺乏评估指南和标准

多模态测试中的困难

会话能力

概述和子主题

主题检测和自动语音识别

可发现性和会话交互模型

无障碍及包容性

讨论

主要研究结果

医疗保健领域中的数据收集

在CA互动中发展同理心

在CA应用程序中建立安全和隐私

限制

结论

作者的贡献

利益冲突

参考文献

缩写