这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
人工智能(AI)通常被认为是一种潜在的颠覆者,将改变医学实践。医疗保健中收集和可用的数据量,加上计算能力的进步,促进了人工智能的进步和出版物的指数级增长。然而,人工智能应用的发展并不能保证将其应用于日常实践。有一种风险是,尽管投入了资源,但如果不能更好地理解人工智能的实施,患者、员工和社会的利益将无法实现。
本研究的目的是通过回答以下3个问题,探讨人工智能在医疗实践中的实施在文献中是如何描述和研究的:人工智能在实践中的实施的研究有什么特点?描述了人工智能系统的类型和应用?人工智能系统实施过程的哪些特征是可识别的?
对MEDLINE (PubMed)、Scopus、Web of Science、CINAHL和PsycINFO数据库进行了范围审查,以确定自2011年以来在医疗保健领域实施人工智能的实证研究,此外还对选定的参考文献列表进行了滚雪球抽样。使用Rayyan软件,我们筛选标题和摘要,并选择全文文章。将纳入文章的数据制成图表并进行汇总。
在检索到的9218篇文献中,45篇(0.49%)文献被纳入。这些文章涵盖了不同的临床环境和学科;大多数(32/ 45,71%)最近发表,来自高收入国家(33/ 45,73%),针对护理提供者(25/ 45,56%)。人工智能系统主要用于临床护理,特别是与患者-提供者接触相关的临床护理。超过一半(24/ 45,53%)的人没有行动自主权,而是支持人类的决策。大多数研究的重点是建立干预措施的有效性(16/ 44,35%)或与人工智能系统的技术和计算方面相关(11/ 44,24%)。关注实施过程的细节似乎还不是研究的优先事项,使用框架来指导实施也很少。
我们目前的经验知识来自于低动作自主性的AI系统的实现,以及与其他类型的信息系统实现相同的方法。为了制定一个具体的、基于经验的实施框架,需要进一步研究在日常护理中实施的更具破坏性的人工智能系统类型,以及人工智能在医疗保健中实施的独特方面,如建立信任、解决透明度问题、制定可解释和可解释的解决方案,以及解决围绕隐私和数据保护的道德问题。
人工智能(AI)通常被视为一种潜在的颠覆者,它将改变医学实践。
医疗保健中收集和可用的数据量,加上计算能力的进步,促进了人工智能应用的进步[
然而,人工智能应用的发展并不能保证将其应用于日常医疗实践。研究已经确定了一些影响采用创新的因素。这些因素包括环境(例如,经济和政治环境、法律法规和社会文化因素)、组织(例如,组织结构、资源和流程)、群体(例如,专业价值观和文化)、个人(例如,态度、动机、用户满意度和信任)和技术(例如,可用性、设计、准确性和可解释性)[
以前的审查往往只关注医疗保健领域人工智能实施过程的某些方面;例如,监管和法律问题[
考虑到投资于开发人工智能应用程序的资源,以及复制已经调查过的有效人工智能应用程序的风险,以支持、增强,甚至可能改变患者、员工和社会的医疗保健,我们试图探索如何在研究文献中实证调查人工智能在医疗保健实践中的实施。
我们选择了符合Arksey和O 'Malley框架的范围审查方法[
PRISMA(系统评价和元分析的首选报告项目)流程图。AI:人工智能。
为了实现我们的目标,我们制定了三个研究问题:
人工智能在实践中的实施研究有哪些特点?
描述了人工智能系统的类型和应用?
人工智能系统实施过程的哪些特征是可识别的?
在一位大学图书管理员的支持下,我们通过迭代测试3个概念的同义词来集中搜索:
为了涵盖一般和健康和医疗保健特定来源的内容,我们搜索了5个电子数据库:MEDLINE (PubMed)、Scopus、Web of Science、CINAHL和PsycINFO。此外,我们使用滚雪球抽样,通过手动审查我们在筛选过程中确定的可能包含给定综述主题的相关参考文献的综述文章的参考文献列表。
人工智能
医疗保健
实现
人工智能,神经网络,深度学习,机器学习
提供医疗保健,医疗保健,医疗保健
实施、改进、创新、干预
我们纳入了2011年12月至2022年2月间用英文发表的同行评议的实证研究,因为初步搜索表明,人工智能在医疗保健中的应用是最近才出现的现象(
资格标准及其基本原理。
资格标准和变量 | 基本原理 | |
|
||
|
同行评议 | 更大的可信度,因为这些论文已经由该领域的同行专家审查 |
|
实证研究设计 | 与概念性评论或观点相比,实证研究提高了回答研究问题的能力 |
|
2011年12月至2022年2月出版 | 鉴于技术的快速发展和不断变化的数据集,过去十年之前开发的解决方案很可能已经过时 |
|
英语语言 | 考虑到调查人员的语言能力,这是实际的考虑 |
|
||
|
非实证设计,包括社论、评论、观点文章和报告 | 与概念性评论或观点相比,实证研究提高了回答研究问题的能力 |
|
与人工智能技术实施无关的概念验证、可行性或验证研究 | 由于目的是探索在实践中的实施,因此应排除那些未达到这一目的的研究,例如概念证明、有效性或可行性研究 |
所有已识别的记录都被导入开放获取软件Rayyan。重复的记录被删除,剩余记录的标题和摘要被至少一位作者筛选是否合格。任何不确定或冲突都在定期检查时进行讨论,直到所有作者达成共识。作者的多学科背景为这些讨论提供了信息。我们还不断审查我们对筛选标准的解释,当有人提出问题时,我们会后退,以确保标准得到正确应用,并以一种普遍的方式,独立于筛选记录的人。我们使用了Rayyan的AI筛选和高亮功能,但我们仍然筛选了每条记录。我们在包容性方面也犯了错误。然后由至少两名研究人员独立筛选全文文章。冲突和不确定性再次通过讨论解决,直到所有研究人员达成共识。由于我们遵循原来的框架,没有对纳入的研究进行质量评估。
我们开发了一个数据提取模板,为每个研究问题绘制数据图表。为了界定这些概念领域,我们采纳了世界卫生组织关于人工智能在健康领域的伦理和治理的指导意见(根据经济合作与发展组织国家人工智能理事会的建议)[
提取了以下数据:
基本信息:作者、出版年份、国家、临床环境、研究目标和研究设计
人工智能的类型和应用:使用的人工智能技术、人工智能模型的类型、人工智能执行的任务类型、行动自主水平、人工智能的预期用途和人工智能的预期用户
实施过程:研究重点、实施动机、实施过程中的要素和使用的框架
将提取的与研究问题1和2相关的数据进行映射和汇总。定性专题分析[
我们确定了9218条记录,其中9179条(99.58%)是通过数据库搜索确定的,39条(0.04%)是通过综述文章中参考文献列表的滚雪球搜索确定的(n=36)。在9218条记录中,去除重复项后,保留了5666条(61.47%)记录,我们对标题和摘要进行了筛选。在本次筛选中,98%(5553/5666)的记录被排除在外,其余2%(113/5666)的记录通过全文审查进行资格评估。在这113篇文章中,有68篇(60.2%)被排除在外
回顾的文献主体是相当近期的,大多数研究(32/ 445,71%)发表于2020年至2022年之间[
范围评审中包含的文章概述(N=45)。
作者、年份、国家;临床 | 研究的目标 | 研究设计 |
阿南德等[ |
描述通过计算机自动化系统改善儿童健康,以及使用Arden语法表示儿科指南的方法 | 案例研究 |
巴克斯特等[ |
对在医疗保健中使用机器学习模型的障碍进行详细分析 | 案例研究 |
班纳特( |
评估数据驱动的临床生产力系统的效果,该系统利用电子健康记录数据在现实世界的临床环境中提供生产力决策支持功能 | 张后研究 |
冠军等[ |
阐明强化胰岛素治疗CDSS的障碍和促进因素一个 | 定性研究 |
Chonde等[ |
评估AI的执行情况b放射学中的自动翻译系统 | 案例研究 |
钟等[ |
判断是否静脉血栓栓塞c管理项目可以增加风险适当的静脉血栓栓塞预防和使用CDSS进行静脉血栓栓塞风险评估 | 间断时间序列 |
克鲁兹等人[ |
描述一个实时CDSS及其对临床路径依从性的影响 | 案例研究 |
达摩雅等[ |
探索人工智能增强医疗无人机在加纳医疗保健供应链中的应用如何改善医疗保健供应链系统 | 案例研究 |
戴维斯等[ |
确定机器学习算法的影响,意味着标记CTd头部检查待解释为颅内出血的可能性较高 | 案例研究 |
Dios等[ |
在西班牙塞维利亚的一所大学医院提出一个手术室调度决策支持系统 | 案例研究 |
García Bermúdez等[ |
评估虚拟护理人员的用户满意度,该虚拟护理人员旨在监测出院后30天内因COVID-19感染入院的患者的健康状况 | 定量研究 |
Goncalves等[ |
介绍护士的经验与技术工具,以支持败血症的早期识别 | 案例研究 |
赫尔曼等[ |
评估基于人工智能的应用对耐利福平结核病筛查的影响 | 与关键线人面谈的定性研究 |
Kalil等[ |
描述一种新的风险管理认知机器人对临床外科单元中败血症风险患者的识别和护理过程的影响 | 回顾性观察研究 |
Kashyap等[ |
确定早期采用者卫生系统用于将基于人工智能的CDSS集成到临床工作流程中的不同计算和组织设置 | 与关键线人面谈的定性研究 |
莱西等[ |
评估使用自动视频审计对洗手事件的质量和数量的影响 | 间断时间序列 |
赖等[ |
描述数字自动化院前分诊解决方案的实施,以指导患者接受适当的护理 | 案例研究 |
利特文等[ |
描述初级保健中急性呼吸道感染抗生素处方的CDSS使用情况,以及采用CDSS的促进因素和障碍 | 混合的方法 |
麦基洛普等[ |
描述使用IBM Watson Assistant平台构建的与covid -19相关的会话代理的各种用例 | 横断面研究 |
默罕默德等[ |
验证和实施人工智能系统,并在系统实施前后量化正畸专家的转诊模式 | 定量调查 |
摩尔人( |
描述人工智能系统实施过程中的经验和教训 | 案例研究 |
莫拉莱斯等[ |
描述数字分类和监测服务的早期实现,其中包括使用聊天机器人进行算法决策 | 观察性研究 |
吴恩达等[ |
为全国范围的过渡护理计划的登记建立一个风险分层的预测模型 | 现有数据集分析 |
奥尼尔等人[ |
评估(1)引入一种用于非对比CT检测脑出血的算法是否会影响周转时间(2)对周转时间的影响是否依赖于放射科医生工作流程中信息的呈现方式 | 准实验研究 |
petigand等人[ |
分析急诊部门中基于人工智能的决策支持系统的实现,重点关注系统参与者的表示 | 案例研究 |
Rais等[ |
讨论医院物流服务的优化方法 | 案例研究 |
拉瑟等人[ |
描述基于模型的决策支持系统的开发、实施和评估,以确定麻醉师的日常安排和择期手术的房间 | 案例研究 |
Reis等[ |
描述一家大型医院失败的人工智能项目,并找出导致失败的根本原因 | 案例研究 |
罗梅罗-布鲁福等[ |
探讨使用基于人工智能的CDSS的员工对人工智能的态度 | 张后研究 |
罗梅罗-布鲁福等[ |
使用基于人工智能的CDSS减少非计划的医院再入院 | 对照研究 |
萨维里诺等[ |
描述在COVID-19大流行期间,数字人工智能平台在促进康复服务变革方面的作用 | 回顾性观察研究 |
施里舍等人[ |
讨论华盛顿州最大的医疗保健服务提供商之一在ai支持的任务控制中实施数据分析 | 案例研究 |
舒赫等人[ |
概述维也纳总医院纳入实践的3个cdss的技术和临床方面 | 描述3个项目的案例研究 |
谢苗诺夫等[ |
目前的研究和发展的决策支持系统的患者的实验室服务 | 案例研究 |
桑达克等[ |
描述在北卡罗来纳州达勒姆的杜克大学医院将脓毒症监测(Sepsis Watch)(一个脓毒症检测和管理平台)整合到日常护理中所采取的步骤 | 案例研究 |
斯诺登等人[ |
描述系统的实施,工作流程的变化,以及对弱势公民的影响 | 案例研究 |
斯特罗姆等[ |
确定人工智能在临床放射学应用的障碍和促进因素 | 案例研究(多个) |
苏库姆斯等[ |
描述加纳和坦桑尼亚农村设施的卫生工作者接受和使用CDSS进行产妇护理的情况,并确定影响成功收养的因素 | 混合的方法 |
太阳( |
研究不同利益相关者之间的社会权力如何影响医疗保健中的IT采用 | 混合的方法 |
Tamposis等[ |
介绍一个软件平台的设计和实现,用于支持检测,以及使用和处理融合活检的临床、生物化学、成像和组织病理学结果 | 案例研究 |
谭等[ |
描述AI用于自动检测和标记放射科医生未报告的CT结果,以提高患者安全 | 案例研究 |
瑟索等人[ |
评估现有正畸移动教练应用程序的AI升级的临床影响 | 张后研究 |
文等[ |
根据在明尼苏达州罗切斯特市梅奥诊所开发临床自然语言处理的经验,提出开发自然语言处理工具集的建议 | 案例研究 |
Wijnhoven [ |
基于CDSS开发案例的理论形式化,并通过这样做为组织中的人工智能开发创建组织学习理论基础 | 案例研究 |
黄等[ |
描述基于深度学习的自动分割轮廓模型在2个癌症中心临床工作流程中的影响 | 用户反馈调查 |
一个CDSS:临床决策支持系统。
bAI:人工智能。
c静脉血栓栓塞。
dCT:计算机断层扫描。
最常见的人工智能应用类型是自动化或优化技术,71%(32/45)的已实现系统[
大约三分之一的研究重点是展示实施的干预措施的有效性(16/ 45,36%)[
在回顾的研究中,有超过一半(23/ 45,51%)的研究没有描述实施背后的动机。对于那些研究(22/ 45,49%),我们确定了6种类型的动机,与
在纳入的45项研究中,3项(7%)明确关注实施过程[
一些(8/ 45,18%)实施工作涉及
7%(3/45)的研究[
我们这项研究的目的是探索如何在研究文献中对AI在医疗实践中的实施进行实证调查。我们发现,关于人工智能系统实施的研究主要发表在高收入国家,涵盖许多不同的临床环境和学科,主要关注作为用户的护理提供者。人工智能模型主要是符号或基于知识的,使用自动化或优化技术,主要用于执行与识别相关的任务。人工智能系统主要用于临床护理,特别是与患者-提供者接触相关的临床护理。大多数没有行动自主权,而是支持人类的决策。大多数研究的重点是建立干预措施的有效性或与人工智能系统的技术和计算方面相关。关注实施过程的细节似乎还不是研究的优先事项,使用框架来指导实施也很少。
大多数研究都是最近发表的(2020-2022年),考虑到人工智能医疗保健研究的时间分布,这并不令人惊讶。关于人工智能在医疗保健领域实施的研究本质上主要是概念性的,主要是评论、观点、观点文章和提出重要问题的概念框架,但没有必要的经验证据[
近一半的人工智能模型是符号或基于知识的。它们使用人工生成的逻辑表示、规则和本体来推断结论,并且比基于纯数据驱动或统计方法的模型具有更好的解释性。然而,它们可能无法充分发挥人工智能的潜力,因为它们是“硬编码的专家烹饪书”,受到编码知识的限制。
这项研究发现,在医疗保健领域研究人工智能系统实施过程的方式是多种多样的,并且建立在许多类型的研究设计和方法之上。纳入研究的一半多一点的研究没有为实施人工智能系统提供明确的动机,这是在医疗保健领域成功采用人工智能的关键因素[
尽管研究实施过程的重点有限,但我们的归纳分析确定了以下实施要素:共同创造、设计非破坏性工作流程、保持学习重点、沟通、情境化、领导力和有益的组织结构、培训以及人工智能使用的执行或激励。这些方面并非人工智能所独有,而是被强调为采用包括人工智能在内的所有数字技术的重要干预措施;例如,终端用户参与资讯科技服务和应用程序的设计和实施,是以用户为中心的设计的基础,这被视为采用数码技术的重要推动力[
这项研究的结果证实了Gama等人最近的工作[
这项研究的优点包括审查的大量记录和在筛选过程中观察到的严格性。搜索战略是全面和广泛的,包括5个不同的电子数据库。然而,我们没有对灰色文献进行更广泛的搜索,这无疑会捕获更多的案例,并可能确定更多代表尚未在研究文献中发表的正在进行或已完成的实施项目的案例。由于我们的目标是调查临床实践中的实施经验,在筛选过程中,我们删除了临床试验、病例报告、试点、可行性研究和其他形式的有限和有控制的人工智能应用在实践中的引入。我们预计科技公司和护理提供者的工作与随后的学术出版物之间会有一个滞后。然而,由于我们确定的记录数量以及之前在文献中发现的以观点、见解和叙事评论形式出现的大量基于观点的文章[
我们最初对标题和摘要的筛选不需要2名审稿人的决定,但全文筛选中的所有决定都是两人一组确认的。我们通过每两周的会议来保持一致性和减少个体差异,我们努力建立一个心理安全的环境,鼓励所有作者提出或标记怀疑,讨论排除标准的应用,或考虑不同的解释。有疑问的时候,我们会后退或重复,不相互指责,所有矛盾和不确定性都通过讨论解决,直到达成共识。与该领域的其他专家举行了其他会议,以确保方法的严谨性。虽然Arksey和O 'Malley框架用于范围审查[
目前的经验证据表明,研究和实践需求之间存在不协调。一方面,概念性和方法学的人工智能研究建立在人工智能革新医疗保健的巨大承诺之上,并提出了将其缓慢应用于实践的问题。另一方面,目前的经验支持的知识主要来自低行动自主性的人工智能系统的实现,并强调了其他类型信息系统实现的典型实现过程中的经验教训。需要对常规护理中实施的更具破坏性的人工智能系统类型进行进一步研究,以确定人工智能特有的实施方面。这凸显了未来研究需要在两个主要方向上推进:(1)对医疗实践中各种类型的人工智能系统的实施过程进行实证研究;(2)通过开发和传播人工智能特定的实施框架来支持实证研究和实际实施,该框架将考虑到与医疗保健中人工智能相关的一些独特方面,如建立信任,解决透明度问题,开发可解释和可解释的解决方案,解决隐私和数据保护方面的伦理问题。
详细的搜索策略的研究。
范围评审中包含的文章概述(N=45)。
人工智能(AI)系统的实现类型和主要研究重点。(A)实施的人工智能技术类型,根据经济合作与发展组织框架进行分类。(B)在所纳入的研究中人工智能在医疗保健中执行的任务类型。(C)人工智能的行动自主性水平。(D)论文的整体重点和结果。
人工智能
系统评价和元分析扩展范围评价的首选报告项目
作者要感谢Per Nilsen和Julie Reed为最终稿贡献了重要的意见。这项工作得到了知识基金会的资助。资助者没有参与研究设计;在数据的收集、分析和解释方面;在报告的写作中;或者决定提交论文发表。
所有作者都参与了研究的设计。IL、CS和JMN从数据库中检索记录。IL、CS、JMN、MS、MN参与筛选过程。MS, MN, IL提取数据。所有作者都参与了数据的分析和解释。MS最初起草的手稿是作为一篇硕士论文,CS和IL作为导师,并从所有作者那里输入。所有作者随后起草和修改了手稿,并批准了最终版本。
没有宣布。