医学互联网研究杂志-基于互联网的精神障碍临床评估程序的诊断有效性和可靠性

原始论文

¹澳大利亚维多利亚州霍桑市斯威本科技大学国家电子治疗中心

²生物、心理、社会和电子保健研究与创新中心;合作研究网络;以及澳大利亚联邦大学健康科学与心理学院，巴拉瑞特，维多利亚州

^3.澳大利亚国立大学国家心理健康研究所，堪培拉，澳大利亚

⁴澳大利亚维多利亚州霍桑市斯威本科技大学健康科学学院

⁵迪肯大学心理学院，伯伍德，维多利亚州，澳大利亚

通讯作者:

David Phong Nguyen博士(临床心理学)

国家电子治疗中心

斯威本科技大学

伯伍德路

山楂，维多利亚州，3122

澳大利亚

电话:61 402497855

传真:61 392145260

电子邮件:dpnguyen@outlook.com

背景:基于互联网的评估有可能帮助诊断精神健康障碍，并克服与传统服务相关的障碍(如费用、耻辱、距离)。除了现有的在线筛查项目之外，还有机会提供更全面和准确的诊断工具，以补充精神健康障碍的评估和治疗。

摘要目的:目的是评估电子心理评估系统(e-PASS)的诊断标准效度和重测信度，这是一个在线、自我报告、多障碍、临床评估和转诊系统。

方法:参与者是616名居住在澳大利亚的成年人，在线招募，并代表潜在的e-PASS用户。完成e-PASS后，158名参与者接受了电话管理的结构化临床访谈，39名参与者在首次完成后的25天内重复了e-PASS。

结果:结构化的临床访谈结果作为金标准，与e-PASS的诊断一致性差异很大，从一般(如广泛性焦虑障碍:κ=.37)到强烈(如恐慌障碍:κ=.62)。虽然e-PASS的敏感性也有所变化(0.43-0.86)，但特异性通常较高(0.68-1.00)。当e-PASS阈值降低到亚临床结果时，e-PASS敏感性通常得到改善。测试-再测试的可靠性范围从中度(例如，特定恐惧症:κ=.54)到重度(例如，神经性贪食症:κ=.87)。

结论:e-PASS提供了可靠的诊断结果，在排除精神障碍方面表现良好，尽管以牺牲敏感性为代价。出于筛查目的，作为诊断指标，e-PASS亚临床结果通常比临床结果更好。需要进一步的开发和评估来支持精神障碍在线诊断评估程序的使用。

试验注册:澳大利亚和新西兰临床试验注册中心ACTRN121611000704998;http://www.anzctr.org.au/trial_view.aspx?ID=336143(由WebCite存档于http://www.webcitation.org/618r3wvOG)。

中国医学医学杂志，2015;17(9):e218

doi: 10.2196 / jmir.4195

关键字

互联网；在线；心理健康；有效性；可靠性；评估；诊断；筛选；焦虑；抑郁症

精神障碍的诊断在临床实践、研究和管理中具有许多重要作用(例如，沟通、治疗计划和评估、决策、分类、政策制定)[1］．然而，有各种各样的问题限制了诊断评估在传统面对面环境中的实践和效用[2-5］．例如，临床医生通常倾向于非结构化访谈，尽管这种访谈容易产生偏见和错误[4]，而更可靠的结构化访谈形式往往被忽视，因为在日常实践中管理起来既麻烦又昂贵[5］．

互联网为评估精神疾患提供了多种益处[6，7］．基于互联网的问卷可以包含复杂的分支和评分规则，并以标准化的方式无缝地呈现项目和反馈。互联网还提供了最低的持续交付成本、不同人群的可访问性和有效的数据收集。消费者可访问性通常比传统的面对面服务更好，因为它通常与更低的成本和更大的便利性有关。此外，在线评估的潜在匿名性促进了自我意识和自我表露，可能会产生更有效的结果[8］．

鉴于这些优势，已经提供了许多不同的在线诊断评估工具。然而，已发表的关于诊断结果的心理测量特性仅适用于其中的一小部分。此外，这些报告的程序之间的性能差异很大(例如，[9-12])，可能是由于课程特点和研究方法的差异。例如，Farvolden等人[9]报道了基于web的抑郁和焦虑测试(WB-DAT)的有效性，这是一种抑郁症和焦虑症的诊断筛查程序，其功能类似于基于该测试的结构化诊断访谈精神疾病诊断与统计手册(第四版)(dsm - iv)标准。在临床医生的指导下进行结构化临床访谈dsm - ivWB-DAT作为金标准，在敏感性(0.71-0.95)和特异性(0.87-0.97)方面显示出较高的诊断准确性。然而，结果是有限的，因为参与者是从面对面的临床试验中招募的，可能并不代表该计划的典型在线消费者。此外，该研究涉及的诊断基础率普遍较低，可能有偏倚的分类统计。然而，WB-DAT的结果表明在线程序可以达到较高的诊断敏感性和特异性。

最近，Donker等人[10]评估了网络筛查问卷(WSQ)，该问卷也可以诊断性地筛查多种疾病dsm - iv疾病(如抑郁、焦虑和与酒精有关的疾病)。与WB-DAT不同的是，WSQ非常简短，每个障碍只有1到2个条目，总共有15个条目，以促进访问和完成[10］．与Farvolden等人的研究相反，参与者(N=502)是在线招募的，随后远程完成WSQ，以更好地代表潜在的程序使用情况。与以电话为基础的综合国际诊断访谈(CIDI)作为金标准相比，WSQ的改进版本显示出普遍的高敏感性(0.72-1.00)。然而，WSQ表现出相对较差的特异性(0.44-0.77)和较低的阳性预测值(PPV=0.11-0.51)，有许多假阳性，可能是由于项目集小。因此，尽管WSQ可能在诊断上是敏感的，并且可以快速完成，但与WB-DAT等更全面的程序相比，它是以牺牲特异性为代价的。

在在线诊断程序的心理测量学文献中，考虑到许多因素(如考试态度的变化和测试环境的缺乏控制)可能会影响在线表现和后续结果，测试-重测可靠性似乎是一个重要的，但尚未得到充分研究的可靠性类型[13］．只有一项已知的研究检查了在线诊断评估工具的测试-再测试可靠性。在Lin等人的研究中，参与者包括访问一个在线心理健康网站的台湾游客，他们重复了基于互联网的抑郁自我评估项目(ISP-D)，这是一项对3种不同抑郁表现的9至24项测量[11］．ISP-D被发现在2周内具有出色的测试-重测可靠性(加权κ=.80)，尽管性能在较长时间内下降(例如，加权κ=。45, 2-4周)。虽然Lin等人的结果很有希望，但尚不清楚它们是否可以推广到针对其他疾病和不同人群的项目中。

鉴于其实际效益和心理测量证据，基于互联网的诊断评估已在“虚拟诊所”中实施和试用，作为一种快速评估和转介适当在线干预的手段[10，14］．其中一个例子是电子心理评估和筛选系统(e-PASS)，这是本研究的重点。出现在焦虑在线虚拟诊所[14](现改名为“精神健康在线”[15])， e-PASS的主要功能是为已登记的使用者提供诊断及转介工具，并作为登入网上治疗计划的起点[14］．例如，被e-PASS识别为患有恐慌症的用户将被建议完成恐慌症的在线治疗计划[14］．

与其他诊断评估项目不同，e-PASS将反映诊断标准和严重程度的项目结合在一起，旨在得出准确的诊断结果。e-PASS还评估了相当广泛的诊断范围，包括21dsm - iv(文本修订;DSM-IV-TR)疾病，与大多数公开可用的项目相比，以帮助适应共病和低患病率的疾病。e-PASS的另一个显著特征是，它将主要诊断(即，在一份报告中被认为是最严重的疾病)与任何继发性疾病区分开来。这一功能可以帮助用户识别他们的主要心理健康问题，并优先考虑治疗建议。最后，e-PASS侧重于临床疾病以及代表显著症状但不完全符合临床疾病标准和严重程度的“亚临床”表现。

初步评估表明e-PASS与社区来源(如心理学家、咨询师或医生)之间的诊断高度一致，尽管结果基于有限的调查数据[14］．e-PASS也经过了可用性测试，表明与临床医生管理的访谈相比，它具有明显的好处和优势(例如，便利性、匿名性、全面性)(D Nguyen，未发表的博士论文，维多利亚:斯威本大学，2013年)。尤其值得一提的是，在2009年10月至2014年6月期间，e-PASS已经完成了22620次完井作业。

与任何诊断评估工具一样，正式阐明e-PASS的心理测量特性至关重要。鉴于e-PASS的高使用率和在“虚拟”诊所的诊断和治疗转诊以及结果测量方面的明确作用，这种需求尤其明显(例如，[14])。虽然存在一些在线评估项目的心理测量证据(例如，[9，10])，他们的研究结果仅限于反映e-PASS的潜在性能。例如，e-PASS在识别更广泛的疾病(包括不太常见的疾病，如神经性贪食症和身体畸形障碍)以及亚临床诊断表现方面与先前检查的项目不同。

因此，本研究旨在考察e-PASS的诊断标准效度和测试重测信度，涉及在相对自然的条件下完成e-PASS的潜在用户。这是作者所知的第一个评估在线多障碍诊断评估程序的标准效度和测试重测信度的研究。这项研究的另一个独特之处在于研究了一个在线诊断程序，该程序是国际上开放获取的精神健康障碍“虚拟”诊所的核心。研究结果将有助于更明智和适当地使用e-PASS，以及进一步开发e-PASS和类似的在线评估工具。

伦理批准

这项研究得到了斯威本大学人类研究伦理委员会的批准。该研究是焦虑在线服务的大型试验的一部分，该试验已在澳大利亚新西兰临床试验注册中心(ACTRN12611000704998)进行了试验注册[14］．

招聘

招聘对象是准“电子通行证”使用者。焦虑在线网站的访问者点击一个链接进行e-PASS测试，就会收到一份简短的邀请，邀请他们参加这项研究。那些拒绝的人照常进行e-PASS，而感兴趣的人则被提供了一份在线普通语言声明和同意书。纳入标准要求个人年龄在18岁或以上，居住在澳大利亚境内(以便在出现参与问题时进行适当的跟进)。欢迎所有临床人群，但鼓励经历急性痛苦或风险的个体推迟参与e-PASS研究。招募发生在2009年11月至2011年6月之间。总共有29名参与者因居住在澳大利亚以外而被排除在外，总样本中剩下616人。

的定单

e-PASS是一个综合评估项目，除了诊断评估外，它还衡量了一系列因素，包括社会人口背景、自杀和精神病风险、过去和目前的治疗以及首选的学习方式。e-PASS的诊断组件由500多个项目组成，分组为21个模块DSM-IV-TR障碍(16]:重度抑郁障碍(MDD)、焦虑障碍(如恐慌障碍)、身体畸形障碍(BDD)、饮食障碍(如神经性贪食症)、睡眠障碍(如原发性失眠)、酒精和物质依赖(如大麻依赖)、病理性赌博和躯体化障碍。编程分支规则允许用户自动跳过不相关的项目。因此，用户通常只完成所有诊断项的一个子集。

完成e-PASS后，用户将得到详细的反馈，包括初步诊断(即被评为最严重的疾病)和任何已确定的继发性疾病。诊断严重程度基于症状标准的满足程度，以及与所报告症状相关的痛苦和干扰的评分。“临床”诊断结果是当所有症状标准都满足，并且至少被评定为“轻度”到“中度”的痛苦和干扰。当部分症状标准符合但不是全部症状标准，或者当所有症状标准符合但总体严重程度低于“轻度”时，就属于“亚临床”结果。

双相情感障碍和精神分裂症筛查项目，以及医疗状况、药物使用和其他显著因素的潜在因果作用(例如，抑郁症症状中的丧亲之痛)也反映在e-PASS诊断反馈中(见[14]参阅更详细的资料)。

临床访谈

通过电话进行的临床访谈的临床诊断结果被认为是“金标准”。使用电话访谈评估精神健康障碍在文献中得到了支持[17-19］．访谈者是接受研究生临床培训的正式或临时注册心理学家，对参与者的e-PASS结果一无所知。两种访谈时间表主要用于诊断。所有访谈均以迷你国际神经精神病学访谈加(Mini - plus)结构化访谈计划的管理开始。MINI-Plus被认为是实用的，同时保持较高的诊断可靠性和有效性，而更麻烦，但受到高度重视的SCID-IV [20.］．赞同MINI-Plus问题表明某种程度的焦虑症状的参与者也被提交了焦虑症访谈表中的焦虑障碍模块DSM-IV-TR(ADIS-IV)，是一种具有可靠度的“黄金标准”半结构式访谈[21，22］．在回答筛查问题时表示睡眠困难的参与者也接受了失眠严重程度指数，这是一种可靠而有效的识别临床失眠的工具[23］．

过程

参与者同意提供他们的姓名，电子邮件地址和他们的全科医生的详细信息。然后参与者完成e-PASS，平均耗时25.0分钟(SD 5.0)，并像往常一样收到诊断反馈。在2010年6月至2011年6月期间，所有e-PASS参与者都收到了一封电子邮件，邀请他们在首次评估后35天内重复e-PASS考试。面试官试图在完成e-PASS后的4周内给参与者打电话。由于面试过程的限制(例如，面试官不可用)，没有联系到总样本中的一小部分(N=616)，不幸的是，没有注意到这些人是谁。最终，在162名受访者中，158人同意接受采访，4人因个人原因拒绝。访谈在e-PASS后平均10.4天(SD 7.0)完成，平均持续时间为48.0分钟(SD 15.0)。

访谈者以介绍开始，然后进行MINI-Plus，随后是ADIS-IV和失眠严重程度指数(如相关)。面试官对参与者的e-PASS结果一无所知。通话结束后，参与者被邀请参加本研究未报告的其他e-PASS相关研究活动(如定性访谈和e-PASS体验在线调查)。每次临床访谈后，采访者填写一份评估总结表，包括诊断结果(是否存在临床疾病)。访谈者进行同行监督和临床监督，讨论任何临床问题和诊断问题(如鉴别诊断)。一个随机的访谈子集被记录用于评分者之间的可靠性测试。

统计分析

以临床访谈诊断结果为标准(即金标准)，计算敏感性、特异性、Cohen’s kappa、PPV、阴性预测值(NPV)等标准分类统计量，检验e-PASS标准的效度。考虑到分类统计数据可能因非常低的诊断基础率而有偏差，根据临床访谈，只有患病率大于4%的临床疾病才会被报道。其他研究也报道了同样低基准率的分类统计(例如，[9，10])。

敏感性反映了临床访谈诊断为阳性且e-PASS诊断为阳性(即真阳性)的人群的比例。特异性表示临床访谈诊断为阴性且e-PASS诊断为阴性的患者(即真阴性)的比例。敏感性和特异性范围从0到1，数值越高表明准确性越好。虽然没有普遍推荐的敏感性/特异性阈值，但0.70的最低敏感性和特异性被认为是可以接受的，以反映筛查准确性的优先性[10］．

PPV是e-PASS诊断为阳性而实际患有某种疾病的概率，而NPV是指e-PASS诊断为阴性而实际没有患有某种疾病的概率[24］．对于敏感性、特异性、PPV和NPV，基于Wilson区间的95%置信区间[25的计算。这些统计数据的置信区间反映了受诊断基础率影响的潜在变异性(即，较低的基础率导致较宽的估计)。值得注意的是，以前的研究评估了类似的项目(例如，[9，10])没有包括置信区间。

科恩的卡帕[26]测量超出偶然预期的诊断一致性[27］．Kappa价值观的解释遵循Landis和Koch提出的指导方针[28: . 01 -。20.=slight, .21-.40=fair, .41-.60=moderate, .61-.80=substantial, and .81-1.00=almost perfect agreement.

Kappa也用于测量初始和重复e-PASS结果之间的诊断一致性。McNemar检验检验了从测试到再次测试的诊断是否有系统性的变化。有意义的结果意味着需要拒绝原假设，即某一特定疾病的临床诊断在测试和复测之间保持一致，然后对列联表的检查可以显示不一致是否反映了从测试到复测从阳性到阴性或从阴性到阳性诊断的变化模式[29］．

概述

总样本616人，女性443人(71.9%)，男性173人(28.1%)，平均年龄37.7岁(标准差12.9)。临床访谈样本包括总样本中的158人。表1显示了总样本和临床访谈样本的社会人口学特征。卡方检验发现临床访谈样本和总样本在这些社会人口学变量方面没有显著差异。治疗可及性方面的比较显示，临床访谈样本中目前正在接受治疗的比例(87/ 158,55.1%)高于总样本(290/ 616,47.1%)，但差异无统计学意义(χ²₁= 3.4,P =06)。此外，结果表明，在临床访谈样本(n, 21.2%)中，认知行为治疗的接受程度明显高于总样本(n, 14.3%;χ²₁= 6.0,P =. 01)。

由于最终记录的临床访谈子样本如此之少(即158个中的12个)，因此决定不进行评分者间的信度分析。

表1。总样本和临床访谈子样本的人口学变量。

社会人口学和治疗因素		总样本，n (%) n =616	临床访谈子样本n (%) n=158	χ²（df）	P
性别				0.2 (1)	主板市场
	男性	173 (28.1)	42 (26.6)
	女	443 (71.9)	116 (73.4)
的关系				0.7 (4)	总收入
	结婚了	175 (28.4)	44 (27.8)
	单	169 (27.4)	44 (27.8)
	事实上的	172 (28.0)	46 (29.1)
	分居或离婚	66 (10.7)	14 (8.9)
	其他	34 (5.5)	10 (6.3)
出生国				3.0 (5)	2
	澳大利亚	453 (73.5)	117 (74.1)
	联合王国	53 (8.6)	14 (8.9)
	亚洲国家	30 (4.9)	9 (5.7)
	美国	22日(3.6)	2 (1.3)
	欧洲国家(英国除外)	22日(3.6)	6 (3.8)
	其他	36 (5.8)	10 (6.3)
设置				2.6 (3)	。45
	大都会	384 (62.3)	104 (65.9)
	区域	155 (25.2)	36 (22.8)
	农村	65 (10.6)	13 (8.2)
	远程	12 (1.9)	5 (3.2)
最高教育				3.7 (3)	29
	九年级或以下	36 (5.8)	7 (4.4)
	年10	70 (11.4)	11 (7.0)
	年11	41 (6.7)	12 (7.6)
	一年12	469 (76.1)	128 (81.0)
最高的高等教育				6.0 (5)	.30
	没有一个	89 (14.4)	17 (10.8)
	当前本科	83 (13.4)	15 (9.5)
	本科	144 (23.4)	40 (25.3)
	研究生	117 (19.0)	38 (24.1)
	文凭，学徒，手艺	92 (14.9)	22日(13.9)
	证书	91 (14.8)	26日(16.5)
就业				2.6 (6)	.86
	全职	235 (38.1)	65 (41.1)
	兼职	175 (28.4)	42 (26.6)
	残疾、产假、病假	44 (7.1)	10 (6.3)
	家庭职责/看护	43 (7.0)	8 (5.1)
	退休	19日(3.1)	7 (4.4)
	失业	63 (10.2)	17 (10.8)
	其他(如志愿者、学生)	37 (6.0)	9 (5.7)
目前正在接受心理健康援助		290 (47.1)	87 (55.1)	3.4 (1)	06
目前认知行为治疗途径		88 (14.3)	33 (20.9)	6.0 (1)	. 01

诊断有效性

e-PASS针对的21种疾病中，只有10种有足够的基础发病率来保证有意义的分类统计。其中，诊断准确性的测量表明，表现不一(表2)．Kappa值提示e-PASS临床诊断为广泛性焦虑障碍(GAD;κ=.37)和强迫症(OCD;κ=.39)与临床访谈结果基本一致。其余疾病表现为中度(神经性贪食症:κ=.47)至重度(恐慌症:κ=.62)的一致性。敏感性范围从0.43(酒精依赖)到0.86 (MDD)，其中一半的疾病低于0.70的可接受值。考虑到置信区间，敏感性估计值从低至0.16(强迫症，酒精依赖)到最高0.94 (MDD)不等。相反，特异性在0.68 (GAD)和1.00(酒精依赖)之间变化，大多数值大于0.90。即使在考虑置信区间后，估计的特异性值通常仍大于0.70。

ppv主要在0.45(创伤后应激障碍;创伤后应激障碍)和1.00(酒精依赖)。大多数疾病的npv始终较高，最小值为0.80(社交恐惧症)，其余等于或大于0.90。从这些预测值来看，根据疾病的不同，e-PASS临床诊断反映阳性临床诊断的可能性较低至中等，而一般情况下，e-PASS阴性诊断的准确性要高得多。

进一步分析检验了e-PASS临床或亚临床诊断与临床访谈临床诊断的关联程度。同样，由于基础比率有限，只有10种疾病被考虑表3总结产生的分类统计信息。当考虑亚临床和临床e-PASS结果作为阳性诊断时，敏感性范围从0.67 (BDD)到0.98 (MDD)， 5种疾病等于或超过0.90。特异性一般较低，在0.38 (MDD)和0.89(神经性贪食症)之间变化，只有5种疾病被认为超过0.70是可以接受的。e-PASS亚临床/临床诊断的Kappa值仍然显著(P<.001)，范围从0.18(创伤后应激障碍)到0.47(恐慌症，社交恐惧症)，大多数被认为是公平的(即，.20-.40)，诊断与临床访谈临床诊断一致。

ppv通常小于仅根据e-PASS临床诊断进行分类时所见的ppv。只有恐慌症和社交恐惧症的ppv维持在中等水平，分别为0.48和0.58。由于e-PASS阳性诊断结果的阈值较低(即亚临床而非临床诊断)，所有疾病的npv相应增加，大多数大于0.95。这表明，没有相关临床疾病的个体不太可能接受该疾病的亚临床或临床e-PASS阳性诊断。

表2。e-PASS临床诊断与临床访谈临床诊断的分类统计(n=158)。

定单诊断		临床访谈，n		κ^一个	敏感度(95% CI)	特异性(95% CI)	PPV (95% ci)	净现值(95% ci)
		是的	没有
恐慌症				.62	0.71 (0.55 - -0.84)	0.91 (0.85 - -0.95)	0.69 (0.53 - -0.82)	0.92 (0.86 - -0.95)
	是的	25	11
	没有	10	112
迦得				.37点	0.78 (0.62 - -0.88)	0.68 (0.59 - -0.76)	0.45 (0.34 - -0.57)	0.90 (0.82 - -0.95)
	是的	31	38
	没有	9	80
社交恐惧症				点	0.60 (0.47 - -0.71)	0.90 (0.84 - -0.96)	0.77 (0.63 - -0.87)	0.80 (0.72 - -0.86)
	是的	34	10
	没有	23	91
创伤后应激障碍				点	0.75 (0.47 - -0.91)	0.92 (0.87 - -0.96)	0.45 (0.26 - -0.66)	0.98 (0.94 - -0.99)
	是的	9	11
	没有	3.	135
强迫症				点	0.36 (0.16 - -0.61)	0.97 (0.93 - -0.99)	0.56 (0.27 - -0.81)	0.94 (0.89 - -0.97)
	是的	5	4
	没有	9	140
MDD				算下来	0.86 (0.73 - -0.94)	0.79 (0.71 - -0.85)	0.61 (0.46 - -0.76)	0.94 (0.87 - -0.97)
	是的	38	24
	没有	6	90
失眠				53	0.78 (0.62 - -0.88)	0.82 (0.74 - -0.88)	0.56 (0.42 - -0.69)	0.93 (0.86 - -0.96)
	是的	28	22
	没有	8	One hundred.
BDD				.51	0.67 (0.39 - -0.86)	0.94 (0.89 - -0.97)	0.47 (0.26 - -0.69)	0.97 (0.94 - -1.00)
	是的	8	9
	没有	4	137
暴食症				票价	0.50 (0.24 - -0.76)	0.97 (0.92 - -0.99)	0.50 (0.24 - -0.76)	0.97 (0.93 - -0.99)
	是的	5	5
	没有	5	143
酒精依赖				.59	0.43 (0.16 - -0.75)	1.00 (0.98 - -1.00)	1.00 (0.44 - -1.00)	0.97 (0.94 - -0.99)
	是的	3.	0
	没有	4	151

^一个所有的kappa价值观P<措施。

表3。e-PASS亚临床或临床诊断与临床访谈临床诊断的分类统计(n=158)。

定单诊断		临床访谈，n		κ^一个	敏感度(95% CI)	特异性(95% CI)	PPV (95% ci)	净现值(95% ci)
		是的	没有
恐慌症				票价	0.89 (0.74 - -0.95)	0.72 (0.64 - -0.79)	0.48 (0.36 - -0.60)	0.96 (0.89 - -0.98)
	是的	31	34
	没有	4	89
迦得				. 21	0.92 (0.88 - -0.97)	0.40 (0.31 - -0.49)	0.34 (0.26 - -0.44)	0.94 (0.84 - -0.98)
	是的	37	71
	没有	3.	47
社交恐惧症				票价	0.86 (0.75 - -0.93)	0.65 (0.56 - -0.74)	0.58 (0.48 - -0.68)	0.89 (0.80 - -0.94)
	是的	49	35
	没有	8	66
创伤后应激障碍				只要	0.92 (0.65 - -0.99)	0.62 (0.54 - -0.70)	0.17 (0.01 - -0.27)	0.99 (0.94 - -1.00)
	是的	11	55
	没有	1	91
强迫症				.33	0.79 (0.52 - -0.92)	0.81 (0.73 - -0.86)	0.28 (0.17 - -0.44)	0.97 (0.93 - -0.99)
	是的	11	28
	没有	3.	116
MDD				。	0.98 (0.88 - -1.00)	0.38 (0.29 - -0.47)	0.38 (0.29 - -0.37)	0.98 (0.88 - -1.00)
	是的	43	71
	没有	1	43
失眠				23)	0.97 (0.86 - -1.00)	0.42 (0.33 - -0.51)	0.33 (0.25 - -0.42)	0.98 (0.90 - -1.00)
	是的	35	71
	没有	1	51
BDD				.35点	0.67 (0.39 - -0.86)	0.88 (0.81 - -0.92)	0.31 (0.17 - -0.50)	0.97 (0.92 - -0.99)
	是的	8	18
	没有	4	128
暴食症				。45	0.90 (0.60 - -0.98)	0.89 (0.82 - -0.93)	0.35 (0.19 - -0.54)	0.99 (0.96 - -1.00)
	是的	9	17
	没有	1	131
酒精依赖				点	0.86 (0.49 - -0.97)	0.83 (0.77 - -0.89)	0.19 (0.09 - -0.36)	0.99 (0.96 - -1.00)
	是的	6	25
	没有	1	126

^一个所有的kappa价值观P<措施。

两次试验法的可靠性

在重复e-PASS的60名参与者中，39人在初始完成后25天内完成了e-PASS(平均值7.98，标准差6.63)，并被纳入可靠性分析。参与者在第一次和第二次给药时分别获得了平均5.05 (SD 2.83)和4.70 (SD 2.65)的亚临床或临床诊断，差异不显著(t₃₈= 1.56,P= 13)。

表4显示初次完成和再次测试之间e-PASS临床诊断的交叉表，以及McNemar检验的显著性水平、百分比一致性和kappa一致性系数。由于样本量小，采用数据的精确二项概率来计算McNemar检验[30.］．这并不显著(P>.05)，表明从非临床诊断到临床诊断的变化可能性相似，反之亦然。然而，这也可能是McNemar检验不足的结果，因为样本量只有n=39。

所有的kappa值都是显著的，反映了测试和复测之间普遍具有很强的诊断一致性。神经性贪食症和恐慌症的Kappa特别高，每一种都有超过90%的一致性。虽然kappa值仍然被认为是中等到相当大，但失眠、重度抑郁症和特定恐惧症的一致性较低。对不一致病例的检查发现，大多数涉及从亚临床/临床(分别)到临床/亚临床(分别)结果的变化。例如，5个不一致的特定恐惧症病例中，有4个包括从临床诊断到亚临床诊断的变化，而其余病例既不是亚临床诊断，也不是临床诊断到特定恐惧症的临床诊断的变化。

表4。e-PASS临床诊断的可信度(n=39)。

测试		重新测试,		协议,%	P^一个	κ^b
		是的	没有
恐慌症				94.9	50	点
	是的	6	2
	没有	0	31
社交恐惧症				87.1	50	点
	是的	10	2
	没有	3.	24
迦得				84.6	口径。	正
	是的	11	5
	没有	1	22
特定的恐惧症				87.2	口径。	54
	是的	4	4
	没有	1	30.
创伤后应激障碍				89.8	点	收
	是的	4	3.
	没有	1	31
MDD				78.5	收	.57
	是的	11	5
	没有	3.	20.
暴食症				97.4	>。	.87点
	是的	10	1
	没有	1	27
BDD				84.6	口径。	.60
	是的	7	5
	没有	1	26
失眠				77.0	>。	53
	是的	12	4
	没有	5	18

^一个McNemar检验法检验P值。

^b所有kappa值均为P<措施。

e-PASS是一个免费的、国际上可用的、针对多种精神障碍的在线诊断评估(和转诊)项目。与任何诊断工具一样，特别是易于获得并可独立使用的诊断工具一样，需要确保e-PASS是有效和可靠的。因此，本研究评估了e-PASS的心理测量特性，重点是其诊断标准效度和重测信度。为了提高研究结果的生态有效性，参与者被在线招募，并代表未来的e-PASS用户在一般自然条件下完成项目。

e-PASS被发现与半结构化临床访谈(即金标准)的诊断有混合的一致性，从一般(如强迫症)到大量(如恐慌症)的一致性。与之前评估的程序相比，e-PASS的诊断敏感性通常超过了一些(例如，互联网管理的CIDI-Short Form [12])，而不是其他程序(例如WB-DAT [9]， WSQ [10])。相比之下，e-PASS的特异性通常较高，导致假阳性结果远低于某些程序(例如，WSQ [10])。预测统计表明，e-PASS阳性结果准确反映实际疾病的概率至少为45%，而大多数疾病的e-PASS阴性结果在90%以上的病例中是正确的。后者表明e-PASS的一般优势在于它能够排除疾病，这可能有助于减少与假阳性临床诊断相关的负担(例如，病耻感、不必要的随访评估和治疗)。

在先前报道的程序中，e-PASS最接近WB-DAT [9］．当考虑到相互障碍时，e-PASS产生了与WB-DAT相似的心理测量，除了在强迫症和创伤后应激障碍的情况下，e-PASS的临床结果明显不那么敏感。值得注意的是，WB-DAT的心理测量结果[9]是基于从面对面临床人群中招募的样本，与本研究中看到的相比，这些人群的诊断基础率普遍较低。此外，e-PASS比WB-DAT和大多数其他程序评估更广泛的疾病。据作者所知，这是第一个报道了在线项目的心理测量性能的研究，该项目可以识别BDD和神经性贪食症。

尽管e-PASS筛查对某些疾病(如恐慌症、重度抑郁症)特别好，但考虑到低敏感性和诊断与临床访谈的一致性，它似乎对其他疾病(如强迫症)缺乏筛查。各种因素可能有助于解释这些混合分类统计数据(例如，一些e-PASS项目的措辞不准确或某些疾病的诊断标准不可靠)。鉴于e-PASS的特异性经常超过敏感性值，一个可能的解释是e-PASS的诊断阈值对于特定疾病来说太高了。为了支持这一观点，额外的分析发现，当考虑将e-PASS“亚临床”或“临床”结果作为实际临床疾病的预测时，某些疾病的敏感性值持续改善并超过90%(同时保持合理的特异性)。这表明，大多数实际的临床疾病病例至少得到了亚临床的e-PASS诊断，如果不是临床严重的话，这在通知e-PASS用户潜在的心理健康问题方面提供了一些保证。此外，e-PASS的设计目的是使亚临床结果也可以提示访问相关的在线治疗方案或进一步评估的建议(例如，与卫生专业人员面对面咨询)以进行随访。

然而，本研究的结果表明，从最大程度上提高e-PASS筛查特性的一种方法是降低诊断阈值(例如，将亚临床结果确定为临床疾病)。然而，这反过来会增加假阳性结果，降低特异性。诊断阈值应降低的程度将取决于对各自敏感性和特异性的影响，使用受试者工作特征(ROC)分析确定(D Nguyen，未发表的博士论文，维多利亚:斯威本大学，2013年)。进一步考虑的是准确/不准确结果的更广泛影响(例如，潜在的诊断负担，包括财务成本、耻辱和获得无效治疗)，这进一步有助于e-PASS的整体效用。

e-PASS还证明了在平均约1周，最多25天内识别临床疾病(特别是恐慌症和神经性贪食症)的强大测试重测可靠性。与ISP-D在线MDD筛选器相比[11]， e-PASS在识别MDD方面产生了相当的一致性。这项研究的结果首次记录了其他报告的疾病(如焦虑症、失眠、神经性贪食症)的在线诊断评估程序的测试-再测试可靠性。一般而言，e-PASS的测试-再测试可靠性测量与计算机辅助的CIDI管理相当[31]和临床医生给予的MINI [32］．

在本研究中，少数e-PASS病例与重测差异同样可能反映从临床到非临床的诊断变化，而非临床到临床的诊断变化。然而，这一结果可能源于统计检验不足，因为样本量小于预期。经过仔细检查，测试-重测差异通常是微妙的，往往涉及从临床到亚临床结果的变化(反之亦然)。考虑到某些疾病(如MDD)的不稳定性，这可能反映了在初始完成后长达25天的重新测试期间的实际症状变化。不幸的是，可靠性样本太小，无法将分析限制在较短的测试-重测间隔(如1周)。总体而言，e-PASS的结果在短期内似乎总体稳定，这表明在线体验的潜在可变性不会对测试-重测的可靠性构成重大风险。

在解释目前的发现时，应考虑到几个局限性。首先，临床访谈记录不足，以分析评分者之间的信度。此外，e-PASS和临床访谈的给药顺序并不平衡，特别是参与者对e-PASS结果的看法可能会对随后的访谈反应产生偏见。在某些病例中，e-PASS与临床访谈完成之间的时间(平均约10天)以及e-PASS测试与重测之间的时间(平均约8天)可能导致了实际症状的改变。因此，报告的效度和信度统计可以是保守估计。此外，重复e-PASS的参与者数量有限，这提示需要用更大的样本进行进一步的可靠性测试，同时也可能表明e-PASS对一些用户的可接受性较低。事实上，另一项研究(D Nguyen，未发表的博士论文，维多利亚:斯威本大学，2013年)表明，由于某些因素(例如，长度、感觉重复、缺乏即时帮助和支持)，一些e-PASS用户被阻止进一步使用。

参加者招募以准e-PASS使用者为目标，以提高调查结果的生态效度。虽然本研究没有报道，但在2009年10月至2012年10月期间完成e-PASS的大约13000人的社会人口特征(如性别、就业和婚姻状况、教育水平)与本研究样本基本相似。然而，基于本研究样本的结果在多大程度上可以推广到所有e-PASS用户，需要对参与者特征及其与心理测量特性的潜在关系进行更详细的分析。例如，某些个体特征(如教育水平)可能更有利于e-PASS诊断的效度或信度。

随着第五版(33]，有必要根据新的标准修订e-PASS，并重新评估其心理测量特性。对于大多数障碍模块(如重度抑郁症)，程序更改将是很小的，尽管有些模块将需要实质性的更改(如创伤后应激障碍)。有趣的是，表现最好的e-PASS诊断(如重度抑郁症和恐慌症)也是那些标准变化相对较小的DSM-IV-TR来第五版．e-PASS针对21种疾病，但其中许多疾病(如神经性厌食症、病理性赌博、物质障碍)由于样本中的诊断基础率非常低而没有被检查。因此，进一步的评估可以涉及特定人群，以澄清这些障碍的e-PASS心理测量特性。额外的心理测量评估也可以考虑诸如个别e-PASS项目的内部可靠性等属性，尽管这将需要更大的样本量以及对e-PASS表单的修改(例如，删除分支规则)，以提供适合的数据集进行分析。

新的在线诊断筛查方法提出了是否取代、调整或补充基于互联网的程序，如e-PASS的问题。例如，有可能将视听内容(例如，[34])，以提高易读性和可接受性。鉴于其混合诊断性能，基于互联网的筛查也可以通过视频会议进行临床医生访谈(例如，[35，36])或网上聊天(例如，[37，38])。在线评估也可与基于移动的应用程序相辅相成，通过问卷来测量即时症状[39]或被调查者的视听线索(如言语和肢体语言)[40］．

与诊断筛选器相比，使用侧重于维度测量的在线临床量表可能被证明在精神健康障碍评估中具有更大的效用[41］．这类程序已经超越了标准的纸笔式互联网管理，而且正变得越来越复杂。例如，Batterham等人[42]提出了一个分级系统，从简单的在线预筛选(如K6)开始，然后管理相关的特定疾病量表。基于项目反应理论的计算机自适应测试也显示出在有效筛查潜在精神障碍特征方面的前景(例如，[43，44])。

同时，鉴于诊断在临床实践中的实用性[1]，提供基于互联网的问卷，提供诊断结果并直接查询诊断标准，类似于金标准结构化临床访谈时间表的方法，仍有争议的价值[5］．正如这项研究所表明的，基于互联网的诊断评估程序可以产生具有高测试重测信度的诊断结果，至少对于某些疾病，具有高标准效度。尽管存在潜在的心理测量局限性，但这些项目可以与其他不完善的评估手段(如非结构化访谈)一起纳入传统的临床实践，以拓宽评估信息，提高整体诊断准确性[3.，5］．对于许多不能或不愿意接受传统服务的消费者来说，基于互联网的项目可以为识别精神健康障碍提供“足够好的”替代方案。

总之，这项研究表明，e-PASS有可能协助精神健康障碍的诊断，并在这样做的同时，促进获得适当的干预措施，以及识别精神障碍的其他好处。然而，还需要进一步的开发和评估，以明确其临床应用的全部范围。

致谢

我们要感谢澳大利亚政府卫生部为e-PASS和更广泛的焦虑在线服务的开发和维护提供资金。资助者在本研究或报告中没有其他参与。我们也感谢所有参与e-PASS开发和本研究临床访谈的人员。

利益冲突

没有宣布。

第一个MB.精神障碍诊断与统计手册(DSM)修订中的临床应用。职业心理学:研究与实践2010;41(6):465-473。(CrossRef］
装束HN。临床判断和决策。临床精神病学2005;1:67-89。(CrossRef] [Medline］
好的诊断需要好的诊断医生:收集和整合数据。中华医学杂志2001年1月8日;1(1):48-49。(Medline］
Brugha TS, Bebbington PE, Jenkins R.一个重要的差异:在一般人群中结构化和半结构化精神病学诊断访谈的比较。精神医学1999年9月29日(5):1013-1020。(Medline］
阿博拉雅，杨永杰，李鹏飞。精神病学诊断的有效性再认识:提高精神病学诊断有效性的临床指南。精神病学(Edgmont) 2005九月;2(9):48-55 [免费全文] [Medline］
网络心理测试的前景与局限性。人类服务技术杂志2002年3月19日(2-3):65-89。(CrossRef］
李志强，李志强，李志强。定义互联网支持的治疗干预。Ann Behav Med 2009 Aug;38(1):4-17。(CrossRef] [Medline］
网络空间暴露作为增强心理评估的手段。英国剑桥:剑桥大学出版社;2008:129 - 162。
Farvolden P, McBride C, Bagby RM, Ravitz P.一种基于网络的初级保健抑郁症和焦虑症筛查仪器。中国医学杂志，2003;5(3):e23 [免费全文] [CrossRef] [Medline］
Donker T, van SA, Marks I, Cuijpers P.一份简单的基于网络的常见精神障碍筛查问卷:发展和验证。J Med Internet Res 2009 july;11(3):e19 [免费全文] [CrossRef] [Medline］
林超，白勇，刘超，肖敏，陈杰，蔡松，等。基于网络的工具可以可靠地用于检测重度抑郁障碍和亚综合征抑郁症状的患者。BMC精神病学2007;7:12 [免费全文] [CrossRef] [Medline］
Carlbring P, Forslin P, Ljungstrand P, Willebrand M, Strandlund C, Ekselius L，等。互联网管理的CIDI-SF是否等同于临床医生管理的SCID访谈?认知行为疗法2002 Jan;31(4):183-189。(CrossRef］
布坎南，史密斯，JL。利用互联网进行心理学研究:在万维网上进行性格测试。中华精神病学杂志1999年2月;90 (Pt 1):125-144。(Medline］
Klein B, Meyer D, Austin DW, Kyrios M. Anxiety online -一个虚拟诊所:完成五个完全自动化的焦虑障碍和症状治疗项目后的初步结果。中国医学杂志，2011;13(4):e89。(CrossRef] [Medline］
心理健康在线。URL:https://www.mentalhealthonline.org.au/[访问2015-09-16][WebCite缓存］
美国精神病协会。精神障碍诊断与统计手册(第四版，文本修订)。华盛顿特区:美国精神病学协会;2000:0890420254。
电话和面对面访谈在评估创伤后应激障碍患者中的可比性。《精神病学实践》2004年9月10日(5):307-313。(Medline］
Kobak KA, Williams JB, Jeglic E, Salvucci D, Sharp IR。面对面和远程管理蒙哥马利-阿斯伯格抑郁评定量表使用视频会议和电话。抑郁焦虑2008;25(11):913-919。(CrossRef] [Medline］
Rohde P, Lewinsohn PM, Seeley JR.电话和面对面访谈在评估I轴和II轴障碍中的可比性。美国精神病学杂志1997年11月;154(11):1593-1598。(Medline］
张晓东，张晓东，张晓东，等。小型国际神经精神病学访谈(MINI):为DSM-IV和ICD-10开发和验证结构化诊断性精神病学访谈。临床精神病学杂志1998;59(20):22-33。(Medline］
Brown TA, Di Nardo PA, Lehman CL, Campbell LA。DSM-IV焦虑和情绪障碍的可靠性:情绪障碍分类的意义。中华精神病学杂志2001;29(1):59 - 59。(Medline］
Hilsenroth M, Segal D, Hersen M.心理评估综合手册:人格评估。新泽西州霍博肯:John Wiley & Sons;2004.
巴斯蒂恩，Vallières A，莫林CM。失眠严重程度指数作为失眠研究结果测量的有效性。睡眠医学2001七月;2(4):297-307。(Medline］
临床试验:敏感性和特异性。麻醉、重症监护和疼痛继续教育2008年11月12日;8(6):221-223。(CrossRef］
李国强，李国强。二项比例的区间估计。统计科学2001;16(2):101-133。(CrossRef］
名义比额表的一致系数。教育心理学报，1960;20(1):37-46。(CrossRef］
诊断试验:使用和滥用诊断和筛选试验。中国人力资源管理杂志，2003;29(3):344 - 344。(CrossRef] [Medline］
兰迪丝，柯氏。分类数据中观察者一致性的测量。生物识别技术1977;33(1):159 - 174。(Medline］
A.使用SPSS发现统计数据。伦敦:Sage Publications;2009.
参数和非参数统计程序手册。佛罗里达州博卡拉顿:Chapman & Hall;2000.
witchen H, Lachner G, Wunderlich U, Pfister H.对DSM-IV版慕尼黑综合国际诊断访谈(m - cici)的信度进行了再测试。社会精神病学与精神病学流行病学1998;33(11):568-578。(Medline］
Lecrubier Y, Sheehan D, Weiller E, Amorim P, Bonora I, Harnett Sheehan K，等。迷你国际神经精神病学访谈(Mini)。一个简短的诊断结构访谈:信度和效度根据CIDI。欧洲精神病学1997;12(5):224-231。(CrossRef］
美国精神病协会。精神疾病诊断与统计手册(第五版)。华盛顿特区:美国精神病学协会;2013.
van Ballegooijen W, Riper H, Donker T, Martin Abello K, Marks I, Cuijpers P.广场恐怖症状的单项筛查:基于网络的视听筛查仪器的验证PLoS One 2012;7(7):e38480。(CrossRef］
García-Lizana F, Muñoz-Mayorga I.远程精神病学呢?系统回顾。临床精神病学杂志2010;12(2):PCC。09年m00831 [免费全文] [CrossRef] [Medline］
Hyler SE, Gangure DP, Batchelder ST.远程精神病学能取代面对面的精神病学评估吗?比较研究的回顾和元分析。中国生物医学工程学报2005;10(5):403-413。(Medline］
乔维特·A，皮尔·E，肖·R.心理学在线访谈:对过程的反思。精神病学杂志2011;8(4):354-369。(CrossRef］
malen MJ, Jenkins IM, Vogel DL, Day SX。在线咨询:在同步聊天环境中对过程的初步检查。《心理医学杂志》2011;11(3):220-227。(CrossRef］
维彻斯M，西蒙斯CJ，克雷默I.瞬时评估技术作为帮助抑郁症患者自我帮助的工具。精神病学杂志2011;124(4):262-272。(CrossRef] [Medline］
杨晓东，张晓明，王晓明，杨晓明。基于神经网络的抑郁症时空描述子分类方法。2012年发表于:模式识别国际会议;2012年11月11日至15日;日本筑波。
第一个MB，韦斯顿D.临床实践分类:如何使ICD和DSM更好地为临床医生服务。精神病学2007;19(5):473-481。(CrossRef］
巴特汉姆PJ, Calear AL，桑德兰M，卡拉格N，克里斯滕森H，麦金农AJ。多重精神障碍的分级筛查。《情感失调》杂志，2013;29(1):29- 29。(CrossRef] [Medline］
Walter OB, Becker J, Bjorner JB, Fliege H, Klapp BF, Rose M.“焦虑”计算机自适应测试(Anxiety- cat)的开发和评估。quality Life Res 2007;16:1-55。(CrossRef] [Medline］
Pilkonis PA, Choi SW, Reise SP, Stover AM, Riley WT, Cella D.从患者报告的结果测量信息系统(PROMIS®)中测量情绪困扰的项目库:抑郁，焦虑和愤怒。2011年9月18日(3):263-283 [免费全文] [CrossRef] [Medline］

‎

ADIS-IV:焦虑障碍访谈表iv

BDD:身体畸形障碍

CIDI:综合国际诊断访谈

dsm - iv:精神疾病诊断与统计手册(第四版)

DSM-IV-TR:精神疾病诊断与统计手册(第四版，文本修订)

第五:精神疾病诊断与统计手册(第五版)

定单:电子心理评估筛选系统

迦得:广泛性焦虑障碍

ISP-D:基于互联网的抑郁症自我评估项目

MDD:重度抑郁症

MINI-Plus:迷你国际神经精神病学访谈

净现值:负预测值

强迫症:强迫症

PPV:阳性预测值

创伤后应激障碍:创伤后应激障碍

SCID-IV:DSM-IV的结构化临床访谈

WB-DAT:基于网络的抑郁焦虑测试

WSQ:网页筛选问卷

G·艾森巴赫(G Eysenbach)编辑;提交02.01.15;P Batterham, J Clarke的同行评议;对作者26.03.15的评论;订正版本收到21.05.15;接受08.07.15;发表21.09.15

©David Phong Nguyen, Britt Klein, Denny Meyer, David William Austin, Jo-Anne M Abbott。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2015年9月21日。

这是一篇开放获取的文章，根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

基于互联网的精神障碍临床评估程序的诊断有效性和可靠性