JMIR人为因素-翻译，跨文化适应，和验证马来版本的系统可用性量表问卷评估移动应用程序

原始论文

¹马来西亚吉兰丹市马来西亚理科大学医学院社区医学系

²马来西亚吉兰丹市，马来西亚理科大学医学科学学院生物统计学和研究方法学单元

通讯作者:

Muhamad Fadhil Mohamad Marzuki, MBBS, MPH

社区医学系

医学院

马来西亚理科大学

Kubang Kerian

吉兰丹州,16150

马来西亚

电话:60 97676621

传真:60 7676654

电子邮件:fadhilmarzuki@gmail.com

背景:移动应用程序是为目标用户在移动设备上使用而设计的编程系统。系统的可用性不仅指产品在多大程度上可以被用来完成设计的任务，还包括其有效性和效率，以及用户的满意度。系统可用性量表是用于评估系统可用性的最常用的问卷之一。系统可用性量表最初的10项版本是用英语开发的，因此需要改编成当地语言，以评估用其他语言开发的移动应用程序的可用性。

摘要目的:这项研究的目的是翻译和验证(跨文化适应)英语系统可用性量表问卷为马来语，马来西亚的主要语言。翻译版本的开发将允许以马来语评估移动应用程序的可用性。

方法:问卷的正向和反向翻译由以英语为第二语言的马来语为母语的小组进行。最终的版本是经过和解和跨文化改编而成的。移动应用程序的马来系统可用性量表问卷的内容由10位移动应用程序开发专家验证。通过对10名手机用户进行面部效度测试，对54名手机用户进行信度测试，进一步探讨问卷的有效性。

结果:内容效度指数确定为0.91，说明用于评估移动应用程序可用性的10个项目的相关性较好。通过计算面部效度指数，得到的值为0.94，说明该问卷易于被用户理解。可靠性测试显示Cronbach alpha值为0.85 (95% CI 0.79-0.91)，这表明翻译后的系统可用性量表问卷是评估移动应用程序可用性的可靠工具。

结论:马来系统可用性量表问卷是评估马来西亚移动应用程序可用性的有效和可靠的工具。

JMIR Hum Factors 2018;5(2):e10308

doi: 10.2196/10308

关键字

可用性；系统可用性量表；马来语；问卷翻译；问卷调查验证；手机应用程序

通信技术的进步已经改变了人们搜索和查找信息的方式。这在与健康有关的信息中尤其普遍。因此，医疗服务提供者应更新其健康教育和推广策略，以传播信息，从传统的印刷材料，如小册子和活动图表，到更具互动性和更新的材料，如移动应用程序[1]。手机应用的优势在于，开发后很快就可以通过多个平台广泛使用。有关移动应用程序的可用性在确定其提高健康知识和意识的有效性方面发挥着重要作用。应用程序不仅要用户友好，还应该吸引用户。

可用性被定义为产品能够被特定的用户有效和高效地用于实现特定目标的程度，并在特定的使用环境中提供用户满意度[2]。问卷调查是公认的、可接受的系统可用性评估方法之一[3.]。可用性由系统的5个质量属性组成，用于评估用户界面使用的容易程度[4]，即学习性、效率、记忆性、系统误差和用户满意度。

通常有两种方法来评估产品的可用性，专家评论和可用性测试[5]。许多调查问卷用于评估基于计算机的界面、网站、应用程序或任何与用户交互的软件或硬件的可用性。这些问卷包括“方案实施后调查问卷”、“电脑系统可用性调查问卷”，以及“有用性、满意度和易用性调查问卷”[6]。可用性调查问卷推荐用于评估移动应用程序，从两个简单的测试后问题，到标准问卷，如研究后可用性调查问卷(PSSUQ)或系统可用性量表(SUS) [7，8]。

系统可用性量表(SUS)是评估系统或产品可用性最广泛使用的问卷之一[9]。它是由John Broke在1986年开发的，以满足许多行业对一个简单、快速和具有成本效益的方法来评估系统可用性的需求[10]。它已被用于各种调查，以确定广泛的用户界面的可用性，如基于标准操作系统的软件界面、网页、移动应用程序和网络设备[6]。最初，SUS是为Digital Equipment Co Ltd以英语为母语的客户开发的[9]。自那以后，SUS问卷被翻译成多种语言，包括西班牙语、法语、荷兰语、葡萄牙语、斯洛文尼亚语、波斯语、德语以及最近的印尼语。所有的翻译版本都显示出与英文原版相似的内部可靠性[11]。

据作者所知，没有研究报告SUS问卷翻译成马来语，尽管该问卷在世界各地广泛使用。拥有一份当地语言的SUS问卷至关重要，可以准确地捕捉当地用户对测试产品可用性的想法、感受、感知、行为和态度。不同的文化会以不同的方式解释相似的单词或短语，因此本研究中使用的翻译考虑了问卷的语言学，以及维持问卷有效性所需的跨文化适应[11]。因此，本研究的目的是将英语版本的SUS翻译成马来语并加以验证。

概述

SUS由John Brooke于1986年开发[10)，包括10项问卷调查，李克特量表采用5分制，从0(非常不同意)到5(非常同意)。问卷被安排在积极和消极的陈述之间交替，以避免受访者的习惯性偏见。奇数项(正命题)的分数贡献是刻度位置减去1，偶数项(负命题)的贡献是5减去刻度位置。总分由所有项目得分之和乘以2.5计算得出，范围从0到100。若系统或产品的可用性得分在68分及以上，则认为该系统或产品的可用性良好[10]。

适应的过程

为确保翻译版本的质量及其与原文含义的一致性，原SUS问卷根据国际跨文化适应指南翻译为马来语[12]。首先，正向翻译过程(从英语到马来语)由两名翻译人员进行，并由两名翻译人员制作翻译报告。经过彻底讨论，解决了两份报告之间的任何差距或差异，将两份翻译综合成一份文件。

SUS问卷的原始版本和翻译版本被分发给了两组以英语为第二语言的马来语母语人士。每组由8名翻译人员组成，他们分别收到原始或翻译后的问卷版本，然后分别进行正向或反向翻译。对前后翻译的差异进行调和，并进行跨文化改编，得出最终版本。由于翻译SUS问卷的目的是评估移动应用程序的可用性，所以调查中的“系统”一词已改为“移动应用程序”。马来语的术语是“aplikasi mudah alih”，因此被称为改编后的问卷Skala Kebolehgunaan Aplikasi Mudah Alih(SKAMA)马来语。

验证过程

随后对SKAMA问卷进行了内容效度、表面效度和信度(内部一致性)的验证。内容验证旨在由专家小组评估每个项目与特定领域的相关性和代表性。在这种情况下，它将评估SKAMA中所有10个项目的相关性，以表示可用性领域。

SKAMA问卷的内容验证由10名专家(包括2名移动应用程序开发人员)进行，他们被要求根据SKAMA中翻译项目的相关性给出1(项目不相关)到4(项目非常相关)的分数，以评估移动应用程序的可用性。3和4分被重新归类为1(相关)，1和2分被重新归类为0(不相关)。内容效度指数(CVI)通过计算量表平均值[13]。图1给出验证过程的概述。

面部验证测试，旨在评估翻译条目的清晰度和可理解性，由10个目标用户进行。用户被要求根据SKAMA问卷中翻译项目的清晰度和可理解性给出1(不清楚和不理解的项目)到4(非常清楚和可理解的项目)的分数。3分和4分被重新归类为1分(清楚可理解)，1分和2分被重新归类为0分(不清楚可理解)。面效度指数(FVI)通过计算量表平均值[13]。基于最小样本量估计对49名受访者进行信度测试，以评估内部一致性[14]。他们被要求使用SKAMA评估他们手机上Facebook移动应用程序的可用性。采用R软件进行可靠性分析。对SKAMA问卷进行的所有三个验证测试都是使用在线谷歌表单进行的，其中链接通过个人WhatsApp(用于验证测试)或群组WhatsApp(用于可靠性测试)发送给每个受访者，以方便数据收集。

该研究已获得马来西亚国家医学研究注册中心[NMRR-17-2623-38675 (IIR)]和马来西亚人类研究伦理委员会USM (USM/JEPeM/17110601)的批准。

在统一服务系统问卷的翻译中，“系统”一词已改为马来语的“移动应用程序”，即“Aplikasi mudah alih "因为马来语版本的SUS问卷旨在确定移动应用程序的可用性。CVI (表1)及FVI (表2)的值分别为0.91和0.94。两项测试的CVI和FVI得分均在0.83以上，说明问卷中的所有条目都与该领域相关，清晰明了，目标用户能够理解[13，15]。

可靠性测试使用了53名目标用户(最小估计样本量为49名受访者)，他们通过发送给他们的URL链接对在线问卷进行了回答。受访者的年龄从23岁到60岁不等。大多数目标用户曾为政府工作，并受过高等教育。表3显示了在线问卷调查的目标用户的特征。

表1。内容效度指数，由10位专家对条目的相关性进行打分。

项	E^一个1	E	E3	E4	E5	E6	E7	E8	E9	E 10		I-CVI^b
第一季度	4	4	4	3.	4	4	4	4	3.	4		１．００
第二季	2	3.	4	3.	4	3.	4	4	4	1		0.80
第三季	4	4	2	4	4	4	4	4	4	4		0.90
第四季度	4	4	4	4	3.	4	4	4	4	1		0.90
Q5	3.	4	3.	4	4	4	4	1	4	4		0.90
Q6	4	4	4	4	4	4	4	4	4	4		１．００
迄今为止	4	3.	4	4	3.	4	3.	3.	4	4		１．００
游戏的	4	1	3.	4	3.	3.	4	4	1	3.		0.80
九方	3.	3.	3.	4	3.	4	4	4	4	4		１．００
Q10	4	1	4	4	3.	2	4	3.	4	3.		0.80
内容效度指数平均											0.91

^一个艾凡:专家。

^bi-CVI:项目内容效度指数。

表2。基于10个目标用户对项目的清晰度和可理解性的评分的面部有效性指数。

项	R^一个1	R2	R3	R4	R5	R6	R7	R8	R9机型	R 10		I-FVI^b
第一季度	3.	4	4	4	4	4	4	2	4	4		0.90
第二季	3.	4	4	3.	4	4	4	3.	4	4		１．００
第三季	4	4	4	4	4	4	4	3.	4	4		１．００
第四季度	4	4	4	4	4	4	4	3.	4	4		１．００
Q5	3.	4	3.	4	4	4	4	1	4	4		0.90
Q6	2	3.	4	4	3.	4	4	1	3.	3.		0.80
迄今为止	3.	3.	4	3.	4	4	4	2	3.	4		0.90
游戏的	4	4	4	4	3.	4	4	2	4	4		0.90
九方	3.	4	4	4	4	4	4	3.	4	4		１．００
Q10	3.	3.	4	3.	4	4	4	3.	4	4		１．００
面部效度指数平均											0.94

^一个R:评定等级。

^bI-FVI:项目表面效度指数。

表3。目标用户特征(N=53)。

特征		价值
年龄(年)，平均值(SD)		39.4 (10.46)
最高学历，n (%)
	小学	1 (1.9)
	中学	7 (13.2)
	高等教育	45 (84.9)
职业，n (%)
	政府	38 (71.7)
	私人	6 (11.3)
	养老金领取者	3 (5.7)
	失业	6 (11.3)

表4。项目总数统计的内部一致性。

项	如果项目已删除，则缩放平均值	如果项目被删除，缩放方差	修正项总相关性	Cronbach alpha如果项目已删除
第一季度	35.94	25.478	0.416	.85
第二季	35.70	26.830	0.460	点
第三季	35.38	26.816	0.674	点
第四季度	35.51	27.370	0.459	点
Q5	36.02	24.134	0.651	总共花掉
Q6	36.40	24.205	0.653	总共花掉
迄今为止	35.79	26.475	0.469	点
游戏的	35.79	25.245	０．６３７	点
九方	35.75	22.881	0.793	结果
Q10	36.19	24.887	0.429	.85

SKAMA问卷的Cronbach alpha被确定为0.85 (95% CI 0.79-0.91)，这与原始的英文SUS问卷相似[10]。alpha值越高，表示问卷的内部信度越高，大于0.70的值为满意的内部信度[16]。如果(从问卷中)删除一个项目，问卷的Cronbach alpha也保持一致，没有显著差异(表4)表明所编制的问卷具有良好的内部信度。

系统可用性的概念最早出现在20世纪80年代的人机交互领域，当时第一台个人电脑被开发出来[17]。可用性是一个系统的质量属性，用来评估一个系统界面使用的容易程度。4]。这些属性包括:

系统的可学习性(即，用户如何学习和使用产品以达到预期目标[18])。
系统的效率(即，一旦用户学会了设计，他们可以多快地执行任务)。
系统的可记忆性(即，用户在一段时间不使用系统后重新使用系统时是否容易重新建立熟练度)。
使用系统时出现的错误。
用户使用系统时的满意度。

理想情况下，系统的可用性评估应该在原型开发的每一步都考虑到，这个过程包括原型、设计和验证的迭代周期[19]。已开发系统的可用性可以通过专家评审或可用性测试来评估[5]。专家评审可以使用启发式检查表、认知演练和指南进行。这取决于专家的知识和经验，因此这可能不能反映用户对产品可用性的看法。另一方面，问卷调查是专门开发来探索不能直接测量的结构，如态度和实践，以及系统的可用性。创建一个新的问卷需要团队成员的共同努力，额外的成本，并且是耗时的。因此，建议研究人员采用已有的、适当的、可用的、有有效记录的其他语言问卷。然而，直译并不足以产生同等的问卷。问卷必须有良好的语言翻译，并且必须适应文化差异，以保持内容效度[11]。这被称为问卷的跨文化适应[20.]。另一方面，验证的目的是确保翻译版本的问卷在测量结构时具有与原始版本相同的等效属性。跨文化适应以确保问卷的完整性，因为翻译可能会有问题，特别是当两种语言有不等价的单词时。特别重要的是要考虑到这样一个事实，即不同的文化可能会对问卷中相似的单词或短语有不同的解释，因此问卷中项目的预期含义可能会与原始版本有所改变。

马来语是马来西亚的母语，尽管存在多民族。因此，本研究旨在将SUS问卷翻译成马来语，以供马来西亚使用。马来语版本的SUS SKAMA由该领域的专家(包括移动应用程序开发人员)审查，其目的是使用该翻译来评估移动应用程序。因此，在翻译中，原SUS中的“系统”一词被马来语中的“移动应用程序”所取代。专家们审查了SKAMA关于评估移动应用程序可用性的问卷内容，并考虑到本地用户的考虑。人脸效度测试测试项目的清晰度，从目标用户的角度评估移动应用程序的可用性。与公众用户相比，移动应用程序的开发人员和专家可能对系统可用性有不同的看法，而公众用户是开发新应用程序时的目标用户。这两组不同的审查有助于确保内容的覆盖范围，同时考虑到目标用户对问卷中项目的可理解性。因此，SKAMA的高CVI和FVI表明内容很好地融入了当地语境，并且使用了清晰易懂的句子进行翻译。

问卷的信度体现了问卷的效度，通过回答的一致性来衡量问卷的稳定性。内部一致性是可靠性组成部分之一，用于衡量项目测量同一事物的程度。内部一致性最常见的估计是Cronbach α系数[21]。本研究中较高的Cronbach alpha值说明SKAMA是一个可靠的评估移动应用程序可用性的工具。一致的项目统计表明，所有10个项目都在测量同一个领域，即移动应用程序可用性。因此，SKAMA问卷在Cronbach alpha值与原始SUS问卷相似的情况下具有相同的信度，与印尼版SUS问卷相比略高[9，11]。

总之，SKAMA问卷是一个有效的工具来衡量一个移动应用程序的可用性为马来语人群。SKAMA也可用于评估其他系统的可用性，方法是将“移动应用程序”一词重新表述为“系统”，就像在最初的SUS中一样。

致谢

我们要感谢马来西亚理科大学社区医学系、医学生物统计与研究方法学单元和医学教育系的讲师和研究生，感谢他们在问卷调整过程中提供的指导、专家意见和贡献。

利益冲突

没有宣布。

‎

多媒体附件1

实际问卷Skala Kebolehgunaan Aplikasi Mudah Alih (SKAMA)或移动应用程序可用性量表。

PDF档案(adobepdf档案)，232KB

Bert F, Giacometti M, Gualano MR, Siliquini R.智能手机与健康促进:证据综述。中华医学杂志2014年1月;38(1):9995-9997。(CrossRef] [Medline］
可用性网，1998年1月16日。可用性指南网址:http://www.usabilitynet.org/tools/r_international.htm[访问时间:2018-04-30][WebCite缓存］
Martins A, Rosa A, Queirós A, Silva A, Rocha N.系统可用性量表(SUS)的欧洲葡萄牙语验证。计算机科学进展，2015;
尼尔森诺曼集团2012年1月16日。可用性101:可用性介绍https://www.nngroup.com/articles/usability-101-introduction-to-usability/[访问时间:2018-04-30][WebCite缓存］
郎涛，佐博克。2016年12月7日。可用性测试与专家观点:可用性评估方法的比较https://www.peakusability.com.au/articles/usability-testing-versus-expert-views[访问时间:2018-04-30][WebCite缓存］
刘志强，张志强。系统可用性量表的实证评估。中国生物医学工程学报，2008;24(6):574-594。
Mifsud J. Usabilitygeek, 2016年3月21日。移动应用程序可用性测试:分步指南https://usabilitygeek.com/usability-testing-mobile-applications/[访问时间:2018-04-30][WebCite缓存］
用户界面工程。2006年3月23日。两个简单的测试后问题网址:https://www.uie.com/brainsparks/2006/03/23/two-simple-post-test-questions/[访问时间:2018-04-30][WebCite缓存］
布鲁克J.可用性研究杂志。:可用性研究杂志;2013.SUS:回顾性URL:http://uxpajournal.org/sus-a-retrospective/[访问时间:2018-04-30][WebCite缓存］
Brooke J. susa一个快速而粗略的可用性量表。工业可用性评估1996;189(194):4-7。
Zahra S, Budi S.一个印尼的系统可用性量表(SUS)的改编。: IEEE;2016年发表于:先进计算机科学与信息系统国际会议(ICACSIS);2016;玛琅,印度尼西亚。
Sousa V, Rojjanasrirat W.跨文化卫生保健研究中使用的仪器或量表的翻译、改编和验证:一个清晰和用户友好的指南。临床实践评价杂志2011;17(2)。
波利特DF，贝克CT，欧文SV。CVI是否是一个可接受的内容有效性指标?评估和建议。Res Nurs Health 2007 Aug;30(4):459-467。(CrossRef] [Medline］
Wan Nor Arifin, 2017。样本大小计算器(版本2)网址:http://wnarifin.github.io/[访问时间:2018-04-30][WebCite缓存］
戴维斯L.仪器审查:从专家小组得到最多。应用护理研究1992;5(4):194-197。
戴文，M，布洛克，P，恩斯特，S, Lazzara D，等。用于测试有效性和可靠性的心理测量工具箱。中华儿科杂志2007;39(2):155-164。(CrossRef] [Medline］
范奎克，范德瑞尔，范eijk .产品开发实践中的可用性;一个比较四个市场的探索性案例研究。应用Ergon 2015年3月;47:308-323。(CrossRef] [Medline］
美国卫生与公众服务部。可用性评估基本URL:https://www.usability.gov/what-and-why/usability-evaluation.html(WebCite缓存］
象牙M, Marti A.在自动化的用户界面可用性评估的艺术状态。ACM第一版。测量员ACM计算调查2001年12月;33(4):470-516。
Epstein J, Santo R, Guillemin F.对问卷跨文化适应性指南的综述未能达成共识。中国临床流行病学杂志，2015年4月;68(4):435-441。(CrossRef] [Medline］
社会健康科学研究中问卷效度、信度检验的原则、方法。尼日尔研究生医学杂志2015;22(4):195-201。(Medline］

‎

CVI:内容有效性指数

FVI:人脸有效性指数

SKAMA:Skala Kebolehgunaan Aplikasi Mudah Alih

SUS:系统可用性量表

G·艾森巴赫(G Eysenbach)编辑;提交06.03.18;同行评审:MSB Yusoff, S Mohd Hairon;对作者04.04.18的评论;修订本收到16.04.18;接受19.04.18;发表14.05.18

©Muhamad Fadhil Mohamad Marzuki, Nor Azwany Yaacob, Najib Majdi Yaacob。最初发表于JMIR Human Factors (http://humanfactors.www.mybigtv.com)， 14.05.2018。

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR Human Factors上的原创作品。必须包括完整的书目信息，http://humanfactors.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

移动应用评估系统可用性量表马来语版本的翻译、跨文化适应和验证