这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
减少研究浪费和保护研究参与者免受不必要的伤害应该是研究干预措施的研究人员的首要任务。然而,采用固定样本量的传统方法要求预先确定效应量,从而使试验暴露于招募不足和过度的风险中。一种缓解方法是采用贝叶斯顺序设计,可以在试验期间持续评估现有证据,以决定何时停止招募。定义了目标标准,其中包含了研究人员对被认为是感兴趣的发现的意图,一旦科学问题得到充分解决,试验就会停止。在本教程中,我们将回顾使用固定样本量2129名参与者的数字酒精干预试验。我们表明,如果使用贝叶斯序列设计,试验可能在收集大约300名参与者的数据后结束。这将意味着将更少的人暴露在试验程序中,包括被分配到等待名单的控制条件中,而且试验的证据本可以更早地公开。
大量的努力往往花费在招募和收集数据的参与者在行为干预试验。向参与者提供干预措施往往会产生额外费用,需要在有限的预算中加以考虑。这些努力和成本需要与研究目标相平衡,因为增加参与者数量会降低效果估计的不确定性。因此,在试验的计划过程中,样本大小的考虑受到了认真的关注,其中夹杂着绝望、怀疑,尤其是希望的感觉,这并不奇怪。
错误地相信零假设检验能够在不确定的情况下确定效果[
过多或过少招募参与者既代价高昂,也不道德。
本研究的目的是证明,如果使用贝叶斯序列设计,而不是遵循基于先验幂计算的传统固定样本量,最近完成的数字酒精干预试验将如何发挥作用。我们将证明,参与者被过度招募,导致在已有证据的情况下浪费了成本和努力。
关于贝叶斯统计和顺序设计的文献是大量的[
要理解贝叶斯序列设计,至少需要对贝叶斯统计有一个大致的了解。在贝叶斯范式中,人们感兴趣的是估计
后验概率分布是通过将收集到的数据中的可用信息与所谓的后验概率分布相结合来计算的
为了说明这一点,
戒烟优势比的边际后验分布(延长戒烟时间和戒烟的点流行率)-比较获得数字戒烟干预的研究参与者与等待名单对照组参与者。
先验分布的例子;(A)均值为2,标准差为1的正态分布;(B)均值为0,标准差为1的正态分布;(C)均值为0,标准差为0.1的正态分布。
采用贝叶斯序列设计的试验不是以固定样本量为目标,而是旨在招募足够多的参与者,以便效果估计的后验分布相对于研究目标具有信息量。例如,在一个戒烟干预试验中,我们主要关注的是禁欲的OR,我们可能会决定我们想要证明OR大于1的后验概率至少为89%(或我们发现的任何其他相对于研究上下文足够的概率)。因此,我们收集数据并不断分析,直到我们将不确定性降低到足以证明OR大于1且至少有89%的概率。然而,没有必要只有一个目标;相反,在干预似乎无效且继续试验无效的情况下,至少再定义一个目标通常是合理的。一个例子是,如果OR大于0.9小于1.1(即接近null)的后验概率至少为92%。目标,通常被称为
功效:p (OR > 1 | D) > 89%
无效:p (0.9 < OR < 1.1 | D) > 92%
危害:p (OR < 1 | D) > 89%
请注意,标准的定义应与研究目标、评估的环境以及潜在的益处和危害相关。如果要评估外科手术的效果,也许89%的效果概率应该更接近98%的概率,而伤害的概率可能应该修正到75%。
为了演示与固定样本量相比,如何使用贝叶斯序列设计进行试验,我们重新研究了一项数字酒精干预的随机试验[
该试验于2018年11月6日获得了瑞典Linköping地区伦理委员会的伦理批准(DNR 2018/417-31)。
在本教程中,我们将只简要概述试验程序;试验的完整描述可在研究方案中找到[
数字干预的核心元素是每周日下午向参与者发送一条短信。这条短信包括一个自我监控当前饮酒量的提示,以及一个基于网络的工具的超链接。那些决定点击链接的人被要求报告他们最近的饮酒情况,然后获得个性化的支持。更多关于干预的信息可在研究方案中获得[
被分配到对照组的参与者被告知,他们将收到旨在激励他们更多地考虑减少饮酒量的信息,4个月后,他们将收到通过手机发送的额外支持。对照组的参与者也收到了一条短信,上面有饮酒短期和长期影响的基本健康信息,还包括一个关于酒精信息的网站链接。
该试验的两个主要结果如下:
重度间歇性饮酒(HED)的频率,通过询问参与者在过去一个月里一次喝4杯(女性)、5杯(男性)或更多标准饮料的次数来评估。
每周总饮酒量(TWC),采用短期回忆法,通过询问参与者过去一周的标准饮酒量来测量。
在随机化后2个月和4个月评估结果,通过向参与者发送带有问卷超链接的短信开始。如果对提醒没有回应,参与者就被要求收集回复。
所需的样本量是用蒙特卡罗模拟确定的。模拟的完整描述可在研究协议中获得[
参与者被招募了6个月。在每个周期之间,我们检查是否达到了计划的样本量。在2019年4月25日至2020年11月26日期间,招募停止,我们随机抽取了2129名参与者。这相当于大约19个月的招聘,给广告植入算法一个月的初始宽限期来优化它们的性能。
撇开2129名参与者所需的样本量不谈,如果我们在只收集了15名参与者的数据后就停止试验,我们基于零假设的分析将会是什么样子?100或200个参与者之后呢?在
最大似然估计
如果我们决定不使用固定样本量,而是采用贝叶斯顺序设计,我们就可以放弃幂次计算,而是定义招募应该何时结束的目标标准。这些标准可能是:
疗效:p (IRR < 1 | D) > 97.5%, p (IRR < 0.87 | D) > 50%
徒劳性:p (0.87 < IRR < 1.15 | D) > 97.5%
有效性标准说,如果干预组的饮酒量少于对照组的概率大于97.5%,我们就应该停止招募;它还说,估计的IRR小于0.87的概率应该大于50%。IRR为0.87,与我们的固定样本量功率计算假设相比较,即干预组的酒精消费量比对照组少15%。无效目标标准表示,如果估计的IRR在0.87和1.15之间的可能性超过97.5%,也就是说,在一个被认为太小而考虑到上下文的重要性的效应大小范围内,我们将停止招募。
就像我们在零假设分析中做的一样
在
使用标准正常先验(左)和怀疑先验(右),在受访者的可用数据上绘制关于周总消费量(TWC)的后验概率分布和目标标准。IRR:发病率比。
使用标准正常先验(左)和怀疑先验(右),在受访者的可用数据上绘制关于周总消费量(TWC)的后验概率分布和目标标准。IRR:发病率比。
如果使用贝叶斯顺序设计,数字酒精干预试验可能在招募了约15%的预先指定样本量后停止招募。结果会是招募更少的参与者加入一个控制条件,让他们等待新的支持工具,并降低招募成本;此外,有关干预有效性的证据本可以更早公布。相反,过度招募是由于预期这类公共卫生干预措施的轻微影响,同时也控制了第1和第2类错误的风险。
之所以进行试验,是因为干预措施的效果尚不清楚;因此,试验的设计应该有效地促进发现。这并不是说先验知识在设计贝叶斯序列设计时没有用处;相反,无论是对效果的保守观点,还是来自以往试验的数据,都可以纳入分析过程中使用的先验。先验在这种情况下是理想的,因为当数据稀缺时,先验在分析中占主导地位,可以防止虚假的发现,但随着数据的增多,先验的影响会减弱。
贝叶斯序列设计不依赖于一个先验固定的样本量;然而,规划、伦理批准和拨款申请通常都需要一个。这仍然可以通过使用模拟估计最终样本量来实现[
在使用贝叶斯顺序设计时应该避免的一个警告是,将目标标准视为硬性和快速的规则——使它们成为返回将证据分为有效和无效的捷径。相反,目标标准应该被视为研究人员对被认为是感兴趣的发现的意图。一个人可能达到了试验的一些标准,但没有达到其他标准,但仍然决定结束试验。在累积的结果基础上,当一个科学问题的答案足够清楚,结果可以用于更广泛的背景时,试验应该停止[
在一些试验中,不可能在整个试验期间连续访问后续数据以检查标准,因此不可能采用贝叶斯顺序设计。如果数据是在多个地点收集的,可能是在国际上收集的,那么整理所有数据进行分析是耗时的。然而,应该指出的是,在至少偶尔有可能分析数据的情况下,例如每50-100个参与者的情况下,顺序设计的好处仍然可以使用。不必为每一个可用的新数据点进行分析,而是为更大的参与者集进行分析。
最后,减少研究浪费和保护研究参与者免受不必要的伤害应该是研究干预措施的研究人员的首要任务。为了避免使用固定样本量时出现的招聘不足和过度,是一个重要的缓解措施,贝叶斯顺序设计正是考虑到了这一点。它们在行为干预试验中使用的例子可以在文献中找到[
重度间歇性饮酒
发病率比
优势比
每周消费总额
该项目获得了瑞典酒类零售垄断机构酒精研究委员会的资助(DNR 2019-0056和DNR 2020-0043)。研究的资助者在研究设计、数据收集、数据分析、数据解释或报告的撰写中没有任何作用。
在提案获得批准并签署数据访问协议后,本研究期间生成或分析的未识别数据集将在合理要求下提供给通信作者。
MB拥有一家私人公司(Alexit AB),负责维护和分发以证据为基础的生活方式干预措施,供公众和卫生保健机构使用。Alexit AB在制定干预措施、研究设计、数据分析、数据解释或撰写本报告中没有发挥作用。由Alexit AB开发和维护的服务被用于发送短信和数据收集。