卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JPH

JMIR公共卫生监测

JMIR公共卫生和监视

2369 - 2960

卡塔尔世界杯8强波胆分析

加拿大多伦多

v8i9e37887

36083618

10.2196/37887

原始论文

监测数据的非随机缺失对人口水平摘要的影响:模拟研究

埃塞俄比亚

尤瑟夫

康明斯

凯文

Raimi

Morufu

维斯

保罗撒母耳

女士 1

罗林斯公共卫生学院埃默里大学

克利夫顿东北路1518号

308房间

亚特兰大，佐治亚州，30322-4201

美国 1 404 712 9641 paul.weiss@emory.edu

https://orcid.org/0000-0003-3471-3570

沃勒

兰斯阿林

博士学位 1

https://orcid.org/0000-0001-5002-8886

1 罗林斯公共卫生学院埃默里大学

亚特兰大,乔治亚州

美国

通讯作者:Paul Samuel Weiss paul.weiss@emory.edu

9 2022

9 9 2022

8 9

e37887

10 3. 2022 3. 4 2022 20. 5 2022 5 8 2022

©Paul Samuel Weiss, Lance Allyn Waller。最初发表于JMIR公共卫生与监测(https://publichealth.www.mybigtv.com)， 2022年9月9日。

2022

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息，https://publichealth.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

背景

监测数据是指导政策和人力和资本资源分配的重要公共卫生资源。这些数据通常由基于非随机样本设计的大量信息组成。与真实总体相比，基于此类数据的总体估计可能会受到潜在样本分布的影响。在这项研究中，我们模拟了一个感兴趣的人群，并允许响应率以非随机的方式变化，以说明和衡量这对重要公共卫生政策结果的基于人群的估计的影响。

客观的

本研究的目的是说明非随机缺失对基于人口的调查样本估计的影响。

方法

我们模拟了一组受访者，他们回答了一个关于他们对社区政府人员接种疫苗政策的满意度的调查问题。我们允许总体满意和不满意的应答率不同，并考虑共同努力控制潜在偏差的影响，如抽样权重、样本量膨胀和随机确定缺失的假设检验。我们通过均方误差和抽样可变性来比较这些条件，以描述在这些不同方法下产生的估计偏差。

结果

样本估计呈现明确和可量化的偏差，即使在最有利的响应剖面。在李克特(Likert) 5分制量表上，非随机缺失导致的误差平均与事实相差近1分。通过样本量膨胀和抽样权重来减轻偏差的努力对总体结果的影响可以忽略不计。此外，假设检验偏离随机缺失很少发现非随机缺失在最广泛的响应剖面考虑。

结论

我们的结果表明，假设监测数据在分析过程中随机缺失，可以提供与我们在整个人群中可能看到的结果有很大不同的估计。基于这种可能存在偏见的估计所作出的政策决定，在社区脱离参与和健康差异方面可能是毁灭性的。为了确定边缘群体，有必要采用其他分析方法，以摆脱对风险人群的错误测量的广泛概括，这些群体的总体反应可能与在测量的受访者中观察到的反应有很大不同。

监测估计缺失的数据全民估计卫生政策公共卫生政策估计数据政策决定偏见反应率

简介

2019年新冠肺炎疫情给全球卫生带来诸多挑战。其中许多挑战很容易观察和衡量。在这期间的几个月里，出版了无数关于社交距离和疫苗接种措施及其对感染传播的影响的出版物。即使是现在，流行病学论文也提供了疾病在高危人群和易感人群中的不同影响的最新信息，易感人群的风险可能没有那么高。这些分析大多是快速进行的，利用现有但不完整的数据进行快速评估。一个尚未详细探讨的挑战是，在我们试图衡量与COVID-19各个方面相关的知识、态度和行为时，如果不进行适当调整，对不完整数据的分析可能会产生有偏见的结果，从而导致有害影响。

公共卫生监测数据可用于无创监测社区卫生[ 1］．在某些情况下，这些数据被收集作为一个正在进行的协议的一部分，具有定义的数据元素和质量检查[例如，11]。然而，公共卫生监测系统越来越多地寻求从行政、商业或其他来源获得的更广泛的数据收集中得出结论和理解[例如，8-10]。

公共卫生监测可用于在微观层面解决一系列流行病学问题，深入到社区集群，以确定疾病集中的人员、地点和时间。当分析师试图将分析扩展到宏观层面时，当使用非随机的个人样本试图对数据不能也不能准确代表的总体进行推断时，问题就出现了[ 2- 5］．砖( 6]提出了一些减少无响应偏差的潜在解决方案，但这些解决方案往往侧重于提高响应率以及统计调整方法，以减少发生无响应的数据收集中的偏差。在本文中，我们量化并说明了当我们试图从一个不完全测量的样本推断潜在的全局属性时遇到的问题的范围和大小，其中数据的缺失从随机到非随机不等。在实践中，分析师通常会采用抽样权重[ 6]以控制和减少由于不响应而产生的偏差的潜在影响[ 2］．在本研究中，我们还研究了何时以及是否使用抽样权重在公共卫生监测中实现了这一预期目标，并确定何时以及在考虑来自非随机微观样本的数据以做出宏观决策时，这种策略是否有意义。

许多处理缺失数据的统计方法要求数据随机缺失(MAR)。调查人员转而采用科恩和科恩[ 7]、西蒙诺夫[ 8]，或利特尔和鲁宾[ 9]，对他们的数据应用统计测试，看看他们是否满足这一要求，但这些方法可能无法提供足够的严谨性来识别潜在的缺失机制，特别是如果缺失机制与测试中使用的辅助变量不相关[例如，10]。这些方法基于一个null假设，即数据是MAR，拒绝失败并不能提供null为真的证据。这种方法还关注由于测试中涉及的变量而导致的缺失，并且可能没有强大的统计能力来检测由于其他原因导致的非随机缺失[ 7- 9］．

对监测感兴趣的调查人员所青睐的另一种方法包括通过增加观察结果、扩大合格标准或在现有的大规模问卷上增加其他问题来扩大样本量[例如，8,11]。就公共使用的数据集和监测系统而言，通常有大量的观测数据可供分析。非常大的样本量被认为是丰富的数据源，并提供了“找到一些东西”的绝佳机会。非概率样本的设计是为了使应答者的数量最大化，这可能会为分析人员提供大量的数据，但非随机缺失的影响可能会限制从此类研究中得出的推论的价值。尽管文献中存在大量“垃圾邮件列表”样本和不完善的人口普查的例子，但我们更倾向于关注这种方法的统计影响，而不是在本文中呼吁我们的同事和同行使用这种方法[例如，9,11]。

公共卫生监测的应用往往集中在手头的数据，而不是在存在非随机缺失的情况下分析性能的一般原则。在下面的部分中，我们使用模拟来探索和说明非随机缺失对单个调查项目的影响。当缺失的随机性从半完全到完全不完全变化时，我们的方法允许我们调查和量化平均值估计中的误差。我们还提供了一个例子，说明当数据不是mar时，增加样本量如何影响估计器。最后，我们提出了Cohen和Cohen方法的结果[ 7]对我们的所有结果进行随机缺失评估，以评估这种诊断方法在识别给定公共卫生监测数据集中随机缺失何时可能不安全方面的性能。尽管众所周知，在理论上，非随机缺失会影响统计推断，但我们的例子在一个简单但现实的环境中，以及在一个供读者、学生和研究人员探索和发现的简单工具中，说明了这种影响的性质和程度。

方法概述

我们的方法的更详细的描述可以在多媒体附件1．简单地说，我们提出了一个项目缺失的模拟例子，使用5个级别的李克特量表结果，类似于公共卫生调查中经常收集的各种问题。为了提供一个参考框架，我们将结果视为对以下问题的答案:“您对您所在社区强制为当地政府雇员和公务员接种疫苗的努力有多满意?”，并模拟从1到5的答案，1表示非常不满意，5表示非常满意。该模拟使用离散随机数生成器生成大量(N=100,000)潜在受访者，其中响应模式允许变化。我们展示了一些模拟，在这些数值中，个体的响应概率通常是一致的，有些倾向于更满意，有些倾向于不太满意。

我们通过每个应答者的统一随机值来诱导数据中的缺失。在我们的模拟中，我们比较了数据完全随机缺失(MCAR)和非随机缺失(NMAR)数据的影响，其中缺失不是随机的。我们将机制定义为数据缺失的原因，根据Little和Rubin的研究[ 10］．当机制完全独立于调查时，则数据为MCAR。当机制与缺失直接相关时，则数据为NMAR。在可以识别机制并显示与感兴趣的数据无关的情况下，则数据为mar。在项目缺失数据的情况下，识别缺失机制可能更容易做到，其中某些调查项目的不响应可以使用其他项目的完整性进行分析。在单元不响应的情况下，可能不可能真正确定缺失机制，因为所有关于非响应者的信息都是不可用的。当一种机制被确定后，就有可能使用多变量建模方法对其进行控制。在本研究中，我们模拟了单个调查项目的MCAR和NMAR数据。对于人群中的每个模拟观察，我们也有关于种族和性别的完整数据。这些人口统计项目为Cohen和Cohen的方法提供了辅助变量[ 7］．我们实现了这种方法来研究测试有效检测NMAR机制的能力。

我们的模拟复制了总体的1000个随机样本，并在样本中分配观察值。抽样权重[ 6]的引入，使得缺失的观测可以用完整的观测来表示。

我们用均方误差(MSE)量化缺失和加权的影响[ 11］．MSE总结了估计量与真实值(平均)的距离，并总结了估计性能的两个组成部分:抽样可变性(或抽样误差)和偏差。关于MSE的详细讨论见多媒体附件1．我们的模拟复制了样本并产生了估计量变异性，使我们能够估计抽样方差，作为样本之间估计误差变化的总结。差异的平方根给了我们一个基于模拟的估计估计器的偏差。在四舍五入的情况下导致负的值偏见²时，我们将观测到的偏差赋值为零。在我们的模拟中，偏差描述了我们的样本估计量与真实总体平均满意度的平均距离，以李克特5分制评分。

我们提出了以下三种人群条件的总结结果:

跨类别的统一响应(即无响应比有响应更有可能)。

总体上满意的应答者(即两个满意的应答者比不满意的应答者更有可能)。

一般来说，人群中不满意的受访者(即，两个不满意的回答比满意的回答更有可能)。

在这些条件下，我们为一般满意的受访者提供了恒定的90%的回复率(回答三个或以上的问题)，并允许不满意的受访者在10%到90%之间变化，以探索非随机缺失的影响。我们还比较了两种样本量(800和8000)的结果，以了解这如何影响估计器的行为。选取了800个样本，误差范围约为3.5%，用于估计那些对社区政府雇员和公务员接种疫苗规定满意的人的百分比。8000的样本量是在没有具体统计依据的情况下任意选取的10倍的通货膨胀率。仿真是用SAS 9.4 (Cary, NC)编写的。指多媒体附件2完整的程序。

道德的考虑

在这个模拟实验中没有人类受试者，因此不需要机构审查委员会的批准。

结果统一响应模式

我们使用统一的反应模式来描述一个对政府对疫苗授权的努力没有特别强烈意见的社区。我们的回复率是使用一个假设的惯例来分配的，即通常支持公共卫生实践的人将倾向于对调查做出回应并分享他们的积极意见，而对当前状况不满意的人将会(在一定程度上)减少与陌生人谈论他们的担忧。我们将满意的社区成员的回应率保持在90%，表明他们愿意参与调查。我们考虑不满意组的反应率逐渐变差的情况，以5点李克特量表的点来衡量这种差异反应对抽样可变性、MSE和偏差的影响。我们还在计算加权平均值后报告结果，以试图调整来自该社区的样本的无响应。

第一行图1比较不满意组中不响应率越来越差时估计器的性能。当总体满意的人和总体不满意的人的回复率相似时，我们几乎看不到偏见的证据;随着响应差异差距的扩大，我们可以看到MSE有明显的上升趋势。采样可变性似乎相对不受影响，但偏差的急剧增加表明，尽管我们的估计器具有相当大的精度，但我们的区间不太可能包含整个种群的真实满意度评级。最糟糕的情况是，与人口真实情况相比，估计的政策满意度几乎相差了整整一个刻度点。的第一列表1科恩和科恩的方法[ 7正确地识别出偏离随机失踪。我们看到大约5%的样本表现出人口统计学变量之一与缺失之间的关联，但我们很少看到证据表明使用这种方法的缺失不是随机的，这表明在我们的环境中检测非随机缺失的统计能力较低。此外, 表1还揭示了即使使用传统的调整权重对非随机缺失进行调整，偏差似乎也是相当大的。这表明使用抽样权重并不能消除潜在的问题。

有趣的是，当我们扩大样本量( 表2)．增加样本量似乎并不能减少估计量中的偏差，也似乎对其总体可变性没有影响。膨胀的样本量既没有减少也没有增加估计量的固有偏差，并且对科恩和科恩方法随机检测偏离缺失的能力没有明显影响。因为MSE是方差和的线性组合偏见² ，当样本量增加时，我们没有看到这些量的变化。抽样方差在改善，但与偏差对估计量质量的影响相比，可以忽略不计。缺失的数据导致严重偏向的满意度估计，因此MSE或我们的样本估计与真实均值的平均距离由偏差组件驱动。重复之间的样本均值变化很小，而它们与总体的真实均值相差很大。

图1

均方误差(MSE)，抽样方差，和偏差的样本量和响应模式。

表1

1000个样本中的数量，其中Cohen和Cohen的方法[ 7]基于800个样本量，使用性别和种族来识别非随机失踪。

不满意不回应率	制服,n				一般满足，n				一般不满意，n
	比赛	性	这两个	比赛		性	这两个	比赛		性	这两个
10％	50	43	3.	41		54	0	49		55	3.
20％	46	52	4	52		53	5	59		49	2
30%	62	46	3.	55		55	4	52		57	4
40%	45	48	3.	54		69	3.	57		61	6
50％	42	48	0	52		41	3.	37		47	1
60％	51	37	1	43		40	1	46		59	1
70％	55	42	5	46		59	2	56		52	3.
80％	53	47	1	50		63	4	51		61	2
90％	49	38	3.	70		53	2	57		57	3.

表2

1000个样本中的数量，其中Cohen和Cohen的方法[ 7]基于8000个样本量，使用性别和种族来识别非随机失踪。

不满意不回应率	制服,n				一般满足，n				一般不满意，n
	比赛	性	这两个	比赛		性	这两个	比赛		性	这两个
10％	34	38	1	43		44	1	43		52	2
20％	36	50	2	34		37	3.	32		39	1
30%	35	43	2	39		37	3.	36		43	2
40%	42	40	1	46		43	2	37		52	6
50％	34	49	0	45		58	3.	42		51	1
60％	46	43	4	40		57	3.	50		37	1
70％	38	50	2	53		44	5	48		36	0
80％	42	29	1	51		43	2	49		50	2
90％	29	31	2	60		60	3.	46		51	1

一般满意的反应模式

当模拟的应答者总体满意时，我们观察到数据中的总体缺失较少，即使不满意应答者的不回应率增加。第二行图1显示了在一个有利的响应剖面下估计器的行为。在这个总体中，我们看到偏差大大减少了，因为我们的样本更能代表一个真正更有利的总体。我们看到，由于估计量的基本抽样分布没有改变，因此在响应剖面之间的抽样可变性是可比较的，因此样本之间估计的变化不受影响。然而，由于这些样本估计量更接近真相，我们也看到了MSE和偏差的停滞增长，即使不满意的反应率下降。模拟还表明，增加样本量对两个方向的偏差影响很小。

一般不满意反应模式

第三行图1说明了一种缺失模式，其中很大一部分人口既被剥夺了公民权，又不愿意参与调查。在这种情况下，受访者提出的人口估计与实际情况大不相同。与其他情况一样，样本之间的可变性很小。在总体满意的人群中，这提出了另一种问题，因为不太可能做出回应的受访者在整个人群中所占的比例较小。然而，在普遍不满意的人群中，基于受访者的估计与人群的真实情况相去甚远;由此产生的朴素置信区间没有可靠的覆盖率，但提供了高精度的外观，即使在调整抽样权值之后，也表明了一个大部分令人满意的总体。在普遍不满意的人群中，估计量的偏差变得更快，其中40%-50%的无响应率与其他两个考虑的人群中更高的无响应率导致相同的明显偏差。与前面的情况一样，模拟结果表明，增加样本量似乎并没有在这一效应中产生显著差异，Cohen和Cohen的方法并不能可靠地检测出缺失偏离随机性。

讨论主要研究结果

我们的模拟表明，即使在分析一个相当简单的调查样本时，非随机缺失数据也会对基于人口的估计产生影响。我们的例子表明，随机缺失的基本诊断测试或抽样权重的使用不能自动控制这种偏差，也不是提高估计质量的简单保证或解决办法。

关于遗漏的统计讨论往往侧重于减少调查实施中的不回应[ 6]或修正分析中的数据[ 10］．这些方法可以是优雅的，并且适用于在指定设计下收集的数据。在MCAR缺失下，样本被简单地减少，但不是以产生偏差的方式。然而，在NMAR缺失情况下，“真实”观察样本是设计(已知选择概率)和缺失模式(通常未知观察概率)的组合。

在监测数据中，特别是在公共卫生危机中，需要迅速收集数据，现有调查往往被重新用于其他数据收集，或者分析人员包括设计未知(如果有的话)的方便数据。在这种改变用途的使用中(例如，通过将COVID-19问题添加到正在进行的调查中)，我们很可能会出现新的(未知的)遗漏模式。仅根据设计进行调整(通过基于设计的权重，基于设计的选择概率，但不一定是响应概率)可以使估计适应预期的设计;然而，如上所述，新的失踪原因的重要影响将被忽视。具体来说，我们研究中的例子说明了抽样权重(根据“选择”的概率进行调整)和缺失模式(改变“响应”的概率)之间的不协调是如何导致偏差的。如果缺失发生在低权重的亚群体中(如我们普遍满意的总体例子)，这种影响可以减轻，但如果缺失发生在接受高抽样权重的亚群体中(如我们普遍不满意的总体例子)，这种影响可能会被夸大。除非我们同时知道选择的概率和响应的概率，否则我们无法看到全貌，也无法用传统的重加权方法适当地调整估计。

正如我们简单的例子所示，设计权重的应用不应被视为解决为监测目的而扩展调查设计的挑战的灵丹妙药。仔细看看图1揭示了为什么在实践中应用权重时需要谨慎的证据，特别是在响应概率未知的情况下。在我们的模拟例子中，虽然MSE和偏差随着不满意反应率的降低而呈上升趋势，但抽样变异性保持不变。抽样变异性是产生置信区间和评估假设检验的基本统计量，这是推理方法的两个广泛的统计应用。我们可以看到，由监测数据产生的置信区间可能具有由样本量计算确定的所需宽度，但偏差(由于非随机缺失)将导致在错误数字周围的精确区间，可能导致非常糟糕的决策、政策及其后果。由于抽样可变性不能像MSE那样完全解释与真实的偏差，在实践中，我们可能永远不会真正知道样本的估计值与真实但未知的总体值之间的距离有多远。如果我们假设缺失完全是随机的，并产生有偏见的估计，我们报告的估计可能(很可能会)导致不正确的决定，潜在的长期公共卫生影响。

一个更大的问题来自于使用监控数据对一个社区做出全球性声明的意图。外推在建模中经常被提及，但很少转化为从非随机样本推断更大总体参数的估计量。我们的模拟器显示，随着人口亚组中的反应率越来越差，样本在代表更大社区方面的有效性会下降，在许多情况下会急剧下降。使用来自观测概率未知的样本的数据，特别是数据可能不是MAR的调查数据，是外推的一个明显例子。最终，未能充分代表边缘人群可能导致政治和社会动荡。基于此类数据的政策决定可能会造成或扩大已经不利于社会正义和卫生公平成果的差距。

我们在研究中展示的模拟表明，当扩展到超出其设计范围时，来自调查样本的估计有可能存在严重偏差，特别是在由于响应概率不平衡而存在差异缺失的情况下。虽然这种偏差的可能性在理论上是已知的，但我们的模拟提供了一个基本但实际的说明，说明了这个问题的潜在严重性。我们注意到，这些模拟代表了问题的简化(但可能并不罕见)说明;偏差的方向和幅度可能会随着缺失与调查的关系变化而发生很大变化。我们认为，在监测环境中，数据缺失的调查很少(如果有的话)在某种程度上是随机的，建议在不考虑潜在的差异缺失的情况下，仅根据抽样计划应用调查权重时要非常谨慎。特别是，我们建议在分析和解释的同时，对潜在偏差进行深思熟虑的总结，特别是那些从多个可用数据源中提取的数据。我们建议，与其使用调查数据向上看社区，不如鼓励分析师考虑向下看观察到的人口。

尽管假设数据是MAR在分析上是有意义的，但这个决定可能会带来相当大的成本。如果我们在错误中随机假设缺失，我们就会得出与事实相去甚远的结论，并可能导致毁灭性的社会后果。如果我们假设这种缺失不是随机的错误，我们就会得出更谨慎的结论，并为更好地识别和理解我们感兴趣的人群中可能得不到充分服务的部分开辟途径。在非随机缺失方面的错误会导致对所有可用信息进行更具社会责任感的分析。

本研究的一个局限性是我们采用了简单的随机抽样来模拟调查经验，其中大多数监测数据集是多阶段聚类设计。我们注意到，更复杂的设计通常可能导致抽样可变性的膨胀，但不会减少差分响应中固有的均方误差或偏差。在我们的例子中，我们也只考虑了三种反应模式，并根据我们自己对更强的满意和不满意倾向的描述任意分配了总体反应。我们的模拟器可供读者使用(参见多媒体附件2)，并很容易重新编程，以适应更复杂的人口反应概况。除了我们的李克特量表例子外，模拟器还可以被修改以测量其他类型的响应类型(例如，连续或二进制)。我们将我们的分析限制在一个基本的调查设计和响应上，因为该设置清楚地说明了我们的观点，并反映了在分析监测数据时非常常见的设置。

结论

监测是公共卫生实践的一个重要组成部分。监测数据使我们能够制定有用的描述性措施，以确定疾病在高危人群中的传播特征。当前的大流行产生了大量数据，其中大部分来自非随机样本或来自调查，其中数据缺失模式可能使原始抽样计划变得模糊，以至于仅靠传统的抽样权重无法对估计值进行适当调整。我们的例子表明，有机会开发新的方法，摆脱经典的设计方法，转向探索数据收集和调整数据完整性模式的方法，让我们更有效地利用信息，为整个人口做出更好的公共卫生决策。

多媒体附件1

方法的完整描述。

多媒体附件2

SAS仿真宏。

缩写

均方误差

3月

随机失踪

MCAR

完全随机失踪

NMAR

不是随机丢失

没有宣布。

Declich

年代

卡特

公共卫生监测:历史起源、方法和评价

牛世界卫生机构 1994 72 2 285 304

8205649

PMC2486528

雷德

白色

低频

伯恩斯

先生

陈

才华横溢的

科恩

萨满

才华横溢的

Kraemer

杯子

霍金斯

简森-巴顿

Scarpino

Astley

厘米

布朗斯坦

美国SARS-CoV-2传播的口罩佩戴和控制:一项横断面研究

《柳叶刀》数字健康 2021 03 3. 3. e148 e157

10.1016 / s2589 - 7500 (20) 30293 - 4

张

朱

年代

姚

李

米

如果

棕褐色

基于两项在线调查的人们佩戴口罩的因素研究:来自中国的横断面证据

国际环境与公共卫生 2021 03 26 18 7 3447

10.3390 / ijerph18073447

33810355

ijerph18073447

PMC8036546

Gazmararian

Weingart

坎贝尔

克罗宁

Ashta

COVID-19大流行对格鲁吉亚两所半农村高中学生心理健康的影响

J学校卫生 2021 05 12 91 5 356 369

10.1111 / josh.13007

33843084

PMC8250377

Basta

不

Sohel

Sulis

沃尔夫森

迈

格里菲思

勒

柯克兰

年代

麦克米伦

汤普森

米

蕾娜

加拿大老龄化纵向研究(里昂证券)研究团队

在23,819名50岁或以上成年人中，与接受COVID-19疫苗意愿相关的因素:对加拿大老龄化纵向研究的分析

Am J流行病 2022 05 20. 191 6 987 998

10.1093 / aje / kwac029

35166332

6528789

PMC8903402

砖

单位无响应和权重调整:一个关键的审查

J关闭状态 2013 29 3. 329 353

10.2478 /乔斯- 2013 - 0026

科恩

西

艾肯

行为科学应用多元回归/相关分析 1983

山坡上,新泽西

劳特利奇

Simonoff

回归诊断用于检测线性回归中的非随机缺失

技术计量学 1988 05 30. 2 205 214

10.1080 / 00401706.1988.10488368

小

RJA

对有缺失值的多元数据的完全随机缺失检验

JASA 1988 12 83 404 1198 1202

10.1080 / 01621459.1988.10478722

小

鲁宾

统计分析与缺失数据，第三版 2019

新泽西州霍博肯,

约翰·威利父子

卡塞拉

伯杰

统计推断

生物识别技术 1993 03 49 1 320

10.2307 / 2532634