这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息,https://publichealth.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。
数据匿名化和数据共享已成为全球个人、组织和国家的热门话题。只要可以保留数据的效用,并且可以将泄露的风险控制在可接受的水平以下,对包含个人敏感信息的匿名数据进行开放访问共享是最有意义的。在这种情况下,研究人员可以不受访问限制地使用数据。
本研究旨在强调共享健康监视事件历史数据的要求和可能的解决方案。挑战在于对多个事件日期和时变变量进行匿名化。
提出了一种将噪声添加到事件日期的顺序方法。这种方法维护事件顺序并保留事件之间的平均时间。此外,提出了一种基于噪声邻居距离的匹配方法来估计风险。对于随时间变化的关键变量,如教育水平或职业,我们提出了两个建议:一个是基于限制个人的中间状态,另一个是在数据子集中实现k-匿名。所提出的方法应用于Karonga健康和人口监测系统(HDSS)核心居住数据集,该数据集包含1995年至2016年底的纵向数据,包括280,381个具有时变社会经济变量和人口信息的事件。
一个匿名版本的事件历史数据,包括个人随时间的纵向信息,具有很高的数据效用。
应用于HDSS数据的由静态变量和时变变量组成的事件历史数据的拟议匿名化导致了可接受的披露风险、保留效用和可作为公共使用数据共享。结果发现,即使在核心事件日期中添加了最高水平的噪音,也能实现很高的效用。细节对于确保一致性或可信度很重要。重要的是,本文提出的序列噪声加法方法不仅保持了原始数据中记录的事件顺序,而且保持了事件之间的时间。我们提出了一种方法,它很好地保留了数据效用,但限制了时变变量的响应类别的数量。此外,使用基于距离的邻居匹配,我们模拟了在吵闹的邻居情况下的攻击,并使用最坏的情况,其中攻击者拥有原始数据的全部信息。我们表明,即使假设攻击者的数据库和信息是最优的,泄露风险也非常低。在低收入和中等收入国家环境中的HDSS和医学科学研究界将是本文提出的结果和方法的主要受益者;然而,这些结果对于任何研究匿名纵向事件历史数据的人来说都是有用的,这些数据具有时变变量,用于共享。
虽然卫生研究数据共享有许多好处和巨大价值[
个人数据披露的一个基本问题是,如果提供了数据或分析结果或做出了预测,攻击者是否可以了解到有关个人的任何信息。一方面,人们可以询问攻击者是否能够成功地将个人与他们所支配的数据匹配起来。此外,攻击者的努力(和相关成本)是否高于披露信息的收益?另一方面,数据用户的需求具有很高的实用性,可以进行高质量的分析。数据提供者希望在不披露数据中个人身份的情况下提供此类信息。
与所有其他卫生研究领域类似,低收入和中等收入国家(LMIC)的纵向人口研究,如卫生和人口监测系统(HDSS) [
HDSS必须采取一种立场,允许研究资助者和期刊出版商所要求的共享[
然而,健康数据隐私这一重要问题在中低收入和中等收入国家中普遍没有得到充分探讨,在高传染性疾病国家中更是如此。hdss目前在大多数情况下共享数据,除了屏蔽直接标识符之外,没有对数据进行匿名化[
请注意,对于某些选定的数据集和一般的匿名化问题,世界银行集团、PARIS21和经济合作与发展组织以及国际家庭调查网络支持了匿名化软件sdcMicro的开发[
纵向数据包括同一参与者在多个时间点观察和测量的不同属性的记录。现有的理论和软件只适用于匿名化和评估横截面数据的披露风险。为了量化和控制纵向数据的披露风险,需要对这一理论进行扩展。
HDSS是在纵向基础上从确定的地理区域内的确定人口中收集人口、健康风险、暴露和结果数据的实地和计算程序的组合[
Karonga HDSS是马拉维流行病学和干预研究单位合作研究项目的一部分[
我们基于此数据匿名化需求分析的通用数据集结构采用核心居住数据格式。该标准数据集广泛应用于HDSS中,用于数据共享和分析[
核心驻地数据的基本形式包括以下变量:个人标识符、出生日期、性别、核心事件和事件日期。此表格包含了计算高密度脊髓炎人群的人口比率和进行事件历史分析所需的分子和人年监测(暴露)的所有数据。
这个基本形式可以扩展到捕捉HDSS总体内的其他观测。这些措施可能包括通过区分监测区内的移徙(内部)和移徙到或从监测区外移徙(外部)来分解移徙事件,以及列入随时间变化的属性,如教育水平、职业和特定疾病状况(如艾滋病毒和结核病)。
为了详细说明匿名化要求,我们区分了可以进入这些HDSS核心驻留数据的三个变量组:
静态变量:对个体的观察不随时间变化的变量,如性别和出生日期。
状态(时变)变量:这些变量是对个体的观察随时间而变化的变量,如职业或教育水平。
核心事件变量:在这些变量中,观察结果是特定于事件的。观测到的事件和事件日期属于这一类。
我们的方法调查了这3组变量的匿名化要求。
该数据集中的变量与iSHARE数据存储库中公开的Karonga HDSS核心居住数据集中的变量有很大的重叠[
该数据集包含从1995年10月到2016年底记录的信息,包括14个变量,280,381行(事件),以及自HDSS成立以来观测到的72,935个个体。
本研究数据集的主要变量如下:
静态变量:性别
状态变量:职业类别不工作,学生,非熟练手工,农民,渔民,熟练手工,非手工,小商贩或企业,非熟练手工,熟练手工,非手工,专业;无类别教育,1至3年小学,4至7年小学,完成小学,完成初级教育证书,完成马拉维学校教育证书,和高等教育
核心事件变量:基线日期、出生日期、迁入、迁出和死亡日期的事件代码
家庭身份证,母亲身份证,父亲身份证,一夫多妻身份证
为了填补这一空白,我们提出了一组匿名化HDSS纵向数据的要求。我们的建议定制并应用了传统的方法,这些方法在保持数据质量尽可能高的前提下工作,同时稍微改变数据,直到披露风险低于固定阈值。本研究的主要贡献如下:
我们定义了纵向事件历史数据特有的匿名化要求。
我们建议采取措施来满足这些要求,包括评估和控制静态变量和时变变量以及核心事件日期的披露风险。
我们实施了建议的步骤并展示了结果。
我们将我们的建议放在数据匿名化方法的大背景下,概述了我们的选择方法与LMIC HDSS背景下的替代方法的对比。
在本节中,我们将概述匿名化HDSS核心驻留数据的方法和过程。
我们通过稍微修改数据,直到披露风险低于某个阈值,从而尽可能保持高数据质量的方法不是单独的,而是更广泛的数据匿名化方法生态系统的一部分。我们简要回顾了这个生态系统,并强调匿名化方法的选择在很大程度上取决于用户组的需求和实现解决方案的成本。在讨论它们对共享HDSS数据的适用性之前,我们简要地概述了4个重要的匿名化概念。它们按数据分析潜力的升序排列如下:隐私保护计算、合成数据、安全实验室和本研究中使用的方法(使用统计披露控制方法的匿名个人级数据[SDC])。使用隐私保护计算,数据保留在数据所有者一方。这可以扩展到具有多个客户端(数据持有者)的安全多方计算。两种常用的隐私保护计算方法是差分隐私[
对于HDSS数据,使用保护隐私的计算意味着首先建立一个框架来计算隐私,对于已知用户(测试数据),基于机器学习预测方法为有意义的信息(例如,迁移日期或人的健康状况)提供一个预测值。很明显,这些方法在为复杂的纵向数据集提供良好的预测方面存在一些困难。保护隐私的计算方法也不是LMIC健康和生存数据的可持续选择,因为成本高,用户需要详细的数据,而不是简单地接收敏感信息的预测或处理汇总数据。合成的、接近现实的数据有可能成为一种可行的方法;然而,来自HDSS的纵向事件历史数据的复杂性使得它难以充分地建模和表示所有关系和逻辑条件。对安全实验室的远程访问提供了处理真实数据的优势,但只能提供对少数可信研究人员的访问,并且需要长期工作人员执行输出检查,以确保服务器上的软件是最新的,服务器和访问是安全的。
基于这些原因,SDC方法是最合适的。SDC的核心概念包括转换数据,以减少数据中所代表的人员的再识别风险。更准确地说,SDC的目标是一方面将风险降低到预定义阈值以下的水平,另一方面保持数据质量、分析潜力和研究问题。这是一项复杂的任务,需要应用和开发复杂的方法,在我们的具体情况下,还需要了解特定的健康人口数据集。
根据资助者的鼓励,降低数据获取的障碍[
在伪匿名化中,一个字符串——一个人的确切姓名或任何其他直接识别特征(例如,社会安全号码)——被一个假名所取代,通常是一个256位的哈希码,由加密哈希函数从一个加盐的字符串[
这里的关键问题是,攻击者可以访问哪些信息,以便与将要发布的数据相匹配,从而识别个人?在识别关键变量(通常也称为准标识符)之前,要检查潜在攻击者可以访问哪些其他现有数据,并使用它们链接到当前数据并识别个人。这被称为(存档)披露场景[
最大的挑战可能是攻击者对正在发布的数据中有关个人的一些信息有额外的了解。这在文献中通常被称为多管闲事的邻居场景[
一般来说,定义这些场景需要使用正在发布的数据的主题专家的输入,这些专家也知道其他常见数据。
传统的人口数据匿名化使用唯一性的概念。通过组合几个变量(类标识符)
为了实现k-匿名性和较低的特殊唯一检测算法分数,第一步通常涉及对类别关键变量进行特定情况的重新编码,使其进入更广泛的类别[
如果分类键变量的数量很大,或者其中许多变量具有许多类别,则数据集中的键的数量很大,并且许多键将是唯一的。在这种情况下,重新编码和局部抑制将显著改变数据,以实现k-匿名。应用后随机化方法[
横断面数据集通常包含单个时间点的观察结果,并且匿名化方法的应用通常很简单(例如,使用tempel等人提出的指南[
在以下段落中,延伸到纵向信息,特别是状态变量(例如,
可以使用许多替代表示来匿名化状态变量,每种表示都有自己的优点和缺点。
如果只报告一个人的初始状态,该变量将不再被视为随时间变化的状态变量,这简化了匿名化。缺点是我们不能再看到进步,例如,一个人的职业和教育水平随着时间的推移。
如果只报告记录中某个人的第一个和最后一个状态,则必须删除两者之间的所有事件,或者用第一个阶段或最后一个状态替换。
另一个非常严格的选择是删除一个人从一年到另一年的联系;也就是说,对于每个人,每年都会提供另一个ID。然而,这使得纵向分析变得困难;因此,数据效用将受到严重影响。
后随机化可能是一种选择,尽管教育和职业水平的顺序和一致性要么丢失了,要么偏向于更高的水平。例如,随着时间的推移降低一个人的教育水平是没有道理的;因此,在PRAM中,在现实交换概率的情况下,受教育程度会随机增加而不会降低。
另一种方法是将传统的匿名化方法应用于数据的模式或子集,其中具有相同事件发生模式的个体被视为要匿名化的子集。例如,2个人在
在决定其中一种或其他替代方法之前,必须考虑披露场景。攻击者将其数据库与提供的匿名数据集合并以匹配和识别个人的可能性有多大?邻居多管闲事的可能性有多大?有多大?
对于存档场景,对攻击者的知识做以下假设:
攻击者只知道一个人最近的教育状态,假设攻击者的数据库或多或少是一个最新的档案,包含用于匹配的人的当前教育水平。这里忽略了攻击者可以获取个人的历史社会人口状况数据。
攻击者只知道最后的职业状态,前提是攻击者的数据库或多或少是一个包含用于匹配的人的当前职业的最新存档。
攻击者知道性别和出生日期等静态变量。
攻击者不知道迁移的原因,但知道出生日期、开始日期和停止日期。
对于一个爱管闲事的邻居场景,我们对攻击者的知识做了以下假设:
随着时间的推移,攻击者知道一个人的教育(不断变化的状态),假设攻击者对少数人的教育和职业水平的历史发展有个人知识。
攻击者知道性别和出生日期等静态变量。
攻击者可能知道某些个体迁入和迁出的原因和相应的事件时间,也可能知道某些个体的出生日期。
随着数据作为开放访问数据集公开,可能会出现吵闹的邻居场景,因此成为关注的焦点。因此,我们使用只报告一个人的第一次和最后一次观察到的状态的方法。这是一种解决方案,在报告一个人的状态变化时,没有他们的中间改善,而局部抑制导致低数量的抑制,因为没有报告所有阶段。
玩具数据集支持对问题的简单解释,以处理状态变量上的时变信息。
人身份证 | (事件) | 占领 | 教育水平 |
1 | 2010 | 2 | 2 |
1 | 2011 | 2 | 2 |
1 | 2012 | 3. | 2 |
1 | 2013 | 3. | 2 |
1 | 2014 | 3. | 2 |
1 | 2015 | 3. | 3. |
1 | 2016 | 4 | 3. |
2 | 2010 | 2 | 2 |
2 | 2015 | 3. | 3. |
2 | 2016 | 3. | 3. |
为了防止(精确的)记录链接和基于最近距离的邻域匹配,我们建议向事件日期添加随机噪声。一个足够明显的选择是随机增加大约100天。这将阻止攻击者成功应用记录链接,并可能阻止基于距离的匹配。
但是,必须注意确保事件的顺序得到维护。例如,如果一个人的出生日期是2009年5月15日,我们假设这个人是2009年6月5日迁出,7月6日迁入,2009年8月1日死亡,那么+40或-40天到+60或-60天的随机噪声将完全打乱事件顺序。
因此,我们需要通过添加或减去足够多的天数来修改事件数据,以便无法识别个人,尽管数据的数据效用和事件顺序被保留。更具体地说,噪声的添加必须在以下约束条件下进行:(1)必须保持事件的顺序;(2)事件之间的时间跨度应尽可能保持相同,自然地通过添加噪声来实现;(3)具有记录链接的攻击不应该成功;(4)每个人参加的活动数量应保持不变。
这导致了一种连续的方法,在一定的限制下,一个事件一个事件地为每个人添加噪声,下面的段落将更详细地解释。当然,主要参数——噪声级别——必须在特定于用例和数据集的基础上确定。
为简单起见,公式1显示了3个事件的情况,其中为事件2的1人添加了噪声。
应该注意的是,扩展到每个人的任意数量的事件都是可能的,而且实现起来很简单,尽管符号变得更加复杂。
与
这确保为t保留事件顺序1t2, t3..除第一种情况外,当事件数据之间的距离小于指定的最小噪声范围时,应用了限制。
另一种噪声加法方法是绘制u ~ N(µ,σ)2),四舍五入到下一个整数值。
一个人的3个事件历史日期和事件之间相应时间跨度的概述示意图。
将方程1扩展到一个人的所有事件是通过对一个人的每个事件连续应用噪声来实现的。首先,存储一个人的所有记录数据,记录这个人的事件数量,以及所有事件之间的距离。对于第一个事件,日期为t1随机地减去或增加噪声;更准确地说,它是没有任何限制地减去,并添加小于到第二个事件的距离。随后,对于记录的所有其他事件,在考虑当时某个事件日期的附加循环中,根据预定义的噪声级别(见
如果3个连续事件彼此非常接近,可能会出现限制。如果各自噪声级的最大噪声大于t2*和t3.和t3.和t4,其过程如下。若事件差值的最小值为min(∆2、1;∆3、2)大于预定义的最小噪声,则取最小噪声=最小噪声,最大噪声=∆2、1和∆3、2,分别为随机抽样。若事件差值最小值为min(∆2、1;∆3、2)小于最小噪声,则从单变量分布中采样
此外,我们想简要地指出,有必要考虑特殊的数据结构。前面已经提到,事件历史日期不能理想地用列表示,因为每个人有不同数量的事件和不同的事件。因此,数据集中每个事件的单独行用于存储某个人的事件代码和日期;也就是说,个体在多行中表示。如果一个人是在观察期间出生的,他或她除了实际出生日期之外,还有一个事件条目。因此,如果在事件日期下没有登记出生日期,因为这个人是在数据收集之前出生的,那么在这个人的所有行中,只有一个数字被随机添加到他的出生日期。如果出生也表示为事件日期信息,则必须对包含该人出生日期的列采取相同的噪声(用于对出生时的事件日期进行噪声);也就是说,出生日期和事件出生日期的信息是联系在一起的,必须充分和一致地考虑。
在
事件数据尤其重要,因为如果攻击者拥有精确的事件数据数据库,则它们是可以用于记录链接的数字信息。但是,攻击者可能只知道出生和死亡年份,然后使用此信息进行匹配。除了事件历史日期之外,还必须考虑随时间变化状态的变量。因此,教育和职业水平的变化仅限于表明第一和最后一种状态(
对于某些研究,例如按教育水平对生育率进行的研究,需要事件日期和教育水平变化的全部历史。这也适用于各种关于个人职业水平随时间变化的研究(例如,回答受过良好教育的人是否会更快地改变职业水平的问题)。在这种情况下,可能需要事件数据的整个历史,并且必须对前面的过程进行调整,例如,如前面概述的那样,对模式进行匿名化。
为每个人的事件日期依次添加随机噪声,如中所述
聚合数据(即,从长到宽表示,其中每一行代表一个人),以便每行包含一个人的静态变量(如性别和出生日期)、最初和最近的教育程度以及最初和最近的职业信息,并构建包含一个人的出生年份、死亡年份和事件数量的新变量。
使用sdcMicro中实现的方法,使用本地抑制执行k-匿名[
分解匿名聚合数据(从宽表示到长表示,其中每一行表示一个事件)。数据集现在只包括匿名的性别信息,以及一个人最早和最新的职业和教育代码。
在横断面数据集中估计披露风险的理论得到了很好的实现,例如,在R包sdcMicro [
通常在匿名化中,对连续信息或分类信息匿名化的方法不同[
事件数据被认为是连续测量,因为在时间尺度上每个人都有多个记录。
由于已经确保了k-匿名性(步骤3),并且使用了总体数据,因此不需要量化分类关键变量的披露风险。
对于连续事件日期,提出了一种基于邻域距离的方法。邻域匹配,正如这里所介绍的,并进一步介绍和应用
首先,应该注意的是,数据集显然不能被分散到事件列中,因为迁移和其他事件代码可能有>1项,并且事件的数量在个体之间是不同的。这使得数据难以匿名化,因为每个人都有不同的事件,并且在不同的时间有不同数量的相同事件。
关键(识别)变量列在
对HDSS核心居住数据集的实验表明,一个额外的识别变量,孩子母亲的ID,父亲和家庭的ID,以及迁入和迁出的原因(原因是结婚、离婚、开始或结束工作或教育等),可能会将可能的匹配扩大到原始可能匹配或个人的大约10%。这项研究没有考虑到一夫多妻的标识。例如,Templ等人描述了处理集群信息(例如,家庭中的人)以进行(扩大的)风险估计的通常方法[
其他社会经济或敏感变量(如健康状况)不包括在开放获取数据集中。
卫生和人口监测系统核心居住数据集的关键(识别)变量。
关键变量 | 种类 |
生理性别 | 静态变量 |
出生年份 | 静态变量 |
死亡年份 | 静态变量 |
确切的活动日期 | 核心事件日期一个 |
教育 | 状态变量 |
占领 | 状态变量 |
每个人的活动数量 | 静态变量 |
一个包含所观察到的核心事件发生的日期(出生、死亡、迁入或迁出)。
根据随机原则,在出生、死亡、迁入和迁出的事件日期上随机加减抽取的天数(式1;
我们考虑了四个级别的噪声。在三种情况下,根据噪声级别,以等概率从以下间隔中为一个人的每个事件(E是一个人的事件数)绘制整数(以天为单位的噪声表示)。此外,考虑了第四种正态分布随机噪声的情况:
噪声等级1:ε最小值= 46;ε马克斯= 62
噪声等级2:ε最小值= 76;ε马克斯= 93
噪声等级3:ε最小值= 106;ε马克斯= 124
噪声4级:u ~ N(µ=0;σ= 50)
如前所述,随机噪声依次添加到出生日期、迁入和迁出日期和死亡日期,以防止记录链接和最近邻匹配,外部数据库包含确切的事件日期和性别、事件数量、出生年份、死亡年份、职业状况和教育水平等信息。
为了防止成功匹配,我们使用R包sdcMicro中实现的启发式方法,通过全局重新编码和局部抑制实现了3-匿名性[
根据出生年份、死亡年份、教育和职业状况首次发生变化的年份建立了新的变量,并与一个人的性别和事件数量一起用作关键变量。教育和职业水平的中间变化下降。然后通过使用sdcMicro中实现的方法进行局部抑制来实现k匿名性[
在事件日期匿名化和状态变量匿名化之后,再次匹配数据,将其转换为原始形状。
为了评估数据集是否被成功匿名化,我们量化了披露风险。它必须只报告事件日期,因为对于分类关键变量,实现了k-匿名,这满足了我们防止成功匹配的需要。
泄露风险是通过使用基于距离的匹配将原始数据集的每个个体与匿名数据的3个最近邻居进行匹配进行替换来计算的。此外,个体将与出生、死亡或迁移的年份与真实匹配年份正负同一年的个体进行匹配,这些个体分别具有相同(最终)教育、相同(最终)职业和相同性别。如果一个人由于局部抑制而缺少其中一个变量的值,那么如果其他变量满足要求,那么这个人仍然被认为是可能匹配的。
如果匹配是正确的,我们就认为攻击是成功的,可以重新识别出一个人。这意味着,如果一个人在距离最近的三个距离内,我们认为它是不安全的。假阳性匹配不被考虑在内。
本文提出的基于邻域的风险度量的计算时间很高,使用并行计算的实现更可取。目前,匿名化在2.60 GHz的单核Intel(R)酷睿i7-6700HQ中央处理单元(CPU)上运行了4个小时,并使用32个CPU (Intel Xeon(R) Gold 5218 CPU, 2.30 GHz)对HDSS核心驻留数据集上的所有4个噪声级别进行了8天的风险评估。
计算成功匹配的个人和相对披露风险(百分比;风险个体数量除以个体数量乘以100)的匿名化Karonga数据集,基于匹配场景的所有4级噪声。
场景 | 出生(配对成功次数) | 死亡(成功匹配的数量) | IMG一个(匹配成功次数) | 我的天啊b(匹配成功次数) | |
|
|||||
|
|
1669 | 177 | 220 | 394 |
|
|
1452 | 154 | 222 | 388 |
|
|
1271 | 151 | 178 | 383 |
|
|
1513 | 619 | 197 | 242 |
|
|||||
|
U (46, 62) | 2.3 | 5.0 | 0.5 | 0.8 |
|
U (76; 93) | 2.0 | 4.3 | 0.5 | 0.8 |
|
U (106; 124) | 1.7 | 4.2 | 0.4 | 0.8 |
|
|
2.1 | 17.3 | 0.4 | 0.5 |
一个IMG:迁入。
bOMG:外迁。
专用于某一特定领域的效用度量应始终优先于一般度量([
2005年和2015年的两个年中人口金字塔如图所示
我们没有明确地进一步展示死亡、迁入和迁出日期的分布图表,因为结果与前面的数字非常相似;也就是说,在分布上没有显著差异。
对于一个人的迁出和迁入之间的天数,在情景4(正态分布噪声)下得到了最差的结果。造成迁入和迁出差异的原因是,人们迁出后返回的时间往往比迁入后离开的时间早得多。正常噪声往往会增加连续事件的天数,如果事件之间的距离很近。
自然,原始数据和匿名数据之间的差异会随着噪声水平的增加而增加,这可以从所提供的所有数据效用的表格和可视化中看到。加入正态噪声(
在性别、事件数、出生年份、死亡年份等教育和职业状态变量的匿名化中,对一些值进行了抑制以达到3-匿名(
对于静态变量和状态变量,最重要的信息之一可能是职业和教育的最后状态。
原始数据集和匿名数据集的出生日期的分布,根据噪声级别1、2、3和4。
根据男性(左柱)和女性(右柱)的噪声水平1、2、3和4,2005年和2015年年中原始和匿名数据的人口和年龄结构的金字塔。
在噪音等级为1至4的情况下,一个人在迁入和随后迁出之间的天数统计摘要。
场景 | 值(最小最大) | 值,平均值(SD) | <100天(%) |
(0, 0)(原始) | (0 - 5909) | 862.05 (714) | 2.2 |
U (46, 62) | (0 - 5805) | 846.67 (716) | 3.4 |
U (76; 93) | (0 - 5832) | 839.25 (717) | 4.4 |
U (106; 124) | (0 - 5906) | 831.30 (720) | 5.5 |
|
(0 - 5859) | 862.58 (716) | 2.9 |
原始数据集的入迁和随后的出迁以及出迁到随后的入迁之间的时间跨度(以log10为单位),对于匿名数据集,按噪声级别1、2、3和4划分。关于向外移徙和向外移徙向内移徙,只分别考虑向内移徙或向外移徙的个人。
使用卡方检验比较匿名数据和原始数据的4维列联表。
统计数据 | U (46, 62) | U (76; 93) | U (106; 124) |
|
检验统计量 | 46.08 | 73.58 | 121.39 | 37.52 |
临界值 | 237.24 | 237.24 | 237.24 | 237.24 |
|
获得 | 获得 | 获得 | 获得 |
每个变量的抑制百分比和每个变量的总抑制数。
抑制 | 性 | 基础教育 | 基本的职业 | 结束教育 | 结束占领 | 事件数量 | 出生年份 | 死亡年份 |
一种(%) | 0.03 | 0.22 | 0.07 | 0.64 | 0.13 | 0.02 | 0 | 0 |
总方案 | 23 | 160 | 53 | 465 | 94 | 13 | 0 | 0 |
原始数据集和匿名数据集中个人最新教育程度和最新职业状况的相对频率。
提供公开数据(公共使用文件)是HDSS数据共享的典型机制,这与出资方的[
匿名化HDSS数据是一项挑战,而且没有易于应用的解决方案。细节是确保一致性或可信度的关键,背景知识是成功实施的关键。本文提出的方法在几个方面都是新颖的。这是第一次采用系统方法来确定LMIC HDSS研究的居住数据或在这些环境中产生的任何其他纵向数据的匿名化要求。以前,HDSS数据的匿名化是在临时的基础上执行的。我们将变量分为静态变量、状态(时变)变量和特定于核心事件的变量,并处理了与这些组中的变量相关的匿名化。
我们实现了一个匿名数据集,具有非常低的披露风险和很高的效用,可以作为公共使用的数据文件共享。
使用基于距离的邻居匹配,我们模拟了在吵闹邻居情况下的攻击,并使用了最坏的情况,其中攻击者拥有原始数据的全部信息。我们表明,即使假设最坏的情况,披露的风险也非常低。
我们明确定义了一个匿名化核心事件日期的过程,作为HDSS事件历史数据匿名化的主要部分。不同级别的噪声添加到事件历史日期评估披露风险和数据效用。研究发现,即使噪音达到最高水平,也能保持较高的效用。与原始数据相比,保留了事件数据的顺序、时间跨度和事件数量等基本属性。从事件历史日期的应用程序和匿名化可以看出,噪声水平和数据效用的损失可能会相互平衡。因此,建议使用中等水平的噪声来保持数据的属性和有用性。此外,保留事件之间的时间间隔对于成功实现这种匿名化方法很重要。如果间隔过小,算法也会自动降低增加的噪声。
此外,我们的工作还探讨了可以在何种程度上使用sdcMicro等方法或工具,以及纵向数据的哪些方面。这些工具的指南侧重于横断面数据,因此不会自然地对每个人的多个记录进行匿名化,而我们使用的Karonga HDSS核心居住数据就是这种情况。在这方面,我们转换了教育水平和职业、死亡年份、出生年份和个人活动次数等时变变量,然后将它们放入sdcMicro R包中。这种转换包括限制个体在时变变量中随时间变化的转换次数。这种策略很好地保留了数据效用,尽管提供的细节少于原始数据。
在中低收入国家环境下的HDSS和医学科学研究界将是本文提出的结果和方法的主要受益者;然而,这些结果对于任何研究匿名纵向数据集的人都是有用的,可能包括时变信息和具有时变变量的事件历史数据,以用于共享。如果添加了更敏感的变量,如医疗条件,也应该检查l-多样性。另外,PRAM [
提出的将状态变量的值范围合并为基线值和最终值的方法对于某些分析可能不是最优的。这是数据匿名化的现实之一;它几乎总是产生比原始数据效用更低的数据。需要进一步研究状态变量的替代处理方法,以确定时变变量中转换的最佳处理方法。
泄露风险是基于3个基于最近邻居距离的匹配来计算的。这种匹配策略已经相当复杂,包括前面描述的一些约束,以及处理缺失值。然而,其他匹配策略是可能的,专门的记录链接软件[
还需要进一步的工作来确定核心事件日期的适当偏移量。为了确定这一点,从参与者那里收集数据来估计需要什么才能充分抵消日期,以便潜在的爱管闲事的邻居即使在很少发生迁入等事件的情况下也无法做出猜测,这可能是很重要的。
当然,并非所有数据集都具有与这里使用的HDSS驻留数据集完全相同的结构。来自HDSS设置的其他纵向数据集,例如从结核病发作或性伙伴发作的观察中产生的数据集,可能包含我们在这里的方法没有完全满足的特征。这些问题需要进一步探讨。
中央处理器
卫生和人口监测系统
研究机构人口信息共享实施网络
低收入和中等收入国家
postrandomization方法
统计资料披露管制
CK和MT的工作得到了瑞士促进机构卫生伙伴关系网络的启动赠款的支持。关于这项资助的访谈和有关该项目的进一步细节可在德文、英文和法文中找到[
马拉维流行病学和干预研究单位(MEIRU)和苏黎世应用科学大学(ZHAW)在这个项目上贡献了CK和MT的一些时间,使他们能够充分探索研究合作和用于匿名化的方法。
作者还感谢研究参与者和iSHARE团队提供了一个共享健康和人口监测系统数据的平台。
没有宣布。