发表在10卷,第8号(2022): 8月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/37756,首次出版
健康保险流通与责任法案安全港条款的二十年:未解决的挑战和前进的道路

健康保险流通与责任法案安全港条款的二十年:未解决的挑战和前进的道路

健康保险流通与责任法案安全港条款的二十年:未解决的挑战和前进的道路

的观点

明尼苏达大学,明尼阿波利斯,明尼苏达州,美国

通讯作者:

Brittany Krzyzanowski博士

明尼苏达大学

第19大道南269号

明尼阿波利斯,明尼苏达州,55455

美国

电话:1 612 625 5000

电子邮件:krzyz016@umn.edu


《健康保险流通与责任法案》(HIPAA)是保护患者数据隐私的一个重要里程碑;然而,HIPAA对地理数据的具体规定仍然含糊不清,阻碍了流行病学家和地理学家使用和共享空间卫生数据的方式。关于空间健康的文献以及精选的法律和官方指导文件向学者们提供了模棱两可的指导方针,导致使用和传播对单一HIPAA安全港条款的多种解释,具体到地理数据。对该标准的误解导致许多实体在过于保守的水平上共享数据,而其他实体提供的安全港定义可能使患者数据处于危险之中。为了促进对安全港规则的理解和遵守,本文回顾了HIPAA法律从其创建到现在,阐明了常见的误解,并为学者提供了直截了当地的指导。我们关注的是2万人的人口门槛和安全港的3位数邮政编码规定,这是围绕如何共享患者位置数据的混乱的核心。综合各种专家观点和相关研究,对这两项规定进行全面审查,揭示了安全港的替代方法如何为研究人员提供更好的数据和更好的数据保护。自引入安全港条款以来的20年里,情况发生了很大变化;然而,它仍然是试图共享地图的研究人员的主要指导(和挫折)来源,让许多人等待这些规则根据时代进行修订。

中国生物医学工程学报;2010;31 (8):563 - 567

doi: 10.2196/37756

关键字



背景

在处理许多类型的研究问题时,通常应该以最能描绘底层数据现实的分辨率共享地图。在绘制卫生和疾病地图方面,这种现实主义往往意味着需要精细的可视化,以帮助提高社区一级公共卫生干预措施的有效性。地理技术提供了创新的方法来创建这些精细详细的地图,并为分析和显示健康数据而对其进行定制。然而,与此同时,在处理敏感数据(如患者健康记录)时,这些数据和工具可能是危险的。特别是,学者们必须小心,不要分享包含太多细节的地图,以免个人身份被识别出来。为了防止患者记录被识别,在美国,《健康保险流通与责任法案》(HIPAA)就在共享受保护的健康信息(PHI)之前去识别的方法提供了指导;然而,HIPAA准则很难适用于空间数据。

HIPAA法律对寻求使用和共享空间数据的研究人员提出了几个挑战。首先,许多研究人员发现的核心要素安全港条款HIPAA(一组定义数据如何共享的条件)的规定含糊不清或难以理解,这反映在研究和政策界对如何达到安全港标准的分歧和不确定性。其次,为了更好地满足安全港标准,采取保守的方式共享地图——最常见的是只发布高度汇总的地图或根本不发布地图——是一种数据丢失的形式,它会带来潜在的严重代价,因为它不允许对许多常见健康问题以合理的解决方案检查当地的健康分布。这两个挑战导致了对如何遵守隐私规则的分歧,事实上,许多学者和政策制定者都对这些规则提出了挑战,他们说,在不损害患者隐私的情况下,共享细粒度的映射健康数据是可能的。

解决安全港条款的双重挑战(模糊性和数据丢失)需要探索过去和现在对如何制定条款的理解,并确定在法律和技术上可能实现更细规模数据的具体方式。本文的以下部分将通过检查HIPAA法律的法律层面(从其创建到当前实践)开始这一探索。本节探讨了促使那些帮助撰写安全港条款的人产生动机的事件和担忧,并特别侧重于回答为什么选择邮政编码和20,000人口阈值作为安全港的锚点。以下部分探讨了双重挑战中的第一个——不确定性——并确定了法律中的一些无意的模糊性如何导致对公共卫生文献中特定地理数据的HIPAA隐私条款的不同解释。我们关注的是这种模糊性是如何在基于3位数和5位数邮政编码的一系列奖学金中导致两种常见但不同的解释,以及这对映射数据意味着什么。下一节将介绍并探讨数据丢失,这是安全港条款的两个挑战中的第二个。本节以前面的部分为基础,探讨是否存在充分性和严格性之间的中间地带,从本质上讲,是否存在在HIPAA下最小化风险的方法,同时允许更有用的地图。本文最后提出了患者数据去识别的新方法,并讨论了前进的方向。

本文提高了我们对HIPAA法律中安全港条款的理解和潜在用途,并将其应用于以地图形式呈现的空间数据。这是对长期以来就这一一般性问题进行的重要对话的第一次全面概述。通过理清法律,回顾其历史和使用,本文提供了寻找安全和更有用的方式共享患者数据映射的途径。此外,它还试图激发更广泛的对话,探讨如何扩大和提高对隐私法规的共同理解,以鼓励研究人员研究替代策略。


概述

为了更好地理解安全港条款及其对研究人员的要求,最好先了解它的起源。从HIPAA的历史和演变的角度来研究它,可以揭示在安全港标准下如何处理地理信息的共享。我们提出了两个相关的问题:(1)为什么邮政编码对安全港规则的定义有如此大的影响,(2)为什么使用20,000人的门槛来定义隐私?回答这些问题澄清了HIPAA安全港的一些关键含糊之处,并提供了洞察为什么在研究领域内部和跨领域有如此多的分歧。以下部分简要概述了HIPAA隐私法,然后深入研究安全港条款的历史,以深入了解两个关键的歧义(邮政编码的使用和人口阈值)。

安全港条款

为了保护患者隐私,HIPAA限制了共享患者数据的方式。患者数据被认为是需要保持安全的PHI,因为它们包括私人医疗信息以及诸如姓名、出生日期、地址和社会保险号等识别信息。地址数据尤其被认为是极其敏感的,因为它们(连同经度和纬度等其他位置数据)可能被用来确定个人的居住地。这种程度的位置特异性大大增加了识别的可能性,如果不能完全保证在单人住宅的情况下识别。出于这个原因,需要根据HIPAA隐私法掩盖患者的位置。

HIPAA规则规定了两个标准,即安全港标准和专家确定,但前者是事实上的标准[1]。专家确定——也称为统计标准——是调查人员掩盖其数据并由第三方专家确定所应用的位置掩盖策略是否提供低识别概率的过程[1]。专家鉴定在很大程度上不常用,因为它含糊不清,需要未指定的文档,此外还给负责证明HIPAA合规性的第三方专家带来了很大的压力。这使得安全港标准成为消除病人资料身分的最常用做法[2]。它的直接吸引力,以及比专家决定更广泛接受的主要原因是,它提供了表面上清晰的指导。安全港标准是本文剩余部分的重点。

从本质上讲,安全港方法通过删除18种标识符来保护患者数据(文本框1)。其中许多元素很容易理解和实现,例如不包括姓名、出生日期和社会保险号。在一个监控时代,其他一些元素也带来了挑战,比如生物识别标记,包括车牌和面部图像。然而,我们的重点是与患者位置相关的安全港的第2部分,这与制图特别相关,并且,毫不奇怪,在将安全港规则应用于制图时混淆的主要来源。安全港规则的位置规定要求在每个聚合地理单元内至少包含至少20,000人的最低人口,并且该规则进一步要求唯一允许的地理(小于州)是邮政编码的形式。

当没有指定邮政编码的类型时,会产生歧义。尽管从文本框1该规定旨在让调查人员依赖于使用3位数的邮政编码(而不是5位数的邮政编码),并不是所有读到这一规定的人都这么认为。造成这种情况的原因有很多,包括网上法律文件和关于公共卫生和疾病制图的文献中对该规则的各种误导性陈述[3.-11]。以下部分探讨邮政编码如何在安全港规则中发挥关键作用。

安全港条款的关键要素。

个人或其亲属、雇主或家庭成员的下列标识将被删除:

  1. 的名字
  2. 所有地理细分小于一个州,包括街道地址、城市、县、区,邮编,及其等效这间公司,除了最初的3位数的邮政编码,如果根据目前公开的人口统计局的数据,结合形成的地理单位所有最初3位数相同的邮政编码包含> 20000人,和最初的3位数的邮政编码等所有地理单元包含≤20000更改为000
  3. 与个人直接相关的日期的所有要素(年份除外),包括出生日期、入院日期、出院日期、死亡日期和年龄在89岁以下的所有年龄,以及指示该年龄的所有日期要素(包括年份),但这些年龄和要素可以汇总为年龄≥90岁的单一类别
  4. 电话号码
  5. 车辆识别码和序列号,包括车牌号码
  6. 传真号
  7. 设备标识符和序列号
  8. 电子邮件地址
  9. Web通用资源定位器(url)
  10. 社会安全号码
  11. IP地址
  12. 医疗记录编号
  13. 生物识别识别,包括指纹和声纹
  14. 健康计划受益人人数
  15. 全脸照片和任何类似的照片
  16. 账号
  17. 任何其他唯一识别号码、特征或代码,但本条第c段允许的除外(第c段见“重新识别”部分)。
  18. 证书和许可证号码
文本框1。安全港条款的关键要素。

为什么是邮政编码?

如果我们将邮政编码从安全港条款中删除,就其解释而言就不会有歧义,因为该规则将只关注20,000人的门槛,以定义任意地理单位是否足够。因此,为什么邮政编码仍然写入法律?要回答这个问题,我们需要从头开始,了解20世纪90年代早期和中期的政治、社会和技术环境是如何形成一些核心原则和指导方针的。邮政编码最初不包括在规则中;然而,由于偶然事件和深思熟虑,这种情况很快发生了变化。以下段落提供了一系列事件的见解,这些事件导致了我们今天所理解的HIPAA安全港条款,从提议的法案开始。

在HIPAA成为法律之前,它是一个法案,具体来说是一个法案3103号决议从1995年到1996年担任第104届国会议员该法案于1996年春天提出,作为克林顿政府医疗改革的初步尝试的一部分。第3103号决议的总体重点是改善获得医疗保健的机会,并解决医疗保险和医疗保健提供中的欺诈、浪费和滥用问题;然而,它也相当简短地提到了对患者数据保护的特殊兴趣(1996年H.R. 3103第1177节)。在一个单独的段落中,该法案在很大程度上解决了错误披露个人可识别健康信息的问题,因为它与保险欺诈和滥用有关:

明知并违反本部分使用或导致使用唯一健康标识符的人;获取与个人有关的可单独识别的健康信息;或向他人透露个人可识别的健康信息,应……被罚款不超过五万元,监禁不超过一年,或两者兼施;如以虚假借口犯案,可被判罚款不超过十万元或监禁不超过五年,或两者兼而有之;如果犯罪的目的是为了商业利益、个人利益或恶意伤害而出售、转让或使用个人可识别的健康信息,则处以不超过25万美元的罚款,不超过10年的监禁,或两者兼施。
(1177节。错误披露可识别个人身份的健康信息]

这项法案是朝着一系列保护措施发展的第一步,最终成为我们今天所知道的HIPAA隐私法。然而,从该法案的最初提议到最终法律和相关指导方针的通过,特别是在对数据隐私和去识别标准的修改方面,发生了很大变化。HIPAA的早期版本对如何定义未确定的健康信息提供了很少的指导。个人健康信息的大规模计算机化才刚刚开始,电子健康记录于1992年首次出现[12]。在九十年代中期,随着互联网和家用电脑的兴起,对数据隐私的威胁引起了美国公众的极大恐惧[13]。尽管存在这些担忧,但当1996年夏季该法案提交国会时,披露可识别的健康信息并未作为国会记录讨论的一部分加以记录[14]。

推出一年后,斯威尼[15在麻省理工学院工作的计算机科学家]购买了一份美国马萨诸塞州剑桥市的选民登记名单,并将其与提供给研究人员的马萨诸塞州团体保险住院数据集进行了"去识别"(即姓名丢失,但保留了出生日期等其他信息)交叉比对。斯威尼(15通过使用出生日期、性别和5位数的邮政编码,她可以将病人的医疗记录与他们在选民登记名单上的名字相匹配。这意味着只要20美元(选民登记名单的费用),斯威尼[15)可以潜在的确定(按名字)一些登记选民和他们的医疗记录,其中包括诊断、程序和药物等敏感信息。有了这些知识,斯威尼[15著名的是,他把自己的医疗记录寄给了马萨诸塞州州长。这一事件引发了人们对患者信息可能被滥用的担忧,并将数据保护置于许多隐私改革对话的最前沿。Sweeney [15]是HIPAA发展的下一个篇章的核心,1999年的建议规则制定通知(NPRM) [1617]。

为了回应Sweeney的研究[15], 1999年国家预防犯罪委员会提出了对未确定的健康信息的严格定义。本文特别感兴趣的是NPRM如何将允许的最小地理单位定义为状态。所有其他地理标识符都将被删除,这意味着街道地址、城市、县以及3位数和5位数的邮政编码都是不允许的。这种州级地理标准对任何对研究健康和疾病的地理差异感兴趣的研究人员,如地理学家和流行病学家来说,限制太大。在这样的规则下,研究人员只能在州一级(通常是在国家一级)发布地图。对于大多数学者来说,这一限制意味着在安全港规则下只能发表统计点估计(如回归输出)。

幸运的是,对于研究人员来说,1999年NPRM对公众意见的呼吁的反馈促使卫生和人类服务部(HHS)允许更多的地理信息作为未识别信息共享。安全港标准的3位数邮政编码规则首次出现在联邦记录中。18]。该规则规定如下:

在安全港,我们明确允许…一些地理位置信息将包含在去标识信息中,但是……邮政编码必须删除或聚合(以大多数三位数邮政编码的形式),以包括至少20,000人。

与1999年的NPRM指南相比,这一安全港标准的严格程度要低得多,但仍意味着能够抵御斯威尼[15],需要5位数的邮政编码。

在HIPAA颁布后的十年里,这个简单的3位数邮政编码规则变得更加复杂。最初的公式似乎很清楚(3位数的邮政编码是预期的聚合级别);然而,随后对HIPAA的修改引入了模糊性。2002年对最终规则的修改删除了关键条款,该条款明确规定,3位数的邮政编码将是邮政编码只有允许的汇总形式(州一级除外)[19]。这导致了关于地理去识别的规定越来越模糊,以及法律的其他模糊方面,许多研究人员发现很难驾驭HIPAA。因此,随着2009年《健康信息技术促进经济和临床健康法》的通过,HHS被要求“发布HIPAA隐私规则中指定的PHI去识别方法指南”。作为回应,美国民权办公室(OCR)于2010年举行了一次研讨会,为PHI的去识别策略提供指导。OCR使用了小组成员的意见,包括Sweeney和Barth-Jones(在本文后面提到),以及研讨会与会者的意见,以开发一个冗长的指导文件[1]。这份全面的文件很有帮助,因为它对安全港规则提供了更详细的描述;然而,不幸的是,它仍然包含与成文法修改中相同的含糊措辞(关于邮政编码)。更糟糕的是,HIPAA去识别标准研讨会的登陆页面(其特色是指向指导文件页面的链接)使用了这个术语这间公司而不是邮政编码(文本框2在引用聚合地理数据时提供完整的措辞,这很容易使读者相信任何单位(不仅仅是邮政编码)都可以用于聚合。这些歧义,以及在整个文献中发现的使用和观点的不一致(在下面的章节中探讨)双重挑战1:模糊性)查阅核心HIPAA文件[119],可能导致了至今仍在蔓延的困惑。

调查人员解释《健康保险流通与责任法案》(HIPAA)安全港规则的地理位置规定的各种方式。

论文、作者和解释

  • 健康数据精细规模聚合中的保密风险(Curtis et al .) [6])
    • “不幸的是,关于汇总数据的发布几乎没有指导方针。研究人员之间经常讨论的一个阈值是,健康数据应该只对基本人口不少于2万人的邮政编码进行可视化。”
  • 重新识别HIPAA安全港数据中的风险:对一项环境健康研究数据的研究(Sweeney等)[1020.])
    • “该条款要求删除明确的标识符(如姓名、地址和其他个人身份信息),以年为单位报告日期,并减少邮政编码的部分或全部数字。”
  • HIPAA私隐规则的去识别标准工作坊(美国民权办公室)[11])
    • “[安全港方法]允许受保护实体考虑数据去识别,如果它删除了18种类型的标识符(例如,居民少于2万人的人口的姓名、日期和地理编码),并且实际上不知道剩余的信息可以单独或与其他信息结合使用来识别个人。”
  • 符合HIPAA法规和研究数据的编制(条款等)[3.])
    • “对于少于20,000条记录的数据集(由代表稀疏人口的人口稠密的地理代码崩溃确定)的临床研究人员来说,实施这些方法可能有些困难。”
  • 从健康的开始到卡特里娜飓风:利用GIS消除围产期健康的差异[柯蒂斯]4])
    • “在巴吞鲁日记录‘70808’而不是‘70806’的错误将涉及社会、经济和种族背景的重大变化。如果数据只能按邮政编码提供,这是一个问题,不幸的是,在发布用于GIS分析的数据方面,这仍然太常见了。”
    • “虽然HIPAA有关于在地形图上显示汇总数据的规定,但这些指导方针通常被认为对有用的制图过于严格(只有超过20,000的邮政编码可以可视化)。”
  • 在出于次要目的披露患者空间信息时保护隐私的线性规划模型(Jung和El Emam [7])
    • “创建去识别数据集的一种流行方法是将预定义的区域(如邮政编码或县)汇总到一个新区域中。”
    • “但是,邮政编码的前三位数字可以包括在内,前提是至少有2万人使用相同的前三位数字。”
  • 为去识别化研究创建黄金标准的挑战(Browne等人)[8])
    • “(隐私规则的指导方针)说,小于一个州的单位应该被修改,尽管巴尔的摩的人口远远超过2万,这是邮政编码的规模限制。为此,华盛顿被视为一个州。”
  • 在临床文本注释中使用HIPAA隐私规则的挑战和见解(Kayaalp等)[9])
    • “隐私规则规定,除邮政编码的前两位数字外,所有小于州的地理分区的信息都必须去识别。根据最新的人口普查数据,只有在被删除的两位数字所在地区的人口规模大于2万人的情况下,邮政编码的第三位数字才能保持完整。”
  • 对隐私的违背承诺:对匿名化意外失败的回应(欧姆[5])
    • “Id。§164.514(b)(2)(b)(对于20,000或20,000以下居民的邮政编码仅允许两位数字)。”
文本框2。调查人员解释《健康保险流通与责任法案》(HIPAA)安全港规则的地理位置规定的各种方式。

为什么是两万人?

邮政编码使用的模糊性部分与定义安全港规则时的2万人门槛有关。允许州以下地理位置,特别是邮政编码的决定,在一定程度上与人口规模在保护隐私方面的作用研究有关。简单地说,通过增加某一地区报告的人数,将该地区的个人与其健康记录成功匹配的机会就会降低。这是因为随着数据集中人数的增加,群体中出现识别特征的独特组合的几率会下降。

卫生与公众服务部是如何确定2万人是合适的人口阈值的?要回答这个问题,我们必须看看拟议的最终规则[18因为在文献或HHS支持和指导网页中几乎没有讨论这一决定。在最后的规定中,卫生与公众服务部指出了一个先例,即人口普查局“只有在人口至少为10万人的情况下才共享地理单位”[20.]。这个标准是保守的,因此,卫生与公众服务部转向其他来源,以便他们能够降低门槛。

具体来说,卫生与公众服务部引用了两项模拟研究,其中一项是由格林伯格和沃谢尔[21]第二个是Horm [22]。这些研究探讨了一组数据中唯一记录的比例如何受到人口规模以及所包含变量的数量和类型变化的影响。例如,在1990年人口普查中,大约7.3%的记录是唯一的,或者是潜在可识别的,因为使用标准的人口普查变量,如年龄、种族、民族、性别、住房或家庭信息,人口阈值为10万人。23]。然而,唯一记录的比例是可用信息的函数。共享更多的变量增加了识别个体的可能性;因此,当更多的变量作为微数据发布时,人口普查局的人口阈值从10万增加到≥25万[20.]。

在某一点上,人口规模的增加不再显著增加数据保护。对于人口普查数据,当只有6个人口统计变量共享时,大约有20,000人的收益递减点[21]。除了人口统计变量的数量,共享变量的类型也很重要。例如,当共享9个变量时,25,000个人口包含25%的唯一记录;然而,当除去职业变量后,这一比例下降到10% [22]。在这种情况下,职业可以特别确定,因为有些职业比其他职业少得多。卫生与公众服务部利用这项奖学金来作出他们的决定[23]:

在评估了当前的实践并认识到在其他去身份化数据库中对某些地理指标的明确需求后,我们得出结论,允许定义超过20,000个人的人口的地理标识符是一种适当的标准,可以平衡隐私利益和去身份化数据的理想用途。在做出这一决定时,我们关注了上面引用的人口普查局的研究,这些研究似乎表明,如果数据库中人口变量相对较少(6),那么人口规模为20,000是一个适当的切断。我们的信念是,在去除满足安全港标准所需的标识符之后,数据库中保留的人口统计变量的数量将相对较少,因此接受相对较低的数量作为最小地理大小是合适的。

此外,由于卫生与公众服务部考虑到2万人的人口规定,最低限度也可能与采用3位数的邮政编码有关。尽管3位数的邮政编码所包含的人口规模差异很大(2020年,从3147到3,310,455人不等),但在首次确定安全港时,只有18个3位数的邮政编码包含<20,000人。目前,全国只有13个3位数的邮政编码,这些编码太小了,需要与邻近地区合并才能达到2万人的最低门槛。24]。幸运的是,由于大多数3位数的邮政编码包含了1万到2万人的人口,遵循3位数邮政编码规则的研究人员通常不需要承担数据聚合的任务。也许HHS希望使用这些3位数的邮政编码可以帮助执行更保守的人口阈值,同时也使指导方针更直接。不幸的是,在许多重要方面并非如此。


概述

从2000年最初的最终规则来看,安全港规则似乎很简单;然而,考虑到这些修改,以及它在当今文献中的表现,它带有一种本质上的模糊性,这导致了研究和政策工作中的巨大差距和分歧。我们首先研究基于这些歧义的规则的不同解释,并从科学文献中举例说明不同的学者如何依赖不同的解释。然后,我们通过提出许多分歧的症结和有效方法的基础可以通过关注3位数和5位数邮政编码的使用来简化讨论。

安全港条款和邮政编码歧义

文献中分歧的主要驱动因素似乎取决于个人研究人员和团队如何解释邮政编码与20,000人门槛的作用。在确定必须从患者数据中删除多少位置数据以满足HIPAA要求时,这通常是最重要的。

误解的可能性源于该条款的一部分——关于地理信息的部分,它对患者位置数据的表述如下:所有小于一个州的地理细分,包括街道地址、市、县、区、邮政编码及其等效的地理编码,根据目前人口普查局的公开数据,邮政编码的前3位数字除外:将所有邮政编码以相同的3位起始数字组合而成的地理单元包含>20,000人,并且将所有包含≤20,000人的地理单元的邮政编码的前3位数字更改为000。

公共卫生和地理领域的专家以及HHS和OCR的指导以不同的方式描述了HIPAA安全港规则,这进一步混淆了对HIPAA安全港规则的理解。一位读者背景和背景的部分2010年去身份化标准研讨会网页,网址为[11可以合理地得出结论,无论邮政编码如何,任何20,000人的聚集都符合安全港规则。相比之下,关注文献中出现的邮政编码规则可能会导致人们得出邮政编码是数据保护的主要工具的结论。这是因为,在许多情况下,作者根本没有指定他们工作中使用的邮政编码类型。不同来源之间的模糊性可能导致大量研究以与2000年HIPAA最终规则不一致的方式汇总(或建议汇总的可能性)[825-27]。文本框2为学者们如何解释安全港条款提供了一些不同的理由。

考虑到快速增长的学术文献利用空间健康数据和各种基于网络的帮助资源对HIPAA条款的解释方式,存在一系列不同的观点并不令人惊讶。对安全港条款的理解因各种资源中出现的相互冲突或模棱两可的短语以及不同学者在处理患者位置数据时似乎遵循不同的做法和程序而变得混乱。这种大量的不同做法,虽然可能引起有趣的讨论,但代价可能是研究成果被不必要地过度掩盖,以保护敏感的健康数据。

两种不同的解释

为了找到对HIPAA安全港规则进行更标准化解释的方法,它有助于描述两种不同的方式来解释特定于位置数据的安全港规定(同时认识到也可能存在不太常见的解释)。本质上,出现了两种不同的、相互竞争的解释:三位数的zip解释和五位数的zip解释。

三位数的邮政编码解释

对于许多健康研究人员来说,安全港条款只有一种解释。这可能是因为隐私规则在设计时考虑了表格数据,而许多医学研究涉及以表格形式处理数据[9]。对于这些调查人员来说,邮政编码主要是一个5位数的数字,可以简化为3位数[5]。例如,分析师收到患者数据的电子表格,并从中构建风险模型。表中的一列将被指定为location属性(即,一列用于邮政编码)。根据该规则,只允许共享邮政编码的前3位数字(除非人口值<20,000,否则数据将被抑制或转换为000)。对于大多数律师、医学研究人员和那些以表格形式使用患者数据的人来说,安全港标准几乎没有歧义。

5位邮政编码解释

对于那些主要将邮政编码数据视为空间数据的人来说,隐私规则会引起一些混淆。虽然邮政编码是一个5位数的数字,但对于地理学家和越来越多使用空间数据的其他学者来说,它也是地图上的一个区域。邮政编码将地区划分为更小的区域,以方便邮政投递。两个3位邮编地区(图1)及五位邮编地区(图2)都在场。5位邮政编码区域嵌套在3位邮政编码区域(图3)。使用空间数据的人可能熟悉这种空间嵌套区域的层次结构,以及它如何导致对条款§164.514(b)(2a)的相互冲突的解释,其中规定如下:

(2a)将所有邮政编码与相同的三个初始数字组合而成的地理单元包含了20,000多人

在这种观点中,有两种方法可以读取“具有相同三位初始数字的邮政编码”,即:(1)使用3位邮政编码(如前一段所述)或(2)使用具有相同三位初始数字的5位邮政编码。

这种明显的歧义源于“所有邮政编码”这个短语。如果我们将“所有邮政编码”解释为“所有五位邮政编码”,那么三位邮政编码规则仍然适用,因为当将所有五位邮政编码组合在一起时,它们将剩下一个三位邮政编码区域(图4)。但是,如果将“所有邮政编码”解释为“聚合中的所有五位邮政编码”,则出现了一种不那么保守的解释,即只要所有使用的五位邮政编码具有相同的三位初始数字,就可以将五位邮政编码组合起来以满足20,000人口阈值(图4)。简单地说,这种解释允许调查人员将5位数的邮政编码聚合在同一个3位数的邮政编码区域内。这些地区的巨大差异在图12展示了这两种相互矛盾的解释的影响。在这里,我们必须注意到,5位数的解释不符合HIPAA标准;本文稍后将讨论其原因。

图1所示。三位数的邮政编码边界。
查看此图
图2。五位数的邮政编码边界。
查看此图
图3。五位数邮政编码嵌套在三位数邮政编码中。
查看此图
图4。(A)所有以“563”开头的5位邮政编码。(B)以“563”开头的5位数邮政编码的集合,包含bbb20 000人。
查看此图

两种解释的驱动因素和影响

比较使用3位和5位邮政编码的研究说明了存在与工作是使用表格数据还是空间数据相关的竞争性解释的潜在原因。在解释3位或5位邮政编码的情况下,表格数据可以以本质上相同的格式出现(仅包含邮政编码的前3位数字)。但是,相同的映射数据将是非常不同。在3位数解释下工作的研究人员将共享3位数邮政编码级别的患者数据地图(图5),如果一个3位数的邮政编码包含<20,000人,它将与相邻的单位合并。这些地图对应的表格数据只包含3位数的邮政编码。然而,在5位数邮政编码解释下工作的调查人员可以共享5位数邮政编码级别的地图;如果5位数的邮政编码包含<20,000人,则它将与具有相同首字母数字的相邻单元合并。这些地图的相应表格数据也只包含邮政编码的前三位数字;但是,由于>1聚合将落在每个3位数邮政编码区域内,因此将有多个具有相同3位数邮政编码的记录。

这些差异并不是假设的,因为文献中有很多相关的例子。请记住,研究人员很少详细描述他们的决策,有大量的工作似乎是在3位数的邮政编码解释下进行的[8101727-30.]。另一个学术领域似乎在5位数的邮政编码解释下运作[42630.],并且有相关的工作似乎表明,聚合任何地理编码的能力都可以达到20,000个阈值[7825]。这些是HIPAA的3位数和5位数邮政编码解释之间存在分歧的许多潜在示例中的一些。

有趣的是,在解释安全港的方式方面,各学科之间似乎存在一些共性和差异。虽然本文并没有试图对前一段引用的研究进行完整的文献回顾,但有趣的是,所有采用3位数邮政编码解释的研究都是由流行病学家、医学研究人员或计算机和信息科学家撰写的,而支持5位数邮政编码解释的论文则是由地理学家撰写的。虽然这只是一个更大文献的样本,但似乎有一种趋势,即以空间为导向的研究人员更有可能接受5位数的解释,或者对20,000人左右的规则有更宽松的理解。这并不奇怪,因为地理研究经常需要一张地图,而3位数的邮政编码并不是直观的地图单位。还有一种情况是,3位数的邮政编码不容易以经常用于研究的公共形状文件或映射文件的形式找到。人口普查[31美国地质调查局也没有提供邮政编码3位数级别的数据。事实上,在撰写本文时,我们只能找到2个以美国3位数邮政编码边界的形式提供数据的来源,并且这两个来源都是专有的(Esri的ArcGIS Online和Caliper的Maptitude)。即使无法访问这些专有资源,也可以自己创建边界。然而,有人会认为,由于3位数的邮政编码是HIPAA法律要求的显示单位,它们应该更容易在网络上获得。相比之下,5位数邮政编码级别的数据很容易在网上找到,并且在公共卫生文献中大量出现。三位数邮政编码地图数据的缺乏在多大程度上造成了对安全港规则的误解,目前尚不清楚;然而,人们不禁想知道,如果3位数的邮政编码地图文件可以在卫生与公众服务部的网站上下载,是否还会存在广泛的混乱。

考虑到研究人员以不一致的方式分享患者数据,既影响健康干预的有效性,又可能侵犯隐私,误解隐私指南的潜在影响是深远的。当研究以3位数的邮政编码级别共享汇总的患者数据时,它们的输出通常对识别健康和疾病的本地分布没有用处,尽管它们提供了更大程度的数据安全。当研究在5位数的邮政编码水平上共享PHI时,它们可以提供更有用的空间健康动态描述,但以较弱的数据隐私为代价。

就这种权衡而言,3位和5位邮政编码在识别风险方面的差异足以引起警报,详见下文[15]。同时,这两种形式的邮政编码在空间分辨率上的差异带来了潜在的问题成本。例如,一项研究表明,不同的疾病模式是如何根据使用3位数还是5位数的邮政编码区域而出现的,并且通过一个示例数据集,作者表明,如果使用3位数的邮政编码区域来确定如何在大流行期间最好地分配N95呼吸器,那么将导致一些社区卫生保健工作者的供应过剩,而其他社区的供应短缺。30.]。

图5。聚合过程可以在(A-C) 3位数邮政编码(D-F)和5位数邮政编码中看到。人口<2万人的邮政编码被排除在外。为了解决压制问题,人口较少的邮政编码与邻近的邮政编码合并,以满足《健康保险流通与责任法案》的要求。使用5位数的邮政编码作为汇总单位是不符合《健康保险流通与责任法案安全港》的。
查看此图

概述

即使在对HIPAA法律及其解释方式有了更清晰的了解之后,还有一个挑战仍然存在,即HIPAA指导方针很可能总体上过于严格,导致不必要的大量数据丢失[3.17]。以下部分将深入了解在遵守HIPAA安全港的3位数邮政编码规则时发生的数据丢失程度,以及其他(不符合HIPAA的)解释如何在不增加隐私风险的情况下减少数据丢失,具体取决于共享数据的类型和数量。

3位数邮政编码和2万人的数据丢失

选择3位数的邮政编码解释是一种保守的选择,对研究和政策有许多负面影响。3位数的邮政编码解释在遵守20,000人规则方面非常谨慎。请记住,截至2020年,包含在3位数邮政编码内的平均人口为397,372人,这几乎是人口普查局发布微数据(人口普查的个人响应数据)所需人口阈值10万人的4倍。在最初的规定30年后,现在只有13个3位数的邮政编码需要压制(因为它们的人口少于2万人)。令人失望的是,人口虽少但可接受的理想单位数量很少;只有12个单元容纳2万到3万人,只有21个单元容纳3万到4万人。超过91%的3位数邮政编码地区包含60万人,或者至少是2万人门槛的3倍。简单地说,我们应该预计,大多数按3位数邮政编码安全港标准共享的地区,其人口将远远超过2万人的门槛(图6)。

在HIPAA安全港条款下,考虑到大多数3位数邮政编码的地理位置包含了1,000,000人,大多数人将拥有非常小比例的唯一记录。然而,有些地方会有一定比例的独特记录,在患者保护方面被认为风险相对较大。在任何情况下,包含“风险更大”的低水平最小人群的少数实例仍然满足最低可接受风险水平(如果我们回顾一下Horm [22],会产生大约10%的唯一记录)。这比1990年人口普查微观数据中估计的7.3%的独特记录略高;然而,卫生与公众服务部指出,实际的风险要低得多,因为可用于比较患者数据的公开表格数量有限。这些风险估计也受到完美人口登记神话的影响,这将在本文后面讨论[17]。最后,卫生与公众服务部建议,相对较低的成功率本身应该是一种威慑。

对这个阈值的一种解释是,如果卫生与公众服务部满意于在20000人的水平上共享一些单位,那么所有单位是否都可以在这个分辨率上共享?毕竟,如果2万人口达到了最低可接受的风险水平,那么是什么阻止调查人员汇总5位数的邮政编码来满足这一要求呢?三位数的邮政编码对于研究目的来说是相当不切实际的;因此,很难找到在这个级别上共享的地图。由于这个原因,很容易看出,如果研究人员没有仔细阅读法律文件,他们是如何相信五位数解释是允许的。

聚合5位数邮政编码以创建尽可能细粒度的单元,同时仍然满足20,000人的阈值,这是诱人的,因为这将使调查人员能够满足最小可接受的风险水平,从而能够共享比3位数邮政编码提供的地理位置更详细和一致的地图。在这种情况下,由于人口规模最小,识别风险会稍微大一些,尽管只要删除其他18个安全港限制标识符,它似乎仍然是一个可接受的风险水平。剩下的问题是18个标识符中有1个不存在完全在此场景中已删除。通过聚合5位数的邮政编码,单个记录比单个3位数的邮政编码包含更多的信息;此外,它现在还包含了一些5位数的邮政编码,可以用来进一步缩小可能的匹配范围。因此,5位数的邮政编码聚合不符合HIPAA安全港标准

图6。根据美国社区调查(American Community Survey)的2020年估计,三位数的邮政编码(100-999)按人口排序从最小到最大。
查看此图

然而,根据保留的其他信息,我们有理由相信,在汇总的5位数邮政编码级别共享剥离年龄和其他人口统计数据的患者数据地图将导致非常低(当然相当低)的识别风险。一项研究表明,“当其他特征在粒度上减少时”,18个标识符列表中的某些元素仍然可以在不损害患者隐私的情况下共享。具体来说,Malin等[28发现更详细的年龄数据(超出安全港允许的范围)可以在他们将其他变量(如种族)的特殊性变得粗糙时共享[28]。作者指出,每个数据集都是不同的,正因为如此,可以使用替代的去识别实践来安全披露通常在安全港方法下被抑制的患者数据。这意味着只要抑制其他标识信息,就有可能以聚合形式安全地共享5位数的邮政编码信息。

总之,现在也许是时候重新考虑一刀切的策略了,也就是安全港策略。当其他患者信息(如出生日期(DoB)和性别)被抑制时,将5位数的邮政编码聚合到包含至少20,000人的地区是否可以实现“足够低”的识别风险,这是合理的。更合理的建议是,如果除了诊断和位置之外没有患者信息被共享,那么聚合5位数的邮政编码是可行的。Curtis等[6[]在一项研究中证实了这一说法,该研究发现,在接受测试时,学生无法识别模拟癌症地图上的个体。即使在总决议人数超过2万人的情况下,重组风险也很小。在这一点上,本文指出了安全港标准的模糊性,同时揭示了卫生与公众服务部做出的一些武断决定,这些决定可能导致了对隐私的过于保守的定义。下一节将深入探讨安全港规则是如何因过于严格而受到批评的,同时,特别是在涉及识别风险时,缺乏足够的保护。

隐私收益是否证明数据丢失的数量是合理的?

为了更深入地研究,我们必须回过头来考虑Sweeney [15]。如前所述,这最初导致决定禁止3位数和5位数的邮政编码来自去识别数据;然而,在听取公众意见后,卫生与公众服务部重新考虑,只要人口不少于2万人,就允许使用3位数的邮政编码。卫生与公众服务部通过引用一些特定的研究来证明他们的限制是合理的,这些研究使他们相信,5位数的邮政编码、性别和出生年龄的组合足以根据独特性识别出大量(超过一半)的美国人口。32]。请注意,要被认为是“唯一的”,一条记录必须包含使其与该表中的所有其他记录不同的特征组合[33]。如果美国人口中独特个体的数量像斯威尼[15据报道,将5位数邮政编码和DoB隐藏在安全港之下的动议似乎相当合理。然而,一些人指出,这3种标识符的组合,即使具有强大的识别能力,也可能不像Sweeney的文章那样具有威胁性[15是这样的。

Barth-Jones [17在他2012年的论文中,他描述了“完美人口登记的神话”,指出有多少调查人员经常忘记解释那些从用于将个人与其医疗记录联系起来的名单中失踪的人。这些缺失的种群增加了计算真实种群唯一性的不确定性[17]。因此,如果列表之外存在潜在匹配,则无法100%确定列表中唯一个体的实际比例。因此,这类研究在陈述时必须谨慎——通常包括“可能独特”或“潜在识别”等短语,因为如果没有整个人群的列表,或者不知道受到识别攻击的个人确实包含在这两个列表中,就不能声称某些识别。

例如,以Sweeney [15], 1999年NPRM引用的一项研究说:“1997年麻省理工学院的一项研究表明,由于马萨诸塞州剑桥市投票名单的公开可用性,剑桥市97%的个人数据出现在一个只包含他们的9位数邮政编码和出生日期的数据库中,他们的身份可以被确定。”“(16根据这一理论,几乎所有的剑桥选民都可以通过年龄和9位邮政编码的组合来识别。斯威尼(15]指出,这一比例的人可以在此基础上“唯一识别”;然而,这些人只有在登记选民中才能被唯一识别,而不是在剑桥的一般人口中(见Barth-Jones的研究[17以获得完整的解释)。这意味着,入侵者要想识别一个人的医疗记录,他们必须知道这个人在两个名单上都存在,而且剑桥没有其他人拥有相同的出生日期和9位数的邮政编码。在破译数据时,入侵者必须考虑到居住在该市的3.5万名未登记的投票年龄人口,他们中的任何一个人都可能是感兴趣的医疗记录的真正对象。未统计的人口给独特记录的识别带来了很大的不确定性(Sweeney [15])。在人口登记不完善的情况下,就像剑桥袭击事件一样,入侵者无法百分百确定地识别出任何人。Barth-Jones [17得出的结论是,州长的身份可能只是基于他是一位在公立医院接受治疗的公众人物这一事实。住院日期以及出生日期、性别和邮政编码都是已知的;此外,很容易假定他是一名登记选民。在这种情况下(具有先验信息),入侵者可以确信唯一匹配。

目前尚不清楚卫生与公众服务部是否充分了解巴斯-琼斯所描述的基于选民名单的身份攻击在方法上的局限性。17]。有可能“……”可以确定"是在没有真正考虑先行条款含义的情况下采取的"…他的数据出现在数据库中。”在我们能够忽略完美人口登记的神话之前,必须满足许多假设。在这个例子中,为了确定97%的个人,我们需要确保选民名单上的54,805个选民中没有一个与居住在他们附近的非选民的出生日期相同。我们可能会想,与整个剑桥人口中可识别的比例相比,97%的人是如何在名单上被识别出来的。这是我们无法确定的,因为我们没有人口登记。然而,考虑到剑桥的总人口约为88000人[17,有很大的出错空间。如果HHS是基于对这些复杂性的有限理解来制定安全港的,这可能会让我们怀疑安全港标准中所描述的保护水平是否过于保守。

然而,即使卫生与公众服务部误解了斯威尼[15虽然她在1997年的论文中使用了“可识别”一词,但我们仍然需要关注这项研究的深入程度。Sweeney的研究[15大胆、有见地,并传达了一个重要的信息:私人信息很容易受到攻击。我们在多大程度上理解漏洞尚不清楚。即使加上失踪人口带来的不确定性,鉴定的风险仍可能被认为太高,其影响将相当严重。让我们回到巴斯-琼斯[17]斯威尼对这次袭击的回顾[15该研究发现,剑桥大学88,000人中有29,000人是可识别的(如果记录是唯一的,并且数据入侵者已经知道该个人在两个名单上),人数略少(但可能不会少得多)。根据数据入侵者的动机,这种情况不大可能发生。将一个特定的人与其医疗记录联系起来要比将一个特定的医疗记录与其所属的人联系起来容易。这是因为一个有动机的攻击者很可能已经先验地收集了这个人的背景信息。数据入侵者很可能已经有了一个目标——他们认识的人——因此,他们很可能已经掌握了目标的投票行为和工作地点的信息,从而允许入侵者确定可用于确认目标在保险住院数据列表中的存在的就业保险范围。此外,即使不确定攻击的目标是否在两个名单上,发生假阳性(将记录与名单上的选民相匹配,而记录实际上属于未登记的选民)的可能性也会被攻击者认为是极不可能的,这可能会鼓励他们继续执行他们的计划,而不管潜在的假阳性。

出生年月、性别和5位邮政编码组合在一起使用时可能会出现问题。仍然存在的问题是,这种标识符的组合是否可以重新设计以降低识别的风险。在关于微数据匿名性的文献中,邮政编码、性别和DoB本身实际上不被视为完整的标识符,而是准标识符,它们可以组合使用以查找唯一实例。术语“标识符”保留用于唯一标识个人的信息,例如社会安全号码[34]。然而,在组合使用时,准标识符可能是危险的;然而,它们有多危险呢?为了更深入地了解这个问题,我们必须更仔细地研究依赖HIPAA安全港方法的识别风险是如何在文献中出现的。

什么程度的数据丢失定义了充分的数据保护?

识别风险的可接受程度是什么?没有一个公认的标准来定义什么是足够比例的唯一记录。一些人建议国家认可的重新识别风险标准由HIPAA的安全港标准本身定义[27但回想一下,安全港标准是在某种程度上武断地推导出来的,它松散地基于人口普查局使用的规则和一些模拟研究。事实上,在确定HIPAA安全港规则的人口要求时,卫生与公众服务部就“最小风险”的定义作出了以下声明:

关于我们如何阐明实现信息被识别的“低概率”的要求,引用的统计政策工作文件22(见参考文献中的18)讨论了几位研究人员试图定义披露风险的数学度量的尝试,但得出的结论是“有必要对定义可计算的风险度量进行更多的研究”。当我们考虑是否可以精确地指定披露风险的最大级别(例如识别的概率或风险<0.01)时,我们得出结论,将数学精度分配给去识别的“艺术”还为时过早。

二十年后,仍然没有定义“足够低的概率”的门槛,调查人员依靠安全港标准作为比较不同级别数据保护的参考点。据称,使用安全港法进行身份识别后,美国人口中约有0.03%或0.04%的记录容易被识别[1735];然而,这一比例根据数据集的地理范围而波动,有些区域的独特记录比例要小得多,而另一些区域的独特记录比例要高得多。具体而言,重新识别的风险在0.01%至0.19%之间[28], 0.01%至0.25% [36], 0.013%至0.22% [37在各州的基础上。

大多数研究估计安全港下的识别风险很低。然而,对于安全港标准是否足以保护患者数据,目前还没有达成共识。换句话说,“充分去标识化”是主观的,有时,非常相似的独特记录比例会引起非常不同的评估。例如,Sweeney断言,美国人口中估计有0.04%的安全港重新识别风险,这不足以保护隐私[1035],而Barth-Jones [17表明风险实际上是<0.03%(当使用选民名单攻击策略时),并且这个比例实际上是足够的;他接着将安全港下的识别风险与被闪电击中的可能性进行了比较[17]。Kwok等人的再识别攻击[37]从安全港保护的数据集中重新识别了15,000个人中的2个人(0.013%),入侵者从市场研究公司获得了大量信息。郭等[37得出的结论是,重新识别的风险很低,用安全港掩蔽使重新识别成为一项具有挑战性的任务。另一些人则认为安全港政策过于严格。Malin等[28]在2011年的一篇文章中提出,安全港法过于保守,因为它有可能发布更详细的信息,而不会带来比安全港法更大的风险。相比之下,2016年的一项研究发现,即使数据似乎被充分掩盖,计算机科学模型也可以通过将年龄、性别、医院和年份等人口统计数据联系起来,识别出很大一部分(42.8%)患者。38]。虽然具体到一个单独的案例研究,这是一个很高的,可能是不可接受的风险水平。最近,Janmey和Elkin [27认为安全港标准足以保护整体人口的隐私。然而,他们还发现,数据中的遭遇记录有时可能包括可用于帮助匹配记录的间接标识符,这可能会将识别风险增加到0.07%,这远远超过了之前提到的使用安全港时的估计风险范围[1735]。

可以肯定地说,关于什么是足够的数据保护存在分歧。这种类型的风险计算本身和概念是复杂的充分性这是需要判断的。识别风险不仅取决于数据的发布方式,还取决于数据入侵者可以公开获得的备选列表。斯威尼(10描述了当入侵者使用的不仅仅是选民登记名单时,安全港持久数据集的识别风险如何高达25%。其他详细的注册表可用于重新识别隐藏数据,如房地产税数据、信用报告和财产记录。此外,可以预见,识别风险会跳得更高——远远超出预期范围——在某些地区,基础人口的人口统计数据允许入侵者很容易地根据年龄或种族缩小潜在的匹配范围,就像在大学宿舍、民族飞地或临时社区占主导地位的地区一样。1538]。充分的数据保护(抛开充分的定义)将始终依赖于被掩盖的数据集,因为一系列因素决定了整体识别风险。


概述

到目前为止,我们关注的是安全港条款的两个关键问题:使用哪个邮政编码的混乱,以及该规则是否保证了不必要的大量数据丢失。回顾安全港概念形成的过程,可以深入了解该条款的预期解释和指导其发展的动机;然而,这只是第一步。如何最好地解释和使用邮政编码或其他地理标识符的模糊性仍然存在,并且对于如何定义足够的最小风险没有明确的共识。在本文中,我们探讨了数据隐私的新方法以及它们如何满足一些研究人员的需求;然而,我们的结论是,解决安全港的双重问题的最有希望的方法是避开一刀切的指导方针,而对特定领域和特定数据的屏蔽模式进行更深入的评估,这些模式可以在有用数据和受保护数据之间提供一个中间地带。

去识别的新方法

面对再识别风险的复杂性,学者和政策制定者已经开始倡导广泛采用k-匿名或差分隐私(DP)方法[10]。这些方法的主要论点是,去识别方法应该附带隐私保障,特别是随着技术的进步和强大的自动化系统可以搜索多个公共列表之间的匹配。因此,尽管k-匿名和DP不一定能保证数据安全,但这些方法最近受到了相当大的关注,因为它们提供了一种隐私保证,比传统的屏蔽方法提供了更完整的数据保护。

k-匿名确保数据集中不存在唯一记录,并进一步要求每条记录至少有“k-1”条公共记录(那些具有相同准标识符的记录),以便它们不能被区分,从而确定识别[39]。k -匿名可以通过许多传统方法来实现,例如抖动、聚合和位置交换,并且它通常比单独使用这些传统方法中的一种提供更高级别的保护。然而,k-匿名并不是不受入侵者攻击的影响。入侵者仍然可以使用背景知识来缩小可能的匹配范围,以增加识别的可能性,例如在同质性攻击(基于包含相同属性值的数据的攻击)中,可以使用(单独或与其他数据链接)具有同质人口的区域,其中包含表中记录的相似值来识别个人或诊断。因此,严格来说,k-匿名并不能保证隐私。然而,它保证了非唯一性,在缺乏外部知识的情况下,它提供了相当大的数据保护,因此,k-匿名仍然是一种流行的方法。

DP作为一种保护敏感数据的新方法正引起人们的注意,这种方法可以确保极低的个人身份识别可能性。DP最常用的定义是Dwork等人提出的epsilon DP的定义[40]。Dwork等人的DP [40]涉及从原始的未受保护的数据集创建一个合成的汇总数据集,这确保了单个记录无法被识别。这些模拟数据是通过向原始聚合表中注入预定数量的噪声(基于拉普拉斯分布)来构建的,这样它就不会显著影响输出(对特定预先指定关系的查询)。换句话说,对聚合表进行了系统调整,以保护个人隐私,同时确保数据提供的结果与在预先指定的分析模型中使用原始数据时所提供的结果相似。这样做的目的是,即使从数据集中删除任何一个个体,也不会影响总体结果。这意味着epsilon DP提供了有关披露风险的相对保证,并从本质上承诺“……任何给定的披露,在一个小的乘法因子内,就像个人是否参与数据库一样可能。“(40

与k-匿名不同,DP在假设入侵者拥有接近完美的知识的情况下保护数据,这样做,DP提供了不同于其他技术的保护水平。DP不像传统方法那样有弱点(包括同质性攻击),并提供更强的数据保护,防止差异、链接和重建攻击[41]。此外,由于其稳健性,DP具有通过限制单个观测对结果产生影响的能力来减少不当数据分析技术的优势,这有助于阻止诸如p-hacking,在结果已知后进行假设以及过拟合模型等问题[42]。由于这些以及许多其他原因,DP在过去20年里获得了相当大的关注。事实上,DP方法有可能取代现有的掩蔽方法,并且已经被苹果公司和人口普查局采用,后者打算使用DP来保护2020年人口普查微数据。DP并非万无一失;它提供了“一个非常强有力的保证,它不承诺无条件免受伤害。“(41

由于DP提供了比许多其他方法更高级别的保护,它可能为研究人员提供了一种比以前在安全港所允许的更详细的数据共享方式。在疾病监测制图的一个例子中,安全港的最低人口要求是20 000人,这在地图分辨率方面相当有限。一份包含2万人的地图将无法提供足够的细节,对研究人员、政策制定者或社区成员有帮助。然而,DP将允许研究人员共享更精细的地图(低至社区水平),而不会危及患者的身份。

因此,为什么不使用DP呢?这是因为它在研究中有严重的缺陷[43]。例如,从一个不同的私有聚合表创建的地图显示模拟数据;因此,地图上的某些区域可能不能准确反映原始数据,特别是在人口数量较低的较细比例尺上。Santos-Lozada等[44发现从DP方法中注入的噪声对不同人口统计数据的观察分布有不同的影响,这意味着DP有可能在国家层面上对健康差异的理解产生偏差。特别是,作者证明了绘制不同的私人数据是如何导致“高估较小地区少数民族人口的人口水平健康指标,低估人口较多地区的死亡率水平”,这些影响是巨大的。例如,请注意以下内容:

...在McCulloch County, Texas, the mortality rate ratio for non-Hispanic blacks is 75.9, indicating the mortality rate would be 24% lower under the current methodology compared with the differential privacy methodology. Similarly, in Clarke County, Virginia, the mortality rate ratio for Hispanics is 121.4, indicating the mortality rate would be 21% higher under the current methodology compared with the differential privacy methodology. At the same time, the non-Hispanic white mortality rate ratios were essentially unchanged for these two counties, at 100.3 and 99.8, respectively, meaning substantial biases may enter into understandings of disparities.

DP对研究的影响是可怕的,最近人口普查局在2020年人口普查微数据中采用这种方法的举动引起了人们对其优缺点的关注[4546]。人口普查数据是社会科学家使用的最大的社会人口数据来源之一;因此,差异私有方法有可能降低社会科学研究的可靠性和有效性。除了对数据准确性和偏差的威胁之外,关于2020年人口普查数据的另一个担忧来源是,这些不同的私有表将无法进行探索性数据分析。这是因为不同的私有数据是合成的,因此,除非在创建合成表时预先指定关系,否则无法探索它们。因此,DP很可能会干扰数据驱动的科学研究过程,促使一些学者提出,也许“……差别私隐远远超出保障资料安全的需要" [46]。

DP在保护大规模敏感数据方面的实用性存在很多不确定性。对于一些社会科学家和流行病学家来说,DP是一个相对较新的概念。在社会科学文献中缺乏对DP的调查,特别是关于它可能对卫生制图的影响。在撰写本文时,我们只能找到一份研究报告。44但考虑到人们对DP的关注以及它带来的许多悬而未决的问题,我的预期会更高。就准确性和使用而言,DP在制图中的含义是什么?私有地图与原始原始数据的地图相比有何不同?此外,目前尚不清楚DP在机构审查委员会中的地位。这是一个相对较新的领域,许多HIPAA合规官员可能不熟悉DP。作为我们对HIPAA历史研究的一部分,我们与法律专家和HIPAA合规官员进行了交谈。一名这样的官员在被介绍给DP时表示,“这并不符合我们办公室对去身份化的考虑。”DP在映射空间数据方面有一定的前景,但成本是已知的和未知的。

现状与未来研究

尽管对扩大卫生数据制图的使用和共享一直感兴趣,但安全港规则是对共享地图感兴趣的人的主要指导。对于许多学者来说,它还远远不够完善,在保护数据或减少数据丢失方面,它是模糊的,要么过于严格,要么不够。存在替代方法,它们有可能做得更好;然而,它们也有自己的缺点。HIPAA安全港条款并没有规定保证数据保护类似于新的数据保护模式;相反,他们只是确保认同的风险较低,最终目标是“平衡个人的需要与社会的需要”[18]。挑战在于找到受保护数据和有用数据之间的“最佳点”,同时还要理解每个数据集的最佳点会根据公众可用信息的种类和数量而变化。此外,随着技术的快速发展,这个最佳点将随着时间的推移而不断变化。如今,公司收集的个人层面的数据量很大,而且还在不断增长。事实上,面对大数据,社会可能已经达到了完美人口登记的神话不再是神话的地步[47]。

尽管安全港仍然是处理空间健康数据的主要指导来源,但研究人员继续以反映他们对法律和更大社会技术背景下数据的理解的方式与之合作或反对。正如Malin等人所证明的[28],有一些方法可以通过粗化其他数据的粒度来安全地共享更详细的数据(如年龄信息)。从这个示例中,我们可以假设还有通过审查数据中的其他元素来共享细粒度地理数据的方法。考虑到某些信息对个体识别的贡献比其他信息更大(例如,年龄比性别更具有识别性),我们需要提出一些问题,如果这些问题得到回答,可能有助于为未来的方法提供信息。如果没有年龄信息,5位数的邮政编码会变得无害吗?有多少人可以通过年龄和5位数的邮政编码来唯一识别?如果所有的年龄和性别信息都被删除了呢?一个5位数的邮政编码还能识别一个人吗?换句话说,如果删除所有其他患者信息(即仅共享5位数邮政编码和诊断),那么在5位数邮政编码级别共享地图是否鲁莽?如果将这些邮政编码聚合成单元,每个单元包含20,000人,会怎么样?身份识别的风险是什么? Of course, it is easier to ask these questions than answer them; however, by examining the history of HIPAA and clarifying the importance of 3-digit zip codes versus 5-digit zip codes, we have a stronger foundation for answering these questions. Until then, the safe harbor method stands as our primary mode of guidance, and 2 decades after its introduction, these guidelines do not meet the public’s need for data security or researchers’ need for useful data.

结论

模糊的隐私条款是进步的障碍,并通过阻碍流行病学家和地理学家理解如何共享空间数据的方式,对公众隐私构成威胁。本文通过提供法律的全面概述,同时也提出了各种专家的观点和相关研究,从而促进了对HIPAA安全港条款的理解,这些研究结合在一起,展示了安全港的替代方法如何为研究人员提供更好的数据和更好的数据保护。安全港规则有两种不同的解释——3位数和5位数的邮政编码解释——尽管5位数的邮政编码不是该规则预期的聚合级别,但我们有理由相信,在这个级别上,信息可以安全地在地图上共享。需要更多的研究来确定在5位邮政编码级别共享的地图中,当出生和性别从地图的相应表中被抑制时,个人识别的风险是否足够低。自引入安全港条款以来的20年里,情况发生了很大变化;然而,它仍然是试图共享地图的研究人员的主要指导(和挫折)来源,让许多人等待这些规则根据时代进行修订。

数据和材料的可用性

数据共享不适用于本文,因为研究过程中没有生成或分析数据集。

作者的贡献

BK起草了手稿的第一版。BK负责数据采集、数据分析和解释。BK和SMM编辑并批准了手稿的最终版本。

利益冲突

没有宣布。

  1. 根据《健康保险可携带性和问责法》(HIPAA)隐私规则,关于消除受保护健康信息身份识别方法的指导。《受保护健康信息去识别指南》,2012。URL:https://www.hhs.gov/sites/default/files/ocr/privacy/hipaa/understanding/coveredentities/De-identification/hhs_deid_guidance.pdf[2022-06-22]访问
  2. 古普塔A,赖A,莫泽斯基J,马新,Walsh H, DuBois JM。使用自然语言处理管道实现定性研究数据共享,以实现去识别:超越HIPAA安全港标识符。JAMIA开幕2021年7月;4(3):ooab069 [免费全文] [CrossRef] [Medline
  3. 条款SL, Triller DM, Bornhorst CP, Hamilton RA, Cosler LE。符合HIPAA法规和研究数据的汇编。[J]中华卫生杂志;2004;61(10):1025-1031。[CrossRef] [Medline
  4. 从健康开始到卡特里娜飓风:利用地理信息系统消除围产期健康的差异。中华医学杂志2008 Sep 10;27(20):3984-3997。[CrossRef] [Medline
  5. 保罗O.违反隐私承诺:回应匿名化的惊人失败。UCLA Law Rev 2009;57:1701。
  6. 刘建军,刘建军,刘建军,等。健康数据的保密风险研究。计算机环境与城市系统,2011,35(1):57-64。[CrossRef
  7. Jung H, El Emam K.一种用于次要目的披露患者空间信息时保护隐私的线性规划模型。国际卫生地理杂志,2014;13(1):16。[CrossRef
  8. 刘建军,刘建军,刘建军,刘建军。为去身份化研究创造黄金标准的挑战。安徽农业大学学报(自然科学版);2014;39 - 44 [j]免费全文] [Medline
  9. 刘建军,刘建军,刘建军,刘建军。在临床文本注释中使用HIPAA隐私规则的挑战和见解。中国生物医学工程学报(英文版);2015;37 - 39 [j]免费全文] [Medline
  10. 刘建军,刘建军,刘建军,刘建军,刘建军。环境卫生安全港数据的风险再识别研究[J]。技术科学2017;2017:2017082801。[Medline
  11. HIPAA隐私规则的去识别标准研讨会。HHS.gov。URL:https://www.hhs.gov/hipaa/for-professionals/privacy/special-topics/de-identification/2010-de-identification-workshop/index.html[2021-01-15]访问
  12. 电子健康记录:过去、现在和未来。医学年鉴2018年3月6日;25(s1):S48-S61。[CrossRef
  13. 张建军,张建军,张建军,等。信息时代的隐私问题研究。民意调查,2006,25(3):375-401。[CrossRef
  14. H.R.3845 - 1997年哥伦比亚特区拨款法案的所有信息(文本除外)。CONGRESS.GOV。URL:https://www.congress.gov/bill/104th-congress/house-bill/3845/all-info[2021-01-15]访问
  15. 确保共享医疗数据时的匿名性,Datafly系统。协会年会1997:51-55 [免费全文] [Medline
  16. 个人可识别健康信息的隐私标准。在:隐私文件。博卡拉顿,佛罗里达州:奥尔巴赫出版社;2001.
  17. Barth-Jones直流。州长威廉·维尔德医疗信息的“重新识别”:对健康数据识别风险和隐私保护的关键重新审查,过去和现在。ssn . j 2012。[CrossRef
  18. 个人可识别健康信息的隐私标准。在:隐私文件。博卡拉顿,佛罗里达州:奥尔巴赫出版社;2001.
  19. 个人可识别健康信息隐私标准。在:隐私文件。博卡拉顿,佛罗里达州:奥尔巴赫出版社;2001.
  20. 统计政策工作文件联邦统计方法委员会(FCSM)。1994.URL:https://nces.ed.gov/FCSM/pdf/spwp22.pdf[2022-07-12]访问
  21. 微数据披露风险的地理成分。美国人口普查局。7月7日。URL:https://www.census.gov/library/working-papers/1990/adrm/rr90-13.html[2022-07-24]访问
  22. 22 HJ。当调查对象的居住社区已知时,他们的可识别性的模拟研究。国家卫生统计中心,2000年。
  23. 卫生和人类服务部45 CFR part 160和164个人可识别健康信息隐私标准;最后的规则。《联邦公报》2000。URL:https://www.govinfo.gov/app/details/FR-2000-12-28/00-32678[2022-07-27]访问
  24. ESRI主页。ESRI。URL:http://www.esri.com/software/businessanalyst)[2022-06-21]访问
  25. 穆丽,王峰,陈文伟,吴霞。基于地点的卫生数据传播与分析地理区域构建方法地理学报,2014,12 (1):48-66 [j]免费全文] [CrossRef] [Medline
  26. 邮政编码水平的结核病风险因素:1985-1992年新泽西州的社区环境和居住隔离。[J] .中华卫生杂志;2001;31(5):734-741。[CrossRef] [Medline
  27. 《HIPAA去识别数据集的再识别风险:MVA攻击》。中国生物医学工程学报,2018;18 (3):1329-1337 [j]免费全文] [Medline
  28. Malin B, Benitez K, Masys D.匿名永远不会太老:基于HIPAA隐私规则的人口统计数据共享的统计标准。医学信息学报,2011,01;18(1):3-10 [J]免费全文] [CrossRef] [Medline
  29. 利用医疗保健的经验来保护图书馆用户的隐私:基于HIPAA的图书馆数据去识别指南。中国生物医学工程学报(英文版);2007;31(6):1186 - 1186。[CrossRef
  30. 李建军,李建军,李建军,李建军。《健康保险流通与责任法案》隐私规则对使用地理信息系统进行流感研究的影响。geospit Health 2010年11月1日;5(1):3-9。[CrossRef] [Medline
  31. 国家在变得更加多样化的同时也在继续老龄化。美国人口普查局。URL:https://www.census.gov/[2022-07-25]访问
  32. 简单的人口统计数据通常可以唯一地识别人们。卡内基梅隆大学。URL:https://dataprivacylab.org/projects/identifiability/paper1.pdf[2022-07-24]访问
  33. 使用样本估计独特总体元素的数量。人口普查局。URL:http://www.asasrms.org/Proceedings/papers/1991_061.pdf[2022-07-24]访问
  34. 微数据保护。在:分散系统中的安全数据管理。马萨诸塞州波士顿:b施普林格;2007.
  35. 加强对卫生数据使用的保护:电子收集和传输的卫生数据的"二次使用"管理框架。美国卫生与公众服务部部长。URL:https://tinyurl.com/3dptn9rh[2021-01-15]访问
  36. 李建平,李建平。基于隐私规则的信息再识别风险评估。中华医学杂志,2010;17(2):169-177 [J]免费全文] [CrossRef] [Medline
  37. 郭P, Davern M,头发E, Lafky d比你想象的困难:一个案例研究的鉴定与hipaa兼容的记录的风险。发表于:2011年联合统计会议;2011年8月2日;芝加哥。
  38. O 'Neill L, Dexter F,张宁。临床麻醉研究数据发表对患者隐私的风险。麻醉学与镇痛学,2016;22(6):2017-2027。[CrossRef
  39. 马建平,李建平。信息披露过程中数据的泛化(摘要)。参见:第十七届ACM SIGACT-SIGMOD-SIGART数据库系统原理研讨会论文集。1998年发表于:SIGMOD/PODS98:数据管理特别兴趣小组;1998年6月1日至4日;美国华盛顿州西雅图。[CrossRef
  40. 微分隐私。在:自动机,语言和程序设计。柏林,海德堡:施普林格;2006.
  41. 李建平,李建平。基于算法的差分隐私算法研究。理论计算科学,2014;9(3):211-407。[CrossRef
  42. 李建军,李建军,李建军,李建军。自适应数据分析的统计有效性。参见:第47届ACM计算理论研讨会论文集。2015年发表于:STOC '15:计算理论研讨会;2015年6月14 - 17日;美国俄勒冈州波特兰。[CrossRef
  43. Muralidhar K, Domingo-Ferrer J, Martínez S. λ -微数据发布的差分隐私并不能保证保密性(更不用说效用了)。见:统计数据库中的隐私。可汗:施普林格;2020.
  44. Santos-Lozada AR, Howard JT, Verdery AM。不同的隐私将如何影响我们对美国健康差异的理解。中国科学:自然科学通报,2009,30 (5):349 - 349 [j]。免费全文] [CrossRef] [Medline
  45. 王晓明,王晓明。隐私与社会科学的关系研究。哈佛数据科学Rev 2020 1月31日;2(1)。[CrossRef
  46. 李建军,李建军,李建军,等。人口普查数据的社会经济影响因素分析。2019年5月1日;109:403-408。[CrossRef
  47. Narayanan A, Shmatikov V.大型稀疏数据集的鲁棒去匿名化。见:2008年IEEE安全和隐私研讨会论文集(sp 2008)。2008年发表于:2008 IEEE安全与隐私研讨会(sp 2008);2008年5月18日至22日;奥克兰,加州,美国[CrossRef


罗伯特:出生日期
DP:微分隐私
美国卫生和公众服务部:卫生与公众服务部
HIPAA:健康保险流通与责任法案
NPRM:建议规则制定公告
光学字符识别:民权办公室
φ:受保护的健康信息


C·洛维斯编辑;提交05.03.22;L . Nweke, D . reuters, J . Ropero的同行评议;对作者02.06.22的评论;收到修正版23.06.22;接受27.06.22;发表03.08.22

版权

©Brittany Krzyzanowski, Steven M Manson。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 2022年8月3日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map