JMI JMIR Med Inform JMIR医学信息学 2291 - 9694 卡塔尔世界杯8强波胆分析 加拿大多伦多 v9i11e26914 34747711 10.2196/26914 原始论文 原始论文 医疗领域保护敏感信息的局部差分隐私:算法开发和现实世界验证 Eysenbach 冈瑟 Vilaplana 乔迪 闽东 医学博士 1 https://orcid.org/0000-0002-5217-8877 Dongchul 医学博士 1 2 https://orcid.org/0000-0002-0043-5026 公园 余响了 博士学位 1
生物医学系统信息学学系 延世大学医学院 Yonsei-ro博彩 首尔,03722 大韩民国 82 2 227 8354 82 2228 2363 yurangpark@yuhs.ac
https://orcid.org/0000-0002-4210-2094
生物医学系统信息学学系 延世大学医学院 首尔 大韩民国 耳鼻咽喉科 延世大学医学院 首尔 大韩民国 通讯作者:Yu Rang Park yurangpark@yuhs.ac 11 2021 8 11 2021 9 11 e26914 4 1 2021 28 1 2021 10 2 2021 6 9 2021 ©Sung MinDong, Dongchul Cha, Yu Rang Park。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 2021年11月8日。 2021

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。

背景

在当前的大数据时代,隐私越来越受到关注,尤其是医疗数据的隐私。具体来说,差分隐私已经成为数据分析和发布过程中保护隐私的标准方法。

客观的

利用机器学习技术,我们将差分隐私应用于具有不同参数的医疗数据,并使用合成数据检查我们的算法的可行性以及数据隐私和实用性之间的平衡。

方法

将所有数据归一化为-1 ~ 1的范围,并采用有界拉普拉斯方法防止应用微分隐私算法后产生越界值。为了保持分类变量的基数性,我们通过离散化进行了后处理。该算法使用合成数据和实际数据(来自eICU协作研究数据库)进行评估。我们分别使用分类数据和连续数据的误分类率和均方误差来评估原始数据和扰动数据之间的差异。此外,我们比较了使用真实世界数据预测住院死亡率的分类模型的性能。

结果

当ε = 0.1时,分类变量的误分类率在0.49 ~ 0.85之间,随着ε的增大,分类变量的误分类率趋于0。当ε在102和103.时,误分类率迅速降至0。同样,连续变量的均方误差随着ε的增大而减小。随着ε的增大,由扰动数据建立的模型的性能收敛于由原始数据建立的模型的性能。其中,由原始数据建立的随机森林模型的精度为0.801,当ε = 10时,该模型的精度在0.757 ~ 0.81之间1和104,分别。

结论

我们将局部差分隐私应用于多元高维的医疗领域数据。更高的噪音可能会增强隐私,但同时也阻碍了实用性。我们应该根据具体情况为数据扰动选择适当程度的噪声,以平衡隐私和效用。

保护隐私 微分隐私 医学信息学 医疗数据 隐私 电子健康记录 算法 发展 验证 大数据 医疗数据 可行性 机器学习 合成数据
介绍

大数据是医药创新的核心要素。原始数据的实用性较低;然而,应用机器学习(ML)等算法使我们能够充分利用这些数据[ 1]。与基于规则的系统不同,机器学习算法是数据驱动的,需要大量的数据。特别是,传统的机器学习方法需要集中的数据进行学习。为了获得如此大量的数据,有必要在不同的组织之间交换数据,以开发有效的机器学习模型。

然而,各方交换资料会引致私隐问题,而大公司侵犯私隐的情况亦日益受到关注[ 2]。大多数包含敏感信息的医疗数据在与第三方共享时应得到适当保护。欧盟的《一般资料保障规例》[ 3.]和《1996年美国健康保险流通与责任法案》(HIPAA) [ 4认识到这个问题,并要求加强用户的隐私保护。医疗数据除了敏感属性外,还具有各种不同的属性。例如,血清葡萄糖水平是连续的,而病史通常是用分类值记录的。医疗数据也包含多模态值:一些数据可能来自血液检查,而另一些数据可能来自放射学和体格检查。

去标识化的定义是“删除或替换个人标识,使个人与其资料之间难以重新建立联系。[ 5)。”特别是,在HIPAA中,当指定的数据元素被删除时,数据被认为是已识别的[ 4]。匿名化被定义为“不可逆转地消除个人与其医疗记录数据之间的联系,以至于实际上不可能重新建立这种联系。” 5)。”在这种情况下,永远无法使用底层数据集中的数据重新识别匿名数据。对这些数据进行匿名化的主要方法有三种:抑制、泛化和噪声添加[ 6]。去身份化不一定是匿名的。也就是说,匿名化是去识别化的一个子集。在匿名化之后,可以评估识别隐私风险的三个主要措施: k匿名( 7], l多样性( 8),而 t亲密关系( 9]。去识别工具,如ARX [ 10],通过特征泛化和记录抑制提供无缝的隐私保护。

差别隐私[ 11],它需要一个语义模型,是另一种数据隐私方法。与语法匿名相比,它需要较少的领域知识,并且对结合领域知识的链接攻击具有固有的鲁棒性。此外,差别隐私被认为是私人数据分析或发布的事实上的标准[ 12 13]。苹果和b谷歌等科技公司曾尝试应用差别私隐来保护流动数据的私隐。[ 14 15]。此外,物联网(IoT)的快速发展也应考虑隐私风险[ 16]。研究人员一直在积极地将差分隐私应用于物联网,例如自动驾驶汽车[ 17]和传感器[ 16]。在ML中,个人信息可能会泄露。将差分隐私应用于深度学习模型可以克服这种威胁[ 18 19],医疗保健领域也不例外。在卫生保健领域进行了几项研究。例如,Kim等人[ 20.介绍了一种针对健康数据流的局部差分隐私算法。另外,Suriyakumar等[ 21]研究了具有影响函数的差分私有随机梯度下降在医疗保健环境中的可行性。大多数研究都集中在只有少数特征的数据集上,并关注深度学习模型中的差分隐私。

在本研究中,我们关注的是多元医疗数据的局部差异隐私。我们应用了不同参数的差分隐私,并检查了(1)用合成数据训练算法的可行性,以及(2)关于ML技术的数据隐私和效用之间的平衡。

方法

图1提出了在本研究中实现差异隐私的工作流程。当用户请求数据时,我们使用有界拉普拉斯方法()和离散化后处理()提供高保真度的数据,同时保留原始数据的隐私。

根据第三方用户的数据请求,差异隐私。所有者在将数据发送到外部之前对原始数据进行扰动以保护隐私。第三方用户可以是管理员,也可以是最终用户。:有界拉普拉斯方法;:离散化后处理。

局部差分隐私的ε值

Dwork等[ 22)定义 ε-差分隐私作为随机函数。对于相邻数据Y1和Y2,函数κ is ( ε δ)——不同的私有if

P(κ(Y1)∈s]≤ε∙p [κ(y2)∈s] + δ

在哪里 S∧Range(κ)。局部差分隐私是由数据所有者应用随机函数或扰动的特定情况,而不是由中央聚合器应用。

有界拉普拉斯方法

在应用局部差分隐私之前,所有变量都被归一化为-1到1之间的范围。首先,我们应用了有界拉普拉斯方法。由于传统的拉普拉斯分布产生无限边界,因此在应用于临床领域时存在一些局限性。例如,本应是正数的呼吸频率,在应用传统的拉普拉斯方法后可能变成负数,这是不合逻辑的。有两种方法可以克服这个问题:截断法和边界法[ 23]。我们专注于后者,以尽量减少数据操纵的可能性,因为医疗领域数据的变化可能对期望的输出产生相当大的影响。

我们使用Holohan等人提出的有界拉普拉斯函数[ 23],假设输入变量在输出域中。鉴于 b> 0, W Ω D,为每个 D我们定义了概率密度函数为:

在哪里

我们设置 δ= 0, l(下界)为-1, u(上界)为1,∆2在我们的实验中进行了调整 ε来衡量隐私变化的影响。

离散变量的离散化后处理

因为我们应用了有界拉普拉斯方法以连续的方式将给定数据扰动到-1到1之间的范围,所以给定的输入有无限的可能性。许多医学领域的变量是分类的(顺序的或名义的),比如医学手术史。因此,在应用有界拉普拉斯方法之后,对分类变量进行了额外的后处理。我们将给定数据的中间输出分布在伯努利分布上,类似于Yang等人提出的方法[ 17]。受干扰的数据 y∈(- C C]被分成m个片段,其中m是原始输入变量的基数(一个正整数)。我们先平移范围[- C C[0,]通过等分空间,结果是间隔。因此,对于给定的扰动数据y,可以得到:

计算k后,得到伯努利概率 p样本是这样的

也就是两个相邻可能性之间的距离。最后,对扰动数据进行离散化处理 y关于伯努利概率的 p这样

在哪里为伯努利分布函数。

验证数据集

我们使用模拟的(随机生成的)数据进行初始验证,以确保有界拉普拉斯方法按预期运行。为了模拟现实世界的使用,我们使用了eICU合作研究数据库[ 24]。首先,为了评估所提出的差分隐私算法对给定原始数据的有效干扰程度,我们在测量两个数据集之间的相似性时使用了分类变量的误分类率和连续变量的均方误差(MSE)。其次,为了评估差异隐私对数据集效用的不利影响,我们比较了使用急性生理和慢性健康评估(APACHE)预测重症监护病房入院后死亡率的准确性[ 25]在不同ε值下的评分变量。数据集包含插管、通气、透析、药物状态(基数:2)、眼睛(基数:4)、运动(基数:5)和语言状态(基数:6)作为分类变量。尿量,体温,呼吸频率,钠,心率,平均血压,pH值,红细胞压积,肌酐,白蛋白,氧压,一氧化碳2血压、尿素氮、葡萄糖、胆红素和吸入氧分数(FiO)2)值被认为是连续变量。数据集中最初有148,532例患者(行),但在删除缺失值后,数据集中总共包含4740例患者(3597例存活,1143例死亡)。以下ML方法用于死亡率预测:决策树、k近邻、支持向量机、逻辑回归、naïve贝叶斯和随机森林。数据按80:20的比例分为训练集和测试集。所有预测均使用5倍交叉验证方法进行平均,scikit-learn [ 26库与Python编程语言一起使用。

结果 有界拉普拉斯函数验证的综合数据

我们创建了一个等间隔分布,范围在-1到1之间,并应用了有界拉普拉斯方法。与具有无限范围的传统拉普拉斯方法不同,有界方法的范围为-1到1。

在确认有界拉普拉斯方法按预期工作后,我们创建了范围从-1到1的合成连续数据,并应用了传统拉普拉斯方法和有界拉普拉斯方法 ε= 0.1, δ= 0 ( 图2A).原来的拉普拉斯方法有超出范围的事件,这在有界拉普拉斯方法中是不存在的。为了测试分类数据和后离散化处理,我们创建了一组100个从0到9的随机整数,然后将它们归一化为从-1到1的范围。原来的拉普拉斯方法有一些越界的地方。在分类数据中,有界拉普拉斯方法与连续数据一样,保持在数据范围内。然而,有些分类值最初并未出现在给定的数据中( 图2B),这与出界条件类似。因此,进行了额外的后处理离散化,算法表明,离散化技术保证了分类数据中不存在不存在的值( 图2C)。

使用合成数据的传统和有界拉普拉斯方法的比较。(A)随机生成的连续数据-1 ~ 1的直方图。(B)随机生成的分类数据直方图,初始值为0 ~ 9,归一化后为-1 ~ 1。(C)对(B)中的数据进行离散化后处理后得到的直方图。在所有场景中,均采用拉普拉斯方法 ε= 0.1, δ= 0。

使用真实数据进行验证

eICU合作研究数据库[ 24]进行验证。我们分别使用mse和误分类率作为连续变量和分类变量的度量,来计算原始数据和扰动数据之间的差异。由于原始数据中各值之间存在差异,在eICU数据中,连续变量的MSE变化很大。例如,pH值和白蛋白在不同的个体之间是相似的,而心率和葡萄糖则有很大的差异( 图3A).分类变量中,插管、通气、透析状态为0或1,机会水平为0.5。“眼睛”的取值范围是1到4,“语言”的取值范围是1到5,“运动”的取值范围是1到6。因此,在误分类率上存在差异,特别是当 ε很小( 图3B)。 ε增加后,连续变量和分类变量的所有扰动值都接近其原始值( 图3A和3B)。

(A)连续变量和(B)分类变量的ε值和数据扰动程度。Bun:血尿素氮;Fio2:吸入氧的分数;Meanbp:平均血压;Pao2:动脉血氧分压;Pco2:二氧化碳分压;Wbc:白细胞。

模拟关于的数据实用程序 ε,我们使用eICU数据集构建了一个预测分类器来预测死亡率。值得注意的是,4,740例患者中有3,597例(75.9%)存活,生存率为76%。的较低值 ε造成严重的数据扰动,导致准确度接近机会水平。增加…的价值 ε提高了分类器的性能,并且性能收敛到使用原始数据获得的精度(如图中的虚线所示) 图4).这种趋势在不同模型之间是一致的,随机森林模型表现最好。

不同机器学习模型相对于ε的分类精度。使用原始数据开发的模型的性能用虚线表示。SVM:支持向量机。

讨论 主要研究结果

在本研究中,我们开发并验证了一种用于医疗领域的局部差分隐私方法。我们使用有界拉普拉斯方法来克服越界问题。此外,我们对分类变量使用离散化后处理来处理扰动后不存在的分类变量。

在公开发布微数据时,采用了各种方法和指标。 k匿名( 7]是一个度量标准,要求每个聚类(或医疗数据中的一组人)至少具有 k这样的记录至少有 k- 1个无法区分的个体。然而,这种度量很容易通过链接攻击和背景知识的应用而被重新识别。 l-多样性的引入是为了克服这些限制;它要求每个包含敏感信息的等价块至少有 l适当表示的值。这种方法仍然容易受到偏度和相似性攻击[ 9]。 t亲密关系( 9通过要求等价类的距离小于来缓解这个问题 t(土方移动距离)敏感属性的分布与整体数据的分布之间的关系。然而,使用土方移动距离使得难以确定两者之间的接近程度 t以及获得的知识。此外,在这种方法中,敏感属性在等价类中的分布必须与整个数据集中的分布相似。

与这些隐私指标和方法相比, ε-差分私隐在保留资料结构的同时增加噪音,以防止原始资料外泄( 图2).主要有两种不同的隐私模式:全局和本地。全局差异隐私要求数据库所有者信任在将数据发送给请求用户之前执行数据扰动的管理员。我们的实现,本地差异隐私,通过考虑不受信任的管理员,假设了最坏的情况。医疗数据集的泄漏可能会产生严重后果,因为此类数据集可能包含敏感信息,如疾病数据、病史和保险状态。因此,我们的方法通过不信任网络外的任何人来最小化数据泄漏的风险。

医学领域数据本质上是多维的和多模态的。 k-如果应用于高维数据,匿名可能会遭受严重的效用损失[ 27]。 ε-差分隐私在低的情况下也遭受了严重的效用损失 ε从预测死亡率的分类准确性较低( 图4).尽管给定的数据集是多维的和多模态的,但调整的值 ε统一地影响所有变量,而不管它们的数据类型。

差异隐私通常在我们主要关注的数据效用和隐私之间有更强的权衡[ 28 29]。变量间关于mse和误分类率有很大的差异 ε是低的( 图3).作为 ε增加后,所有变量接近其实际值,以隐私为代价实现更好的效用;这一点从中所示预测的准确性可见一斑 图4。发布合成扰动数据时 ε-差分隐私,我们可以考虑提供 ε价值与数据一起。这些附加信息可以让用户了解数据扰动的程度。

根据结果,对于我们的数据集,我们可以启发式地选择 ε值在10之间3.和104并采用差分隐私方法,根据用户的请求发送被扰动的数据。的最优值 ε根据不同的数据集和实用需求而变化,选择此值超出了本研究的范围。

本研究的一个局限性是我们只将我们的算法应用于合成数据,并且我们只在一个数据集上验证了算法。然而,也有可能直接使用其他数据集,因为我们在算法中使用了相对较少的先验数据知识。此外,我们排除了数据库中包含空值的行。由于医疗数据是高维和稀疏的,未来的研究应该针对空值进行。数据集的分布影响归一化和扰动过程。最好与每个研究所共享分布,例如每个列的最小值和最大值。该模型将从扰动数据中发展,这可能不如基于原始数据的模型准确。最优的ε值决定了扰动的程度,应设置适用于该算法。在本研究中,ε值在103.和104似乎在启发式上是合适的;这取决于所使用的数据或模型。

结论

我们将局部差分隐私应用到医疗领域数据中,该领域数据具有多样性和高维性。应用有界拉普拉斯噪声与离散化后处理,确保没有越界的数据存在。更高的噪音可能会增强隐私,但同时也阻碍了实用性。因此,为数据扰动选择适当程度的噪声需要在隐私和效用之间进行权衡,应该根据具体情况选择这些参数。

缩写 APACHE

急性生理学和慢性健康评价

供给

吸入氧分数

HIPAA

健康保险流通与责任法案

物联网

物联网

毫升

机器学习

均方误差

均方误差

本研究由韩国卫生和福利部资助的韩国卫生技术研发项目和韩国卫生产业发展研究所的MD-Phd/医学家培训计划(KHIDIHI19C1015010020, HI21C0974)资助。

没有宣布。

欧博迈亚 Z 伊曼纽尔 EJ 预测未来——大数据、机器学习和临床医学 [英]医学 2016 09 29 375 13 1216 9 10.1056 / NEJMp1606181 27682033 PMC5070532 Y T Y 联邦机器学习 ACM transintel系统技术 2019 02 28 10 2 1 19 10.1145 / 3298981 沃伊特 P 冯·德·布舍 一个 欧盟一般数据保护条例(GDPR):实用指南 2017 可汗、瑞士 施普林格国际出版 概况介绍:健康保险流通与责任法案(HIPAA) 美国劳工部 2004 12 2021-09-15 http://purl.fdlp.gov/GPO/gpo10291 西威尔 拉斐尔 Foufi Vasiliki Gaudet-Blavignac 克利斯朵夫 罗伯特。 Arnaud 洛维斯 基督教 在生物医学文献中匿名化和去身份化的使用和理解:范围审查 J Med Internet Res 2019 05 31 21 5 e13484 570 10.2196/13484 31152528 v21i5e13484 PMC6658290 匿名化 国际隐私专家协会 2001-09-16 https://iapp.org/resources/article/anonymization/ 斯威尼 l k-匿名:一种保护隐私的模式 基于模糊知识的集成系统 2012 05 02 10 05 557 570 10.1142 / S0218488502001648 Machanavajjhala 一个 麻醉品 D 耶尔克 J Venkitasubramaniam l多样性:超越k匿名的隐私 ACM Trans knowledge发现数据 2007 03 01 1 1 3. 西文 10.1145/1217299.1217302 N T 文卡塔萨布拉曼尼亚 年代 亲密:超越k-匿名和l-多样性的隐私 2007 6 4 2007 IEEE第23届数据工程国际会议 2007年4月15-20日 土耳其伊斯坦布尔 10.1109 / icde.2007.367856 普拉斯 F 可以忍受 J 斯宾格勒 H 《图片报》 R 库恩 使用arx进行灵活的数据匿名化——现状和未来的挑战 软件:练习专家 2020 02 25 50 7 1277 1304 10.1002 / spe.2812 Dwork C Kenthapadi K McSherry说 F 米罗诺夫 Naor 我们的数据,我们自己:通过分布式噪音产生的隐私 密码学进展- EUROCRYPT 2006 2006 EUROCRYPT 2006:密码学理论与应用国际年会 2006年5月28日至6月1日 圣彼得堡,俄罗斯 486 10.1007 / 11761679 _29 Barthe G 查达 R 使人盲目崇 V Sistla 一个 Viswanathan 确定具有有限输入和输出的程序的差分隐私 2020 7 08 第35届ACM/IEEE计算机科学逻辑研讨会 2020年7月8日至11日 德国萨尔布吕肯 141 154 10.1145/3373718.3394796 N D W 差异隐私:从理论到实践 信息安全、隐私和信任综合讲座 2016 10 25 2021-09-20 https://www.morganclaypool.com/doi/10.2200/S00735ED1V01Y201609SPT018 微分隐私 苹果 2021-09-15 https://www.apple.com/privacy/docs/Differential_Privacy_Overview.pdf b谷歌的差分隐私库 GitHub 2021-09-15 https://github.com/google/differential-privacy Erlingsson Pihur V Korolova 一个 RAPPOR:随机聚合保护隐私的有序响应 CCS '14: 2014年ACM SIGSAC计算机与通信安全会议论文集 2014 11 03 2014年ACM SIGSAC计算机与通信安全会议 2014年11月3日至7日 斯科茨代尔,阿兹 1054 1067 10.1145/2660267.2660348 Y J T N l Niyato D K 基于局部差分隐私的物联网联邦学习 IEEE Internet Things J 2021 6 1 8 11 8836 8853 10.1109 / jiot.2020.3037194 Nasr 负责人 R Houmansadr 一个 深度学习的全面隐私分析:针对集中式和联邦式学习的被动和主动白盒推理攻击 2019 2019 IEEE安全与隐私研讨会(SP) 2019年5月19日至23日 旧金山,加州 739 10.1109 / sp.2019.00065 T 见鬼 T 见鬼 T Truong T 深度学习中的差分隐私:概述 2019 2019先进计算与应用国际会议(ACOMP) 2019年11月26日至28日 芽庄,越南 10.1109 / acomp.2019.00022 JW 张成泽 B H 保护隐私的个人健康数据流聚合 《公共科学图书馆•综合》 2018 13 11 e0207639 10.1371 / journal.pone.0207639 30496200 玉米饼- d - 18 - 26819 PMC6264901 Suriyakumar V Papernot N 戈登伯格 一个 Ghassemi 追逐你的长尾:医疗保健环境中不同的私人预测 《2021年美国计算机学会公平、问责与透明度会议论文集》 2021 03 03 2021年ACM公平、问责和透明度会议 2021年3月3日至10日 虚拟事件(加拿大) 723 734 10.1145/3442188.3445934 Dwork C Rothblum GN 集中差分隐私 ArXiv 预印本发布于2016年3月6日 霍拉汉 N Antonatos 年代 Braghin 年代 Mac Aonghusa P 差分隐私中的有界拉普拉斯机制 出来了。预印本发布于2018年8月30日 2020 10.29012 / jpc.715 波拉德 TJ 约翰逊 AEW Raffa JD 附加评论 马克 RG 巴达维 O eICU合作研究数据库,一个免费提供的多中心数据库,用于重症监护研究 科学数据 2018 09 11 5 180178 10.1038 / sdata.2018.178 30204154 sdata2018178 PMC6132188 齐默尔曼 杰克E 克莱默 安德鲁一 麦克奈尔 道格拉斯年代 Malila 蕨类植物米 急性生理学和慢性健康评估(APACHE) IV:对当今危重病人的医院死亡率评估 急救护理 2006 05 34 5 1297 310 10.1097/01. ccm.0000215112.84523.f0 16540951 Pedregosa F Grisel O 维斯 R 斯帕索斯 一个 布鲁赫 Varoquax G Gramfort 一个 米歇尔 V 蒂里翁 B Grisel O 他们批判 Prettenhofer P 维斯 R Dubourg V 布鲁赫 Scikit-learn: Python中的机器学习 J Mach Learn Res 2011 12 2825 2830 Rajendran K Jayabalan Rana 隐私保护数据发布的k-匿名、l-多样性和t-封闭技术研究 国际创新、研究、科学与工程技术 2019 6 6 19 24 Kohlmayer F 普拉斯 F 库恩 质量成本:以最小的信息损失实现生物医学数据匿名化的泛化和抑制 J生物医学信息 2015 12 58 37 48 10.1016 / j.jbi.2015.09.007 26385376 s1532 - 0464 (15) 00200 - 2 Dankar F 埃尔 埃克 在医疗保健中实行差别隐私:综述 数据传输 2013 6 1 35 67
Baidu
map