卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMI

JMIR Med Inform

JMIR医学信息学

2291 - 9694

卡塔尔世界杯8强波胆分析

加拿大多伦多

v9i11e26914

34747711

10.2196/26914

原始论文

医疗领域保护敏感信息的局部差分隐私:算法开发和现实世界验证

Eysenbach

冈瑟

Vilaplana

乔迪

唱

闽东

医学博士 1

https://orcid.org/0000-0002-5217-8877

查

Dongchul

医学博士 1 2

https://orcid.org/0000-0002-0043-5026

公园

余响了

博士学位 1

生物医学系统信息学学系延世大学医学院

Yonsei-ro博彩

首尔,03722

大韩民国 82 2 227 8354 82 2228 2363 yurangpark@yuhs.ac

https://orcid.org/0000-0002-4210-2094

1 生物医学系统信息学学系延世大学医学院

首尔

大韩民国 2 耳鼻咽喉科延世大学医学院

首尔

大韩民国

通讯作者:Yu Rang Park yurangpark@yuhs.ac

11 2021

8 11 2021

9 11

e26914

4 1 2021 28 1 2021 10 2 2021 6 9 2021

©Sung MinDong, Dongchul Cha, Yu Rang Park。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com)， 2021年11月8日。

2021

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到https://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

背景

在当前的大数据时代，隐私越来越受到关注，尤其是医疗数据的隐私。具体来说，差分隐私已经成为数据分析和发布过程中保护隐私的标准方法。

客观的

利用机器学习技术，我们将差分隐私应用于具有不同参数的医疗数据，并使用合成数据检查我们的算法的可行性以及数据隐私和实用性之间的平衡。

方法

将所有数据归一化为-1 ~ 1的范围，并采用有界拉普拉斯方法防止应用微分隐私算法后产生越界值。为了保持分类变量的基数性，我们通过离散化进行了后处理。该算法使用合成数据和实际数据(来自eICU协作研究数据库)进行评估。我们分别使用分类数据和连续数据的误分类率和均方误差来评估原始数据和扰动数据之间的差异。此外，我们比较了使用真实世界数据预测住院死亡率的分类模型的性能。

结果

当ε = 0.1时，分类变量的误分类率在0.49 ~ 0.85之间，随着ε的增大，分类变量的误分类率趋于0。当ε在10²和10^3.时，误分类率迅速降至0。同样，连续变量的均方误差随着ε的增大而减小。随着ε的增大，由扰动数据建立的模型的性能收敛于由原始数据建立的模型的性能。其中，由原始数据建立的随机森林模型的精度为0.801，当ε = 10时，该模型的精度在0.757 ~ 0.81之间¹和10⁴,分别。

结论

我们将局部差分隐私应用于多元高维的医疗领域数据。更高的噪音可能会增强隐私，但同时也阻碍了实用性。我们应该根据具体情况为数据扰动选择适当程度的噪声，以平衡隐私和效用。

保护隐私微分隐私医学信息学医疗数据隐私电子健康记录算法发展验证大数据医疗数据可行性机器学习合成数据

介绍

大数据是医药创新的核心要素。原始数据的实用性较低;然而，应用机器学习(ML)等算法使我们能够充分利用这些数据[ 1]。与基于规则的系统不同，机器学习算法是数据驱动的，需要大量的数据。特别是，传统的机器学习方法需要集中的数据进行学习。为了获得如此大量的数据，有必要在不同的组织之间交换数据，以开发有效的机器学习模型。

然而，各方交换资料会引致私隐问题，而大公司侵犯私隐的情况亦日益受到关注[ 2]。大多数包含敏感信息的医疗数据在与第三方共享时应得到适当保护。欧盟的《一般资料保障规例》[ 3.]和《1996年美国健康保险流通与责任法案》(HIPAA) [ 4认识到这个问题，并要求加强用户的隐私保护。医疗数据除了敏感属性外，还具有各种不同的属性。例如，血清葡萄糖水平是连续的，而病史通常是用分类值记录的。医疗数据也包含多模态值:一些数据可能来自血液检查，而另一些数据可能来自放射学和体格检查。

去标识化的定义是“删除或替换个人标识，使个人与其资料之间难以重新建立联系。[ 5)。”特别是，在HIPAA中，当指定的数据元素被删除时，数据被认为是已识别的[ 4]。匿名化被定义为“不可逆转地消除个人与其医疗记录数据之间的联系，以至于实际上不可能重新建立这种联系。” 5)。”在这种情况下，永远无法使用底层数据集中的数据重新识别匿名数据。对这些数据进行匿名化的主要方法有三种:抑制、泛化和噪声添加[ 6]。去身份化不一定是匿名的。也就是说，匿名化是去识别化的一个子集。在匿名化之后，可以评估识别隐私风险的三个主要措施: k匿名( 7］， l多样性( 8),而 t亲密关系( 9]。去识别工具，如ARX [ 10]，通过特征泛化和记录抑制提供无缝的隐私保护。

差别隐私[ 11]，它需要一个语义模型，是另一种数据隐私方法。与语法匿名相比，它需要较少的领域知识，并且对结合领域知识的链接攻击具有固有的鲁棒性。此外，差别隐私被认为是私人数据分析或发布的事实上的标准[ 12， 13]。苹果和b谷歌等科技公司曾尝试应用差别私隐来保护流动数据的私隐。[ 14， 15]。此外，物联网(IoT)的快速发展也应考虑隐私风险[ 16]。研究人员一直在积极地将差分隐私应用于物联网，例如自动驾驶汽车[ 17]和传感器[ 16]。在ML中，个人信息可能会泄露。将差分隐私应用于深度学习模型可以克服这种威胁[ 18， 19]，医疗保健领域也不例外。在卫生保健领域进行了几项研究。例如，Kim等人[ 20.介绍了一种针对健康数据流的局部差分隐私算法。另外，Suriyakumar等[ 21]研究了具有影响函数的差分私有随机梯度下降在医疗保健环境中的可行性。大多数研究都集中在只有少数特征的数据集上，并关注深度学习模型中的差分隐私。

在本研究中，我们关注的是多元医疗数据的局部差异隐私。我们应用了不同参数的差分隐私，并检查了(1)用合成数据训练算法的可行性，以及(2)关于ML技术的数据隐私和效用之间的平衡。

方法

图1提出了在本研究中实现差异隐私的工作流程。当用户请求数据时，我们使用有界拉普拉斯方法()和离散化后处理()提供高保真度的数据，同时保留原始数据的隐私。

图1

根据第三方用户的数据请求，差异隐私。所有者在将数据发送到外部之前对原始数据进行扰动以保护隐私。第三方用户可以是管理员，也可以是最终用户。:有界拉普拉斯方法;:离散化后处理。

局部差分隐私的ε值

Dwork等[ 22)定义 ε-差分隐私作为随机函数。对于相邻数据Y₁和Y₂，函数κ is ( ε， δ)——不同的私有if

P(κ(Y₁)∈s]≤ε∙p [κ(y₂)∈s] + δ

在哪里 S∧Range(κ)。局部差分隐私是由数据所有者应用随机函数或扰动的特定情况，而不是由中央聚合器应用。

有界拉普拉斯方法

在应用局部差分隐私之前，所有变量都被归一化为-1到1之间的范围。首先，我们应用了有界拉普拉斯方法。由于传统的拉普拉斯分布产生无限边界，因此在应用于临床领域时存在一些局限性。例如，本应是正数的呼吸频率，在应用传统的拉普拉斯方法后可能变成负数，这是不合逻辑的。有两种方法可以克服这个问题:截断法和边界法[ 23]。我们专注于后者，以尽量减少数据操纵的可能性，因为医疗领域数据的变化可能对期望的输出产生相当大的影响。

我们使用Holohan等人提出的有界拉普拉斯函数[ 23]，假设输入变量在输出域中。鉴于 b> 0, W_问： Ω→ D，为每个问∈ D我们定义了概率密度函数为:

在哪里

我们设置 δ= 0, l(下界)为-1， u(上界)为1，∆ 问2在我们的实验中进行了调整 ε来衡量隐私变化的影响。

离散变量的离散化后处理

因为我们应用了有界拉普拉斯方法以连续的方式将给定数据扰动到-1到1之间的范围，所以给定的输入有无限的可能性。许多医学领域的变量是分类的(顺序的或名义的)，比如医学手术史。因此，在应用有界拉普拉斯方法之后，对分类变量进行了额外的后处理。我们将给定数据的中间输出分布在伯努利分布上，类似于Yang等人提出的方法[ 17]。受干扰的数据 y∈(- C， C]被分成m个片段，其中m是原始输入变量的基数(一个正整数)。我们先平移范围[- C， C[0，] 米通过等分空间，结果是间隔。因此，对于给定的扰动数据y，可以得到:

计算k后，得到伯努利概率 p样本是这样的

也就是两个相邻可能性之间的距离。最后，对扰动数据进行离散化处理 y关于伯努利概率的 p这样

在哪里为伯努利分布函数。

验证数据集

我们使用模拟的(随机生成的)数据进行初始验证，以确保有界拉普拉斯方法按预期运行。为了模拟现实世界的使用，我们使用了eICU合作研究数据库[ 24]。首先，为了评估所提出的差分隐私算法对给定原始数据的有效干扰程度，我们在测量两个数据集之间的相似性时使用了分类变量的误分类率和连续变量的均方误差(MSE)。其次，为了评估差异隐私对数据集效用的不利影响，我们比较了使用急性生理和慢性健康评估(APACHE)预测重症监护病房入院后死亡率的准确性[ 25]在不同ε值下的评分变量。数据集包含插管、通气、透析、药物状态(基数:2)、眼睛(基数:4)、运动(基数:5)和语言状态(基数:6)作为分类变量。尿量，体温，呼吸频率，钠，心率，平均血压，pH值，红细胞压积，肌酐，白蛋白，氧压，一氧化碳₂血压、尿素氮、葡萄糖、胆红素和吸入氧分数(FiO)₂)值被认为是连续变量。数据集中最初有148,532例患者(行)，但在删除缺失值后，数据集中总共包含4740例患者(3597例存活，1143例死亡)。以下ML方法用于死亡率预测:决策树、k近邻、支持向量机、逻辑回归、naïve贝叶斯和随机森林。数据按80:20的比例分为训练集和测试集。所有预测均使用5倍交叉验证方法进行平均，scikit-learn [ 26库与Python编程语言一起使用。

结果有界拉普拉斯函数验证的综合数据

我们创建了一个等间隔分布，范围在-1到1之间，并应用了有界拉普拉斯方法。与具有无限范围的传统拉普拉斯方法不同，有界方法的范围为-1到1。

在确认有界拉普拉斯方法按预期工作后，我们创建了范围从-1到1的合成连续数据，并应用了传统拉普拉斯方法和有界拉普拉斯方法 ε= 0.1, δ= 0 ( 图2A).原来的拉普拉斯方法有超出范围的事件，这在有界拉普拉斯方法中是不存在的。为了测试分类数据和后离散化处理，我们创建了一组100个从0到9的随机整数，然后将它们归一化为从-1到1的范围。原来的拉普拉斯方法有一些越界的地方。在分类数据中，有界拉普拉斯方法与连续数据一样，保持在数据范围内。然而，有些分类值最初并未出现在给定的数据中( 图2B)，这与出界条件类似。因此，进行了额外的后处理离散化，算法表明，离散化技术保证了分类数据中不存在不存在的值( 图2C)。

图2

使用合成数据的传统和有界拉普拉斯方法的比较。(A)随机生成的连续数据-1 ~ 1的直方图。(B)随机生成的分类数据直方图，初始值为0 ~ 9，归一化后为-1 ~ 1。(C)对(B)中的数据进行离散化后处理后得到的直方图。在所有场景中，均采用拉普拉斯方法 ε= 0.1, δ= 0。

使用真实数据进行验证

eICU合作研究数据库[ 24]进行验证。我们分别使用mse和误分类率作为连续变量和分类变量的度量，来计算原始数据和扰动数据之间的差异。由于原始数据中各值之间存在差异，在eICU数据中，连续变量的MSE变化很大。例如，pH值和白蛋白在不同的个体之间是相似的，而心率和葡萄糖则有很大的差异( 图3A).分类变量中，插管、通气、透析状态为0或1，机会水平为0.5。“眼睛”的取值范围是1到4，“语言”的取值范围是1到5，“运动”的取值范围是1到6。因此，在误分类率上存在差异，特别是当 ε很小( 图3B)。 ε增加后，连续变量和分类变量的所有扰动值都接近其原始值( 图3A和3B)。

图3

(A)连续变量和(B)分类变量的ε值和数据扰动程度。Bun:血尿素氮;Fio2:吸入氧的分数;Meanbp:平均血压;Pao2:动脉血氧分压;Pco2:二氧化碳分压;Wbc:白细胞。

模拟关于的数据实用程序 ε，我们使用eICU数据集构建了一个预测分类器来预测死亡率。值得注意的是，4,740例患者中有3,597例(75.9%)存活，生存率为76%。的较低值 ε造成严重的数据扰动，导致准确度接近机会水平。增加…的价值 ε提高了分类器的性能，并且性能收敛到使用原始数据获得的精度(如图中的虚线所示) 图4）.这种趋势在不同模型之间是一致的，随机森林模型表现最好。

图4

不同机器学习模型相对于ε的分类精度。使用原始数据开发的模型的性能用虚线表示。SVM:支持向量机。

讨论主要研究结果

在本研究中，我们开发并验证了一种用于医疗领域的局部差分隐私方法。我们使用有界拉普拉斯方法来克服越界问题。此外，我们对分类变量使用离散化后处理来处理扰动后不存在的分类变量。

在公开发布微数据时，采用了各种方法和指标。 k匿名( 7]是一个度量标准，要求每个聚类(或医疗数据中的一组人)至少具有 k这样的记录至少有 k- 1个无法区分的个体。然而，这种度量很容易通过链接攻击和背景知识的应用而被重新识别。 l-多样性的引入是为了克服这些限制;它要求每个包含敏感信息的等价块至少有 l适当表示的值。这种方法仍然容易受到偏度和相似性攻击[ 9]。 t亲密关系( 9通过要求等价类的距离小于来缓解这个问题 t(土方移动距离)敏感属性的分布与整体数据的分布之间的关系。然而，使用土方移动距离使得难以确定两者之间的接近程度 t以及获得的知识。此外，在这种方法中，敏感属性在等价类中的分布必须与整个数据集中的分布相似。

与这些隐私指标和方法相比， ε-差分私隐在保留资料结构的同时增加噪音，以防止原始资料外泄( 图2）.主要有两种不同的隐私模式:全局和本地。全局差异隐私要求数据库所有者信任在将数据发送给请求用户之前执行数据扰动的管理员。我们的实现，本地差异隐私，通过考虑不受信任的管理员，假设了最坏的情况。医疗数据集的泄漏可能会产生严重后果，因为此类数据集可能包含敏感信息，如疾病数据、病史和保险状态。因此，我们的方法通过不信任网络外的任何人来最小化数据泄漏的风险。

医学领域数据本质上是多维的和多模态的。 k-如果应用于高维数据，匿名可能会遭受严重的效用损失[ 27]。 ε-差分隐私在低的情况下也遭受了严重的效用损失 ε从预测死亡率的分类准确性较低( 图4）.尽管给定的数据集是多维的和多模态的，但调整的值 ε统一地影响所有变量，而不管它们的数据类型。

差异隐私通常在我们主要关注的数据效用和隐私之间有更强的权衡[ 28， 29]。变量间关于mse和误分类率有很大的差异 ε是低的( 图3）.作为 ε增加后，所有变量接近其实际值，以隐私为代价实现更好的效用;这一点从中所示预测的准确性可见一斑图4。发布合成扰动数据时 ε-差分隐私，我们可以考虑提供 ε价值与数据一起。这些附加信息可以让用户了解数据扰动的程度。

根据结果，对于我们的数据集，我们可以启发式地选择 ε值在10之间^3.和10⁴并采用差分隐私方法，根据用户的请求发送被扰动的数据。的最优值 ε根据不同的数据集和实用需求而变化，选择此值超出了本研究的范围。

本研究的一个局限性是我们只将我们的算法应用于合成数据，并且我们只在一个数据集上验证了算法。然而，也有可能直接使用其他数据集，因为我们在算法中使用了相对较少的先验数据知识。此外，我们排除了数据库中包含空值的行。由于医疗数据是高维和稀疏的，未来的研究应该针对空值进行。数据集的分布影响归一化和扰动过程。最好与每个研究所共享分布，例如每个列的最小值和最大值。该模型将从扰动数据中发展，这可能不如基于原始数据的模型准确。最优的ε值决定了扰动的程度，应设置适用于该算法。在本研究中，ε值在10^3.和10⁴似乎在启发式上是合适的;这取决于所使用的数据或模型。

结论

我们将局部差分隐私应用到医疗领域数据中，该领域数据具有多样性和高维性。应用有界拉普拉斯噪声与离散化后处理，确保没有越界的数据存在。更高的噪音可能会增强隐私，但同时也阻碍了实用性。因此，为数据扰动选择适当程度的噪声需要在隐私和效用之间进行权衡，应该根据具体情况选择这些参数。

缩写

APACHE

急性生理学和慢性健康评价

供给

吸入氧分数

HIPAA

健康保险流通与责任法案

物联网

毫升

机器学习

均方误差

本研究由韩国卫生和福利部资助的韩国卫生技术研发项目和韩国卫生产业发展研究所的MD-Phd/医学家培训计划(KHIDIHI19C1015010020, HI21C0974)资助。

没有宣布。

欧博迈亚

伊曼纽尔

预测未来——大数据、机器学习和临床医学

[英]医学 2016 09 29 375 13 1216 9

10.1056 / NEJMp1606181

27682033

PMC5070532

杨

问

刘

陈

通

联邦机器学习

ACM transintel系统技术 2019 02 28 10 2 1 19

10.1145 / 3298981

沃伊特

冯·德·布舍

一个

欧盟一般数据保护条例(GDPR):实用指南 2017

可汗、瑞士

施普林格国际出版

概况介绍:健康保险流通与责任法案(HIPAA)

美国劳工部 2004 12

2021-09-15

http://purl.fdlp.gov/GPO/gpo10291

西威尔

拉斐尔

Foufi

Vasiliki

Gaudet-Blavignac

克利斯朵夫

罗伯特。

Arnaud

洛维斯

基督教

在生物医学文献中匿名化和去身份化的使用和理解:范围审查

J Med Internet Res 2019 05 31 21 5 e13484 570

10.2196/13484

31152528

v21i5e13484

PMC6658290

匿名化

国际隐私专家协会 2001-09-16

https://iapp.org/resources/article/anonymization/

斯威尼

k-匿名:一种保护隐私的模式

基于模糊知识的集成系统 2012 05 02 10 05 557 570

10.1142 / S0218488502001648

Machanavajjhala

一个

麻醉品

耶尔克

Venkitasubramaniam

米

l多样性:超越k匿名的隐私

ACM Trans knowledge发现数据 2007 03 01 1 1 3. 西文

10.1145/1217299.1217302

李

文卡塔萨布拉曼尼亚

年代

亲密:超越k-匿名和l-多样性的隐私

2007 6 4

2007 IEEE第23届数据工程国际会议

2007年4月15-20日

土耳其伊斯坦布尔

10.1109 / icde.2007.367856

普拉斯

可以忍受

斯宾格勒

《图片报》

库恩

卡

使用arx进行灵活的数据匿名化——现状和未来的挑战

软件:练习专家 2020 02 25 50 7 1277 1304

10.1002 / spe.2812

Dwork

Kenthapadi

McSherry说

米罗诺夫

我

Naor

米

我们的数据，我们自己:通过分布式噪音产生的隐私

密码学进展- EUROCRYPT 2006 2006

EUROCRYPT 2006:密码学理论与应用国际年会

2006年5月28日至6月1日

圣彼得堡，俄罗斯

486

10.1007 / 11761679 _29

Barthe

查达

使人盲目崇

Sistla

一个

Viswanathan

米

确定具有有限输入和输出的程序的差分隐私

2020 7 08

第35届ACM/IEEE计算机科学逻辑研讨会

2020年7月8日至11日

德国萨尔布吕肯

141 154

10.1145/3373718.3394796

李

律

米

苏

杨

差异隐私:从理论到实践

信息安全、隐私和信任综合讲座 2016 10 25

2021-09-20

https://www.morganclaypool.com/doi/10.2200/S00735ED1V01Y201609SPT018

微分隐私

苹果 2021-09-15

https://www.apple.com/privacy/docs/Differential_Privacy_Overview.pdf

b谷歌的差分隐私库

GitHub 2021-09-15

https://github.com/google/differential-privacy

Erlingsson Pihur

Korolova

一个

RAPPOR:随机聚合保护隐私的有序响应

CCS '14: 2014年ACM SIGSAC计算机与通信安全会议论文集 2014 11 03

2014年ACM SIGSAC计算机与通信安全会议

2014年11月3日至7日

斯科茨代尔,阿兹

1054 1067

10.1145/2660267.2660348

赵

杨

米

王

律

Niyato

林

基于局部差分隐私的物联网联邦学习

IEEE Internet Things J 2021 6 1 8 11 8836 8853

10.1109 / jiot.2020.3037194

Nasr

米

负责人

Houmansadr

一个

深度学习的全面隐私分析:针对集中式和联邦式学习的被动和主动白盒推理攻击

2019

2019 IEEE安全与隐私研讨会(SP)

2019年5月19日至23日

旧金山，加州

739

10.1109 / sp.2019.00065

哈

见鬼

Truong

阮

米

深度学习中的差分隐私:概述

2019

2019先进计算与应用国际会议(ACOMP)

2019年11月26日至28日

芽庄，越南

10.1109 / acomp.2019.00022

20.

金

张成泽

柳

保护隐私的个人健康数据流聚合

《公共科学图书馆•综合》 2018 13 11 e0207639

10.1371 / journal.pone.0207639

30496200

玉米饼- d - 18 - 26819

PMC6264901

Suriyakumar

Papernot

戈登伯格

一个

Ghassemi

米

追逐你的长尾:医疗保健环境中不同的私人预测

《2021年美国计算机学会公平、问责与透明度会议论文集》 2021 03 03

2021年ACM公平、问责和透明度会议

2021年3月3日至10日

虚拟事件(加拿大)

723 734

10.1145/3442188.3445934

Dwork

Rothblum

集中差分隐私

ArXiv 预印本发布于2016年3月6日

霍拉汉

Antonatos

年代

Braghin

年代

Mac Aonghusa

差分隐私中的有界拉普拉斯机制

出来了。预印本发布于2018年8月30日 2020

10.29012 / jpc.715

波拉德

约翰逊

AEW

Raffa

附加评论

拉

马克

巴达维

eICU合作研究数据库，一个免费提供的多中心数据库，用于重症监护研究

科学数据 2018 09 11 5 180178

10.1038 / sdata.2018.178

30204154

sdata2018178

PMC6132188

齐默尔曼

杰克E

克莱默

安德鲁一

麦克奈尔

道格拉斯年代

Malila

蕨类植物米

急性生理学和慢性健康评估(APACHE) IV:对当今危重病人的医院死亡率评估

急救护理 2006 05 34 5 1297 310

10.1097/01. ccm.0000215112.84523.f0

16540951

Pedregosa

Grisel

维斯

斯帕索斯

一个

布鲁赫

米

Varoquax

Gramfort

一个

米歇尔

蒂里翁

Grisel

他们批判

米

Prettenhofer

维斯

Dubourg

布鲁赫

米

Scikit-learn: Python中的机器学习

J Mach Learn Res 2011 12 2825 2830

Rajendran

Jayabalan

米

Rana

米

隐私保护数据发布的k-匿名、l-多样性和t-封闭技术研究

国际创新、研究、科学与工程技术 2019 6 6 19 24

Kohlmayer

普拉斯

库恩

卡

质量成本:以最小的信息损失实现生物医学数据匿名化的泛化和抑制

J生物医学信息 2015 12 58 37 48

10.1016 / j.jbi.2015.09.007

26385376

s1532 - 0464 (15) 00200 - 2

Dankar

埃尔

埃克

在医疗保健中实行差别隐私:综述

数据传输 2013 6 1 35 67