这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。
在当前的大数据时代,隐私越来越受到关注,尤其是医疗数据的隐私。具体来说,差分隐私已经成为数据分析和发布过程中保护隐私的标准方法。
利用机器学习技术,我们将差分隐私应用于具有不同参数的医疗数据,并使用合成数据检查我们的算法的可行性以及数据隐私和实用性之间的平衡。
将所有数据归一化为-1 ~ 1的范围,并采用有界拉普拉斯方法防止应用微分隐私算法后产生越界值。为了保持分类变量的基数性,我们通过离散化进行了后处理。该算法使用合成数据和实际数据(来自eICU协作研究数据库)进行评估。我们分别使用分类数据和连续数据的误分类率和均方误差来评估原始数据和扰动数据之间的差异。此外,我们比较了使用真实世界数据预测住院死亡率的分类模型的性能。
当ε = 0.1时,分类变量的误分类率在0.49 ~ 0.85之间,随着ε的增大,分类变量的误分类率趋于0。当ε在102和103.时,误分类率迅速降至0。同样,连续变量的均方误差随着ε的增大而减小。随着ε的增大,由扰动数据建立的模型的性能收敛于由原始数据建立的模型的性能。其中,由原始数据建立的随机森林模型的精度为0.801,当ε = 10时,该模型的精度在0.757 ~ 0.81之间1和104,分别。
我们将局部差分隐私应用于多元高维的医疗领域数据。更高的噪音可能会增强隐私,但同时也阻碍了实用性。我们应该根据具体情况为数据扰动选择适当程度的噪声,以平衡隐私和效用。
大数据是医药创新的核心要素。原始数据的实用性较低;然而,应用机器学习(ML)等算法使我们能够充分利用这些数据[
然而,各方交换资料会引致私隐问题,而大公司侵犯私隐的情况亦日益受到关注[
去标识化的定义是“删除或替换个人标识,使个人与其资料之间难以重新建立联系。[
差别隐私[
在本研究中,我们关注的是多元医疗数据的局部差异隐私。我们应用了不同参数的差分隐私,并检查了(1)用合成数据训练算法的可行性,以及(2)关于ML技术的数据隐私和效用之间的平衡。
根据第三方用户的数据请求,差异隐私。所有者在将数据发送到外部之前对原始数据进行扰动以保护隐私。第三方用户可以是管理员,也可以是最终用户。
Dwork等[
在哪里
在应用局部差分隐私之前,所有变量都被归一化为-1到1之间的范围。首先,我们应用了有界拉普拉斯方法。由于传统的拉普拉斯分布产生无限边界,因此在应用于临床领域时存在一些局限性。例如,本应是正数的呼吸频率,在应用传统的拉普拉斯方法后可能变成负数,这是不合逻辑的。有两种方法可以克服这个问题:截断法和边界法[
我们使用Holohan等人提出的有界拉普拉斯函数[
在哪里
我们设置
因为我们应用了有界拉普拉斯方法以连续的方式将给定数据扰动到-1到1之间的范围,所以给定的输入有无限的可能性。许多医学领域的变量是分类的(顺序的或名义的),比如医学手术史。因此,在应用有界拉普拉斯方法之后,对分类变量进行了额外的后处理。我们将给定数据的中间输出分布在伯努利分布上,类似于Yang等人提出的方法[
计算k后,得到伯努利概率
也就是两个相邻可能性之间的距离。最后,对扰动数据进行离散化处理
在哪里
我们使用模拟的(随机生成的)数据进行初始验证,以确保有界拉普拉斯方法按预期运行。为了模拟现实世界的使用,我们使用了eICU合作研究数据库[
我们创建了一个等间隔分布,范围在-1到1之间,并应用了有界拉普拉斯方法。与具有无限范围的传统拉普拉斯方法不同,有界方法的范围为-1到1。
在确认有界拉普拉斯方法按预期工作后,我们创建了范围从-1到1的合成连续数据,并应用了传统拉普拉斯方法和有界拉普拉斯方法
使用合成数据的传统和有界拉普拉斯方法的比较。(A)随机生成的连续数据-1 ~ 1的直方图。(B)随机生成的分类数据直方图,初始值为0 ~ 9,归一化后为-1 ~ 1。(C)对(B)中的数据进行离散化后处理后得到的直方图。在所有场景中,均采用拉普拉斯方法
eICU合作研究数据库[
(A)连续变量和(B)分类变量的ε值和数据扰动程度。Bun:血尿素氮;Fio2:吸入氧的分数;Meanbp:平均血压;Pao2:动脉血氧分压;Pco2:二氧化碳分压;Wbc:白细胞。
模拟关于的数据实用程序
不同机器学习模型相对于ε的分类精度。使用原始数据开发的模型的性能用虚线表示。SVM:支持向量机。
在本研究中,我们开发并验证了一种用于医疗领域的局部差分隐私方法。我们使用有界拉普拉斯方法来克服越界问题。此外,我们对分类变量使用离散化后处理来处理扰动后不存在的分类变量。
在公开发布微数据时,采用了各种方法和指标。
与这些隐私指标和方法相比,
医学领域数据本质上是多维的和多模态的。
差异隐私通常在我们主要关注的数据效用和隐私之间有更强的权衡[
根据结果,对于我们的数据集,我们可以启发式地选择
本研究的一个局限性是我们只将我们的算法应用于合成数据,并且我们只在一个数据集上验证了算法。然而,也有可能直接使用其他数据集,因为我们在算法中使用了相对较少的先验数据知识。此外,我们排除了数据库中包含空值的行。由于医疗数据是高维和稀疏的,未来的研究应该针对空值进行。数据集的分布影响归一化和扰动过程。最好与每个研究所共享分布,例如每个列的最小值和最大值。该模型将从扰动数据中发展,这可能不如基于原始数据的模型准确。最优的ε值决定了扰动的程度,应设置适用于该算法。在本研究中,ε值在103.和104似乎在启发式上是合适的;这取决于所使用的数据或模型。
我们将局部差分隐私应用到医疗领域数据中,该领域数据具有多样性和高维性。应用有界拉普拉斯噪声与离散化后处理,确保没有越界的数据存在。更高的噪音可能会增强隐私,但同时也阻碍了实用性。因此,为数据扰动选择适当程度的噪声需要在隐私和效用之间进行权衡,应该根据具体情况选择这些参数。
急性生理学和慢性健康评价
吸入氧分数
健康保险流通与责任法案
物联网
机器学习
均方误差
本研究由韩国卫生和福利部资助的韩国卫生技术研发项目和韩国卫生产业发展研究所的MD-Phd/医学家培训计划(KHIDIHI19C1015010020, HI21C0974)资助。
没有宣布。