JMIR医疗信息学——用于癌症筛查准确性评估的保护隐私的分布式医疗数据集成安全系统:新型数据集成系统的开发研究

原始论文

¹大阪大学工学大学院，日本sui ita

²日本科学技术高级研究所，日本Nomi

^3.日本横滨神奈川癌症中心研究所癌症预防和控制科

⁴日本横滨神奈川癌症中心遗传医学系

⁵日本宇部山口大学创新科学技术研究生院

⁶日本川崎神奈川人类服务大学卫生创新研究生院

*这些作者贡献相同

通讯作者:

Kaname Watanabe，医学博士

癌症预防及控制科

神奈川癌症中心研究所

中尾2-3-2，朝日区

横滨,241 - 8515

日本

电话:81 45 520 2222 ext 4020

传真:81 45 520 2216

电子邮件:ka-watanabe@gancen.asahi.yokohama.jp

背景:通过整合不同机构管理的数据库中个人对应的数据，可以获得对流行病学研究有用的大数据。在执行高效、高级的数据匹配时，必须保护隐私信息。

摘要目的:保护隐私的分布式数据集成(PDDI)可以在不移动隐私信息的情况下在多个数据库之间进行数据匹配;但是，它的实际实现需要匹配的安全性、准确性和性能。此外，在没有唯一匹配键的情况下确定最优数据项是必要的。我们的目标是进行一个基本的匹配实验，使用一个模型来评估癌症筛查的准确性。

方法:为了对实际数据进行实验，我们创建了一个模拟日本癌症筛查和注册数据的数据集，并在地理位置遥远的机构之间使用PDDI系统进行了匹配实验。类似于在日文记录的数据集中发现的经验错误被人为地引入到数据集中。在实际数据库中，两个数据集共有数据的匹配键错误率设置得比预期的要高:模拟结直肠癌和乳腺癌的数据分别为85.0%和59.0%。名字、性别、出生日期和地址的各种组合被用于匹配键。为了评价匹配精度，根据癌症筛查数据点的数量计算匹配的敏感性和特异性，并根据得到的值估计匹配精度对癌症筛查敏感性和特异性的影响。为了评估性能，我们测量了中央处理器使用、内存使用和网络流量。

结果:对于特异性≥99%且敏感性高的组合，以出生日期和姓氏作为模拟结直肠癌的数据，其匹配敏感性和特异性分别为55.00%和99.85%。在模拟乳腺癌的数据中，使用出生日期和姓氏，匹配敏感性和特异性分别为88.71%和99.98%。假设癌症筛查的敏感性和特异性为90%，表观值分别下降到74.90%和89.93%。使用相同数据集和100%特异性的组合进行试验计算。当匹配敏感性为82.26%时，表观筛选敏感性维持在90%，筛选特异性下降至89.89%。对于214个数据点，没有并行化的执行时间为82分26秒，并行化的执行时间为11分38秒;数据持有机构占计算时间的19.33%。PDDI服务器的内存使用为3.4 GB，数据存储机构的内存使用为2.7 GB。

结论:我们证明了引入PDDI系统进行癌症筛查准确性评估的基本可行性。我们计划根据实际数据进行匹配实验，并与现有方法进行比较。

JMIR Med Inform 2022;10(12):e38922

doi: 10.2196/38922

关键字

数据链接；数据安全；安全的数据集成；保护隐私的联系；安全匹配隐私保护链接；私有集交集； ψ；保护隐私的分布式数据集成； PDDI；大数据；医学信息学；癌症预防；癌症流行病学；流行病学调查

流行病学研究中的分布式数据整合

随着信息技术的进步和数据收集系统的加强，卫生数据库正变得越来越丰富。与其他国家类似，日本的政府和学术团体收集和管理疾病数据库。此外，还有以患者为基础的疾病数据库和以人群为基础的队列研究数据库，这些数据库主要由研究机构收集和管理[1-5］．整合这些独立数据库中的健康信息有利于流行病学研究和公共卫生实践;例如，可以确定重要的相关性和因果关系，例如疾病发作与个人健康状况之间的相关性和因果关系，这是无法使用单一数据库确定的。因此，将不同机构管理的数据库连接起来非常重要[6-8］．

在链接独立数据库方面存在一些挑战。首先是信息隐私的保障，包括个人身份信息的处理。对隐私和数据安全的关注和考虑是至关重要的;关于个人身份信息的收集、使用和移动的政策和法规正变得越来越严格[9］．因此，在数据联动中，需要有足够的措施来防止个人信息的泄露，这导致了包括人工在内的伴随成本的增加。第二个挑战是构建高效的数据联动系统。在向每个人提供唯一的身份识别密钥(如国民身份证号码)并将多个与医疗或福利相关的数据系统相关联的国家，与不向每个公民提供这种唯一标识符的国家相比，更有效的匹配是可能的。北欧国家是使用这种独特标识符的国家的代表。然而，由于隐私问题，在连接数据库之前需要解决许多问题;因此，到目前为止，只有少数国家采用了这种标识符[10，11］．在唯一识别密钥系统尚未投入实际使用的国家，构建一个满足信息隐私要求和联动效率的系统更是难上加难。因此，在日本不可能在实际层面上把不同机构管理的数据库联系起来。

安全数据集成

为了以分散的方式安全有效地整理各机关持有的数据并加以利用，最好在不向外界泄露个人信息的情况下，尽量只交换必要的信息。然而，由于没有唯一的识别密钥，通常会使用个人信息(例如姓名和出生日期)作为密钥来进行匹配[9，12］．目前广泛使用的方法包括数据提供者或用户执行匹配操作的方法或将包含个人信息的数据集传递给第三方(数据存储库)以执行匹配的方法。这两种方法都需要移动作为进行匹配的关键的个人信息。尽管有些研究[13，14虽然已经进行了2个数据库之间的链接，但它们在安全和隐私方面仍然很脆弱。事实上，Kho等人的一份报告[13]，使用名称的哈希值来匹配名称，以便字典攻击可以确定患者所在的医院。字典攻击是一种将预先创建的患者列表的哈希值与存储在系统数据库中的哈希值相匹配的方法。由于有限范围数据(如患者列表)的哈希值容易受到字典攻击，因此应避免使用简单哈希表。此外，Kho等人的建议假设数据库由单个机构拥有。在Godlove等人的一份报告中[14]，系统等细节没有描述;因此，匹配的方法是一个黑盒。

因此，严格的信息泄露对策和相关费用是开展大规模流行病学研究的障碍。有一些技术措施可以更安全地解决这个问题。近年来备受关注的私有集交集协议(private set intersection protocol)是指由多个数据持有机构分布和管理的数据集合中通常包含的数据以外的数据对其他机构保密;因此，只有通常包含的数据才可访问[15-18］．在前一份报告中讨论的技术[18]，它是私有集交集的扩展，关注的是医疗相关信息的数据集通常由多个属性组成。指定一个属性作为匹配键后，将各个机构中通常包含的与同一键属性相关联的数据进行集成。它被称为隐私保护分布式数据集成(PDDI)，因为它在保证隐私的同时集成分布式数据。值得注意的是，与Kho等人的提议不同[13]， PDDI不是简单地匹配匹配键的哈希值;因此，关于给定患者是否被纳入机构的信息是不可用的，与Godlove等人不同的是[14]，规范不是一个黑箱，但很明显。有关新开发的PDDI系统应用于医疗数据的研究仍在进行[19］．PDDI系统有望安全整合不同机构管理的数据库中的健康信息，并使流行病学研究能够在高度安全的情况下进行。

实施技术的挑战

PDDI是一种已建立的技术，但是在实现它之前必须采取几个额外的步骤。最重要的方面是，即使在使用实际数据时，系统也能保持足够的匹配精度和性能，以实现操作目的，同时保证个人信息的安全。当没有国民身份证号或类似的标识符(如姓名和出生日期)时，通常使用的匹配键包括输入时的键入错误和由于输入格式不同而导致的正字法变化等各种错误。特别是在日本，缺乏标准化的识别格式也是造成这种影响的原因之一。因此，识别相同的人往往伴随着一定的失败率，降低了匹配的准确性[20.］．低匹配精度影响结果检测，并使系统应用的研究设计和研究主题变得狭窄。匹配精度由误差的数量和性质以及匹配方法决定[21，22］．在用作匹配键的数据类型中可能发现的错误也受到描述中使用的语言和字符的影响。解决这些错误的最佳方法必须针对不同的国家、地区和数据库分别考虑。为了提高匹配的可靠性，人们制定了各种策略。这些措施包括事先清理数据、标准化格式、将个人信息作为匹配密钥进行组合，以及采取各种措施，如概率方法[9，12，23，24］．然而，目前还不清楚，特别是在日本，在不能使用唯一匹配键的情况下，哪些数据项可以用作匹配键，以最大限度地提高匹配精度。另一个方面是系统性能。PDDI系统不会将每个机构的数据合并到一个存储机构。每个机构持有的信息在该机构内被加密，数据被收集和分发。但是，数据持有机构和用户的计算机终端规格差别很大。因此，为了使联动系统在通用环境中稳定使用，有必要对其性能进行评估。

本项目的目的是证明在使用实际数据进行匹配时可以保持个人信息的安全性，并且在操作上是准确的，并且在PDDI实现中表现非常好，并确定哪些数据项可以作为有效的匹配键，以便在没有唯一匹配键的情况下执行高精度的数据匹配。但是，由于日本严格控制个人信息作为匹配密钥的使用，因此需要使用虚拟数据进行初步实验，以使用实际数据进行实验。在这项研究中，我们评估了个人信息的保护，匹配癌症筛查准确性评估中的准确性，假设进行了大规模流行病学研究，使用人工创建的数据来模拟癌症筛查和癌症登记数据。如果在本研究中证实了可行性，我们计划使用实际数据进行验证研究。这些研究的结果有望应用于大规模的基于人群的基因组队列研究和使用患者数据库的大规模研究，从而有助于进一步激活和发展基于数据库的流行病学研究。

PDDI系统

概述

本研究中使用的PDDI的特征已在我们之前的研究中呈现[19]，其中表明PDDI由安全计算服务器、数据持有机构和客户端组成。在PDDI系统中，当每个数据样本有多个属性时，数据库分为3种类型:关键信息、分析目标数据和其他人．所要分析的数据，通常与各机构数据库中包含的密钥相关联，是隐藏和集成的。要分析的关键信息和数据可能匹配。PDDI系统的重要特征如下:

任何使用该系统的机构，包括拥有数据库的机构和接收数据的机构，都不能获得数据库之间普遍共享的关键信息以外的任何信息。与基于查询的方法不同，一个机构持有个人的一些信息这一事实不会泄露给任何其他机构。
用于匹配数据的关键信息不会泄露给任何机构，包括PDDI安全计算服务器。本文将PDDI安全计算服务器记为PDDI服务器。
每个机构的处理时间不依赖于系统中涉及的机构数量。通过该系统向每个机构提供的数据没有限制。
没有第三方机构收集、汇总数据进行匹配。

我们已经在后面的章节中描述了PDDI算法。图1展示了整个算法过程。

图1所示。隐私保护分布式数据集成(PDDI)系统算法的原理图。步骤1到4表示使用正文中描述的PDDI系统合并过程的每个步骤。每个机构持有的数据由PDDI服务器作为匹配密钥进行加密和匹配。分析目标数据与匹配密钥相关，不区分机构，仅在提供给客户端时进行解密，从不向客户端提供匹配密钥信息。

第一步:不可逆压缩和加密

各个机构使用哈希函数压缩用于整理数据集的密钥，将其转换为唯一的、不可逆的信息，并将经过同态加密和概率加密的数据发送到PDDI服务器。

步骤2:创建匹配的密钥

PDDI服务器计算从每个机构获得的加密数据的总和(称为加密匹配密钥)，并将这些数据发送到每个机构。注意，PDDI服务器没有解密密钥;因此，它无法解密已加密的匹配密钥。

步骤3:集合交集计算的目标数据分析

每个机构对接收到的加密匹配密钥进行解密，获得用于提取所有机构普遍包含的密钥的匹配密钥。接下来，与通常包含的密钥相关的分析目标数据被加密并发送到PDDI服务器。

步骤4:加密分析目标数据的集成

服务器端将各机构发送的加密分析目标数据整合后发送给客户端;匹配密钥信息不发送给客户端。在本研究中，1数据持有机构评估匹配是否正确执行;因此，数据持有机构充当客户端。

这些匹配的密钥被转换成Bloom过滤器，然后在每个机构中加密。加密是概率性的，因此，相同的明文被加密为不同的值。此外，没有所有机构的合作，它是无法解密的。然后，它们被发送到PDDI服务器。需要注意的是，压缩后的匹配密钥的加密是概率性的，这意味着即使压缩后的匹配密钥相等，压缩后的匹配密钥的密文也不相等。因此，通过使用密文，任何人都无法猜测具有匹配密钥的患者是否包含在研究所中，这与Kho等人的提议不同[13］．出于同样的原因，PDDI服务器既不透露每个机构中匹配密钥的任何信息，也不猜测具有匹配密钥的患者是否包括在该机构中。这与Kho等人提出的隐私政策完全不同[13］．

中描述了PDDI实现环境、环境构造和可用性多媒体附件1．该系统的基本部分(代码、加密等)目前正在准备发布。

实验模型:癌症筛查的准确性评估

概述

在本研究中，我们采用癌症筛查的准确性评估作为匹配实验的模型。癌症筛查是针对一般人群的癌症筛查项目的总称，该项目旨在通过早期发现癌症(二级预防)来降低死亡率。它在世界各地实施，以科学公认的降低死亡率的项目为中心，如乳腺癌、宫颈癌和结直肠癌[25-27］．根据每个项目的测试结果，评估考生患癌症的风险。被确定为高风险的患者，即高度怀疑患有癌症的患者，被鼓励到医疗机构就诊。评估癌症风险检测的准确性和控制筛查的质量，使被忽视的癌症和无用检测的数量保持在最低限度，构成癌症筛查准确性控制的主要作用。在一个项目中被判定为高风险的患者在一定时期内(通常是1-2年)是否患有癌症，需要数据来评估癌症筛查的准确性。

评估癌症筛查准确性的最大挑战是分布式数据的收集和匹配。在许多情况下，代表筛查结果的癌症发病率需要通过与癌症筛查数据库之外的另一个来源进行匹配来获得;例如，癌症登记数据库。在日本，癌症筛查数据是由执行机构市政当局分布式管理的。此外，癌症登记数据由各县以分布式方式管理。因此，在全国或区域范围内大规模收集和整理这些数据是很困难的。要处理的数据量很大，当目标城市很多时，需要很多繁琐的程序来获取数据，这些程序并不总是由城市标准化。涉及的城市越多，隐私信息的流动就越大，泄露的风险也就越大。因此，在日本，此类研究只是偶尔进行，使用的是来自少数城市的有限数据[28，29］．

该系统的特点是不限制参与机构的数量或机构持有的数据量，被认为是解决这一问题的有效手段。该系统便于将分布式癌症筛查的风险评估信息与癌症登记的癌症发病率信息进行匹配，有望实现大规模癌症筛查准确性评估，而这在目前还不可能实现。因此，我们推测将PDDI系统应用于癌症筛查准确性的评估是可能的，并利用该模型设计了实验方案。

在癌症筛查准确性评估中，主要采用敏感性、特异性、阳性预测值等指标。如果癌症筛查显示有强烈的癌症怀疑(高风险)，则被认为是阳性。在日本，建议去医疗机构检查，所以这个结果通常被称为“需要详细检查”。其他的判断是否定的。从就诊之日起1 - 2年癌症登记资料中的癌症发病率信息与筛查结果进行比较，评估患者是否患有癌症。换句话说，如果癌症筛查呈阳性(强烈怀疑患者患有癌症)，随后诊断出癌症，则在评估癌症筛查准确性的背景下，将敏感性、特异性和阳性预测价值定义为文本框1．

定义与癌症筛查准确性相关的项目

筛查敏感性=癌症患者筛查阳性的比例
筛查特异性=非癌症患者筛查阴性的比例
筛查阳性预测值=筛查结果为阳性的患者所占的比例

文本框1。定义与癌症筛查准确性相关的项目

癌症筛查的准确性通过添加“筛查”来表示，以区别于匹配的准确性，这将在“研究设计”一节中进行描述。

实际数据匹配失败的背景

在没有国民身份证号码的国家，如日本，数据一般是使用个人信息进行整理的。在这种环境下，由于用作匹配键的数据点可能出现各种错误，匹配的准确性会降低。使用匹配键时的错误来源是粗心的错误，由于文化和制度的变化而导致的正字法差异，以及符号的差异。匹配键信息也可能改变:因为搬家而改变地址，因为结婚而更名。错误的普遍程度取决于数据持有者所采用的格式和输入人员的能力。它们还深受数据编写语言的影响。在我们居住的日本，日语是事实上的官方语言，在日本的大多数系统和服务中，日语被用作默认语言。日语注册表数据中的许多错误是由于特定于语言的问题造成的。源自日语功能的错误细节描述在多媒体附件2．

研究设计

如引言部分所述，本项目的目的是演示使用PDDI系统进行数据匹配的安全性、准确性和性能，并识别作为匹配键的有效数据项。这项研究是项目的第一步。我们使用PDDI系统在模拟癌症筛查和癌症注册数据集之间进行了数据集匹配实验，其中PDDI系统的任务是在集之间匹配属于相同个体的数据。可行性评估基于数据安全性、匹配精度(敏感性和特异性)和系统性能。

在这个实验中，我们使用个人信息，如姓氏、语音拼写、出生日期和地址在多种条件下进行匹配，并评估组合匹配键可以获得多大的匹配精度。设计了各种匹配算法，以防止灵敏度下降，同时保持特异性[9，12，23］．然而，本研究的目的是评估PDDI系统，而不是新的匹配方法，以提高匹配精度;因此，没有考虑这些先进的匹配算法。更精确和实用的匹配方法将在本项目的下一步工作中考虑。相反，我们估计了匹配准确性会在多大程度上影响癌症筛查准确性的估计。并对该模型应用于本研究的可行性进行了评价。

传统的系统使用简单的哈希函数来压缩隐私信息，或者需要一台服务器来收集和处理所有数据，我们的系统使用最新的安全技术。例如，通过网络的所有数据都是加密的，解密不能由单个机构完成，只能由所有分布式机构合作完成，数据不集中。因此，验证它可以在通用计算机上实现，而不是在专用服务器上实现是很重要的。我们评估了系统的性能、总数据处理时间、内存使用和PDDI所需的网络流量。引入PDDI服务器是为了减少数据持有机构之间的处理时间和通信量。在实践中，数据持有机构的数据处理时间和收集共同包含的信息所需的总数据处理时间至关重要。

匹配实验的设置

创建了四个数据集来模拟结直肠癌和乳腺癌这两种癌症的癌症筛查和癌症登记数据。首先，使用基于web的测试数据生成服务，该服务在日本向公众开放，我们创建了包括姓名、性别、出生日期和地址在内的伪数据，作为匹配关键信息[30.-32］．该服务自动从随机组合中创建个人信息，如姓名、出生日期、地址和电话号码，这在日本很常见。通过选择所需的信息项和所需的生成数据量，用户可以获得模拟不存在的个人信息的数据。为了解释任何特定服务产生的数据可能包含某些倾向或偏见的可能性，我们从3个单独的服务中分别生成了所有数据点的三分之一。接下来，从创建的伪数据中，选取60例结直肠癌和62例乳腺癌作为可匹配的常见数据。这些通常包括在癌症筛查和癌症登记数据集中。为了使模拟数据与实际数据相似，我们咨询了在登记管理方面有丰富经验的工作人员和流行病学研究专家医生，并对数据进行了修改，以包括通常经验识别的错误和正字法变异。经验表明，数据集中的错误数预计小于10%。先前的研究报告指出，在疾病登记和医疗和行政数据库中，用于匹配关键字的可用数据中，错误和遗漏的数量约为15%或更少[33-35］．然而，由于文化和社会的变化预计会影响错误的发生率，错误的实际流行率是未知的。因此，为了创建更难以匹配的数据，需要重写数据以增加错误数量，以至于一个数据点在多个项中都有错误。结直肠癌数据集的错误比乳腺癌数据集的错误更普遍，因此结直肠癌数据集比乳腺癌数据集更难匹配。随后，将剩余的伪数据添加，最终生成2000次大肠癌筛查、17866次大肠癌筛查、1048次乳腺癌筛查、29949次乳腺癌筛查的伪数据集。除匹配键之外的伪数据项包括所有数据集中每个数据库的序列号和伪标识号。在结直肠癌筛查数据集中随机添加以下伪数据:试验日期、试验结果、日本常用的粪便潜血试验的风险评估。诊断名称;《国际疾病分类》第十版规则;并将诊断日期添加到癌症登记数据集中。 Pseudodata items other than these matching keys were only decorative and did not affect the matching experiment.表1列出添加到数据集中的错误和正字法变体。在本研究实验中使用的数据集中，日本特有的误差示例见图S1多媒体附件2．

表1。数据集中包含的误差和正字法变量。

类、错误类型和匹配键				数据点数，n (%)
				结直肠癌(n=60)		乳腺癌(n=62)
数据输入错误
	打字错误
		名字	3 (5)		1 (2)
		出生日期	15 (25)		0 (0)
		地址	6 (10)		2 (3)
		性	5 (8)		0 (0)
	汉字转换错误
		名字	5 (8)		6 (10)
		地址	2 (3)		0 (0)
	误读
		名字	10 (17)		8 (13)
	丢失的信
		名字	2 (3)		1 (2)
	遗漏
		地址	4 (7)		0 (0)
		名字	10 (17)		1 (2)
拼写变体
	不同的汉字
		名字	7 (12)		4 (6)
	格式
		地址	5 (8)		15 (24)
数据的修改
	名称的改变
		名字	2 (3)		1 (2)
	别名
		名字	2 (3)		0 (0)
	移动
		地址	2 (3)		8 (13)
多个键不匹配				25 (42)		14 (23)
总计				51 (85)		36 (59)

在实验中，使用了6条信息——姓氏(汉字或假名)、名字(汉字或假名)、出生日期和性别。本实验通过将≥2张图像组合进行匹配。在结直肠癌的病例中，有57种可能的组合:₆C₂+₆C_3.+₆C₄+₆C₅+₆C₆．对于乳腺癌，除少数特殊病例外，所有筛查目标均为女性，因此只有26种组合是可能的:₅C₂+₅C_3.+₅C₄+₅C₅．

在PDDI协议中，一个称为Bloom过滤器的数据数组是逐元素加密的。超过90%的总执行时间都花在这个加密过程上。数据数组中一个元素的加密独立于其他元素的加密，并行化很容易。Python标准库中的多处理模块(3.9版;Python Software Foundation)用于这种并行化。实验使用的PC环境为:中央处理器(CPU)， Intel (R) Xeon (R) CPU E5-2690 v4@2.60GHz(28核)，内存48gb。所有机构的程序都在一台PC上执行。

评价

与匹配准确性相关的项目在下面以“匹配”来区分，以区分癌症筛查的准确性。为了计算匹配精度，以伪癌筛查数据为参考点，当数据匹配伪癌注册数据中指定的匹配关键字条件时，考虑匹配积极的．没有匹配数据的情况被定义为负．该匹配实验是在两个数据集中预先模拟同一个人的数据集之间进行的。因此，判断匹配的真假如下:认为匹配结果正确匹配到同一个人数据的情况真正的而那些匹配结果没有正确匹配属于同一个人的数据的情况则被考虑在内假．换句话说，a假阳性意味着最初在不同个人下注册的数据被错误匹配，并且a假阴性意味着应该匹配的数据(因为它们属于同一个人)没有匹配。在唯一识别个人的匹配键完全没有错误的环境中，匹配是完全准确的。在本实验中，将正匹配与负匹配之间的对应关系及其真假进行交叉制表，计算匹配灵敏度和匹配特异性，以评价匹配精度。在此基础上，提取出匹配灵敏度高、匹配特异性强的匹配键组合，即匹配精度好。

为了估计匹配准确性对评估癌症筛查准确性的影响，我们参考了过去的研究，并假设了两种情况:一种情况下，癌症筛查的真实准确性涉及到90%的敏感性和90%的特异性，另一种情况涉及到60%的敏感性和90%的特异性[36-38］．计算真实值与估计值之间的误差，以评估筛查敏感性、筛查特异性和筛查阳性预测值。为了达到匹配精度，模拟的方式如下:在匹配灵敏度为100%、匹配特异性为100%的场景下，逐步改变数值，每个参数等价于匹配实验中观察到的相应值。该估计假设一组人在某一年接受了癌症筛查。根据日本的平均患病率，新发癌症发病率设定为每10万人-年775.7例。数据量不影响估计，但在计算时，根据本实验参数设置为1000人。

在性能评估实验中，我们试图模拟一个场景，在这个场景中，系统由地理上相距遥远的机构使用。因此，我们使用了安装在大阪大学和山口大学的6台计算机(其中4台模拟数据持有机构)。在实验中，我们测量了3种数据大小的CPU使用、内存使用和网络流量¹⁰, 2¹²，和2¹⁴．我们还实现了多进程并行化，并测量了其加速比。

伦理批准

这项研究得到了神奈川癌症中心(2021流行病学-135)的机构审查委员会的批准。

数据保护

在我们的实验中，2个分散的机构独立持有癌症筛查和癌症登记数据，其中每个数据集包括出生日期、名字、姓氏和性别。这些术语用于匹配键。在我们的系统中，除了使用概率加密之外，所有通过研究所外的网络匹配的密钥和信息都被加密，并且没有服务器处理原始数据存储在不同的分布式研究所。换句话说，没有任何机构拥有解密密钥，可以公开所有信息。这意味着我们的系统不会从任何机构转移任何隐私信息，从而避免了隐私风险。

匹配精度

使用PDDI进行匹配的结果将在后面的小节中显示。从初步实验来看，当只使用1个匹配键时，匹配的假阳性数增加，特异性显著降低(表S2 .)多媒体）.图2显示了假阳性和假阴性的结果，其中结肠直肠癌和乳腺癌的假数据使用各种信息组合进行匹配。在结直肠癌数据的情况下，匹配的最小假阴性数为27，匹配的最小假阳性数为0。希望输出所有60个项目的公共数据。然而，最多33(60 - 27)个案例是正确输出的。对于乳腺癌数据，匹配的最小假阴性数为7，匹配的最小假阳性数为0。类似地，希望输出62个常见数据项，但正确输出最多55(62 - 7)个案例。

图2。假阳性和假阴性的数量。点数是根据每次实验设置的假阳性和假阴性的数量来放置的。A部分是模拟结直肠癌的数据结果，B部分是模拟乳腺癌的数据结果。

表2给出了匹配结果的摘录。仅显示特异性≥99%的组合。在这个伪数据集中，可以推断匹配键的组合，包括出生日期，是特别有效的。在结直肠癌伪数据中，特异度≥99%的组合中，以出生日期和名(假名)为关键字的匹配敏感性最高;匹配敏感性为55.00%，特异性为99.85%。对于乳腺癌伪数据，以出生日期和姓氏(假名或汉字)为关键字的匹配敏感性最高，匹配敏感性为88.71%，匹配特异性为99.80%。结合100%匹配特异性，模拟结直肠癌数据的匹配敏感性为48.33%，模拟乳腺癌数据的匹配敏感性为82.26%。

表2。癌症筛查与癌症登记数据的匹配结果(节选)。

类^一个和匹配键		假阳性n	假阴性n	灵敏度(%)	特异性(%)
结肠直肠癌
	出生日期，名字(假名)	3.	27	55.00	99.85
	出生日期，名(假名)，姓(假名)	0	31	48.33	One hundred.
	出生日期，性别，名字(假名)	2	28	53.33	99.90
	出生日期，性别，姓(假名)	1	29	51.67	99.95
乳腺癌
	出生年月，姓(假名)	2	7	88.71	99.80
	出生日期、姓(汉字)	2	7	88.71	99.80
	出生日期，名字(汉字)	1	9	85.48	99.90
	出生日期，名(假名)，姓(汉字)	0	11	82.26	One hundred.

^一个癌症筛查和癌症登记数据之间的匹配实验结果为每个匹配键所使用。匹配键列中显示的所有关键数据都成功对应的情况被认为是积极匹配。

表3基于本实验中使用的模型，显示了匹配精度对癌症筛查敏感性和特异性估计的影响，评估了癌症筛查的准确性。匹配灵敏度分别为85%、50%和90%，匹配特异性分别为99.9%、99.8%和99.99%。假设匹配特异度设置为100%时，筛选敏感性和特异度原值均为90%，将匹配特异度降低为90%、85%和50%，则筛选特异度表观值分别为89.94%(- 0.06%)、89.91%(- 0.10%)和89.69%(- 0.34%)。因此，随着匹配敏感性的降低，筛选特异性被低估。如果匹配特异性降低，则筛选敏感性被低估。根据模拟乳腺癌数据集的实验结果，以88.71%的匹配敏感性和99.80%的匹配特异性计算，筛选敏感性的表观值为72.09%(−19.9%)，筛选特异性的表观值为89.93%(−0.08%)，且筛选敏感性的表观值变化率较大。而当采用另一种组合的结果，以匹配敏感性为82.26%，匹配特异性为100%计算时，筛选敏感性的表观值为90%(无下降)，筛选特异性的表观值为89.89%(−0.12%)。也就是说，当匹配特异性足够大时，即使匹配敏感性稍低，无论是筛查敏感性还是筛查特异性，与原始值的变化都很小。如表3，即使在假设原始筛查敏感性为60%的估计中，这种趋势也保持不变。此外，在筛选的阳性预测值方面，匹配敏感性的降低会使筛选的阳性预测值小于原值，匹配特异性的降低会使筛选的阳性预测值大于原值。匹配特异性对筛查阳性预测值的影响也更大。

表3。估计匹配精度对筛选精度的影响^一个．

匹配精度假设(%)			筛查敏感性(%)			筛查特异性(%)			阳性预测值(%)
灵敏度	特异性	真正的		估计	真正的		估计	真正的		估计
90	One hundred.	90		NA^b	90		89.94	6.6		5.92
85	One hundred.	90		NA	90		89.91	6.6		5.59
50	One hundred.	90		NA	90		89.69	6.6		3.29
One hundred.	99.99	90		88.99	90		NA	6.6		6.58
One hundred.	99.90	90		80.93	90		NA	6.6		6.67
One hundred.	99.80	90		73.70	90		NA	6.6		6.76
88.71	99.80	90		90.00	90		89.89	6.6		6.02
82.26	One hundred.	90		72.09	90		89.93	6.6		5.41
90	One hundred.	60		NA	90		89.96	4.5		4.03
85	One hundred.	60		NA	90		89.94	4.5		3.81
50	One hundred.	60		NA	90		89.81	4.5		2.24
One hundred.	99.99	60		59.37	90		NA	4.5		4.49
One hundred.	99.90	60		54.33	90		NA	4.5		4.58
One hundred.	99.80	60		49.81	90		NA	4.5		4.67
88.71	99.80	60		48.81	90		89.96	4.5		4.17
82.26	One hundred.	60		60.00	90		89.68	4.5		3.18

^一个表中显示了将癌症筛查的真实敏感性设置为90%和60%，将真实特异性设置为90%时，匹配准确性对癌症筛查准确性估计的影响。癌症发病率约为每年775.7人，这是日本的全国平均水平。

^bNA:不影响。“NA”表示真实值与估计值之间没有变化。斜体的值表示使用实验数据得到的估价值。

原则上，当匹配敏感性为100%时，即使匹配特异性降低，真阴性和假阳性的癌症筛查都以相同的几率被误诊为癌症。因此，癌症筛查的特异性并没有改变。同样，当匹配特异性为100%时，即使匹配敏感性降低，无论是真阳性还是假阴性的癌症筛查，都会以同样的几率被误诊为“无癌”。因此，癌症筛查的敏感性并没有改变。因此，除非使用从匹配实验中获得的匹配敏感性和匹配特异性，否则不显示这些值，并将其描述为不受影响。

性能

性能评估实验的结果在后面的章节中。实验所用计算机的规格列在表S1中多媒体附件1．图3显示数据量和执行时间之间的关系。

图3。执行时间。该图显示了数据量和执行时间之间的关系。实线表示未并行化的执行时间，虚线表示并行化后的执行时间。

如图3，数据量和执行时间几乎成正比。此外，对于2¹⁴(16384个数据点)，非并行执行时间为82分26秒，而并行执行时间为11分38秒;因此，通过并行化可以观察到7.1倍的加速。图4显示了当进程在2上执行时，PDDI服务器和数据持有机构的CPU使用的变化¹⁴没有并行化的数据点。从图中可以看出，80.67%的执行时间是由PDDI服务器处理的，数据持有机构的计算时间仅为19.33%。

图4。中央处理单元(CPU)使用率的变化。这些图表显示了在214个数据点上执行过程时，保护隐私的分布式数据集成(PDDI)服务器和数据持有机构的CPU使用情况的变化。A部分表示PDDI服务器的结果，B部分表示数据持有机构的结果。

图5显示了PDDI服务器和数据持有机构的数据量和内存使用之间的关系。内存使用随数据量线性增加。然而，即使在并行化2¹⁴其中，PDDI服务器的内存不超过3.4 GB，数据持有机构的内存不超过2.7 GB。

图5。内存使用情况。这些图表显示了保护隐私的分布式数据集成(PDDI)服务器和数据持有机构的数据量和内存使用之间的关系。A部分表示PDDI服务器的结果，B部分表示数据持有机构的结果。

匹配实验评价

在本研究中，我们以癌症筛查的准确性评估为模型，通过匹配癌症筛查和癌症登记数据进行匹配实验。

在实验中，任何匹配的信息都被转换成Bloom过滤器，在每个机构内加密，然后发送到PDDI服务器。本研究采用概率加密。这意味着相同的匹配密钥被压缩并随机加密为不同的密文，例如，癌症登记数据集中患者A和B的每个出生日期都是19970911，但压缩和随机加密互不相等。与使用哈希值的简单匹配不同[13]，由于采用概率加密技术，将相同的值加密为不同的值，因此该方案对字典攻击是安全的。

多个组合所使用的匹配键都在日本大部分数据库中注册，这些匹配键特别优秀，几乎没有假阳性和假阴性。这些键极有可能应用于现有的数据库。对于包含85%匹配关键字错误的模拟结直肠癌数据，匹配敏感性保持在50%范围内，但对于包含59%匹配关键字错误的模拟乳腺癌数据，匹配敏感性值约为85%。在这个实验中，我们故意创建了一个难以匹配的数据集，因为错误的发生率很高，而且大量的数据在多个匹配键中包含错误。2个数据集中包含的误差不同，如图所示表1，这些结果不能简单比较，但一般来说，匹配键中的错误数越少，匹配精度越高。尽管文化背景和时代不同，但以往的研究表明，疾病登记、医疗和政府数据库中匹配关键数据(如姓名、邮政编码和出生日期)的错误和遗漏率<15% [33-35］．根据具有丰富登记管理经验的工作人员的意见，我们预测，在日本用于癌症筛查准确性评估的实际数据中，大约有10%包含匹配键错误。原则上，假阴性率不能大于数据集中包含错误数据的百分比;因此，利用实际数据进行验证实验，估计可获得≥90%的匹配灵敏度。本实验中2个数据集的误差分布相同，普遍率设置为10%。在结直肠癌数据中，以出生日期和名(假名)为匹配关键字时，匹配敏感性为94.70%。在乳腺癌数据中，以出生日期和姓氏(假名或汉字)为匹配关键字时，匹配敏感性为98.09%。关于匹配的特异性，键的组合如表2在本估计中保持高特异性≥99%。

在实际应用中，对进行匹配所要得到的结果和评价指标的影响比匹配精度的数值更为重要。如表3在评估罕见事件(如癌症)的检测准确度时，匹配特异性值的变化对检测准确度的表观值有显著影响。在我们的模型中，匹配敏感性的轻微降低对筛查敏感性和筛查特异性的影响相对较小。也就是说，为了防止低估筛查敏感性和筛查特异性，尽量保持匹配特异度是非常重要的。估计表明，匹配特异性为100%的匹配键组合，即使匹配敏感性较低，也对癌症筛查的敏感性和特异性影响较小。假设原筛查敏感性和筛查特异性为90%，如果匹配特异性≥99.97%，即使匹配特异性不是100%，即使匹配敏感性为85%，筛查敏感性也保持在5%以内。因此，在考虑准确计算癌症筛查的敏感性估计值时，最好选择在不降低匹配特异性的前提下，尽可能提高匹配敏感性的匹配键或匹配算法。匹配特异性对筛查阳性预测值的影响大于匹配敏感性。然而，匹配敏感性比筛查敏感性或筛查特异性更容易受到影响。因此，在以筛选阳性预测值为指标时，在选择匹配键时，既要考虑匹配的特异性，又要考虑匹配敏感性的降低。

本实验中的匹配特异性定义为在癌症筛查数据集中包含的数据中，通过匹配确定没有患癌症的人数除以没有患癌症的人数得到的值。因此，匹配的特异性受到癌症登记数据集与癌症筛查数据集的数据大小之比以及癌症筛查数据集中包含的真实癌症患者的百分比的影响。本实验中使用的癌症筛查和癌症登记数据集分别约为1000 - 2000和17000 - 30000。在癌症筛查率较低的日本，这大致相当于小城市的癌症筛查数量和大县的癌症数量;癌症筛查数据由作为实施机构的每个市管理，癌症登记数据由每个县管理。流行病学研究可能需要处理更大的癌症筛查数据。在这种情况下，与癌症注册数据集的数据大小差异小于本实验。因此，匹配特异性预期会更高。由于本实验数据集的误差并不一定反映实际的患病率，本实验的敏感性和特异性只是参考值。即便如此，通过适当调整匹配条件，PDDI系统可以用于评估癌症筛查的准确性。

性能评估实验验证了PDDI系统的执行时间几乎与数据量成正比，并行执行的执行时间为每1000个数据样本43秒。在使用伪数据库的情况下，大约在21分钟内完成了执行，这对于流行病学研究来说是足够的。安装在数据保存组织中的计算机的性能对执行时间的影响相对较小，约占总数的20%，内存使用< 1gb。因此，事实证明，即使与普通笔记本电脑的性能相比，处理速度也是可以接受的。本实验中PDDI系统的最大网络流量为858 Mbps。即便如此，通信所消耗的执行时间很小，如果数据持有组织的通信速度≥10mbps，我们认为使用该系统不会有任何问题。

使用实际数据进行下一步实验的挑战

在本研究的基础上，我们计划使用实际的癌症筛查和癌症登记数据进行验证实验。在这个实验中，实际数据中的误差数是未知的。因此，实验是使用一个有大量误差的数据集进行的。在接下来使用实际数据的匹配实验中，我们计划确定与部分使用基于人的判断的匹配方法相比，可以获得的匹配精度的程度。在此基础上，可以现实地估计匹配会在多大程度上导致检查精度的误差。因此，有可能在实际应用中执行更高质量的评估。在性能评价方面，从本实验的结果可以看出，终端的计算时间和内存消耗取决于数据量。本实验的主要目的是评估可行性，所使用的数据集所包含的项目比实际数据所包含的项目要少。因此，在下一阶段，我们将使用实际可能使用的市、县规模的数据来确认绩效。在这些结果的基础上，有必要进行试算，以确定可以匹配的数据集的大小。

实用流行病学研究的实施

通过这个实验和估计，我们证明了使用PDDI系统进行匹配进行癌症筛查准确性评估值得考虑。该系统有望应用于其他类型的流行病学研究，因为它有助于不同机构管理的数据库之间的数据匹配。我们以典型的流行病学研究——队列研究和病例对照研究为例，基于匹配敏感性和特异性来考虑其适用性。

假设队列研究检查了一个因素与癌症发病率之间的关系，将确定具有该因素的人与不具有该因素的人的癌症发病率的风险比，队列中每个人的数据都与癌症登记数据相匹配，以记录癌症发病率。中表S3给出了该设置的估计多媒体附件4．风险比不会因为匹配灵敏度的降低而改变真实值。如果匹配特异性降低，则风险比被低估。但是，从估计中可以看出，即使因子的患病率为75%，在与本匹配实验相当的匹配敏感性和匹配特异性上，风险比下降约10%。接下来，让我们假设进行一项病例对照研究，使用的数据集通过匹配将要检查的因素与关于疾病存在或不存在的数据联系起来。表S4多媒体附件4显示了一种患病率很高的常见疾病，这里是糖尿病的试验计算，表S5多媒体附件4显示了溃疡性结肠炎作为低患病率疾病的一个例子的试验计算。较差的匹配精度导致人群和对照人群中因子暴露的系统性误差，这往往会低估优势比估计值。偶尔，这对低流行率疾病的优势比有较大影响。因此，当假设在队列研究和病例对照研究中使用PDDI系统时，必须谨慎选择目标疾病并低估优势比。然而，如果进行适当的计算，似乎可以充分研究各种各样的应用。

PDDI系统的优势在于，即使是在≥3个数据库之间，也可以以已经匹配的状态向用户提供数据。目前，在没有唯一识别密钥的情况下，整合不同机构管理的数据的研究中，需要一个循序渐进的过程，例如从所有目标机构收集数据，然后进行匹配或缩小目标受众，重复匹配。然而，在PDDI系统中，虽然数据分布并存储在不同的机构中，但可以检索满足这些条件的匹配数据。与其他方法一样[39]，它不假设预先联系。因此，当从≥3个机构的数据库中获得的数据进行组合和分析时，PDDI系统尤其有用。由于这一特点，即使在日本这样的环境中，即癌症筛查数据分布和存储在许多城市，因此需要多次移动私人信息的环境中，该系统也可以安全有效地集成数据。

限制

这项研究有几个局限性。这项研究是使用真实数据进行实验的初步步骤。本实验使用的数据集是使用软件创建的伪数据集，对公众开放，不反映实际数据中混合错误的数量或比例，也不涵盖真实数据中包含的所有类型的错误。由于实际数据所包含的错误类型和数量取决于各个数据库的输入方式和输入人的能力，因此需要后续使用实际数据进行验证实验。在本研究中，我们只在所有所选的匹配键都匹配的情况下进行匹配，没有使用复杂的部分匹配算法。我们没有考察本研究中显示的匹配敏感性和匹配特异性在多大程度上可以通过进一步改进匹配方法来提高。实验以日本本地数据库为环境，我们注意到错误格式也受到语言、文化和制度的影响。因此，这一结果不太可能直接适用于其他国家和地区。

结论

作为在流行病学研究中实施PDDI的第一步，我们通过使用虚拟数据的匹配实验，从安全性、匹配准确性和性能方面评估了其在癌症筛查准确性评估模型中的可行性。该系统可以只整理与共享数据相关的信息，而不泄露由多个机构分发和管理的数据，也不使用第三方。在匹配实验中，利用实验获得的匹配敏感性和匹配特异性估计对癌症筛查准确性指标的影响，结果表明，保持较高的匹配特异性，可以以最小的误差评估筛查敏感性和筛查特异性。由于该系统的特点，减少了许多流行病学研究中研究人员和数据提供者在个人信息管理和整理工作中所需要的人力和成本，有望进一步提高研究活动的效率和速度。今后，我们将利用现有数据，并与现有方法进行比较，进一步验证实际应用。

致谢

这项研究部分得到了教育、文化、体育、科学和技术部2018年“社会5.0实现研究中心支持项目”和日本科学促进协会的科学研究资助(JP21H034438)的支持，并得到了Editage的英语编辑和翻译支持。AM, YT和KN是本研究中讨论的保护隐私的分布式数据集成系统的开发者。大阪大学拥有与该技术相关的专利权。

作者的贡献

AM、YT和KN负责开发保护隐私的分布式数据集成(PDDI)系统和环境。AM, YT, KN和HN设计了这项研究。KW和HN提供了实验中使用的模拟数据，YT和KN利用这些数据进行了支护实验。所有作者对结果进行了分析和解释。在撰写稿件时，YT负责PDDI系统及匹配实验;KN进行性能评价;AM为PDDI系统和工程考虑;流行病学背景、模拟和流行病学考虑的KW。SN和YW分别从流行病学和工程学的角度对手稿进行了批判性的审查和建议。AM负责工程领域的全面监督和监督，HN负责流行病学领域的全面监督和监督。 AM and KW contributed equally to the preparation of this paper.

利益冲突

没有宣布。

‎

多媒体附件1

保护隐私的分布式数据集成(PDDI)实现环境、环境构建和可用性。

DOCX文件，23kb

‎

多媒体附件2

实际数据匹配失败的文化背景和实验数据集中针对日语的错误实例。

DOCX文件，185 KB

‎

多媒体

匹配键组合和文本中未描述的匹配结果。

DOCX文件，21 KB

‎

多媒体附件4

估计流行病学研究中匹配准确性对结果评价的影响。

DOCX文件，33 KB

Matsuda T, Sobue T.日本基于人群的癌症登记的近期趋势:促进癌症登记的法案和历史登记的巨大变化。中华临床肿瘤学杂志2015 Feb;20(1):11-20。［CrossRef] [Medline］
Anazawa T, Miyata H, Gotoh M.日本癌症登记:国家临床数据库和特定部位癌症登记。中华临床肿瘤学杂志2015 Feb;20(1):5-10。［CrossRef] [Medline］
日本罕见病资料登记处(日文)。日本医学研究开发机构。URL:https://www.raddarj.org[2022-03-03]访问
Tsugane S, Sawada N. JPHC研究:典型日本饮食的设计和一些发现。中华医学杂志2014年9月7日;44(9):777-782。［CrossRef] [Medline］
竹内K，内藤M，河井S，冢本M, Kadomatsu Y，久保Y，等。日本多机构协作队列(J-MICC)研究概况。中国流行病学杂志2021年12月05日;31(12):660-668 [免费全文] [CrossRef] [Medline］
Emery J, Boyle D.数据链接。澳大利亚内科医生2017;46(8):615-619。［Medline］
Pratt NL, Mack CD, Meyer AM, Davis KJ, Hammill BG, Hampp C，等。药物流行病学中的数据链接:呼吁严格的评估和报告。中国药物流行病学杂志2020年1月29日(1):9-17。［CrossRef] [Medline］
哈格-约翰逊G.苏格兰纵向数据联系的机会。Scott Med J 2016 Aug;61(3):136-145。［CrossRef] [Medline］
记录链接方法概述。见:为卫生服务研究连接数据:框架和教学指南。马里兰州罗克维尔:医疗保健研究和质量机构(美国);2014.
Ludvigsson JF, Almqvist C, Bonamy AE, Ljung R, Michaëlsson K, Neovius M，等。瑞典总人口登记册及其在医学研究中的使用情况。欧洲流行病学杂志2016年2月31日(2):125-136。［CrossRef] [Medline］
Laugesen K, Ludvigsson JF, Schmidt M, Gissler M, Valdimarsdottir UA, Lunde A，等。北欧卫生登记为基础的研究:卫生保健系统和主要登记的审查。临床流行病学2021;13:533-554 [免费全文] [CrossRef] [Medline］
记录链接、实体解析和重复检测的数据匹配概念和技术。柏林，海德堡:施普林格;2012.
柯安，Cashy JP, Jackson KL, Pah AR, Goel S, Boehnke J，等。芝加哥保护隐私的电子健康记录链接工具的设计与实现。美国医学信息学会2015年9月22日(5):1072-1080 [免费全文] [CrossRef] [Medline］
神爱T，球AW。健康信息交换中的患者匹配。perspective Health Inf Manag 2015;12(春季):1g [免费全文] [Medline］
Kissner L, Song D.隐私保护集合操作。发表于:CRYPTO'05:第25届密码学进展国际年会论文集;2005年8月14日至18日;加州圣巴巴拉。［CrossRef］
许多D, Burkhart M, Dimitropoulos X.快速私人集操作与SEPIA。TIK报告，2012年3月https://www.research-collection.ethz.ch/handle/20.500.11850/58312[2022-04-04]访问
Ion M, Kreuter B, Nergiz A, Patel S, Raykova M, Saxena S，等。关于安全计算的部署:私有交集-和-基数。见:2020年IEEE欧洲安全和隐私研讨会论文集(EuroS&P)。2020年发表于:2020年IEEE欧洲安全和隐私研讨会(EuroS&P);2020年9月07-11日;意大利热那亚。［CrossRef］
Miyaji A, Nakasho K, Nishida S.医疗数据的隐私保护集成:一个实用的多方私有集交集。J Med Syst 2017 Mar 16;41(3):37 [免费全文] [CrossRef] [Medline］
Miyaji A, Mimoto T.应用于生活安全和医疗领域的大数据综合利用安全基础设施技术。可汗:施普林格;2020.
Winkler W.匹配和记录链接。电线Comp统计2014年7月02日;6(5):313-325。［CrossRef］
苏伦森，李志强，李志强，等。流行病学研究二级数据来源评估框架。国际流行病学杂志1996 4月25日(2):435-442。［CrossRef] [Medline］
Tromp M, Ravelli AC, Bonsel GJ, Hasman A, Reitsma JB。模拟数据集的结果:概率记录链接优于确定性记录链接。中华临床流行病学杂志2011年5月;64(5):565-572。［CrossRef] [Medline］
Sayers A, Ben-Shlomo Y, Blom AW, Steele F.概率记录链接。国际流行病学杂志2016 Jun;45(3):954-964 [免费全文] [CrossRef] [Medline］
Jaro马。大型公共卫生数据文件的概率关联。中华医学杂志1995;14(5):491-498。［CrossRef] [Medline］
关于促进基于科学证据的癌症筛查的页面(日文)。国家癌症中心癌症控制研究所。URL:http://canscreen.ncc.go.jp[2022-03-03]访问
筛查和早期诊断。英国国民健康保险制度。URL:https://www.england.nhs.uk/cancer/early-diagnosis/screening-and-earlier-diagnosis/[2022-03-03]访问
美国癌症协会癌症早期检测指南。美国癌症协会。URL:https://www.cancer.org/healthy/find-cancer-early/american-cancer-society-guidelines-for-the-early-detection-of-cancer.html[2022-03-03]访问
Tanaka R, Matsukata M.关于2017财年利用癌症登记数据准确管理癌症筛查的示范项目-青森县委托项目的报告(日语)。青森县2018年3月[免费全文］
2017年利用癌症登记数据进行癌症筛查的准确性控制项目报告。厚生劳动省研究小组。2018.URL:https://www.pref.wakayama.lg.jp/prefg/041200/h_sippei/gannet/04/05_d/fil/houkokusyo.pdf[2022-12-19]访问
伪个人信息数据生成服务。hogehoge.tk。URL:http://hogehoge.tk/personal/[2021-05-29]访问
个人信息。Kazina。URL:http://kazina.com/dummy/[2021-05-29]访问
测试数据生成器(日语)。山形。URL:http://yamagata.int21h.jp/tool/testdata/[2021-05-29]访问
Muse AG, Mikl J, Smith PF.使用纽约州艾滋病登记处和出院档案的确定性程序评估匿名记录链接的质量。中华医学杂志，1995;14(5):499-509。［CrossRef] [Medline］
计算机记录链接在队列研究中的应用。流行病学杂志1998;20(1):112-121。［CrossRef] [Medline］
朱勇，陈晨。基于多重间接个人标识符的确定性记录关联的有效性研究。Circ cardiovascular qualal Outcomes 2014 May;7(3):475-480。［CrossRef］
李志强，李志强，李志强。结直肠癌的筛查策略。消化病学2020年1月;158(2):418-432。［CrossRef] [Medline］
Koliopoulos G, Nyaga VN, Santesso N, Bryant A, Martin-Hirsch PP, Mustafa RA，等。一般人群宫颈癌筛查的细胞学对比HPV检测Cochrane Database Syst Rev 2017 Aug 10;8(8):CD008587 [免费全文] [CrossRef] [Medline］
滨岛C, Ohta K, Kasahara Y，片山T，中山T，本条S，等。有无临床乳房检查的乳房x线摄影筛查的荟萃分析。癌症杂志2015 july;106(7):812-818 [免费全文] [CrossRef] [Medline］
川本Y，白井T，神尾K，田中Y，佐本K.信息处理装置，信息处理方法，程序和信息处理系统。谷歌专利。2014。URL:https://patents.google.com/patent/US20140012862A1/en?oq=US20140012862A1[2022-04-06]访问

‎

CPU:中央处理器

PDDI:保护隐私的分布式数据集成

C·洛维斯编辑;提交17.05.22;同行评议:C Sun, SY Shin;作者评论07.10.22;修订版本于04.11.22收到;接受29.11.22;发表30.12.22

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息，https://medinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

用于癌症筛查准确性评估的保密分布式医疗数据集成安全系统:新型数据集成系统的开发研究