JMIR医学信息学——用于癌症筛查准确性评估的隐私保护分布式医疗数据集成安全系统:新型数据集成系统的开发研究

原始论文

¹日本水田大阪大学工学研究生院

²日本先进科学技术研究所，日本诺美

^3.日本横滨神奈川癌症中心研究所癌症防治部

⁴日本横滨神奈川癌症中心遗传医学部

⁵日本宇部山口大学科技创新研究生院

⁶日本川崎神奈川人类服务大学健康创新研究生院

这些作者的贡献相同

通讯作者:

渡边名，医学博士，博士

癌症防治科

神奈川癌症中心研究所

2-3-2中尾，朝日区

横滨,241 - 8515

日本

电话:81 45 520 2222转4020

传真:81 45 520 2216

电子邮件:ka-watanabe@gancen.asahi.yokohama.jp

背景:通过在不同机构管理的数据库之间整合个人对应的数据，可以获得流行病学研究的大数据。在执行高效的高级数据匹配时，必须保护隐私信息。

摘要目的:分布式数据集成(PDDI)可以在不移动隐私信息的情况下实现多个数据库之间的数据匹配;然而，它的实际实现需要匹配安全性、准确性和性能。此外，在没有唯一匹配键的情况下识别最佳数据项是必要的。我们的目标是用一个模型来进行一个基本的匹配实验，以评估癌症筛查的准确性。

方法:为了对实际数据进行实验，我们创建了一个模拟日本癌症筛查和登记数据的数据集，并在地理位置遥远的机构之间使用PDDI系统进行了匹配实验。类似于在日文记录的数据集中发现的经验性错误被人为地引入到数据集中。两个数据集共有数据的匹配键错误率在实际数据库中设置得足够高，模拟结直肠癌和乳腺癌数据的匹配键错误率分别为85.0%和59.0%。姓名、性别、出生日期和地址的各种组合用于匹配键。为了评估匹配准确性，根据癌症筛查数据点的个数计算匹配敏感性和特异性，并根据所得值估计匹配准确性对癌症筛查敏感性和特异性的影响。为了评估性能，我们测量了中央处理单元使用情况、内存使用情况和网络流量。

结果:对于特异性≥99%且灵敏度较高的组合，采用出生日期和姓名作为模拟结直肠癌的数据，匹配灵敏度和特异性分别为55.00%和99.85%。在模拟乳腺癌的数据中，采用出生日期和姓氏，匹配灵敏度和特异性分别为88.71%和99.98%。假设肿瘤筛查的敏感性和特异性为90%，则表观值分别降至74.90%和89.93%。使用相同数据集和100%特异性的组合进行试验计算。当匹配灵敏度为82.26%时，表观筛选灵敏度维持在90%，筛选特异性降至89.89%。对于214个数据点，未并行化的执行时间为82分26秒，并行化的执行时间为11分38秒;19.33%的计算时间用于数据持有机构。PDDI服务器的内存使用量为3.4 GB，数据保存机构的内存使用量为2.7 GB。

结论:我们演示了引入PDDI系统用于癌症筛查准确性评估的初步可行性。我们计划根据实际数据进行匹配实验，并与现有方法进行对比。

中国生物医学工程学报;2010;31 (2):389 - 391

doi: 10.2196/38922

关键字

数据链接；数据安全；安全的数据集成；保护隐私的联系；安全匹配保护隐私的链接；私集交集； ψ；保护隐私的分布式数据集成； PDDI；大数据；医学信息学；癌症预防；癌症流行病学；流行病学调查

流行病学研究中的分布式数据集成

随着信息技术的进步和数据收集系统的加强，卫生数据库变得越来越丰富。与其他国家类似，日本政府和学术团体收集和管理疾病数据库。此外，还有以患者为基础的疾病数据库和以人群为基础的队列研究数据库，这些数据库主要由研究机构收集和管理[1-5]。整合这些独立数据库中的卫生信息有利于流行病学研究和公共卫生做法;例如，可以确定重要的相关性和因果关系，例如疾病发作与个人健康状况之间的相关性和因果关系，而这是无法使用单一数据库确定的。因此，连结由不同机构管理的资料库是很重要的[6-8]。

连接独立数据库存在一些挑战。首先是信息隐私的保障，包括个人身份信息的处理。对隐私和数据安全的关注和考虑是最重要的;有关收集、使用及转移个人身分资料的政策及规例日趋严格[9]。因此，在数据链接中，需要采取足够的措施来防止个人信息的泄露，这导致了随之而来的成本增加，包括人工成本。第二个挑战是构建高效的数据联动系统。在向每个人提供国家识别号码等唯一识别密钥并连接多个医疗或福利相关数据系统的国家，与不向每个公民提供这种唯一标识符的国家相比，可以更有效地进行匹配。北欧国家是使用这种唯一标识符的代表性国家。但是，由于隐私问题，在连接数据库之前需要解决许多问题;因此，到目前为止，只有少数国家引入了这种标识符[10，11]。在唯一识别密钥系统尚未投入实际应用的国家，构建满足信息隐私要求和联动效率的系统更加困难。因此，在日本不可能在实际一级把不同机构管理的数据库联系起来。

安全数据集成

为了安全有效地整理和使用分散状态下各机构所持有的数据，尽可能只交换必要的信息，而不向外界泄露个人信息是可取的。但是，由于没有唯一的识别密钥，因此通常使用个人信息(例如姓名和出生日期)作为进行匹配的密钥[9，12]。目前广泛使用的方法包括数据提供者或用户执行匹配操作的方法，或者将包含个人信息的数据集传递给第三方(数据存储库)执行匹配的方法。这两种方法都需要移动个人信息作为进行匹配的关键。尽管一些研究[13，14]，但在安全和隐私方面，它们仍然是脆弱的。事实上，在Kho等人的一份报告中[13]，使用名称的哈希值来匹配名称，以便字典攻击可以确定患者所在的医院。字典攻击是一种将预先创建的患者列表的哈希值与存储在系统数据库中的哈希值进行匹配的方法。由于有限范围的数据(如患者列表)的哈希值容易受到字典攻击，因此应避免使用简单的哈希表。此外，Kho等人的提议假设数据库由单个机构拥有。在Godlove等人的一份报告中[14]，系统和其他细节没有描述;因此，匹配的方法是一个黑盒子。

因此，严格的信息泄露防范措施和相关费用是开展大规模流行病学研究的障碍。有一些技术努力可以更安全地解决这个问题。在近年来备受关注的私有集交叉协议(private set intersection protocol)下，除数据集中通常包含的数据外，由多个数据持有机构分发和管理的数据对其他机构保密;因此，只有通常包含的资料才可查阅[15-18]。在上一份报告中讨论的技术[18]是private set intersection的扩展，它关注的是医疗相关信息数据集通常由多个属性组成的事实。在指定属性作为匹配键之后，将集成与每个机构中通常包含的相同键属性相关联的数据。它在保证隐私的同时集成了分布式数据，因此被称为保护隐私的分布式数据集成(PDDI)。值得注意的是，与Kho等人的提议不同[13， PDDI不是简单地在匹配键的哈希值中进行匹配;因此，关于某一患者是否被纳入某一机构的信息是不可获得的，并且与Godlove等人不同[14，规范不是一个黑盒子，而是显而易见的。新开发的PDDI系统在医疗数据中的应用研究正在进行中[19]。预期PDDI系统将能够安全地整合不同机构管理的数据库中的保健信息，并能够在高度安全的情况下进行流行病学研究。

实施该技术的挑战

PDDI是一种成熟的技术，但是在实现它之前必须采取几个额外的步骤。最重要的是要显示系统在使用实际资料时，能够在保证个人资料安全的情况下，维持足够的匹配准确性和性能。在没有国民身份证号或类似标识符(如姓名和出生日期)时通常使用的匹配键包括输入时的各种错误，如打字错误和由于输入格式不同而导致的正字法变体。特别是在日本，缺乏标准化的识别格式也造成了这种影响。因此，同一人的识别往往存在一定的失败率，降低了匹配的准确性[20.]。低匹配精度影响结果检测，缩小了系统可应用的研究设计和研究主题。匹配精度取决于这些误差的数量和性质以及匹配方法[21，22]。在用作匹配键的数据类型中发现的错误也受到描述中使用的语言和字符的影响。必须针对不同的国家、地区和数据库分别考虑解决这些错误的最佳方法。已经开发了各种策略来提高匹配的可靠性。这些措施包括先前的数据清理、格式标准化、组合个人信息作为匹配键，以及采取各种措施，如概率方法[9，12，23，24]。但是，在不能使用唯一匹配键的情况下，哪些数据项可以用作匹配键以最大限度地提高匹配精度，目前还不清楚，特别是在日本。另一方面是系统性能。PDDI系统不会将每个机构的数据合并为一个存款机构。每个机构持有的信息在该机构内进行加密，并收集和分发数据。然而，数据持有机构和用户的计算机终端规格差异很大。因此，有必要对连杆系统的性能进行评估，以使其在通用环境中稳定使用。

这个项目的目的是证明个人信息的安全性可以通过使用实际数据进行匹配来维护，并且它在操作上是准确的，并且在PDDI实施中表现非常好，并确定哪些数据项可以作为有效的匹配键，以便在没有唯一匹配键的情况下以高精度执行数据匹配。但是，由于日本严格控制个人信息作为匹配密钥的使用，因此需要使用虚拟数据进行初步实验，然后使用实际数据进行实验。在这项研究中，我们评估了个人信息的保护，在癌症筛查准确性评估中的匹配准确性，假设大规模流行病学研究使用人工创建的数据来模拟癌症筛查和癌症登记数据。如果本研究的可行性得到确认，我们计划使用实际数据进行验证研究。这些研究结果有望应用于大规模的基于人群的基因组队列研究和基于患者数据库的大规模研究，从而进一步激活和发展基于数据库的流行病学研究。

PDDI系统

概述

本研究中使用的PDDI的特点在我们之前的研究中有介绍[19]，其中显示了PDDI由安全计算服务器、数据保存机构和客户端组成。在PDDI系统中，当每个数据样本有多个属性时，将数据库分为关键信息、分析目标数据和数据三种类型其他人。待分析数据与各机构数据库中通常包含的密钥相关联，这些数据是隐藏和集成的。要分析的关键信息和数据可能匹配。PDDI系统的重要特点如下:

使用该系统的机构，包括拥有数据库的机构和接收数据的机构，都不能获取数据库之间共同共享的关键信息以外的任何信息。与基于查询的方法不同，一个机构持有个人的某些信息不会泄露给任何其他机构。
用于匹配数据的关键信息不会泄露给任何机构，包括PDDI安全计算服务器。本文将PDDI安全计算服务器记为PDDI服务器。
每间院校的处理时间并不视乎参与系统的院校数目而定。每个机构通过该系统可获得的数据没有限制。
没有第三方机构收集或汇总数据进行匹配。

我们在后面的小节中描述了PDDI算法。图1显示了整个算法过程。

图1所示。保护隐私的分布式数据集成(PDDI)系统算法示意图。步骤1到4表示使用正文中描述的PDDI系统合并过程的每个步骤。每个机构持有的数据由PDDI服务器加密和匹配，并使用该数据作为匹配密钥。分析目标数据与匹配密钥相关，没有机构之分，只有在提供给客户端时才进行解密，而匹配密钥信息永远不会提供给客户端。

第一步:不可逆压缩和加密

各机构将用于整理数据集的密钥用哈希函数进行压缩，转换为唯一且不可逆的信息，并将经过同态和概率加密的数据发送给PDDI服务器。

步骤2:创建匹配密钥

PDDI服务器计算从每个机构获得的加密数据的总和(称为加密匹配密钥)，并将这些数据发送给每个机构。注意，PDDI服务器没有解密密钥;因此，它无法解密加密的匹配密钥。

步骤3:集合交集计算目标数据分析

每个机构对接收到的加密匹配密钥进行解密，获得用于提取密钥的匹配密钥，该密钥通常包含在所有机构中。接下来，与通常包含的密钥相关的分析目标数据被加密并发送到PDDI服务器。

步骤4:加密分析目标数据的集成

服务器将各机构发送来的加密分析目标数据整合后发送给客户端;匹配密钥信息不发送给客户端。在本研究中，1个数据持有机构评估匹配是否正确;因此，数据持有机构充当客户。

这些匹配的密钥被转换成Bloom过滤器，然后在每个机构中进行加密。加密是概率性的，因此，相同的明文被加密成不同的值。此外，没有所有机构的合作，它是无法解密的。然后，它们被发送到PDDI服务器。请注意，压缩匹配密钥的加密是概率性的，这意味着即使压缩匹配密钥相等，压缩匹配密钥的密文也不相等。因此，通过使用密文，任何人都无法猜测具有匹配密钥的患者是否包含在研究所中，这与Kho等人的提议不同[13]。出于同样的原因，PDDI服务器既不会透露每个机构中匹配密钥的任何信息，也不会猜测具有匹配密钥的患者是否包含在该机构中。这是一个与Kho等人提出的完全不同的隐私政策[13]。

中描述了PDDI实现环境、环境构造和可用性多媒体附录1。该系统的基本部分(代码、加密等)目前正在准备发布。

实验模型:癌症筛查的准确性评估

概述

在本研究中，我们采用癌症筛查的准确性评估作为匹配实验的模型。癌症筛查是为降低因早期发现癌症(二级预防)而导致的死亡率而开展的针对普通人群的癌症筛查项目的总称。它在世界范围内实施，以科学上公认的降低死亡率的项目为中心，如乳腺癌、宫颈癌和结直肠癌[25-27]。根据每个项目的测试结果评估考生患癌症的风险。被确定为高危患者，即高度怀疑患有癌症的患者，鼓励到医疗机构就诊。评估癌症风险检测的准确性和控制筛查的质量，以使被忽视的癌症和无用的检测数量保持在最低限度，是癌症筛查准确性控制的主要作用。评估癌症筛查的准确性需要关于在某个项目中被判定为高风险的患者在一定时期内(通常为1-2年)是否患有癌症的数据。

评估癌症筛查准确性的最大挑战是分布式数据的收集和匹配。在许多情况下，代表筛查结果的癌症发病率需要通过与另一个独立于癌症筛查数据库的来源进行匹配来获得;例如，癌症登记数据库。在日本，癌症筛查数据由作为实施机构的市政当局分散管理。此外，癌症登记数据由县以分布式方式管理。因此，在国家或区域的基础上收集和整理这些数据是困难的。要处理的数据量很大，当目标城市很多时，需要大量繁琐的程序来获取数据，而这些程序并不总是由市政当局标准化的。涉及的城市数量越多，隐私信息的移动就越大，泄露的风险也就越高。因此，在日本，这类研究只是零星地进行，使用的是来自少数城市的有限数据[28，29]。

这一制度的特点是对参与机构的数量和机构所持有的数据量没有限制，被认为是解决这一问题的有效手段。该系统便于将分布式癌症筛查的风险评估信息与癌症登记的癌症发病率信息进行匹配，有望实现大规模的癌症筛查准确性评估，这是目前尚无法实现的。因此，我们推测应用PDDI系统评估癌症筛查准确性是可能的，并设计了使用该模型的实验计划。

在癌症筛查准确性评估中，主要采用敏感性、特异性、阳性预测值等指标。如果癌症筛查显示有强烈的癌症怀疑(高风险)，则被认为是阳性的。在日本，建议去医疗机构，所以这个结果通常被称为“需要详细检查”。其他的判断都是消极的。患者是否患有癌症是通过比较从咨询之日起1 - 2年的癌症登记资料中的癌症发病率信息与筛查结果来评估的。换句话说，如果癌症筛查呈阳性(强烈怀疑患者患有癌症)，并且随后诊断出癌症，则在评估癌症筛查准确性的背景下，将敏感性、特异性和阳性预测值定义为文本框1。

定义与癌症筛查准确性相关的项目

筛查敏感性=癌症患者筛查阳性的比例
筛查特异性=非癌症患者筛查阴性的比例
筛查阳性预测值=已经是患者的筛查阳性病例所占比例

文本框1。定义与癌症筛查准确性相关的项目

癌症筛查的准确性通过添加“筛选”来表示，以区分其与匹配的准确性，这将在“研究设计”一节中描述。

实际数据匹配失败的背景

在日本等没有国民身份证号的国家，数据通常是通过个人信息进行整理的。在这种环境下，由于用作匹配键的数据点可能出现各种错误，因此降低了匹配的准确性。使用匹配键时的错误来源是粗心的错误，由于文化和制度的变化而导致的正字法差异，以及符号的差异。匹配键信息也可能发生变化:由于搬家而更改地址，由于结婚而重新命名。错误的普遍程度取决于数据持有者采用的格式和输入人员的能力。它们还受到编写数据所用语言的严重影响。在我们居住的日本，日语是事实上的官方语言，并且在日本的大多数系统和服务中被采用为默认语言。日语注册表数据中的许多错误是由于语言特定问题造成的。源自日语语言特征的错误详情见多媒体附录2。

研究设计

如引言部分所述，本项目的目的是演示使用PDDI系统进行数据匹配的安全性、准确性和性能，并识别有效的数据项作为匹配键。这项研究是该项目的第一步。我们使用PDDI系统在模拟癌症筛查和癌症登记数据集之间进行数据集匹配实验，其中PDDI系统的任务是在两组数据集之间匹配属于相同个体的数据。可行性评估基于数据安全性、匹配准确性(敏感性和特异性)和系统性能。

在本实验中，我们使用姓名、语音拼写、出生日期和地址等个人信息在多种条件下进行匹配，并评估通过组合匹配键可以获得多少匹配精度。设计了各种匹配算法，以防止灵敏度降低，同时保持特异性[9，12，23]。然而，本研究的目的是评估PDDI系统，而不是新的匹配方法，以提高匹配精度;因此，没有考虑这些高级匹配算法。在本项目的后续工作中，将考虑更准确、更实用的匹配方法。相反，我们估计了匹配准确性会对癌症筛查准确性的估计产生多大影响。评估了该模型在本研究中应用的可行性。

与使用简单哈希函数压缩隐私信息或需要单个服务器收集和处理所有数据的传统系统不同，我们的系统使用最新的安全技术。例如，所有通过网络的数据都是加密的，解密不能由单个机构执行，而需要所有分布式机构的合作，而不是集中数据。因此，重要的是要验证它可以在通用计算机上实现，而不是在专用服务器上实现。我们评估了系统的性能、总数据处理时间、内存使用和PDDI所需的网络流量。引入PDDI服务器是为了减少数据持有机构之间的处理时间和通信量。在实践中，数据持有机构的数据处理时间和收集共同包含的信息所需的总数据处理时间至关重要。

配对实验的设置

创建了四个数据集来模拟两种癌症的癌症筛查和癌症登记数据:结肠直肠癌和乳腺癌。首先，使用基于web的测试数据生成服务(在日本向公众开放)，我们创建了伪数据，其中包括姓名、性别、出生日期和地址，作为匹配关键信息[30.-32]。该服务会自动生成姓名、出生日期、地址、电话号码等随机组合的个人信息，这在日本很常见。通过选择所需的信息项和所需的生成数据量，用户可以获得模拟不存在的个人信息的数据。为了考虑到任何特定服务生成的数据可能包含某些趋势或偏差的可能性，我们从3个单独的服务中分别生成了所有数据点的三分之一。接下来，从创建的伪数据中，选择60例结直肠癌和62例乳腺癌作为可以匹配的共同数据。这些通常包括在癌症筛查和癌症登记数据集中。为了使模拟数据更接近实际数据，我们咨询了具有丰富注册管理经验的工作人员和一位流行病学研究专家，并对数据进行了修改，以包括经常被经验识别的错误和正字法变体。经验表明，数据集中的错误率预期小于10%。先前的研究报告称，在疾病登记和医疗及行政数据库中，用于匹配关键字的数据中，错误和遗漏的数量约为15%或更少[33-35]。然而，错误的实际发生率是未知的，因为文化和社会的变化预计会影响其发生率。因此，为了创建更难以匹配的数据，数据被重写以增加错误的数量，以至于一个数据点在多个项目中都有错误。错误在结直肠癌数据集中比在乳腺癌数据集中更为普遍因此结直肠癌数据集比乳腺癌数据集更难匹配。随后，将剩余的伪数据相加，最终形成2000例结直肠癌筛查、17866例结直肠癌筛查、1048例乳腺癌筛查、29949例乳腺癌的伪数据集。除匹配键之外的伪数据项包括所有数据集中每个数据库的序列号和伪标识号。在结直肠癌筛查数据集中随机加入以下伪数据:检测日期、检测结果、日本常用的粪便潜血检查风险评估。诊断名称;《国际疾病分类第十次修订代码》;并将诊断日期添加到癌症登记数据集中。 Pseudodata items other than these matching keys were only decorative and did not affect the matching experiment.表1列出添加到数据集中的错误和正字法变体。本研究实验中使用的数据集中日语特有的错误示例如图S1所示多媒体附录2。

表1。数据集中包含的错误和正字法变体。

类、错误类型和匹配键				数据点数，n (%)
				结直肠癌(n=60)		乳腺癌(n=62)
数据输入错误
	打字错误
		名字	3 (5)		1 (2)
		出生日期	15 (25)		0 (0)
		地址	6 (10)		2 (3)
		性	5 (8)		0 (0)
	汉字转换错误
		名字	5 (8)		6 (10)
		地址	2 (3)		0 (0)
	误读
		名字	10 (17)		8 (13)
	丢失的信
		名字	2 (3)		1 (2)
	遗漏
		地址	4 (7)		0 (0)
		名字	10 (17)		1 (2)
拼写变体
	不同的汉字
		名字	7 (12)		4 (6)
	格式
		地址	5 (8)		15 (24)
数据的修改
	名称的改变
		名字	2 (3)		1 (2)
	别名
		名字	2 (3)		0 (0)
	移动
		地址	2 (3)		8 (13)
在多个键上不匹配				25 (42)		14 (23)
总计				51 (85)		36 (59)

实验中使用了6条信息——姓(汉字或假名)、名(汉字或假名)、出生日期和性别。在本实验中，通过组合≥2张图像进行匹配。在结直肠癌的病例中，有57种可能的组合:₆C₂+₆C_3.+₆C₄+₆C₅+₆C₆。对于乳腺癌，除了少数例外情况外，所有的筛查目标都是女性，因此，只有26种组合是可能的:₅C₂+₅C_3.+₅C₄+₅C₅。

在PDDI协议中，称为Bloom过滤器的数据数组逐个元素进行加密。超过90%的总执行时间花在这个加密过程上。数据数组中一个元素的加密独立于其他元素的加密，并行化很容易。Python标准库中的multiprocessing模块(版本3.9;Python软件基金会)用于此并行化。实验使用的PC机环境为:中央处理器(CPU)， Intel (R) Xeon (R) CPU E5-2690 v4@2.60GHz(28核)，内存48gb。所有机构的程序都在一台PC上执行。

评价

与匹配准确性有关的项目在下文以“匹配”来指代，以区别于癌症筛查的准确性。为了计算匹配精度，将伪癌筛查数据作为参考点，当数据符合伪癌登记数据中指定的匹配关键条件时，即视为匹配积极的。没有匹配数据的情况定义为负。这个配对实验是在两个数据集之间进行的，在两个数据集中预先模拟同一个人。因此，确定匹配的真假如下:考虑匹配结果正确匹配属于同一人的数据的情况真正的考虑匹配结果不能正确匹配同一个人数据的情况假。换句话说，a假阳性意味着最初登记在不同个人名下的数据被错误地匹配了，而且假阴性意味着应该匹配的数据(因为它们属于同一个人)没有匹配。在唯一标识个人的匹配键完全没有错误的环境中，匹配是完全准确的。在本实验中，作为匹配精度的评价，我们将正、负匹配及其真假的对应关系交叉制表，计算匹配灵敏度和匹配特异性。在此基础上，提取出具有高匹配灵敏度和匹配特异性的匹配键组合，即较好的匹配精度。

为了估计匹配准确性对评估癌症筛查准确性的影响，我们参考了过去的研究，并假设了两种情况:一种情况下，癌症筛查的真实准确性涉及90%的灵敏度和90%的特异性，另一种情况下，癌症筛查的真实准确性涉及60%的灵敏度和90%的特异性[36-38]。计算真实值与估计值之间的误差，以评估筛查敏感性、筛查特异性和筛查阳性预测值。在匹配精度方面，采用以下方式进行模拟:在匹配灵敏度为100%、匹配特异性为100%、各参数与匹配实验中观测到的对应值等效的情况下，逐步改变数值。这一估计假设了一组人在某一年接受了癌症筛查。根据日本的平均患病率，新发癌症发病率为775.7 / 10万人/年。数据的大小不影响估计，但在计算时，根据本实验的参数设置为1000人。

在性能评估实验中，我们试图模拟一个场景，在这个场景中，系统被地理上彼此相距遥远的机构使用。因此，我们使用了安装在大阪大学和山口大学的6台计算机(其中4台模拟数据持有机构)。在实验中，我们测量了3种数据大小的CPU使用、内存使用和网络流量¹⁰， 2¹²，和2¹⁴。我们还实现了多进程并行化，并测量了其加速比。

伦理批准

这项研究得到了神奈川癌症中心机构审查委员会的批准(2021流行病学-135)。

数据保护

在我们的实验中，2个分布的研究机构独立持有癌症筛查和癌症登记数据，每个数据集包含出生日期、名字、姓氏和性别。这些术语用于匹配键。在我们的系统中，除了使用概率加密外，所有匹配的密钥和信息都通过研究所外的网络进行加密，并且没有服务器处理原始数据存储在不同的分布式研究所。换句话说，没有任何机构拥有解密密钥并能泄露所有信息。这意味着我们的系统不会从任何机构转移任何隐私信息，从而避免了隐私风险。

匹配精度

使用PDDI进行匹配的结果将在后面的小节中显示。从初步实验来看，当只使用1个匹配键时，匹配的假阳性数量增加，特异性明显降低(见表S2)多媒体附录3）.图2显示假阳性和假阴性的结果，其中使用各种信息组合匹配结直肠癌和乳腺癌的假数据。以结直肠癌数据为例，匹配的最小假阴性数为27，匹配的最小假阳性数为0。希望输出所有60项的公共数据。然而，最多可输出33(60 - 27)个案例。对于乳腺癌数据，匹配的最小假阴性数为7，匹配的最小假阳性数为0。类似地，期望输出62个公共数据项，但正确输出最多55(62 - 7)个案例。

图2。假阳性和假阴性的数量。根据所进行的每个实验设置的假阳性和假阴性的数量来放置点数。A部分为数据模拟大肠癌的结果，B部分为数据模拟乳腺癌的结果。

表2给出了匹配结果的摘要。仅显示特异性≥99%的组合。在这个伪数据集中，可以推断匹配键的组合，包括出生日期，是特别有效的。在结直肠癌伪数据中，特异性≥99%的组合中，以出生日期和名(假名)作为关键字的组合匹配灵敏度最高;匹配灵敏度为55.00%，匹配特异性为99.85%。对于乳腺癌假数据，以出生日期和姓氏(假名或汉字)作为关键字的匹配灵敏度最高，匹配灵敏度为88.71%，匹配特异性为99.80%。结合100%的匹配特异性，模拟结直肠癌数据的匹配灵敏度为48.33%，模拟乳腺癌数据的匹配灵敏度为82.26%。

表2。癌症筛查与癌症登记数据的匹配结果(节选)。

类^一个匹配键		假阳性，n	假阴性，n	灵敏度(%)	特异性(%)
结肠直肠癌
	出生日期，名(假名)	3.	27	55.00	99.85
	出生日期，名，姓(假名)	0	31	48.33	One hundred.
	出生日期，性别，名(假名)	2	28	53.33	99.90
	出生日期，性别，姓(假名)	1	29	51.67	99.95
乳腺癌
	出生日期、姓(假名)	2	7	88.71	99.80
	出生日期，姓(汉字)	2	7	88.71	99.80
	出生日期，名(汉字)	1	9	85.48	99.90
	出生日期，名(假名)，姓(汉字)	0	11	82.26	One hundred.

^一个将癌症筛查与癌症登记数据之间的匹配实验结果用于每个匹配键。匹配-key列中显示的所有键数据都成功对应的情况被认为是正匹配。

表3展示了基于本实验中使用的模型，匹配精度对癌症筛查敏感性和特异性估计的影响，评估癌症筛查的准确性。匹配灵敏度分别为85%、50%和90%，匹配特异性分别为99.9%、99.8%和99.99%。假设将匹配特异性设置为100%时，筛选敏感性和特异性的原始值均为90%，将匹配敏感性降低为90%、85%和50%，则表观筛选特异性值分别为89.94%(−0.06%)、89.91%(−0.10%)和89.69%(−0.34%)。因此，随着匹配灵敏度的降低，筛选特异性被低估。如果匹配特异性降低，则低估了筛选的敏感性。在模拟乳腺癌数据集的实验结果基础上，当匹配灵敏度为88.71%，匹配特异性为99.80%时，筛选灵敏度的表观值为72.09%(−19.9%)，筛选特异性的表观值为89.93%(−0.08%)，筛选灵敏度的表观值变化率较大。而采用另一种组合的结果，以匹配灵敏度为82.26%，匹配特异性为100%进行计算，则筛选灵敏度的表观值为90%(未降低)，筛选特异性的表观值为89.89%(−0.12%)。换句话说，当匹配特异性足够大时，即使匹配灵敏度稍低，筛选灵敏度和筛选特异性与原始值相比变化仍然很小。如图所示表3，即使在假设原始筛选灵敏度为60%的估计中，这种趋势仍保持不变。此外，对于筛选的阳性预测值，匹配敏感性的降低使筛选的阳性预测值显得小于原值，匹配特异性的降低使筛选的阳性预测值显得大于原值。匹配特异性对筛查阳性预测值的影响也更大。

表3。估计匹配精度对筛选精度的影响^一个。

匹配精度假设(%)			筛选灵敏度(%)			筛选特异性(%)			阳性预测值(%)
灵敏度	特异性	真正的		估计	真正的		估计	真正的		估计
90	One hundred.	90		NA^b	90		89.94	6.6		5.92
85	One hundred.	90		NA	90		89.91	6.6		5.59
50	One hundred.	90		NA	90		89.69	6.6		3.29
One hundred.	99.99	90		88.99	90		NA	6.6		6.58
One hundred.	99.90	90		80.93	90		NA	6.6		6.67
One hundred.	99.80	90		73.70	90		NA	6.6		6.76
88.71	99.80	90		90.00	90		89.89	6.6		6.02
82.26	One hundred.	90		72.09	90		89.93	6.6		5.41
90	One hundred.	60		NA	90		89.96	4.5		4.03
85	One hundred.	60		NA	90		89.94	4.5		3.81
50	One hundred.	60		NA	90		89.81	4.5		2.24
One hundred.	99.99	60		59.37	90		NA	4.5		4.49
One hundred.	99.90	60		54.33	90		NA	4.5		4.58
One hundred.	99.80	60		49.81	90		NA	4.5		4.67
88.71	99.80	60		48.81	90		89.96	4.5		4.17
82.26	One hundred.	60		60.00	90		89.68	4.5		3.18

^一个下表显示了当癌症筛查的真实敏感性设置为90%和60%，真实特异性设置为90%时，匹配精度对癌症筛查准确性估计的影响。癌症发病率约为每年775.7人，这是日本的全国平均水平。

^bNA:不受影响。“NA”表示真实值和估计值之间没有发生变化。斜体值表示使用实验数据得到的估计。

原则上，当匹配灵敏度为100%时，即使降低匹配特异性，癌症筛查的真阴性和假阳性误诊率相同。因此，癌症筛查的特异性没有改变。同样，当匹配特异性为100%时，即使匹配敏感性降低，癌症筛查的真阳性和假阴性都将以相同的比率被误诊为“无癌”。因此，癌症筛查的敏感性并没有改变。因此，除了使用匹配实验获得的匹配灵敏度和匹配特异性外，这些值不被显示并被描述为不受影响。

性能

性能评价实验的结果将在后续章节中给出。本实验所用计算机的规格见表S1多媒体附录1。图3显示数据量与执行时间之间的关系。

图3。执行时间。该图显示了数据量与执行时间之间的关系。实线表示没有并行化的执行时间，虚线表示有并行化的执行时间。

如图所示图3，数据量和执行时间几乎成正比。此外，对于2¹⁴(16,384)数据点，非并行化的执行时间为82分26秒，并行化的执行时间为11分38秒;因此，通过并行化可以观察到7.1倍的加速。图4显示了当进程在2上执行时，PDDI服务器和数据保存机构的CPU使用变化¹⁴没有并行化的数据点。从图中可以看出，80.67%的执行时间由PDDI服务器处理，而数据持有机构的计算时间仅为19.33%。

图4。中央处理单元(CPU)使用情况的变化。图中显示了当进程在214个数据点上执行且没有并行化时，保护隐私的分布式数据集成(PDDI)服务器和数据保存机构的CPU使用情况的变化。A部分表示PDDI服务器的结果，B部分表示数据保存机构的结果。

图5显示了PDDI服务器和数据保存机构的数据量和内存使用量之间的关系。内存使用随着数据量呈线性增长。然而，即使在并行化2¹⁴数据需要使用大量内存，PDDI服务器需要的内存不超过3.4 GB，数据保存机构需要的内存不超过2.7 GB。

图5。内存使用情况。图表显示了数据量与保护隐私的分布式数据集成(PDDI)服务器和数据持有机构的内存使用之间的关系。A部分表示PDDI服务器的结果，B部分表示数据保存机构的结果。

匹配实验评价

在本研究中，我们将癌症筛查和癌症登记数据进行匹配，以癌症筛查的准确性评估为模型进行匹配实验。

在实验中，任何匹配的信息都被转换成Bloom过滤器，在每个机构内加密，然后发送到PDDI服务器。本研究采用概率加密。这意味着相同的匹配密钥被压缩并随机加密为不同的密文，例如癌症登记数据集中患者A和B的每个出生日期都是19970911，但压缩和随机加密并不等于彼此。不像使用哈希值[13，我们的方案是安全的字典攻击，因为相同的值被加密成不同的值，由于概率加密。

多组组合使用的匹配键，尤其出色，几乎没有假阳性和假阴性，在日本的大多数数据库中都有注册。这些键极有可能应用于现有的数据库。对于包含85%匹配键误差的模拟结直肠癌数据，匹配灵敏度保持在50%范围内，而对于包含59%匹配键误差的模拟乳腺癌数据，匹配灵敏度值约为85%。本实验故意创建了一个难以匹配的数据集，因为该数据集的错误发生率很高，并且大量数据包含多个匹配键的错误。两个数据集中包含的误差不同，如下所示表1，这些结果不能简单地进行比较，但是，一般来说，匹配键中的错误数量越少，匹配精度就越好。尽管文化背景和时代不同，但先前的研究表明，在疾病登记处、医疗和政府数据库中，匹配关键数据(如姓名、邮政编码和出生日期)的错误和遗漏的数量<15%。33-35]。根据具有丰富注册管理经验的工作人员的意见，我们预测日本用于癌症筛查准确性评估的实际数据中约有10%包含匹配键错误。原则上，假阴性率不能大于数据集中包含错误数据的百分比;因此，利用实际数据进行验证实验，估计匹配灵敏度可达到≥90%。本实验中2个数据集的误差分布相同，患病率设为10%。在结直肠癌数据中，以出生日期和名(假名)作为匹配关键时，匹配灵敏度为94.70%。在乳腺癌数据中，以出生日期和姓氏(假名或汉字)作为匹配键时，匹配灵敏度为98.09%。对于匹配的特异性，键的组合如表2在该估计中保持了≥99%的高特异性。

在实际应用中，进行匹配对结果和评价指标的影响比匹配精度的数值更重要。如图所示表3，在评估不常见事件(如癌症)的检测准确性时，匹配特异性值的变化对检测准确性的表观值有显著影响。在我们的模型中，匹配敏感性的轻微降低对筛选敏感性和筛选特异性的影响相对较小。换句话说，尽可能保持高的匹配特异性，以防止低估筛选敏感性和筛选特异性。估计表明，100%匹配特异性的匹配键组合对癌症筛查的敏感性和特异性影响较小，即使匹配敏感性较低。假设原筛选敏感性和筛选特异性为90%，如果匹配特异性≥99.97%，即使匹配特异性不是100%，即使匹配敏感性为85%，筛选敏感性也保持在5%以内。因此，在考虑准确计算癌症筛查敏感性估计值时，我们希望选择一种能够在不降低匹配特异性的前提下尽可能提高匹配敏感性的匹配键或匹配算法。匹配特异性对筛查阳性预测值的影响大于匹配敏感性。然而，与筛选敏感性或筛选特异性相比，它更容易受到匹配敏感性的影响。因此，在以筛选阳性预测值为指标时，在选择匹配关键时，既要考虑匹配特异性，又要考虑匹配敏感性的降低。

在本实验中，匹配特异性定义为在癌症筛查数据集中纳入的数据中，通过匹配确定不患癌症的人数除以没有患癌症的人数所得到的值。因此，匹配的特异性受到癌症登记数据集的数据大小与癌症筛查数据集的比例以及癌症筛查数据集中真实癌症患者的百分比的影响。本实验中使用的癌症筛查和癌症登记数据集分别约为1000至2000个和约17,000至30,000个。在日本，癌症筛查率很低，这大致相当于小城市的癌症筛查数量和大县的癌症数量;癌症筛查数据由作为实施机构的每个市管理，癌症登记数据由每个州管理。流行病学研究可能需要处理更大的癌症筛查数据。在这种情况下，来自癌症注册数据集的数据大小差异小于本实验。因此，期望匹配特异性更高。由于本实验数据集的误差并不一定反映实际患病率，本实验的敏感性和特异性仅为参考值。尽管如此，通过适当调整匹配条件，PDDI系统有望通过与癌症登记数据的匹配来评估癌症筛查的准确性。

性能评估实验验证了PDDI系统的执行时间几乎与数据量成正比，并行执行时每1000个数据样本的执行时间为43秒。在使用伪数据库的情况下，执行大约在21分钟内完成，这对于流行病学研究来说已经足够了。安装在数据保存组织中的计算机性能对执行时间的影响相对较小，约占总数的20%，内存使用量< 1gb。因此，即使在普通笔记本电脑的性能下，处理速度也可以接受。本实验中PDDI系统的最大网络流量为858 Mbps。即使这样，通信消耗的执行时间也很小，如果数据保存机构的通信速度≥10mbps，我们认为使用该系统不会有任何问题。

使用实际数据进行下一步实验的挑战

在此研究的基础上，我们计划利用实际的癌症筛查和癌症登记数据进行验证实验。在这个实验中，实际数据的误差是未知的。因此，实验采用了误差较大的数据集。在接下来使用实际数据的匹配实验中，我们计划确定与部分使用基于人类判断的匹配方法相比，可以获得的匹配精度程度。在此基础上，才有可能实事求是地估计出匹配对检测精度造成误差的程度。因此，为实际应用执行更高质量的评价是可能的。在性能评估方面，从本实验的结果可以看出，终端的计算时间和内存消耗取决于数据量。本次实验的主要目的是评估可行性，所使用的数据集比实际数据中包含的项目数量要少。因此，在下一阶段，我们将使用可能实际使用的地级市规模的数据来确认绩效。在这些结果的基础上，有必要进行一次试验计算，以确定可以匹配的数据集的大小。

实施实用流行病学研究

通过本实验和估计，我们证明了使用匹配使用PDDI系统进行癌症筛查准确性评估值得考虑。这一系统预计将应用于其他类型的流行病学研究，因为它有助于不同机构管理的数据库之间的数据匹配。我们以典型的流行病学研究——队列研究和病例对照研究为例，基于匹配的敏感性和特异性来考虑适用性。

假设一项考察某一因素与癌症发病率之间关系的队列研究将确定具有该因素的人与不具有该因素的人的癌症发病率风险比，那么队列中每个人的数据将与癌症登记数据相匹配，以记录癌症发病率。表S3给出了该设置的估计多媒体附录4。风险比不随匹配灵敏度的降低而改变。如果匹配特异性降低，风险比就会被低估。然而，从估计中可以看出，即使在该因素的患病率为75%的情况下，相当于该匹配实验的匹配敏感性和匹配特异性的风险比降低了约10%。接下来，让我们假设一个病例对照研究，使用一个数据集，通过匹配将要检查的因素与存在或不存在疾病的数据联系起来。表4多媒体附录4图中显示了一种患病率很高的常见疾病，这里是糖尿病的试验计算，表S5为多媒体附录4显示溃疡性结肠炎作为低患病率疾病的一个例子的试验计算。较差的匹配准确性导致人群和对照人群中因素暴露的系统性误差，这往往会低估优势比估计值。有时，这对低流行率疾病的优势比有更大的影响。因此，假设在队列和病例对照研究中使用PDDI系统时，必须谨慎选择目标疾病和低估优势比。然而，如果进行适当的计算，似乎可以充分审查各种各样的应用。

PDDI系统的优点是，即使在≥3个数据库之间，也可以向用户提供已经匹配的数据。目前，在整合不同机构管理的数据而没有唯一识别密钥的研究中，需要一个循序渐进的过程，例如从所有目标机构收集数据，然后进行匹配或缩小目标受众范围并重复匹配。然而，在PDDI系统中，尽管数据分布并存储在不同的机构中，但检索符合这些条件的匹配数据是可能的。和其他方法一样[39]，它不假设先验联系。因此，当从≥3个机构的数据库中获得的数据进行组合和分析时，PDDI系统特别有用。由于这一特点，即使在日本这样的环境中，该系统也能够安全有效地集成数据，即癌症筛查数据分布和存储在许多城市的环境中，因此需要多次移动私人信息。

限制

这项研究有几个局限性。这项研究是使用真实数据进行实验的初步步骤。本实验使用的数据集是使用软件创建的伪数据集，对公众开放，不反映实际数据中混合的错误数量或比例，也不涵盖真实数据中包含的所有类型的错误。由于实际数据中包含的错误类型和数量取决于每个数据库的输入方式和输入人员的能力，因此需要后续使用实际数据进行验证实验。在本研究中，我们只处理所有选择的匹配键都匹配的情况下的匹配，没有使用复杂的算法进行部分匹配。我们没有研究本研究显示的匹配敏感性和匹配特异性在多大程度上可以通过进一步改进匹配方法来提高。实验使用日本本地数据库作为环境，我们注意到错误格式也受到语言、文化和制度的影响。因此，这一结果不太可能直接适用于其他国家和地区。

结论

作为在流行病学研究中实施PDDI的第一步，我们通过使用虚拟数据的匹配实验，从安全性、匹配准确性和性能方面评估了其在癌症筛查准确性评估模型中的可行性。该系统可以只整理与共享数据相关的信息，而不泄露由多个机构分发和管理的数据，不使用第三方。在匹配实验中，利用实验得到的匹配灵敏度和匹配特异性对癌症筛查准确度指标的影响进行估计，结果表明，在保持高匹配特异性的情况下，可以以最小的误差评估筛查灵敏度和筛选特异性。由于其特点，该系统减少了许多流行病学研究中研究人员和数据提供者管理和整理个人信息所需的人力和成本，有望进一步提高研究活动的效率和速度。未来，我们将利用现有数据，并与现有方法进行对比，进一步验证实际应用。

致谢

本研究得到了文部科学省2018年“社会5.0实现研究中心支持项目”和日本科学促进会科研资助项目(JP21H034438)的部分支持，并由意得辑提供英文编辑和翻译支持。AM、YT和KN是本研究讨论的隐私保护分布式数据集成系统的开发者。大阪大学拥有与该技术相关的专利权。

作者的贡献

AM、YT和KN负责开发保护隐私的分布式数据集成(PDDI)系统和环境。AM, YT, KN和HN设计了本研究。KW和HN提供了实验中使用的模拟数据，YT和KN利用这些数据进行了扶壁实验。所有作者对结果进行了分析和解释。撰写稿件时，YT负责PDDI系统及配套实验;KN进行性能评价;AM对于PDDI系统和工程方面的考虑;KW用于流行病学背景、模拟和流行病学考虑。SN和YW分别从流行病学和工程学的角度对稿件进行了批判性的审查和建议。AM负责工程领域研究的全面监督和监督，HN负责流行病学领域的研究。 AM and KW contributed equally to the preparation of this paper.

利益冲突

没有宣布。

‎

多媒体附录1

保护隐私的分布式数据集成(PDDI)实现环境、环境构造和可用性。

DOCX文件，23 KB

‎

多媒体附录2

实际数据匹配失败的文化背景和实验数据集中日语特有的错误示例。

DOCX文件，185kb

‎

多媒体附录3

文本中没有描述的匹配键组合和匹配结果。

DOCX文件，21 KB

‎

多媒体附录4

估计匹配准确性对流行病学研究结果评估的影响。

DOCX文件，33 KB

Matsuda, Sobue T.日本基于人口的癌症登记的最新趋势:促进癌症登记的法案和历史登记的急剧变化。中华临床医学杂志，2015;20(1):11-20。(CrossRef] [Medline］
Anazawa T, Miyata H, Gotoh M.日本癌症登记:国家临床数据库和特定地点癌症登记。中华临床医学杂志，2015;20(1):5-10。(CrossRef] [Medline］
日本罕见疾病数据登记(日语)。日本医学研究与发展机构。URL:https://www.raddarj.org[2022-03-03]访问
Tsugane S, Sawada N. JPHC研究:日本典型饮食的设计和一些发现。中华临床医学杂志，2014;07;44(9):777-782。(CrossRef] [Medline］
Takeuchi K, Naito M, Kawai S, Tsukamoto M, Kadomatsu Y, Kubo Y，等。日本多机构合作队列(J-MICC)研究概况。中华流行病学杂志2011;31(12):660-668 [J]免费全文] [CrossRef] [Medline］
Emery J, Boyle D.数据链接。中华医学杂志，2017;46(8):615-619。(Medline］
Pratt NL, Mack CD, Meyer AM, Davis KJ, Hammill BG, Hampp C等。药物流行病学中的数据链接:对严格评估和报告的呼吁。中国药物流行病学杂志，2020;29(1):9-17。(CrossRef] [Medline］
hager - johnson G.纵向数据联系在苏格兰的机会。中华医学杂志，2016,31(3):369 - 369。(CrossRef] [Medline］
记录链接方法的概述。链接卫生服务研究数据:框架和指导指南。Rockville, MD:医疗保健研究和质量机构(美国);2014.
Ludvigsson JF, Almqvist C, Bonamy AE, Ljung R, Michaëlsson K, Neovius M，等。瑞典总人口登记册及其在医学研究中的使用情况。中华流行病学杂志，2016;31(2):125-136。(CrossRef] [Medline］
Laugesen K, Ludvigsson JF, Schmidt M, Gissler M, Valdimarsdottir UA, Lunde A，等。北欧基于卫生登记的研究:卫生保健系统和主要登记的审查。中华流行病学杂志2021;13:53 -554 [j]免费全文] [CrossRef] [Medline］
记录链接、实体解析和重复检测的数据匹配概念和技术。柏林，海德堡:施普林格出版社;2012.
Kho AN, Cashy JP, Jackson KL, Pah AR, Goel S, Boehnke J，等。芝加哥保护隐私的电子健康记录链接工具的设计和实现。中华医学杂志，2015;22(5):1072-1080 [J]免费全文] [CrossRef] [Medline］
上帝爱我，球爱我。健康信息交换中的患者匹配。展望健康信息管理2015;12(春季):1g [j]免费全文] [Medline］
宋涛，李建军，李建军，等。发表于:CRYPTO'05:第25届密码学进展国际会议论文集;2005年8月14日至18日;加州圣巴巴拉。(CrossRef］
Many D, Burkhart M, Dimitropoulos X.基于SEPIA的快速私有集运算。TIK报告，2012年3月https://www.research-collection.ethz.ch/handle/20.500.11850/58312[2022-04-04]访问
Ion M, Kreuter B, Nergiz A, Patel S, Raykova M, Saxena S，等。关于部署安全计算:私有交集与基数求和。参见:2020年IEEE欧洲安全和隐私研讨会论文集(EuroS&P)。2020年IEEE欧洲安全和隐私研讨会(EuroS&P);2020年9月7日-11日;意大利热那亚。(CrossRef］
王晓明，王晓明。基于多数据集的医疗数据集成研究。医学系统杂志2017年3月16日;41(3):37 [J]免费全文] [CrossRef] [Medline］
王晓明，王晓明，王晓明，等。大数据集成应用于生活安全和医疗领域的安全基础设施技术。可汗:施普林格;2020.
温克勒。匹配和记录链接。电气工程学报，2014;6(5):313-325。(CrossRef］
索伦森海，Sabroe S, Olsen J.流行病学研究的二级数据来源评价框架。国际流行病学杂志1996;25(2):435-442。(CrossRef] [Medline］
李建军，李建军，李建军，李建军。模拟数据集的结果:概率记录链接优于确定性记录链接。中华临床流行病学杂志，2011;64(5):565-572。(CrossRef] [Medline］
刘建军，刘建军，刘建军。概率记录关联。中华流行病学杂志，2016;45(3):954-964 [J]免费全文] [CrossRef] [Medline］
Jaro马。大型公共卫生数据文件的概率关联。中华医学杂志1995;14(5):491-498。(CrossRef] [Medline］
促进基于科学证据的癌症筛查页面(日文)。国家癌症中心癌症控制研究所。URL:http://canscreen.ncc.go.jp[2022-03-03]访问
筛查和早期诊断。英国国民健康保险制度。URL:https://www.england.nhs.uk/cancer/early-diagnosis/screening-and-earlier-diagnosis/[2022-03-03]访问
美国癌症协会早期发现癌症的指南。美国癌症协会。URL:https://www.cancer.org/healthy/find-cancer-early/american-cancer-society-guidelines-for-the-early-detection-of-cancer.html[2022-03-03]访问
Tanaka R, Matsukata M. 2017财年利用癌症登记数据精确管理癌症筛查的示范项目报告-青森县委托项目(日语)。青森县2018年3月[免费全文］
2017年利用癌症登记数据进行癌症筛查的准确性控制项目报告。厚生劳动省研究小组。2018.URL:https://www.pref.wakayama.lg.jp/prefg/041200/h_sippei/gannet/04/05_d/fil/houkokusyo.pdf[2022-12-19]访问
伪个人信息数据生成服务。hogehoge.tk。URL:http://hogehoge.tk/personal/[2021-05-29]访问
个人信息。Kazina。URL:http://kazina.com/dummy/[2021-05-29]访问
测试数据生成器(日语)。山形。URL:http://yamagata.int21h.jp/tool/testdata/[2021-05-29]访问
张建军，张建军，张建军，等。基于艾滋病登记和出院档案的匿名记录链接质量评价。医学杂志1995;14(5-7):499-509。(CrossRef] [Medline］
Howe GR.在队列研究中使用计算机记录链接。流行病学杂志，1998;20(1):112-121。(CrossRef] [Medline］
陈超，朱勇，陈超。基于多重间接个人标识符的确定性记录关联有效性研究。Circ cardiovascular quality Outcomes 2014; 5;7(3):475-480。(CrossRef］
李建军，李建军，李建军。结直肠癌筛查策略研究进展。中华胃肠病杂志;2009;31(2):418-432。(CrossRef] [Medline］
Koliopoulos G, Nyaga VN, Santesso N, Bryant A, Martin-Hirsch PP, Mustafa RA，等。细胞学与HPV检测在普通人群宫颈癌筛查中的比较。Cochrane Database system Rev 2017 Aug 10;8(8):CD008587 [j]免费全文] [CrossRef] [Medline］
马岛C，大田K, Kasahara Y, Katayama T, Nakayama T，本庶S，等。有和没有临床乳腺检查的乳房x线摄影筛查的荟萃分析。癌症科学2015;106(7):812-818 [j]免费全文] [CrossRef] [Medline］
川本Y，白井T，神雄K，田中y, Sakumoto K.信息处理装置，信息处理方法，程序和信息处理系统。谷歌专利，2014。URL:https://patents.google.com/patent/US20140012862A1/en?oq=US20140012862A1[2022-04-06]访问

‎

CPU:中央处理机

PDDI:保护隐私的分布式数据集成

C·洛维斯编辑;提交17.05.22;Sun C, Shin SY同行评议;对作者07.10.22的评论;修订版本收到04.11.22;接受29.11.22;发表30.12.22

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到https://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

面向癌症筛查准确性评估的隐私保护分布式医疗数据集成安全系统:新型数据集成系统的开发研究