JMIR医学信息学-识别早产评估访问和提取宫颈长度测量从电子健康记录在一个大型综合医疗保健系统:算法开发和验证

原始论文

¹美国加州帕萨迪纳凯撒医疗机构南加州研究与评估部

²美国加州洛杉矶凯撒永久西洛杉矶医疗中心妇产科

^3.美国加州帕萨迪纳Kaiser Permanente Bernard J Tyson医学院临床科学系

⁴美国加州帕萨迪纳Kaiser Permanente Bernard J. Tyson医学院卫生系统科学系

通讯作者:

谢发根博士

研究与评价系

南加州凯撒医疗机构

洛斯罗伯斯大道100号

2号楼

帕萨迪纳，加州，91101

美国

电话:1 626 564 3294

传真:1 626 564 787

电子邮件:fagen.xie@kp.org

背景:早产(PTB)在美国和全世界是一个重大的公共卫生问题。准确识别早产(PTL)评估访视是开展ptb相关研究的第一步。

摘要目的:我们的目的是开发一种有效的计算机算法来识别PTL评估访问，并从大型综合医疗保健系统的电子健康记录(EHRs)中提取宫颈长度(CL)测量值。

方法:我们使用的数据是从2009年至2020年南加州凯撒医疗机构的电子病历中提取的。首先，我们确定了24小时内胎儿纤维连接蛋白(fFN)测试、经阴道超声(TVUS)程序、PTL药物或PTL诊断代码的分类和医院就诊情况^0/7-34年^6/7孕周。第二，24小时内与分诊和医院就诊相关的临床记录^0/7-34年^6/7从电子病历中提取妊娠周数。计算机化算法和自动化流程通过多次迭代的图表审查和裁决来开发和完善，以搜索以下PTL指标:fFN测试、TVUS程序、腹痛、子宫收缩、PTL药物和PTL评估描述。构建了一个额外的过程，从这些确定的PTL评估访问的相应临床记录中提取CLs。

结果:2009年至2020年期间，共确定了441,673例活产妊娠。其中，103,139例(23.35%)孕妇有计算机算法确定的PTL评估访问记录。妊娠期PTL评估访视率从2009年的24.41%略微下降至2020年的17.42%。在最初的103,139次PTL就诊中，分别有19,439(18.85%)和44,423(43.97%)进行了fFN测试和TVUS。首次PTL就诊时进行fFN测试的百分比从24岁时的18.06%下降^0/7妊娠周数为2.32%，为34^6/724岁时TVUS为54.67%^0/7妊娠周12.05%在34^6/7孕周。平均(SD)为3.66 (0.99)cm，平均范围为3.61 ~ 3.69 cm，在整个研究期间保持稳定。在接受PTL评估的孕妇中，PTB的发病率保持稳定(20,399,19.78%)。计算机算法对100个随机选择的潜在PTL就诊记录的验证显示，PTL评估就诊、fFN检查、TVUS和CL的阳性预测值分别为97%、94.44%、100%和96.43%，fFN检查、TVUS和CL的敏感性分别为100%、90%和90%，特异性分别为98.8%、100%和98.6%。

结论:所开发的计算机化算法有效地识别PTL评估就诊，并从电子病历中提取相应的CL措施。对该算法的验证达到了很高的准确性。这种计算机化算法可用于进行PTL或ptb相关的药物流行病学研究和患者护理回顾。

中国生物医学工程学报;2010;31 (9):893 - 893

doi: 10.2196/37896

关键字

早产；早产；胎儿纤连蛋白；经阴道超声；宫颈长度；自然语言处理；计算机算法；数据提取；病人的记录；临床的笔记；评价记录；病人护理；病人笔记；电子健康记录

早产(PTB)， 37岁之前出生的孩子^0/7在美国，近10%的活产婴儿发生了这种疾病[1，2]．它是美国和全世界婴儿发病和死亡的主要原因之一[3.，4]并构成严重的公共卫生负担[2]．大多数pbs是自发或特发性的，而其余的则是由于胎儿或母体并发症而引起的医学指征[5-7]．存活下来的婴儿出现长期后遗症的风险显著增加，包括呼吸、胃肠、中枢神经系统、听力和视力问题，以及长期的认知、运动和行为迟缓，这些后遗症具有长期影响[2]．

识别即将发生自发性肺结核(sPTB)的高危孕妇对于早产(PTL)的适当及时管理至关重要，包括及时给予产前皮质类固醇和硫酸镁以加速胎儿肺成熟和神经保护[qh]8-11]．另一方面，准确评估sPTB的风险，包括宫颈检查和观察临床体征和症状，可以更好地把握产前皮质类固醇给药的时机，避免不必要的干预，并降低成本。胎儿纤维连接蛋白(fFN)检测[12]和经阴道超声(TVUS)测量宫颈长度(CL)前24周[13已被用作sPTB潜在风险的指标。例如，长度超过3厘米[14]或fFN测试呈阴性[15]从推定患有PTL的孕妇处获得的数据可以排除PTL，从而避免过度诊断和不必要的治疗。已制订了评估和管理怀疑有妊娠期妊娠综合症体征和症状的孕妇的标准化临床程序[16，17]，虽然没有得到广泛实施，但它们已显示出显著的保健费用降低，因为它们避免了可能有妊娠期妊娠体征和症状但不太可能早产的孕妇不必要的住院治疗[18]．

对回顾性患者数据进行评估的一个历史性挑战是将其中一些自由文本元素纳入电子健康记录(EHR)的能力;尽管它们是丰富的数据来源，但在没有可靠、一致和有效的方法来识别这些元素并在数据分析中对其进行分类的情况下，将它们纳入研究一直具有挑战性。自然语言处理(NLP)是一个以计算机为基础的方法领域，旨在标准化和分析自由文本，甚至允许在大型数据集中包含这些自由文本数据元素[19-23]．它将驻留在自然语言中的医疗信息转换为更结构化的格式，用于各种医学研究和病人护理管理目的[24-27]．尽管在预测sPTB的风险方面已经有了卓有成效的尝试[12-15，28，29对于结构化电子病历或机器学习方法，据我们所知，没有可用的自动算法来识别在分诊或医院就诊的患者的PTL评估访问。在大数据集中检查所有受威胁PTL病例的能力、相关的评估方法、结果和成本，最终将有助于围绕受威胁PTL评估的标准化以及TVUS和fFN的相关使用进行讨论。本研究的目的是开发和验证计算机化NLP算法和流程，以有效识别PTL评估访问，并从电子病历中提取相应的CL数据，包括大型综合医疗保健系统中的自由文本临床记录。

研究环境及人群

Kaiser Permanente Southern California (KPSC)是一家大型综合医疗保健系统，为15个大型医疗中心地区的470多万会员提供全面的医疗服务。该委员会成员的人口特征各不相同，在很大程度上代表了南加州的居民[30.通过团体计划、个人计划、医疗保险和医疗补助计划获得医疗保险，代表了超过260个种族和超过150种语言。KPSC广泛的EHR数据包含个人层面的结构化数据(包括诊断代码、程序代码、药物、免疫记录、实验室结果、妊娠事件和结局)和非结构化数据(包括自由文本临床记录、放射学报告、病理报告、成像和视频)，涵盖所有卫生保健环境(即门诊、住院、急诊科、虚拟等)的所有医疗访问。外部合同提供者提供的KPSC成员的临床护理通过报销请求记录在电子病历中。

伦理批准

研究方案由KPSC机构审查委员会审查并批准，并豁免知情同意要求(批准号:12670)。只有经过授权的人员才被允许进行所有的分析。

PTL评估访问的识别

PTL评估的详细信息以结构化(如fFN结果、TVUS和用药)和非结构化(如收缩频率和CL)格式记录在EHR系统中。我们进行了一项回顾性队列研究，包括2009年至2020年间在KPSC医院分娩的所有妊娠和活产(N=441,673)。24人之间的相遇^0/7和34^6/7从KPSC EHR系统中提取每次妊娠发作的妊娠周数和相应的医疗信息，包括临床记录。然后将提取的信息用于开发计算机化算法和流程，以便通过以下步骤通过改进的迭代图表审查过程确定PTL评估访问。20人之间的相遇^0/7和23^6/7每周以及35岁之间的人^0/7和36^6/7排除妊娠周数，因为在这些孕龄组中不需要进行fFN检测。

步骤1:根据表A1所描述的代码多媒体附录1，每次妊娠发作的任何以下可能与PTL相关的接触被确定并汇总:涉及fFN检测的接触，涉及TVUS的接触，遇到PTL诊断代码的接触，以及遇到PTL药物的接触。

如果检测到上述遇到的任何情况，则将其传递给步骤3进行进一步处理。

步骤2:通过以下流程从临床记录中确定PTL评估的证据或指标:

与分诊或住院治疗相关的临床记录^0/7和34^6/7每个妊娠期的妊娠周数被提取出来，但这些仅限于本研究感兴趣的笔记，如表A2所示多媒体附录1。经验丰富的妇产科医生确定了这些笔记类型。
提取的临床笔记通过字母小写转换和句子分离和标记化(即将文本分割为语言单位，如单词和标点符号)进行预处理[20.]．通过删除除空格、句号、逗号和冒号以外的非数字或非字母字符，进一步清理了分离的句子，同时纠正了拼写错误，并对算法开发过程中发现的缩写词或术语进行了标准化。的表A3总结了完整的修正后的标准化单词表多媒体附录1。
表A4列出了使用以下至少一个预定义关键字提取的句子多媒体附录1:早产，胎儿纤维连接蛋白，经阴道超声，腹痛，子宫收缩。这些对研究感兴趣的关键词是通过与经验丰富的产科妇科医生协商编制的。没有任何预定义关键字的句子不会传递给进一步处理。

从以上提取语句中提取出以下评估PTL的指标:进行过胎儿纤维连接蛋白测试、经阴道超声、腹痛、子宫收缩，以及对早产评估的明确描述，如“早产”、“排除PTL”、“评估:早产”。排除任何否定的、一般的、历史相关的和不确定的描述。

如果检测到上述任何一个指标，则将相应的遭遇定义为PTL评估遭遇。

步骤3:将步骤1和步骤2中确定的物理带库评估相遇合并，如果多次发现相同的相遇，则执行重复数据删除。但是，下列情况除外:

这次相遇是在子痫前期/子痫诊断代码患者的分娩相遇。由于潜在的混杂结果与医学指示的PTB相关，这些被排除在外。
该遭遇有PTL诊断代码，但没有任何其他证据评估PTL在同一遭遇(如TVUS，子宫收缩，和fFN测试)。这一群体的比例相对较小(1.9%)。我们决定从随机选择的样本的图表审查中排除这些潜在病例，因为确诊率低(见下面的图表审查过程)。

步骤4:如果识别的PTL相遇有重叠的时间窗口，则将这些相遇合并为合并PTL相遇，其中入院时间为较早入院时间，而出院时间为较晚出院时间。

图1表示在24之间的过程中产生的遭遇次数^0/7和34^6/7周。

图1所示。早产评估访问流程图。fFN:胎儿纤维连接蛋白;PTL:早产;TVUS:经阴道超声。

CL测量提取

宫颈评估可通过经阴道或经腹部超声进行，以确定在PTL评估访问CL;它可以作为入院或出院的指南，并在可能的情况下，在临床评估和fFN的背景下解释时，作为作出管理决策的指南[16，17]．测量的CL通常记录在临床记录或放射学报告由检查卫生保健提供者。然而，由于所使用的自由文本格式种类繁多，检索和格式化该度量是一个挑战。因此，开发了一个计算机化的过程，从与特定PTL评估遭遇相关的临床记录中提取CL测量，如下步骤所示。

步骤1:根据经验丰富的产科妇科医生对常规用法的了解，编写用于描述CL的关键字或短语列表，并通过迭代改进进行丰富。的表A5总结了完整的清单多媒体附录1并被分成三个优先组。

步骤2:在每个临床记录中的句子中搜索预先识别的关键词或短语。如果在句子中识别了预定义的关键字之一，则执行步骤3。如果没有检测到关键字，则停止搜索，并将算法移到下一个注释。

步骤3:从找到预定义关键字的位置开始，在同一句子的10个标记中搜索与关键字“forward”相关的数值。如果在前向搜索期间没有找到任何值，则在关键字位置之前的5个令牌内“向后”搜索潜在关联的值，因为有些值是在关键字之前描述的。然而，如果提取的值描述了其他措施而不是CL，如宫颈扩张，则忽略或排除。检索的度量可以是1个或多个值，也可以是一个值范围。此外，每个值可以包含一个单位(cm或mm)，也可以不包含任何单位。例如“宫颈长度为1.6厘米”，“阴道长度为2.6-2.7厘米无漏斗”，“宫颈长度为3.3至4.4”，以及“床边经阴道超声检查宫颈长度为41毫米”。

步骤4:根据关键字或短语优先级确定每个临床记录的最终CL度量。如果在注释中发现多个具有不同优先级的关键字，则保留与具有最高优先级的关键字相关联的测量值。如果保留的最高优先级组仍然包含多个不同的值，则保留最短的优先级组。

步骤5:确定每个PTL评估访问的CL措施。PTL评估访问可能包含在不同时间测量的多个CL值。如果遇到的是交付遇到，则第一个度量被用作最终的CL。否则，使用最接近放电的测量作为最终CL。

步骤6:对每个PTL评估访问的CL进行标准化并最终确定。如果度量没有关联的单位，则默认认为是cm。当单位为mm/ mm时，数值除以10。最后，如果提取范围或多个值，则将提取值的平均值视为CL。

图表评审和验证过程

为了验证电子病历中识别真实PTL评估访问的计算机算法，由训练有素的研究图表摘录人员完成迭代图表审查过程，并由经验丰富的妇产科医生通过多次迭代进行判定。向经过培训的研究图表摘要人员提供了一份电子表格，其中包含患者的唯一医疗记录号码和就诊就诊的开始和结束日期。根据医疗记录中的自由文本，如果符合以下任何标准，则认为是真正的PTL评估就诊:进行fFN测试，进行TVUS，临床医生在就诊记录中描述或提及PTL，临床医生在就诊记录中描述宫缩或腹痛，获得CL，并给予与PTL相关的药物(例如，溶胎、硫酸镁和皮质类固醇)。

如果任何评估标准被标记为“是”，那么这次会面就被归类为PTL评估访问。否则，它不被归类为PTL评估访问。该决定的相应支持资料也详细地记录了下来。

首先，从只有PTL诊断代码但没有任何其他PTL评估证据的组中随机选择20例就诊样本，由训练有素的研究图表摘录人员审查图表。20次就诊中，有7次(35%)PTL诊断码被确认为PTL评价就诊。由于确诊率低，仅诊断为PTL的患者被排除在进一步处理之外。其次，随机选择计算机化过程确定的20个潜在PTL评估访问样本进行图表审查。其中，17个(85%)被确认为真实的PTL评估访问，然后将图表审查结果用于改进和最终确定该过程。最后，随机抽取100个潜在PTL评估访问进行全图表评审，以图表评审结果作为评估算法性能的参考标准，以准确识别受威胁PTL评估的真实案例。

数据分析

PTL评估访问、fFN测试、TVUS程序和计算机算法和流程生成的CL测量结果首先根据图表审查和裁决的参考标准进行评估，包括其敏感性、特异性和阳性预测值(PPV)。然后进行描述性分析，以出生年份、PTB状态和胎龄详细报告每次妊娠期首次确定的PTL评估访问的分布。出生时的胎龄基于临床估计，并在电子病历中以结构化格式捕获。

从2009年1月1日至2020年12月31日，从KPSC EHR系统中提取了441,673例活产妊娠事件。其中103139例(23.35%)经计算机化算法和流程鉴定，24年间至少有1次PTL评估访视^0/7和34^6/7妊娠周。2009年至2015年间，接受PTL评估就诊的孕妇比例稳定在24%左右，2016年开始下降(表1）.PTL评估访问的孕妇中与PTL相关的PTB的年度趋势显示在表2。经PTL评估的孕妇中PTB的总发病率为19.78%，在整个研究期间稳定在18%-20%的范围内。

表3按出生年份列出每次妊娠经fFN测试、TVUS程序和CL测量确定的首次PTL评估访问的分布。进行fFN检查的比率从2009年的28.33%下降到2020年的9.01%，而TVUS检查的百分比从2009年的36.72%上升到2020年的45.22%，CL报告率从2009年的35.32%上升到2020年的42.36%。此外，同时使用fFN和TVUS的PTL率从2009年的14.64%下降到2020年的6.85%。平均CL为3.66 cm (SD=0.99 cm)，在研究期间保持相对稳定。

表4总结了在PTL评估访问时相应孕龄的每个PTB妊娠的首次PTL评估访问、fFN测试、TVUS程序和CL测量的分布。对于最终患有sPTB的患者百分比，随着评估时胎龄的变化，sPTB在24岁时出现的患者中从20.75%下降^0/7-24^6/727岁时的妊娠周数为16.7%^0/7-27年^6/7孕周;在27年期间，它保持在16%-19%的范围内^0/7和30^6/7妊娠周数从31岁时的19.38%增加^0/7-31年^6/734岁时妊娠周数为24.52%^0/7-34年^6/7孕周。

表1。趋势显示妊娠导致活产并在24小时内进行早产评估^0/7-34年^6/7出生年份的妊娠周数。

出生年	活产妊娠，N	活产妊娠伴早产评估访视，n (%)
2009	31476年	7682 (24.41)
2010	31388年	7798 (24.84)
2011	32896年	8084 (24.57)
2012	34765年	8514 (24.49)
2013	34968年	8477 (24.24)
2014	36148年	8993 (24.88)
2015	37782年	9109 (24.11)
2016	39605年	9486 (23.95)
2017	40030年	9412 (23.51)
2018	41026年	9511 (23.18)
2019	41326年	9061 (21.93)
2020	40263年	7012 (17.42)
整体	441673年	103139 (23.35)

表2。活产妊娠与早产评估访问24之间^0/7和34^6/7按出生年份和早产情况划分的妊娠周数。

出生年	早产状况
	是的^一个， n (%)	不，n (%)	总(N)
2009	1556 (20.26)	6126 (79.74)	7682
2010	1602 (20.54)	6196 (79.46)	7798
2011	1638 (20.26)	6446 (79.74)	8084
2012	1698 (19.94)	6816 (80.06)	8514
2013	1644 (19.39)	6833 (80.61)	8477
2014	1645 (18.29)	7348 (81.71)	8993
2015	1755 (19.27)	7354 (80.73)	9109
2016	1859 (19.6)	7627 (80.4)	9486
2017	1870 (19.87)	7542 (80.13)	9412
2018	1814 (19.07)	7697 (80.93)	9511
2019	1809 (19.96)	7252 (80.04)	9061
2020	1509 (21.52)	5503 (78.48)	7012
整体	20399 (19.78)	82740 (80.22)	103139年

^一个是的:有早产评估的孕妇中的早产。

表3。首次早产评估访视的每一次妊娠均由计算机算法确定24次之间^0/7和34^6/7按出生年份计算的妊娠周数。

出生年	总PTL^一个N	是的，对于fFN^b， n (%)	是的^c对电大的^d， n (%)	fFN和TVUS都是，n (%)	宫颈长度
					n (%)	平均值(SD)， cm
2009	7682	2176 (28.33)	2821 (36.72)	1125 (14.64)	2713 (35.32)	3.62 (1.01)
2010	7798	2145 (27.51)	2958 (37.93)	1129 (14.47)	2847 (36.51)	3.63 (1.01)
2011	8084	2223 (27.5)	3221 (39.84)	1233 (15.25)	3131 (38.73)	3.63 (0.99)
2012	8514	2155 (25.31)	3579 (42.04)	1276 (15)	3482 (40.9)	3.64 (0.99)
2013	8477	2106 (24.84)	3846 (45.37)	1349 (15.91)	3685 (43.47)	3.61 (0.99)
2014	8993	1848 (20.55)	4134 (45.97)	1264 (14.05)	3949 (43.91)	3.64 (1.00)
2015	9109	1653 (18.15)	4278 (46.96)	1113 (12.22)	4103 (45.04)	3.69 (1.00)
2016	9486	1470 (15.5)	4269 (45)	991 (10.44)	4097 (43.19)	3.68 (0.99)
2017	9412	1172 (12.45)	4045 (42.98)	803 (8.53)	3881 (40.23)	3.69 (0.96)
2018	9511	1009 (10.61)	4025 (42.32)	714 (7.51)	3805 (40.01)	3.68 (0.98)
2019	9061	850 (9.38)	3976 (43.88)	640 (7.06)	3762 (41.52)	3.70 (0.98)
2020	7012	632 (9.01)	3171 (45.33)	480 (6.85)	2970 (43.36)	3.65 (1.00)
整体	103139年	19439 (18.85)	44423 (43.97)	12117 (11.75)	42425 (41.13)	3.66 (0.99)

^一个PTL:早产。

^bfFN:胎儿纤维连接蛋白。

^c是的:这意味着该列包含有经阴道超声评估或宫颈长度值记录的患者记录。

^dTVUS:经阴道超声。

表4。首次早产评估访视的每一次妊娠均由计算机算法确定24次之间^0/7和34^6/7按胎龄计算的妊娠周数。

PTL的孕龄^一个(周)	PTL总病例数，N	肺结核^b是的^c， n (%)	fFN^d-是的，n %	电大的^e是的^f， n (%)	fFN和TVUS -是的，n (%)	宫颈长度
						n (%)	意思是(SD)
24^0/7-24^6/7	7691	1596 (20.75)	1397 (18.16)	4205 (54.67)	1013 (13.17)	4009 (52.13)	3.70 (1.06)
25^0/7-25年^6/7	7496	2468 (19.58)	1403 (18.72)	3983 (53.14)	971 (12.95)	3813 (50.87)	3.73 (1.03)
26^0/7-26年^6/7	7923	1392 (17.57)	1524 (19.24)	4060 (51.24)	1037 (13.09)	3894 (49.15)	3.76 (1.01)
27^0/7-27年^6/7	8122	1356 (16.7)	1733 (21.34)	4186 (51.54)	1143 (14.07)	3995 (49.19)	3.75 (0.97)
28^0/7-28年^6/7	8417	1562 (18.56)	1771 (21.04)	4220 (50.14)	1166 (13.85)	4060 (48.24)	3.71 (0.98)
29^0/7-29年^6/7	8823	1535 (17.4)	2032 (23.03)	4229 (50.2)	1290 (14.62)	4262 (48.31)	68 (0.97)
30.^0/7-30^6/7	9224	1709 (18.53)	2114 (22.92)	4436 (48.09)	1279 (13.87)	4274 (46.34)	3.67 (0.94)
31^0/7-31年^6/7	9932	1925 (19.38)	2446 (24.63)	4638 (46.7)	1475 (14.85)	4492 (45.23)	3.59 (0.97)
32^0/7-32年^6/7	11158年	2234 (20.02)	2639 (23.65)	4752 (42.59)	1520 (13.62)	4567 (40.93)	3.58 (0.95)
33^0/7-33年^6/7	11770年	2537 (21.55)	2088 (17.74)	3898 (33.12)	1113 (9.46)	3722 (31.62)	3.50 (0.97)
34^0/7-34年^6/7	12583年	3085 (24.52)	292 (2.32)	1516 (12.05)	100 (0.8)	1337 (10.63)	3.42 (1.08)
整体	103139年	20399 (19.78)	19439 (18.85)	44423 (43.97)	12117 (11.75)	42425 (41.13)	3.66 (0.99)

^一个PTL:早产。

^bPTB:早产。

^c是的:这意味着有早产评估的孕妇中存在早产。

^dfFN:胎儿纤维连接蛋白。

^eTVUS:经阴道超声。

^f是的:这意味着该列包含有经阴道超声评估或宫颈长度值记录的患者记录。

使用fFN测试、TVUS程序和CL测量的PTL评估访问的百分比也随分娩时胎龄的变化而变化。fFN检测从24岁时的18.16%增加^0/7-24^6/731岁时的妊娠周数为24.63%^0/7-31年^6/7妊娠周数在34时显著下降至2.32%^0/7-34年^6/7孕周。相比之下，这一比例从24岁的54.67%有所下降^0/7-24^6/7妊娠周数为12.05%^0/7-34年^6/7而在24岁时，这一比例为52.13%^0/7-24^6/734岁时，妊娠周数为10.63%^0/7-34年^6/7妊娠周CL测量。24岁时，平均CL也从3.7 cm (SD=1.06 cm)略有下降^0/7-24^6/7妊娠周数为3.43 cm (SD=1.08 cm)^0/7-34年^6/7孕周。采用fFN试验和TVUS方法进行PTL评估的趋势与采用fFN试验进行PTL访问的模式相似。

对计算机化算法确定的随机选择的100次PTL评价访视与人工图表审查(作为金标准)的验证载于表5。在NLP算法确定的100个PTL评估访问中，18个PTL评估涉及fFN测试，27个涉及TVUS程序，28个涉及CL测量。此外，100名患者中有97名确诊为PTL评估访问，18名患者中有17名确诊为fFN检查，所有27名患者均确诊为TVUS检查，28名患者中有27名确诊为CL测量记录。计算机算法错过了3次PTL评估访问，并进行了TVUS和3次CL测量。该算法对PTL评估访视、fFN检查、TVUS程序和CL测量的ppv分别为97%、94.44%、100%和96.43%，敏感性分别为100%、90%和90%，特异性分别为98.8%、100%和98.6%，见表6。

表5所示。验证了早产评估和宫颈长度测量提取算法的结果。

计算机化的结果		总(N)		检查海图后的状态
				是的,n		不,n
早产评估访问		One hundred.		97		3.
胎儿纤维连接蛋白试验
	是的	18	17		1
	没有	82	0		82
经阴道超声
	是的	27	27		0
	没有	73	3.		70
宫颈长度
	Yes-same价值	27	27		0
	Yes-different价值	1	1		0
	没有	72	3.		69

表6所示。算法的性能指标。

性能	PPV^一个（%)	灵敏度(%)	特异性(%)
早产评估访视	97	不^b	不
胎儿纤维连接蛋白试验	94.44	One hundred.	98.8
经阴道超声	One hundred.	90	One hundred.
宫颈长度	96.43	90	98.6

^一个PPV:阳性预测值。

^bNE:没有估计。

当孕妇在分诊时有PTL的体征和症状时，进行PTL评估，评估的详细信息以结构化和非结构化格式记录并存储在EHR系统中。在这项研究中，我们开发了一种计算机化的算法和过程来识别PTL评估访问，并提取出相关的评估方法，包括fFN, TVUS和CL。该算法确定了具有威胁性PTL的患者群体，并以高灵敏度和特异性进行了这些相关评估。使用该算法，研究中23.35%的孕妇在24小时内进行了PTL评估就诊^0/7-34年^6/719.78%的妊娠最终导致sPTB。这一结果与以往的研究结果一致[18，31，32]．

尽管人工图表审查和NLP输出之间的分歧很小，但值得探讨人工图表审查错误分类的细节。在3例假阳性PTL评估就诊中，1例在妊娠36周时安排剖宫产;访问中提到子宫收缩，这是用于定义PTL的条件之一。第二个病例与子宫收缩提出选择性引产在39孕周，并没有排除由于不准确的估计妊娠开始日期。第三例未被排除，因为该算法检测到未经治疗的感染可能增加PTL风险的记录讨论，而不是真实的PTL评估。该算法对fFN只产生了1个假阳性结果，因为它错误地将短语“鉴于最近的性活动，fFN无法解释”识别为fFN阳性结果。该算法遗漏了3个TVUS程序，其中2个是由于“阴道超声”和“正式超声”术语用于描述CL测量的超声，而这些术语未出现在编制的术语表中。另一个遗漏的病例是由于成像的位置;TVUS是在常规产科医生办公室访问期间进行的，而不是在医院分诊单元进行的。此外，该算法错误地提取了1个CL度量，而遗漏了3个。 The CL measures of the missed cases were falsely excluded because the measures were inaccurately associated with other terms by the algorithm, such as “cervix opening/dilation” or “deepest vertical amniotic fluid pocket.” The incorrect one resulted from the false selection of a measurement performed during the obstetrician office visit rather than as part of the hospital triage service because both were mentioned in the same triage clinical notes.

当孕妇出现PTL的体征和症状时，临床医生通常会进行PTL评估。这样的评估可能有助于区分真实的PTL病例和虚假的，因此随后应用适当的干预措施可能会改善新生儿的结局[33]．相反，对于假PTL病例，出院回家可以防止不必要的住院治疗，以及不必要的、昂贵的和潜在有害的干预措施[34]．目前在怀孕期间使用CL测量和fFN测试仅限于阴性结果可以避免不必要干预的情况。我们的研究算法试图识别所有PTL评估访问，只要从临床记录中检测到进行的评估，无论遇到是否导致sPTB或继续妊娠。确定PTL评估访问将提供一个独特的机会，探讨PTL评估与胎儿结局的关系。该方法还将为我们在未来的研究中准确确定sPTB的结局及其对连续妊娠的影响，以及根据亚型(sPTB与指示性PTB)区分PTB提供机会。

近年来，自然语言处理的应用要么单独采用机器学习技术，要么与基于规则的自然语言处理相结合[27，35]．机器学习技术被证明是有利的，因为当使用现有的基于规则的算法获得的性能不令人满意的情况下，机器学习技术提高了准确性[36]．该技术已应用于使用结构化电子病历数据预测ptb [27]．据我们所知，这是医学领域第一个基于结构化或非结构化数据用于识别PTL评估访问的NLP方法。未来的工作需要通过机器学习方法在这一领域进行进一步研究，以提高识别PTL评估访问方面的性能。

我们的研究有几个潜在的局限性。首先，我们的算法依赖于可用的(结构化和非结构化)信息以及我们的电子病历系统中变量的准确性。虽然接受外部护理的个人无法获得临床记录，但只要在我们的护理系统中建立了怀孕事件，孕妇就不太可能在其他地方接受治疗。其次，虽然PTL就诊伴有早产的医学指征并不是研究的重点(没有进行PTL评估，直接入院分娩)，但我们的算法只排除了伴有先兆子痫/子痫的PTL就诊。由于样本量相对较小，其他医疗条件，如计划剖宫产和医学上指示的引产，未纳入算法的排除标准。第三，当应用于其他卫生保健系统和设置时，由于不同卫生保健设置中临床记录的格式和呈现方式的变化，这种特定的计算机化算法可能需要进行一些修改。最后，这种计算机化算法在筛选潜在相关临床笔记时受到预先编译的搜索术语和感兴趣的词汇的限制。在今后的工作中，可以通过更广泛和有代表性的图表审查样本来加强它。

综上所述，所开发的NLP算法有效地识别了PTL的评估访问量，并从电子病历中提取了相应的PTL评估方法，包括fFN、TVUS和CL测量。验证表明该算法具有较高的准确性。该NLP算法可用于PTL或ptb相关的药物流行病学研究和患者护理回顾。

致谢

这项研究得到了Hologic, Marlborough, Massachusetts, usa的支持。所表达的观点仅由作者负责，并不一定反映资助机构的官方观点。作者感谢南加州凯撒医疗机构的患者通过我们的电子健康记录系统收集的信息帮助改善了护理。

利益冲突

没有宣布。

‎

多媒体附录1

补充表包含诊断代码，程序，药物清单，以及早产评估访问算法的关键短语和术语。

DOCX文件，37kb

早产。美国疾病控制与预防中心。2020。URL:https://www.cdc.gov/reproductivehealth/maternalinfanthealth/pretermbirth.htm[2022-03-10]访问
公共卫生服务，卫生资源和服务管理局。96- 97年美国儿童健康协会。DHHS出版物HRSA-M-DSEA-97-48。1997.URL:https://www.hrsa.gov/[2022-08-30]访问
Behrman RE, Butler AS，编辑。早产:原因、后果和预防。华盛顿:国家科学院出版社;2007.
戈登伯格RL，乔比AH。生殖健康和生育结果研究前景。中华医学会杂志2001年2月;28(5):633-639。［CrossRef] [Medline]
自发性早产，一个临床困境:病因、病理生理和遗传异质性和种族差异。中华妇产科杂志2008;87(6):590-600 [j]免费全文] [CrossRef] [Medline]
国际疾病分类。疾病控制和预防中心，2005。URL:https://www.cdc.gov/nchs/data/dvs/Volume-1-2005.pdf[2022-03-10]访问
Ruma MS, Banker WM。可获得性和使用胎儿纤维连接蛋白测试和经阴道超声早产评估在美国。[J]母胎新生儿医学杂志，2021(10):1-8。［CrossRef] [Medline]
黄晓明，黄晓明。产前糖皮质激素对有早产风险妇女胎儿肺成熟的促进作用。Cochrane Database system Rev 2006;3(3):CD004454。［CrossRef] [Medline]
张丽娟，张丽娟，张丽娟。产前硫酸镁对早产儿神经系统预后的影响。中华妇产科杂志;2009;31(6):1327-1333。［CrossRef] [Medline]
DeFranco EA, Lewis DF, Odibo AO。提高早产的筛查准确性:有症状患者的胎儿纤维连接蛋白和宫颈长度是否能有效预测早产?系统回顾。中华妇产科杂志;2013;32(3):391 - 391。［CrossRef] [Medline]
母胎医学学会(SMFM)， Hamm R, Combs C, Aghajanian P, Friedman A，患者安全和质量委员会。母胎医学学会特别声明:产前皮质类固醇给药最佳时机的质量度量。中华妇产科杂志;2009;26(6):82 - 81 [J]免费全文] [CrossRef] [Medline]
张建军，张建军，张建军，等。定量胎儿纤维连接蛋白在妊娠18周预测无症状高危妇女早产。中华妇产科杂志，2016;27(2):255-263。［CrossRef] [Medline]
Romero JA, Downes K, Pappas H, Elovitz MA, Levine LD.宫颈长度变化对有症状患者早产的预测。中华妇产医学杂志，2011;31(1):100 - 100。［CrossRef] [Medline]
欧文杰，杨建军，杨建军，杨建军，杨建军，杨建军，中国妇婴医学网络。妊娠中期宫颈长度缩短能预测很早的自发性早产吗?中华妇产科杂志(英文版);2004;31(1):398 - 398。［CrossRef] [Medline]
胎儿纤维连接蛋白检测降低早产风险。Cochrane Database system Rev 2019;7(7):CD006843 [j]免费全文] [CrossRef] [Medline]
早产评估工具包。March of dime, 2016年。URL:https://ohiohospitals.org/OHA/media/OHA-Media/Documents/Patient%20Safety%20and%20Quality/Infant%20Mortality/EED%20Webpage%20Resources/March-of-Dimes-Preterm-Toolkit.pdf[2022-03-10]访问
早产协议实施的实用指南。Hologic》2019。URL:https://hologiced.com/wp-content/uploads/2019/04/MED-00342-fFN_Standard_Handbook_Digital-Version_Final_022119.pdf[2022-03-09]访问
张建军，李建军，李建军，李建军。早产评估的成本效益标准化。中华妇产科杂志;2010;33(3):250.91 - 250.95。［CrossRef] [Medline]
刘建军，刘建军，刘建军，等。一种面向临床放射学的自然语言文本处理方法。中华医学杂志，1994;1(2):161- 164 [J]免费全文] [CrossRef] [Medline]
刘志强，刘志强。自然语言工具集。自然语言处理和计算语言学教学的有效工具和方法研讨会论文集，2002，发表于:ETMTNLP 02;2002年7月7日;费城，宾州，第63-70页。［CrossRef]
Manning C, Surdeanu M, Bauer J, Finkel J, Bethard S, McClosky D.斯坦福CoreNLP自然语言处理工具包。2014年发表于:计算语言学协会第52届年会上。系统演示;2014年6月23-24日;巴尔的摩，马里兰州，第55-60页。［CrossRef]
Chapman B, Chapman WW, Dayton G.上下文算法的Python实现。chapmanbe / pyConTextNLP。URL:https://github.com/chapmanbe/pyConTextNLP/[2022-03-10]访问
Savova GK, Masanz JJ, Ogren PV, Zheng J, Sohn S, Kipper-Schuler KC，等。梅奥临床文本分析和知识提取系统(cTAKES):架构，组件评估和应用。中华医学杂志，2010;17(5):507-513 [J]免费全文] [CrossRef] [Medline]
Crowley RS, Castine M, Mitchell K, Chavan G, McSherry T, Feldman M. caTIES:一个基于网格的系统，用于外科病理报告和组织标本的编码和检索，支持转化研究。中华医学杂志，2010;17(3):253-264 [J]免费全文] [CrossRef] [Medline]
郑超，于伟，谢峰，陈伟，Mercado C, syls，等。使用自然语言处理识别疫苗安全数据链中五个卫生保健系统中tdap相关的局部反应。国际医学杂志2019年7月;127:27-34 [J]免费全文] [CrossRef] [Medline]
于伟，郑超，谢峰，陈伟，Mercado C, syls，等。在疫苗安全数据链的五个卫生保健系统中，使用自然语言处理来识别疫苗相关的过敏反应。药物流行病学杂志，2020;29(2):182-188 [j]免费全文] [CrossRef] [Medline]
刘建军，刘建军，刘建军，等。慢性疾病临床记录的自然语言处理研究进展。中华医学杂志;2019;7(2):12239 [j]免费全文] [CrossRef] [Medline]
Włodarczyk T, Płotka S, Szczepański T, Rokita P, Sochacki-Wójcicka N, Wójcicki J等。早产预测的机器学习方法综述。电子学2021年3月;10(5):586。［CrossRef]
Kiefer DG, Vintzileos AM。胎儿纤维连接蛋白在预测和预防自发性早产中的应用。中华妇产科杂志2008;1(3):106-112。［Medline]
Koebnick C, Langer-Gould AM, Gould MK, Chao CR, Iyer RL, Smith N，等。大型综合医疗保健系统成员的社会人口学特征:与美国人口普查局数据的比较。2012年9月;16(3):37-41 [J]免费全文] [CrossRef] [Medline]
Blackwell SC, Sullivan EM, Petrilla AA, Shen X, Troeger KA, Byrne JD。胎儿纤维连接蛋白检测的应用与有早产症状妇女的妊娠结局中华临床医学杂志2017;9:585-594 [j]免费全文] [CrossRef] [Medline]
McPheeters ML, Miller WC, Hartmann KE, Savitz DA, Kaufman JS, Garrett JM等。先兆早产流行病学:一项前瞻性队列研究。中华妇产科杂志，2005;32(4):1325-1329。［CrossRef] [Medline]
小塞尔斯WJ。早产。Am Fam医师2010 Feb;81(4):477-484 [j]免费全文] [Medline]
Haas DM, Imperiale TF, Kirkpatrick PR, Klein RW, Zollinger TW, Golichowski AM。溶胎治疗:荟萃分析和决策分析。中华妇产科杂志2009;13(3):585-594。［CrossRef] [Medline]
李建军，李建军，李建军，等。使用电子健康记录识别患者表型队列的方法综述中华医学杂志，2014;21(2):221-230 [J]免费全文] [CrossRef] [Medline]
Castro SM, Tseytlin E, Medvedeva O, Mitchell K, Visweswaran S, Bekhuis T，等。从放射学报告中自动注释和分类BI-RADS评估。[J]中国生物医学工程学报，2017;29 (1):391 - 391 [J]免费全文] [CrossRef] [Medline]

‎

肤色线:宫颈长度

电子健康档案:电子健康记录

fFN:胎儿纤连蛋白

KPSC:南加州凯撒医疗机构

NLP:自然语言处理

PPV:阳性预测值

PTB:早产

PTL:早产

sPTB:自然早产

上次更新:经阴道超声

郝编辑;提交10.03.22;经Z Reis同行评审;对作者06.07.22的评论;修订版本收到15.07.22;接受12.08.22;发表06.09.22

©faagen Xie, Nehaa Khadka, Michael J Fassett, Vicki Y Chiu, Chantal C Avila, Jiaxiao Shi, Meiyu Yeh, Aniket Kawatkar, Nana A Mensah, David A Sacks, Darios Getahun。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com)， 2022年9月6日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到https://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

在大型综合医疗保健系统中识别早产评估访问和从电子健康记录中提取宫颈长度测量:算法开发和验证