JMIR医学信息学-创建一个准确的算法来检测Snellen最佳记录的视力从眼科电子健康记录笔记

原始论文

¹美国伊利诺斯州芝加哥西北大学范伯格医学院眼科

²西北大学范伯格医学院公共卫生与医学研究所，芝加哥，伊利诺伊州，美国

^3.美国伊利诺斯州芝加哥西北大学临床与转化科学研究所

通讯作者:

Michael Mbagwu，医学博士

公共卫生和医学研究所

西北大学范伯格医学院

圣克莱尔大街633号

20楼

芝加哥,

美国

电话:1 312 503 3577

传真:1 312 503 3577

电子邮件:michael-mbagwu@northwestern.edu

背景:视敏度是眼科用来衡量病人视力的主要指标。单次患者就诊时，单眼的视力可能以多种方式记录(例如，Snellen vs. Jäger单位vs.字体打印大小)，并记录远视力或近视力。在单个患者就诊中捕获每只眼睛的最佳记录视力(BDVA)是使电子眼科临床记录在研究中有用的重要步骤。

摘要目的:目前，从电子健康记录(EHR)笔记中以有效和准确的方式获取BDVA的方法有限。我们开发了一种算法，从电子眼科临床记录中的定义视场中检测左右眼的BDVA。

方法:我们设计了一种算法，从295218份具有视力数据的眼科临床记录中确定的视场中检测BDVA。研究人员确定了大约5668种独特的反应，并开发了一种算法，将所有独特的反应映射到一个结构化的Snellen视觉灵敏度列表。

结果:在研究期间，从总共295218份眼科临床记录中捕获了视力。该算法识别每只眼睛定义的视力部分中的所有视力，并返回每只眼睛的单个BDVA。对100例随机患者记录的临床图表回顾显示，从这些记录中检测BDVA的准确率为99%，观察到的误差为1%。

结论:我们的算法成功地从眼科临床记录中捕获了最佳记录的Snellen距离视力，并将各种输入转换为结构化的Snellen等效列表。据我们所知，我们的工作代表了从大量电子眼科笔记中准确捕获视力的第一次尝试。使用这种算法可以使研究小组对以患者为中心的结果评估视力感兴趣。本研究使用的所有代码目前都可获得，并将在https://phekb.org上在线提供。

中华医学杂志，2016;4(2):914

doi: 10.2196 / medinform.4732

关键字

视敏度；最好的记录视力；最佳矫正视力；电子健康记录；电子病历；表现型；数据挖掘；眼科学

视力是眼科检查中最重要的记录资料之一。对于眼科医生来说，它相当于心率或血压等生命体征。在大多数电子健康记录(EHRs)中，它被记录为定义字段中的自由文本，而不是纯结构化数据。此外，在一次临床访问中，给定眼睛的视力可能在EHR记录中记录了几个不同的值。例如，一个没有矫正(眼镜)的新患者在眼科医生那里可能看到20/100，用旧的矫正可能看到20/30，但“最佳矫正视力”戴上新眼镜将看到20/20。在这种情况下，一只眼睛的三种不同的视力将被记录在一份临床记录中。

在没有佩戴任何眼镜或隐形眼镜矫正的情况下进行的视力检查被记录为“未矫正视力”。如果患者戴眼镜或隐形眼镜，则记录为“矫正视力”。一个视力正常的人不需要戴眼镜，他们不戴眼镜的视力(“未矫正”的视力)预计为20/20。如果近视或远视患者佩戴合适的眼镜，并且视力系统正常，那么他们佩戴眼镜后的视力(“矫正”视力)也应该达到20/20。如果一个人有白内障或糖尿病眼病等眼部问题，他们的“最佳矫正”眼镜的视力可能比20/20还差。

患者经常因为视力模糊而去看眼科医生，这可能是由于使用的镜片处方对他们的眼睛已经过时了。也可能是由于眼睛的潜在疾病限制了视力。在任何一种情况下，都可以进行称为折射的测试。折射(用于眼镜测量)将测量适当的晶状体强度，以将光线聚焦在视网膜上，并确定眼睛的视觉潜力或最佳矫正视力(BCVA)。临床上，每只眼睛的单个BCVA代表最大的视觉电位，这一值是临床医生和研究人员最感兴趣的[1]。

患有白内障等眼疾的患者，如果戴上旧眼镜，视力可能会达到20/100。他们随后可能会被折射，但可能只能看到20/50的新镜片，因为白内障部分阻挡了视力。从技术上讲，BCVA只有在患者就诊期间出现屈光时才能确定。在上述示例中，BCVA与最佳记录视力(BDVA)相同，即20/50。如果上述患者在该次就诊期间没有屈光，则该次就诊的BDVA将为20/100,BCVA将是未知的。

有时，像针孔测试这样的快速测试可以接近最佳折射或BCVA，但不如折射的“黄金标准”准确。此外，在一些诊所就诊时，没有进行屈光或针孔检查，因此唯一的视力是“当前”视力，BDVA可能等于或不等于甚至接近真实的BCVA。因此，虽然BCVA是常用的临床术语，但当从电子病历中提取视力时，BDVA是合适的术语。

的例子中表1一名患者在一个月的时间里去了三家不同的眼科医生的诊所。第一次就诊时，发现患者双眼视力模糊，有屈光。由于糖尿病视网膜病变，患者的右眼视力有限，左眼需要更换眼镜。在这次访问中，发现BCVA与BDVA相同。在第二次就诊时，视网膜专家没有对患者进行屈光检查，而是使用针孔来估计BCVA。在这次就诊中，BDVA接近真实BCVA，但与真实BCVA略有不同，由于患者没有折射，因此无法确定。在第三次去看眼睑专家时，专家只是用当时使用的眼镜检查了视力，没有检查屈光或针孔，因为这与这次就诊的原因无关。在这种情况下，每只眼睛的BDVA都“更差”，但这是由于缺乏测量或估计BCVA的尝试。

表1。临床接触样本和相应的bdva。

访问
A.第一次去看医生买新眼镜
	矫正视力	正确的= 20/100	左= 20/40
	明显的折射	正确的= 20/60	左= 20/20
	BDVA	正确的= 20/60	左= 20/20
B.第二次看专家评估视网膜问题
	矫正视力	正确的= 20/100	左= 20/40
	针孔	正确的= 20/70	左= 20/25
	BDVA	正确的= 20/70	左= 20/25
C.眼睑病变第三次就诊
	矫正视力	正确的= 20/100	左= 20/40
	BDVA	正确的= 20/100	左= 20/40

^一个BDVA:最好的记录视力。

一种合适的算法将评估在特定视场中遇到的所有人的视力，并返回每只眼睛的最佳视力。

在美国的临床环境中，视力最常用Snellen图表来测量，患者在相当于20英尺的距离观看一组标准字母，以确定他们自己的视力，并将其与“正常视力”的人在20英尺处看到的视力进行比较(即20/20)。分子是进行测试的距离，分母是患者识别出的最小字母与5角分夹角的距离[1]。分母中数值越高表示视力越差，即20/100比20/20差。为了诊断的目的，通常要分别检查每只眼睛的视力。还有其他标准用于确定视觉敏锐度，如公制斯内伦当量或最小分辨率角(LogMAR)的对数。Jäger值(J1、J2等)或字体打印大小(8、10、12等)用于测试近视敏锐度。

最近的工作支持在电子病历中使用数据准确有效地识别特定疾病表型[2-9]。电子医疗记录和基因组学(eMERGE)联盟已经在识别疾病表型方面取得了许多成功。过去专门针对眼科的工作利用多种方法从基于电子病历的临床记录表型中识别白内障病例[10]。然而，尽管视敏度作为衡量患者视力好坏的主要指标很重要，但目前还没有从电子病历中快速准确提取BDVA的标准方法。

本文描述了我们开发的一种算法，用于从眼科电子病历临床记录中捕获远距离视力数据。我们将该算法应用于西北医学企业数据仓库(NMEDW)中的295218例患者记录。然后，我们将我们的检测方法与在委员会认证的眼科医生的指导下随机抽取的100例患者笔记的图表审查进行比较，以测试准确性。

算法开发

在西北眼科诊所，EPIC EHR (EPIC系统公司，麦迪逊，WI)自2007年以来一直在使用。EPIC EHR中的结构化视力(“Snellen-Linear”)字段允许对由提供者输入的结果进行离散抽象。在指定视力检查结果时，可以使用三种不同的标准单位(Snellen、Jäger和字体打印大小)。在当前版本的EHR中，视力是作为一个免费文本选项输入的，允许提供者选择手动输入结果或从下拉菜单中选择。因此，可以在不同的视敏度部分输入大量不同的响应。总的来说，我们确定了5668个独特的响应，我们将所有这些响应都映射回标准的Snellen视觉敏锐度表示法文本框1．

算法开发中使用的视敏度列表

20⁄10
20⁄20
20⁄25
20⁄30
20⁄40
20⁄50
20⁄60
20⁄70
20⁄80
20⁄100
20⁄125
20⁄200
20⁄400
CF(数手指)
HM(手部动作)
LP(光感)
NLP(无光感)
LP(光感)

文本框1。算法开发中使用的视敏度列表

每只眼睛的视力测量值可以记录在EHR记录中至少8个结构化字段中。在我们的电子病历中，可以分别测量每只眼睛的视力，无论是否矫正，使用针孔装置，扩张滴眼液前的屈光，扩张滴眼液后的屈光，自动屈光，以及矫正或不矫正的近视力。

使数据进一步复杂化的是，虽然视敏度是在定义的字段中记录的，但它是作为自由文本输入的，这使得直接抽象的意义降低，因为单个测量可以以各种不同的方式记录。例如，提供者通常可以在视力领域写下其他临床信息，这些信息可能对将来的诊所就诊有帮助。输入的回答示例包括:“20/20慢”，“在灯光充足的房间里等待1分钟后，20/20”，“20/60 w/头向下倾斜”和“20/60用药膏眨眼”。

我们使用结构查询语言(SQL)从NMEDW中提取这些数据。这种语言允许以方便的方式操作数据，并且是大多数临床数据库的标准。SQL允许“关键字”搜索，可以指定结果必须包含某个文本字符串。所有的反应，包括这些，然后手动映射到视觉敏锐度分类之一文本框1．

为了解决EHR中发现的5668个唯一响应不能代表所有可能的未来输入值这一事实，我们开发了一种机制来对当前不在词汇表列表中的文本进行分类。它使用字符串搜索已知的视敏度，这些视敏度最初是在EHR记录的“视敏度”结构字段中输入的。这是通过测量表中列出的所有视力来完成的文本框1．该算法只有在遇到无法映射回先前分类响应的结果时才会使用这种方法，因为人类策划的词汇被认为是“黄金标准”。

然后根据他们的数字表示将视觉敏锐度按最佳到最差排序。例如，分类结果20/10排名第一，20/20排名第二，以此类推。这个排名允许进行额外的编码，以确定哪种视力对特定患者的记录是最好的(图2和3.）.本研究使用的所有代码目前正在出版中，稍后将在https://phekb.org上公开使用。图1说明了算法的灵敏度映射和排序逻辑。图2和3.详述从临床记录中确定BDVA的例子。

数据

我们从NMEDW中提取了数据。NMEDW是西北大学范伯格医学院和西北医学院的联合倡议。它的使命是为校园内所有临床和研究数据源创建一个单一、全面和集成的存储库，以促进研究、临床质量倡议、医疗保健操作和医学教育。这项研究开始于2007年初，因为这是眼科诊所完全过渡到电子病历的一年。

本研究的数据来自西北医学院眼科成人门诊门诊访问西北纪念医院，该医院使用EPIC电子病历。所有年龄在18岁至89岁之间的患者都被纳入研究。此外，所有记录中包含任何视觉灵敏度测量(Snellen-Linear)的音符都被用于开发算法。2007年1月1日至2014年12月31日，眼科门诊共记录病历298096份。其中，来自57,317名独特患者的295,218份笔记至少有一项视力测量记录在图表中，因此被纳入分析。

为了评估算法结果的准确性，两名审稿人，一名眼科主治医生和一名医学生(PB, MM)，独立审查了100份额外的眼科临床记录，并记录了每只眼睛的BDVA。对于内部验证，每次都可以在两个审稿人之间找到适当的相关性。

然后将这些bdva与算法生成的bdva进行比较。使用临床医生图表回顾作为金标准，我们评估了我们算法的准确性。

该方案由位于伊利诺伊州芝加哥市的西北大学机构审查委员会办公室批准。

发现约295218份眼科临床记录中存在视力数据。这代表了57,317名独特的患者，他们至少进行了一次视力检查。本研究患者的总体平均年龄为57.6岁(18-89岁)。大多数患者检测到的视力在20/100或更好(86.2%;图4）;最常见的视力是“20/20”(38.7%)，其次是“20/25”(18.9%)。

每个临床记录平均每只右眼和左眼分别记录1.48和1.49次视力记录，每只眼的视力范围为0-7。在295218份临床记录中，54%(158786份)的右眼或左眼有不止一种视力记录。在任何定义的视敏度范围内，记录了5668个独特的反应。

当检查特定的Snellen视觉敏锐度值时，大约80%的情况下，与Snellen值相比，记录的视觉敏锐度是完全匹配的文本框1．每个Snellen等效的精确匹配与那些需要算法解释的敏锐度的分解显示在图5．

随机抽取100名患者(200只眼睛)进行视力评估，并以与先前发表的工作类似的方式进行临床图表审查[10]。将临床医生记录的BDVA与算法捕获的值进行比较。研究发现，该算法的总体准确率为99%(99%右眼;99%左眼)，如图表2．在图表的其他区域记录的视力，而不是结构化的视力范围，如临床记录的“病史”部分，造成了两个(1.0%)的错误。

表2。BDVA算法的图表评审结果。

检查的患者总数	One hundred.
眼睛总数	200
右眼精度	99%
左眼精度	99%
总体精度	99%

^一个BDVA:最好的记录视力。

图4。EHR笔记中按范围(CF=数指，HM=手部运动，LP=光感，NLP=无光感)检测到的视力频率的图表。

我们创建了一种独特的算法，可以使用电子眼科临床记录准确地确定EHR系统中最佳记录的距离Snellen视力数据。该算法用于295218个笔记的大规模数据存储库，并将结果与100个临床笔记的手动图表审查结果进行了验证。该算法在99%的情况下准确检测出视力。

主要研究结果

就像视力一样，医疗记录的许多组成部分(如主诉、吸烟状况、过敏等)可能包含也可能不包含完全的“结构化数据”，并且不容易捕获。EHR记录中定量特征的准确表示经常被忽视，因为它们很难在EHR中记录(通常是自由文本)，或者假设这些数据在临床诊断中是隐含的。鉴于这些挑战，我们必须为其他措施制定相关的工作方法，例如检测白内障病例[10]和成人身高[4]，摘自电子病历记录。许多研究试图以准确和有效的方式捕捉这些，结果各不相同[11-14]。据我们所知，我们的工作代表了从电子眼科笔记中分析和捕获最佳记录的视力的第一次尝试。这一努力将使我们能够从电子健康记录中进行以患者为中心的结果研究。我们未来的工作将集中在BDVA变化对黄斑变性、糖尿病视网膜病变和白内障手术等各种治疗的比较效果研究上。定义基于ehr的BDVA等数量性状表型的额外工作可以实现更高通量的关联研究[15-20.]。

限制

我们的算法有局限性。首先，使用这种方法，只能回顾性地对响应进行分类，并保持对它们将被正确分类的完全信心。任何搜索自由文本的算法都可能难以破译它(例如，将字母“0”调换为“0”)。由于视力是作为自由文本捕获的，医生可以输入以前从未使用过的结果，并且不会被当前的分组方法捕获。我们添加了更灵活的规则，比如我们的替代检测方法，它可以用来尝试对结果进行前瞻性分类，但它有可能是不准确的。相反，这种方法很可能需要持续的维护来保持完全的信心。

其次，利用NMEDW中发现的视敏度值和基于一个EHR系统开发并测试了该算法。该算法目前在EPIC EHR记录的“视力”部分进行搜索。如果在其他地方记录了视力，例如病史或评估中的描述性短语，则不会返回结果;然而，在我们的研究中，这种情况发生在不到百分之一的视觉敏锐度审计笔记。虽然这是一个潜在的限制，但已知其他电子病历系统以类似的定义字段方式存储数据，这增加了我们的算法在其他机构和电子病历中的潜在推广能力[21，22]。我们的算法在不同临床站点以及不同电子病历平台上的应用和使用将是未来工作的重点。

虽然这是Snellen距离视力测量的代表性样本，但可能有必要为其他类型的视力测量系统(如logMAR、ETDRS、度量量表等)或服务于不同的患者群体(如儿科人群或低视力患者)调整算法。我们的算法是灵活的，可以很容易地修改，通过结合结果从网站特定的图表审查。本研究中使用的所有代码目前可向通讯作者索取。由于视敏度是评估视力健康的主要指标，本研究是使眼科电子医疗记录易于研究的关键的第一步。

致谢

作者感谢位于纽约的美国国家眼科研究所和预防失明研究所为Dustin D. French、Paul J. Bryar和Manjot Gill提供资助。

本研究得到了美国卫生与公众服务部、美国国立卫生研究院国家眼科研究所(资助号:1R21EY024050-01A1)以及美国纽约预防失明研究机构的无限制资助。

利益冲突

没有宣布。

李文森J, Kozarsky A.视觉敏锐度。见:Walker HK, Hall WD, Hurst JW，编辑。临床方法:病史、体格检查和实验室检查。波士顿:巴特沃斯;1990.
Gottesman O, Kuivaniemi H, Tromp G, Faucett WA, Li R, Manolio TA，等。电子医疗记录和基因组学(浮现)网络:过去、现在和未来。中华医学杂志2013;15(10):761-771 [j]免费全文] [CrossRef] [Medline]
McCarty CA, Chisholm RL, Chute CG, Kullo IJ, Jarvik GP, Larson EB等。涌现网络:一个与进行基因组研究的电子医疗记录数据相关联的生物储存库联盟。中华医学杂志2011;4:13 [j]免费全文] [CrossRef] [Medline]
刘建军，张建军，李建军，等。一个严格的算法来检测和清洁不准确的成人身高记录在电子健康档案系统。临床应用学报，2014;5(1):118-126 [j]免费全文] [CrossRef] [Medline]
张建军，张建军，张建军，等。基因研究的电子医疗记录:eMERGE联盟的结果。科学转化医学2011年4月20日;3(79):79re1 [j]免费全文] [CrossRef] [Medline]
Newton KM, Peissig PL, Kho AN, Bielinski SJ, Berg RL, Choudhary V，等。基于电子病历的表现型算法的验证:从eMERGE网络获得的结果和经验教训。中华医学杂志，2013,32 (1):397 - 397 [J]免费全文] [CrossRef] [Medline]
辛格M, Murthy A，辛格S.自由文本临床文件的优先级:贝叶斯分类器的新应用。中华医学杂志;2015;3(2):e17 [j]免费全文] [CrossRef] [Medline]
Adamusiak T, Shimoyama N, Shimoyama M.使用统一医学语言系统的下一代表型。中华医学杂志，2014;2(1):1 - 5 [j]免费全文] [CrossRef] [Medline]
王伟，Krishnan E.大数据与临床医生:科学现状综述。中华医学杂志;2014;2(1):1 [j]免费全文] [CrossRef] [Medline]
Peissig PL, Rasmussen LV, Berg RL, Linneman JG, McCarty CA, Waudby C，等。从电子病历中有效识别白内障病例的多模式方法的重要性。中华医学杂志，2012;19(2):225-234 [J]免费全文] [CrossRef] [Medline]
Holladay JT。视力测量。[J]中华白内障外科杂志，2004;30(2):287- 299。［CrossRef] [Medline]
吴晨，张晨，罗布森D, Jackson R，陈绍华，Hayes RD，等。利用电子健康记录和开放文本信息在大型心理健康病例登记册中评估吸烟状况识别。科学通报，2013;8(9):562 - 562 [j]免费全文] [CrossRef] [Medline]
Epstein RH, St JP, Stockin M, Rothman B, Ehrenfeld JM, Denny JC。使用非标准术语输入药物和食物过敏的自动识别。中华医学杂志，2013;20(5):962-968 [J]免费全文] [CrossRef] [Medline]
刘建军，李建军，李建军，等。电子健康记录中种族、民族和语言偏好的准确性内科实习医学2015;30(6):719-723。［CrossRef] [Medline]
郭志强，李建军，李建军，李建军，电子病历基因组学网络研究。遗传变异与出现网络13923名受试者的白细胞计数相关。中国生物医学工程学报，2012;31(4):639-652 [j]免费全文] [CrossRef] [Medline]
Crosslin DR, McDavid A, Weston N, Zheng X, Hart E, de AM, van Rooij Frank J A, van Duijn Cornelia M, Witteman Jacqueline C M, CHARGE血清学工作组，电子病历基因组学(eMERGE)网络。遗传变异与eMERGE网络中循环单核细胞计数相关。中国生物医学工程学报，2013;22(10):2119-2127 [j]免费全文] [CrossRef] [Medline]
Rakyan VK, Down TA, Balding DJ, Beck S.人类常见疾病的全表观基因组关联研究。学报，2011;12(8):529-541 [j]免费全文] [CrossRef] [Medline]
刘建军，刘建军，刘建军，等。在四个欧洲人群中定量测量皮肤、头发和眼睛色素沉着的全基因组关联研究。科学通报，2012;7(10):894 - 894 [j]免费全文] [CrossRef] [Medline]
韩军，Kraft P，南辉，郭强，陈超，Qureshi A，等。一项全基因组关联研究发现了与头发颜色和皮肤色素沉着相关的新等位基因。PLoS gene 2008;4(5):e1000074 [j]免费全文] [CrossRef] [Medline]
Sulem P, Gudbjartsson DF, Stacey SN, Helgason A, Rafnar T, Magnusson KP，等。欧洲人头发、眼睛和皮肤色素沉着的遗传决定因素。地球物理学报，2007;39(12):1443-1452。［CrossRef] [Medline]
李建军，李建军，刘建军，等。减少开支和增加价值的选择。华盛顿特区:兰德公司;2014.重新定位美国医疗保健创新http://www.rand.org/pubs/research_reports/RR308.html[访问日期:2016-04-13][WebCite缓存]
蒋MF, Boland MV, Brewer A, Epley KD, Horton MB, Lim MC，美国眼科学会医学信息技术委员会。眼科电子健康记录系统的特殊要求。中华眼科杂志;2011;18(8):1681-1687。［CrossRef] [Medline]

G·艾森巴赫编辑;提交20.05.15;经R Carroll、M Chiang同行评审;对作者的评论22.06.15;收到修改版本28.01.16;接受20.02.16;发表04.05.16

©Michael Mbagwu, Dustin D French, Manjot Gill, Christopher Mitchell, Kathryn Jackson, Abel Kho, Paul J Bryar。最初发表于JMIR医学信息学(http://medinform.www.mybigtv.com)， 2016年5月4日。

这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到http://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

从眼科电子健康记录笔记中检测Snellen最佳记录视力的精确算法的创建