JMIR医疗信息学-用于预测医疗病例编码复杂性的端到端自然语言处理应用:算法开发和验证

原始论文

¹瑞士洛桑大学医院生物医学数据科学中心

²Unit8 SA，洛桑，瑞士

^3.公共卫生解决方案有限公司，普罗马森，瑞士

⁴瑞士洛桑大学医院行政和财务科

⁵瑞士洛桑大学医院内脏外科

*这些作者贡献相同

通讯作者:

许阿玉博士

生物医学数据科学中心

洛桑大学医院

瓦杜瓦大学医院中心，布尼翁街21号

1011年洛桑

瑞士

电话:41 0795566886

电子邮件:he.xu@chuv.ch

背景:医学编码是将临床文件转换为标准医学编码的过程。代码在医院中用于几个关键目的(例如，保险报销和绩效分析);因此，他们的优化是至关重要的。随着自然语言处理技术的快速发展，已经提出了几种基于人工智能的解决方案，通过自动建议临床文件的相关代码来帮助医学编码。然而，它们的有效性仍然局限于简单的情况，目前还不清楚它们在提高编码效率和准确性方面能带来多大的价值。

摘要目的:本研究旨在提高编码过程的效率，以改善医疗编码员对编码的选择。为了实现这一目标，我们开发了一种基于多模态机器学习的创新解决方案，它不是预测代码，而是在编码执行之前检测编码的复杂程度。编码复杂性的概念被用于更好地在医疗编码员之间分配工作，最终最大限度地减少错误并提高吞吐量。

方法:为了训练和评估我们的方法，我们收集了2060个案例，由编码人员按照编码复杂度从1(最简单)到4(最复杂)进行评级。我们请两位编码专家将3.01%(62/2060)的案例作为黄金标准。以专家之间的协议作为模型评价的基准。一个病例包含来自医院电子健康记录的临床文本和患者元数据。我们提取了文本特征和元数据特征，然后将它们连接起来并输入到几个机器学习模型中。最后，我们选择了2个模型。第一种方法对1751个案例进行了交叉验证训练，并对309个案例进行了测试，旨在评估所提出方法的预测能力及其泛化性。第二个模型在1998年的案例中进行了训练，并在黄金标准上进行了测试，以验证与人类基准相比的最佳模型性能。

结果:我们的第一个模型实现了宏观F₁-得分为0.51，对4尺度复杂性进行分类的准确性为0.59。该模型能很好地区分简单(综合复杂性1-2)和复杂(综合复杂性3-4)情况F₁-得分为0.65，准确度为0.71。我们的第二个模型与专家的评级和宏观-达到了61%的一致性F₁-在金本位上的得分为0.62，而两位专家对宏观-的赞同比例为66% (41/62)F₁- 0.67分。

结论:我们提出了一种多模态机器学习方法，利用来自临床文本和患者元数据的信息来预测在预编码阶段对病例编码的复杂性。通过将该模型集成到医院编码系统中，可以自动完成病例在编码员之间的分配，其性能与人类专家编码员相当，从而提高了大规模编码的效率和准确性。

JMIR Med Inform 2023;11:e38150

doi: 10.2196/38150

关键字

医疗编码；自然语言处理； NLP；复杂性预测；预测；决策支持；机器学习；模型；临床决策支持应用；多通道建模；编码；算法；文档；健康记录；电子健康记录；电子健康档案；发展

背景

医学编码[1是使用医学分类和受控术语将卫生保健诊断和程序转换为标准诊断和程序代码。它是为医院提供资金的一项战略活动，因此，在财政压力下，它的优化是卫生保健系统的优先事项。在世界上许多国家，包括瑞士，医院的资金是基于所谓的预期付款系统［2，3.)机制。例如，在瑞士前瞻性支付系统中，住院病人的住院时间被分配给与诊断相关的小组[4根据来自医疗文件的诊断和程序代码，每次住院费用根据分配给的诊断相关小组支付。因此，医疗编码一方面与医疗文件密切相关，另一方面与医院收入密切相关。除了确定报销要求外，医疗代码还用于其他几个目标，例如为计划住院制定预算或通过手术后并发症发生率等指标评估护理质量。

特定病例(即住院)的诊断和程序代码来自出院信、手术报告、医生和护士的笔记、实验室和放射结果等临床文件。《国际疾病及相关健康问题统计分类》(第十版)[5]，通常用于编码诊断，而用于编码程序的分类系统因国家而异[6]。

代码是手动输入医院信息系统的。在瑞士，有管理代码输入的>200编码规则，必须由医疗编码员应用。后者是为此目的接受过专门培训的保健专业人员。然而，尽管经过培训，医疗编码仍然是一项复杂、快速发展、耗时且容易出错的任务。在我们的三级学术医疗中心，从2018年开始，医疗编码人员被划分为专业团队。在一批案例中，50%被分配给一个“普通罐”，另外50%被分配给相应的医疗编码员专业团队。“公共锅”中的案例随机分配给每个团队。由于3个原因，预计专科小组的病例比例不会更高。首先，它可能会导致一般编码知识的丢失。其次，它可能会让医疗编码员感到无聊。 Third, it will not always be possible to guarantee a sufficient number of cases for certain teams. Thus, a way to increase the efficiency of the current distribution of work without going toward a counterproductive overspecialization [7是强制要求高专业知识的案件分配给有经验和专业的编码员。这种方法只有通过在分发和编码用例之前提前检测用例的复杂性才能实现。

近年来，人们越来越多地提出人工智能(AI)方法来提高医学编码的效率和准确性。他们的主要目标是支持医疗编码员为给定的医疗文件找到最合适的诊断和程序代码。传统模型、深度学习模型(如卷积神经网络和长短期记忆)和变压器已经使用公开可用的英语数据集在自动编码任务上进行了训练和测试[8-13]。最近，这项工作也被扩展到非英语语料库，如法语语料库[14，15]。除了学术方法之外，自动编码的商业软件也被开发出来并推向市场。例如，商业软件如ID SUISSE [16]是一种基于规则的自动编码算法。他们的原则是使用预先构建的ICD-10代码及其文本标签字典，尝试找到与标签匹配的临床文本，然后将文本转换为ICD-10代码。更近期的工具，如集体思维[17]及360 Encompass (3M) [18]已经用机器学习技术改进了基于规则的算法。最后，解决方案如Sumex [19]依靠统计方法分析ICD-10编码的分布和组合，以确定编码模式中可能存在的不一致。

尽管可用的解决方案越来越多，但自动编码的有效性仍然有限。在性能最好的ML模型中，虽然精度可以达到约75%，但宏观的F₁-分数只能达到10% - 12% [12，20.，21]。结果表明，即使是最好的模型也只能从自由文本中捕获一小部分医疗代码。因此，使用人工智能辅助策略改进医疗编码仍然是一个开放的挑战(Kaur R，未发表数据，2021年7月)。

目标

我们研究的目的并不是要找到一种从医疗记录中预测ICD-10编码的方法。相反，它是通过在编码过程之前预测编码复杂性来提高编码质量和效率。我们的主要目标是提高编码过程的效率，以提高医疗编码员的编码质量，而实现这一目标的手段是使用ML的创新解决方案。这种创新是使用ML来检测复杂性，然后用于更好地在医疗编码员之间分配工作。据我们所知，这种方法以前从未使用过。它允许根据编码员的能力和经验更有效地分配案例。因此，我们将能够最大限度地减少潜在的人为错误，因为在医院的编码部门或单位内，编码专业知识的随机分配和不均匀分布。最终，通过预先了解编码的复杂性，可以将简单的案例分配给初学者或非专业编码员或ai辅助系统，以最大化其效用，而ai辅助工具仍然效率低下的复杂案例则分配给编码专家或至少分配给有经验的医疗编码员。

根据要检查的临床文件的数量和其他因素，如住院时间长短或参与治疗患者的医学专家的多样性，对病例进行编码可能是一项简单的任务，也可能是一项非常复杂的任务。一旦编写了案例，编写案例的人通常很容易将案例划分为复杂级别，这代表了编码活动的复杂性。然而，预先预测案例的复杂程度对于人类编码员来说是非常耗时的，因为它需要对整个文档进行深入分析，这最终相当于直接进行编码过程。

为了在预编码阶段自动预测编码任务的复杂性，我们使用了先进的自然语言处理(NLP)技术来分析临床文本，并提取可以预测病例复杂性的特征。我们提出了一种端到端的方法，将NLP和ML模型集成到医院临床数据仓库和最终用户编码系统中。我们的NLP和ML模型预测案例复杂性的准确性与专家人类编码员相当。它的测试版目前正在洛桑大学医院进行部署。据我们所知，我们是第一个提出并开发这种创新方法的人。

本文的其余部分组织如下。应用程序的详细信息见方法节，并给出了性能和分析结果部分。在讨论部分，我们讨论了我们的应用的价值和重要性，以及NLP在医疗保健中的使用。

伦理批准

沃州人类研究伦理委员会根据Req-2022-00677授予了这项研究的完全豁免，因为它具有回顾性和质量保证性质。

Overivew

我们描述了一个典型的医疗编码工作流程图1。住院病人(住院过夜的病人)在医院接受治疗后，出具出院证明。医疗编码员分析出院信中的诊断，并将诊断转化为《国际疾病和相关健康问题统计分类第十版》(ICD-10)代码。有时编码员需要参考其他临床文件(如干预方案和实验室报告)来准确地翻译信息。诊断相关的分组代码根据ICD-10代码计算，并发送给保险公司进行计费。保险公司根据收到的诊断相关的组代码向医院报销账单。如果保险公司在编码中发现错误，他们会要求编码服务部门进行修改。中提供了决策支持系统的概述图2并描述了其在医院信息系统中的集成图3。

图1所示。医院一般编码程序。DRG:诊断相关组;ICD-10:疾病和相关健康问题的国际统计分类，第十版。

图2。本研究工作流程。我们从洛桑大学医院(CHUV)的临床数据仓库中提取了2060例病例。这些案例由编码员评定(B)，复杂度从1(最简单)到4(最复杂)。(C)我们在标记的案例上执行特征工程和训练模型。(D)最终模型既可以预测复杂性，也可以预测其置信度。

图3。将模型集成到编码服务中。(A)当住院病人到医院就诊时，他们的医疗案例已经生成，临床文本和患者元数据存储在我们的临床数据仓库中。(B)工作流管理器将定期提取新的医疗病例，并将数据发送给我们的模型。(C)我们的模型被容器化并部署到执行环境中，在那里它对收到的情况进行预测。(D)模型预测，以及预测的置信度，通过用户界面呈现给最终用户，以支持编码服务中的任务分配。

复杂性的定义

我们使用术语“编码复杂度”来描述医疗编码员为医疗病例分配诊断代码所需的时间和专业知识。

专业知识可以定义为经验、医学知识和对编码规则的掌握程度。因此，通过应用许多编码规则，医疗案例可以变得复杂，但并不困难，但增加了注意力错误的可能性。其他病例可能复杂和困难，因为它们需要正确编码的医学知识。因此，选择复杂性来对案例进行分类。

如果编码一个医疗案例不需要太多时间和深厚的专业知识，那么编码的复杂性就很低(1级;图4）.相反，如果编码一个医疗案例需要大量的时间和深厚的专业知识，那么编码的复杂性就很高(4级;图4）.

编码的复杂性，类似于痛苦或满足感，是一个主观的量。自动编码模型可以提供一种潜在的定义编码复杂性的客观方法。通过将医疗病例通过自动编码模型传递，并手动检查置信度评分以及ICD-10编码预测的完成度和准确性，我们可以将病例分为简单组和复杂组。然而，由于目前的自动编码模型不论语言的性能有限(即召回分数很低)[12，20.，21]，这种方法对我们的情况没有多大价值。此外，如果编码的复杂性可以用简单的客观数据来衡量(例如，类似于血压)，那么我们的多模态建模方法将是无用的。因此，在本研究中，我们对编码复杂性的定义将侧重于医疗编码员提供的主观评分，旨在通过使用ML方法最小化主观性，并预测复杂性的主观评分。

为了训练我们的ML模型，我们在2021年从住院患者(住院患者)中提取了2060例医疗病例。我们组织了2个注释阶段，每个阶段持续1周，让28名编码人员对案例的复杂性进行评级。在每个注释阶段，编码器根据评估网格(图4）.

数据采集与预处理

数据源和数据注释

医疗案例包含2种类型的数据:患者的医疗档案和患者元数据(文本框1）.我们从注释阶段共收集了2060个案例。我们注意到，我们医院的编码团队由不同医疗领域的专业编码员组成。因此，在注释过程中，我们还会跟踪一个案例是否由专家编码。例如，如果一个病例的负责单位是内科单位，而编写该病例的编码员是专门从事心脏病病例的，则该病例的专业编码员将认为该病例没有进行编码。

在收集的2060例病例中，1998例(96.99%)由28名编码员进行注释，每个病例仅由1名编码员进行注释，以使注释集的大小最大化。由于不同的医疗编码员可能对同一病例的复杂性有不同的看法，我们通过要求2名专家编码员对另外3.01%(62/2060)的病例进行编码来评估评分者之间的信度。这62个案例也代表了我们为模型性能创建基准的黄金标准。对于案例选择，我们首先使用1998年的案例训练了几个模型;然后利用最佳模型的预测，从我们的数据仓库中预测了几个案例的复杂性;最后，从预测案例中随机选择62个，同时确保这62个案例的复杂性分布与注释数据集的复杂性分布相同。这62个案例中的每一个都由每个编码专家打分，他们被认为是所有案例的专家。这62个案例被称为黄金标准集。

为训练和测试模型收集的数据。

患者元数据:负责的医疗服务、医疗服务之间的移动次数、年龄、性别、民事地位、患者是否死亡、住院时间以及病例是否由专家编码
医疗档案:各科室的出院信、手术程序、干预报告、死亡信

文本框1。为训练和测试模型收集的数据。

元数据预处理

缺失患者的元数据是根据数据的性质进行估算的。对于年龄和住院日等数值，由于缺失值的分布偏倚(图5）.对于性别、公民地位等类别值，用现有值的模式对缺失值进行归因。

图5。每次住院患者元数据分布的概述。文档长度和句子长度以符号(单词和标点符号)来计算。A、B、D和E的分布严重倾斜。注意，A、B、D、E和F上的分布是对数比例的。G的最右边的列是从编码员的团队专业推断出来的。C中年龄=0例为新生儿。

文本数据预处理

我们测试了经典的基于词频逆文档频率(TF-IDF)的文本编码和基于ml的文本编码，并相应地应用了不同的文本预处理步骤。对于TF-IDF文本编码，我们首先对文本进行标记;然后删除停止词;最后，用实体类型替换实体。第二步和第三步用于降低噪声，增加重要单词的频率，为模型提供更好的信号。中给出了处理文本的示例文本框2。

对于基于ml的文本编码，如fastText (Facebook AI Research lab)和transformer，不应用预处理。

一个文本预处理结果的例子。

原文:Le patient susnommé a séjourné dans notre service du 01.02 au 03.02, date de son retour à住所。
处理文本:(“病人”、“susnomme”,“sejourne,”“服务”“<日期>,”“<日期>”,“日期”,“住所”,“。”)

文本框2。一个文本预处理结果的例子。

模型设计

概述

模型设计的总体方法如下。首先，我们从预处理的元数据和文本数据中提取特征。其次，我们测试了2种建模方法:将问题框定为分类问题或回归问题。在建模方法的基础上，我们使用不同的度量来评估模型的性能。

工程特性

由于患者元数据的值具有不同的尺度，我们采用了标准化(z得分)转换为数值数据，一次性编码转换为分类数据。

为了从自由文本中提取特征，我们使用了两种方法:TF-IDF和词嵌入。

TF-IDF提供了一个数字权重，说明一个单词对一个文档集合的重要性(多媒体附件1）.我们测试了TF-IDF方法的两种配置:使用前10,000个频繁术语或使用前1000个频繁术语。我们发现，使用前10,000个常用术语时，模型的表现比只使用前1000个常用术语要好。因此，在下面的部分中，我们只报告使用前10,000个频繁项的TF-IDF向量的结果。

词嵌入根据单词出现的上下文提供单词的向量化表示。我们测试了三种类型的词嵌入:(1)word2vec [22，23]对从医院临床数据仓库收集的250万份临床文本(12 GB)进行嵌入训练;(2)最先进的法语变压器模型的汇集输出(CLS令牌)，通过变压器的双向编码器表示实现法语理解(福楼拜)[24]，它使用从互联网上收集的71 GB法语文本进行预训练;(3) fastText监督方法[25我们测试了fastText，因为它提供了子词方法，可以减少词汇表不足(OOV)问题的影响。对本研究的OOV进行了详细的分析多媒体附件1。

文本框3显示使用不同方法提取的向量的大小。详细的转换方法介绍在多媒体附件1。

文本特征工程的矢量尺寸。

术语频率-逆文档频率(向量使用scikit-learn[版本1.0.1]提取):10,000
fastText(用自定义嵌入初始化;fastText嵌入使用fastText[0.9.2版本;Facebook人工智能研究实验室]):100
word2vec(定制;word2vec嵌入使用Gensim[4.0.0版本;稀有科技有限公司]):100
通过变压器的双向编码器表示的法语理解(福楼拜;福楼拜嵌入和微调模型使用hug Face[4.17.0版本;拥抱脸公司):768

文本框3。文本特征工程的矢量尺寸。

模型架构

情况的复杂度为1 ~ 4，数值为离散的;因此，我们既可以将其视为多类分类问题，也可以将其视为回归问题。所测试的模型在图6。

对于分类和回归，我们使用不同的特征组合作为输入来训练模型。这些组合如下:(1)仅元数据，(2)仅词嵌入，(3)仅TF-IDF向量，以及(4)TF-IDF与元数据连接。

概括了模型实现的整个过程图7。在训练过程中，我们应用了5倍交叉验证来减少过拟合。由于标签不平衡，我们在分类模型中采用分层抽样进行交叉验证。我们对最有希望的特性和模型进行了超参数调优。对于TF-IDF，我们优化了词汇表中考虑的单词数量(最常见的单词)和文本预处理(小写、词根化、删除停止词和删除非字母数字标记)。对于梯度增强树模型，我们调整了估计器的数量、学习率和最大深度。超参数基于交叉验证集中所有折叠的平均性能进行调优，使用贝叶斯优化。

此外，我们使用hug Face变压器库[对FlauBERT序列分类模型进行了微调测试]26]。flaubertforsequencecclassification应用程序编程接口提供了一个预先训练好的FlauBERT模型，其顶部的分类层大小为1024。它接受原始文本作为输入，并输出预测的类(在我们的例子中，这是复杂度级别)。在我们所有的实验中，我们使用经过微调的福楼拜基无壳模型获得了最好的结果。值得注意的是，我们冻结了前11个编码器层，并训练了最后一个编码器层和分类层以限制过拟合。我们还在交叉熵损失中对每个类别进行了不同的加权，以解释不平衡。我们使用的最大序列长度为512令牌，批处理大小为32。在这篇手稿中，我们只报告了使用这种配置获得的微调福楼拜结果。

图6。在5倍交叉验证的训练数据集(1751例)上使用不同模型和输入特征的性能与在测试集(309例)上使用最佳模型的性能的比较。虚线表示基线模型结果。根据图中分类宏f1 -score对模型进行排序。*平均每个服务:对于给定服务中的给定案例，它总是预测该服务中案例的平均复杂性。共有29个服务的平均复杂度为2，共有5个服务的平均复杂度为3，共有1个服务的平均复杂度为1。**多数投票:总是预测大多数类(在我们的例子中，复杂度为2)，并作为模型预测性能的基线。福楼拜:通过变压器的双向编码器表示来理解法语;TF-IDF:术语频率逆文档频率。

图7。使用词嵌入和患者元数据作为模型输入的特征工程和建模方法。从变形金刚文本分类模型中通过双向编码器表示进行微调的法语理解不包括在此流程中。

数据不平衡

我们的数据标签严重不平衡，我们试图通过使用过采样和欠采样技术来克服这个问题。我们的最佳模型是使用合成少数过采样技术训练的[27]用于过采样不足代表的类，然后是对过度代表的类进行随机欠采样。我们还选择度量来惩罚那些不能预测代表性不足的类的模型，例如宏F₁分数。顺序分类也可以是一种有趣的“混合”方法。但是，我们将为将来的工作尝试更复杂的分类方法。

技术堆栈

ML管道利用了spaCy(3.1版;爆炸AI)用于预处理文本(使用法语模型“fr_core_news_md”)，scikit-learn(版本1.0.1)用于构建可以使用交叉验证的复杂管道，以及Optuna(版本2.10.0;Preferred Networks, Inc)进行超参数搜索。它还简化了所选模型的部署，因为预处理是单个序列化管道的一部分。用于尝试其他方法的其他工具是用于文档分类的fastText，用于操作预训练词嵌入的Gensim (RARE Technologies, Ltd)，以及用于使用预训练变压器模型的hug Face transformer (hug Face, Inc)。训练是在一个有64个中央处理单元核心的虚拟机上进行的，允许我们并行训练，以及一个Nvidia RTX 3090图形处理单元，用于更大的深度学习模型。

所选模型的第一个版本正在与我们的医疗编码服务中的机器学习模型操作化管理基础设施一起部署。中提供了部署细节多媒体附件1。

元数据分析

每个编码员团队都有一套医学专业。我们认为一个案例是由一个专家进行注释的，如果注释者是该案例所涉及的一个专业团队的一部分。按照这个逻辑，63.98%(1318/2060)的案例是由专家注释的。我们在训练中使用了这个特性。在推理时，我们可以选择请求专家对案例进行编码的预测。

中给出了数值元数据和分类元数据的分布图5。为了检查是否有任何元数据对编码复杂性具有显著的预测能力，我们在数值元数据特征和复杂性评级之间执行Pearson相关性;我们还对患者性别和婚姻状况等分类特征进行了统计检验(表1）.结果表明，在预编码阶段，句子长度、就医次数等特征对编码复杂度影响不大。在编码后阶段，ICD-10编码数和瑞士外科手术分类编码数与编码复杂度相关。根据这些结果，我们提出NLP或人工智能辅助编码的未来方向可以使用元数据和临床文本来预测一个病例可能产生的编码数量，然后将其与编码过程后获得的实际编码进行比较，以便在编码后阶段进行质量检查。

表1。数值元数据特征与编码前、编码后复杂度等级之间的Pearson相关性，以及分类特征与编码前复杂度等级的统计检验。

			相关或统计检验		P价值
数值特征
	一次停留中所有文件的代币数量	0.44		<措施
	停留期间出示的文件数量	0.33		<措施
	住院期间就医次数	0.02		.35点
	停留时间	0.41		<措施
	年龄	0.25		<措施
	句子的长度	0.003		点
分类特征
	婚姻状况	F₂₀₅₄= 14.05		<措施
	性别	t₂₀₅₈=−3.70		<措施
编码后可用的其他元数据
	ICD-10编号^一个代码	0.55		<措施
	CHOP数目^b代码	0.46		<措施
	按^c成本	0.34		<措施

^一个ICD-10:疾病和相关健康问题的国际统计分类，第十版。

^bCHOP:瑞士外科手术分类。

^cDRG:诊断相关组。

编码员评级分析

案例的复杂度等级显示在图8A.最常见的等级是复杂性2(1127/2060，占54.71%)，最不常见的等级是复杂性4(58/2060，占2.82%)。我们采用分层抽样的方法选择训练集和测试集;因此，它们的分布与图中显示的真实分布几乎相同图8一个。

病例的原始医疗服务也会影响其复杂性。图8B显示来自姑息护理部门的病例具有最高的平均复杂性，而来自胸外科的病例具有最低的平均复杂性。

通过分析黄金标准集，其中所有案例都由2位专家打分，我们发现即使是专家编码员也不总是彼此一致。在62个案例中，两位专家一致同意41个(66%)。然而，在只有3%(2/62)的案例中，他们的差异超过了一个复杂程度(表2）.两名专家编码者之间的信度(Cohen κ评分)为0.49。如果我们认为一个专家是基本事实，另一个专家是预测模型，宏观F₁-该“预测模型”的得分只能达到0.67 (图9)，一个中等好的分数，表明任务是可以学习的，但模型不会达到很高的性能。

编码员对不同复杂程度的同一案例进行评分的原因主要是主观性。这也提醒我们，主观评级的标签往往是嘈杂的，没有一个模型可以达到完美的表现。2个专业编码员之间的一致性比例让我们对模型的性能有了一个大致的了解。如果我们认为一个专家是预测复杂性的模型，另一个专家给出真正的复杂性标签，那么这个模型(前一个专家)能达到的最高准确性是66%。从这个意义上说，在以后分析我们模型的性能时，66%的准确率可以被认为是基准之一。然而，考虑到复杂性标签的强烈不平衡，我们也应该依靠混淆矩阵来比较注释者-注释者协议和模型-注释者协议。

然而，正如在模型设计一节中提到的，我们的样本是高度不平衡的，精度度量缺乏根据样本分布全面衡量模型性能的能力。由于复杂度为2的案例有54.71%(1127/2060)，因此一直预测2的naive模型可以达到54.71%的准确率，但对解决我们的问题没有价值。为了考虑不平衡的样本分布，我们使用了宏观F₁-评分与准确度一起衡量模型性能。宏,F₁-得分为0.67，这被认为是我们用来评估模型性能的另一个基准。

图8。(A)在所有2060个案例中复杂性等级的分布。(B)按服务划分的平均复杂性等级。绿色条显示前5个服务，红色条显示后5个服务。CHT:胸外科;离子:immuno-oncology;MIN:传染病;奥林匹克广播服务公司:妇产科;PED:儿科;RHU:风湿病学; SIA: adult intensive care; SIP: pediatric intensive care; SPL: palliative care; URG: emergency department.

图9。(A)黄金标准集上2个专家编码器之间的复杂性评级比较。(B)验证模型的预测与黄金标准集上的平均专家评分之间的比较。(C)当分组为简单(复杂度1和2)和复杂(复杂度3和4)情况时，2个专家编码员在金标准集上的评级的比较。(D)当分组为简单和复杂情况时，平均专家评分和验证模型对金标准集的预测之间的比较。平均专家评级四舍五入到下一个最大的整数。

表2。专家1和专家2复杂度评级的绝对差异。专家编码员达到的准确率约为66% (41/62;N = 62)。

专家编码员1和2之间的复杂性评级的绝对差异(复杂性等级的数量)	例数，n (%)
0	41 (66)
1	19 (31)
2	2 (3)
3.	0 (0)

模型分析

概述

首先，我们想研究我们的方法是否适用于预测医疗病例的编码复杂性。我们使用了所有2060个带注释的案例(n=1998, 96.99%为1-编码级案例，n=62, 3.01%为金标准案例)。我们将2060个案例分成一个训练集(n=1751, 85%的案例)和一个测试集(n=309, 15%的案例)，并测试我们的模型架构。然后，为了用专家编码人员的基准测试来验证模型的性能，我们将3.01%(62/2060)的黄金标准用例作为测试集，并训练一个具有相同架构但具有更多训练数据的模型(1998/2060,96.99%的用例)。

主要模型

为了训练模型，我们开始只使用患者元数据，或者只使用词嵌入或TF-IDF向量作为输入特征。使用患者元数据的最佳性能模型是梯度增强树(宏−F₁分数= 0.46;分类准确率=0.61;R²回归=0.15)。使用词嵌入的性能最好的模型是fastText分类模型(macro−F₁分数= 0.47;精度= 0.57;使用自定义嵌入初始化)，使用TF-IDF向量的最佳性能模型是梯度增强树(宏−F₁分数= 0.45;分类准确率=0.62;R²回归=0.26)。

使用词嵌入的模型没有优于使用TF-IDF向量的模型。因此，我们将TF-IDF向量与元数据结合起来作为输入特征，以集成来自患者元数据和医疗档案的信息。性能最好的模型使用梯度增强树，并实现了宏−F₁-在交叉验证的训练集和宏上的得分为0.51，准确度为0.59F₁-测试集的得分为0.46，准确性为0.58。图6展示了不同模型在5倍交叉验证的训练数据集和测试集上的性能比较。详细的数字可以在多媒体附件1。

由于在代表性不足的类上表现良好在我们的案例中很重要，我们报告了宏观的F₁-分数作为第一个度量。宏观F₁-分数是得分的平均值F₁-每个类的得分，并且不受类中实例数量的影响。与准确性不同的是，这个指标对每个类别的惩罚是平等的。在宏观的基础上F₁-score时，我们选择了我们最好的模型作为结合TF-IDF和元数据特征训练的梯度增强树(称为主模型)。

混淆矩阵(图10A和10B)表明我们的主要模型在训练和测试时混淆了复杂性-2和复杂性-3的情况。图9A表明，即使是专家程序员，在对一个案例的复杂度评级为2和3时，也没有明显的区别。区分复杂度2和复杂度3的困难可能是由于这两类案例之间的相似性。我们注意到我们的主要模型在训练和测试期间也难以区分复杂度3和复杂度4。这种表现可能是由于缺乏例子。虽然我们使用合成少数派过采样技术对复杂度为3和4的情况进行过采样，但在复杂度为4的情况下仍然缺乏可变性。

然后，我们尝试将复杂度-1和复杂度-2的案例合并为“简单”案例，将复杂度-3和复杂度-4的案例合并为“复杂”案例，并将模型作为二元分类器进行测试。结果(图10C和10D)表明，该模型在区分简单和复杂情况方面表现良好。在训练集上，该模型实现了一个宏观模型F₁-得分为0.62，准确度为0.71。在测试集上，该模型实现了一个宏F₁-得分为0.65，准确度为0.71。

图10。(A)和(B)主模型在训练集(1751例)和测试集(309例)上的表现。(C)和(D)主模型在分组训练集(简单1457例，复杂294例)和测试集(简单261例，复杂48例)上的表现。

验证模型

为了验证我们的模型方法并将其与专家的基准进行比较，我们使用96.99%(1998/2060)的1个编码级别的案例训练了一个验证模型，并在3.01%(62/2060)的金标准案例上进行了测试。验证模型的体系结构与主模型的体系结构相同。

2位编码专家评分的比较(图9A)表明专家编码员的意见分歧主要集中在复杂度-2和复杂度-3两种情况下，2位编码员的总体一致率为66%(41/62)，宏观上为-F₁- 0.67分。表3和图9B显示了我们的验证模型和2位专家在黄金标准集上的评级之间的比较。在专家编码器1和专家编码器2的情况下，模型的一致性分别为53%(33/62)和63%(39/62)。验证模型取得了61%的一致率与平均评级的两位专家，与宏观F₁- 0.62分。

表3。我们的验证模型的预测与2位专家编码员在黄金标准集上的评级之间的比较。

	同意率	皮尔森相关
专家编码器1 vs专家编码器2	66	0.70^一个
模型vs专家编码器	53	N/A^b
模型vs专家编码器2	63	N/A
模型vs 2个专家编码员的上限平均值	61	0.70^一个

^一个P<措施。

^bN/A:不适用。

当将4个复杂度级别合并为2个时(简单vs复杂;图10C和10D)， 2个编码器之间的一致性比例为84% (52/62)F₁-得分为0.76，模型预测与平均专家评分的一致率为0.89F₁- 0.82分。结果表明，该模型与人类专家的表现具有可比性，并且预测的方式与人类专家非常相似(图9A和9B)。

有趣的是，对于金标准案例，我们的验证模型成功地预测了复杂性-4个案例100%正确，这与主要模型在训练和测试期间的表现不同(图10A和10B)。由于只选取了4个案例，由于对专家案例的抽样，复杂性为4，这些案例可能非常复杂，因此模型很容易识别。

与其他模型相比，可以提供更高的精度，但较低F₁-score，主模型和验证模型在我们的具体用例中都更实用，因为预测不同的复杂性级别而不是一直预测所有情况的复杂性为2是很重要的(多媒体附件1）.

分类与回归

中给出的用例，我们总结了两种方法的优缺点文本框4。

分类和回归方法的优缺点。

预测的信心:许多分类模型将预测类别的置信度输出为概率，而回归模型通常不提供开箱即用的此类信息(尽管有时可能提供ci)。信心对最终用户很有用，这意味着他们可以无视低信心的预测。它也可以用于主动学习模块(图11)，选择新的案例(预测置信度低，预测与编码器感知之间存在较大差异)重新训练模型。
结果的可解释性:使用分类方法使的计算F₁-分数、准确度和混淆矩阵。对于最终用户来说，这更加直观。请注意，对于回归，仍然可以四舍五入预测来应用这些指标。
标签顺序:复杂度分数自然排序。因此，给定一个注释复杂度为4的案例，预测复杂度为1的模型应该比预测复杂度为3的模型受到更大的惩罚。回归方法考虑顺序，而分类方法不考虑顺序。

文本框4。分类和回归方法的优缺点。

图11。使用主动学习模块收集编码员的反馈，提高模型性能。(B)中的工作流管理器可以是为指定工作提供自动调度的任何软件或平台(例如，用于数据提取的脚本)。

主要研究结果

我们提出了不同的ML模型，可以用4个复杂度级别预测医疗病例编码的复杂性。我们首先在所有2060个注释案例上训练模型。当仅使用患者元数据时，最佳模型(梯度增强树)可以实现宏−F₁-得分为0.46，分类准确度为0.61R²回归为0.15。通过应用自然语言处理方法从临床文本中提取信息，最佳模型(fastText初始化自定义嵌入)可以实现宏F₁-得分为0.47，分类准确度为0.57。当结合患者元数据和nlp提取的信息时，最佳模型(模型分析部分中的主要模型)实现了宏−F₁-得分为0.51，在交叉验证的训练集和宏−上的准确度为0.59F₁-得分为0.46，测试集的准确性为0.58。

为了用专家的基准来评估我们的模型方法，除了金标准案例外，我们使用与主模型相同的架构来训练我们的验证模型。我们的验证模型使用宏−实现了0.61的精度F₁-在金标准案例中得分为0.62。当将4个复杂度级别合并为“简单”(复杂度1-2)和“复杂”(复杂度3-4)情况时，我们的验证模型可以实现0.89的准确性和宏−F₁- 0.82分。结果表明，该模型的性能与人类专家的性能具有高度可比性。

据我们所知，这是第一个应用NLP和ML模型来帮助区分医疗病例编码复杂性的研究。

临床重要性

瑞士洛桑大学医院有两个任务:保证一个地区的医疗服务和作为转诊医院。在标记的样本病例中，复杂程度为2的病例(称为病例2)占主导地位，这可以解释为医院不仅集中于大学或转诊的复杂病例，而且也接收与其他医院类似的正常病例。

在我们目前的医疗编码服务中，需要编码的病例将50%分配给专业团队，50%分配给“普通锅”。这种团队与普通锅的分配是随机进行的，没有考虑病例的复杂性，将复杂病例留在普通锅中，相反，剥夺了普通锅中“简单”病例的专门资源。请注意，在我们的例子中，编码员仍然可以从普通案例中选择复杂案例，即使该案例不是他们的专业。许多程序员关心多样性或学习其他类型的案例。该模型的集成使他们能够有意识地选择复杂度。

病例2的主导地位将产生将大量病例推到普通病例组的效果，减少不同专业团队的病例数量，从而降低普通病例组与专家组的比例。复杂度-3和复杂度-4案例的编码质量将得到提高，因为它们将被重定向给专业团队或高级编码员。然而，这也会有降低案例2编码质量的风险，因为案例2最终会被放入普通容器。因此，有必要在普通容器和团队或高级编码员之间保持50/50的比例，并强制案例2也由团队或高级编码员编码。这一调整将提高情况3和4以及最多情况2的编码质量。在我们的系统部署后，考虑到我们的NLP和ML模型预测的复杂性的新分布将从编码团队的满意度和编码的准确性方面进行监控。此外，我们将分析编码的准确性与预测案例复杂性的关系，以调整模型设计，并更有效地将案例分布分配给编码器。

在我们目前的模型中，病例的复杂性是由我们医疗服务部门的编码员定义的，并进行主观评分。通过对多种情况下的模型预测进行分析，可以总结出高复杂性情况和低复杂性情况的共同特征。总结出的特征可用于构建一套客观规则，可与其他临床服务或其他医院的医疗编码服务共享。对于小型医院或临床服务机构来说，他们并不总是有足够的资源来训练和构建自己的ML模型，这组规则可以帮助他们更有效地分配病例。相比之下，如果总结出的特征不能很好地区分简单和复杂的案例，则可能反映出案例复杂性是一种主观而非客观的衡量。在这种情况下，推广这种主观度量的最佳方法是建立一个模型，例如在我们的方法中，学习高度非线性的主观度量。

医学案例编码的复杂程度可以大致反映相应临床案例的复杂程度。我们的应用不仅可以改善医疗编码服务的资源配置，而且可以推广到其他临床服务。事实上，编码复杂性水平也可以用于决策过程，以帮助在同一部门但隶属于不同临床服务的专业人员之间进行资源分配仲裁。例如，在外科，可以应用类似的方法来帮助研究基于治疗病例数量和相对复杂性的不同亚专科的资源需求。该通用应用可以集成到不同的数字医疗系统中，自动分配任务，避免不公平的工作负载分配产生冲突。

技术的重要性

OOV是一个会损害模型性能的问题。虽然本研究中使用的word2vec嵌入是在我们自己的临床数据上训练的，但OOV仍然存在，因为我们用于训练嵌入的语料库可能不足以覆盖医疗出院文件中使用的所有临床术语。为了减轻OOV的影响，我们测试了fastText子字方法。然而，如模型分析部分所示，由于我们数据集的OOV比率较低，模型性能并没有得到太大的改善，在本研究选择的2060个案例中，OOV比率仅为约8%。我们对我们的语料库中的OOV进行了详细的分析多媒体附件1。

由于每天都有新的临床文档产生，我们部署的模型也可能面临OOV问题导致的性能下降。为了减少这种影响，我们在本文中提出的解决方案是根据训练数据集监测新的OOV的演变，并在需要时重新训练词嵌入。在再训练阶段，我们不仅会对词嵌入进行再训练，还会利用编码器反馈对模型进行再训练，从特征工程和模型工程的角度进一步提高模型的性能。

在我们的研究中，我们以两种不同的方式使用福楼拜(FlauBERT)，这是一个预先训练过的法语转换器。使用它的第一种方法是生成词嵌入作为模型输入的文本特征。然后我们也测试了拥抱脸[26基于FlauBERT的序列分类模型实现。中给出了对这种方法的详细描述多媒体附件1。利用变压器模型直接实现了最佳的宏观性能F₁- 0.47分，这与其他只接收文本作为特征的模型相似。模型的性能没有预期的那么好。原因可能是与变压器模型的大小相比，我们的数据集太小了(只有2060个案例)。关于这一点，我们将继续收集编码器对预测案例的反馈，并使用它们不断地训练模型。通过这些方法，我们希望在未来改善变压器模型的性能。

我们发现使用TF-IDF向量作为文本特征比使用词嵌入作为文本特征提供了更好的预测性能。fastText和FlauBERT嵌入在非临床语料库上进行预训练;因此，该词所代表的上下文可能会偏离临床文本中使用的上下文。如元数据分析部分所示，每次停留的中位数文档长度为909个令牌。常见的预训练的基于变压器的模型最多可以处理512个令牌，应该选择文档的哪个子集来传递给模型并不明显。虽然可以通过嵌入512个令牌的每个块并平均它们的嵌入来克服这一限制，但我们认为需要对其他方法进行实质性改进来证明计算成本是合理的。此外，fastText和词嵌入都对每个文档的所有向量执行平均，这可能会在给定令牌数量的情况下过度稀释信号。相比之下，TF-IDF可以保留一些信息，这可能是TF-IDF向量在我们的任务中表现优于词嵌入的原因。将TF-IDF向量与词嵌入结合起来作为文本特征是提高模型性能的一个未来方向。TF-IDF向量可以用作单词的重要性权重，而词嵌入可以表示单词的上下文。 By combining the two, we could obtain vectors that represent both the importance and context of the words comprehensively. Another possible approach to improve the model performance is to build a rule-based model from coders’ experiences and then combine the rule-based model with the ML model, which can increase both the interpretability and flexibility of the prediction. As the complex cases are more likely to have multiple laboratory tests and clinical examinations, we could also include this structured clinical information for future feature engineering.

通过比较我们模型的预测与专家编码员的评分，我们发现模型可以达到专家的性能水平(图9）.由于对案例复杂性的评级是相对主观的，即使是专家程序员也不总是意见一致。这给我们的研究带来了另一个层次的复杂性。然而，通过从训练集中学习1998个案例，我们的模型的表现与专家的表现相当。

我们的模型的优点之一是我们使用了多模态方法。患者元数据等结构化数据可以提供关于患者状态的定量信息。临床文本可以提供患者诊断和其他评估的丰富信息，这些信息通常不会在结构化数据中呈现。通过将两者结合起来，我们能够最大限度地获得评估临床病例复杂性所需的信息。我们的研究使用一个模型来处理不同模态的数据并进行预测。在未来的工作中，我们建议为每种数据模态使用专用模型，并使用另一个ML模型组合多个模型的预测，以做出最终的预测。使用多个模型的好处是:(1)很容易将新数据和新模型插入到架构中，这使得模型可以灵活地扩展，(2)更容易执行特征工程和解释模型的预测。

在我们的研究中，分类模型相对于回归模型的优势在于，分类模型允许我们产生预测的置信度。通过显示预测的复杂性水平和预测的置信度，我们能够向最终用户提供全面的信息。然而，我们的模型也有局限性。在我们收集的2060例病例中，有54.71%(1127/2060)的病例被标记为复杂性-2，只有2.82%(58/2060)的病例被标记为复杂性-4。不平衡的数据集影响分类模型的性能，这意味着模型对于给定情况有更高的预测复杂性2的倾向。这个问题是通过对代表性不足的案例进行过采样和对代表性过高的案例进行过采样来解决的。结果表明，采用过采样和欠采样技术后，模型的性能更好(多媒体附件1）.

我们的模型将通过一个主动学习模块集成到我们当前的编码系统中。图11显示集成体系结构。该模型通过工作流管理器定期从我们的临床数据仓库读取患者元数据和医疗档案。预测结果显示在编码软件的用户界面中。当编码人员发现预测偏离了感知的复杂性时，他们可以在反馈字段中进行更正。编码器的反馈被存储并发送到模型进行再训练。这种集成架构允许我们跟踪并持续改进模型的性能。

未来的工作

未来的工作可以从不同的方面展开。为了提高模型的预测性能，我们可以继续研究特征和模型工程。除了我们在这项研究中使用的数据之外，可能还有其他患者数据可以用于预测病例的复杂性。针对文本特征，我们可以尝试不同的NLP工具组合，最大限度地从临床文本中提取信息。我们还将继续通过每6个月重新训练单词嵌入(word2vec和fastText)和TF-IDF向量来减少OOV的影响，并使用编码器反馈作为新的训练样本来重新训练模型。为了充分利用先进的变压器模型，我们不仅将继续使用新的样本进行训练，而且还将探索将患者元数据纳入模型设计的方法。我们还将与编码器一起建立一个健全的、可解释的基于规则的模型，然后将其与ML模型结合起来。混合模型可以在区分案例时提供灵活性和良好的推理能力。

目前，大多数NLP应用程序都专注于使用基于规则或ML模型的ai辅助编码。如前所述，构建医疗编码复杂性的规则是动态的，并且随着时间的推移而变化，从而阻止了工具的快速学习。与仅将人工智能辅助工具用于编码不同，可以将人工智能辅助的范围从案例预选扩展到编码后质量检查。我们的方法提供了一种可能性，可以预先选择适合自动编码的情况，以及适合手动编码的其他情况。在编写案例后，人工智能辅助工具可以提供代码类别和组合的事后分析，旨在发现代码中可能的错误。这可以通过使用统计和NLP分析研究以前的编码案例来完成。

我们还致力于持续评估该应用程序对我们医疗编码服务的影响。在集成之后，我们将监控编码员编码一个案例所花费的平均时间，以及编码员在每个案例中所犯的平均错误数。通过比较集成前后的时间和精度，我们可以定量地衡量模型能给编码员的日常工作带来多大的改善。

除了监控编码质量外，我们还将持续跟踪编码员的用户体验。在主动学习模块的帮助下，我们能够收集编码员对模型预测的反馈。通过迭代，基于编码器的反馈对模型进行再训练，以提高预测性能。正如临床重要性部分所讨论的，我们的应用程序不仅可以帮助将任务分配给当前的编码员，还可以用于选择培训初级编码员的病例。初级编码员在开始时会接收简单的案例，然后逐渐接收更复杂的案例。这种方法可以让初级编码员充分接触到与他们的能力有关的各种情况，并激发他们对医疗编码的兴趣。

致谢

作者感谢两位专家编码员，Mireille Nya Buvelot和Lionel Comment，以及编码部门的所有编码员，感谢他们对复杂性注释的贡献。他们还感谢Mostafa Ajalloeian博士为这个项目提供建议。

利益冲突

没有宣布。

‎

多媒体附件1

文本特征工程、不平衡数据处理、MLOps基础设施、模型对照表、OOV分析和变压器微调方法的插图。

DOCX文件，538kb

什么是医学编码?美国专业编码员学会，2021年。URL:https://www.aapc.com/medical-coding/medical-coding.aspx[2022-03-14]访问
Iglehart JK。医院未来支付的新时代。新英格兰医学杂志1982年11月11日;307(20):1288-1292。［CrossRef]
Mayes R.医疗保险革命性的前瞻性支付系统的起源、发展和通过。中华外科杂志2007年1月;62(1):21-55。［CrossRef] [Medline]
drg在美国的起源:一个技术、政治和文化的故事。在:金伯利J，德Pouvourville G, d'Aunno T，编辑。卫生保健管理创新的全球化。英国剑桥:剑桥大学出版社;2008:4-33。
《国际疾病和有关健康问题统计分类第十版》。世界卫生组织，2019年。URL:https://icd.who.int/browse10/2019/en#/[2022-03-14]访问
罗杰·弗兰斯FH。在25个国家混合使用案例:移民成功，但国际比较失败。中华实用医学杂志2003 7月;70(2-3):215-219。［CrossRef] [Medline]
布朗JH。高绩效工作策略:工人阶级的赋权还是压抑?公共汽车经济研究2005年7月1日;3(7):1-4。［CrossRef]
张志强，陈志强，陈志强，陈志强，等。这是一个免费访问的重症监护数据库。科学数据2016年5月24日;3:160035 [免费全文] [CrossRef] [Medline]
鲍美玲，李志强，李志强，李志强。基于ICD编码的病历多标签分类方法研究。见:第32届AAAI人工智能会议研讨会论文集，2018年发表于:AAAI '18;2018年2月2日至7日;美国洛杉矶新奥尔良，第409-416页。［CrossRef]
陈杰，滕峰，马志，陈玲，黄玲，李霞。一种用于ICD编码的多通道卷积神经网络。见:IEEE第14届智能系统与知识工程国际会议论文集，2019年发表于:ISKE '19;2019年11月14日至16日;中国大连，p 1178-1184。［CrossRef]
李敏，费震，曾敏，吴晓霞，李勇，潘勇，等。通过深度学习方法自动编码ICD-9。EEE/ACM计算生物学与生物信息学学报2019;16(4):1193-1202。［CrossRef] [Medline]
Kim BH, Ganapathi V.阅读、参与和编码:推动机器从临床记录中预测医疗代码的极限。在:医疗保健机器学习会议论文集。2021年发表于:PMLR '21;2021年8月6日至7日;虚拟p. 196-208网址:https://proceedings.mlr.press/v149/kim21a/kim21a.pdf
李俊，尹伟，金松，金丁，金松，苏超，等。BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学2020 Feb 15;36(4):1234-1240 [免费全文] [CrossRef] [Medline]
Dalloux C, Claveau V, Cuggia M, Bouzillé G, Grabar N.法语临床叙述的ICD-10编码的监督学习。在:2020年医学信息学欧洲会议论文集。2020年在:MIE '20;2020年4月28日至5月1日;瑞士日内瓦p. 1-5网址:https://hal.archives-ouvertes.fr/hal-03020990/
Azam SS, Raju M, Pagidimarri V, Kasivajjala VC。Cascadenet:一种基于LSTM的用于ICD-10自动编码的深度学习模型。见:2019年信息与通信未来会议论文集，2019年发表于:FICC '19;2019年3月14-15日;美国加州旧金山，第55-74页。［CrossRef]
NLP/Forschung: Des traitements efficiency et rentables grâce à une technology intelligente。ID Suisse AG。2021.URL:https://www.id-suisse-ag.ch/fr/produits/nlp-forschung/[2022-03-14]访问
医疗编码软件。集体思维。URL:https://www.collective-thinking.com/en/medical-coding-software/[2022-03-14]访问
设备编码:用于计算机辅助编码的3M™360 Encompass™系统。3M医疗信息系统。URL:https://www.3m.com/3M/en_US/health-information-systems-us/improve-revenue-cycle/coding/facility/360-encompass-computer-assisted-coding/[2022-03-14]访问
Sumex Suite: Sumex Suite是为瑞士保险公司的需求量身定制的发票验证解决方案。ELCA。URL:https://www.elca.ch/en/sumex-suite[2022-03-14]访问
刘勇，程海华，郭mley MR, Schaaf T.基于卷积注意力网络的多标签临床文献分类。在:2021年自然语言处理经验方法会议论文集。2021年发表于:EMNLP '21;2021年11月7日至11日;多米尼加共和国蓬塔卡纳，第5941-5953页。［CrossRef]
袁Z，传奇T，宋芳H.代码同义词做问题:多同义词匹配网络用于ICD自动编码。见:计算语言学协会第60届年会论文集(第2卷:短论文)。2022出席:ACL '22;2022年5月22-27日;爱尔兰都柏林，第808-814页。［CrossRef]
陈凯，陈志强，陈志强。基于向量空间的词表示估计算法。arXiv 2013年1月16日。［CrossRef]
陈凯，陈凯，陈志伟，陈志伟。词汇和短语的分布式表示及其组合。第26届神经信息处理系统国际会议论文集。2013年发表于:NIPS '13;2013年12月5-10日;太浩湖，NV，美国p. 3111-3119。
李志强，李志强，李志强，等。福楼拜:法语无监督语言模型预训练。见:第12届语言资源和评估会议记录，2020年发表于:LREC '20;2020年5月11日至16日;法国马赛，第2479-2490页。［CrossRef]
Joulin A, Grave E, Bojanowski P, Mikolov T.高效文本分类的技巧包。arXiv 2016年7月6日。［CrossRef]
Wolf T, Debut L, Shah V, Chaumond J, Delangue C, Moi A，等。变形金刚:最先进的自然语言处理。见:2020年自然语言处理经验方法会议论文集:系统演示。2020年发表于:EMNLP '20;2020年11月16日至20日;虚拟p. 38-45。［CrossRef]
Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP。smte:合成少数过采样技术。J Artif Intell Res 2002 6月1日;16:21 -357。［CrossRef]

‎

人工智能:人工智能

福楼拜:通过变压器的双向编码器表示的法语理解

诊断结果:《国际疾病和有关健康问题统计分类》，第十版

ML:机器学习

NLP:自然语言处理

OOV:词汇量不足

TF-IDF:术语频率-逆文档频率

编辑:T Hao;提交21.03.22;S Puts, D Yu, K Rahmani同行评审;对作者19.06.22的评论;订正后收到12.08.22;接受04.12.22;发表19.01.23

©He Ayu Xu, Bernard Maccari, Hervé Guillain, Julien Herzen, Fabio Agri, Jean Louis Raisaro。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com)， 2023年1月19日。

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息，https://medinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

医疗病例编码复杂性预测的端到端自然语言处理应用:算法开发和验证