JMIR医学信息学-一个端到端的自然语言处理应用程序，用于预测医疗病例编码复杂性:算法开发和验证

原始论文

¹瑞士洛桑大学医院生物医学数据科学中心

²第8单元SA，瑞士洛桑

^3.公共卫生解决方案有限公司，普罗马森，瑞士

⁴瑞士洛桑大学医院行政与财务处

⁵瑞士洛桑大学医院内脏外科

这些作者的贡献相同

通讯作者:

何阿玉徐博士

生物医学数据科学中心

洛桑大学医院

沃多瓦大学医院中心，布尼翁街21号

1011年洛桑

瑞士

电话:41 0795566886

电子邮件:he.xu@chuv.ch

背景:医学编码是将临床文档转换为标准医学代码的过程。代码用于医院的几个关键目的(例如，保险报销和绩效分析);因此，它们的优化是至关重要的。随着自然语言处理技术的快速发展，人们提出了几种基于人工智能的解决方案，通过自动为临床文件提供相关代码来辅助医学编码。然而，它们的有效性仍然局限于简单的情况，并且还不清楚它们在提高编码效率和准确性方面能带来多少价值。

摘要目的:本研究旨在提高编码过程的效率，提高医学编码人员对编码的选择。为了实现这一目标，我们开发了一种创新的基于多模态机器学习的解决方案，它不是预测代码，而是在执行编码之前检测编码的复杂程度。编码复杂性的概念被用于更好地在医疗编码人员之间分配工作，以最终减少错误并提高吞吐量。

方法:为了训练和评估我们的方法，我们收集了2060个由编码人员根据编码复杂度从1(最简单)到4(最复杂)进行评级的案例。我们请2位编码专家将3.01%(62/2060)的案例评为黄金标准。专家之间的协议被用作模型评估的基准。病例包含来自医院电子健康记录的临床文本和患者元数据。我们提取文本特征和元数据特征，然后将它们连接并输入到几个机器学习模型中。最后，我们选择了2个模型。第一种方法对1751个案例进行了交叉验证训练，并对309个案例进行了测试，旨在评估所提出方法的预测能力及其泛化性。第二个模型在1998个案例上进行了训练，并在黄金标准上进行了测试，以验证与人类基准相比的最佳模型性能。

结果:我们的第一个模型实现了宏观F₁-得分为0.51,4级复杂度分类准确率为0.59。该模型很好地区分了简单(组合复杂度1-2)和复杂(组合复杂度3-4)的宏-情况F₁-得分为0.65，准确率为0.71。我们的第二个模型与专家评级和宏观-达到61%的一致性F₁-在金标准上的得分为0.62，而两位专家与宏观-的一致性比率为66% (41/62)F₁-得分为0.67。

结论:我们提出了一种多模式机器学习方法，利用来自临床文本和患者元数据的信息来预测预编码阶段编码病例的复杂性。通过将该模型集成到医院编码系统中，可以自动完成病例在编码人员之间的分配，其性能可与人类专家编码人员相媲美，从而大规模提高编码效率和准确性。

中华医学杂志[j]; 2011; 31 (2): 389 - 391

doi: 10.2196/38150

关键字

医疗编码；自然语言处理； NLP；复杂性预测；预测；决策支持；机器学习；模型；临床决策支持应用；多通道建模；编码；算法；文档；健康记录；电子健康记录；电子健康档案；发展

背景

医疗编码[1是将医疗保健诊断和程序翻译成使用医学分类和受控术语的标准诊断和程序代码。这是一项为医院提供资金的战略活动，因此，在财政压力下，对其进行优化是卫生保健系统的优先事项。在世界上许多国家，包括瑞士，医院的资金是基于所谓的预期支付系统［2，3.)机制。例如，在瑞士前瞻性支付系统中，住院时间被分配到与诊断相关的组[4]根据从医疗文件中得出的诊断和程序代码，每次住院费用根据所分配的与诊断有关的组支付。因此，医疗编码一方面与医疗文档密切相关，另一方面与医院收入密切相关。除了建立报销要求外，医疗代码还用于其他几个目标，例如为计划住院制定预算，或通过手术后并发症率等指标评估护理质量。

具体病例(即住院)的诊断和程序代码来自临床文件，如出院信、手术报告、医生和护士的记录以及实验室和放射检查结果。《国际疾病和有关健康问题统计分类第十次修订版》[5]，通常用于编码诊断，而用于编码程序的分类系统可能因国家而异[6]。

代码被手动输入医院信息系统。在瑞士，有超过200条编码规则管理代码输入，必须由医疗编码人员应用。后者是为此目的接受过专门培训的保健专业人员。然而，尽管进行了培训，医疗编码仍然是一项复杂、快速发展、耗时且容易出错的任务。我们三级学术医疗中心从2018年开始，将医疗编码人员分成专业团队。在一批病例中，50%分配给“普通锅”，另外50%分配给相应的医学编码员专业团队。“普通锅”中的病例随机分配给每个小组。由于3个原因，预计专业小组的病例百分比不会更高。首先，它可能导致一般编码知识的丢失。其次，它可能会让医疗编码人员感到无聊。 Third, it will not always be possible to guarantee a sufficient number of cases for certain teams. Thus, a way to increase the efficiency of the current distribution of work without going toward a counterproductive overspecialization [7是强制将需要高专业知识的案例分配给经验丰富的专业编码人员。这种方法只能通过在分发和编码之前提前检测案例的复杂性来实现。

近年来，人们越来越多地提出人工智能(AI)方法来提高医疗编码的效率和准确性。他们的主要目标是支持医疗编码人员为给定的医疗文档找到最合适的诊断和程序代码。传统模型、深度学习模型(如卷积神经网络和长短期记忆)和变形器已经使用公开可用的英语数据集对自动编码任务进行了训练和测试[8-13]。最近，这项工作也被扩展到非英语语料库，如法语语料库[14，15]。除了学术方法外，用于自动编码的商业软件也已开发并推向市场。例如，商业软件如ID SUISSE [16]应用基于规则的算法来执行自动编码。他们的原则是使用预先构建的ICD-10代码及其文本标签的字典，尝试找到与标签匹配的临床文本，然后将文本转换为ICD-10代码。最近的工具，如集体思维[17]及360 Encompass (3M) [18用机器学习(ML)技术改进了基于规则的算法。最后，Sumex [19]依靠统计方法来分析ICD-10编码的分布和组合，以识别编码模式中可能存在的不一致。

尽管可用的解决方案越来越多，但自动编码的有效性仍然有限。在性能最好的ML模型中，虽然精度可以达到75%左右，但宏观-F₁-score只能达到10% - 12% [12，20.，21]。结果表明，即使是最好的模型也只能从自由文本中捕获一小部分医疗代码。因此，使用人工智能辅助策略改进医疗编码仍然是一个开放的挑战(Kaur R，未发表的数据，2021年7月)。

目标

我们研究的目的不是寻找一种从医疗记录中预测ICD-10代码的方法。相反，它是通过在编码过程之前预测编码复杂性来提高编码质量和效率。我们的主要目标是提高编码过程的效率，以提高医疗编码人员的编码质量，实现这一目标的手段是使用ML的创新解决方案。创新是使用ML检测复杂性，然后用于更好地在医疗编码人员之间分配工作。据我们所知，这种方法以前从未被使用过。它允许根据编码员的能力和经验更有效地分配案例。因此，我们将能够最大限度地减少由于医院编码部门或单位内编码专业知识的随机分配和不均匀分布而造成的潜在人为错误。最终，通过事先了解编码的复杂性，简单的病例可以分配给初学者或非专业编码人员或人工智能辅助系统，以最大限度地发挥其效用，而人工智能辅助工具仍然效率低下的复杂病例则分配给编码专家或至少分配给经验丰富的医疗编码人员。

根据要检查的临床文件的数量和其他因素，如住院时间长短或参与治疗患者的医学专家的多样性，对病例进行编码可能是一项简单的任务，也可能是一项非常复杂的任务。一旦对一个案例进行了编码，对于这样做的人来说，通常很容易将案例分类为一个复杂性级别，该级别表示编码活动的复杂性。然而，提前预测一个案例的复杂程度对于人类编码人员来说是非常耗时的，因为它需要对整个文档进行深入分析，这最终相当于直接进行编码过程。

为了在预编码阶段自动预测编码任务的复杂性，我们使用先进的自然语言处理(NLP)技术来分析临床文本并提取预测病例复杂性的特征。我们提出了一种端到端方法，将NLP和ML模型集成到医院临床数据仓库和最终用户编码系统中。我们的NLP和ML模型预测案例复杂性的准确性可与专业的人类编码人员相媲美。它的测试版目前正在洛桑大学医院部署。据我们所知，我们是第一个提出并发展这种创新方法的公司。

本文的其余部分组织如下。中提供了应用程序的详细信息方法，给出了系统的性能和分析结果部分。在讨论部分，我们讨论的价值和我们的应用的重要性，以及在医疗保健NLP的使用。

伦理批准

根据Req-2022-00677，鉴于该研究具有回顾性和质量保证性质，沃州人类研究伦理委员会对该研究给予完全豁免。

Overivew

我们描述了一个典型的医疗编码工作流程图1。住院病人(住院过夜的病人)在医院接受治疗后，会产生出院信。医疗编码人员对出院信中的诊断进行分析，并将诊断翻译成《国际疾病及相关健康问题统计分类第十次修订版》(ICD-10)代码。有时编码人员需要参考其他临床文件(如干预方案和实验室报告)来准确翻译信息。诊断相关的组代码是根据ICD-10代码计算的，并发送给保险公司计费。保险公司根据收到的与诊断相关的组代码向医院报销账单。如果保险公司发现代码中有错误，他们会要求编码服务进行修改。我们提供了一个决策支持系统的概述图2并描述了其在医院信息系统中的集成图3。

图1所示。医院一般编码程序。DRG:诊断相关组;国际疾病和有关健康问题统计分类第十次修订版。

图2。本研究工作流程。(A)我们从洛桑大学医院(CHUV)的临床数据仓库中提取2060例病例。这些案例由编码员(B)进行评级，复杂度从1(最简单)到4(最复杂)。(C)我们对标记的案例进行特征工程和训练模型。(D)最后的模型既能预测复杂性，又能预测可信度。

图3。将我们的模型集成到编码服务中。(A)当住院病人到医院就诊并且病历已经生成时，临床文本和患者元数据存储在我们的临床数据仓库中。(B)工作流管理器将定期提取新的医疗案例并将数据发送给我们的模型。(C)我们的模型被容器化并部署到一个执行环境中，在那里它对接收到的案例进行预测。(D)模型预测，连同预测的置信度，通过用户界面呈现给最终用户，以支持编码服务中的任务分配。

复杂性的定义

我们使用术语“编码复杂性”来描述医疗编码人员为医疗病例分配诊断代码所需的时间和专业知识。

专业知识可以定义为经验水平、医学知识和对编码规则的掌握程度。因此，通过应用许多编码规则，医疗案例可能会变得复杂，这并不困难，但会增加注意错误的可能性。其他病例可能复杂而困难，因为它们需要正确编码的医学知识。因此，选择复杂性作为对案例进行分类的度量。

如果编码一个医疗案例不需要太多时间和深厚的专业知识，则编码复杂性较低(1级;图4)。相反，如果编码一个医疗案例需要大量的时间和深厚的专业知识，那么编码的复杂性就很高(第4级;图4)。

编码复杂性，类似于痛苦或满意度，是一个主观的量。自动编码模型可以提供一种潜在的定义编码复杂度的客观方法。将病例通过自动编码模型，人工检测ICD-10编码预测的置信度评分、完成度和准确性，将病例分为简单组和复杂组。然而，由于目前的自动编码模型的有限性能(即非常低的召回分数)，无论语言[12，20.，21，这种做法不会给我们的处境带来多大价值。此外，如果编码的复杂性可以用简单的客观数据来衡量(例如，类似于血压)，我们的多模态建模方法将是无用的。因此，在本研究中，我们对编码复杂性的定义将侧重于医疗编码人员提供的主观评分，旨在通过使用ML方法最小化主观性，并预测复杂性的主观评分。

为了训练我们的ML模型，我们从2021年的住院患者(inpatients)中提取了2060例医疗病例。我们组织了2个注释阶段，每个阶段持续1周，让28名编码人员对案例的复杂性进行评级。在每个注释阶段，编码员根据评估网格(图4)。

数据收集和预处理

数据源和数据注释

一个医疗案例包含两种类型的数据:患者的医疗档案和患者元数据(文本框1)。我们从注释阶段共收集了2060个案例。我们注意到，我们医院的编码团队由不同医学领域的专业编码人员组成。因此，在注释期间，我们还跟踪案例是否由专家编码。例如，如果一个病例的负责单位是内科单位，而编码该病例的编码员专门从事心脏病病例，则该病例被其专业编码员视为未编码。

在收集到的2060例病例中，1998例(96.99%)被28名医学编码员注释，每个病例仅由1名编码员编码，以最大限度地扩大注释集的规模。由于不同的医疗编码人员可能对同一病例的复杂性有不同的看法，我们通过要求2名专家编码人员对另外3.01%(62/2060)的病例进行编码来评估互译器的可靠性。这62个案例也代表了我们为模型的性能创建基准的黄金标准。对于案例选择，我们首先使用1998年的案例训练了几个模型;然后利用最佳模型的预测结果对数据仓库中几种情况的复杂性进行预测;最后，从预测案例中随机选择62个案例，同时确保这62个案例的复杂性分布遵循与标注数据集相同的复杂性分布。62个案例中的每一个都由每个编码专家打分，他们被认为是所有案例的专家。这62个案例被称为黄金标准。

收集用于训练和测试模型的数据。

患者元数据:负责任的医疗服务、医疗服务之间的流动次数、年龄、性别、公民身份、患者是否死亡、住院时间以及病例是否由专家进行编码
医疗档案:各军种出院信、操作规程、干预报告、死亡信

文本框1。收集用于训练和测试模型的数据。

元数据预处理

缺失患者的元数据是根据数据的性质进行输入的。至于年龄和逗留时间等数值，由于这些数值的分布不均匀(图5)。对于性别、公民身份等分类值，用现有值的模式对缺失值进行估算。

图5。每次住院的患者元数据分布概况。文档长度和句子长度是根据标记(单词和标点符号)来计算的。A、B、D和E的分布严重偏斜。注意，A、B、D、E和F上的分布是对数尺度的。G最右边的一列是从编码员的团队专长推断出来的。C中年龄=0的病例代表新生儿病例。

文本数据预处理

我们测试了基于经典术语频率逆文档频率(TF-IDF)的文本编码和基于ml的文本编码，并应用了不同的文本预处理步骤。对于TF-IDF文本编码，我们首先对文本进行标记;然后去掉停止词;最后，用实体类型替换实体。第二步和第三步用于降低噪声和增加重要词的频率，为模型提供更好的信号。中给出了一个处理文本的例子文本框2。

对于基于ml的文本编码，如fastText (Facebook AI Research lab)和transformer，没有进行预处理。

文本预处理结果的一个例子。

原文:Le patient susnomess . a ssjournjournes dans notre service du 01.02 au 03.02，返回住所日期。
处理文本:(“病人”、“susnomme”,“sejourne,”“服务”“<日期>,”“<日期>”,“日期”,“住所”,“。”)

文本框2。文本预处理结果的一个例子。

模型设计

概述

模型设计的总体思路如下。首先，从预处理后的元数据和文本数据中提取特征。其次，我们测试了两种建模方法:将问题定义为分类问题或回归问题。在建模方法的基础上，我们使用不同的度量来评估模型的性能。

工程特性

由于患者元数据的值有不同的尺度，我们采用标准化(z对数值数据进行Score)，对分类数据进行one-hot编码。

为了从自由文本中提取特征，我们使用了TF-IDF和词嵌入两种方法。

TF-IDF提供了一个单词对文档集合的重要程度的数值权重(多媒体附录1)。我们测试了TF-IDF方法的两种配置:使用前10,000个频繁术语或使用前1000个频繁术语。我们发现，使用前1万个频繁术语，模型比只使用前1000个频繁术语表现得更好。因此，在接下来的章节中，我们只报告使用前10,000个频繁术语的TF-IDF向量的结果。

单词嵌入根据单词出现的上下文提供单词的矢量化表示。我们测试了三种类型的词嵌入:(1)word2vec [22，23在医院临床数据仓库收集的250万份临床文本(12gb)上训练嵌入;(2)最先进的法语变压器模型的汇总输出(CLS令牌)通过变压器的双向编码器表示进行法语理解(福楼拜)[24]，它是在从互联网上收集的71 GB法语文本上进行预训练的;(3) fastText监督方法[25我们对fastText进行了测试，因为它提供了一种子词方法，可以减少词汇表外(OOV)问题的影响。对本研究的OOV进行了详细的分析多媒体附录1。

文本框3显示了使用不同方法提取的向量的大小。详细的转换方法见多媒体附录1。

文本特征工程的向量大小。

术语频率-逆文档频率(使用scikit-learn [version 1.0.1]提取向量):10,000
fastText(用自定义嵌入初始化;fastText嵌入使用fastText[版本0.9.2;Facebook人工智能研究实验室]):100
word2vec(定制;word2vec嵌入使用Gensim[版本4.0.0;稀有技术[j]): 100
基于变形金刚(福楼拜)双向编码器表征的法语理解福楼拜嵌入和微调模型使用hug Face[4.17.0版本;拥抱脸公司]):768

文本框3。文本特征工程的向量大小。

模型架构

情况的复杂性范围为1到4，具有离散值;因此，我们既可以将其视为多类分类问题，也可以将其视为回归问题。经测试的模型见图6。

对于分类和回归，我们使用不同的特征组合作为输入来训练模型。组合如下:(1)仅元数据，(2)仅词嵌入，(3)仅TF-IDF向量，(4)TF-IDF与元数据连接。

模型实现的整体过程总结于图7。在训练期间，我们应用了5倍交叉验证来减少过拟合。由于标签不平衡，我们在分类模型中使用分层抽样进行交叉验证。我们对最有希望的特征和模型进行了超参数调优。对于TF-IDF，我们优化了词汇表中考虑的单词数量(最常见的单词)和文本预处理(小写、词序化、删除停止词和删除非字母数字标记)。对于梯度增强树模型，我们调整了估计器的数量、学习率和最大深度。使用贝叶斯优化，根据交叉验证集中所有折叠的平均性能对超参数进行调优。

此外，我们使用hug Face转换器库测试了福楼拜序列分类模型的微调[26]。FlaubertForSequenceClassification应用程序编程接口提供了一个预训练的福楼拜模型，上面有一个大小为1024的分类层。它将原始文本作为输入，并输出预测的类(在我们的示例中，即复杂性级别)。在我们所有的实验中，我们使用微调福楼拜基础的无例化模型获得了最好的结果。值得注意的是，我们冻结了前11个编码器层，并训练了最后一个编码器层和分类层，以限制过拟合。我们还在交叉熵损失中对每个类进行了不同的加权，以解释不平衡。我们使用的最大序列长度为512个令牌，批处理大小为32个。在本文中，我们只报告了使用这种配置获得的微调福楼拜结果。

图6。不同模型和输入特征在5倍交叉验证训练数据集(1751例)和测试数据集(309例)上的性能比较。虚线表示基线模型结果。根据图中分类宏观f1得分对模型进行排名。*平均每个服务:对于给定服务中的给定案例，它总是预测该服务中案例的平均复杂性。共有29个业务的平均复杂度为2，共有5个业务的平均复杂度为3，共有1个业务的平均复杂度为1。**Majority vote:总是预测多数类(在我们的例子中，复杂度为2)，并作为模型预测性能的基线。福楼拜:基于《变形金刚》双向编码器表征的法语理解TF-IDF:词频率-逆文档频率。

图7。特征工程和建模方法使用词嵌入和患者元数据作为模型输入。这个流程中不包括经过微调的通过双向编码器表示进行法语语言理解的transformer文本分类模型。

数据不平衡

我们的数据标签严重不平衡，我们试图通过使用过采样和欠采样技术来克服这个问题。我们的最佳模型使用合成少数派过采样技术进行训练[27]对代表性不足的类进行过采样，然后对代表性过高的类进行随机欠采样。我们还选择度量来惩罚那些不能预测未被充分代表的类别的模型，比如宏观F₁分数。有序分类也是一种有趣的“混合”方法。然而，我们把尝试更复杂的分类方法留给未来的工作。

技术堆栈

ML管道利用了spaCy(3.1版;Explosion AI)用于预处理文本(使用法语模型“fr_core_news_md”)，scikit-learn(版本1.0.1)用于构建可以使用交叉验证的复杂管道，以及Optuna(版本2.10.0;Preferred Networks, Inc)进行超参数搜索。它还简化了所选模型的部署，因为预处理是单个序列化管道的一部分。用于尝试其他方法的其他工具有用于文档分类的fastText，用于操作预训练的词嵌入的Gensim (RARE Technologies, Ltd)，以及使用预训练的变压器模型的hugs Face Transformers (hug Face, Inc)。训练是在一个有64个中央处理单元内核的虚拟机上进行的，允许我们并行训练，以及一个Nvidia RTX 3090图形处理单元，用于更大的深度学习模型。

所选模型的第一个版本正在我们的医疗编码服务中与机器学习模型操作化管理基础设施一起部署。部署细节见多媒体附录1。

元数据分析

每个编码员团队都有一组医学专业。我们认为，如果注释者是该病例所涉及的一个专业的团队的一部分，则该病例是由专家注释的。根据这一逻辑，63.98%(1318/2060)的病例由专家注释。我们在训练中使用了这个功能。在推理时，我们可以选择请求专家对该病例进行编码的预测。

给出了数值元数据和分类元数据的分布图5。为了检查是否有任何元数据对编码复杂性有显著的预测能力，我们在数字元数据特征和复杂性评级之间进行了Pearson相关性;我们还对患者性别和婚姻状况等分类特征进行了统计检验(表1)。结果表明，在预编码阶段，句子长度和住院期间就诊次数等特征对编码复杂性的影响不强。在后编码阶段，ICD-10编码和Swiss Classification of Surgical Procedures编码的数量与编码复杂度相关。根据这些结果，我们建议NLP或ai辅助编码的未来方向可以使用元数据和临床文本来预测病例可能产生的代码数量，然后将其与编码过程后获得的实际代码进行比较，以便在后编码阶段进行质量检查。

表1。编码前和编码后数值元数据特征与复杂性等级之间的Pearson相关性以及编码前阶段分类特征和复杂性等级的统计检验。

			相关或统计检验		P价值
数值特征
	逗留期间所有文件的令牌数量	0.44		<措施
	逗留期间出示的文件数目	0.33		<措施
	逗留期间访问的医疗服务的次数	0．02		.35点
	停留时间	0.41		<措施
	年龄	0．25		<措施
	句子的长度	0.003		点
分类特征
	婚姻状况	F₂₀₅₄= 14.05		<措施
	性别	t₂₀₅₈=−3.70		<措施
编码后可用的其他元数据
	ICD-10的编号^一个代码	0.55		<措施
	CHOP数目^b代码	0.46		<措施
	按^c成本	0.34		<措施

^一个国际疾病和有关健康问题统计分类第十次修订版。

^bCHOP:瑞士外科手术分类。

^cDRG:诊断相关组。

编码员等级分析

案例的复杂程度等级显示在图8A.最常见的评分是复杂性2(1127/2060,54.71%的病例)，最不常见的评分是复杂性4(58/2060,2.82%的病例)。采用分层抽样的方法选择训练集和测试集;因此，它们的分布几乎与中所示的真实分布相同图8一个。

一个案件的原始医疗服务也可能影响其复杂性。图8B显示，姑息治疗科的病例平均复杂性最高，而胸外科的病例平均复杂性最低。

通过分析金标准集，其中所有案例都由2位专家评分，我们发现即使是专家编码员也并不总是意见一致。在62个案例中，2位专家的意见一致的有41个(66%)。然而，在只有3%(2/62)的情况下，他们的差异超过一个复杂程度(表2)。2位编码专家之间的互译信度(Cohen κ score)为0.49。如果我们认为一个专家是基本事实，而另一个专家是预测模型，宏观-F₁-该“预测模型”的得分只能达到0.67 (图9)，一个中等好的分数表明任务可以学习，但模型不会达到很高的性能。

编码员对不同复杂程度的同一案例进行评分的主要原因是主观性。这也提醒我们，主观评级的标签往往是嘈杂的，没有一个模型可以达到完美的性能。两个专业编码人员之间的一致性比率可以让我们了解我们对模型的预期性能。如果我们考虑一个专家作为预测复杂性的模型，而另一个专家给出真实的复杂性标签，那么这个模型(前一个专家)可以达到的最高准确率是66%。从这个意义上说，在以后分析我们模型的性能时，66%的准确率可以作为基准之一。然而，考虑到复杂性标签的强烈不平衡，我们也应该依赖混淆矩阵来比较注释者-注释者协议与模型-注释者协议。

然而，正如模型设计部分所提到的，我们的样本高度不平衡，准确度度量缺乏根据样本分布综合衡量模型性能的能力。由于有54.71%(1127/2060)的案例被评为复杂度为2，所以一个一直预测2的朴素模型可以达到54.71%的准确率，但它对解决我们的问题没有价值。为了考虑样本分布的不平衡，我们使用了宏观的F₁-得分与准确性一起衡量模型的性能。宏,F₁两个编码器之间的-得分为0.67，这被认为是我们用来评估模型性能的另一个基准。

图8。(A)所有2060个案例的复杂性等级分布。(B)按服务划分的平均复杂性等级。绿色条形图显示前5个服务，红色条形图显示后5个服务。CHT:胸外科;离子:immuno-oncology;MIN:传染病;奥林匹克广播服务公司:妇产科;PED:儿科;RHU:风湿病学; SIA: adult intensive care; SIP: pediatric intensive care; SPL: palliative care; URG: emergency department.

图9。(A)两个编码专家在金标准集上的复杂度等级比较。(B)验证模型的预测和专家在黄金标准集上的平均评分之间的比较。(C)两名编码专家在分组简单(复杂度1和2)和复杂(复杂度3和4)情况下对金标准集的评分比较。(D)在简单和复杂案例分组时，专家平均评分和验证模型对金标准集的预测之间的比较。专家的平均评分被四舍五入到下一个最大的整数。

表2。专家1和专家2的复杂性评级之间的绝对差异。专家编码员达到的准确率约为66% (41/62;N = 62)。

编码专家1和2之间复杂性等级的绝对差异(复杂性等级的数量)	案例，n (%)
0	41 (66)
1	19 (31)
2	2 (3)
3.	0 (0)

模型分析

概述

首先，我们想研究我们的方法在预测医学案例的编码复杂性方面是否有效。我们使用了所有2060例注释病例(n=1998, 96.99%为1-coder-rated病例，n=62, 3.01%为金标准病例)。我们将2060个案例分成一个训练集(n=1751, 85%的案例)和一个测试集(n=309, 15%的案例)，并测试我们的模型架构。然后，为了用专家编码人员的基准来验证模型的性能，我们将3.01%(62/2060)的黄金标准案例作为测试集，并训练具有相同架构但具有更多训练数据的模型(1998/2060,96.99%的案例)。

主要模型

为了训练模型，我们首先只使用患者元数据或单词嵌入或TF-IDF向量作为输入特征。使用患者元数据的最佳模型是梯度增强树(macro−F₁分数= 0.46;分类准确率=0.61;R²=0.15为回归)。使用词嵌入的最佳模型是fastText分类模型(macro−F₁分数= 0.47;精度= 0.57;使用自定义嵌入初始化)，使用TF-IDF向量的最佳模型是梯度增强树(宏−F₁分数= 0.45;分类准确率=0.62;R²=0.26回归)。

使用词嵌入的模型没有优于使用TF-IDF向量的模型。因此，我们将TF-IDF向量与元数据结合起来作为输入特征，以整合来自患者元数据和医疗档案的信息。表现最好的模型使用梯度增强树，并实现了宏观−F₁-在交叉验证的训练集和宏上的得分为0.51，准确率为0.59F₁-测试集的得分为0.46，准确率为0.58。图6展示了不同模型在5倍交叉验证的训练数据集和测试数据集上的性能比较。详细的数字可以在多媒体附录1。

由于在代表性不足的类上表现良好在我们的案例中很重要，因此我们报告了宏F₁-得分作为第一个指标。宏观F₁分数是分数的平均值F₁-每个类的得分，不按类中的实例数量加权。与准确性不同，这个指标对每个类的惩罚是相等的。在宏观的基础上F₁-score，我们选择我们的最佳模型作为结合TF-IDF和元数据特征训练的梯度增强树(称为主模型)。

混淆矩阵(图10A和10B)表明我们的主要模型在训练和测试中混淆了复杂性-2和复杂性-3的情况。图9A表明，即使对于专业编码人员，在将一个案例的复杂度评为2和3时，也没有明显的区别。区分复杂性2和3的困难可能是由于这两类案例之间的相似性。我们注意到，在训练和测试期间，我们的主要模型也难以区分复杂度3和复杂度4。这种表现可能是由于缺乏示例。虽然我们使用合成少数派过采样技术对复杂性为3和4的情况进行过采样，但在复杂性为4的情况下仍然缺乏可变性。

然后，我们尝试将复杂性-1和复杂性-2案例合并为“简单”案例，将复杂性-3和复杂性-4案例合并为“复杂”案例，并将该模型作为二元分类器进行测试。结果(图10C和10D)表明该模型在区分简单和复杂情况方面表现良好。在训练集上，该模型实现了宏观-F₁-得分为0.62，准确率为0.71。在测试集上，该模型实现了宏观-F₁-得分为0.65，准确率为0.71。

图10。(A)和(B)主模型在训练集(1751例)和测试集(309例)上的表现。(C)和(D)主模型在分组训练集(1457例简单，294例复杂)和测试集(261例简单，48例复杂)上的表现。

验证模型

为了验证我们的模型方法并将其与专家的基准进行比较，我们使用96.99%(1998/2060)的1编码评级案例训练了一个验证模型，并在3.01%(62/2060)的金标准案例上对其进行了测试。验证模型的架构与主模型的架构相同。

两位编码员的评分比较(图9从A)可以看出，专家编码人员的分歧主要集中在复杂度-2和复杂度-3的情况下，总体一致率为66%(41/62)，具有宏观-F₁-得分为0.67。表3和图9B显示了我们的验证模型与两位专家在金标准集上的评级之间的比较。该模型与编码专家1的53%(33/62)和编码专家2的63%(39/62)的案例一致。验证模型与两位专家的平均评级达成了61%的一致性比率，宏观-F₁-得分为0.62。

表3。我们的验证模型的预测与2位专家编码员在黄金标准集上的评级的比较。

	协议百分比	皮尔森相关
编码专家1 vs编码专家2	66	0.70^一个
模型vs编程专家	53	N/A^b
模型vs编码专家2	63	N/A
模型vs上限平均2个专家编码	61	0.70^一个

^一个P<措施。

^b-不适用。

当将4个复杂关卡合并为2个时(简单vs复杂;图10C和10D)，两个编码器之间的一致率为84% (52/62)F₁-得分为0.76，模型预测与专家平均评级的一致性比为0.89F₁-得分为0.82。结果表明，该模型与人类专家的表现相当，预测方式与人类专家非常相似(图9A和9B)。

有趣的是，对于金标准案例，我们的验证模型能够100%正确地预测复杂性-4个案例，这与主模型在训练和测试期间的表现不同(图10A和10B)。由于对专家案例进行抽样，只选取了4个案例，复杂度为4，这些案例可能非常复杂，因此模型很容易识别。

与其他模型相比，可以提供更高的精度，但精度较低F₁-得分，主模型和验证模型在我们的具体用例中都更实用，因为预测不同的复杂性水平比预测所有用例的复杂性为2更重要(多媒体附录1)。

分类与回归

中给出的用例，我们总结了这两种方法的优缺点文本框4。

分类和回归方法的优缺点。

预测的信心:许多分类模型将预测类的置信度作为概率输出，而回归模型通常不提供开箱即用的信息(尽管ci有时是可能的)。信心对最终用户是有用的，这意味着他们可以忽略低信心的预测。它也可以用于主动学习模块(图11)选择新的案例(预测置信度低，预测与编码器感知之间存在强烈分歧)来重新训练模型。
结果的可解释性:使用分类方法可以计算F₁-分数、准确性和混淆矩阵。这些对最终用户来说更直观。注意，对于回归，仍然可以对预测进行四舍五入以应用这些指标。
标签顺序复杂性分数是自然有序的。因此，给定一个标注了复杂度为4的情况，预测复杂度为1的模型应该比预测复杂度为3的模型受到更多的惩罚。回归方法考虑顺序，而分类方法不考虑顺序。

文本框4。分类和回归方法的优缺点。

图11。使用主动学习模块收集编码员的反馈，提高模型性能。(B)中的工作流管理器可以是为指定工作提供自动调度的任何软件或平台(例如，用于数据提取的脚本)。

主要研究结果

我们提出了不同的ML模型，可以预测4个复杂级别的编码医疗病例的复杂性。我们首先在所有2060个带注释的案例上训练模型。当仅使用患者元数据时，最佳模型(梯度增强树)可以实现宏−F₁-得分为0.46，分类准确率为0.61R²0.15表示回归。通过应用NLP方法从临床文本中提取信息，最佳模型(使用自定义嵌入初始化的fastText)可以实现宏F₁-得分为0.47，分类准确率为0.57。当将患者元数据与nlp提取的信息相结合时，最佳模型(模型分析部分中的主模型)实现了宏观−F₁-得分为0.51，准确率为0.59，在交叉验证的训练集和宏上F₁-在测试集上的得分为0.46，准确率为0.58。

为了用专家的基准来评估我们的模型方法，除了金标准案例之外，我们使用与主模型相同的架构来训练我们的验证模型。我们的验证模型在宏−下实现了0.61的精度F₁-在金标准案例中得分为0.62。当将4个复杂性级别合并为“简单”(复杂性1-2)和“复杂”(复杂性3-4)情况时，我们的验证模型可以达到0.89的精度和一个宏−F₁-得分为0.82。结果表明，该模型的性能与人类专家的性能具有很高的可比性。

据我们所知，这是第一个应用NLP和ML模型来帮助区分编码医疗案例复杂性的研究。

临床重要性

瑞士洛桑大学医院有两个使命:保证一个地区的医疗服务和作为转诊医院。在标记的样本病例中，复杂性等级为2的病例(简称病例2)占主导地位，可以用这种双重活动来解释，因为医院不仅集中于大学或转诊的复杂病例，而且还接收与其他医院类似的正常病例。

在我们目前的医疗编码服务中，需要编码的病例50%分配给专业团队，50%分配给“普通锅”。这种团队与普通锅的分配是随机进行的，没有考虑病例的复杂性，将复杂的病例留在普通锅中，相反，剥夺了普通锅中“简单”病例的专业资源。请注意，在我们的例子中，编码员仍然可以从普通案例中选择复杂案例，即使这些案例不是他们的专业。许多程序员关心多样性或学习其他类型的案例。这种模式的整合使他们能够有意识地选择复杂性。

病例2的优势将会将大量病例推入普通锅，减少到达不同专业团队的病例数量，从而降低普通锅与专家的比例。复杂度3和复杂度4案例的编码质量将得到提高，因为它们将被重定向到专业团队或高级编码人员。然而，这也将有降低案例2编码质量的风险，这将最终进入公共锅。因此，有必要在公共锅和团队或高级编码员之间保持50/50的比例，并强制案例2也由团队或高级编码员编码。这一调整将提高病例3和4的编码质量，最多可提高病例2的编码质量。在我们的系统部署后，考虑到我们的NLP和ML模型预测的复杂性的新分布将在编码团队的满意度和编码的准确性方面进行监控。此外，我们将分析编码的准确性与预测的案例复杂性的关系，以调整模型设计，更有效地将案例分布分配给编码员。

在我们目前的模型中，病例的复杂性由我们医疗服务部门的编码人员定义，并进行主观评级。通过分析各种情况下的模型预测，可以总结出高复杂性情况和低复杂性情况的共同特征。这些特征可以用来构建一套客观规则，与其他临床服务或其他医院的医疗编码服务共享。对于小型医院或临床服务机构来说，它们并不总是有足够的资源来训练和构建自己的机器学习模型，这组规则可以帮助他们更有效地分配病例。相反，如果所总结的特征不能很好地区分简单和复杂的案例，则可能反映了案例复杂性是一种主观而非客观的度量。在这种情况下，推广这种主观度量的最好方法是建立一个模型，比如在我们的方法中，学习高度非线性的主观度量。

医学病例编码的复杂性可以近似地反映相应临床病例的复杂性。本文的应用不仅可以改善医疗编码服务的资源配置，而且可以推广到其他临床服务中。实际上，编码复杂程度也可以用于决策过程，以帮助在同一部门但隶属于部门内不同临床服务的专业人员之间仲裁资源分配。例如，在外科，可以应用类似的方法，根据治疗病例的数量和相对复杂性来帮助研究不同专科的资源需求。该通用应用程序可以集成到不同的数字医疗保健系统中进行自动任务分配，以避免不公平的工作量分配中的冲突。

技术的重要性

OOV是一个可能损害模型性能的问题。尽管本研究中使用的word2vec嵌入是在我们自己的临床数据上进行训练的，但OOV仍然存在，因为我们用来训练嵌入的语料库可能不足以涵盖医疗出院文件中使用的所有临床术语。为了减轻OOV的影响，我们测试了fastText子词方法。然而，正如模型分析部分所示，由于我们的数据集的OOV比率较低，模型性能并没有得到很大的提高，在本研究选择的2060个案例中，OOV比率仅为8%左右。我们对语料库中的OOV进行了详细的分析多媒体附录1。

由于每天都会产生新的临床文档，我们部署的模型也可能面临由OOV问题引起的性能受损。我们在本文中提出的减少影响的解决方案是监控新OOV相对于训练数据集的演变，并在需要时重新训练词嵌入。在再训练阶段，我们不仅会对词嵌入进行再训练，还会对具有编码器反馈的模型进行再训练，从特征工程和模型工程的角度进一步提高模型的性能。

在我们的研究中，我们以两种不同的方式使用福楼拜，这是一个预先训练好的法语转换器。使用它的第一种方法是生成词嵌入作为模型输入的文本特征。然后我们还测试了一个拥抱脸[26用福楼拜实现序列分类模型。该方法的详细描述见多媒体附录1。利用变压器的最佳性能直接实现了模型的宏化F₁-score为0.47，与其他只接收文本作为特征的模型相似。模型的性能并没有像预期的那样得到改善。原因可能是与变压器模型的大小相比，我们的数据集太小(只有2060个案例)。对此，我们将继续收集编码器对预测案例的反馈，并使用它们持续训练模型。通过这些方法，我们希望在未来提高变压器模型的性能。

我们发现使用TF-IDF向量作为文本特征比使用词嵌入作为文本特征提供更好的预测性能。fastText和福楼拜嵌入在非临床语料库上进行预训练;因此，该词的表征上下文可能偏离临床文本中使用的上下文。如元数据分析部分所示，每次停留的中位数文档长度为909个令牌。常见的基于预训练的转换器的模型最多可以处理512个令牌，并且应该选择文档的哪个子集传递给模型并不明显。虽然可以通过嵌入每个512个令牌块并平均它们的嵌入来克服这一限制，但我们认为需要对其他方法进行实质性改进以证明计算成本是合理的。此外，fastText和word嵌入都对每个文档的所有向量执行平均，这可能会在给定令牌数量的情况下过度稀释信号。相比之下，TF-IDF可以保留其中的一些信息，这可能是TF-IDF向量在我们的任务中优于词嵌入的原因。提高模型性能的未来方向可能是将TF-IDF向量与词嵌入结合起来作为文本特征。TF-IDF向量可以用作单词的重要性权重，而单词嵌入可以表示单词的上下文。 By combining the two, we could obtain vectors that represent both the importance and context of the words comprehensively. Another possible approach to improve the model performance is to build a rule-based model from coders’ experiences and then combine the rule-based model with the ML model, which can increase both the interpretability and flexibility of the prediction. As the complex cases are more likely to have multiple laboratory tests and clinical examinations, we could also include this structured clinical information for future feature engineering.

通过比较我们模型的预测和专家编码员的评级，我们发现该模型可以达到专家的性能水平(图9)。由于评估案例复杂性是相对主观的，即使是专业的编码人员也并不总是意见一致。这给我们的研究带来了另一个层次的复杂性。然而，通过从训练集中学习1998个案例，我们的模型的表现与专家的表现相当。

我们模型的优点之一是我们使用了多模式方法。结构化数据，如患者元数据，可以提供关于患者状态的定量信息。临床文本可以提供丰富的信息，诊断和其他评估的病人，这是通常不呈现在结构化数据。通过将两者结合起来，我们能够最大限度地获得评估临床病例复杂性所需的信息。我们的研究使用一个模型来处理不同模态的数据并进行预测。在未来的工作中，我们建议为每种数据模式使用专用模型，并使用另一个ML模型结合多个模型的预测来进行最终预测。使用多个模型的好处是:(1)很容易将新数据和新模型插入到体系结构中，这使得模型可以灵活地扩展，(2)更容易执行特征工程和解释模型的预测。

在我们的研究中，分类模型相对于回归模型的优势在于，分类模型使我们能够产生预测的信心。通过显示预测的复杂性水平和预测的置信度，我们能够为最终用户提供全面的信息。然而，我们的模型也有局限性。在本项目收集的2060例病例中，54.71%(1127/2060)被标记为复杂性-2，只有2.82%(58/2060)被标记为复杂性-4。不平衡的数据集影响分类模型的性能，这意味着模型对给定情况有更高的预测复杂度2的倾向。这个问题是通过对代表性不足的案例进行过采样和对代表性过高的案例进行过采样来解决的。结果表明，该模型采用过采样和欠采样技术(多媒体附录1)。

我们的模型将集成到我们目前的编码系统与主动学习模块。图11显示集成体系结构。该模型通过工作流管理器定期从临床数据仓库读取患者元数据和医疗档案。预测结果显示在编码软件的用户界面中。当编码人员发现预测偏离了感知到的复杂性时，他们可以将他们的修正放在反馈字段中。编码人员的反馈被存储并发送给模型进行再训练。这种集成体系结构允许我们跟踪并持续改进模型的性能。

未来的工作

未来的工作可以在不同的方面进行。为了提高模型预测性能，我们可以继续研究特征和模型工程。除了我们在本研究中使用的数据外，可能还有其他患者数据可以用于预测病例的复杂性。对于文本特征，我们可以尝试不同的NLP工具组合，以最大限度地从临床文本中提取信息。我们还将继续通过每6个月重新训练单词嵌入(word2vec和fastText)和TF-IDF向量来减少OOV的影响，并使用编码器反馈作为新的训练样本来重新训练模型。为了充分利用先进的变压器模型，我们不仅会继续使用新样本进行训练，还会探索将患者元数据纳入模型设计的方法。我们还将与编码人员一起建立一个健全的、可解释的基于规则的模型，然后将其与ML模型结合起来。混合模型在区分不同情况时既具有灵活性又具有良好的推理能力。

目前，大多数NLP应用程序都侧重于使用基于规则或ML模型的ai辅助编码。如前所述，构建医疗编码复杂性的规则是动态的，并且随着时间的推移而变化，这阻碍了工具的快速学习。与其将人工智能辅助工具仅用于编码，还可以将人工智能辅助的范围从案例预选扩展到编码后的质量检查。我们的方法提供了一种可能性，可以预先选择适合自动编码的用例和其他适合手动编码的用例。在对案例进行编码后，人工智能辅助工具可以提供对代码类别和组合的事后分析，旨在发现代码中可能存在的错误。这可以通过使用统计和NLP分析研究以前的编码案例来完成。

我们还打算持续评估应用程序对我们的医疗编码服务的影响。在集成之后，我们将监视编码员编写一个案例所花费的平均时间，以及编码员为每个案例所犯错误的平均数量。通过比较集成前后的时间和精度，我们可以定量地衡量该模型对编码员的日常工作带来了多大的改进。

除了监控编码质量外，我们还将继续跟踪编码员的用户体验。在主动学习模块的帮助下，我们能够收集编码员对模型预测的反馈。通过迭代，根据编码器的反馈对模型进行再训练，以提高预测性能。正如在临床重要性部分所讨论的，我们的应用程序不仅可以帮助当前编码员分配任务，还可以用于选择培训初级编码员的案例。初级程序员一开始会接到简单的案例，然后逐渐接到更复杂的案例。这种方法可以让初级编码员充分接触到与他们能力相关的各种案例，并唤起他们对医疗编码的兴趣。

致谢

作者感谢两位编码专家Mireille Nya Buvelot和Lionel Comment，以及编码部所有对复杂性注释做出贡献的编码人员。他们还感谢Mostafa Ajalloeian博士为这个项目提供的建议。

利益冲突

没有宣布。

‎

多媒体附录1

文本特征工程，不平衡数据处理，MLOps基础设施，模型比较表，OOV分析和变压器微调方法的插图。

DOCX文件，538 KB

什么是医疗编码?美国专业编码员学会。URL:https://www.aapc.com/medical-coding/medical-coding.aspx[2022-03-14]访问
Iglehart JK。医院预付费的新时代。新英格兰医学杂志1982年11月11日;307(20):1288-1292。［CrossRef]
起源，发展，和医疗保险的革命性前瞻性支付系统的通过。中华医学杂志;2007;32(1):21-55。［CrossRef] [Medline]
美国drg的起源:一个技术、政治和文化的故事。编辑:Jimberly J, de Pouvourville G, d'Aunno T。卫生保健管理创新的全球化。英国剑桥:剑桥大学出版社;2008:4-33。
国际疾病和有关健康问题统计分类第十次修订。世界卫生组织，2019。URL:https://icd.who.int/browse10/2019/en#/[2022-03-14]访问
罗杰·法国FH。25个国家的病例混合使用:移民成功但国际比较失败。国际医学杂志，2003;70(2):215-219。［CrossRef] [Medline]
布朗JH。高绩效工作策略:对工人阶级的赋权还是压制?[J]汽车经济研究，2005;3(7):1-4。［CrossRef]
Johnson AE, Pollard TJ, Shen L, Lehman LW, Feng M, Ghassemi M，等。MIMIC-III，一个免费访问的重症监护数据库。Sci Data 2016 5月24日;3:160035 [j]免费全文] [CrossRef] [Medline]
Baumel T, nassur - kassis J, Cohen R, Elhadad M, Elhadad N. ICD代码分配的多标签分类研究。参见:第32届AAAI人工智能会议研讨会论文集。2018提交于:AAAI '18;2018年2月2-7日;新奥尔良，洛杉矶，美国，第409-416页。［CrossRef]
陈健，滕峰，马忠，陈磊，黄磊，李霞。一种多通道卷积神经网络编码方法。参见:IEEE第十四届智能系统与知识工程国际会议论文集。2019提交于:ISKE '19;2019年11月14日至16日;中国大连1178-1184页。［CrossRef]
李敏，费忠，曾敏，吴飞飞，李勇，潘勇，等。通过深度学习方法自动编码ICD-9。计算生物学与生物信息学学报，2019;16(4):1193-1202。［CrossRef] [Medline]
阅读、参与和编码:推动机器从临床记录预测医疗代码的极限。在:医疗保健机器学习会议论文集。2021提交于:PMLR '21;2021年8月6日至7日;虚拟p. 196-208https://proceedings.mlr.press/v149/kim21a/kim21a.pdf
李军，尹伟，金山，金东，金山，苏昌，等。BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学2020 Feb 15;36(4):1234-1240 [j]免费全文] [CrossRef] [Medline]
Dalloux C, Claveau V, Cuggia M, bouzill G, Grabar N.基于监督学习的法语临床叙事ICD-10编码。在:2020医学信息学欧洲会议录。2020提交于:MIE '20;2020年4月28日至5月1日;日内瓦，瑞士，第1-5页https://hal.archives-ouvertes.fr/hal-03020990/
Azam SS, Raju M, Pagidimarri V, Kasivajjala VC。Cascadenet:基于LSTM的深度学习模型，用于ICD-10自动编码。2019年未来信息与通信会议论文集，发表于:FICC '19;2019年3月14日至15日;旧金山，加州，美国第55-74页。［CrossRef]
NLP/Forschung:特征、效果和可租用性的grence技术智能。ID Suisse AG2021.URL:https://www.id-suisse-ag.ch/fr/produits/nlp-forschung/[2022-03-14]访问
医疗编码软件。集体思维。URL:https://www.collective-thinking.com/en/medical-coding-software/[2022-03-14]访问
设备编码:用于计算机辅助编码的3M™360 Encompass™系统。3M健康信息系统。URL:https://www.3m.com/3M/en_US/health-information-systems-us/improve-revenue-cycle/coding/facility/360-encompass-computer-assisted-coding/[2022-03-14]访问
Sumex Suite: Sumex Suite是根据瑞士保险公司的需求量身定制的成熟发票验证解决方案。ELCA。URL:https://www.elca.ch/en/sumex-suite[2022-03-14]访问
刘勇，程辉，Klopfer R, Gormley MR, Schaaf T.基于卷积注意网络的临床文献分类。参见:2021年自然语言处理经验方法会议论文集。2021年提交于:EMNLP '21;2021年11月7日至11日;蓬塔卡纳，多米尼加共和国，第5941-5953页。［CrossRef]
赵媛，田传奇，胡松芳。代码同义词很重要:基于多同义词匹配网络的ICD自动编码。见:计算语言学协会第60届年会论文集(第二卷:短篇论文)。2022年举办:ACL '22;2022年5月22日至27日;都柏林，爱尔兰，第808-814页。［CrossRef]
陈凯，陈建军，陈建军。基于向量空间的词表示的高效估计。2013年1月16日。［CrossRef]
陈凯，陈建军，陈建军。基于分布式表征的词和短语组合。第26届神经信息处理系统国际会议论文集。2013年发表于:NIPS '13;2013年12月5日至10日;太浩湖，美国内华达州，第3111-3119页。
李海燕，李晓明，李晓明，等。福楼拜:法语的无监督语言模型预训练。参见:第十二届语言资源与评价会议论文集。2020，发表于:LREC '20;2020年5月11-16日;法国马赛，第2479-2490页。［CrossRef]
Joulin A, Grave E, Bojanowski P, Mikolov T.高效文本分类的技巧包。2016年7月6日［CrossRef]
李建军，李建军，李建军，等。变形金刚:最先进的自然语言处理。参见:2020年自然语言处理经验方法会议论文集:系统演示。2020年发表于:EMNLP '20;2020年11月16日至20日;虚拟第38-45页。［CrossRef]
Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP。SMOTE:合成少数派过采样技术。[J]人工智能研究，2002;01;16:31 -357。［CrossRef]

‎

人工智能:人工智能

福楼拜:通过《变形金刚》的双向编码器表示来理解法语

诊断结果:国际疾病和有关健康问题统计分类第十次修订版

ML:机器学习

NLP:自然语言处理

OOV:没有词汇

TF-IDF:术语频率-逆文档频率

郝编辑;提交21.03.22;S Puts, D Yu, K Rahmani的同行评审;对作者的评论19.06.22;修订版本收到12.08.22;接受04.12.22;发表19.01.23

©He Ayu Xu, Bernard Maccari, herv Guillain, Julien Herzen, Fabio Agri, Jean Louis Raisaro。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com)， 2023年1月19日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到https://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

基于端到端自然语言处理的医学病例编码复杂度预测:算法开发与验证