这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2Ba
对于远程医疗资源有限的医疗服务提供者来说,文本远程医疗查询的分类是一项安全关键任务。有必要对包含医学上严重的文本的患者查询进行优先排序,以优化资源使用并为有时间敏感需求的人提供护理。gydF4y2Ba
我们的目标是评估迁移学习解决方案在远程医疗分类任务中的有效性,并提供彻底的错误分析,识别挑战最先进的自然语言处理(NLP)系统的远程医疗查询。此外,我们的目标是提供一个公开可用的远程医疗查询数据集,用于呼吸问题的远程医疗分诊的严重程度分类标签。gydF4y2Ba
我们对来自HealthTap、HealthcareMagic和iCliniq三个在线健康平台的573条医疗查询进行了注释。然后,我们利用不同的文本嵌入策略评估了6种迁移学习解决方案。具体来说,我们首先使用具有术语频率-逆文档频率(TF-IDF)特征的词法分类模型建立基线。接下来,我们研究了全局向量文本表示(GloVe)的有效性,这是一种预训练的词嵌入方法。我们在支持向量机(svm)、双向长短期记忆(bi-LSTM)网络和分层注意网络(HANs)的背景下评估了GloVe嵌入的性能。最后,我们使用基于转换器的架构评估了上下文文本嵌入的性能。具体来说,我们评估了变压器(BERT)、生物+临床-BERT和句子-BERT (SBERT)在远程医疗分诊任务中的双向编码器表示。gydF4y2Ba
我们发现一个简单的词汇模型在远程医疗分诊任务上的平均F1得分为0.865 (SD 0.048)。使用支持向量机、HANs和bi- lstm的基于手套的模型分别使F1得分提高了0.8、1.5和2.1分。BERT、Bio+Clinical-BERT和SBERT等基于变压器的模型的F1平均得分分别为0.914 (SD 0.034)、0.904 (SD 0.041)和0.917 (SD 0.037)。与所有基于手套的基线和词法基线相比,性能最高的模型SBERT提供了统计上显著的改进。然而,当比较基于变压器的模型时,没有发现统计学意义。此外,我们的错误分析揭示了极具挑战性的查询类型,包括那些具有复杂否定、时间关系和患者意图的查询类型。gydF4y2Ba
我们表明,最先进的迁移学习技术在远程医疗分类任务上工作得很好,比词汇模型提供了显着的性能提高。此外,我们发布了一个公共远程医疗分类数据集,使用来自在线医疗问答(Q&A)平台的标记问题。我们的分析强调了明确建模此类查询挑战的未来工作的各种途径。gydF4y2Ba
COVID-19大流行导致对远程医疗服务的需求增加[gydF4y2Ba
这种情况需要一个系统来优先处理需要立即处理的查询。为了解决这个问题,我们检查了3个远程医疗平台的数据:HealthTap、iCliniq和HealthcareMagic。这些平台便于有执照的医生远程回答书面医疗问题。我们的目标是通过按严重程度对患者查询进行排序来优化医护人员花费的时间,以便首先回答可能严重的查询。在这项研究中,当患者至少有1个活跃的COVID-19或肺炎相关症状时,一个查询被认为是严重的。然而,非严重问题来自没有活跃症状的患者,他们提交了一般信息请求、无意义的文本或极其模糊的问题。远程医疗分类通过优先处理严重问题,鼓励向最迫切需要的人提供远程医疗服务,节省了远程医疗平台可用的有限的专业医疗服务提供者资源。gydF4y2Ba
在这项工作中,我们通过在线医疗问答(Q&A)论坛的镜头检查了远程医疗分类。具体地说,我们将分类制定为一个二进制文本分类问题,我们的目标是对医疗查询进行分类[gydF4y2Ba
我们的贡献如下:gydF4y2Ba
我们在远程医疗分类任务上建立了6个相关的自然语言处理(NLP)模型的基线结果,确定了根据严重程度排序查询的最佳预训练策略。我们确定了最适合分类的上下文嵌入模型,所有基于转换器的方法都比基于词汇和词嵌入的方法取得了统计上显著的改进。我们发现用临床文本预训练变压器模型没有任何好处。gydF4y2Ba
我们对SBERT进行了彻底的错误分析,并确定了几种对NLP系统构成困难的医学查询类型,其中核心挑战被确定为复杂症状表现的建模。gydF4y2Ba
据我们所知,我们已经使用来自在线远程医疗服务的真实样本提供了第一个公开可用的远程医疗分类数据集。本研究的所有代码及数据均已公开[gydF4y2Ba
对数据隐私和患者匿名的需求使得大规模收集和标记医疗保健文本极其困难。这促使在医学NLP中使用迁移学习来缓解资源受限建模的挑战。近年来,迁移学习从利用大量未标记文本来训练基于转换器的模型中获益良多[gydF4y2Ba
变压器的双向编码器表示(BERT) [gydF4y2Ba
COVID-19大流行使美国的医疗保健系统不堪重负,导致对远程医疗分诊问题的机器学习解决方案的需求。例如,Lai等[gydF4y2Ba
医院急诊科也同样人满为患[gydF4y2Ba
与前面提到的工作不同,我们仅仅通过文本查询来看待分诊,特别是那些由患者提交到远程医疗平台的查询。随着对文本医疗支持的需求不断增长,无论是通过公共医疗问答平台,如HealthTap,还是私人医患信息应用程序,我们预计对NLP解决方案的需求将不断增长,以解决自由文本患者查询的分诊问题。gydF4y2Ba
Si等人对远程医疗平台信息进行了类似的分类工作[gydF4y2Ba
此外,类似的工作也存在于从文本识别医疗风险的领域。例如,Fu等[gydF4y2Ba
这项工作的相似之处在于,我们探索了基于bert的医疗风险识别解决方案。然而,与社交媒体数据不同,提交给远程医疗平台的医疗查询通常包含复杂的临床术语。此外,医生与患者互动的远程医疗服务包含较少的限制性字符限制,需要对远程文本依赖关系进行建模。最后,基于社交媒体的研究拥有大规模数据挖掘的优势。在这项研究中,我们在一个资源极度受限的数据设置中操作,这对我们建模和理解医疗查询文本的能力提出了挑战。gydF4y2Ba
在本研究中,我们利用了公开可用的COVID-Dialogue数据集[gydF4y2Ba
COVID-19对话数据集中的每个样本都包含关于COVID-19或相关肺炎症状的查询。每个样本不包括患者人口统计数据或病史;因此,仅使用单个自由文本查询就可以检测严重性。gydF4y2Ba
来自带有我们引入的严重性标签的covid - 19对话数据集的样本。非严重样本通常是不相关的查询或来自很少或没有症状的患者。严重的样本中总是含有可能需要就医的活跃症状患者。gydF4y2Ba
病人查询gydF4y2Ba | 基础真值标签gydF4y2Ba |
“我应该刮胡子以减少感染冠状病毒/covid-19的机会吗?”gydF4y2Ba | 不严重的gydF4y2Ba |
“我的女儿今年11岁,她患有肺炎,自1月3日以来,她一直在生病,症状不断变化。她在晚上痒的所有她的上半身,头部和耳朵。她有严重的头痛和腹痛。”gydF4y2Ba | 严重的gydF4y2Ba |
鉴于数据是公开的,本研究不需要机构审查委员会的批准。gydF4y2Ba
用于开发和评估解决方案的数据集是匿名的,不会透露医生和患者的身份。此数据集没有可用的人口统计信息。gydF4y2Ba
我们就这种远程医疗分诊系统的现实意义咨询了3位专业医疗服务提供者。我们咨询了Timothy E. Burdick, Stephen K. Liu, and jiauo H. Feng博士。他们都在当地一家教学医院担任初级保健提供者。关于未来远程医疗分诊系统的伦理使用,一个有趣的问题是,是否在未来的医疗分诊系统中包括人口统计、社会经济、生理或其他电子病历信息,如果这些信息是可用的。虽然人口统计或过去的病史(例如,患者的年龄,先前存在的疾病)可能与确定患者查询的实际严重程度相关,但此类信息也可能引入偏见。远程医疗分诊的相关工作,如Si等[gydF4y2Ba
接下来,我们将介绍收集covid - 19 -对话会数据集时使用的来源[gydF4y2Ba
HealthTap成立于2010年,是一个远程医疗平台,可将患者与美国持牌医疗专业人员远程连接,提供各种服务,包括虚拟咨询和医患问答。根据Dahl [gydF4y2Ba
iCliniq是一家虚拟医院,为全球患者提供视频、语音和文字聊天医疗服务。iCliniq与全球3500多名执业医生合作,涵盖80多个医学专业。iCliniq的样本来自其医学问答论坛。gydF4y2Ba
与Healthtap和iCliniq不同,HealthcareMagic是一个严格意义上的在线医疗问答论坛。来自78个医学专业的18,000多名医生在HealthcareMagic上回答了170万个问题。gydF4y2Ba
我们数据集中的每个样本都由3位作者标注为严重或非严重。在其他研究中,使用作者作为小规模医疗网络信息的注释者已经取得了成功[gydF4y2Ba
我们还注意到,在某些样本中,基于查询和医疗专业人员的响应而感知到的严重程度可能与患者病情的实际严重程度不同。然而,由于我们没有从实际用户那里得到任何基本的事实,所以这种情况无法解决。这促使我们利用我们与当地医院医生的合作,在未来的工作一节中报道,在这个方向上继续开展未来的工作。此外,我们对我们提出的解决方案的性能进行了彻底的错误分析,并说明了它在这个带注释的数据集方面的优势和局限性。每个样本的最终注释是来自3个注释者的多数投票标签。所有样本的注释者一致性为82%。接下来,我们详细介绍非严重和严重样本的注释模式。gydF4y2Ba
背后的指导原则gydF4y2Ba
我在哪里可以获得新冠病毒检测?gydF4y2Ba
此查询并不表示有立即的危险、需要诊断或需要医疗响应。这个查询也可以通过谷歌搜索提供,因此不需要来自医疗专业人员的反馈。gydF4y2Ba
如果我感染了病毒,我必须住院吗?我有1型糖尿病。gydF4y2Ba
虽然这个问题在医学上是有效的,应该得到回应,但由于患者没有活跃的症状,因此不认为需要立即得到回应。gydF4y2Ba
一个gydF4y2Ba
我儿子不舒服。他流鼻涕,喉咙痛,偶尔咳嗽,胃不舒服。他昨晚头痛。没有发烧。是普通感冒还是必须检查一下是否感染了新冠病毒?没有旅行过或者和任何人有过接触吗?gydF4y2Ba
此查询描述了与COVID-19相符的症状,并证明有足够的必要进行医疗咨询。gydF4y2Ba
左侧耳前淋巴结很压痛,头部左侧头皮压痛摸,左侧腮腺浅表淋巴结肿大压痛。两耳都痛。没有受伤。突然来了,已经1天了。临时100.1°。gydF4y2Ba
此查询包含对患者的明确、直接的危险,需要医疗响应。gydF4y2Ba
BERT是一种最先进的基于转换器的模型,它利用未标记的文本来生成上下文化的语言表示[gydF4y2Ba
Bio+ clinicalbert架构与BERT相同,但对医学文本进行了权重预训练。具体来说,这个预训练过程首先采用BioBERT模型[gydF4y2Ba
我们也探讨了SBERT [gydF4y2Ba
为了使用SBERT进行文本分类,我们首先对SBERT模型进行微调,以最小化以下三元组损失函数:gydF4y2Ba
其中,A为锚点样本,P为正样本(与A相同类别),N为负样本(与A相反类别),d为余弦相似距离函数。这个目标可以解释为学习在嵌入空间中将来自同一类的查询嵌入推得更近,同时将来自相反类的样本推得更远。边界参数α影响嵌入空间中正负对之间的距离。为了生成训练三人组,一个给定的样本与来自相同和相反类别的样本随机配对。每个样本重复此过程10次,生成4580个训练三胞胎。gydF4y2Ba
使用来自微调SBERT模型的嵌入,然后我们使用Scikit-Learn包训练了一个k最近邻(KNN)分类器[gydF4y2Ba
对于TF-IDF+SVM,我们将TF-IDF [gydF4y2Ba
对于GloVE+SVM,我们得到预训练好的GloVE [gydF4y2Ba
在GloVe嵌入上训练两层双向长短期记忆(bi-LSTM)模型进行分类。bi-LSTM模型检验了上下文序列建模在预训练词嵌入上的有效性。Bi-LSTM模型已被证明在各种临床文本预测任务中是有效的[gydF4y2Ba
层次注意网络[gydF4y2Ba
对于每个实验,我们报告了5倍交叉验证的加权平均F1、精度和召回分数。此外,我们报告了报告平均值的95% CI。最后,我们使用McNemar检验进行了统计显著性检验[gydF4y2Ba
在本节中,我们展示了跨各种NLP基线的远程医疗分类任务的结果。我们的目标是回答以下研究问题(RQs):gydF4y2Ba
与其他文本分类模型相比,用于远程医疗分诊的迁移学习模型对covid -19相关查询的效果如何?gydF4y2Ba
哪些类型的健康查询挑战最先进的NLP系统?gydF4y2Ba
我们的研究结果表明,远程医疗分诊从迁移学习中受益匪浅,因为我们的性能最低的模型TF-IDF+SVM没有使用迁移学习。TF-IDF特征达到合理的平均F1评分0.865 (SD 0.048)。然而,我们发现,通过应用基于手套的模型,如GloVe+SVM、HAN和bi-LSTM模型,F1得分分别提高了0.8、1.5和2.1分。通常,轻量级建模选项,如TF-IDF和GloVe,报告合理的F1分数,因此在计算资源有限的情况下是可行的解决方案。gydF4y2Ba
我们发现基于变压器的模型是迁移学习的优越方法,BERT、Bio+Clinical BERT和SBERT的平均F1得分分别为0.914 (SD 0.034)、0.904 (SD 0.041)和0.917 (SD 0.037)。gydF4y2Ba
我们的结果表明,平均而言,SBERT是查询严重性的最佳预测器,与其他方法相比,它产生了最高的平均F1、精度和召回分数。更高的召回率在分诊领域尤为重要,因为在这样一个安全关键的任务中,减少假阴性更为重要。gydF4y2Ba
使用McNemar检验统计显著性,我们发现SBERT的表现明显优于TF-IDF+SVM (gydF4y2Ba
尽管基于变压器的模型的性能很高(所有F1分数>0.9),但重要的是要注意,远程医疗分诊的一般问题远未解决。这项研究通过COVID-19和肺炎相关查询的狭窄镜头研究了分诊;涉及非呼吸系统并发症的疾病将无法被该系统识别。gydF4y2Ba
显示所有模型的分类性能的结果。每个指标是5倍交叉验证的平均结果,周围是使用每个验证折叠的指标得分计算的95% CI。gydF4y2Ba
模型gydF4y2Ba | F1得分,均值(SD)gydF4y2Ba | 精度,平均值(SD)gydF4y2Ba | 召回率均值(SD)gydF4y2Ba |
TF-IDFgydF4y2Ba一个gydF4y2Ba+支持向量机gydF4y2BabgydF4y2Ba | 0.865 (0.048)gydF4y2Ba | 0.871 (0.043)gydF4y2Ba | 0.865 (0.048)gydF4y2Ba |
手套gydF4y2BacgydF4y2Ba+支持向量机gydF4y2Ba | 0.873 (0.036)gydF4y2Ba | 0.878 (0.030)gydF4y2Ba | 0.874 (0.035)gydF4y2Ba |
Bi-LSTMgydF4y2BadgydF4y2Ba | 0.886 (0.051)gydF4y2Ba | 0.880 (0.049)gydF4y2Ba | 0.879 (0.052)gydF4y2Ba |
汉gydF4y2BaegydF4y2Ba | 0.880 (0.035)gydF4y2Ba | 0.890 (0.031)gydF4y2Ba | 0.880 (0.033)gydF4y2Ba |
伯特gydF4y2BafgydF4y2Ba | 0.914 (0.034)gydF4y2Ba | 0.917 (0.033)gydF4y2Ba | 0.914 (0.034)gydF4y2Ba |
生物+ Clinical-BERTgydF4y2Ba | 0.904 (0.041)gydF4y2Ba | 0.905 (0.040)gydF4y2Ba | 0.904 (0.041)gydF4y2Ba |
SBERTgydF4y2BaggydF4y2Ba | 0.917 (0.037)gydF4y2Ba | 0.920 (0.034)gydF4y2Ba | 0.918 (0.036)gydF4y2Ba |
一个gydF4y2BaTF-IDF:词频率-逆文档频率。gydF4y2Ba
bgydF4y2BaSVM:支持向量机。gydF4y2Ba
cgydF4y2BaGloVe:用于文本表示的全局向量。gydF4y2Ba
dgydF4y2BaBi-LSTM:双向长短期记忆。gydF4y2Ba
egydF4y2Ba层次注意网络。gydF4y2Ba
fgydF4y2BaBERT:来自变压器的双向编码器表示。gydF4y2Ba
ggydF4y2Ba来自变压器的句子双向编码器表示。gydF4y2Ba
在上一节中,我们确定了基于转换器的模型是最有效的分类预训练形式。为了识别难以分类的远程医疗查询,我们研究了SBERT,因为该体系结构为整个查询输出单个嵌入,这对可解释性很有用。gydF4y2Ba
我们首先使用t分布随机邻居嵌入(t-SNE)可视化每个测试样本的SBERT嵌入[gydF4y2Ba
我们感兴趣的是分析不属于正确集群的患者查询。gydF4y2Ba
假阳性的一个共同主题是gydF4y2Ba
症状否定:样本1和4强调了否定的症状如何混淆远程医疗分诊症状。例如,在分析样本1时,分诊系统必须明白,提到干咳、发烧和喉咙痛是为了强调它们的不存在,而不是表明它们的严重程度。gydF4y2Ba
症状时间性:样本4、5和11都在复杂的时间关系中提到了症状。自动分类系统必须能够识别并非所有提到的症状都是活跃的,同时突出显示与给定查询相关的症状。gydF4y2Ba
模棱两可的问题:示例2、3和5突出了我们称之为“模棱两可的问题”的一个棘手子集,其中可能出现症状,但查询的目的不清楚,或者提出的问题难以回答。这些样本被注释者标记为不严重。gydF4y2Ba
常规查询:示例6、7、9和10包含在常规、非严重查询的上下文中提到的症状。例如,来自肺炎患者的查询7的目的是获取有关肺炎如何在肺部表现的更多信息。注释者认为这并不严重,因为一般信息请求不应排在更相关、具体、严重的医疗需求之上。gydF4y2Ba
自答问题:样本8和11包含对所询问问题的有效解释或解决方案。例如,样本11中的患者有持续的干咳和喉咙痛。然而,他们已经采取了所有必要的COVID-19预防措施(COVID-19检测,自我隔离)。这些样本被标记为不严重,可能对未来的远程医疗分诊系统具有挑战性。gydF4y2Ba
的定性分析gydF4y2Ba
稀疏症状表示:样本1包含患者症状提及(呜呼、HIV、贫血),这些在训练数据中几乎没有表示。由于类似的数据集扩大了它们能够分类的疾病数量,学习大型症状集的良好表示可能具有挑战性。gydF4y2Ba
隐性症状提到:样本2表示,他们除了发烧外,其他症状都有。读者理解这意味着病人可能会咳嗽,失去味觉/嗅觉等。SBERT无法做出这种推断,这使得这种类型的样本具有挑战性。gydF4y2Ba
综上所述,SBERT的误差集中在具有复杂症状表现的样本上。未来在远程医疗分类方面的工作可能会侧重于对所呈现症状的明确建模,如时间性、否定性、意图和其他语言现象。gydF4y2Ba
使用t-SNE投影到二维的SBERT嵌入。左图描述了在基于三重态损失的微调之前测试样本在嵌入空间中的分布情况。右图显示了SBERT如何学习在嵌入空间中分离查询嵌入。注:comp-1和comp-2轴表示t-SNE将768D嵌件投射到的两个维度的名称,其中“comp”是“组件”的缩写。来自变压器的句子双向编码器表示;t-SNE: t分布随机邻居嵌入。gydF4y2Ba
对测试集t-SNEs上K-means聚类的输出进行可视化。注:comp-1和comp-2轴表示t-SNE将768D嵌件投射到的两个维度的名称,其中“comp”是“组件”的缩写。t-SNE: t分布随机邻居嵌入。gydF4y2Ba
“我与刚从澳大利亚飞回来的人有过密切接触,自从他降落后我就一直在自我隔离,我没有出现任何症状(干咳、发烧、喉咙痛)吗?下一步是什么?”我要去工作吗?”gydF4y2Ba
“我最近被诊断出患有流感(鼻拭子测试完成)。我今年34岁,曾经吸烟(到现在已经完全戒烟7年了),但是我每年至少得一次“行走性肺炎”。我几乎可以肯定我现在又得了。我能做些什么来防止得肺炎??”gydF4y2Ba
“嗨!我是一名20岁的女性。我大约一年前开始健身。在参加腹部锻炼后,我注意到下腹部疼痛。但我也注意到,在我月经的时候。它就在我左侧髋骨旁边/下面。”gydF4y2Ba
“我最近不是得了流感就是得了肺炎。我发现我的粪便越来越黄或越来越白。我30天前戒了烟,一直在吃尼古丁口香糖,现在又吃含片。我不觉得难受,但这很不寻常。尼古丁产品会不会是导致变色的原因呢?谢谢你。”gydF4y2Ba
“去年在流感季节,我咳嗽得很厉害,呼吸困难,x光片显示我的胸/肺里有液体。对如何应对covid - 19有什么建议吗?”gydF4y2Ba
“嗨。在病毒肆虐的这段时间,鼻窦炎和头痛可以吃什么药?谢谢你。”gydF4y2Ba
“我最近被诊断出患有肺炎。我小时候得过肺炎,但从那以后就再没得过。当我听到诊断结果时,我很震惊。症状在3月28日开始显现。我从4月3日星期一开始服用一水多西环素,并且必须服用7天。我非常健康,多年没有生病。我甚至不记得上次生病是什么时候。这真的把我弄晕了。我一点精力都没有,胃口也很差。肺炎是如何在肺部表现出来的?细菌是如何进入肺部的? How long will it be until I recover? I am really having a hard time with this. Help!”
“你好,我的鼻窦通常在季节变化时发作(就像现在)。我担心的是我的症状与covid-19相似。嗓子有点疼,最近一直流鼻涕。我不是一个人住,想知道怎样才能让自己接受检查,谢谢?”gydF4y2Ba
“喉咙有点痛,想要得到一种好的免疫增强剂,特别是考虑到病毒。请建议。没有接触过任何感染病毒的人。”gydF4y2Ba
“你好,我是一名学生,正在处理一项微生物学作业。给我一个病人样本。米y paitent is 4 years old -diagnosis Pneumonia - summary of peresent illness =Recurrant colds, ear infections,and bronchitis.She has been sick for past 3 weeks. Developed a fever yesterday.Also nausia and vomiting,muscle aches. Past Medical history= Cystic Fibrosis diagnosed at age 3. I did all the lab work and found out that the bacteria causes the disease is Psudomonas aeruginosa. What is the appropriate treatment? Please help.”
“嗨。这次COVID-19的爆发令人恐惧。我这周做了检查,结果是阴性的。但在筛查之前,我连续干咳了一个星期,喉咙也很痛。我把自己隔离了下一个什么?我还需要再做一次筛查吗?”gydF4y2Ba
“我的医生上周在CNBC做了例行节目。他的护士打来电话,我的血液显示出贫血的迹象。好了,今天他的护士打来电话,他们深入检查了血液,结果显示:是慢性肺炎吗?好吧,我没有艾滋病。我的问题是她说无药可救。我妈妈死于她的长首字母缩略词Boop的慢性感染。我联系了cdc。gov,他们让我联系了罕见病中心。妈妈无药可救。问题:他们告诉我Boop不是基因转移的。我妈妈的肺病就是这样开始的。 is thimy lung disease genetic? Is it curable? Help please.”
“早上好,我有冠状病毒的所有症状,除了高智商。我接触过一个人(他现在也出现了这些症状),他和一个在过去几周访问过印度的人住在一起。我应该担心吗?”gydF4y2Ba
在本研究中,我们提供了具有远程医疗查询严重性标签的COVID-Dialogue数据集的新扩展。此外,我们深入研究了几种迁移学习方法在资源受限环境下预测严重性的能力。我们得出结论,基于变压器的模型能够高效地进行分类(所有F1分数>0.9)。此外,我们还对SBERT进行了全面的错误分析,强调了需要深入理解症状表现的具有挑战性的样本。我们的错误分析强调了未来工作中显式建模各种患者查询类型的各种途径。gydF4y2Ba
这是一个新的研究领域,需要更多的调查来定义实际部署的需求。应该指出的是,这种系统不应该用于诊断。这种解决办法可以受益于在线学习方法,特别是在大流行的背景下(例如,时间和空间因素对于发现新感染变种的爆发很重要)。gydF4y2Ba
深度神经网络(dnn)的一个经常被讨论的限制是它们缺乏一种自然的方式来解释它们所做的预测[gydF4y2Ba
词汇模型(如TF-IDF)与线性分类器相结合,可以直接访问模型对某些词汇术语的使用情况。gydF4y2Ba
鉴于我们基于bert的模型只提供了高达5分的F1分数提高,我们比较了SBERT和TF-IDF+SVM的测试集误差,以突出特定的样本类型,这些样本类型需要变压器架构的复杂性和知识可转移性才能进行准确的预测(gydF4y2Ba
在所有测试集(即5重交叉验证中每重测试集)中,我们发现使用TF-IDF的词法模型犯了77个错误,而使用SBERT的词法模型犯了47个错误。此外,81%的SBERT错误也是TF-IDF造成的。在39个被SBERT正确预测但被TF-IDF错误预测的样本中,我们突出显示了7个查询gydF4y2Ba
一般查询:这些样本要么询问一般医学知识,要么要求无症状患者提供有关COVID-19检测的信息。示例1和示例2突出显示了每种通用查询类型的示例。这些样本对TF-IDF来说是一个挑战,因为如果没有上下文建模,词法模型可能很难理解查询意图,因为我们的TF-IDF模型只考虑单图特征。在我们的39个样本评估集中,TF-IDF做出的22个预测是假阳性,其中59%是在一般查询样本上。gydF4y2Ba
模棱两可的问题:这些示例查询没有包含足够的信息来进行有效的响应,或者没有提出可以从远程医生那里受益的问题。样本3和4是模棱两可问题的例子。我们发现SBERT正确预测的TF-IDF错误中有15%是对模棱两可问题的预测。gydF4y2Ba
许多假阴性对TF-IDF的失败没有明显的基于内容的理由。换句话说,TF-IDF的问题与假阴性在gydF4y2Ba
被TF-IDF错误预测的样本子集gydF4y2Ba一个gydF4y2Ba+支持向量机gydF4y2BabgydF4y2Ba但SBERT预测正确gydF4y2BacgydF4y2Ba。gydF4y2Ba
样本数量gydF4y2Ba | 病人查询gydF4y2Ba | 基础真值标签gydF4y2Ba |
1gydF4y2Ba | “关于布洛芬和covid - 19,我应该停止服用吗?这让我变得偏执。媒体一直在谈论这件事。我每天都用它来治颈痛和背痛。我不能吃止痛药,因为它们会让我恶心。有什么见解吗?”gydF4y2Ba | 0gydF4y2Ba |
2gydF4y2Ba | “你好,我周一早上从荷兰来的。没有症状但一直在我的助手身边我们应该去检查一下吗?”gydF4y2Ba | 0gydF4y2Ba |
3.gydF4y2Ba | “我发现很难在杂货店保持6英尺的精确度。今天,当我离开的时候,一个人(可能)在3英尺远的地方进入商店,他轻轻地咳嗽,我回家后洗了个澡。我是疑病症患者。可能covid-19 ?”gydF4y2Ba | 0gydF4y2Ba |
4gydF4y2Ba | “你好,我叔叔被诊断出患有肝癌,已经是晚期了。在第一次化疗后,他因肺炎住进了医院。他又被诊断出肺癌了吗?治愈的机会有多大?你想让我们做什么治疗?”gydF4y2Ba | 0gydF4y2Ba |
5gydF4y2Ba | “我相信我可能有新冠肺炎的症状。有可能在家里做测试来确认吗?现在我嗓子疼,昨晚19点半左右开始的。”gydF4y2Ba | 1gydF4y2Ba |
6gydF4y2Ba | “嗨,我丈夫从今天早上开始就一直在呕吐,有严重的眩晕和失衡。我怀疑是食物中毒,但我想确认一下。我给他吃了治恶心的药,很有效。我还需要带他去看医生,看看有没有别的问题吗?”gydF4y2Ba | 1gydF4y2Ba |
7gydF4y2Ba | “我住在法国。一个nd now 7days for home quarantine.i have no fever.but I have parangities in my thoart. last few years it's comes and goes. now I am worried because of covid-19. Does only parangities is only symptoms of this???” | 1gydF4y2Ba |
一个gydF4y2BaTF-IDF:词频率-逆文档频率。gydF4y2Ba
bgydF4y2BaSVM:支持向量机。gydF4y2Ba
cgydF4y2Ba来自变压器的句子双向编码器表示。gydF4y2Ba
不幸的是,我们只能通过患有COVID-19或相关肺炎症状的患者来看待远程医疗分诊。现实世界的系统需要理解各种各样的疾病和症状,以处理医生收到的各种各样的问题。例如,HealthTap提供超过147个专业的医疗建议,需要一个对不同医疗条件有更深入了解的系统。在未来,我们计划扩展我们的系统,以便它可以对跨越更多样化的医疗条件的患者查询进行分类。gydF4y2Ba
与任何其他自动推荐系统一样,这种自动分类系统的性能可能会受到用户查询质量的影响。例如,自动分诊系统可以对缺少信息的查询(例如,患者忘记提及相关症状或没有分享足够的细节)或写得不好的查询分配较低的严重性。这类似于Google搜索,其中搜索结果的质量取决于用户查询,用户满意度与查询的质量相关。像其他推荐系统(如Google Search或Amazon推荐)所显示的那样,这种自动分类仍然是有用的,并且在规模上显著改善纵向用户交互。另一个限制是二元分类系统,因为它忽略了潜在感知严重性的范围。未来的工作可以开发一个基于分数的系统,在连续的尺度上对严重程度进行评分。需要与多学科研究团队进行进一步的研究,以确定此类自动化解决方案的影响,并确定解决此类限制的潜在技术。gydF4y2Ba
在未来的工作中,我们将把这个系统从在线医疗问答论坛扩展到医患信息应用程序。我们正在积极与当地一家教学医院就医生被文本医疗查询淹没的问题进行对话。因此,本文中探索的NLP模型可能在未来的医患消息数据建模工作中被证明是有用的,包括诸如医院内部私人消息系统中患者查询重要性的相对排名等任务。然而,在医院信息系统环境中,分诊问题变得更具挑战性,因为患者自然会认为他们的医生熟悉他们的病史,在文本查询中提供狭隘和不完整的信息。为了处理这个问题,未来的系统必须能够使用多种模式(例如,电子病历、医学图像)以及过去的对话进行推断,这可能需要深度学习架构的转变,因为基于bert的模型仅限于处理512个令牌。gydF4y2Ba
远程医疗分诊是远程医疗领域的一项重要任务。根据严重程度对医疗问题进行排序,既优化了医生的时间,也允许对更多时间敏感问题的患者进行护理。我们表明,即使在数据量有限的情况下,迁移学习也可以用于对COVID-19和肺炎患者进行高精度的分类。具体来说,我们发现基于变压器的解决方案与基于词法和GloVe嵌入的解决方案在性能上存在统计学上的显著差异。我们还将所有模型错误分类为许多可解释的类别,突出了挑战我们基于nlp的分类系统的样本类型。具有复杂否定、时间性和歧义(以及其他语言现象)的查询显示在SBERT的错误中高度存在,为未来的远程医疗分类工作提供了具体的方向。gydF4y2Ba
人工智能gydF4y2Ba
来自变压器的双向编码器表示gydF4y2Ba
双向长短期记忆gydF4y2Ba
深度神经网络gydF4y2Ba
急诊科gydF4y2Ba
电子健康记录gydF4y2Ba
用于文本表示的全局向量gydF4y2Ba
分层注意网络gydF4y2Ba
再gydF4y2Ba
长短期记忆gydF4y2Ba
自然语言处理gydF4y2Ba
问答gydF4y2Ba
研究问题gydF4y2Ba
句子双向编码器表示来自变压器gydF4y2Ba
支持向量机gydF4y2Ba
术语频率-逆文档频率gydF4y2Ba
t分布随机邻居嵌入gydF4y2Ba
这项研究的数据和代码可以在GitHub上找到。gydF4y2Ba
没有宣布。gydF4y2Ba