医学互联网研究杂志-识别在线健康社区患者决策过程中的影响:数据科学方法gydF4y2B一个

原始论文gydF4y2B一个

明大李gydF4y2B一个^{1gydF4y2B一个}博士gydF4y2B一个；gydF4y2B一个
金施gydF4y2B一个^{1gydF4y2B一个}博士gydF4y2B一个；gydF4y2B一个
易陈gydF4y2B一个^{2gydF4y2B一个}博士gydF4y2B一个

^{1gydF4y2B一个}美国新泽西州纽瓦克，新泽西理工学院，吴英计算学院gydF4y2B一个

^{2gydF4y2B一个}美国新泽西州纽瓦克，新泽西理工学院马丁塔奇曼管理学院gydF4y2B一个

通讯作者:gydF4y2B一个

陈毅博士gydF4y2B一个

马丁塔奇曼管理学院gydF4y2B一个

新泽西理工学院gydF4y2B一个

中央大街184-198号gydF4y2B一个

纽瓦克，新泽西州，07102gydF4y2B一个

美国gydF4y2B一个

电话:1 973 596 6302gydF4y2B一个

电子邮件:gydF4y2B一个yi.chen@njit.edugydF4y2B一个

背景:gydF4y2B一个近年来，越来越多的用户加入在线卫生社区以获取信息和寻求支持。患者经常寻求信息和建议，以支持他们的医疗保健决策。重要的是要了解患者的决策过程，并确定患者从OHCs中获得的影响。gydF4y2B一个

摘要目的:gydF4y2B一个我们的目标是确定讨论线程中对寻求决策帮助的用户有影响的帖子。gydF4y2B一个

方法:gydF4y2B一个我们提出了讨论区帖子影响关系的定义。然后，我们开发了一个框架和深度学习模型来识别影响关系。我们利用最先进的文本相关性测量方法来生成稀疏特征向量来表示文本相关性。我们将一个帖子中问题和动作出现的概率建模为密集特征。然后，我们使用深度学习技术结合稀疏和密集特征来学习影响关系。gydF4y2B一个

结果:gydF4y2B一个我们在一位受欢迎的癌症幸存者OHC的讨论中评估了所提议的技术。实证评估证明了我们方法的有效性。gydF4y2B一个

结论:gydF4y2B一个确定OHCs中的影响关系是可行的。使用所提议的技术，发现大量关于热含量的讨论产生了影响。这种讨论更有可能影响用户决策过程，并促使用户参与ohc。对这些讨论的研究可以帮助提高信息质量、用户粘性和用户体验。gydF4y2B一个

中国医学杂志，2018;24(8):e30634gydF4y2B一个

doi: 10.2196/30634gydF4y2B一个

关键字gydF4y2B一个

影响关系gydF4y2B一个；gydF4y2B一个决策的线程gydF4y2B一个；gydF4y2B一个在线健康社区gydF4y2B一个；gydF4y2B一个病人接触gydF4y2B一个；gydF4y2B一个深度学习gydF4y2B一个；gydF4y2B一个文本相关性测量gydF4y2B一个

背景gydF4y2B一个

近年来，在线健康社区(ohc)，如癌症幸存者网络(CSN)、MedHelp、DoctorLounge、WebMD和健康委员会留言板已成为患者利用的最重要的资源之一。gydF4y2B一个1gydF4y2B一个］．OHC被定义为基于web的异步患者留言板系统，其中包含多个留言板，每个留言板通常关注一种疾病。OHCs提供了一个基于网络的渠道，可以进行信息交换，促进沟通，并为患者和护理人员提供支持[gydF4y2B一个2gydF4y2B一个-gydF4y2B一个4gydF4y2B一个］．这些资料对慢性病患者了解自己的情况及寻求社会支持特别有价值[gydF4y2B一个5gydF4y2B一个，gydF4y2B一个6gydF4y2B一个］．gydF4y2B一个

赋予和支持患者做出知情的医疗决定是以患者为中心的医疗保健的一个关键组成部分，是社会、经济和技术的必要条件[gydF4y2B一个7gydF4y2B一个，gydF4y2B一个8gydF4y2B一个］．许多患者寻求有关OHCs的信息和建议。现有的研究发现，乳腺癌论坛上近一半的帖子[gydF4y2B一个9gydF4y2B一个]与病人的决策有关[gydF4y2B一个1gydF4y2B一个］．研究还表明，患者在医疗保健决策中经常受到网络资源和社交媒体的影响[gydF4y2B一个10gydF4y2B一个，gydF4y2B一个11gydF4y2B一个］．gydF4y2B一个

目标gydF4y2B一个

本研究的目的是确定与医疗保健决策相关的讨论线程中的帖子的影响关系。具体来说，我们定义了影响关系，并确定了影响最初作者的帖子回复，他们发布了关于ohc的问题。gydF4y2B一个

这项研究的结果对于卫生保健专业人员帮助患者做出明智的决定是很重要的，原因有几个。首先，分析有影响力的帖子的写作风格和模式可能有助于解释它们为什么有影响力，并为卫生保健专业人员提供与患者有效沟通的见解。其次，如果有影响力的岗位提供的信息不准确，会误导患者。对此类职位的信息质量进行检查是提高影响力质量的重要手段。此外，有问题但没有收到任何有影响的答复的患者可能需要进一步的帮助。gydF4y2B一个

文献综述gydF4y2B一个

在热含量分析方面进行了大量研究，但在确定职位影响关系方面的研究有限。已经进行了几项研究，分析用户在论坛上的回复之间的互惠模式[gydF4y2B一个12gydF4y2B一个-gydF4y2B一个14gydF4y2B一个］．也有研究分析文章浏览量与文章回复之间的模式[gydF4y2B一个15gydF4y2B一个］．已进行了许多研究，以确定社区中有影响力的用户[gydF4y2B一个16gydF4y2B一个-gydF4y2B一个20.gydF4y2B一个］．在这些应用程序中，一篇文章、博客或tweet通常表达了作者的观点，而回复被认为是受原始文章观点影响的标志。即将回复关系视为影响关系。重点是通过文章的活跃度来判断作者的影响力[gydF4y2B一个21gydF4y2B一个]和社交网络功能[gydF4y2B一个17gydF4y2B一个，gydF4y2B一个18gydF4y2B一个比如类似pagerank的算法或聚类算法。gydF4y2B一个

在论坛中寻找帖子之间的影响力关系不同于寻找有影响力的用户，需要不同的技术。在OHC中，线程的初始作者通常表达的是一个问题，而不是一个观点。当问题的回复影响到初始作者时，就会产生影响。现有的研究中只有两项考虑了回复者对原作者的影响[gydF4y2B一个21gydF4y2B一个，gydF4y2B一个22gydF4y2B一个］．当最初作者的情绪变成与回复者的情绪相似时，这种影响就会被识别出来。然而，这个定义可能并不准确。gydF4y2B一个

让我们看一个与患者决策相关的讨论线程的例子，如图所示gydF4y2B一个图1gydF4y2B一个．一位OHC用户初始化了一个帖子，询问是否在手术前进行化疗，以适应她母亲术后的治疗计划gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}．gydF4y2B一个

在gydF4y2B一个图1gydF4y2B一个一名用户在帖子中安慰她gydF4y2B一个pgydF4y2B一个_{B1gydF4y2B一个}．答复没有提供什么信息。尽管最初的作者表达了对文章作者的感激之情gydF4y2B一个pgydF4y2B一个_{B1gydF4y2B一个}，情绪在后期转变为积极gydF4y2B一个pgydF4y2B一个_{C1gydF4y2B一个}在美国，她不受邮政的影响gydF4y2B一个pgydF4y2B一个_{B1gydF4y2B一个}．事实上，研究表明，75%至85%的CSN论坛参与者通过与其他社区成员的网络互动，将他们的情绪向积极的方向转变。gydF4y2B一个23gydF4y2B一个］．情绪的变化并不一定表明你受到了影响。gydF4y2B一个

相反，在gydF4y2B一个图1gydF4y2B一个B，一位用户分享了她在类似情况下的经验，建议在手术前进行化疗gydF4y2B一个pgydF4y2B一个_{B2gydF4y2B一个}．最初的作者表达了她的感激之情，并表示她将在确定她母亲的治疗计划时考虑这一建议(斜体句)gydF4y2B一个pgydF4y2B一个_{C2gydF4y2B一个}显示她受到了影响。gydF4y2B一个

贡献gydF4y2B一个

我们不考虑情绪变化，而是建议使用相关回复的问题或未来行动作为被影响的指标，如上述例子所示。在确定影响关系方面有两个主要挑战。首先，我们需要定义职位的影响关系。我们检查了帖子内容的语义，以定义影响关系。与有影响力的用户不同，这些用户是通过现有工作中的网络特征来定义的[gydF4y2B一个16gydF4y2B一个-gydF4y2B一个20.gydF4y2B一个]，文字内容是决定帖子是否有影响力的关键。其次，很难确定影响关系。与典型的文本分类问题不同，影响关系涉及多个具有回复关系的帖子，而不是单个文本段落。此外，影响力是一个抽象的概念。同时考虑到内容和回复关系，提取相关特征以捕捉影响模式具有挑战性。gydF4y2B一个

本研究为识别OHCs中与患者决策相关的讨论线索中的影响关系做出了新的贡献。具体而言，(1)基于帖子内容语义定义了帖子之间的影响关系，(2)提出了一种可扩展的深度学习模型，该模型提取并结合稀疏和密集特征来识别OHC决策线程中的影响关系，(3)在实证评估中取得了良好的影响关系识别效果。gydF4y2B一个

在本节中，我们首先对热含量数据建模，并在讨论线程中定义影响关系。然后，我们提出了一个基于深度学习的模型来识别影响关系。gydF4y2B一个

问题定义gydF4y2B一个

讨论线程的定义gydF4y2B一个

图2gydF4y2B一个介绍了热含量数据结构的概述。我们将OHC建模为一组讨论线程gydF4y2B一个TgydF4y2B一个= {gydF4y2B一个tgydF4y2B一个_{1gydF4y2B一个}tgydF4y2B一个_{2gydF4y2B一个}、……tgydF4y2B一个_{ngydF4y2B一个}}。每个线程gydF4y2B一个tgydF4y2B一个_{我gydF4y2B一个}是由一组职位和一个函数组成的吗gydF4y2B一个RgydF4y2B一个表示应答关系的。例如,gydF4y2B一个图2gydF4y2B一个说明一个包含5个帖子的线程{gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}pgydF4y2B一个_{BgydF4y2B一个}pgydF4y2B一个_{CgydF4y2B一个}pgydF4y2B一个_{B”gydF4y2B一个}pgydF4y2B一个_{C 'gydF4y2B一个}}。其中一个回复关系，gydF4y2B一个RgydF4y2B一个（gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}) =gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}，表示该职位gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}回复邮件gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}．每个帖子gydF4y2B一个pgydF4y2B一个_{我gydF4y2B一个}由一系列的句子组成gydF4y2B一个pgydF4y2B一个_{我gydF4y2B一个}= {gydF4y2B一个年代gydF4y2B一个_{1gydF4y2B一个}，gydF4y2B一个年代gydF4y2B一个_{2gydF4y2B一个}、……gydF4y2B一个年代gydF4y2B一个_{lgydF4y2B一个}}。每个帖子都有一个作者。我们使用函数表示作者关系gydF4y2B一个UgydF4y2B一个．gydF4y2B一个UgydF4y2B一个（gydF4y2B一个pgydF4y2B一个_{我gydF4y2B一个})代表文章的作者gydF4y2B一个pgydF4y2B一个_{我gydF4y2B一个}．注意，一篇文章只有一个作者;但是，一个作者可以在一个线程中写≥0篇文章。我们使用gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}呈现一个线程的第一篇文章，并将其命名为gydF4y2B一个最初的发布gydF4y2B一个．的作者gydF4y2B一个最初的发布gydF4y2B一个，gydF4y2B一个UgydF4y2B一个（gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个})，称为gydF4y2B一个最初的作者gydF4y2B一个线的。gydF4y2B一个

现有工作[gydF4y2B一个1gydF4y2B一个]研究了ohc中的线程讨论，并确定了线程的一个子集与gydF4y2B一个病人的决策gydF4y2B一个．这种帖子的特点是在最初的帖子中提出问题，并在回复中提供选项建议。已经开发出技术来识别ohc中的决策线索。gydF4y2B一个

在本文中，我们研究了如何识别决策线程的初始作者受到回复帖子影响的情况。请注意，我们的研究适用于与决策相关的任何线程讨论。可使用现有工作中开发的方法来定义和识别决策线索[gydF4y2B一个1gydF4y2B一个]或其他方法。在本文的其余部分，我们使用gydF4y2B一个线程gydF4y2B一个为了简单起见，参考决策线程。所定义的影响关系可能不适用于与决策无关的讨论主题，例如用于随意交流的讨论主题或提供社会支持的经验分享主题。gydF4y2B一个

关系的定义gydF4y2B一个

概述gydF4y2B一个

在介绍定义之前gydF4y2B一个影响人际关系gydF4y2B一个，我们首先介绍关系。关系定义在具有回复关系的线程中的三个帖子上:初始帖子、对初始帖子的回复以及初始作者的后续回复。gydF4y2B一个

定义1(关系)gydF4y2B一个

我们定义了三个post之间的关系gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}，gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个},gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}，在一个线程作为gydF4y2B一个rgydF4y2B一个_{我gydF4y2B一个}= (gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}，gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个},gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个})，其中gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}线程的初始帖子是post吗gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}回复gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个},后gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}回复gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}的作者gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}而且gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}都是同一个人。也就是说,gydF4y2B一个RgydF4y2B一个（gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}) =gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}, RgydF4y2B一个（gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}) =gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}，gydF4y2B一个而且gydF4y2B一个UgydF4y2B一个（gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}) =gydF4y2B一个UgydF4y2B一个（gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个})．gydF4y2B一个

我们使用gydF4y2B一个rgydF4y2B一个_{我gydF4y2B一个}= (gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}pgydF4y2B一个_{BgydF4y2B一个}pgydF4y2B一个_{CgydF4y2B一个})表示之间的关系gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}pgydF4y2B一个_{BgydF4y2B一个}，gydF4y2B一个而且gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}．注意，在一个线程中有很多这样的关系，我们考虑了所有这样的三元组。例如,gydF4y2B一个图2gydF4y2B一个显示有两个关系的线程，gydF4y2B一个rgydF4y2B一个_{1gydF4y2B一个}= (gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}pgydF4y2B一个_{BgydF4y2B一个}pgydF4y2B一个_{CgydF4y2B一个}),gydF4y2B一个rgydF4y2B一个_{2gydF4y2B一个}= (gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}pgydF4y2B一个_{B”gydF4y2B一个}pgydF4y2B一个_{C 'gydF4y2B一个})．gydF4y2B一个

此外，请注意现有的识别有影响力用户的工作[gydF4y2B一个16gydF4y2B一个-gydF4y2B一个20.gydF4y2B一个]不考虑帖子三元组之间的关系，只考虑两个帖子之间的回复关系。gydF4y2B一个

影响关系的定义gydF4y2B一个

直觉gydF4y2B一个

现在，我们讨论如何定义gydF4y2B一个影响人际关系gydF4y2B一个关于关系(gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}pgydF4y2B一个_{BgydF4y2B一个}pgydF4y2B一个_{CgydF4y2B一个})，其中gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}对原作者有影响吗gydF4y2B一个UgydF4y2B一个（gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个})．gydF4y2B一个

首先，直观地说，如果postgydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}影响最初作者gydF4y2B一个UgydF4y2B一个（gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个})，那么这3篇文章的内容必须是相关的。gydF4y2B一个

第二，我们参考了的定义gydF4y2B一个影响gydF4y2B一个在韦氏词典[gydF4y2B一个24gydF4y2B一个-“通过间接的或无形的方式影响或改变”以及…的反应gydF4y2B一个被影响了gydF4y2B一个是gydF4y2B一个影响gydF4y2B一个而不是被说服。如果最初的作者考虑在帖子中给出的建议gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}即使她最终没有接受建议，也被认为是受到了帖子的影响gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}．gydF4y2B一个在这个定义的基础上，我们观察到两个迹象，即最初的作者，gydF4y2B一个UgydF4y2B一个（gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个})，受到gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}．gydF4y2B一个

被影响的一个观察是，最初的作者可能会问问题gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}根据中的建议gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}．好奇心是学习的动力，对决策有影响。gydF4y2B一个25gydF4y2B一个］．现有研究[gydF4y2B一个26gydF4y2B一个]使用了大量学习论坛帖子的统计样本，以调查学生参与论坛是否会受到影响。他们观察到，那些受到他人有趣答案影响的学生更有可能提出后续问题。这表明问更多的问题是被影响的标志。同样的模式也存在于OHCs中。让我们看一下gydF4y2B一个图1gydF4y2B一个C.最初的作者表达了对脱发的担忧gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}．另一位用户在帖子中回复道gydF4y2B一个pgydF4y2B一个_{B3gydF4y2B一个}建议使用假发。最初的作者随后在帖子中回复gydF4y2B一个pgydF4y2B一个_{C3gydF4y2B一个}提问(斜体字的句子)，以了解文章中建议的更多细节gydF4y2B一个pgydF4y2B一个_{B3gydF4y2B一个}．这些问题表明，最初的作者正在思考在帖子中给出的建议gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}；那就是，被影响。gydF4y2B一个

第二个迹象表明，最初的作者受到了一篇帖子的影响gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}她是否表达了事后采取行动的意愿gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}．Adjei等[gydF4y2B一个27gydF4y2B一个研究发现，网络品牌社区的会员间交流极大地影响了会员未来的购买行为。同样，ohc中通过讨论线程进行的交流也可能影响最初作者未来的行动。让我们看一下gydF4y2B一个图1gydF4y2B一个B。关于治疗的问题gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}，一位论坛用户分享了她的经历，并在帖子中讨论了治疗gydF4y2B一个pgydF4y2B一个_{B2gydF4y2B一个}．最初的作者然后回复了一个计划好的行动(斜体字的句子)gydF4y2B一个pgydF4y2B一个_{C2gydF4y2B一个}．基于线程中的通信的未来行动意图是影响关系的指示器。gydF4y2B一个

在这些观察的基础上，我们在下一节中定义决策线程中的影响关系。gydF4y2B一个

定义2(影响关系)gydF4y2B一个

一段关系gydF4y2B一个rgydF4y2B一个_{我gydF4y2B一个}= (gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}pgydF4y2B一个_{BgydF4y2B一个}pgydF4y2B一个_{CgydF4y2B一个})被认为是一种影响关系，即gydF4y2B一个UgydF4y2B一个（gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个})受gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}-当且仅当满足以下条件时:(1)的内容gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}与岗位相关gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}，(2)内容gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}与岗位相关gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}，和(3)gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}包含问题或指示未来的行动。gydF4y2B一个

为了确定影响关系，我们将其建模为分类任务。给定一组关系gydF4y2B一个RgydF4y2B一个= {gydF4y2B一个rgydF4y2B一个_{1gydF4y2B一个}, rgydF4y2B一个_{2gydF4y2B一个}、……rgydF4y2B一个_{ngydF4y2B一个}}，用于每个关系gydF4y2B一个rgydF4y2B一个_{我gydF4y2B一个}，我们预测它的标签是1或−1，其中标签1表示gydF4y2B一个rgydF4y2B一个_{我gydF4y2B一个}影响关系和标签-1是否表明了这一点gydF4y2B一个rgydF4y2B一个_{我gydF4y2B一个}不是影响关系。目标是从已知关系的标签中学习一个模型，并预测未标记关系的标签。gydF4y2B一个

模型设计gydF4y2B一个

概述gydF4y2B一个

在本节中，我们提出了识别ohc决策线程中的影响关系的方法。gydF4y2B一个图3gydF4y2B一个给出了该方法的框架。gydF4y2B一个

给定一组讨论线程作为输入，我们首先使用关系提取模块提取三重关系。然后分别使用文本相关性测量模块、问题概率计算模块和动作概率计算模块计算文本相关性特征、问题概率特征和动作概率特征。最后，在特征组合模块中使用深度学习模型对所有特征进行组合，生成关系为影响关系的概率。gydF4y2B一个

关系提取模块gydF4y2B一个

在本节中，我们将介绍关系提取模块，该模块提取了定义1中定义的所有关系。gydF4y2B一个

在关系提取的第一步中，我们基于html文件中的缩进格式构建了回复树结构。对于每个相邻的帖子对，之前发布的帖子被视为后一个帖子的父帖子。帖子与初始帖子之间的祖先-下降距离由制表符的数量表示。线程的回复结构说明在gydF4y2B一个图2gydF4y2B一个．每个帖子都是线程树中的一个节点，每条边代表一个回复关系。线程树的根是初始帖子(例如，gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个})在定义1中。gydF4y2B一个

现有工作观察到，在一些论坛中，讨论线程中的回复结构可能并不完全可用，并提出了构建完整回复结构的技术[gydF4y2B一个28gydF4y2B一个］．我们实验中使用的OHCs具有完整的应答结构。如果其他论坛需要，可以利用现有技术。gydF4y2B一个

然后我们导航线程树以提取所有关系三元组，如定义1中定义的那样。每个三元组都从最初的帖子开始，然后是另一个作者对最初帖子的回复，然后是最初作者的后续回复，所有这些都位于线程树中的同一路径上。例如,gydF4y2B一个rgydF4y2B一个_{1gydF4y2B一个}= (gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}pgydF4y2B一个_{BgydF4y2B一个}pgydF4y2B一个_{CgydF4y2B一个}),gydF4y2B一个rgydF4y2B一个_{2gydF4y2B一个}= (gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}pgydF4y2B一个_{B”gydF4y2B一个}pgydF4y2B一个_{C 'gydF4y2B一个})是线程树中的2个关系gydF4y2B一个图2gydF4y2B一个．gydF4y2B一个

文本相关性测量模块gydF4y2B一个

文本相关性测量模块使用0到1之间的相关性评分来测量2个帖子的内容相关性或文本语义相似性。gydF4y2B一个

文献中主要有两种基于深度学习的测量文本相关性的方法。第一类方法提取2个输入文本的内容特征向量，然后将它们组合起来进行预测，如深度结构化语义模型(Deep Structured Semantic Models, DSSM) [gydF4y2B一个29gydF4y2B一个]，卷积DSSM [gydF4y2B一个30.gydF4y2B一个]和建筑- i (ARC-I) [gydF4y2B一个31gydF4y2B一个］．这种方法直观上是突出原始文本的重要信息，在特征组合阶段之前，可以去除不相关的内容。然而，这种方法的缺点是它有丢失细节的风险。gydF4y2B一个32gydF4y2B一个］．gydF4y2B一个

第二种类型首先生成单词级相关性，然后使用神经网络学习内容级相关性的分层交互模式，例如DeepMatch [gydF4y2B一个33gydF4y2B一个]，建筑- ii (ARC-II) [gydF4y2B一个31gydF4y2B一个]和MatchPyramid [gydF4y2B一个34gydF4y2B一个］．动机是，在进行好的相关性判断时，需要考虑到文本相关性测量过程中的相互作用，从词与词之间的相互作用到短语中的模式，再到整个句子中的模式[gydF4y2B一个34gydF4y2B一个］．然而，第二种类型的训练过程比第一种要昂贵得多。gydF4y2B一个

我们在实验中评估了两种测量文本相关性的方法。在评价中，我们选择了两种最先进的有代表性的文本相关性测量方法。对于第一种类型，我们选择了ARC-I [gydF4y2B一个31gydF4y2B一个]，该方法使用多层感知器来组合相关特征向量。它表现出比DSSM更好的性能[gydF4y2B一个29gydF4y2B一个]和卷积DSSM [gydF4y2B一个30.gydF4y2B一个]，两者都使用余弦相似度[gydF4y2B一个34gydF4y2B一个］．我们选择了MatchPyramid [gydF4y2B一个34gydF4y2B一个]表示第二种方法，因为它比其他两种方法性能更好(DeepMatch [gydF4y2B一个33gydF4y2B一个]及ARC-II [gydF4y2B一个31gydF4y2B一个])在多个数据集上的实验[gydF4y2B一个34gydF4y2B一个］．gydF4y2B一个

我们进一步提出了从变压器(BERT)的双向编码器表示的适应性[gydF4y2B一个35gydF4y2B一个]作为ARC-I和MatchPyramid模型中的嵌入层。BERT是一种最先进的嵌入方法，用于许多自然语言理解任务中的单词表示，在BookCorpus和英语维基百科上训练。我们考虑BERT(在Wikipedia上训练)和word2vec(在训练数据集上训练)作为ARC-I和MatchPyramid的嵌入方法。文本相关性测量模块的不同变体在gydF4y2B一个文本相关性评价gydF4y2B一个部分。gydF4y2B一个

问题概率计算模块gydF4y2B一个

我们现在讨论如何使用问题概率计算模块计算包含问题的帖子的概率。gydF4y2B一个

在论坛中识别问题句有两种方法:基于规则的方法和基于学习的方法。在基于规则的方法中，问号和5W1H词(what, who, when, where, why, how)被用来识别疑问句[gydF4y2B一个36gydF4y2B一个］．一种基于学习的方法使用顺序问题模式在标记数据上训练二进制分类器[gydF4y2B一个37gydF4y2B一个-gydF4y2B一个40gydF4y2B一个］．刘及Jansen [gydF4y2B一个37gydF4y2B一个]使用问号抽取新浪微博上的问题帖子。在Ranganath等人的研究[gydF4y2B一个38gydF4y2B一个，gydF4y2B一个39gydF4y2B一个]，提出了通过模拟用户发布问题的动机来识别反问句的框架。Ojokoh等人的研究[gydF4y2B一个40gydF4y2B一个]，来自ResearchGate的问题是基于naïve贝叶斯分类的最大概率值与词性标签特征进行识别的。gydF4y2B一个

基于规则的方法和基于学习的方法都可以获得优异的性能。一项研究表明，基于规则的方法可以优于复杂的基于学习的方法[gydF4y2B一个36gydF4y2B一个］．因此，我们遵循了一种基于规则的方法[gydF4y2B一个36gydF4y2B一个]，以识别帖子中存在的问题。总共考虑了2种类型的规则:问号和5W1H单词。我们将这种方法用于OHCs。由于问号是问题中最重要的符号，所以我们给带有问号的句子的置信度评分更高。我们还对5W1H词设置了一些约束条件来模拟问句的模式。首先，5W1H必须出现在句首。第二，在原词的基础上加入助词，表达更具体的句型。例如，我们考虑gydF4y2Ba是什么gydF4y2B一个，gydF4y2B一个是什么gydF4y2B一个，gydF4y2B一个什么gydF4y2B一个,gydF4y2B一个是什么gydF4y2B一个而不是gydF4y2B一个什么gydF4y2B一个．gydF4y2B一个

后题概率为每句话发一个帖子gydF4y2B一个pgydF4y2B一个_{我gydF4y2B一个}计算时，使用最大概率作为后gydF4y2B一个pgydF4y2B一个_{我gydF4y2B一个}包含至少一个问题的，记为gydF4y2B一个问gydF4y2B一个（gydF4y2B一个pgydF4y2B一个_{我gydF4y2B一个})．gydF4y2B一个

动作概率计算模块gydF4y2B一个

本节介绍动作概率计算模块，该模块生成动作在帖子中出现的概率。gydF4y2B一个

将来动作的指示可以通过动词和适当的句子时态来捕捉。自然语言工具包[gydF4y2B一个41gydF4y2B一个tagger模块定义了一个标准接口，用于用补充信息扩充文本的每个标记，比如它的词性或它的WordNet synset标记，并为这个接口提供了几种不同的实现。我们利用NLTK标记器模块，通过检查带有将来时态动词标记的单词的存在，来评估包含将来动作的帖子的可能性(例如，gydF4y2B一个将考虑gydF4y2B一个在gydF4y2B一个图1gydF4y2B一个B)或情态助动词标签(例如，gydF4y2B一个可以gydF4y2B一个，gydF4y2B一个可以gydF4y2B一个，gydF4y2B一个五月gydF4y2B一个,gydF4y2B一个必须gydF4y2B一个)．为了计算由于论坛用户的拼写错误或非正式写作而无法识别将来时态的情况，当规则无法识别未来行为时，我们将未来行为发生的概率设置为0.5。公式1为产生哨所动作概率的计算公式gydF4y2B一个pgydF4y2B一个_{我gydF4y2B一个}．gydF4y2B一个

请注意，我们在动作概率计算模块中没有考虑否定。例如，在postgydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}，第一作者不同意文中提出的建议gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}决定做些不一样的事。对于这些情况，总的意义是gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}而且gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}将是相反的，因此将被文本相关性测量模块中生成的相关向量捕获。因此，我们在这个阶段没有考虑否定，以避免重复计算。gydF4y2B一个

特性组合模块gydF4y2B一个

概述gydF4y2B一个

指的是gydF4y2B一个图4gydF4y2B一个，对文本相关性测量模块进行计算gydF4y2B一个PgydF4y2B一个_{ABgydF4y2B一个}-相关性得分gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}而且gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}——gydF4y2B一个PgydF4y2B一个_{公元前gydF4y2B一个}-相关性得分gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}而且gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}．问题概率计算模块和动作概率计算模块对问题概率进行计算gydF4y2B一个问gydF4y2B一个（gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个})或者gydF4y2B一个问gydF4y2B一个简而言之，是行动概率gydF4y2B一个一个gydF4y2B一个（gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个})或者gydF4y2B一个一个gydF4y2B一个总之，基于文本的gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}．gydF4y2B一个

现在我们讨论基于这些特征来测量影响分数的特征组合模块。我们讨论了两种替代方法:gydF4y2B一个基线方法gydF4y2B一个而且gydF4y2B一个深度学习模型gydF4y2B一个．gydF4y2B一个

基线的方法gydF4y2B一个

回顾一下，根据定义2，影响关系的存在要求职位之间具有相关性gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}和发布gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}，帖子之间的相关性gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}和发布gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}，以及在post中出现问题或动作gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}．我们从一种直观的方法开始，根据使用公式2的定义来检测影响关系。gydF4y2B一个

PgydF4y2B一个_{基线gydF4y2B一个}＝gydF4y2B一个PgydF4y2B一个_{ABgydF4y2B一个}×gydF4y2B一个PgydF4y2B一个_{公元前gydF4y2B一个}× Max [gydF4y2B一个问gydF4y2B一个（gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个})，gydF4y2B一个一个gydF4y2B一个（gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}）]gydF4y2B一个（2）gydF4y2B一个

我们将每个组件的阈值设置为0.5、0.5和0.9。gydF4y2B一个

深度学习方法gydF4y2B一个

我们进一步提出了一个深度学习模型，该模型结合了文本相关性、问题出现的可能性和未来行动出现的可能性来识别影响关系。该模型的体系结构显示在gydF4y2B一个图4gydF4y2B一个．gydF4y2B一个

相比之下gydF4y2B一个基线gydF4y2B一个方法，使用深度学习模型有3个主要好处。首先，使用基于规则的方法(例如gydF4y2B一个基线gydF4y2B一个的方法。对一个数据集有效的阈值对另一个数据集可能不是最优的。基于规则的方法和深度学习模型对于不同的数据集都需要不同的阈值。基于规则的方法需要对每个数据集进行手动参数调优。相比之下，深度学习方法从地面真相中学习阈值，因此可以很容易地适应新的数据集，只需最少的人为干预[gydF4y2B一个42gydF4y2B一个］．其次，问题和动作特征可能与关联特征有不同的交互作用。我们发现，问题往往是相关的，但行动不一定。人们通常会在帖子中表达感谢gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}有时甚至会提到与帖子完全无关的动作gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}，例如旅行或购物的计划。与存在问题相比，在存在行动时考虑相关性更重要。然而，在gydF4y2B一个基线gydF4y2B一个方法中，问题和动作特征在与相关特征结合之前被合并，导致重要信息的丢失。此外，我们使用相关向量作为深度学习模型的输入来计算影响评分。相比之下gydF4y2B一个基线gydF4y2B一个方法采用相关性得分作为衡量影响得分的输入，相关向量提供了更丰富的信息。当讨论涉及多个主题时，这尤其有用。在关联特征与问题或操作特征相结合的阶段，还会利用关联信息。gydF4y2B一个

让gydF4y2B一个VgydF4y2B一个_{ABgydF4y2B一个}表示之间的相关向量gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}而且gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}而且gydF4y2B一个VgydF4y2B一个_{公元前gydF4y2B一个}表示之间的相关向量gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}而且gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}．我们生成的gydF4y2B一个VgydF4y2B一个_{ABgydF4y2B一个}, VgydF4y2B一个_{公元前gydF4y2B一个}从gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}，gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个},gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}和计算gydF4y2B一个问gydF4y2B一个而且gydF4y2B一个一个gydF4y2B一个从gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}．gydF4y2B一个

这些特征随后被连接起来。问题或将来的行动gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}一定是有关的内容吗gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}而且gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}．因此，我们结合了gydF4y2B一个VgydF4y2B一个_{ABgydF4y2B一个}而且gydF4y2B一个VgydF4y2B一个_{公元前gydF4y2B一个}与gydF4y2B一个问gydF4y2B一个而且gydF4y2B一个一个gydF4y2B一个使用以下两个运算符之一:(1)gydF4y2B一个猫gydF4y2B一个(将每个相关向量与问题或动作概率连接起来)和(2)gydF4y2B一个点gydF4y2B一个(每个相关向量乘以问题或行动概率)。gydF4y2B一个

这两个连接特性的操作符之间有两个主要的区别:gydF4y2B一个猫gydF4y2B一个而且gydF4y2B一个点gydF4y2B一个．首先,gydF4y2B一个点gydF4y2B一个确保gydF4y2B一个问gydF4y2B一个而且gydF4y2B一个一个gydF4y2B一个影响相关向量中的每个维度，而gydF4y2B一个猫gydF4y2B一个不能保证这一点，因为一些神经元或节点被删除了。问题或动作与文本相关性之间的一些相互作用可能会被忽略gydF4y2B一个猫gydF4y2B一个操作符。第二，培训过程gydF4y2B一个猫gydF4y2B一个比那个贵吗gydF4y2B一个点gydF4y2B一个因为，对于每一个密集层1到4，都有一个额外的维度gydF4y2B一个猫gydF4y2B一个相比之下gydF4y2B一个点gydF4y2B一个．gydF4y2B一个

在gydF4y2B一个图4gydF4y2B一个，我们使用⊗来表示组合运算符，它可以是任意一个gydF4y2B一个猫gydF4y2B一个或gydF4y2B一个点gydF4y2B一个．组合步骤生成4个特征向量:gydF4y2B一个VgydF4y2B一个_{ABgydF4y2B一个}⊗gydF4y2B一个问gydF4y2B一个，gydF4y2B一个VgydF4y2B一个_{ABgydF4y2B一个}⊗gydF4y2B一个一个gydF4y2B一个，gydF4y2B一个VgydF4y2B一个_{公元前gydF4y2B一个}⊗gydF4y2B一个问gydF4y2B一个,gydF4y2B一个VgydF4y2B一个_{公元前gydF4y2B一个}⊗gydF4y2B一个一个gydF4y2B一个．为了从这些组合特征向量中提取关键信息，使用4个密集(完全连接)层来填充总结的特征向量(gydF4y2B一个年代gydF4y2B一个_{1gydF4y2B一个},年代gydF4y2B一个_{2gydF4y2B一个},年代gydF4y2B一个_{3.gydF4y2B一个},年代gydF4y2B一个_{4gydF4y2B一个})．这4个总结的特征向量的拼接通过2个密集层。第一种方法用于进一步组合总结出来的特征向量。第二个目标是生成标签上的概率分布。避免梯度消失和爆炸[gydF4y2B一个43gydF4y2B一个)，我们选择了gydF4y2B一个线性整流函数（Rectified Linear Unit）gydF4y2B一个函数作为除输出层以外的所有密集层的激活函数，输出层使用gydF4y2B一个softmaxgydF4y2B一个函数来填充概率。gydF4y2B一个

我们使用公式3中定义的二元交叉熵损失函数来训练模型，该函数最小化了实际情况的概率分布与预测得分的概率分布之间的距离。gydF4y2B一个

在哪里gydF4y2B一个ygydF4y2B一个_{我gydF4y2B一个}是真理的底牌吗gydF4y2B一个我gydF4y2B一个训练样本和gydF4y2B一个年代gydF4y2B一个_{我gydF4y2B一个}是模型预测的分数。亚当优化器gydF4y2B一个43gydF4y2B一个]的优点是处理稀疏特征，与常规的随动量随机梯度下降相比，收敛速度更快。gydF4y2B一个

伦理批准gydF4y2B一个

所有材料均来自匿名开源数据。因此，不需要伦理批准。gydF4y2B一个

实验设置与评价指标gydF4y2B一个

我们在讨论线程上实现了一个影响关系识别的原型系统。评估中使用的原型系统和数据集可在GitHub上公开获取[gydF4y2B一个44gydF4y2B一个］．gydF4y2B一个

为了进行实证评估，我们收集了CSN乳腺癌论坛上公开的25,208篇文章[gydF4y2B一个9gydF4y2B一个］．网页由我们利用Spider crawler库开发的网络爬虫收集和处理[gydF4y2B一个45gydF4y2B一个］．帖子32.1万条，句子190万条。我们应用Li等人提出的分类器[gydF4y2B一个1gydF4y2B一个]在所有25,208个线程上识别与患者决策相关的线程，并获得11,815个(46.87%)这样的线程。注意，还可以插入其他用于分类决策线程的模型。gydF4y2B一个

然后，我们使用关系提取模块从决策线程中提取关系，并获得9053个关系。随机选取853个(9.42%)进行标记。共有4名博士生参与了手工标注。所有的关系三元组和post对首先被独立标记。如果有不同意见，经过讨论达成一致意见。共有261种关系被标记为影响关系。回想一下，根据定义1，每个关系都被表示为三元(gydF4y2BapgydF4y2B一个_{一个gydF4y2B一个}pgydF4y2B一个_{BgydF4y2B一个}pgydF4y2B一个_{CgydF4y2B一个})．我们还标记了是否发帖gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}而且gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}是相关的(即，gydF4y2B一个PgydF4y2B一个_{ABgydF4y2B一个})及是否张贴gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}而且gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}是相关的(即，gydF4y2B一个PgydF4y2B一个_{公元前gydF4y2B一个})．我们观察到一些回复的内容只表达了安慰或祝愿。尽管它们表达了对初始作者状况的关心，而且似乎是相关的，但它们是通用的。经过讨论，我们达成共识，当初始帖子和回复帖子分享相似的医学术语(如gydF4y2B一个化疗gydF4y2B一个而且gydF4y2B一个化疗gydF4y2B一个)，我们会把它们标记为相关的。1706对邮筒(gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}pgydF4y2B一个_{BgydF4y2B一个})及(gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}pgydF4y2B一个_{CgydF4y2B一个})的853段关系被标记。1706对中，相关配对1210对(70.93%)，不相关配对496对(29.07%)。我们将关系集分为训练集(90%)和测试集(10%)。分别使用上述训练集和测试集中的岗位对进行文本相关性训练和测试。gydF4y2B一个

用于评估的指标包括精密度、召回率、FgydF4y2B一个_{1gydF4y2B一个}评分、准确度、受试者工作特征曲线下面积(ROC AUC)和精度-召回曲线下面积(PR AUC)。他们从不同方面评估了一个系统的有效性:(1)gydF4y2B一个精度gydF4y2B一个，也称为正预测值，是相关实例在检索到的实例中的比例;（2）gydF4y2B一个回忆gydF4y2B一个，也称为灵敏度，是在所有相关实例中检索到的相关实例的百分比;（3）gydF4y2B一个FgydF4y2B一个_{1gydF4y2B一个}分数gydF4y2B一个通过计算精度和召回率的调和平均值来衡量模型的性能，如下式所示:gydF4y2B一个（4）gydF4y2B一个；（4）gydF4y2B一个精度gydF4y2B一个是二元分类问题的常用评价指标，定义为正确预测占预测总数的比例;（5）gydF4y2B一个中华民国AUCgydF4y2B一个是二元分类问题的常用评估指标，通过绘制各种阈值设置下的真阳性率和假阳性率来创建;(6)gydF4y2B一个公关AUCgydF4y2B一个通常用于在标签不平衡的数据集上评估模型的性能。gydF4y2B一个

文本相关性评价gydF4y2B一个

表1gydF4y2B一个给出了文本相关性度量模块的分类结果。总共进行了2次观察。首先观察到，使用BERT模型的查全率较高，但查全率较低，而使用词嵌入向量训练OHC数据的模型获得了平衡的查全率和查全率。这些结果有两个原因。首先，OHC数据是领域敏感的，可以受益于领域特定的单词表示。其次，BERT转换器倾向于错误地将相邻句子中的单词连接起来。在文本相关性测量模块中，由于影响关系识别的精度取决于相关性分类的精度，因此精度比召回率更重要。因此，在接下来的实验中，我们使用在OHC数据上训练的词向量而不是BERT。gydF4y2Ba

表1。文本相关性测量模块结果。gydF4y2B一个

	精度gydF4y2B一个	回忆gydF4y2B一个	FgydF4y2B一个_{1gydF4y2B一个}	精度gydF4y2B一个	中华民国AUCgydF4y2B一个^{一个gydF4y2B一个}	公关AUCgydF4y2B一个^{bgydF4y2B一个}
与BERT配对金字塔gydF4y2B一个^{cgydF4y2B一个}(维基百科培训)gydF4y2B一个	0.578gydF4y2B一个	0.992gydF4y2B一个^{dgydF4y2B一个}	0.730gydF4y2B一个	0.512gydF4y2B一个	0.502gydF4y2B一个	0.583gydF4y2B一个
用word2vec匹配金字塔(在训练数据集上训练)gydF4y2B一个	0.781gydF4y2B一个	0.820 dgydF4y2B一个	0.806gydF4y2B一个	0.692gydF4y2B一个	0.763gydF4y2B一个	0.854gydF4y2B一个
ARC-IgydF4y2B一个^{egydF4y2B一个}BERT(维基百科培训)gydF4y2B一个	0.523gydF4y2B一个	0.890 dgydF4y2B一个	0.659gydF4y2B一个	0.503gydF4y2B一个	0.493gydF4y2B一个	0.554gydF4y2B一个
使用word2vec的ARC-I(在训练数据集上训练)gydF4y2B一个	0.832gydF4y2B一个	0.747 dgydF4y2B一个	0.785gydF4y2B一个	0.784gydF4y2B一个	0.848gydF4y2B一个	0.903gydF4y2B一个

^{一个gydF4y2B一个}ROC AUC:受试者工作特征曲线下的面积。gydF4y2B一个

^{bgydF4y2B一个}PR AUC:精度-召回曲线下面积。gydF4y2B一个

^{cgydF4y2B一个}BERT:来自变压器的双向编码器表示。gydF4y2B一个

^{dgydF4y2B一个}的gydF4y2B一个PgydF4y2B一个值有统计学意义gydF4y2B一个PgydF4y2B一个= . 05。gydF4y2B一个

^{egydF4y2B一个}ARC-I:建筑i。gydF4y2B一个

第二个观察结果是，通过词向量嵌入，ARC-I在大多数评价指标上都比MatchPyramid表现更好。在ARC-I模型中，每个输入文本经过一个嵌入层、一个卷积层和一个最大池化层，然后将提取的特征向量连接在一起，作为输入到一个完全连接层，计算预测的相关性得分。MatchPyramid首先填充局部单词相关性矩阵。矩阵的每个单元格表示文本输入中单词的词嵌入向量的点积。然后使用卷积神经网络提取这些相互作用的模式[gydF4y2B一个46gydF4y2B一个］．因此，ARC-I侧重于根据整个文本的含义检查相关性，而MatchPyramid侧重于根据局部词的相似度总结重要的相关性特征。对于OHC数据集，帖子相对较长，往往包含噪声信息;因此，考虑整篇文章的意思比关注相邻的单词更重要。这就是为什么在我们的评估中ARC-I的性能优于MatchPyramid。我们还观察到gydF4y2B一个ARC-IgydF4y2B一个使用word2vec优于gydF4y2B一个MatchPyramidgydF4y2B一个与word2vecgydF4y2B一个在这两个gydF4y2B一个中华民国AUCgydF4y2B一个而且gydF4y2B一个公关AUCgydF4y2B一个但是有一个劣势gydF4y2B一个FgydF4y2B一个_{1gydF4y2B一个}分数gydF4y2B一个．注意FgydF4y2B一个_{1gydF4y2B一个}ROC AUC和PR AUC是不同召回阈值下所有样本的精度累加。这表明的平均性能gydF4y2B一个MatchPyramidgydF4y2B一个与word2vecgydF4y2B一个是比较好，但整体表现呢gydF4y2B一个ARC-IgydF4y2B一个与word2vecgydF4y2B一个是更好的。gydF4y2B一个

问题与行动概率评估gydF4y2B一个

现在，我们给出了问题概率计算模块和动作概率计算模块的评价。性能如图所示gydF4y2B一个表2gydF4y2B一个．在问题识别方面取得了良好的表现。对于未来的行动识别，在回忆上获得了高分，但在精度上没有。以下是一些被归类为包含未来行动但实际上没有行动意图的帖子的例子:gydF4y2B一个我告诉你，虽然我讨厌硅胶gydF4y2B一个或gydF4y2B一个我会担心的gydF4y2B一个．这些句子有将来时的动词，但这些动词只表达了意见或感受，而不是对医疗保健采取行动。作为未来的工作，我们计划通过训练动作句子模型来改进动作检测。gydF4y2B一个

回想一下gydF4y2B一个深度学习gydF4y2B一个方法、问题和行动概率被视为输入特征，而不是对它们的存在施加严格的要求。我们根据它们的存在对测试数据进行了分析。所有阳性病例的行为存在概率为1.0或问题存在概率较高，平均概率为0.986 (SD为0.033)。这表明gydF4y2B一个深度学习gydF4y2B一个方法很好地捕获了定义2，确保存在问题或未来操作的可能性很高。gydF4y2B一个

表2。问题和动作计算模块结果。gydF4y2B一个

	精度gydF4y2B一个	回忆gydF4y2B一个	FgydF4y2B一个_{1gydF4y2B一个}	精度gydF4y2B一个	中华民国AUCgydF4y2B一个^{一个gydF4y2B一个}	公关AUCgydF4y2B一个^{bgydF4y2B一个}
问题概率计算模块gydF4y2B一个	1.000gydF4y2B一个	1.000gydF4y2B一个^{cgydF4y2B一个}	1.000gydF4y2B一个	1.000gydF4y2B一个	1.000gydF4y2B一个	1.000gydF4y2B一个
动作概率计算模块gydF4y2B一个	0.771gydF4y2B一个	1.000gydF4y2B一个^{cgydF4y2B一个}	0.871gydF4y2B一个	0.810gydF4y2B一个	0.733gydF4y2B一个	0.771gydF4y2B一个

^{一个gydF4y2B一个}ROC AUC:受试者工作特征曲线下的面积。gydF4y2B一个

^{bgydF4y2B一个}PR AUC:精度-召回曲线下面积。gydF4y2B一个

^{cgydF4y2B一个}的gydF4y2B一个PgydF4y2B一个值有统计学意义gydF4y2B一个PgydF4y2B一个= . 05。gydF4y2B一个

影响关系分类评价gydF4y2B一个

表3gydF4y2B一个的性能gydF4y2B一个基线gydF4y2B一个而且gydF4y2B一个深度学习gydF4y2B一个使用不同的方法组合文本相关向量、问题特征和动作特征。回想一下，对于特性组合模块，gydF4y2B一个基线gydF4y2B一个结合文本相关性得分、问题出现的可能性和未来行动出现的可能性，以确定影响关系。gydF4y2B一个猫MatchPyramid + Q / AgydF4y2B一个使用gydF4y2B一个MatchPyramidgydF4y2B一个计算文本相关性得分和gydF4y2B一个猫gydF4y2B一个作为组合运算符⊗，而gydF4y2B一个MatchPyramid +点Q / AgydF4y2B一个使用gydF4y2B一个点gydF4y2B一个作为组合运算符⊗。gydF4y2B一个猫ARC-I + Q / AgydF4y2B一个使用gydF4y2B一个ARC-IgydF4y2B一个计算相关分数和gydF4y2B一个猫gydF4y2B一个作为组合运算符⊗，而gydF4y2B一个ARC-I +点Q / AgydF4y2B一个使用gydF4y2B一个点gydF4y2B一个作为组合运算符⊗。gydF4y2B一个

表3。影响关系分类结果。gydF4y2B一个

	精度gydF4y2B一个	回忆gydF4y2B一个	FgydF4y2B一个_{1gydF4y2B一个}	精度gydF4y2B一个	中华民国AUCgydF4y2B一个^{一个gydF4y2B一个}	公关AUCgydF4y2B一个^{bgydF4y2B一个}
基线gydF4y2B一个	0.300gydF4y2B一个	0.231gydF4y2B一个^{cgydF4y2B一个}	0.261gydF4y2B一个	0.595gydF4y2B一个	0.495gydF4y2B一个	0.307gydF4y2B一个
猫MatchPyramid + Q / AgydF4y2B一个^{dgydF4y2B一个}	0.667gydF4y2B一个	0.154gydF4y2B一个^{cgydF4y2B一个}	０．２５gydF4y2B一个	0.714gydF4y2B一个	0.560gydF4y2B一个	0.442gydF4y2B一个
MatchPyramid +点Q / AgydF4y2B一个^{egydF4y2B一个}	0.633gydF4y2B一个	0.577gydF4y2B一个^{cgydF4y2B一个}	0.603gydF4y2B一个	0.667gydF4y2B一个	0.634gydF4y2B一个	0.481gydF4y2B一个
猫ARC-I + Q / AgydF4y2B一个^{fgydF4y2B一个}	0.667gydF4y2B一个	0.154gydF4y2B一个^{cgydF4y2B一个}	０．２５gydF4y2B一个	0.714gydF4y2B一个	0.637gydF4y2B一个	0.515gydF4y2B一个
ARC-I +点Q / AgydF4y2B一个^{ggydF4y2B一个}	0.750gydF4y2B一个	0.462gydF4y2B一个^{cgydF4y2B一个}	0.571gydF4y2B一个	0.786gydF4y2B一个	0.724gydF4y2B一个	0.631gydF4y2B一个

^{一个gydF4y2B一个}ROC AUC:受试者工作特征曲线下的面积。gydF4y2B一个

^{bgydF4y2B一个}PR AUC:精度-召回曲线下面积。gydF4y2B一个

^{cgydF4y2B一个}的gydF4y2B一个PgydF4y2B一个值有统计学意义gydF4y2B一个P =gydF4y2B一个. 05。gydF4y2B一个

^{dgydF4y2B一个}MatchPyramid+猫Q/A:模型使用gydF4y2B一个MatchPyramidgydF4y2B一个计算文本相关性得分和gydF4y2B一个猫gydF4y2B一个作为组合运算符⊗。gydF4y2B一个

^{egydF4y2B一个}MatchPyramid+dot Q/A:模型使用gydF4y2B一个MatchPyramidgydF4y2B一个计算文本相关性得分和gydF4y2B一个点gydF4y2B一个作为组合运算符⊗。gydF4y2B一个

^{fgydF4y2B一个}ARC-I+cat Q/A:模型使用gydF4y2B一个建筑igydF4y2B一个计算相关分数和gydF4y2B一个猫gydF4y2B一个作为组合运算符⊗。gydF4y2B一个

^{ggydF4y2B一个}ARC-I+dot Q/A:模型使用gydF4y2B一个建筑igydF4y2B一个计算相关分数和gydF4y2B一个点gydF4y2B一个作为组合运算符⊗。gydF4y2B一个

我们还可视化了所有方法的工作特性曲线，如图所示gydF4y2B一个图5gydF4y2B一个．从gydF4y2B一个表3gydF4y2B一个而且gydF4y2B一个图5gydF4y2B一个，我们有以下的观察。gydF4y2B一个

首先，所有提议gydF4y2B一个深度学习gydF4y2B一个使用相关性特征并考虑相关性与问题或动作之间的交互的方法，其表现明显优于gydF4y2B一个基线gydF4y2B一个的方法。这说明文本相关性测量模块生成的相关性特征向量能够有效地捕获相关内容。将这些特征向量与问题在场和动作在场特征相结合，有助于捕捉它们之间的相互作用，在影响关系分类中取得了较好的效果。相比之下，gydF4y2B一个基线gydF4y2B一个直接遵循定义2的方法表现不佳。这是由于无法捕捉文本相关性与问题或动作存在之间的相互作用，以及手动为每个模块设置适当的截止阈值的挑战。gydF4y2B一个

第二，模型的使用gydF4y2B一个点gydF4y2B一个操作人员的表现优于使用gydF4y2B一个猫gydF4y2B一个操作符。主要有两个原因。首先，问题概率和行动概率可能相互作用gydF4y2B一个VgydF4y2B一个_{ABgydF4y2B一个}而且gydF4y2B一个VgydF4y2B一个_{公元前gydF4y2B一个}方法可以很好地捕获相关向量gydF4y2B一个点gydF4y2B一个操作符。gydF4y2B一个图1gydF4y2B一个B展示了一个例子，其中动作在gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}与讨论中的gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}而且gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}．美国的行动gydF4y2B一个pgydF4y2B一个_{C2gydF4y2B一个}与gydF4y2B一个化疗gydF4y2B一个的共同内容gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}而且gydF4y2B一个pgydF4y2B一个_{B2gydF4y2B一个}．在这种情况下，需要将动作概率与gydF4y2B一个VgydF4y2B一个_{ABgydF4y2B一个}．尽管，在另一种情况下，动作指的是中提到的选项gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}，之间的相互作用gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}而且gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}更有可能是动作的上下文，因此，动作概率需要结合起来gydF4y2B一个VgydF4y2B一个_{公元前gydF4y2B一个}．相比之下，gydF4y2B一个猫gydF4y2B一个由于一些中性点的缺失，操作者忽略了问题(动作)与上下文之间的一些交互。因此,gydF4y2B一个猫gydF4y2B一个方法的查全率比gydF4y2B一个点gydF4y2B一个的方法。结果表明，行为与环境之间的相互作用对于影响识别是重要的。gydF4y2B一个

此外,gydF4y2B一个ARC-I +点Q / AgydF4y2B一个有更好的精密度，准确度，ROC AUC和PR AUCgydF4y2B一个MatchPyramid +点Q / AgydF4y2B一个但记忆力较低，F值略低gydF4y2B一个_{1gydF4y2B一个}．这是因为ARC-I在文本相关性测量模块中取得了比MatchPyramid更好的性能。gydF4y2B一个ARC-I +点Q / AgydF4y2B一个比严格gydF4y2B一个MatchPyramid +点Q / AgydF4y2B一个当模型拟合到相关因子时。对于想要分析具有影响力的帖子的写作风格和模式的应用程序，精度是至关重要的。gydF4y2B一个ARC-I +点Q / AgydF4y2B一个是有效的定位这样的讨论。相比之下，对于希望检查有影响力的帖子的信息质量以防止和减轻误导性信息传播的应用程序，gydF4y2B一个MatchPyramid +点Q / AgydF4y2B一个更适合，因为它的召回率更高。gydF4y2B一个

案例研究gydF4y2B一个

图1gydF4y2B一个显示3个关系的示例，(gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}pgydF4y2B一个_{B1gydF4y2B一个}pgydF4y2B一个_{C1gydF4y2B一个})， (gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}pgydF4y2B一个_{B2gydF4y2B一个}pgydF4y2B一个_{C2gydF4y2B一个})，及(gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}pgydF4y2B一个_{B3gydF4y2B一个}pgydF4y2B一个_{C3gydF4y2B一个})，其中(gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}是线程的初始帖子。用我们的系统计算这3种关系的得分分别为0.282、0.793和0.622。我们的系统识别出(gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}pgydF4y2B一个_{B2gydF4y2B一个}pgydF4y2B一个_{C2gydF4y2B一个})及(gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}pgydF4y2B一个_{B3gydF4y2B一个}pgydF4y2B一个_{C3gydF4y2B一个})，因为每个都包含一种影响关系，以及(gydF4y2B一个pgydF4y2B一个_{一个gydF4y2B一个}pgydF4y2B一个_{B1gydF4y2B一个}pgydF4y2B一个_{C1gydF4y2B一个})不会。从帖子内容中可以看出，gydF4y2B一个pgydF4y2B一个_{B2gydF4y2B一个}为初始作者提供有关治疗决定的建议。在后期gydF4y2B一个pgydF4y2B一个_{C2gydF4y2B一个}中提出的建议，初步阐述了应采取的行动gydF4y2B一个pgydF4y2B一个_{B2gydF4y2B一个}．在后期gydF4y2B一个pgydF4y2B一个_{B3gydF4y2B一个}，回复者建议作者使用假发。最初的作者接着问了更多关于假发信息的问题。这两种关系都表明最初的作者受到了影响。相比之下,gydF4y2B一个pgydF4y2B一个_{B1gydF4y2B一个}讨论一般信息并安慰原作者，并在原作者中表示感谢gydF4y2B一个pgydF4y2B一个_{C1gydF4y2B一个}，但没有迹象表明受到了影响。gydF4y2B一个

主要研究结果gydF4y2B一个

据我们所知，这是第一项界定与ohc决策相关的讨论帖子的影响关系的研究。我们提出了一个基于深度学习的自然语言处理原型来识别影响关系。然后，我们应用开发的技术来确定OHC, CSN乳腺癌论坛的影响关系。主要有两个观察结果。gydF4y2B一个

首先，我们发现在热含量中存在大量的影响关系。在Li等人确定的9052种决策线索关系中[gydF4y2B一个1gydF4y2B一个]， 3069个(33.9%)被认为是影响关系。也就是说，大约三分之一的通信影响最初作者的决策。此外，在5143个至少有一种关系的决策线程中，2417个(47%)包含至少一种影响关系。由于这种现象普遍存在，研究有影响力的职位很重要。gydF4y2B一个

其次，我们还观察到，有影响力的帖子可能有助于吸引用户参与讨论。包含至少一种影响关系的线程中的平均帖子数为15.5，而不包含任何影响关系的线程中的平均帖子数为12.6。我们的猜想是，有影响力的帖子可能会提供有用的信息或良好的推理，这些帖子发人深省，有助于用户参与讨论。gydF4y2B一个

在这些观察的基础上，可以从识别和分析影响关系中获益的应用有几种。gydF4y2B一个

首先，分析有影响力的帖子的质量，有助于提高影响力的质量。正如在第一个观察中所讨论的，影响关系是常见的。就提高影响力的效果和减少误导性信息的传播而言，这些帖子的质量检查比其他帖子的质量检查更为关键。gydF4y2B一个

在识别影响关系的基础上，我们可以进一步识别OHCs中有影响力的用户。我们可以使用现有的技术来分析网络特征，以识别有影响力的用户[gydF4y2B一个16gydF4y2B一个-gydF4y2B一个20.gydF4y2B一个]，该工作计算边缘权重(即post的影响)。识别和检查有影响力的用户有助于高质量的信息传播。gydF4y2B一个

其次，基于第二项观察，分析有影响力的帖子的写作风格，为医疗保健专业人员提供了有效沟通患者参与的见解。gydF4y2B一个

此外，确定影响关系有助于提出有效的信息建议，以解决信息过载问题。当用户在ohc中搜索信息时，重要的是对讨论线程和帖子进行排名，并向用户推荐最相关和最有帮助的讨论。基于对影响关系的分析和第二个观察，包含影响关系的讨论更有可能提供有用的信息，并鼓励患者参与。因此，影响关系的存在是影响排名的积极因素。gydF4y2B一个

限制gydF4y2B一个

我们的研究结果并非没有局限性。首先，我们对关系的定义是基于3个帖子，包括线程中的初始帖子。因此，我们只确定了对最初作者有影响的帖子。但是，与同一作者的第一个和第三个帖子有顺序回复关系的任何3个帖子都可以表示一个关系。我们推测，所提出的技术可以用于识别广义关系中的影响关系，并计划在未来研究该问题。其次，在本研究中，我们考虑了帖子之间的文本相关性关系。有时候，即使是两篇文章，gydF4y2BapgydF4y2B一个_{BgydF4y2B一个}而且gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}，是相关的整体，有疑问或将来动作指示的具体句子gydF4y2B一个pgydF4y2B一个_{CgydF4y2B一个}可能不相关的建议在gydF4y2B一个pgydF4y2B一个_{BgydF4y2B一个}．此外，当前用于未来动作检测的技术有时会产生误报。为了解决这些问题，我们将研究如何利用词性和参考解析技术[gydF4y2B一个47gydF4y2B一个来提高自然语言理解能力。gydF4y2B一个

结论及未来工作gydF4y2B一个

我们研究了基于网络讨论的影响关系识别问题，并开发了用于识别OHCs中影响关系的技术和原型系统。所提出的深度学习模型证明了比较方法的性能优势。在未来的工作中，我们将解决上述的局限性，以提高所提出技术的通用性和准确性。gydF4y2B一个

致谢gydF4y2B一个

本材料基于部分由莱尔基金会支持的工作和美国国立卫生研究院(UL1TR003017)的拨款。gydF4y2B一个

利益冲突gydF4y2B一个

没有宣布。gydF4y2B一个

李敏，史杰，陈燕。在线健康社区患者决策分析。见:2019年IEEE医疗保健信息学国际会议论文集，2019年发表于:ICHI '19;2019年6月10日至13日;中国西安，p. 1-8。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
Fan H, Smith SP, Lederman R, Chang S.为什么人们信任在线健康社区:一个综合方法。见:第21届澳大拉西亚信息系统会议论文集。2010年发表于:ACIS '10;2010年8月18日至20日;日本山形。gydF4y2B一个
Kim HS, Mrotek A.在线健康社区可持续性的功能和结构诊断:关注资源丰富度和网站设计特征。Comput Human behaviour 2016 10月;63:362-372。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
虚拟社区在医疗保健中的传播:概念和挑战。患者教育计数2006 Aug;62(2):178-188。［gydF4y2B一个CrossRefgydF4y2B一个] [gydF4y2B一个MedlinegydF4y2B一个］gydF4y2B一个
Nasralah T, notoboom C, Wahbeh A, Al-Ramahi MA。在线健康推荐系统:一个社会支持的视角。达科塔州立大学，2017。URL:gydF4y2B一个https://scholar.dsu.edu/cgi/viewcontent.cgi?article=1008&context=bispapersgydF4y2B一个[2022-06-10]访问gydF4y2B一个
姬x, Geller J, Chun S.面向患者的医疗保健知识支持的社会信息按钮。在:2014年AMIA年度研讨会论文集。2014年发表于:AMIA '14;2014年11月15日至19日;美国华盛顿特区。gydF4y2B一个
沃特沃斯，卢克。不情愿的合作者:患者希望参与有关护理的决策吗?中华儿科杂志1990年8月;15(8):971-976。［gydF4y2B一个CrossRefgydF4y2B一个] [gydF4y2B一个MedlinegydF4y2B一个］gydF4y2B一个
Hibbard JH, Greene J.关于患者激活的证据表明:更好的健康结果和护理体验;更少的成本数据。卫生Aff (Millwood) 2013年2月;32(2):207-214。［gydF4y2B一个CrossRefgydF4y2B一个] [gydF4y2B一个MedlinegydF4y2B一个］gydF4y2B一个
乳腺癌。癌症幸存者网络。URL:gydF4y2B一个https://csn.cancer.org/forum/127gydF4y2B一个[2022-06-10]访问gydF4y2B一个
雅拉吉，王伟，高广根，Agarwal R.在线质量评级如何影响患者对医疗服务提供者的选择:对照实验调查研究。J Med Internet Res 2018年3月26日;20(3):e99 [gydF4y2B一个免费全文gydF4y2B一个] [gydF4y2B一个CrossRefgydF4y2B一个] [gydF4y2B一个MedlinegydF4y2B一个］gydF4y2B一个
张东，岳文涛。社会化媒体在决策中的应用:第十届电子商务研讨会决策支持系统特刊。Decis Support Syst 2014 7月;63:65-66。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
吴波，姜松，陈慧。网络健康论坛中个人动机对传播的影响。社会科学学报2016年3月23日;44(2):299-312。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
潘伟，沈超，冯波。一分付出一分收获:理解网络健康支持论坛的回复互惠与社会资本。中华卫生杂志2017年1月;22(1):45-52。［gydF4y2B一个CrossRefgydF4y2B一个] [gydF4y2B一个MedlinegydF4y2B一个］gydF4y2B一个
Li S, Feng B, Wingate VS.感谢一点，你会发现很多:寻求支持者的回复在在线支持提供中的作用。中国生物医学工程学报，2019;26(2):379 - 379。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
于杰，胡勇，于明，狄哲。分析论坛上网友的观点和回复行为。物理统计机械应用2010年8月;389(16):3267-3273。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
唐旭，杨成昌。在线医疗社交网络中有影响力用户的识别。载于:2010年IEEE国际情报与安全信息学会议论文集，2010年发表于:ISI '10;2010年5月23-26日;加拿大温哥华，第43-48页。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
Cha M, Haddadi H, Benevenuto F, Gummadi K.衡量Twitter用户影响力:百万粉丝谬误。计算机科学进展，2010;4(1):10-17。gydF4y2B一个
isfaq U, Khan HU, Iqbal K.识别有影响力的博主:基于情绪分析的模块化方法。中国计算机工程学报，2017;16(5):553 - 553。gydF4y2B一个
赵凯，邱波，Caragea C，吴东，Mitra P，闫杰，等。确定在线癌症幸存者社区的领导者。见:第21届信息技术与系统年度研讨会论文集。2011年发表于:WITS '11;2011年12月3-4日;中国上海，第115-120页。gydF4y2B一个
侯旭，雷库，郭玉坤。OP-DCI: MOOC论坛中有影响力用户识别的无风险k均值聚类。第16届IEEE机器学习与应用国际会议论文集，2017,ICMLA '17;2017年12月18日至21日;墨西哥坎昆，第936-939页。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
赵凯，闫娟，葛瑞尔，邱波，Mitra P, Portier K.基于情感影响力的在线健康社区有影响力用户的新度量。J Am Med Inform association 2014 10月;21(e2):e212-e218 [gydF4y2B一个免费全文gydF4y2B一个] [gydF4y2B一个CrossRefgydF4y2B一个] [gydF4y2B一个MedlinegydF4y2B一个］gydF4y2B一个
Cercel DC, Trausan-Matu S.在线论坛线程的意见影响分析。第16届科学计算符号和数值算法国际研讨会论文集。2014年发表于:SYNASC '14;2014年9月22-25日;罗马尼亚蒂米什瓦拉，页228-235。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
邱斌，赵凯，Mitra P，吴东，Caragea C，闫杰，等。获得在线支持，感觉更好——在线癌症幸存者社区的情感分析和动态。在:IEEE第三届隐私、安全、风险和信任国际会议和IEEE第三届社会计算国际会议论文集，2011年发表于:SocialCom '11;2011年10月9日至11日;波士顿，马萨诸塞州，美国p. 274-281。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
影响的定义。梅里亚姆-韦伯斯特。URL:gydF4y2B一个https://www.merriam-webster.com/dictionary/influencegydF4y2B一个[2022-06-10]访问gydF4y2B一个
基德C，海登BY。好奇心的心理学和神经科学。神经元2015年11月04日;39 (3):449-460 [gydF4y2B一个免费全文gydF4y2B一个] [gydF4y2B一个CrossRefgydF4y2B一个] [gydF4y2B一个MedlinegydF4y2B一个］gydF4y2B一个
帕洛夫·RM，普拉特·K.《虚拟课堂的教训:在线教学的现实》第二版。霍博肯，新泽西州，美国:John Wiley & Sons;2013.gydF4y2B一个
Adjei MT, Noble SM, Noble CH.线上品牌社区C2C传播对顾客购买行为的影响。中国生物医学工程学报2009 11月13日;38(5):634-653。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
刘颖，陈芳，陈颖。患者论坛学习帖回复结构。见:2013年医疗保健数据管理与分析国际研讨会论文集，2013年发表于DARE '13;2013年11月1日;美国加州旧金山，第1-4页。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
黄鹏飞，何晓霞，高娟，邓龙，何晓霞。基于点击量的深度结构化语义模型研究。载于:第22届ACM信息与知识管理国际会议论文集，2013,CIKM '13;2013年10月27日至11月1日;美国加州旧金山，p. 2333-2338。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
沈勇，何晓霞，高军，邓龙，李国强。基于卷积神经网络的网络语义表示学习方法。见:第23届万维网国际会议论文集。2014年发表于:WWW '14 Companion;2014年4月7日至11日;韩国首尔，第373-374页。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
胡斌，陆智，李宏，陈强。基于卷积神经网络的自然语言句子匹配。见:神经信息处理系统第27届国际会议论文集-第2卷。2014年发表于:NIPS’14;2014年12月8日至13日;加拿大蒙特利尔，p. 2042-2050。gydF4y2B一个
王玉春，克劳特R，莱文JM。留下还是离开?情感和信息支持与在线健康支持小组承诺的关系。载于:ACM 2012年计算机支持协同工作会议论文集。2012年发表于:CSCW '12;2012年2月11-15日;西雅图，华盛顿州，美国p. 833-842。［gydF4y2BaCrossRefgydF4y2B一个］gydF4y2B一个
吕震，李华。一种用于短文本匹配的深度体系结构。见:第26届神经信息处理系统国际会议论文集-第1卷。2013年发表于:NIPS '13;2013年12月5-10日;太浩湖，NV，美国p. 1367-1375。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
庞玲，兰艳，郭娟，徐娟，万松，程旭。文本匹配图像识别。Proc Conf AAAI Artif Intell 2016年3月5日;30(1):10341。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
Devlin J, Chang MW, Lee K, Toutanova K. BERT:深度双向转换器的语言理解预训练。arXiv 2018 10月11日。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
问题是内容:微博环境中问题的分类。Proc Am Soc信息科学技术2011 Feb 03;47(1):1-10。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
刘志，杨森。提问者或问题:预测新浪微博社交问答的回复率。2018年3月;54(2):159-174。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
兰甘纳斯，胡霞，唐杰，王松，刘慧。社交媒体中的反问句识别。Proc Conf AAAI Artif intel 2016;10(1):667-670。gydF4y2B一个
Ranganath S，胡霞，唐杰，王晟，刘慧。社交媒体中的修辞问题理解与识别。ACM智能系统技术2018年3月31日;9(2):1-22。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
Ojokoh B, Igbe T, Araoye A, Ameh F.学术问答网站的问题识别和分类。2016年第16届ACM/IEEE-CS数字图书馆联合会议论文集，JCDL '16;2016年6月19-23日;美国新泽西州纽瓦克，第223-224页。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
Bird S, Loper E. NLTK:自然语言工具包。在:ACL互动海报和演示会议的会议记录。2004年发表于:ACL '04;2004年7月21日至26日;西班牙巴塞罗那，第214-217页。gydF4y2B一个
Goodfellow I, Yoshua B, Courville A.深度学习。美国马萨诸塞州剑桥:麻省理工学院出版社;11月2016:4。gydF4y2B一个
金马平，巴杰。亚当:一种随机优化方法。见:第三届学习表征国际会议论文集。2015年发表于:ICLR '15;2015年5月7-9日;圣地亚哥，加利福尼亚州，美国。gydF4y2B一个
李明达，史金和，陈毅。NJIT-AI-in-Healthcare /影响-关系-分类。GitHub。2022年2月27日。URL:gydF4y2B一个https://github.com/NJIT-AI-in-Healthcare/Influence-Relationship-ClassificationgydF4y2B一个[2022-06-10]访问gydF4y2B一个
Scrapy。URL:gydF4y2B一个https://scrapy.org/gydF4y2B一个[2022-06-10]访问gydF4y2B一个
Krizhevsky A, Sutskever I, Hinton GE。基于深度卷积神经网络的ImageNet分类。通讯ACM 2017 Jun;60(6):84-90。［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个
刘勇，史杰，陈勇。基于用户体验的在线健康论坛药物不良反应有效发现挖掘。中国机械工程学报，2017年9月22日;［gydF4y2B一个CrossRefgydF4y2B一个］gydF4y2B一个

‎gydF4y2B一个

ARC-I:gydF4y2B一个建筑igydF4y2B一个

ARC-II:gydF4y2B一个Architecture-IIgydF4y2B一个

伯特:gydF4y2B一个来自变压器的双向编码器表示gydF4y2B一个

CSN:gydF4y2B一个癌症幸存者网络gydF4y2B一个

DSSM:gydF4y2B一个深度结构化语义模型gydF4y2B一个

OHC:gydF4y2B一个在线健康社区gydF4y2B一个

公关AUC:gydF4y2B一个精度-召回曲线下的面积gydF4y2B一个

中华民国AUC:gydF4y2B一个接收机工作特性曲线下面积gydF4y2B一个

R·库卡夫卡编辑;提交03.06.21;同行评议:S Liu, G Lim;作者评论02.08.21;修订版本收到05.10.21;接受21.03.22;发表31.08.22gydF4y2Ba

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。gydF4y2B一个

本文内容如下gydF4y2B一个e-collection /主题问题:gydF4y2B一个

识别在线健康社区患者决策过程中的影响:数据科学方法gydF4y2B一个

识别在线健康社区患者决策过程中的影响:数据科学方法gydF4y2B一个

原始论文gydF4y2B一个

通讯作者:gydF4y2B一个

摘要gydF4y2B一个

关键字gydF4y2B一个

简介gydF4y2B一个

背景gydF4y2B一个

目标gydF4y2B一个

文献综述gydF4y2B一个

贡献gydF4y2B一个

方法gydF4y2B一个

问题定义gydF4y2B一个

讨论线程的定义gydF4y2B一个

关系的定义gydF4y2B一个

概述gydF4y2B一个

定义1(关系)gydF4y2B一个

影响关系的定义gydF4y2B一个

直觉gydF4y2B一个

定义2(影响关系)gydF4y2B一个

模型设计gydF4y2B一个

概述gydF4y2B一个

关系提取模块gydF4y2B一个

文本相关性测量模块gydF4y2B一个

问题概率计算模块gydF4y2B一个

动作概率计算模块gydF4y2B一个

特性组合模块gydF4y2B一个

概述gydF4y2B一个

基线的方法gydF4y2B一个

深度学习方法gydF4y2B一个

伦理批准gydF4y2B一个

结果gydF4y2B一个

实验设置与评价指标gydF4y2B一个

文本相关性评价gydF4y2B一个

问题与行动概率评估gydF4y2B一个

影响关系分类评价gydF4y2B一个

案例研究gydF4y2B一个

讨论gydF4y2B一个

主要研究结果gydF4y2B一个

限制gydF4y2B一个

结论及未来工作gydF4y2B一个

致谢gydF4y2B一个

利益冲突gydF4y2B一个

参考文献gydF4y2B一个

缩写gydF4y2B一个