这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。gydF4y2B一个
近年来,越来越多的用户加入在线保健社区以获取信息和寻求支持。病人经常寻求信息和建议来支持他们的医疗保健决策。重要的是要了解患者的决策过程并确定患者从OHCs中受到的影响。gydF4y2B一个
我们的目标是确定讨论线程中对在决策中寻求帮助的用户有影响的帖子。gydF4y2B一个
我们提出了讨论区帖子影响关系的定义。然后我们开发了一个框架和一个深度学习模型来识别影响关系。我们利用最先进的文本相关性度量方法生成稀疏特征向量来表示文本相关性。我们将问题和动作在帖子中出现的概率建模为密集特征。然后,我们使用深度学习技术将稀疏和密集特征结合起来学习影响关系。gydF4y2B一个
我们在一位受欢迎的癌症幸存者OHC的讨论线程上评估了所提议的技术。实证评价证明了该方法的有效性。gydF4y2B一个
确定OHCs中的影响关系是可行的。利用所提议的技术,确定大量关于一项职业健康问题的讨论产生了影响。这种讨论更有可能影响用户的决策过程,并促使用户参与人力资源安全。对这些讨论的研究有助于提高信息质量、用户粘性和用户体验。gydF4y2B一个
近年来,在线健康社区(OHCs),如癌症幸存者网络(CSN)、MedHelp、DoctorLounge、WebMD和健康公告板留言板,已成为患者利用的最重要资源之一[gydF4y2B一个
增强和支持患者作出知情的卫生保健决定是以患者为中心的卫生保健的一个关键组成部分,是社会、经济和技术上的必要条件[gydF4y2B一个
本研究的目的是确定与医疗保健决策相关的讨论线程中的帖子的影响关系。具体来说,我们定义了影响关系并确定了影响最初作者的帖子回复,他在OHCs上发布了问题。gydF4y2B一个
这项研究的结果对于卫生保健专业人员帮助患者做出明智的决定是很重要的,原因有几个。首先,分析具有影响力的帖子的写作风格和模式可能有助于解释它们具有影响力的原因,并为医疗保健专业人员与患者的有效沟通提供见解。第二,如果有影响力的岗位提供的信息不准确,就会误导患者。要提高影响力的质量,就必须检查这些职位的信息质量。此外,有问题但没有收到任何有影响的答复的患者可能需要进一步的帮助。gydF4y2B一个
虽然对确定职位的影响关系的研究有限,但对职业热含量分析进行了大量研究。已有几项研究分析了论坛用户回复之间的互惠模式[gydF4y2B一个
寻找论坛帖子之间的影响力关系不同于寻找有影响力的用户,需要不同的技术。在OHC中,一个线程的最初作者通常表达的是一个问题,而不是一个观点。当对问题的答复影响到最初的作者时,就会产生影响。目前只有两项研究考虑了回复者对原作者的影响[gydF4y2B一个
让我们看一个与病人决策相关的讨论线程的例子,如图所示gydF4y2B一个
讨论线程的示例。gydF4y2B一个
在gydF4y2B一个
相比之下,在gydF4y2B一个
我们不考虑情绪的变化,而是建议使用相关回答的问题或未来行动作为受影响的指标,如前面的例子所示。在确定影响关系方面有两个主要挑战。首先,我们需要定义帖子的影响力关系。我们检查了帖子内容的语义,以定义影响关系。与有影响力的用户不同,有影响力的用户是由现有工作中的网络特征定义的[gydF4y2B一个
本研究为确定与患者决策相关的OHCs讨论线索中的影响关系做出了新的贡献。具体而言,(1)根据岗位内容的语义定义了岗位之间的影响关系;(2)提出了一种提取并结合稀疏和密集特征的可扩展深度学习模型,用于识别人力资源含量决策线程中的影响关系;(3)所提模型在实证评价中识别影响关系方面取得了良好的效果。gydF4y2B一个
在本节中,我们首先对热含量数据建模,并在讨论线程中定义影响关系。然后,我们提出了一个基于深度学习的模型来识别影响关系。gydF4y2B一个
在线健康社区的数据结构。gydF4y2B一个
现有的工作(gydF4y2B一个
在本文中,我们研究如何识别决策线程的初始作者受回复帖子影响的情况。注意,我们的研究适用于任何与决策相关的线程讨论。决策线程的定义和识别可使用现有工作中开发的方法进行处理[gydF4y2B一个
在介绍定义之前gydF4y2B一个
我们定义三个职位之间的关系gydF4y2B一个
我们使用gydF4y2B一个
此外,请注意现有的识别有影响力用户的工作[gydF4y2B一个
现在,我们讨论如何定义gydF4y2B一个
首先,直觉上,如果postgydF4y2B一个
第二,我们参考了的定义gydF4y2B一个
一种被影响的观察是,最初的作者可能会问问题gydF4y2B一个
第二个迹象表明,最初的作者受到了一篇文章的影响gydF4y2B一个
在这些观察的基础上,我们在下一节中定义决策线程中的影响关系。gydF4y2B一个
一段关系gydF4y2B一个
为了识别影响关系,我们将其建模为一个分类任务。给定一组关系gydF4y2B一个
在本节中,我们提出了确定OHCs决策线程中的影响关系的方法。gydF4y2B一个
给定一组讨论线程作为输入,我们首先使用关系提取模块提取三元关系。然后分别使用文本相关性度量模块、问题概率计算模块和动作概率计算模块计算文本相关性特征、问题概率特征和动作概率特征。最后,利用特征组合模块中的深度学习模型对所有特征进行组合,生成关系为影响关系的概率。gydF4y2B一个
影响关系识别工作流程。gydF4y2B一个
在本节中,我们将介绍关系提取模块,该模块提取定义1中定义的所有关系。gydF4y2B一个
在第一步关系提取中,我们基于html文件的缩进格式构建了回复树结构。对于每个相邻的帖子对,之前发布的帖子被视为后一个帖子的父帖子。一个职位和初始职位之间的祖先-后裔距离用制表符的数量表示。线程的回复结构说明在gydF4y2B一个
现有工作观察到,在一些论坛中,讨论线程中的回复结构可能不是完全可用的,并提出了构建完整回复结构的技术[gydF4y2B一个
然后我们导航线程树以提取所有关系三元组,如定义1中所定义的那样。每个三元组都从初始的帖子开始,接着是另一个作者对初始帖子的回复,然后是初始作者的后续回复,所有这些都位于线程树中的同一路径上。例如,gydF4y2B一个
文本相关性度量模块使用0到1之间的相关性评分来度量两个帖子的内容相关性或文本语义相似性。gydF4y2B一个
文献中主要有两种基于深度学习的方法来衡量文本相关性。第一类方法提取2个输入文本的内容特征向量,然后将其组合起来进行预测,如深度结构化语义模型(Deep Structured Semantic Models, DSSM) [gydF4y2B一个
第二种类型首先生成词级相关性,然后使用神经网络学习内容级相关性的分层交互模式,如DeepMatch [gydF4y2B一个
我们在实验中评估了两种测量文本相关性的方法。在评价中,我们选择了两种具有代表性的方法作为文本相关性度量模块。对于第一种类型,我们选择ARC-I [gydF4y2B一个
我们进一步提出从变压器(BERT)改编双向编码器表示[gydF4y2B一个
我们现在讨论如何使用问题概率计算模块计算包含问题的帖子的概率。gydF4y2B一个
在论坛中识别问题句有两种方法:基于规则的方法和基于学习的方法。在基于规则的方法中,问号和5W1H单词(what, who, when, where, why, how)被用来识别疑问句[gydF4y2B一个
基于规则的方法和基于学习的方法都可以实现出色的性能。一项研究表明,基于规则的方法可以优于复杂的基于学习的方法[gydF4y2B一个
问题后每句话的概率在一个帖子中gydF4y2B一个
本节介绍了动作概率计算模块,该模块生成了一个帖子中动作出现的概率。gydF4y2B一个
未来动作的指示可以通过动词和适当的句子时态来捕捉。自然语言工具包(NLTK) [gydF4y2B一个
注意,我们没有在动作概率计算模块中考虑否定。例如,in postgydF4y2B一个
指的是gydF4y2B一个
现在我们讨论基于这些特征度量影响得分的特征组合模块。我们讨论了两种替代方法:gydF4y2B一个
特性组合模块的体系结构。gydF4y2B一个
回顾一下,根据定义2,影响力关系的存在需要职位之间的相关性gydF4y2B一个
我们将每个组件的阈值设置为0.5、0.5和0.9。gydF4y2B一个
我们进一步提出了一个深度学习模型,该模型结合了文本相关性、问题出现的可能性和未来行动出现的可能性来识别影响关系。该模型的体系结构显示在gydF4y2B一个
相比gydF4y2B一个
让gydF4y2B一个
然后这些特征被连接起来。问题或将来的行动gydF4y2B一个
这两个操作符在连接特征时有两个主要的区别:gydF4y2B一个
在gydF4y2B一个
我们使用公式3中定义的二元交叉熵损失函数来训练模型,使基础真理的概率分布与预测得分的概率分布之间的距离最小。gydF4y2B一个
在哪里gydF4y2B一个
所有材料都来自匿名的开源数据。因此,不需要伦理批准。gydF4y2B一个
我们实现了一个基于讨论线程的影响关系识别原型系统。用于评估的原型系统和数据集可在GitHub公开获取[gydF4y2B一个
为了进行实证评估,我们收集了CSN乳腺癌论坛上公开的25,208篇文章[gydF4y2B一个
然后使用关系提取模块从决策线程中提取关系,得到9053个关系。我们随机选取了其中的853个(9.42%)进行标记。共有4名博士生参与了手工标注工作。所有的关系三元组和post对首先被独立标记。如果有分歧,经过讨论就能达成共识。共有261个关系被标记为影响关系。回想一下,根据定义1,每个关系都被表示为三元关系(gydF4y2Ba
用于评价的指标包括精度、召回率、FgydF4y2B一个1gydF4y2B一个评分、准确性、受试者工作特征曲线下面积(ROC AUC)和精度-召回曲线下面积(PR AUC)。他们从不同的方面来评估一个系统的有效性:(1)gydF4y2B一个
文本相关性测量模块结果。gydF4y2B一个
|
精度gydF4y2B一个 | 回忆gydF4y2B一个 | FgydF4y2B一个1gydF4y2B一个 | 精度gydF4y2B一个 | 中华民国AUCgydF4y2B一个一个gydF4y2B一个 | 公关AUCgydF4y2B一个bgydF4y2B一个 |
MatchPyramid与伯特gydF4y2B一个cgydF4y2B一个在维基百科上(训练)gydF4y2B一个 | 0.578gydF4y2B一个 |
|
0.730gydF4y2B一个 | 0.512gydF4y2B一个 | 0.502gydF4y2B一个 | 0.583gydF4y2B一个 |
使用word2vec匹配金字塔(在训练数据集上训练)gydF4y2B一个 | 0.781gydF4y2B一个 | 0.820gydF4y2B一个dgydF4y2B一个 |
|
0.692gydF4y2B一个 | 0.763gydF4y2B一个 | 0.854gydF4y2B一个 |
ARC-IgydF4y2B一个egydF4y2B一个与BERT(接受过维基百科训练)gydF4y2B一个 | 0.523gydF4y2B一个 | 0.890gydF4y2B一个dgydF4y2B一个 | 0.659gydF4y2B一个 | 0.503gydF4y2B一个 | 0.493gydF4y2B一个 | 0.554gydF4y2B一个 |
ARC-I和word2vec(在训练数据集上训练)gydF4y2B一个 |
|
0.747gydF4y2B一个dgydF4y2B一个 | 0.785gydF4y2B一个 |
|
|
|
一个gydF4y2B一个ROC AUC:受试者工作特征曲线下的面积。gydF4y2B一个
bgydF4y2B一个PR AUC:精确召回曲线下的面积。gydF4y2B一个
cgydF4y2B一个来自变压器的双向编码器表示。gydF4y2B一个
dgydF4y2B一个的gydF4y2B一个
egydF4y2B一个ARC-I:建筑i。gydF4y2B一个
第二个观察结果是,使用词向量嵌入,ARC-I在大多数评价指标上取得了比MatchPyramid更好的性能。在ARC-I模型中,每个输入文本经过一个嵌入层、一个卷积层和一个最大池化层,然后将提取的特征向量连接在一起作为输入到一个完全连接层,该层计算预测的相关性得分。MatchPyramid首先填充局部词相关性矩阵。矩阵的每个单元格表示输入文本中单词的词嵌入向量的点积。然后使用卷积神经网络提取这些相互作用的模式[gydF4y2B一个
对问题概率计算模块和动作概率计算模块进行了评价。性能表示为gydF4y2B一个
回想一下gydF4y2B一个
问题和动作计算模块的结果。gydF4y2B一个
|
精度gydF4y2B一个 | 回忆gydF4y2B一个 | FgydF4y2B一个1gydF4y2B一个 | 精度gydF4y2B一个 | 中华民国AUCgydF4y2B一个一个gydF4y2B一个 | 公关AUCgydF4y2B一个bgydF4y2B一个 |
问题概率计算模块gydF4y2B一个 |
|
|
|
|
|
|
动作概率计算模块gydF4y2B一个 | 0.771gydF4y2B一个 |
|
0.871gydF4y2B一个 | 0.810gydF4y2B一个 | 0.733gydF4y2B一个 | 0.771gydF4y2B一个 |
一个gydF4y2B一个ROC AUC:受试者工作特征曲线下的面积。gydF4y2B一个
bgydF4y2B一个PR AUC:精确召回曲线下的面积。gydF4y2B一个
cgydF4y2B一个的gydF4y2B一个
影响关系分类结果。gydF4y2B一个
|
精度gydF4y2B一个 | 回忆gydF4y2B一个 | FgydF4y2B一个1gydF4y2B一个 | 精度gydF4y2B一个 | 中华民国AUCgydF4y2B一个一个gydF4y2B一个 | 公关AUCgydF4y2B一个bgydF4y2B一个 |
基线gydF4y2B一个 | 0.300gydF4y2B一个 | 0.231gydF4y2B一个cgydF4y2B一个 | 0.261gydF4y2B一个 | 0.595gydF4y2B一个 | 0.495gydF4y2B一个 | 0.307gydF4y2B一个 |
猫MatchPyramid + Q / AgydF4y2B一个dgydF4y2B一个 | 0.667gydF4y2B一个 | 0.154gydF4y2B一个cgydF4y2B一个 | 0.25gydF4y2B一个 | 0.714gydF4y2B一个 | 0.560gydF4y2B一个 | 0.442gydF4y2B一个 |
MatchPyramid +点Q / AgydF4y2B一个egydF4y2B一个 | 0.633gydF4y2B一个 |
|
|
0.667gydF4y2B一个 | 0.634gydF4y2B一个 | 0.481gydF4y2B一个 |
猫ARC-I + Q / AgydF4y2B一个fgydF4y2B一个 | 0.667gydF4y2B一个 | 0.154gydF4y2B一个cgydF4y2B一个 | 0.25gydF4y2B一个 | 0.714gydF4y2B一个 | 0.637gydF4y2B一个 | 0.515gydF4y2B一个 |
ARC-I +点Q / AgydF4y2B一个ggydF4y2B一个 |
|
0.462gydF4y2B一个cgydF4y2B一个 | 0.571gydF4y2B一个 |
|
|
|
一个gydF4y2B一个ROC AUC:受试者工作特征曲线下的面积。gydF4y2B一个
bgydF4y2B一个PR AUC:精确召回曲线下的面积。gydF4y2B一个
cgydF4y2B一个的gydF4y2B一个
dgydF4y2B一个MatchPyramid+cat Q/A:模型使用gydF4y2B一个
egydF4y2B一个MatchPyramid+dot Q/A:模型使用gydF4y2B一个
fgydF4y2B一个ARC-I+cat Q/A:模型使用gydF4y2B一个
ggydF4y2B一个ARC-I+dot Q/A:模型使用gydF4y2B一个
我们还可视化了各种方法的工作特性曲线,如图所示gydF4y2B一个
首先,提出了gydF4y2B一个
第二,模型的使用gydF4y2B一个
此外,gydF4y2B一个
影响分类的关系。gydF4y2B一个
据我们所知,这是第一项界定与职业健康国家决策有关的讨论职位的影响关系的研究。我们提出了一个基于深度学习的自然语言处理原型来识别影响关系。然后,我们在CSN乳腺癌论坛上应用开发的技术来确定影响关系。主要有两个观察结果。gydF4y2B一个
首先,我们发现在热含量中存在大量的影响关系。在Li等人确定的9052种决策线索关系中[gydF4y2B一个
其次,我们还观察到,有影响力的帖子可能有助于吸引用户参与讨论。包含至少一个影响关系的线程中的帖子的平均数量为15.5,而不包含影响关系的线程中的帖子的平均数量为12.6。我们的猜想是,有影响力的帖子可能会提供有用的信息或良好的推理,这是发人深省的,有助于吸引用户参与讨论。gydF4y2B一个
在这些观察的基础上,可以从确定和分析影响关系中受益的几个应用程序。gydF4y2B一个
首先,分析有影响力的帖子的质量有助于提高影响力的质量。正如在第一个观察中所讨论的,影响关系是常见的。就提高影响的效果和减少误导性信息的传播而言,对这些帖子的质量检查比对其他帖子的质量检查更为关键。gydF4y2B一个
在识别影响关系的基础上,我们可以进一步识别OHCs中有影响力的用户。我们可以使用现有的分析网络特征的技术来识别有影响力的用户[gydF4y2B一个
其次,基于第二个观察,分析有影响力的帖子的写作风格,为医疗保健专业人员提供了关于有效沟通患者参与的见解。gydF4y2B一个
此外,确定影响关系有助于为解决信息过载问题提出有效的信息建议。当用户在OHCs中搜索信息时,重要的是对讨论线程和帖子进行排序,并向用户推荐最相关和最有帮助的讨论。基于对影响关系的分析和第二个观察结果,包含影响关系的讨论更有可能提供有用的信息,并鼓励患者参与。因此,影响力关系的存在是影响排名的积极因素。gydF4y2B一个
我们的结果并非没有局限性。首先,我们的关系定义是基于3个帖子,包括线程中的初始帖子。因此,我们只确定了对最初作者有影响的帖子。但是,任何3个与来自同一作者的第一个和第三个帖子有顺序回复关系的帖子都可以表示一种关系。我们推测,所提出的技术可以用于识别广义关系中的影响关系,并计划在未来研究该问题。其次,在本研究中,我们考虑了帖子之间的文本相关性关系。有时,即使是两个帖子,gydF4y2Ba
我们研究了网络讨论影响关系的识别问题,并开发了识别OHCs影响关系的技术和原型系统。所提出的深度学习模型证明了比较方法的性能优势。在未来的工作中,我们将解决上述的局限性,以提高所提议技术的通用性和准确性。gydF4y2B一个
建筑igydF4y2B一个
Architecture-IIgydF4y2B一个
来自变压器的双向编码器表示gydF4y2B一个
癌症幸存者网络gydF4y2B一个
深度结构化语义模型gydF4y2B一个
在线健康社区gydF4y2B一个
精度-召回曲线下的面积gydF4y2B一个
接收器工作特性曲线下的面积gydF4y2B一个
本材料基于由Leir基金会和美国国立卫生研究院(UL1TR003017)资助的部分工作。gydF4y2B一个
没有宣布。gydF4y2B一个