原始论文 瑞安·里瓦斯,胡扯; Niloofar Montazeri博士; 胡扯; Vagelis Hristidis博士 美国加州大学河滨分校计算机科学与工程系 通讯作者: 瑞安·里瓦斯,胡扯 计算机科学与工程系“, 加州大学河滨分校 钟温斯顿大厦363号 大学大道900号 河滨,加利福尼亚州,92521 美国 电话:1 951 827 2838 电子邮件:<一个href="mailto:rriva002@ucr.edu">rriva002@ucr.edu 摘要 背景:越来越多的医生评论是由患者在互联网上产生的。这些评论涉及一系列不同的主题(特征),包括等待时间、办公室工作人员、医生的技能和床边礼仪。先前关于基于web的客户评论自动分析的大多数工作都假设:(1)产品特性是由少量关键字明确描述的,例如,<我>电池(2)对每个功能的意见都有积极或消极的情绪。然而,在医生评论领域,这种设置限制太大:例如<我>访问持续时间因为医生的评论可以以多种方式表达,并不一定有积极或消极的情绪。 摘要目的:本研究旨在适应现有的并提出新的文本分类方法在医生评论领域。对这些方法的准确性进行评估,以分类一组不同的医生评论特征。 方法:我们首先手动检查了大量的评论,以提取一组在评论中经常提到的特性。然后,我们提出了一种新的算法,通过利用自然语言处理(NLP)工具,超越了单词袋或深度学习分类技术。具体来说,我们的算法自动提取依赖树模式,并使用它们对复习句子进行分类。 结果:我们在现实世界的医生评论数据集上评估了几种最先进的文本分类算法以及基于依赖树的分类器算法。我们表明,使用深度学习或NLP技术的方法往往优于传统的单词袋方法。在我们的实验中,两种最好的方法使用了NLP技术;平均而言,我们提出的分类器比现有的基于nlp的方法性能好2.19%,但它对具体意见的许多预测是不正确的。 结论:我们的结论是,对医生评论进行分类是可行的。自动分类这些评论将允许患者根据个人偏好标准轻松搜索医生。 中国医学网络杂志2018;20(11):e11141 doi: 10.2196/11141 关键字 病人满意度; 患者报告的结果测量; 质量指标,卫生保健; 监督式机器学习 简介 背景 自动评论分析和分类问题因其在电子商务应用中的重要性而引起了广泛的关注[1-3.].最近,用户评价医生的网站数量有所增加。一些著作分析了这些评论的内容和分数,主要是通过定性和定量分析来检查其中的一个子集[4-9]或应用文本挖掘技术来描述趋势[10-12].然而,关于如何对医生评论进行自动分类的研究并不多。 在这项研究中,我们的目标是通过提取文本医生评论中提到的特征和审稿人对每个特征的意见来自动总结文本医生评论的内容;例如,评估审稿人是否认为等待时间或就诊时间长,或者医生是否赞成补充治疗方法。我们通过定义更广泛的评论分类问题的定义来探索实现这一目标的可行性,该问题解决了医生评论领域的挑战,并检查了几种机器学习算法在分类医生评论句子中的表现。 以前关于客户评论分析的工作主要集中在功能的自动提取以及关于这些功能的陈述的极性(也称为意见或情绪)[2,13,14].具体来说,这些工作分2步解决问题:首先,他们使用规则提取特征,然后,对于每个特征,他们使用手工制作的规则或监督机器学习方法估计极性。如果(1)特征是<我>基本,例如手机的电池,通常是用一个关键字来描述,例如<我>这台相机的电池没电了(2)该意见在客观上是积极或消极的,但不支持更多的主观特征,如就诊时间,对一些患者来说,就诊时间长是积极的,对一些患者来说,它是消极的。换句话说,在产品评论中,关于功能的陈述往往更直接,明确的积极或消极,而对服务的评论,如医生的评论,往往不那么明确,因为可能有许多方法来表达对服务的某些方面的意见。 在我们的研究中,特征可能更复杂,例如<我>访问时间特征可以用不同的短语来表达,如“花时间和我在一起”,“花时间”,“不着急”,等等。另一个例子,“预约”可以有很多不同的表达方式,例如,“我可以在几天内安排一次访问”或“我最早可以在一个月内预约”。其他复杂类包括<我>工作人员或<我>医疗技术. 此外,在我们的研究中,对一个用户来说是积极的可能对另一个用户来说是消极的。例如,考虑一下这句话:“陈医生非常快,所以实际上没有等待时间,你在20分钟内就可以进出。”这句话中的情绪是积极的,但短暂的访问所隐含的<我>进出不超过20分钟有些病人可能是阴性的。相反,我们想测量的是长访问时间和短访问时间。这与检测情绪转变的工作不同。15]因为它不足以探测到<我>真正的情感,但我们也必须将它与一个类(长访问时间vs短访问时间)联系起来。 为了解决评论分类问题的这种变化,我们创建了一个标记数据集,由1017个基于web的医生评论中的5885个句子组成。我们确定了几种医生评论意见的类别,并根据这些意见类别的存在和极性对每个句子进行标记。请注意,我们对极性的定义比以前的工作更广泛,因为它不是严格的积极和消极,而是考虑到患者意见的主观性(例如,补充医学被一些人认为是好的,而被另一些人认为是坏的)。 我们调整现有的分类器并提出新的分类器来对医生评论进行分类。特别地,我们考虑了3种不同类型的分类器: 词袋分类器,例如支持向量机[16,17]和随机森林[18这种方法利用了复习文本的统计属性,比如每个单词的出现频率。 深度学习方法如卷积神经网络(CNN) [19,也会考虑单词的接近程度。 基于自然语言处理(NLP)的分类器,利用回顾句的依赖树[20.].具体来说,我们考虑一个现有的基于nlp的分类器[21],并提出了一种新的基于依赖树的分类器(Dependency Tree-Based Classifier, DTC)。 DTC为评论中的每个句子生成依赖树,并应用一组规则来提取依赖树匹配模式。然后根据训练集上的准确性对这些模式进行排名。最后,根据最高等级的匹配模式对新评论的句子进行分类。这与Matsumoto等人的研究形成了对比[21],它将依赖树模式视为支持向量机分类器中的特征。 我们的研究结果表明,将医生的评论分类以识别患者的意见是可行的。结果还表明,DTC通常优于所有其他实现的文本分类技术。 以下是我们的贡献摘要: 我们对医生评论领域的评论分类问题提出了一个更广泛的定义,其中的特征可以是复杂的实体,极性不是严格的正或负。 我们在包含一组常用和有用特征的标记医生评论数据集上评估了5种最先进的分类技术。 我们提出了一种新的基于决策树的分类器,并表明它优于其他方法;我们已经在网上发布了代码[22]. 文献综述 在本节中,我们回顾了与该研究相关领域的研究,我们将其分为5类: 定量和定性分析医生评论评分和内容 文本挖掘技术在描述医生评论趋势中的应用 客户评论中的特征和极性提取 依赖树模式在情感分析中的应用 最近在文本分类方面的工作 医生评论分析 之前的几项研究分析了基于网络的医生评论。Gao等人描述了医生评论随着时间的推移的趋势,以确定哪些特征会影响网络评级[4].他们发现,产科医生或妇科医生和长期毕业的医生比其他医生、刚毕业的医生、委员会认证的医生、高评级的医学院毕业生以及没有医疗事故索赔的医生更有可能得到更高的评价,而且评价普遍是积极的。Segal等人比较了医生评论统计与外科手术量[5].他们发现,通过分析数字评分的数量、文本评论的数量、积极评论的比例和批评评论的比例,可以将高容量外科医生与低容量外科医生区分开来。López等人对医生评论进行了定性内容分析[6].他们发现大多数评论都是积极的,并在他们分析的评论中确定了3个主要领域:人际关系方式、技术能力和系统问题。郝教授分析了国内在线健康社区“好医生在线”,发现妇产科儿科医生被评价的可能性最高,内科医生被评价的可能性较低,且大多数评价都是正面的[7].Smith和Lipoff对来自Yelp和ZocDoc的皮肤病学实践评论进行了定性分析[8].他们发现,ZocDoc的平均评论得分和5星的评论比例都高于Yelp。他们还发现,高分和低分的评论有相似的内容(如医生能力、员工气质和日程安排),但相反的效价。Daskivich等人分析了多个专业的医疗保健提供者评级,发现联合医疗保健提供者(例如,既不是医生也不是护士的提供者)的患者满意度得分高于医生,但这些得分也是最倾斜的[9].他们还得出结论,特定专业的百分比排名可能是消费者对提供商评级有意义的解释所必需的。 医生评论的文本挖掘 以前的其他论文使用文本挖掘技术来描述医生评论的趋势。Wallace等人设计了一个概率生成模型来捕捉护理各个方面的潜在情绪[10].他们表明,将他们的模型的输出纳入回归模型,可以提高与州级质量测量的相关性。Hao和Zhang利用主题建模,从好医生在线收集的医生评论中提取出4个专业的共同主题[11].他们在4个专业中确定了4个热门话题:找医生的经历、技术技能或床边态度、患者欣赏和症状描述。类似地,Hao等人使用主题建模来比较Good Doctor Online和美国医生评论网站RateMDs之间的评论[12].尽管他们在两个网站上发现了相似的主题,但他们也发现了反映两国医疗保健系统差异的差异。这些工作与我们的不同之处在于,它们使用文本挖掘技术来综合分析医生评论,而我们的目标是在个别评论中识别特定的主题。 客户审查功能和极性提取 正如前面在引言中讨论的那样,这些作品在一个更有限的问题设置上运行,其中的特征通常由一个关键字来表达,并且情绪严格地是积极或消极的。Hu和Liu用四步算法提取客户评论中特征的意见[2].该算法通过关联规则挖掘来识别特征,剔除无趣和冗余的特征,识别不频繁的特征,最后确定每个观点句的语义方向。Popescu和Etzioni创建了一个从产品评论中提取特征和意见的无监督系统[3.].在一个句子中找到一个明确的特征后,他们将手工制作的提取规则应用到这个句子中,并提取出潜在的观点短语的头部。此方法仅在显式特性时有效。 基于依赖树的情感分析 有很多现有的作品使用依赖树或模式进行情感分析。一个关键的区别是,我们的方法并不总是捕捉情绪,而是每个类的各种类标签(例如,短或长)(例如,访问时间)。因此,我们不能依赖外部情绪训练数据或硬编码的情绪规则,而必须使用我们自己的训练数据。 Agarwal等人使用了一些手工制作的规则从句子中提取依赖树模式[23].他们将这些信息与麻省理工学院媒体实验室ConceptNet本体中的语义信息结合起来,并使用提取的概念训练机器学习模型来学习文本中的概念模式,然后将文档分为积极和消极类别。与我们的方法的一个重要区别是,它们的依赖模式在某些直接关系中通常只包含2个单词,而我们的模式在直接关系和间接关系中可以包含多个单词。 Wawer通过使用目标情感(target-sentiment, T-S)对,在语料库的句子依赖树中记录T和S词之间的依赖路径,从而诱发依赖模式[24].这些模式补充了条件随机场,以识别意见词的目标。与我们的模式相反,它可以表示2个或更多单词的子树,这项工作中的模式是从T和S单词之间的最短路径生成的。 Matsumoto等人的研究[21]是最接近我们提出的方法的工作,我们在结果部分进行了实验比较。他们从训练数据中提取频繁单词子序列和依赖子树,并将其用作支持向量机情感分类器的特征。他们的模式包括频繁的单词,只包括直接关系,而我们的模式包括高信息获取的单词,并考虑间接关系。Pak和Paroubek遵循类似的策略,基于预定义的规则提取依赖树模式,并将其用作支持向量机分类器的特征[25].Matsumoto等人在他们考虑的公共数据集上表现更好。 文本分类 机器学习算法通常用于文本分类。Kennedy等人使用随机森林分类器来识别来自Twitter、Reddit和《卫报》的帖子中的骚扰[26].文章通过几个特征来表示,如字母、字母和短字符序列的词频倒数文档频率(TF-IDF);URL和标签令牌计数;来源(帖子是否来自Twitter);还有情绪两极。Gambäck和Sikdar使用CNN对推特帖子中的仇恨言论进行分类[27].CNN模型使用多个特征嵌入进行测试,包括使用Word2Vec生成的随机值和词向量[28].Lix等人使用支持向量机分类器,利用电子病历中的文本确定患者的酒精使用情况[29].这些记录中的字母和字母使用单词袋模型表示。 问题定义 给定一个包含一组类的文本数据集<我>c1,<我>c2、……<我>c米表示先前由领域专家确定的特性,每个类<我>c我可取3个值(极性): c我0:中立。这个句子与课程无关。 c我x,<我>c我y:是或不是。注意,为了避免混淆,我们没有说正面或负面,比如一些类<我>访问时间在医生的评论中,有些患者喜欢长时间的就诊,而有些则喜欢短时间的就诊。在本例中,“Yes”可以任意映射到<我>长和“不”<我>短. 另一个例子,班级<我>c8来自医生评论数据集<我>等待时间还有等待看医生的时间。它有3个可能的值:<我>c8x,<我>c8y,或<我>c80.有阶级标签的句子<我>c8x表示花在等待看医生的时间很短的观点。的例子<我>c8x包括“我马上就去见了沃特金斯医生”,“我从来没有等过五分钟以上”,以及“一旦你到达预约地点,等待时间就会非常短。”有阶级标签的句子<我>c8y表示花在等待看医生的时间很长。的例子<我>c8y包括“即使预约了也总是要等一个多小时”,“我最大的不满是等的时间太长了”,以及“等的时间太可怕了”。有阶级标签的句子<我>c80没有提到等待时间。这样的句子可能有<我>c我x或<我>c我y来自其他类别的标签,例如,“这位医生缺乏感染力和对病人的关怀态度”,“他的员工,尤其是他的护士露西,远远超出了他们的工作要求”,或者它们可能与任何类别都不相关,比如“科查尔医生是我七年的初级保健医生”和“我会打电话重新安排一切”。一个句子可以从多个类中取标签。 在本研究中,给定一个训练集<我>T在复习句子时,要用不同的分类标签<我>c1,<我>c2、……<我>c米,我们为每个类建立一个分类器<我>c我的一个可能值对新句子进行分类<我>c我.具体来说,我们建立<我>米训练集<我>T我对应于每个类。中的每句话<我>T我是否分配了一个类标签<我>c我x,<我>c我y,或<我>c我0. 方法 医生评论数据集 我们爬过生命体征[30.,收集了1,749,870条评论。每位作者阅读了大约200篇评论,并构建了一个功能列表。之后,通过讨论,我们将这些列表合并为一个包含13个特性的列表,我们用问题定义中描述的类来表示这些特性(表1). 为了进一步筛选这些类,我们随机选择了600个评论进行标记。我们使用WebAnno标记这些评论,这是一个基于web的注释工具[31) (图1).具体来说,每个句子都被标记为0个或更多的类表1两位作者。这些标签的联合被用作每个句子的基本真理类别标签集;也就是说,如果至少有一个标注者将一个句子标记为<我>c我x,那句话被标记了<我>c我x在我们的数据集中。 我们发现其中一些阶层的代表人数不足。对于每个代表性不足的类别,我们使用相关的关键字从收集的评论集中找到并标记更多的评论,例如,<我>等待等待时间和<我>听为信息共享,共导致<我>1017条评论(除了原来的600辆外,还有417辆)。这1017篇评论是我们在实验中使用的标记数据集。 表1。初始意见类的描述。对于每个类,一个没有提到该类的句子被标记<我>c 我 . 类
摘要 背景:越来越多的医生评论是由患者在互联网上产生的。这些评论涉及一系列不同的主题(特征),包括等待时间、办公室工作人员、医生的技能和床边礼仪。先前关于基于web的客户评论自动分析的大多数工作都假设:(1)产品特性是由少量关键字明确描述的,例如,<我>电池(2)对每个功能的意见都有积极或消极的情绪。然而,在医生评论领域,这种设置限制太大:例如<我>访问持续时间因为医生的评论可以以多种方式表达,并不一定有积极或消极的情绪。 摘要目的:本研究旨在适应现有的并提出新的文本分类方法在医生评论领域。对这些方法的准确性进行评估,以分类一组不同的医生评论特征。 方法:我们首先手动检查了大量的评论,以提取一组在评论中经常提到的特性。然后,我们提出了一种新的算法,通过利用自然语言处理(NLP)工具,超越了单词袋或深度学习分类技术。具体来说,我们的算法自动提取依赖树模式,并使用它们对复习句子进行分类。 结果:我们在现实世界的医生评论数据集上评估了几种最先进的文本分类算法以及基于依赖树的分类器算法。我们表明,使用深度学习或NLP技术的方法往往优于传统的单词袋方法。在我们的实验中,两种最好的方法使用了NLP技术;平均而言,我们提出的分类器比现有的基于nlp的方法性能好2.19%,但它对具体意见的许多预测是不正确的。 结论:我们的结论是,对医生评论进行分类是可行的。自动分类这些评论将允许患者根据个人偏好标准轻松搜索医生。 中国医学网络杂志2018;20(11):e11141 doi: 10.2196/11141 关键字 病人满意度; 患者报告的结果测量; 质量指标,卫生保健; 监督式机器学习
简介 背景 自动评论分析和分类问题因其在电子商务应用中的重要性而引起了广泛的关注[1-3.].最近,用户评价医生的网站数量有所增加。一些著作分析了这些评论的内容和分数,主要是通过定性和定量分析来检查其中的一个子集[4-9]或应用文本挖掘技术来描述趋势[10-12].然而,关于如何对医生评论进行自动分类的研究并不多。 在这项研究中,我们的目标是通过提取文本医生评论中提到的特征和审稿人对每个特征的意见来自动总结文本医生评论的内容;例如,评估审稿人是否认为等待时间或就诊时间长,或者医生是否赞成补充治疗方法。我们通过定义更广泛的评论分类问题的定义来探索实现这一目标的可行性,该问题解决了医生评论领域的挑战,并检查了几种机器学习算法在分类医生评论句子中的表现。 以前关于客户评论分析的工作主要集中在功能的自动提取以及关于这些功能的陈述的极性(也称为意见或情绪)[2,13,14].具体来说,这些工作分2步解决问题:首先,他们使用规则提取特征,然后,对于每个特征,他们使用手工制作的规则或监督机器学习方法估计极性。如果(1)特征是<我>基本,例如手机的电池,通常是用一个关键字来描述,例如<我>这台相机的电池没电了(2)该意见在客观上是积极或消极的,但不支持更多的主观特征,如就诊时间,对一些患者来说,就诊时间长是积极的,对一些患者来说,它是消极的。换句话说,在产品评论中,关于功能的陈述往往更直接,明确的积极或消极,而对服务的评论,如医生的评论,往往不那么明确,因为可能有许多方法来表达对服务的某些方面的意见。 在我们的研究中,特征可能更复杂,例如<我>访问时间特征可以用不同的短语来表达,如“花时间和我在一起”,“花时间”,“不着急”,等等。另一个例子,“预约”可以有很多不同的表达方式,例如,“我可以在几天内安排一次访问”或“我最早可以在一个月内预约”。其他复杂类包括<我>工作人员或<我>医疗技术. 此外,在我们的研究中,对一个用户来说是积极的可能对另一个用户来说是消极的。例如,考虑一下这句话:“陈医生非常快,所以实际上没有等待时间,你在20分钟内就可以进出。”这句话中的情绪是积极的,但短暂的访问所隐含的<我>进出不超过20分钟有些病人可能是阴性的。相反,我们想测量的是长访问时间和短访问时间。这与检测情绪转变的工作不同。15]因为它不足以探测到<我>真正的情感,但我们也必须将它与一个类(长访问时间vs短访问时间)联系起来。 为了解决评论分类问题的这种变化,我们创建了一个标记数据集,由1017个基于web的医生评论中的5885个句子组成。我们确定了几种医生评论意见的类别,并根据这些意见类别的存在和极性对每个句子进行标记。请注意,我们对极性的定义比以前的工作更广泛,因为它不是严格的积极和消极,而是考虑到患者意见的主观性(例如,补充医学被一些人认为是好的,而被另一些人认为是坏的)。 我们调整现有的分类器并提出新的分类器来对医生评论进行分类。特别地,我们考虑了3种不同类型的分类器: 词袋分类器,例如支持向量机[16,17]和随机森林[18这种方法利用了复习文本的统计属性,比如每个单词的出现频率。 深度学习方法如卷积神经网络(CNN) [19,也会考虑单词的接近程度。 基于自然语言处理(NLP)的分类器,利用回顾句的依赖树[20.].具体来说,我们考虑一个现有的基于nlp的分类器[21],并提出了一种新的基于依赖树的分类器(Dependency Tree-Based Classifier, DTC)。 DTC为评论中的每个句子生成依赖树,并应用一组规则来提取依赖树匹配模式。然后根据训练集上的准确性对这些模式进行排名。最后,根据最高等级的匹配模式对新评论的句子进行分类。这与Matsumoto等人的研究形成了对比[21],它将依赖树模式视为支持向量机分类器中的特征。 我们的研究结果表明,将医生的评论分类以识别患者的意见是可行的。结果还表明,DTC通常优于所有其他实现的文本分类技术。 以下是我们的贡献摘要: 我们对医生评论领域的评论分类问题提出了一个更广泛的定义,其中的特征可以是复杂的实体,极性不是严格的正或负。 我们在包含一组常用和有用特征的标记医生评论数据集上评估了5种最先进的分类技术。 我们提出了一种新的基于决策树的分类器,并表明它优于其他方法;我们已经在网上发布了代码[22]. 文献综述 在本节中,我们回顾了与该研究相关领域的研究,我们将其分为5类: 定量和定性分析医生评论评分和内容 文本挖掘技术在描述医生评论趋势中的应用 客户评论中的特征和极性提取 依赖树模式在情感分析中的应用 最近在文本分类方面的工作 医生评论分析 之前的几项研究分析了基于网络的医生评论。Gao等人描述了医生评论随着时间的推移的趋势,以确定哪些特征会影响网络评级[4].他们发现,产科医生或妇科医生和长期毕业的医生比其他医生、刚毕业的医生、委员会认证的医生、高评级的医学院毕业生以及没有医疗事故索赔的医生更有可能得到更高的评价,而且评价普遍是积极的。Segal等人比较了医生评论统计与外科手术量[5].他们发现,通过分析数字评分的数量、文本评论的数量、积极评论的比例和批评评论的比例,可以将高容量外科医生与低容量外科医生区分开来。López等人对医生评论进行了定性内容分析[6].他们发现大多数评论都是积极的,并在他们分析的评论中确定了3个主要领域:人际关系方式、技术能力和系统问题。郝教授分析了国内在线健康社区“好医生在线”,发现妇产科儿科医生被评价的可能性最高,内科医生被评价的可能性较低,且大多数评价都是正面的[7].Smith和Lipoff对来自Yelp和ZocDoc的皮肤病学实践评论进行了定性分析[8].他们发现,ZocDoc的平均评论得分和5星的评论比例都高于Yelp。他们还发现,高分和低分的评论有相似的内容(如医生能力、员工气质和日程安排),但相反的效价。Daskivich等人分析了多个专业的医疗保健提供者评级,发现联合医疗保健提供者(例如,既不是医生也不是护士的提供者)的患者满意度得分高于医生,但这些得分也是最倾斜的[9].他们还得出结论,特定专业的百分比排名可能是消费者对提供商评级有意义的解释所必需的。 医生评论的文本挖掘 以前的其他论文使用文本挖掘技术来描述医生评论的趋势。Wallace等人设计了一个概率生成模型来捕捉护理各个方面的潜在情绪[10].他们表明,将他们的模型的输出纳入回归模型,可以提高与州级质量测量的相关性。Hao和Zhang利用主题建模,从好医生在线收集的医生评论中提取出4个专业的共同主题[11].他们在4个专业中确定了4个热门话题:找医生的经历、技术技能或床边态度、患者欣赏和症状描述。类似地,Hao等人使用主题建模来比较Good Doctor Online和美国医生评论网站RateMDs之间的评论[12].尽管他们在两个网站上发现了相似的主题,但他们也发现了反映两国医疗保健系统差异的差异。这些工作与我们的不同之处在于,它们使用文本挖掘技术来综合分析医生评论,而我们的目标是在个别评论中识别特定的主题。 客户审查功能和极性提取 正如前面在引言中讨论的那样,这些作品在一个更有限的问题设置上运行,其中的特征通常由一个关键字来表达,并且情绪严格地是积极或消极的。Hu和Liu用四步算法提取客户评论中特征的意见[2].该算法通过关联规则挖掘来识别特征,剔除无趣和冗余的特征,识别不频繁的特征,最后确定每个观点句的语义方向。Popescu和Etzioni创建了一个从产品评论中提取特征和意见的无监督系统[3.].在一个句子中找到一个明确的特征后,他们将手工制作的提取规则应用到这个句子中,并提取出潜在的观点短语的头部。此方法仅在显式特性时有效。 基于依赖树的情感分析 有很多现有的作品使用依赖树或模式进行情感分析。一个关键的区别是,我们的方法并不总是捕捉情绪,而是每个类的各种类标签(例如,短或长)(例如,访问时间)。因此,我们不能依赖外部情绪训练数据或硬编码的情绪规则,而必须使用我们自己的训练数据。 Agarwal等人使用了一些手工制作的规则从句子中提取依赖树模式[23].他们将这些信息与麻省理工学院媒体实验室ConceptNet本体中的语义信息结合起来,并使用提取的概念训练机器学习模型来学习文本中的概念模式,然后将文档分为积极和消极类别。与我们的方法的一个重要区别是,它们的依赖模式在某些直接关系中通常只包含2个单词,而我们的模式在直接关系和间接关系中可以包含多个单词。 Wawer通过使用目标情感(target-sentiment, T-S)对,在语料库的句子依赖树中记录T和S词之间的依赖路径,从而诱发依赖模式[24].这些模式补充了条件随机场,以识别意见词的目标。与我们的模式相反,它可以表示2个或更多单词的子树,这项工作中的模式是从T和S单词之间的最短路径生成的。 Matsumoto等人的研究[21]是最接近我们提出的方法的工作,我们在结果部分进行了实验比较。他们从训练数据中提取频繁单词子序列和依赖子树,并将其用作支持向量机情感分类器的特征。他们的模式包括频繁的单词,只包括直接关系,而我们的模式包括高信息获取的单词,并考虑间接关系。Pak和Paroubek遵循类似的策略,基于预定义的规则提取依赖树模式,并将其用作支持向量机分类器的特征[25].Matsumoto等人在他们考虑的公共数据集上表现更好。 文本分类 机器学习算法通常用于文本分类。Kennedy等人使用随机森林分类器来识别来自Twitter、Reddit和《卫报》的帖子中的骚扰[26].文章通过几个特征来表示,如字母、字母和短字符序列的词频倒数文档频率(TF-IDF);URL和标签令牌计数;来源(帖子是否来自Twitter);还有情绪两极。Gambäck和Sikdar使用CNN对推特帖子中的仇恨言论进行分类[27].CNN模型使用多个特征嵌入进行测试,包括使用Word2Vec生成的随机值和词向量[28].Lix等人使用支持向量机分类器,利用电子病历中的文本确定患者的酒精使用情况[29].这些记录中的字母和字母使用单词袋模型表示。 问题定义 给定一个包含一组类的文本数据集<我>c1,<我>c2、……<我>c米表示先前由领域专家确定的特性,每个类<我>c我可取3个值(极性): c我0:中立。这个句子与课程无关。 c我x,<我>c我y:是或不是。注意,为了避免混淆,我们没有说正面或负面,比如一些类<我>访问时间在医生的评论中,有些患者喜欢长时间的就诊,而有些则喜欢短时间的就诊。在本例中,“Yes”可以任意映射到<我>长和“不”<我>短. 另一个例子,班级<我>c8来自医生评论数据集<我>等待时间还有等待看医生的时间。它有3个可能的值:<我>c8x,<我>c8y,或<我>c80.有阶级标签的句子<我>c8x表示花在等待看医生的时间很短的观点。的例子<我>c8x包括“我马上就去见了沃特金斯医生”,“我从来没有等过五分钟以上”,以及“一旦你到达预约地点,等待时间就会非常短。”有阶级标签的句子<我>c8y表示花在等待看医生的时间很长。的例子<我>c8y包括“即使预约了也总是要等一个多小时”,“我最大的不满是等的时间太长了”,以及“等的时间太可怕了”。有阶级标签的句子<我>c80没有提到等待时间。这样的句子可能有<我>c我x或<我>c我y来自其他类别的标签,例如,“这位医生缺乏感染力和对病人的关怀态度”,“他的员工,尤其是他的护士露西,远远超出了他们的工作要求”,或者它们可能与任何类别都不相关,比如“科查尔医生是我七年的初级保健医生”和“我会打电话重新安排一切”。一个句子可以从多个类中取标签。 在本研究中,给定一个训练集<我>T在复习句子时,要用不同的分类标签<我>c1,<我>c2、……<我>c米,我们为每个类建立一个分类器<我>c我的一个可能值对新句子进行分类<我>c我.具体来说,我们建立<我>米训练集<我>T我对应于每个类。中的每句话<我>T我是否分配了一个类标签<我>c我x,<我>c我y,或<我>c我0. 方法 医生评论数据集 我们爬过生命体征[30.,收集了1,749,870条评论。每位作者阅读了大约200篇评论,并构建了一个功能列表。之后,通过讨论,我们将这些列表合并为一个包含13个特性的列表,我们用问题定义中描述的类来表示这些特性(表1). 为了进一步筛选这些类,我们随机选择了600个评论进行标记。我们使用WebAnno标记这些评论,这是一个基于web的注释工具[31) (图1).具体来说,每个句子都被标记为0个或更多的类表1两位作者。这些标签的联合被用作每个句子的基本真理类别标签集;也就是说,如果至少有一个标注者将一个句子标记为<我>c我x,那句话被标记了<我>c我x在我们的数据集中。 我们发现其中一些阶层的代表人数不足。对于每个代表性不足的类别,我们使用相关的关键字从收集的评论集中找到并标记更多的评论,例如,<我>等待等待时间和<我>听为信息共享,共导致<我>1017条评论(除了原来的600辆外,还有417辆)。这1017篇评论是我们在实验中使用的标记数据集。 表1。初始意见类的描述。对于每个类,一个没有提到该类的句子被标记<我>c 我 . 类