医学互联网研究杂志-关于大麻二酚的个人和商业推文的信息流行病学检查:术语和情感分析

原始论文

¹美国肯塔基州路易斯维尔市路易斯维尔大学计算机科学与工程系数据挖掘实验室

²美国肯塔基州列克星敦肯塔基大学公共卫生学院流行病学系

*这些作者贡献相同

通讯作者:

杰森·特纳，理学硕士

数据挖掘实验室

计算机科学与工程系“，

路易斯维尔大学

东九龙222号

路易斯维尔，肯塔基州，40292

美国

电话:1 502 852 304

电子邮件:jason.turner@louisville.edu

背景:在缺乏官方临床试验信息的情况下，公共卫生和医学研究人员可以使用社交网络中的数据来评估有关大麻二酚(CBD)等监管松散物质的公开声明。例如，这可以通过将销售CBD的人的目标医疗条件与患者通常使用CBD治疗的医疗条件进行比较来实现。

摘要目的:这项研究的目的是为公共卫生和医学研究人员提供一个框架，用于确定和分析不受管制物质的消费和营销。具体来说，我们检查了CBD，这是一种经常作为药物向公众展示的物质，尽管有完全的有效性和安全性证据。

方法:通过使用Tweepy Python包搜索Twitter，我们收集了567,850条推文，搜索词是“CBD”和“大麻二酚”。我们训练了两个二进制文本分类器来创建两个语料库，其中包括167,755个个人使用推文和143,322个商业/销售推文。使用医学词典、标准词典和俚语词典，我们确定并比较了两种语料库中最常出现的医疗状况、症状、副作用、身体部位和其他物质。此外，为了评估推特上流传的关于CBD作为一种医疗手段的流行说法，我们通过VADER(情感推理价知词典)模型对个人CBD推文进行了情感分析。

结果:我们发现了对个人或商业CBD推文类别特有的医学相关术语的引用，以及对这两个类别共同的医学相关术语。当我们计算个人和商业CBD推文的平均情绪得分时，这些推文引用了17个医疗条件/症状术语中的至少一个，在个人和商业CBD推文中都观察到总体积极的情绪。我们观察到在个人CBD推文中提到自闭症时传达的负面情绪，而CBD在商业推文中也多次作为自闭症的治疗方法进行营销。

结论:我们提出的框架为公共卫生和医学研究人员提供了一个工具，以分析社交网络上不受监管物质的消费和营销。我们的分析表明，CBD的大多数使用者都对它所宣传的病症感到满意，自闭症除外。

中国医学杂志，2017;23(12):e27307

doi: 10.2196/27307

关键字

社交媒体；社交网络；文本挖掘；生物多样性公约；大麻二酚；大麻；公共卫生；药品监管；推特；情绪分析；不受监管的物质

尽管大麻作为一种药物已经使用了几个世纪，但在1937年，使用大麻在美国被定为犯罪。然而，从20世纪90年代开始，尽管大麻在联邦一级仍然是非法的，一些州开始允许大麻的医疗用途[1］．随着越来越多的州出台了宽松的大麻政策，公众对大麻药用特性的兴趣逐渐转向了大麻二酚(CBD)。CBD是在大麻植物的变体中发现的一种活性化学物质，它不具有大麻植物的四氢大麻酚(THC)成分的精神活性副作用[2］．

近年来，医用大麻的用途已成为公共政策的一个主要讨论点，特别是在在线社交媒体话语中[3.，4］．特别是，消费者报告称，他们使用CBD来治疗各种疾病，包括癫痫和其他神经系统疾病、失眠和一些精神疾病。CBD仍然不受食品和药物管理局(FDA)的监管，也没有像大多数药物那样对其许多特定用途进行结论性试验。事实上，FDA迄今为止只批准了一种大麻衍生药物和三种大麻相关药物——所有这些都需要处方——而且它还没有批准将大麻作为一种安全有效的药物来治疗任何疾病[5］．Palmieri等[6报道了CBD在治疗皮肤炎症和疤痕方面的良好效果。也有许多关于CBD作为焦虑和睡眠障碍治疗方法的研究[7-10]，作为止痛剂[11-13]，以及作为治疗癌症和癌症副作用的方法[13-15］．

尽管大多数基于CBD的药物和营养补充剂对于它们所使用的许多适应症并没有证明安全性和有效性，但在公共流通中仍有许多关于CBD对广泛疾病的有效性的声明。

社交媒体是病毒式CBD营销和个人分享个人使用经验的主要场所。尤其是推特，它是一个有用的平台，可以了解大麻(包括CBD)是如何向消费者营销的，以及个人是如何使用大麻的，因为它提供了一个庞大的个人和商业推文语料库[j]。3.］．此外，情感分析可用于个人和商业CBD推文，以评估用户对CBD治疗特定疾病的满意度。

因此，我们提出了一个在社交网络中使用文本挖掘的框架，可以帮助公共卫生专家了解个人和商业主张以及对CBD等不受监管物质的看法。这个框架有两个实际的优点。首先，与管理调查或利用政府和卫生提供者的数据相比，这些数据易于获得，而且使用成本低廉。其次，公共卫生研究人员已经表明，情绪分析是了解公众对药物、疾病和医疗服务的看法以及检测某些形式的抑郁症的有效工具[16-19］．

为了证明这个框架的有用性，我们区分了反映个人CBD使用的推文和反映CBD销售、推广和商业化的推文。分析了两个产生的推文语料库中与医疗相关的术语，如病情、副作用、解剖学术语和所提到的其他物质的使用。这种方法使我们能够识别在线CBD营销中使用的术语与服用CBD的个人引用的术语相关。此外，我们对个人CBD推文进行了情绪分析，以评估公众对CBD治疗某些疾病有效性的看法。我们还能够使用情感推理的价知字典(VADER)模型来计算个人和商业CBD推文的情感，参考特定的医疗条件。使用了VADER情绪模型，因为它是专门用于分析Twitter等社交网站上帖子的情绪。20.］．自开发以来，VADER已被用于衡量推特用户、政治推文以及课程评估对数字助理的看法[21-24］

这项研究的结果将提供关于公众对CBD的看法以及CBD如何通过社交媒体平台进行营销的重要信息。随着社交媒体的兴起，错误信息也在增加。最近，研究人员利用社交网络分析了这些与医疗错误信息有关的概念[25-28]，这可能会导致负面的健康结果。因此，未经证实的夸大、夸大和谎称CBD的医疗效益的说法在互联网上自由流传，导致许多人想知道如何评估在医疗环境中使用CBD的实际效益(如果有的话)。这些声明中提到的一些疾病包括婴儿耳痛、自闭症、注意力缺陷和多动症、帕金森病和阿尔茨海默病[29］．通过使用为本研究开发的可适应和可推广的框架分析关于CBD的个人和商业推文，公共卫生和医疗专业人员可以更容易地识别与CBD声明有关的病毒错误信息。

框架开发

为了构建这个框架，我们收集了提到“CBD”或“大麻二酚”的推文。然后，我们从这些推文中随机抽取样本，并将其标记为个人CBD参考(真/假)或商业CBD参考(真/假)。使用这些带注释的推文，我们训练了两个二进制文本分类器，将个人和商业CBD推文从更大的推文集合中分离出来。使用这两个推文语料库，我们确定了最常出现的医学相关术语(与疾病、病症、症状、身体部位、其他物质、大麻等相关的术语)，并比较了两个语料库中这些术语的频率。图1提供从数据收集到分类的框架的可视化描述。然后，我们使用VADER模型计算了包含特定术语的个人CBD推文的情绪，以评估CBD对治疗这些情况的满意度。

数据收集

我们使用Tweepy Python包作为Twitter实时流的接口从Twitter公共流中收集推文，该包提供了大约1%的公共推文创建时的访问权限。我们的数据收集时间为2019年10月7日至2020年1月26日，并使用了搜索词“CBD”和“大麻二酚”。我们选择这个时期是因为它代表了CBD开始流行的时期。我们将收集时间限制在大约3.5个月，这样我们就可以在一个时间窗口内收集足够数量的推文，以避免数据中的潜在概念漂移。我们还设置了过滤器来收集用英语写的原创推文(即，没有转发)。我们不希望包括转发，因为这些推文的实际内容链接到另一个作者，并且在文本上与现有推文几乎相同。对于收集的每条推文，我们保留了完整的推文文本、推文的ID、创建推文的时间以及撰写推文的Twitter用户。结果收集了567,850条推文的数据集。

推特注释

为了从567,850条推文中识别个人和商业相关的CBD推文，我们在5496条推文样本上构建了两个二进制分类器。这个推文样本是通过从我们的集合中提取6000条推文样本并删除带有逐字重复推文的条目来获得的。注释个人CBD推文的过程包括评估样本中的每条推文是否来自个人(即，不是“机器人”)，讨论CBD的过去、当前和/或未来使用。注释商业CBD推文的过程包括评估样本中的每条推文，看它是否来自销售、广告或推广CBD的实际(即不是“机器人”)非新闻实体。这些分类器被用来区分个人和商业cbd相关的推文。为了训练这些分类器，样本中的所有推文都被手动标记为与cbd相关的个人推文或与cbd相关的非个人推文，以及与cbd相关的商业推文或与cbd相关的非商业推文，根据其全文内容(最多由280个字符组成)。文本框1提供了一些与cbd相关的个人和商业推文示例，以及文本框2提供了一些我们遇到的对于个人和商业CBD类都被认为是错误的引用CBD的推文类型的示例。

与大麻二酚(CBD)相关的个人和商业推文示例(为了匿名，略作转述)。CBC: cannabichromene。

与cbd相关的个人推文。

CBD产品对焦虑很有好处，而且它们不会让你兴奋

我用CBD治疗焦虑。这比服用苯二氮平类药物健康得多……我也用CBC来止痛。你知道还有什么对肝脏有害吗?泰诺和布洛芬

吃点止痛药和助眠药，比如泰诺或Advil PM之类的，CBD或大麻也可以试试

CBD软糖不会让你兴奋，但对我个人来说，CBD油食品有助于缓解焦虑和痛经

商业cbd相关推文

走开! !痛苦!我们有各种各样的CBD产品满足您的需求....下次来的时候一定要询问我们的选择。URL

随着时间的推移，睡眠质量差会让你感觉崩溃……CBD能帮上忙吗?URL #cbd #cbdoil #大麻#睡眠#失眠

慢性疲劳…大麻CBD THC油- URL

我们的CBD面霜结合了山金车和天然薄荷油的缓解潜力，可可脂和桉树和薰衣草的气味

文本框1。与大麻二酚(CBD)相关的个人和商业推文示例(为了匿名，略作转述)。CBC: cannabichromene。

错误推文的例子(为了匿名，略作改写)。CBC: cannabichromene;CBD:大麻二酚;美国食品和药物管理局;THC:四氢大麻酚。

如果你住在医用大麻合法的地方，那么你就可以每月获得3000美元的报酬，来评论杂草、CBD、可食用食品和更多的URL

FDA担心CBD。你应该担心吗?URL

这个房间有我cbd公寓的一半大。

墨尔本中央商务区的弗林德斯街在早些时候的抗议活动后重新开放....感谢您在中断期间的耐心等待。# victraffic

文本框2。错误推文的例子(为了匿名，略作改写)。CBC: cannabichromene;CBD:大麻二酚;美国食品和药物管理局;THC:四氢大麻酚。

对人工注释的推文的分析表明，个人和商业cbd相关数据集的类别是不平衡的;非个人的cbd相关推文是个人cbd相关推文的7.7倍，非商业性cbd相关推文是商业性cbd相关推文的10.2倍。为了达到训练集中的类的平衡，我们通过取一个与负类大小相等的随机样本，对训练集中的正类进行了下抽样。表1而且表2显示个人和商业cbd相关推文类别的分类频率，分别在降采样之前和之后。

表1。个人大麻二酚(CBD)课程计数训练集。

类	Predownsampling n	Postdownsampling n
个人CBD	631	631
Nonpersonal CBD	4865	631
总计	5496	1262

表2。商业大麻二酚(CBD)课程计数训练集。

类	Predownsampling n	Postdownsampling n
CBD商业	489	480
非商业CBD	45007年	489
总计	5496	978

分类培训

在训练二进制分类器将整个数据集分类为个人和商业cbd相关的推文之前，我们对推文的文本进行了预处理，方法是将所有url规范化为一个一致的字符串，删除特殊字符和英语词性，将所有文本转换为小写字母，并进行词元化。执行这个预处理是为了减少数据中的噪声，这可能会影响我们的推文分类器的性能。然后在标注样本的80%(5496中的4396)上训练二进制分类器，并在标注样本的剩余20%(5496中的1099)上进行验证。然后，我们基于使用n-gram从1到3的范围内的tweet中的单词创建了一个术语频率逆文档频率(TF-IDF)特征矩阵，以及基于使用n-gram从3到6的范围内的tweet中的字符创建了一个TF-IDF特征矩阵。得到的矩阵水平堆叠，作为训练分类器的模型的输入。

为了训练两个二进制分类器，我们使用逻辑回归模型执行了5次交叉验证网格搜索，以找到参数的最佳组合。参数的范围显示在表3．在训练二进制分类器之后，我们将每个模型应用于更大的CBD推文语料库。为了弥补由于平衡而导致的小验证集，我们对来自我们集合的500个不平衡推文随机集进行了额外的后分类测试，以确认我们的模型在真实世界的不平衡数据上表现良好。该样本使用与训练集相同的方法进行注释，隐藏了预测结果。我们将在结果部分中进一步详细讨论分类。

表3。使用逻辑回归模型进行文本分类调优的参数。

参数	范围
点球	{不,.l1.l2}
正则化参数	x_k= 10^{+ (b) (k - 1) / (n - 1)}n, k = 1,…;= 0;b = 5;n = 20
解算器	{newton-cg, lbfgs, liblinear, sag, saga}

一项分析

为了跟踪排序后的商业和个人CBD推文中引用的医学术语，我们计算了两个推文语料库中前1000个单词的术语频率。然后我们通过参考标准英语、医学(Systemized Nomenclature of Medicine-Clinical terms [SNOMED CT])和俚语词典来确认这些术语是否与相关的医疗状况、医疗症状、身体部位和/或其他药物/物质有关。我们将这些术语分为三组:健康/医疗、大麻相关术语和其他物质。在健康/医疗组中，我们包括了与疾病、食物、症状和身体部位相关的术语。我们将同样的逻辑应用于似乎是标签的术语，通过检查组成标签的单个单词的相关性。我们将与大麻相关的术语分组在一起，并将它们与其他物质组分开，因为与CBD和thc相关的推文似乎有重叠，它们都引用了更广泛的大麻植物;我们包括了与大麻相关的俚语，以及通常与大麻输液有关的食物(如橡皮糖，蜂蜜)。其他物质组包括指任何其他药物或药物的术语。有一些单词被包含在多个组中的例子。例如，“high”是大麻的副作用，但在大麻和CBD的推文中都常用。 Additionally, we considered terms that may represent side effects caused by taking a substance, especially terms commonly associated with cannabis. Finally, we compared the overall frequency of the top occurring terms relative to their frequency in either the personal or commercial class of tweets, and produced a visualization of relevant term frequencies. We used the Scattertext Python package to generate a graphical representation of the frequencies within the personal and commercial CBD classes for each of the three term groups [30.］．

情绪分析

我们使用VADER模型来计算个人和商业CBD推文的情绪，这些推文参考了特定的医疗状况。由于该情绪模型将标点符号和文本大写合并到计算情绪中，我们使用原始推文文本作为模型的输入。VADER模型根据推文中每个单词的配价分数的总和，为每条推文生成一个介于-1到+1之间的标准化分数。我们根据Hutto和Gilbert推荐的阈值将每条推文的得分转换为3级分类变量。20.]:(1)积极情绪，复合得分≥0.05;(2)中性情绪，复合评分> -0.05和复合评分<0.05;(3)消极情绪，复合得分≤-0.05。

然后，我们分析了在包含与特定定义的条件和症状相关的术语的推文中，复合得分和情绪类别(积极、消极、中性)的分布。由于VADER模型部分基于字典评分，而且许多与疾病相关的术语可能会影响推文的整体情绪(例如，疼痛、压力、癌症)，作为我们分析的一部分，我们计算了VADER情绪评分，包括感兴趣的医学术语和不包括医学术语，并使用VADER评分比较了平均VADER评分t测试以确定是否有任何个人兴趣术语对分配给一条推文的整体情绪产生偏见。的目的t测试的目的是确定包含某些术语的商业CBD推文与引用相同术语的个人CBD推文所传达的情绪之间是否存在统计学上的显著差异。例如，“CBD真的有助于我的疼痛”的VADER情绪得分为-0.171，而“CBD真的有助于我的疼痛”的VADER情绪得分为0.4391，其中“疼痛”一词本身就拥有如此负面的VADER情绪得分，以至于它影响了推文的整体情绪得分。

道德

本研究利用了公开可用的数据，并由路易斯维尔大学机构审查委员会批准注册(批准方案20.1122)。

分类

我们分别训练了个人和商业CBD推文的二进制分类算法。在最优个人CBD分类器(逻辑回归:C=3.36，惩罚=none，求解器=“newton-cg”)和商业CBD分类器(逻辑回归=428.13，惩罚=“l1”，求解器=“saga”)中，我们观察到从不平衡样本的平衡数据中得出的较小验证集之间的分类性能下降。尽管在不平衡数据上的分类性能有所下降，但个人和商业CBD分类模型都能够实现接受者工作特征曲线下面积分数高于0.80。表4而且表5分别展示了个人和商用CBD二元分类器的性能。当个人CBD二元分类器应用于推文集合时，它将167,755条推文分类为个人CBD相关推文。当商业CBD二元分类器应用于推文集合时，它将143,322条推文分类为商业CBD相关推文。

表4。个人大麻二酚(CBD)逻辑回归分类器性能指标。

分类		精度	回忆	F1	支持	精度		AUC^一个
平衡的样本							0.85		0.86
	Nonpersonal CBD	0.93	0.79	0.85	138
	个人CBD	0.79	0.93	0.85	115
不平衡样本							0.89		0.87
	Nonpersonal CBD	0.94	0.91	0.93	367
	个人CBD	0.78	0.83	0.81	133

^一个AUC:接收机工作特性曲线下的面积。

表5所示。商业大麻二酚(CBD)的逻辑回归分类器性能指标。

分类器			精度		回忆		F1		支持	精度		AUC^一个
平衡的样本											0.89		0.89
	非商业CBD	0.92		0.85		0.89		95
	CBD商业	0.87		0.93		0.90		101
不平衡样本											0.87		0.82
	非商业CBD	0.90		0.93		0.91		367
	CBD商业	0.79		0.70		0.74		133

^一个AUC:接收机工作特性曲线下的面积。

一项分析

我们为个人和商业推文语料库生成了ungram频率。我们查看了出现频率最高的1000个术语(不包括常见的英语停顿词)，并手动检查这些术语是否与健康有关;健康;疾病;副作用;条件;身体部位;和/或参照标准英语、医学和俚语词典引用其他物质。

在其他提到大麻的推文中(图2)，与thc相关的术语似乎在个人和商业推文语料库中都被提及，其中包含这些引用的标签在商业CBD推文中更常见。饮料、褪黑素和药片这些术语在其他物质组中被提到(图3)在CBD的个人和商业推文中。克拉托姆和中链甘油三酯(MCT)在商业CBD推文中被提及的频率更高，而在个人CBD推文中被提及的频率更低。在个人CBD推文中提到酒精的次数略高于平均水平，而在商业CBD推文中提到酒精的次数低于平均水平。阿片类药物被提及，但在个人和商业CBD推文中都很少提及。在健康和健康组(图4)、疼痛、睡眠和焦虑在个人和商业CBD类中都频繁出现。与健身和营养相关的术语在商业CBD推文中出现的频率更高。在这两个群体中，提到创伤后应激障碍(PTSD)的推文平均出现率相同。最后，CBD推文在个人推文中引用自闭症的频率高于平均水平，但在商业推文中不常见。尽管美国食品药品监督管理局向CBD卖家发出了警告信，指责他们传播错误信息，宣传CBD可以治疗包括自闭症在内的多种疾病[29］．

情绪分析

我们计算了引用以下17个术语中的任何一个的商业和个人CBD推文的情绪得分:焦虑，焦虑，自闭症，平静，镇定，癌症，抑郁，能量，健身，疼痛，疼痛，创伤后应激障碍，皮肤，睡眠，压力，减肥，而且健康．我们还计算了每个单独术语的术语级情绪。表6包含与非中性情绪相关的术语列表，以及单个术语的VADER评分可能影响整条推文的情绪评分。我们计算了每条个人和商业CBD推文的情绪，引用了17个兴趣术语中的任何一个，无论是在原始推文文本中还是在删除了兴趣术语后。使用一个t通过测试来衡量平均感知得分的统计学显著性差异，我们可以评估对这种情况本身的情绪如何影响情感得分。

表6所示。带有非中性情感的医学相关术语。

术语	维德^一个复合分数
焦虑	-0.1779
焦虑	０．２５
平静	0.3182
平静的	0.4019
癌症	-0.6597
抑郁症	-0.5719
能源	0.2732
疼痛	-0.5106
痛苦	-0.4215
压力	-0.4215

^一个情感推理的价感字典。

表7-9证明了个人CBD推文中有利息期限与没有利息期限的平均情绪得分的显著差异，其中有11个被检查的条款。有利息期限的商业CBD推文的平均情绪得分与没有利息期限的商业CBD推文的平均情绪得分有显著差异，其中有12个被检查的17个条款。商业CBD推文的平均情绪得分也有显著差异，与有利息期限的商业CBD推文相比，在17个被检查的条款中，有11个包含或不包含利息期限。表8表明，尽管情绪总体上是积极的，但在个人和商业CBD推文之间的情绪得分存在显著差异的情况下，商业CBD得分的平均情绪得分高于个人CBD得分。图5而且图6举例说明当兴趣(“痛苦”)一词从推特中删除后，情绪分数的分布是如何变化的。

表7所示。个人和商业大麻二酚(CBD)情绪分类计数。

术语	个人微博									商业微博
	n	与术语				没有一项				n		与术语				没有一项
		pos^一个	neu^b	负的^c	pos		neu	负的			pos		neu	负的	pos		neu	负的
焦虑	5353	2818	126	2409	3125		519	1718	2924		1564		44	1316	1726		352	846
焦虑	515	266	11	238	307		47	161	114		53		4	57	84		5	25
自闭症	395	180	47	168	180		47	168	27		17		2	8	17		2	8
平静	1224	1007	17	200	761		145	318	725		659		9	57	535		80	110
平静的	445	399	4	42	324		33	88	389		369		2	18	308		47	34
癌症	986	230	19	737	530		111	345	246		76		0	170	122		44	80
抑郁症	568	164	17	387	307		31	230	326		69		8	249	178		19	129
能源	507	416	9	82	334		57	116	444		421		7	16	357		52	35
健身	57	48	2	7	37		4	16	128		125		0	3.	One hundred.		15	13
疼痛	7432	2948	188	4296	4985		558	1889	6287		3262		113	2912	4956		591	740
痛苦	394	157	11	226	225		19	150	311		168		9	134	219		11	81
创伤后应激障碍^d	217	111	14	92	111		14	92	55		33		9	13	33		9	13
皮肤	618	461	55	102	464		54	One hundred.	2516		2211		150	155	2229		136	151
睡眠	3761	2518	356	887	2517		356	888	2980		2129		322	529	2131		321	528
压力	1012	560	18	434	713		45	254	1407		883		28	496	1100		36	271
减肥	8	5	2	1	5		2	1	24		18		3.	3.	18		3.	3.
健康	144	129	2	13	98		18	28	4216		4020		38	158	3106		814	296

^一个Pos:积极的情绪。

^bNeu:中性情绪。

^c消极:消极情绪。

^dPtsd:创伤后应激障碍。

表8所示。个人和商业大麻二酚(CBD)情绪评分描述性统计(有和没有术语)。

术语	个人微博				商业微博
	n	terms, mean (SD)	不含项，均值(SD)	n		terms, mean (SD)	不含项，均值(SD)
焦虑	5353	0.074 (0.573)	0.186 (0.557)	2924		0.118 (0.568)	0.241 (0.538)
焦虑	515	0.048 (0.591)	0.203 (0.566)	114		0.08 0 (0.566)	0.254 (0.529)
自闭症	395	-0.001 (0.546)	-0.001 (0.546)	27		0.188 (0.557)	0.188 (0.557)
平静	1224	0.448 (0.484)	0.258 (0.540)	725		0.616 (0.374)	0.452 (0.467)
平静的	445	0.608 (0.408)	0.410 (0.508)	389		0.695 (0.334)	0.513 (0.444)
癌症	986	-0.369 (0.571)	0.158 (0.559)	246		-0.303 (0.638)	0.167 (0.564)
抑郁症	568	-0.275 (0.573)	0.122 (0.571)	326		-0.353 (0.506)	0.111 (0.525)
能源	507	0.469 (0.492)	0.324 (0.541)	444		0.681 (0.331)	0.547 (0.421)
健身	57	0.429 (0.463)	0.263 (0.514)	128		0.633 (0.283)	0.464 (0.400)
疼痛	7432	-0.099 (0.605)	0.293 (0.547)	6287		0.088 (0.580)	0.490 (0.440)
痛苦	394	-0.098 (0.610)	0.169 (0.577)	311		0.087 (0.615)	0.342 (0.553)
创伤后应激障碍^一个	217	0.037 (0.626)	0.037 (0.627)	55		0.200 (0.563)	0.200 (0.563)
皮肤	618	0.420 (0.501)	0.427 (0.501)	2516		0.550 (0.371)	0.568 (0.371)
睡眠	3761	0.305 (0.522)	0.305 (0.523)	2980		0.392 (0.493)	0.394 (0.493)
压力	1012	0.116 (0.632)	0.360 (0.567)	1407		0.234 (0.596)	0.481 (0.396)
减肥	8	0.289 (0.344)	0.289 (0.344)	24		0.436 (0.549)	0.436 (0.549)
健康	144	0.606 (0.431)	0.384 (0.524)	4216		0.720 (0.279)	0.505 (0.426)

^一个Ptsd:创伤后应激障碍。

表9所示。个人和商业大麻二酚(CBD)情绪评分t检验结果(带术语和不带术语)。

术语	有术语的个人的和没有术语的			有条款和无条款的商业广告			商业vs个人与期限			商业vs个人，没有条款
	t	df	P价值	t	df	P价值	t	df	P价值	t	df	P价值
焦虑	-10.31	10704年	<措施	-8.51	5846	<措施	-3.33	8275	措施	-4.28	8275	<措施
焦虑	-4.29	1028	<措施	-2.39	226	02	0.53	627	.59	-0.88	627	38
自闭症	0．00	788	>。	0．00	52	>。	-1.74	420	。08	-1.74	420	。08
平静	9.15	2446	<措施	7.40	1448	<措施	-8.06	1947	<措施	-8.04	1947	<措施
平静的	6.40	888	<措施	6.49	776	<措施	-3.37	832	措施	-3.09	832	.002
癌症	-20.71	1970	<措施	-8.65	490	<措施	-1.59	1230	厚	-0.22	1230	点
抑郁症	-11.67	1134	<措施	-11.49	650	<措施	2.06	892	.40	0.29	892	.77点
能源	4.45	1012	<措施	5.25	886	<措施	-7.68	949	<措施	-7.02	949	<措施
健身	1.81	112	07	3.92	254	<措施	-3.69	183	<措施	-2.88	183	04
疼痛	-41.39	14862年	<措施	-43.82	12572年	<措施	-18.37	13717年	<措施	-23.02	13717年	<措施
痛苦	-6.32	786	<措施	-5.43	620	<措施	-3.98	703	<措施	-4.01	703	<措施
创伤后应激障碍^一个	-0.01	432	获得	0．00	108	>。	-1.77	270	。08	-1.76	270	。08
皮肤	-0.24	1234	结果	-1.76	5030	。08	-7.25	3132	<措施	-7.89	3132	<措施
睡眠	0.01	7520	获得	-0.12	5958	.90	-6.97	6739	<措施	-7.10	6739	<措施
压力	-9.12	2022	<措施	-11.98	2812	<措施	-4.65	2417	<措施	-5.60	2417	<措施
减肥	0．00	14	>。	0．00	46	>。	-0.71	30.	的相关性	-0.71	30.	的相关性
健康	3.94	286	<措施	27.38	8430	<措施	-4.72	4358	<措施	-3.35	4358	措施

^一个Ptsd:创伤后应激障碍。

有一些例子表明，在个人推文中，CBD的推文提供了积极和消极情绪的混合，比如在推文中提到CBD与自闭症的关系。图7在提到自闭症的个人CBD推文中显示了更负面的情绪。然而，当“自闭症”一词被删除后，个人推文的情绪并没有改变。尽管是负面的，这些推文的平均情绪得分是-0.042，被VADER模型的作者认为是中性的。我们观察到大量引用“自闭症”一词的个人CBD推文，42.5%(168/395)的个人CBD推文引用自闭症被归类为阴性，45.6%(180/395)被归类为阳性，11.9%(47/395)被归类为中性。

文本框3显示了我们的分类器识别的包含“自闭症”一词的与cbd相关的推文。这些个人的CBD推文有时支持，有时不支持CBD作为自闭症的治疗方法。在涉及自闭症的商业CBD推文中，我们观察到关于CBD治疗自闭症能力的隐性和显性声明。

因此，我们的框架在药物和补充剂功效声明被验证和反驳的情况下工作得很好。

个人和商业推文引用大麻二酚(CBD)和自闭症的例子(为了匿名，稍微改述了一下)。

个人自闭症CBD推文

@user @user他…在四氢大麻酚/cbd酊剂上。这对他的自闭症很有帮助

@user我用CBD治疗我的C-PTSD(创伤后应激障碍)和自闭症带来的过度刺激…有点难以正常工作…这比我吃过的任何抗精神病药都有效。

我的时间线上有很多人…claiming CBD can “cure” autism is bad and so is anyone knowingly peddling the idea what is wrong with you people URL

@user @user @user如果你工作的地方谎称CBD油可以治愈自闭症，你应该感觉很糟糕

商业自闭症CBD推文

10种最好的CBD油用于自闭症- URL 10-bestcbd- Oils For Autism -40/

注入CBD的瓶子@水果粉彩，这是患有多动症，自闭症等儿童的理想选择#药剂师#晚安

COMPANY_NAME®宣布自闭症希望联盟赞助URL #大麻#大麻#cbd #电子烟#cbdoil #自然#焦虑#疼痛#压力#健康#制药#健康#美容#域名URL

人们使用CBD来治疗从癫痫、自闭症到慢性疼痛和焦虑的各种疾病。URL

文本框3。个人和商业推文引用大麻二酚(CBD)和自闭症的例子(为了匿名，稍微改述了一下)。

主要研究结果

推文的文本分类提供了一种将推文大规模地划分为定义的组的方法。我们已经证明，通过使用文本分类来识别反映个人使用CBD的推文以及反映CBD销售和/或商业化的推文，我们可以对与CBD相关的推文做到这一点。这种对公共社交媒体数据的分类是有用的，因为CBD还没有像现代药物那样经过相同的测试和临床试验，但目前正被用于治疗各种疾病，没有安全性或有效性的证明。我们的分析提供了一种方法来识别CBD推文的商业和个人语料库中经常引用的兴趣术语，以及这些术语频率与文档类(商业或个人CBD)的比较。这使我们能够识别在两个文档类别中频繁引用的医疗条件，以及在一个文档类别中比另一个文档类别中更频繁出现的术语。我们还使用VADER模型分析了个人CBD推文引用某些医疗状况和症状的情绪。尽管美国食品药品监督管理局(FDA)对CBD作为自闭症和阿尔茨海默病治疗的营销和推广提出了警告，虽然肯定不是最常见的情况，但我们确实观察到这些策略的多个实例。

这些方法和结果说明了研究人员最近的努力，他们使用社交网络来分析错误信息的概念，这些方法与CBD错误信息的潜在问题直接相关。费朗等[25]分析了Siri、Alexa和谷歌等常见数字助手对疫苗错误信息的回答。陈等[26]收集了微博上与癌症相关的社交网络帖子，发现30%的帖子含有错误信息。艾哈迈德等人[27]收集了关于COVID-19和5G的推文，并进行了图表分析，以识别和分析虚假信息是如何在网上传播的。阿勒姆等[3.]在推特上发现了与大麻有关的未经证实的健康声明。最近，Rovetta和Bhagavathula [28]还在分析推文时发现了大量关于COVID-19的错误信息。

为了解决CBD领域潜在的社交媒体错误信息，重要的是开发收集和分类文本语料库的方法。之前使用互联网和社交媒体的研究描述了关于CBD的个人和商业话语。纳拉亚南等[15]利用基于互联网的数据源，通过检查谷歌搜索来检查CBD趋势，结果表明，从2014年到2018年，人们对CBD油的兴趣显著增加。Tran和Kavuluru [31]使用了Reddit上与CBD相关的帖子，以及提交给FDA的关于这些帖子的评论，以检查CBD通常治疗的疾病。在这项研究中，研究人员检查了医疗条件文本语料库和使用术语“CBD”的帖子和评论中的使用方法，以及两个语料库中暗示的任何治疗迹象。

也有非机器学习的方法来研究Twitter上的大麻情绪，比如Nguyen等人[32］．他们的研究收集了与大麻相关的推文，忽略了由影响力较小的海报作者撰写的推文，通过众包在李克特量表上手动注释大麻推文，并通过专有服务根据应用于数据集的人口统计数据将其分割。研究人员发现，非裔美国人和年轻人对大麻的态度更倾向于吸食大麻。在另一个不主要依赖机器学习的研究方法的例子中，Krauss等人[33他们的大麻情绪分析是基于众包推文。研究人员旨在调查推特用户对大麻和酒精的偏好。他们收集了含有酒精和大麻的推文，然后通过众包对这些推文进行注释。结果显示，54%的推文将大麻和酒精正常化，24%的人表示更喜欢大麻而不是酒精，2%的人表示更喜欢酒精而不是大麻，7%的人对酒精和大麻都表现出负面情绪，13%的人对任何一种物质都没有情绪。

我们提出的框架扩展了现有的CBD研究，通过比较反映个人使用CBD的推文和反映CBD销售和/或促销的推文的术语和情绪，进一步检查在线讨论中对CBD的看法。没有其他研究尝试过这种类型的比较工作，这种方法有助于检查哪些术语被比例地或不比例地使用，并比较个人和商业CBD推文的情绪。我们的方法可以应用于其他类型的研究，旨在分析不受管制物质的消费和广告趋势。

结论及未来工作

我们的框架的优势在于能够识别个人和商业CBD推文、相关条件和情绪。但是，应该注意到一些局限性。首先，我们将搜索范围限制在引用“CBD”和“大麻二酚”的推文上。我们的初步研究并没有表明CBD的主题像其他形式的大麻(如四氢大麻酚)一样受到俚语术语的影响，也没有表明有必要在搜索中包括其他相关术语[34］．此外，我们将收集的数据限制在Twitter上，因为Twitter是世界上最大的社交网络之一，能够快速收集大量数据。其次，我们的数据是在大约3个月的时间内收集的。虽然数据收集周期相对较短，但我们能够确定个人和商业CBD推文的趋势，这将对未来的研究有用。另一个限制是使用字典(标准、俚语和somed - ct)来查找相关的医疗条件。这一步是根据字典检查高频术语来确定医学相关性。未来的研究可以使用深度神经网络模型从推特中提取与医疗相关的命名实体，以实现自动化，并可能获得使用与医疗相关术语的上下文[35］．最后，尽管我们没有明确地从我们的集合中识别和删除社交机器人，正如Himelein-Wachowiak等人所讨论的那样[36]，我们确实在注释过程中删除了机器人，因为可能由机器生成的推文不被视为个人或商业CBD推文。

我们成功地使用文本分类来识别个人或商业CBD引用的推文。当我们对推文集合应用两个分类器时，我们确定了个人和商业CBD语料库中高频提及的多种医疗状况、身体部位、症状、其他物质和大麻参考，以及一个语料库中相对于另一个语料库中提及比例过高的情况。这表明CBD正被用于和销售用于一致类型的疾病。我们的情绪分析表明，利息期限确实会影响情绪得分;当控制术语时，测试的17个术语中有15个在个人CBD推特中表现出积极的情绪，所有17个术语在商业CBD推特中表现出积极的情绪。这表明，总体而言，CBD在医疗应用方面受到了良好的评价，而商业主张并没有严重扭曲公众情绪;然而，我们观察到的证据表明，这些说法可能被夸大了。我们鼓励未来的研究，以调查随着时间的推移，CBD以及其他形式大麻的情绪、使用和销售模式。此外，我们建议通过进一步使用文本挖掘和机器学习方法来扩展这个提议的框架，以识别与CBD的健康和医疗益处有关的错误信息的传播。

利益冲突

没有宣布。

Aggarwal SK, Carter GT, Sullivan MD, ZumBrunnen C, Morrill R, Mayer JD。大麻在美国的药用:历史观点，当前趋势和未来方向。阿片类药物杂志2009年1月29日;5(3):153-168。［CrossRef] [Medline］
坎波斯AC，莫雷拉FA，戈梅斯FV，德尔贝尔EA, Guimarães FS。大麻二酚在精神疾病中的大范围治疗潜力涉及多种机制。Philos Trans R Soc Lond B生物科学2012 Dec 05;367(1607):3364-3378 [免费全文] [CrossRef] [Medline］
Allem J, Escobedo P, Dharmapuri L.用推特数据监测大麻:新兴话题和社交机器人。美国公共卫生杂志2020年3月;110(3):357-362。［CrossRef］
Pang RD, Dormanesh A, Hoang Y, Chu M, Allem J.关于怀孕和产后使用大麻的Twitter帖子:内容分析。2017; 26(7):1074-1077。［CrossRef] [Medline］
FDA和大麻:研究和药物批准程序。美国食品和药物管理局，2020年10月https://www.fda.gov/news-events/public-health-focus/fda-and-cannabis-research-and-drug-approval-process[2020-12-02]访问
Palmieri B, Laurino B, Vadalà M.富含cbd软膏对炎性皮肤病和皮肤瘢痕的治疗作用。Clin Ter 2019;170(2):e93-e99 [免费全文] [CrossRef] [Medline］
Linares IMP, Guimaraes FS, Eckeli A, Crippa ACS, Zuardi AW, Souza JDS，等。大麻二酚对健康受试者的睡眠-觉醒周期没有急性影响:一项随机、双盲、安慰剂对照的交叉研究。前方药典2018年4月5日;9:315。［CrossRef] [Medline］
大麻二酚反复治疗对青少年社交焦虑障碍的抗焦虑作用。前沿精神2019年11月8日;10:2466。［CrossRef] [Medline］
香农S，刘易斯N，李H，休斯S大麻二酚在焦虑和睡眠:一个大型案例系列。烫发J 2019;23:18-041 [免费全文] [CrossRef] [Medline］
Skelley JW, Deas CM, Curren Z, Ennis J.大麻二酚在焦虑和焦虑相关障碍中的使用。美国药学协会(2003)2020;60(1):253-261。［CrossRef] [Medline］
Boyaji S, Merkow J, Elman RNM, Kaye AD, Yong RJ, Urman RD.大麻二酚(CBD)在慢性疼痛管理中的作用:当前证据的评估。Curr疼痛头痛代表2020年1月24日;24(2):4。［CrossRef] [Medline］
Johnson JR, burnnell - nugent M, Lossignol D, ganee - motan ED, Potts R, Fallon MT.多中心、双盲、随机、安慰剂对照、平行组研究THC:CBD提取物和THC提取物对难治性癌症相关疼痛患者的疗效、安全性和耐受性。J Pain Symptom Manage 2010 Feb;39(2):167-179 [免费全文] [CrossRef] [Medline］
Uberall马。四氢大麻酚(THC: CBD)口腔黏膜喷雾剂(Nabiximols)治疗慢性疼痛的科学证据综述。J Pain Res 2020;13:39 -410。［CrossRef] [Medline］
Kosgodage US, mold R, Henley AB, Nunn AV, Guy GW, Thomas EL，等。大麻二酚(CBD)是一种新型的外泌体和微囊泡(EMV)释放抑制剂。前方药典2018年8月13日;9:889。［CrossRef] [Medline］
刘伟，刘志强，刘志强，等。大麻二酚(CBD)油、癌症和症状管理:公共利益的谷歌趋势分析。J Altern Complement Med 2020 Apr 01;26(4):346-348 [免费全文] [CrossRef] [Medline］
Tsugawa S, Kikuchi Y, Kishino F, Nakajima K, Itoh Y, Ohsaki H.从Twitter活动中识别抑郁症。2015年发表于:CHI '15:第33届ACM计算系统中人因会议论文集;2015年4月18日;韩国首尔，第3187-3196页。［CrossRef］
Carchiolo V, Longheu A, Malgeri M.利用Twitter数据和情感分析研究疾病动态。2015年发表于:ITBAM 2015:生物和医疗信息学中的信息技术;2015年9月3-4日;瓦伦西亚,西班牙。［CrossRef］
Oscar N, Fox PA, Croucher R, Wernick R, Keune J, Hooker K.机器学习，情感分析和推文:对推特上阿尔茨海默病耻辱的检查。《老年医学B心理科学与社会科学》2017年9月1日;72(5):742-751［CrossRef] [Medline］
阿布阿里加，何法尔，谢哈布，侯赛因。医疗保健中的情感分析:简要回顾。在:Abd Elaziz M, Al-qaness M, e威士A, Dahou A，编辑。自然语言处理的最新进展:以阿拉伯语为例。计算智能研究，第874卷。可汗:施普林格;2020:129 - 141。［CrossRef］
Hutto C, Gilbert E. VADER:一个节俭的基于规则的社交媒体文本情感分析模型。2015年发表于:第八届网络日志和社交媒体国际会议(AAAI);2014年6月;安娜堡，密歇根州
kirliic A, Orhan Z.测量人类和Vader在情感分析上的表现。中国机械工程学报，2017;26(4):344 - 344。
杨军。基于自然语言工具箱的推特情感分析。发表于:国际工程师和计算机科学家多重会议(IMECS 2019);2019年3月13日至15日;香港。［CrossRef］
学生评价教学的情感分析。入:彭斯坦RC，编辑。教育中的人工智能。2018年啊。计算机科学课堂讲稿。10948卷。可汗:施普林格;2018:246 - 250。［CrossRef］
Park C, Seo D.与人工智能助手相关的Twitter语料库情感分析。2018年发表于:2018第五届工业工程与应用国际会议(ICIEA);2018年4月26-28日;新加坡。［CrossRef］
费兰·J，霍肯史密斯R，霍顿RF，沃尔什-布希ER。评估关于人乳头瘤病毒疫苗接种的智能助理响应的准确性和错误信息:内容分析研究。J Med Internet Res 2020 Aug 03;22(8):e19018 [免费全文] [CrossRef] [Medline］
陈琳，王旭，彭志强。社交媒体上与妇科癌症相关的错误信息的性质和传播:推文分析。J Med Internet Res 2018 10月16日;20(10):e11515 [免费全文] [CrossRef] [Medline］
Ahmed W, Vidal-Alaball J, Downing J, López Seguí F. COVID-19和5G阴谋论:Twitter数据的社交网络分析。J Med Internet Res 2020 May 06;22(5):e19458 [免费全文] [CrossRef] [Medline］
罗维塔A，巴伽瓦修拉A。COVID-19全球信息流行病学:谷歌网络搜索和Instagram标签分析J Med Internet Res 2020 Aug 25;22(8):e20673 [免费全文] [CrossRef] [Medline］
期BM。FDA和FTC警告那些声称他们的补充剂可以治疗不孕症的公司。JAMA 2021 july 06;326(1):20。［CrossRef] [Medline］
Scattertext:一个基于浏览器的工具，用于可视化语料库的差异。2017年发表于:2017年计算语言学协会，系统演示;2017;加拿大温哥华。［CrossRef］
Tran T, Kavuluru R.大麻二酚(CBD)产品感知治疗效果的社交媒体监测。国际毒品政策2020年3月;77:102688 [免费全文] [CrossRef] [Medline］
Nguyen A, Hoang Q, Nguyen H, Nguyen D, Tran T.在Twitter上评估大麻相关推文。2017年发表于:第七届年度计算与通信研讨会和会议;2017年1月9日至11日;内华达州拉斯维加斯[CrossRef］
Krauss MJ, Grucza RA, Bierut LJ, Cavazos-Rehg PA。“喝醉了。抽烟杂草。玩得开心。:关于大麻和酒精的推文内容分析。Am J健康促进2016年11月17日;31(3):200-208。［CrossRef］
Turner J, Kantardzic M.基于Word2Vec-Urban字典模型的Twitter查询扩展。2018年发表于:计算与大数据国际会议;2018;南卡罗来纳州查尔斯顿[CrossRef］
戴夫林，张伟，李K, Toutanova K. BERT:基于深度双向转换器的语言理解预训练。出来了。2019.URL:https://arxiv.org/abs/1810.04805[2021-12-06]访问
Himelein-Wachowiak M, Giorgi S, Devoto A, Rahman M, Ungar L, Schwartz HA，等。机器人和虚假信息在社交媒体上传播:对COVID-19的影响。J Med Internet Res 2021年5月20日;23(5):e26933 [免费全文] [CrossRef] [Medline］

‎

加拿大广播公司:cannabichromene

生物多样性公约:大麻二酚

食品药品监督管理局:食品和药物管理局

未经中华人民共和国交通部:碳链甘油三酸酯

创伤后应激障碍:创伤后应激障碍

SNOMED-CT:医学临床术语系统化命名

TF-IDF:术语频率-逆文档频率

THC:四氢大麻醇

维德:情感推理的价感字典

编辑:R库卡夫卡，G艾森巴赫;提交20.01.21;同行评议:J Lyu, JP Allem;对作者10.04.21的评论;订正版本收到21.05.21;接受10.11.21;发表20.12.21

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

关于大麻二酚的个人和商业推文的信息流行病学检查:术语和情感分析

关于大麻二酚的个人和商业推文的信息流行病学检查:术语和情感分析

原始论文

通讯作者:

摘要

关键字

简介

方法

框架开发

数据收集

推特注释

与大麻二酚(CBD)相关的个人和商业推文示例(为了匿名，略作转述)。CBC: cannabichromene。

错误推文的例子(为了匿名，略作改写)。CBC: cannabichromene;CBD:大麻二酚;美国食品和药物管理局;THC:四氢大麻酚。

分类培训

一项分析

情绪分析

道德

结果

分类

一项分析

情绪分析

个人和商业推文引用大麻二酚(CBD)和自闭症的例子(为了匿名，稍微改述了一下)。

讨论

主要研究结果

结论及未来工作

利益冲突

参考文献

缩写