JMIR公共卫生和监测-药物滥用本体利用基于web的数据进行药物使用流行病学研究:本体开发研究

原始论文

¹人工智能研究所，南卡罗来纳大学，哥伦比亚，南卡罗来纳州，美国

²泰国萨拉亚玛希隆大学社会与卫生系

^3.美国亚利桑那州凤凰城亚利桑那州立大学健康解决方案学院

⁴物联网和人工智能部，Trialog信息技术与服务，法兰西岛，法国

⁵莱特州立大学计算机科学与工程系，美国代顿市

通讯作者:

Usha Lokala, MSci

南卡罗莱纳大学人工智能研究所

格林街1112号

哥伦比亚，南卡罗来纳州，29208

美国

电话:1 803 777 9707

电子邮件:nlokala.sc.edu

背景:网络资源和社交媒体平台在健康知识和经验分享方面发挥着越来越重要的作用。人们对使用这些新数据源进行药物使用行为和趋势的流行病学监测越来越感兴趣。

摘要目的:主要目的是描述药物滥用本体(DAO)的开发和应用，作为分析基于网络和社交媒体数据的框架，为以下领域的公共卫生和物质使用研究提供信息:通过分析网络论坛数据确定与丁丙诺啡和非法制造阿片类药物的非医疗使用相关的用户知识、态度和行为;通过分析Twitter和网络论坛数据(eDrugTrends)，分析美国大麻合法化政策演变背景下大麻产品使用的模式和趋势;通过分析加密市场数据，评估新型合成阿片类药物的可用性趋势(eDarkTrends);并根据美国心理健康报告分析了与美国13个州相关的社交媒体数据中的COVID-19大流行趋势。

方法:DAO的领域和范围是使用流行的本体方法论(101本体开发)中的能力问题来定义的。101方法包括确定本体的领域和范围、重用现有知识、列举本体中的重要术语、定义类及其属性以及创建类的实例。本体论的质量是通过语义网社区和从事自然语言处理的人工智能社区认可的一组工具和最佳实践来评估的。

结果:当前版本的DAO包含315个类、31个关系和类之间的814个实例。本体是灵活的，可以很容易地容纳新概念。本体与机器学习算法的集成，通过在机器学习过程中添加外部知识，极大地降低了误报率。本体论定期更新，以捕捉不同上下文中不断发展的概念，并应用于分析与社交媒体和暗网市场相关的数据。

结论:DAO提供了一个强大的框架和有用的资源，可以扩展和适应广泛的药物使用和心理健康领域，以帮助推进基于web的数据的大数据分析，用于药物使用流行病学研究。

JMIR公共卫生监测2022;8(12):e24938

doi: 10.2196/24938

关键字

本体；知识图谱；语义网；非法药物； cryptomarket；社交媒体

背景

非法使用药物是一种复杂的社会现象，产生了各种影响个人及其社区的公共卫生问题。联合国毒品和犯罪问题办公室在其2020年报告中估计，2018年全球5.4%的人口使用非法药物，而0.7%的人口受到药物使用障碍的影响[1]。受药物使用障碍影响的个人有可能遭受各种不利的精神和身体健康影响，如无意过量用药或疾病感染(如艾滋病毒和丙型肝炎)。个人吸毒还可能影响他人的福祉，影响当地社区和社区[2]，从而创造了与个人开始吸毒有关的环境条件和社会决定因素[3.]。尽管大麻仍是迄今为止消费最多的非法药物，但更强效的形式可能与不良后果有关[4]，阿片类药物和安非他明类药物更多地与精神和身体伤害有关[5]。

虽然非法药物使用是影响现代社会的一种普遍现象，但近年来，在可获得的药物种类、互联网发挥的作用越来越大以及越来越多的国家将几种非法药物非刑事化或合法化方面发生了根本和迅速的变化。例如，自2015年以来，欧洲药物和药物成瘾监测中心已经确定并列出了大约400种新型精神活性物质[6]，而位于暗网上的加密市场已成为分销新型精神活性物质和其他非法或处方药的日益重要的平台[7，8]。这些变化要求采取更及时的数据收集方法，以便对需求和供应双方进行监测。在这个不断变化的环境中，用户在社交媒体上分享的关于非法药物使用的内容是未经请求和未经过滤的自我披露与药物使用有关的态度和做法的丰富来源[9]。此外，可以利用基于网络的分销来源，提供有关非法药物供应贸易和新趋势的最新情况[10]。

这些未经过滤的基于网络的通讯和广告提供了对不断变化和新出现的药物使用趋势敏感的丰富数据来源，并可用于补充和加强现有的流行病学监测系统。

基于语义的方法在加强和改进物质使用等复杂领域的大数据分析方面发挥着关键作用。语义网是web的一个扩展，在web中，一套设计原则和技术被创造出来，以捕捉信息的含义。11]。本体被定义为共享概念和它们之间关系的规范，由模式和实例的知识库组成[12]。

本体论在(1)语义web应用程序、(2)数据语义注释和(3)查询和推理工具的开发中也发挥着关键作用[13]。然而，要有效地应用语义web工具，就需要一个领域特定的本体来表示社交媒体帖子中描述的主要价值实体及其关系[14]。

为社交媒体数据开发本体的研究范围很广。例如，Kim等人提出的工作[15]的目标是开发一个专门针对肥胖的本体，用于调查与肥胖相关的社交媒体帖子，并检测特定社交媒体上发布的情绪、情绪和观点。他们的本体论是通过将本体论中的概念与与肥胖相关的推文中发现的类似术语进行映射来评估的，并且仅局限于与任何生物医学本体论的更广泛视角相关的8个超类。为了完善本体论，本研究仅限于社交媒体帖子，关键词大量分布在排名前2的肥胖类型(腹部和大腿)和排名前3的管理类型(饮食、运动和药物治疗)中，仅局限于社交媒体中的一般人群。

与心理健康领域相关的本体较少。例如，荣格等人。16]提出了一个实体-属性-价值三元组数据模型的本体论，用于青少年抑郁症的相关社交媒体分析。这个本体是根据临床指南和非结构化的社交媒体帖子开发的，分为777个术语危险因素、体征和症状、筛查、诊断、治疗和预防。这项工作主要局限于仅从与青少年抑郁症相关的社交媒体帖子中提取数据。

一些先前开发的本体用于处方药领域的分析。例如，处方药本体[17]旨在改进药物处方的语义，并通过重用来自信息工件本体的类和对象属性来实现处方数据的互操作性[18]，生物医学研究本体论[19]、普通医学本体论[20.]，医学相关社会实体本体论[21]，以及药物本体[22]。然而，这些本体论侧重于处方药的医疗用途，不包括与使用非法药物和成瘾有关的概念或俚语。

随着近年来阿片类药物危机的加深，在社交媒体上分析阿片类药物研究并做出政策决策的努力也有所加强。在最近的一项研究中，一种名为阿片类药物知识图谱(ODKG)的特定知识图谱[23]用于在电子健康记录中捕获阿片类药物相关药物和相关实体。由于药物滥用本体(DAO)也包含阿片类药物相关药物的信息，我们比较了ODKG和DAO在阿片类药物相关社交媒体语料库(Twitter)中对相关实体的覆盖情况，发现DAO在量级上优于ODKG。由于DAO的设计也涵盖了社交媒体中常见的俚语，因此在COVID-19大流行期间，它从12亿条爬行推文资源中检索到的推文比ODKG(200万条)多700万条，表现良好[24]。

本文的主要目的是描述DAO的开发、评估和应用过程，以促进和增强社会媒体和基于网络的物质使用流行病学研究分析。本文描述了在4个研究项目的背景下DAO的发展过程，其中3个是美国国立卫生研究院(NIH)赞助的研究，旨在利用基于网络和社交媒体的数据进行物质使用流行病学研究:(1)处方药滥用在线监测(PREDOSE)项目，旨在通过分析网络论坛数据，确定与丁丙诺啡和其他非法制造阿片类药物的非医疗使用相关的用户知识、态度和行为特征[25-27];(2) eDrugTrends项目，该项目通过分析Twitter和网络论坛数据，重点关注美国大麻合法化政策演变背景下大麻产品使用的模式和趋势[28-32];(3) eDarkTrends项目，旨在通过分析加密市场数据确定新型合成阿片类药物的可用性趋势[33-35];(4)与美国13个州相关的社交媒体数据中的COVID-19大流行趋势及其对心理健康的影响。

本文中使用的机器学习(ML)、自然语言处理(NLP)和本体设计相关术语按字母顺序排列在文本框1。

本文中使用的机器学习(ML)、自然语言处理(NLP)和本体术语的描述。

术语和描述

101本体[36]: 101本体是创建本体的指导原则，并提供了分步过程。它利用了作者在一些本体环境(如Protégé)中开发和维护本体的经验。
带上下文特征的Bootstrap和bagged随机森林(BRF-CF):随机森林是最流行的ML算法之一。这是一种称为bootstrap或bagging的集成ML算法。
类、数据属性、个体计数:这些术语被用作活动本体的导入闭包的签名。换句话说，本体论中提到了不同类、对象属性、数据属性和个体的数量。这里的数字包括内置实体，如owl: Thing(如果它们在本体中明确提到)。
社区本体存储库[37]:这是由地球科学信息合作伙伴的成员托管的本体存储库，可以让用户尝试语义技术，了解它们的好处，并探索使用语义资源的可能应用程序。
抑郁症和药物滥用BERT: BERT是一种来自变压器的双向编码器表示，是一种用于NLP的基于变压器的ML技术。我们微调了代表抑郁症和药物滥用的语料库的BERT模型。
DBpedia [38: DBpedia是一个众包社区，致力于从各种维基百科项目中创建的信息中提取结构化内容。
精神疾病诊断和统计手册(DSM)-5:它是由美国精神病学协会开发和出版的分类和诊断手册。它是精神卫生保健专业人员诊断精神障碍的权威指南。
实体、概念:实体是指包含类、个体和属性的概念。概念和类只是同义词。
F1分:是精密度和召回率的加权平均。这个分数同时考虑了假阳性和假阴性。F1通常比精度分数更有用。
假阳性，真阳性:假警报也被称为假阳性。假阳性是一种结果，表明给定的条件存在，但实际上并不存在。例如，该模型表明，大麻在不引起疼痛的情况下会引起疼痛。真正的阳性是指模型正确预测阳性类别的结果。类似地，真正的否定是指模型正确地预测了否定类的结果。假阳性是指模型错误地预测阳性类别的结果。
水平语言特征、垂直语言特征、细粒度特征:在训练ML模型时，我们将特征集组织成3大组:水平语言特征、垂直语言特征和细粒度特征。有调制(CFwM)和没有调制(CFw/oM)的上下文特性(或嵌入社交媒体帖子)是使用Word2Vec创建的2个附加特性集。
本体度量[39]:度量标准列出了Protégé中本体结构和表示的数字，因为它是创建本体使用最广泛的工具。公理将类和属性关联起来，是逻辑属性和非逻辑属性的组合。报告的不同类、对象属性、数据属性和个体的数量主要集中在DAO结构的评估上。
哎呀(本体陷阱扫描器)，蒸汽，三重检查器[40:这些是语义网(SemWeb)验证或文档工具，可以帮助改进本体。Oops自动检测本体中的常见缺陷，并提供修复这些缺陷的建议。
Owl文件:W3C web本体语言是一种SemWeb语言，旨在表示关于事物、事物组和事物之间关系的丰富而复杂的知识。
完美的方法[40PerfectO引用、分类并提供工具，鼓励SemWeb最佳实践通过关注本体改进来实现语义互操作性。
精确度，回忆:精确度是指当你预测结果为正时，结果实际为正的次数所占的比例，而回忆就像准确度除以恰好为正的次数——它是你正确标记为正的次数除以实际为正的次数的比例。
Protégé: protégé是一个免费的、开源的本体编辑器和用于构建智能系统的框架。
”SEDO [41:语义编码和解码优化。它是对一个词的词嵌入(向量)进行调制的过程。SEDO根据单词与精神障碍诊断与统计手册第5版类别的接近程度，调节用户Reddit内容中每个单词的嵌入。
Vanilla BERT: Vanilla BERT是基于注意力的BERT模型的变体，为神经网络提供了预先训练的起始点层。
WebVOWL [42]:它是一个用于本体交互可视化的web应用程序，是本体可视化表示的一种。

文本框1。本文中使用的机器学习(ML)、自然语言处理(NLP)和本体术语的描述。

DAO的演变

随着社交媒体和其他网络资源在与健康有关的知识和经验分享方面发挥越来越重要的作用[43]，就需要一个明确致力于物质使用研究领域的本体论。DAO的开发旨在形式化与成瘾和心理健康领域相关的概念、实体和关系，以利用其在社交媒体数据上的使用。我们的方法建立在语义web技术的集成上，增强了传统的ML和NLP技术，用于自动提取和表示相关数据，并促进了与每个研究的特定目标相关的分析和解释。

处方药滥用在线监控

本研究重点关注与丁丙诺啡非医疗使用相关的网络论坛数据[26，272002年底被美国食品和药物管理局批准用于治疗阿片类药物成瘾。丁丙诺啡的使用在没有医生监督的情况下被定义为非处方使用。尽管在网络讨论中，在消除处方用药和非处方用药的歧义方面总是存在一定程度的不确定性，但个人分享的一些问题和实践提供了关于非处方用药的指标(例如，说Suboxone是从朋友那里获得的;那国内外哼了一声;或者它被切割并少量使用)。丁丙诺啡(Suboxone, Subutex等)是唯一的受控物质，可由注册医生在办公室设置下用于阿片类药物成瘾的治疗。PREDOSE的总体目的是通过应用新的信息处理技术来促进定性和定量分析，研究用户生成的关于Suboxone(丁丙诺啡或纳洛酮)、Subutex(丁丙诺啡)和其他丁丙诺啡产品非法使用的网络论坛讨论[26]。除了Twitter和Reddit，我们还使用了3个网络论坛，为人们提供了自由分享药物使用经验和发表问题、评论和对不同药物的意见的场所。我们研究中使用的其中一个网络论坛是Bluelight [44(请注意，根据莱特州立大学机构审查委员会的指导方针，本文未披露其他两个论坛的名称)。我们的团队已经与Bluelight团队开展了研究合作，并能够直接从Bluelight获得未识别的数据更新。这些论坛的数据是使用定制的网络爬虫收集的。我们之所以选择研究丁丙诺啡，是因为当时(2011-2012年)有越来越多的证据表明丁丙诺啡被使用，而且对其在美国的非医疗使用模式和趋势的了解相对较少。由于丁丙诺啡的使用与更广泛的非法阿片类药物使用和成瘾有关，DAO的初始版本包括阿片类药物的详细表示，包括俚语和品牌名称术语。为PREDOSE项目开发的DAO还包括其他类别的药物，如大麻和兴奋剂类药物，因为多物质使用在非法阿片类药物使用者中很常见。图1［26]演示了在PREDOSE体系结构中使用DAO本体，该体系结构包括三个主要模块:

数据收集模块，从35974名用户收集了大约100万篇帖子(1,066,502篇)。
使用DAO本体对帖子进行语义注释的自动编码模块。
数据分析和解释模块，以可视化在帖子中找到的关键字(例如，loperamide和buprenorphine)，并在DAO本体中引用。

图1。处方药滥用在线监测(PREDOSE)中药物滥用本体的使用。RDF:资源描述框架。

eDrugTrends

这是我们在2014年获得NIH和国家药物滥用研究所(NIDA)资助的第二个项目[45]。这项研究的重点是在美国大麻合法化政策演变的背景下，与大麻和合成大麻素使用相关的社交媒体数据。本研究的目的是开发eDrugTrends，这是一个全面的软件平台，用于对大麻和合成大麻素使用的社交媒体数据(Twitter和网络论坛)的主题、情感、时空和社交网络维度进行半自动处理和可视化。该研究还旨在(1)利用Twitter和网络论坛数据，识别和比较美国不同大麻合法化政策地区大麻和合成大麻素使用相关知识、态度和行为的趋势;(2)分析社交网络特征，并确定Twitter上大麻和合成大麻素相关讨论的关键影响因素。为了实现eDrugTrends平台的这些目标，DAO进一步扩展，包括更全面地代表新兴大麻产品、合成大麻素产品、与健康相关的后果和精神健康状况。

eDarkTrends

这是使用DAO的第三个项目。这项研究由NIH和NIDA的时间敏感机制资助[46，始于2017年。eDarkTrends项目面向新型合成阿片类药物，例如过去几年出现的非法制造的芬太尼，这些芬太尼过去是而且仍然是美国与阿片类药物相关的非故意过量死亡增加的重要原因[35，47，48]。然而，当时(2017年)对加密市场数据的流行病学监测有限。该研究的总体目标是利用加密市场数据对非法芬太尼、芬太尼类似物和其他新型合成阿片类药物的可用性趋势进行监测，并识别在暗网环境中出现的新物质。最终，eDarkTrends旨在为流行病学监测提供一个强大的工具，提高早期预警系统的能力，以捕捉芬太尼和其他非法合成阿片类药物供应和可用性的变化。为满足该项目的具体需求，DAO进一步扩大，包括对新型非法合成阿片类药物结构域(如卡芬太尼、呋喃尼芬太尼、U-47700和MT-45)的全面和详细表示。

COVID-19大流行

此外，我们将DAO应用于COVID-19社交媒体数据分析，分析与大流行相关的社交媒体数据。其目的是，COVID-19大流行缓解了社区范围内的抑郁症，并导致药物使用增加[49]。最近的研究调查了COVID-19大流行对心理健康的影响[50-52]。为此，我们提出了一个新的框架，用于评估美国不同州抑郁症、药物使用和潜在新闻内容的信息量的时空主题进展[53]。DAO与统一医学语言系统、精神疾病诊断与统计手册第五版(DSM-5)词典中的医学主题标题术语层次一起使用[41]，它们被统称为精神健康和药物滥用知识库(MHDA-Kb)，以发现其他实体。

概述

本体论是由领域专家共同作者(FL和RD)手动开发的，他们使用了一系列来源，包括(1)通过NIDA访问的关键流行病学数据源和报告[54]、禁毒署[55]、欧洲毒瘾监测中心[56]，和RxNorm [57];(2)先前与非法制造阿片类药物、大麻和其他药物有关的同行评审出版物[58-61];以及(3)对与选定物质有关的基于网络的社交媒体来源进行持续的人工评估和检查[25，27，62]。类型1和2的来源提供了主要概念，而类型3的来源在识别其他概念方面很重要，包括同义词和街道名称。为了开发DAO，我们遵循了著名的101本体开发方法[63]。101方法包括(1)确定本体的领域和范围，(2)重用现有知识，(3)列举本体中的重要术语，(4)定义类及其属性并创建类的实例。

设计

图2提供了DAO本体的概述。门徒(64]是一种流行的本体编辑器，用于将本体构建为子类树。本体论被设计为与物质使用相关的概念目录。因此，精神活性物质的类别(如大麻素和阿片类)被创造出来，并充斥着物质的亚型(如吗啡和芬太尼)。每种物质由其名称定义，并在适用时提供有关其药品或品牌名称的信息(has_brand_name)、俚语或街名(has_street_name)，以及化学名称(has_chemical_formula)。后一种信息通过不同来源收集:药品或品牌名称基于现有的医学或药理学词典，俚语或街道名称基于第二和第三作者(RD和FL)的领域知识，化学名称主要涉及合成大麻素受体激动剂，并基于学术文献和缉获数据(例如，国家法医实验室信息系统和欧洲刑警组织)。DAO还增加了与单元相关的概念和俚语(例如，瓶盖，毫升和瓶子)，纯度及制备形式(碾压和眼球)能够识别和分析文本内容中的三元[65]。例如，这种药物的一个例子吗啡是Poppy_Tea，里面有俚语圆荚体而且Poppy_Pods用于社交媒体。

实例化

这被定义为在层次结构中创建类的实例。类的实例有自己的类并填充值。实例有自己的属性。例如,芬太尼属于班级阿片样物质并具有自身的特性如Has_brand_name, has_synonym, has_slang_term，等。DAO本体重用DBpedia数据集的实例[66(如丁丙诺啡)。图3是DAO的WebVOWL(用于本体的交互式可视化的web应用程序)表示，该DAO集中于从可视化数据web派生的实体Cannabis [67]。图2显示了在DAO本体中实现为web本体格式(owl)文件的药品名称树。在图2、实体、对象属性、实例和数据属性分别用黄色、绿色和紫色标记表示，这些标记清楚地描述了每个实体的类、实例、层次结构和关系的性质。

图3。基于web的OWL本体可视化(WebVOWL)表示药物滥用本体，重点关注大麻概念。RCS-4: 1-pentyl-3 - (4-methoxybenzoyl)吲哚。

伦理批准

这项研究是按照赖特州立大学的机构审查委员会的指导方针进行的。所选网站的名称在此稿件中未披露。我们的项目包括分析Twitter上公开的匿名数据。它不涉及与任何个人或其个人身份数据的任何直接交互。此外，我们的数据集不包括与人类参与者的任何交互。根据我们的数据使用安全协议，我们的数据集不包含任何图像。因此，这项研究得到了莱特州立大学机构审查委员会的审查，并获得了豁免决定。

评价

DAO本体是根据国际语义web会议资源跟踪指南认可的语义web最佳实践进行评估的[68]，提供以下标准:(1)影响，(2)可重用性，(3)设计和技术质量，以及(4)可用性。我们还遵循了PerfectO方法论[40]，其中综合了一套额外的最佳实践，并简化了他们的成就[69]。我们已经讨论了对DAO应用以下标准的结果:

影响和可重用性:如前所述，DAO已在4个场景中被利用。可以使用Live OWL文档环境提供自动文档[70]， DAO文档可在社区本体存储库[71]。
设计、技术质量和可用性:使用基于web的本体可视化(WebVOWL)，本体的设计以图形可视化的形式在web上可用[72，73]。我们使用Oops (ontology Pitfall Scanner)工具改进了本体，该工具可以自动检测常见的缺陷并提供修复它们的建议。哎呀，加载DAO可以在web上测试[71，74]。链接数据验证器，与DAO集成的vapor工具[75]用于检查取消引用统一资源标识符和内容协商。最后，资源描述框架Triple-Checker检查现有的本体是否在我们的DAO中被正确使用[76]。
本体度量:还对DAO进行了评估，如图所示表1，关于几个本体度量[77]。度量标准在Protégé中列出了本体结构和表示的数字，因为它是创建本体使用最广泛的工具[78]。公理将类和属性关联起来，是逻辑公理和非逻辑公理的组合[79]。中报告的不同类、对象属性、数据属性和个体的数量表1主要关注DAO结构的评估。

表1。药物滥用本体度量:本体度量视图显示活动本体中公理的实体和公理计数[39]。

度规		数n	描述
本体指标
	公理	4876	结合逻辑和非逻辑公理计数
	逻辑公理计数	3478	逻辑公理的数量
	声明公理很重要	1185	声明公理的数量
	类数	316	本体中提到的不同类、对象属性、数据属性和个体的数量
	对象属性计数	12	本体中提到的不同类、对象属性、数据属性和个体的数量
	数据属性计数	13	本体中提到的不同类、对象属性、数据属性和个体的数量
	个体数	845	本体中提到的不同类、对象属性、数据属性和个体的数量
类公理
	SubClassOf	313	本体论中SubClassOf公理的数量。子类公理指出一个类是另一个类的子类
个人公理
	数据属性断言	2317	数据属性断言声明个体通过数据属性表达式连接到文字。
	ClassAssertion	830	类断言声明个体是类表达式的实例。
	AnnotationAssertion	213	注释断言声明注释主题是具有注释属性和值的匿名个体。

随后的部分将演示在不同平台上使用DAO的结果，以及每个用例中DAO的发展。

预剂量内的DAO

图4［26，80]描述了如何使用DAO自动注释文本。在文中所示图4，我们识别药物实体、剂量、时间间隔、给药途径等。在DAO中，buprenorphine定义为的子类Subutex而且目前。它有俚语术语国内外而且Bupey。这个词国内外如果不将其定义为DAO中的俚语，就不可能在文本中识别它。DAO能够基于本体中的词法查找映射单位(例如mg→MILLIGRAM)和俚语术语(例如bupe - buprenorphine)。类似地，其他概念，如给药路径注射，在文本中也有标识。在与nlp相关的任务中，例如文本数据的词汇、语义和语法分析，添加本体作为识别数据中的三元组和实体的外部知识来源。将数据中的领域概念化是处理进一步信息(词汇和基于规则的语法)的先决条件[81) (图5［80])。在使用DAO评估601个网络论坛帖子时，我们在信息提取任务中实现了84.9%的精度和72.5%的召回率。特别是，在3639个注释中，2640个被预测是正确的(真阳性)，而683个俚语是错误的(假阳性)。就召回而言，3639个注释中只有999个被遗漏(假阴性)[26]。对于DAO的三重提取，我们在197个评估的三重模式中达到了33%的精度(66个是正确的，131个是错误的)。对于使用DAO的关系提取，我们在183个短语中达到了36%的精度(66个是正确的，117个是错误的)。另一项发现(图6［25])，我们对DAO网络论坛的分析显示，洛哌丁胺被广泛用于治疗与阿片类药物成瘾相关的戒断症状，而丁丙诺啡和美沙酮通常被处方。在这项工作之后，共有3项毒理学研究导致食品和药物管理局在2016年发出警告[25，82]。视频演示[83在PREDOSE平台上使用。PREDOSE平台表明需要进一步增强信息提取和自动数据编码技术。

eDrugTrends(监测社交媒体上的药物趋势)

eDrugTrends项目旨在分析网络论坛和Twitter上与使用大麻和合成大麻素相关的知识、态度和行为趋势[26，28-31]。图7［79]展示了DAO本体在eDrugTrends体系结构中的应用，包括4个阶段:(1)数据收集，(2)数据处理，(3)用于探索和可视化的数据访问工具，以及(4)定量和定性分析和解释。从社会科学或药物使用流行病学的角度来看，数据处理和信息提取阶段与为进一步分析和解释准备原始数据的编码任务相对应。在数据处理过程中，DAO在识别数据中的实体(药物的确切名称、同义词、俚语或街道名称)方面发挥了重要作用。我们使用DAO为特定领域的词嵌入模型生成嵌入向量，并构建了一个ML模型，通过对Twitter上与大麻相关的对话进行分类，根据用户的类型(个人、机构和零售商)对用户进行分类[28]。我们使用从人、内容和网络视图中提取的多模态嵌入实现了这一点，比经验基线提高了8% [28]。我们使用每个用户类型的个人(P)、知情机构(I)和零售商(R)的平均F1得分来评估我们的方法。P、I和R个人类别的F1得分分别为95%、42%和73%。本研究使用的Twitter用户帐户级别的训练集的描述性统计数据，其中涉及语义过滤[84中所示的表2。

表2。使用药物滥用本体提取Twitter用户账户的描述性信息[28]。

特性	个人账户	零售账户	通知代理	总计
推文数量	9836	1928	338	12102年
头像数量	4394	476	111	4981
有描述的用户数	3884	461	108	4453
转发数	955	24	964	1943
提及次数	94	6	307	407

使用DSM-5增强DAO

使用DSM-5增强DAO的动机是为临床医生提供基于网络干预的诊断术语中关于患者心理健康的可操作信息。在这项研究中，我们选择了Reddit数据，因为与药物相关的概念、实例和关系在语义上与社交媒体上的心理健康交流有关，尤其是在Reddit上。在我们的Reddit语料库中，与药物使用相关的类别构成了相当大的一部分(48%;语料库大小是数据集大小的250万篇帖子，来自15个心理健康版块，由268,104名用户组成。然而，DAO仍然缺乏《国际疾病分类》第十版所载的DSM-5中所定义的与精神健康诊断障碍直接相关的概念[85]、《医学临床术语系统命名法》[86]和DataMed [87]。在最近的研究中[41]关于将Reddit上用户帖子的精神状况与DSM-5诊断障碍相匹配，我们使用来自DSM-5的知识增强了DAO，其中包括20个章节(表3)，以符合《国际疾病分类》第十版及美国国立卫生研究院的研究范畴标准[88心理健康方面的问题增强后的DAO包括DSM-5分类后出现的精神健康障碍和相关症状的表示[89]。例如，引用大麻使用障碍包括以下术语对大麻上瘾，对大麻上瘾,Jazz_mango瘾君子。指…的感觉焦虑或焦虑包括以下条款坐立不安,担心,而且激动。这些外行术语是通过同义词词典和手动检查与抑郁、焦虑和其他精神健康状况相关的Reddit对话手动添加到DAO的。

表3。DSM-5数量的改善^一个在包含DAO之前和之后捕获与类别相关的概念^b［41]。

第五类	在没有DAO的情况下捕获的dsm -5相关概念，n	DAO捕获的dsm -5相关概念，n
解离性障碍	20.	20.
焦虑性障碍	40	87
物质使用和成瘾障碍	39	123
精神分裂症谱系	77	77
睡眠障碍	14	19
性欲倒错障碍	14	14
性别焦虑症	15	15
神经发育障碍	25	53
性障碍	23	23
人格障碍	76	98
创伤和应激源相关障碍	25	28
破坏性，冲动，控制和行为障碍	34	34
精神障碍	85	87
双相情感障碍及相关障碍	75	84
消除障碍	18	18
抑郁症	71	107
强迫症相关的障碍	43	60
喂养和饮食失调	32	39
神经认知障碍	80	80
自杀行为或意念	34	47

^一个精神疾病诊断与统计手册第五版。

^bDAO:药物滥用本体。

DAO由DSM-5的概念策划和增强，在弱监督的设置中使用，用DSM-5的类别标记Reddit帖子。在与Park和Conway的最新研究的比较分析中[90]，萨拉维亚等[91]， Gkotsis等[92]，我们发现使用DSM-5扩展DAO有助于提高我们实体识别工具的准确性(将误报率降低了92%)。这些结果显示在图8。我们通过与领域专家的可靠性评估进一步评估了预测的意义，该专家给出了84%的一致分数。此外，从DAO中引入俚语来匹配和处理非正式的社交媒体数据，提高了覆盖率和召回率(表4)．因此，我们证明了使用DAO和DSM-5知识对内容的上下文特征进行语义加权可以显著提高人工智能系统的鲁棒性。随着基于网络的内容被映射到临床可接受的词汇表，该系统带来了可解释性。此外,表3显示了我们的Reddit语料库中与DSM-5相关的DAO中提取的概念数量的改进，在添加俚语之前和之后各有20章。

图8。结果表明，在识别精神疾病诊断和统计手册第五版(DSM-5)类别以标记精神健康版块中的帖子时，特定领域的知识库降低了误报率。DAO:药物滥用本体。

表4。基于SEDO的背景特征及其调制的消融研究^一个从DSM-5中生成的权重^b或使用DAO对其进行丰富^c还有俚语^d。

方法(具有水平语言特征、垂直语言特征和细粒度特征)	精度	回忆	F1-score
BRF^e与CF^f	0.60	0.54	0.57
BRF-CF(从没有DAO的DSM-5词典生成的SEDO权重)	0.87	0.77	0.82
BRF-CF(从DSM-5词典生成的SEDO权重，其中包含不含俚语术语的DAO)	0.87	0.80	0.83
BRF-CF(从DSM-5词典生成的SEDO权重，不含俚语术语DAO)	0.85	0.82	0.83
BRF-CF(从带有俚语术语的DAO的DSM-5词典生成的SEDO权重)	0.88	0.83	0.85

^一个语义编码和解码优化。

^b精神疾病诊断与统计手册第五版。

^cDAO:药物滥用本体。

^d下表展示了使用增强DAO对模型的改进。

^eBRF:平衡随机森林。

^fCF:上下文特征。

烧除研究的基础模型是一个平衡的随机森林，具有水平语言特征(确定文章的数量、每篇文章的单词、第一人称代词、代词和从属连词)、垂直语言特征(词性标签的数量、帖子之间的相似性、子reddit内的相似性和子reddit间的相似性)和细粒度特征(情绪、情绪和可读性得分)。

eDarkTrends(监测加密市场上的药物趋势)

DAO还在识别相关实体和分析来自Darknet加密市场(如Agora、Dream Market和Empire Market)的数据方面发挥着重要作用，以量化和评估加密市场上芬太尼、芬太尼类似物和其他新型合成阿片类药物的可用性[25，26]。暗网市场的快照显示在图9［33]。与填充DAO阿片类子类的实例相关的术语和俚语术语，以及剂量(如克、mL和盎司)和形式(如片剂和粉末)类被编译为正则表达式，并在专门为Darknet数据设计的专用命名实体识别(NER)算法中用作表达式模式[35]。DAO被诱导地增加了特定于加密市场环境的缩写和术语(例如，fuff代表氟呋喃尼芬太尼，FE代表尽早确定)，以确保只收集关于新型合成阿片类药物的相关数据。NER允许捕获加密市场上广告的新型合成阿片类药物的类型和数量;例如，该NER将提供有关广告的以下信息芬太尼透皮贴片每小时100微克作为类:芬太尼型;名称:芬太尼;用量:0.0001 g / h;形式:皮肤。关于芬太尼、芬太尼类似物和其他在加密市场上广告的非药物合成阿片类药物的平均数量的结果显示在表5。用于获取这些结果的爬虫是2015年和2018年从Agora和Dream市场收集的暗网帖子[35]。我们还使用DAO对暗网市场(Dream、Tochka和Wall Street是本研究中使用的市场)上的供应商进行了分类。我们关于独特的供应商、实体、位置、供应商描述和提现交易数量的调查结果的摘要显示在表6。

表5所示。使用药物滥用本体提取的在加密市场上广告的芬太尼、芬太尼类似物和其他非药物合成阿片类药物的平均数量[34]。

物质种类			平均每天广告数量，按月计算(爬行次数)
			集市							梦想市场
			2015年3月		2015年4月		2015年5月		2018年3月			2018年4月
芬太尼^一个			130		174		139		207			216
芬太尼类似物
	乙酰基芬太尼	44		39		41		3.			1
	Butyr芬太尼	12		10		17		6			7
	卡芬太尼	0		0		0		12			5
	Furanyl芬太尼	0		0		1		31			39
	甲氧基乙酰芬太尼	0		0		0		14			14
	4-fluroIsoButyr芬太尼	0		0		0		19			16
	3-methoxyMethyl芬太尼	0		0		0		2			2
	总共，芬太尼类似物	56		49		59		87			84
其他NP^b合成的阿片类药物
	u - 47700	5		4		5		0			3.
	W-18	5		4		5		0			0
	MT-45	9		8		9		0			0
	ah - 7921	0		0		1		0			0
	u - 48800	0		0		0		1			7
	u - 49900	0		0		0		0			1
	U-4TDP	0		0		0		0			4
	u - 50488	0		0		0		8			4
	强积金- 47700	0		0		0		0			5
	总共，其他NP合成阿片类药物	19		16		20.		9			24
其他阿片类药物^c			827		1061		1152		3211			3137
总数(任何阿片类药物)			1033		1300		1370		3512			3460

^一个包括提及芬太尼、中国白海洛因、合成海洛因，以及提及药物芬太尼，如Duragesic、芬太尼贴片和芬太尼透皮系统。

^bNP:药物。

^c包括提及海洛因、鸦片、吗啡和其他类型的药物阿片类药物(如氢可酮、羟考酮和氢吗啡酮)，不包括药物芬太尼。

表6所示。使用药物滥用本体从Darknet市场提取的数据集摘要[33]。

市场	交易提现次数	比特币	美元等值	唯一供应商数量	物质的唯一数量	唯一位置数量	描述的唯一数量
梦想	261	99.1503695	197589 .12点	1448	852	356	16800年
Tochka	2990	0.70483642	5072.33	408	313	44	1829
华尔街	7755	2.572515	18729 .40	466	290	29	1723

COVID-19场景

我们利用2020年1月1日至4月10日的约12亿条推文，对新型COVID-19的心理影响进行了时空分析[93，94]。使用DAO中提到的实体和俚语，可以半自动识别与covid -19相关数据中有关成瘾和精神健康的概念。大约90个相关概念和140个俚语被用来提取提到非法药物使用、酗酒和药物滥用的推文。此外，在使用DAO提取的推文中，还观察到失眠和抑郁等自杀风险因素。同样，我们研究了COVID-19大流行期间发表的约70万篇新闻文章的负面媒体曝光，方法是使用DAO微调变压器(BERT)模型的双向编码器表示[53]。我们早期的研究考虑了2020年的3个月(1月、2月和3月)，因为根据美国心理健康报告，这段时间COVID-19传播非常广泛[95]。在这份报告中，我们使用了被认为是高传播地区的13个州中的10个。这三种状态不包括在表7华盛顿州、怀俄明州和爱达荷州。由于我们的数据集队列中不存在相关数据，因此未将这3个状态包括在内。在这项工作中，我们使用深度学习模型香草BERT、抑郁BERT和药物使用BERT报告了每个月的状态标签(即抑郁、药物滥用和信息丰富)，如图所示表7。这些深度学习模型的定义在文本框1。本研究随后分析了社会质量指数，该指数综合了心理健康成分(抑郁和焦虑)、成瘾和物质使用障碍，考虑了2020年3月至4月期间的推文。伊利诺斯州、纽约州、马里兰州、亚利桑那州、新墨西哥州和马萨诸塞州的社会质量指数和推文显示在图10［94]。

表7所示。BERT评价^一个美国各州心理健康模型超过3个月(2020年1月、2月和3月)[53，94]。

美国精神健康州抑郁症和吸毒问题严重	vanillaBERT (2020;个月)	Druguse-BERT (2020;个月)	抑郁症伯特(2020;个月)
田纳西州	二月及三月	二月及三月	二月及三月
阿拉巴马州	2月	二月及三月	2月
俄克拉何马州	3月	二月及三月	二月及三月
堪萨斯	2月	一月及二月	一月及二月
蒙大拿	3月	2月	二月及三月
南卡罗来纳	3月	3月	二月及三月
阿拉斯加	二月及三月	一月，二月和三月	二月及三月
犹他州	3月	3月	3月
俄勒冈州	没有一个	2月	没有一个
内华达	2月	2月	2月

^一个来自变压器的双向编码器表示。

图10。社会质量指数(SQI)模式的改善条件随着抑郁、成瘾和焦虑推文数量的下降而下降。

优势与局限

DAO是一个正在进行的项目，可以不断改进和扩展，以处理其他主题领域和新出现的物质使用问题和趋势。DAO开发需要物质使用研究领域的专家(领域专家)的密集、实际参与。我们承认我们的方法有局限性，因为我们的DAO开发团队没有包括有物质使用障碍生活经历的人。在未来，让使用药物的个人帮助开发和改进DAO部分和术语也很重要。DAO可以为跨学科协作团队提供一个工具和框架，以推进这项工作。DAO本体已经在几个场景中被证明是有效的，如评价节(第三节)。表8根据项目的需要总结了本体使用的演进和改进。本文件中所描述的有关项目的公共卫生调查结果，重点是人员、地点和时间，参考于表8。

表8所示。项目中实施的药物滥用本体概述。

域	相关的出版物	手稿部分	数据类型	结果参考
丁丙诺啡，洛哌丁胺，其他阿片类药物	卡梅隆等人[26]， Daniulaityte等[25，82]	初始剂量^一个［26]	网络论坛数据	图4而且5
社交媒体上大麻相关帖子的用户类型	库尔孙库等[28]， Lamy等[31]	eDrugTrends [28-31，96]	推特数据，网络论坛和蓝光	表2
抑郁症第五版	高尔等[41]	eDrugTrends [45]	网络论坛，Reddit和Twitter	表3而且4
芬太尼，芬太尼类似物，暗网供应商集群	乌沙等[35]，库马尔等[33]， Lamy等[34]	eDarkTrends [46]	社交媒体和加密市场	表5而且6
新型冠状病毒肺炎	高尔等[53，88]	COVID-19:公共卫生研究[97]	社交媒体	图10；表7

^一个预剂量:处方药滥用在线监测。

主要发现及结论

在这项研究中，我们开发并评估了DAO作为一个框架，用于识别社交媒体帖子中的概念、实体和感兴趣的关系。本研究中开发的DAO包括315个类、31个关系和814个实例，每个实例有2到4个层次。我们的本体论设计用于研究社交媒体数据、暗网数据和网络论坛。DAO主要用于知识提取，广泛适用于这些平台。

我们本体的超类集成了所有关于健康状况、个人相关、网络相关和社会(公共政策)、来源(经销商、互联网、医疗、自产)、时空和物质相关类的概念。本研究开发的集成本体适用于分析社交媒体帖子和暗网帖子，以了解网络相关特征、位置和时间问题，识别新趋势、同义词、俚语项目和新药物。

我们的本体论不仅包含从DSM-5中提取的术语，还包括社交媒体和其他网络帖子中使用的各种术语和俚语。包含所有医学术语、同义词和俚语的术语代表了所有物质，这使得社交媒体和暗网数据中的术语丰富。我们的本体论还有助于从社交媒体和暗网数据中发现主题和提取实体。此外，我们使用本体提取暗网市场中每个产品描述中的信息，以识别正在出售的未知物质，如合成毒品、研究化学品、合成大麻素和合成海洛因。

遵循著名的软件开发方法(如敏捷方法)，本体根据当前基于成瘾的研究需求不断更新。DAO是一种机器可处理的资源，它描述了与成瘾域相关的对象和类的集合，并且随着新的正在进行的项目的需求而不断增长。例如，当前的本体论正被来自暗网的知识所丰富。在未来的工作中，本体论将与其他本体论相连接(例如，MEDDRA [98，《监管活动医学词典》)来设计药物滥用知识图谱。另一项研究贡献将是自动更新DAO的新概念和属性，灵感来自一种算法，该算法允许用户使用从知识图中检索的建议交互式地构建特定主题的本体[99]。本文所使用的术语，载于多媒体附件1。

致谢

这项工作得到了国家药物滥用研究所(NIDA) 5R01DA039454-02拨款的部分支持趋势:社交媒体分析监测大麻和合成大麻素的使用；国家科学基金会奖1761931发言:媒介:中西部:合作:社区驱动的数据工程在中西部农村预防药物滥用；NIDA拨款5R21DA044518-02eDarkTrends:监测暗网市场跟踪非法合成阿片类药物趋势；以及美国国立卫生研究院拨款R21 DA030571-01A1基于语义Web技术的丁丙诺啡滥用社交网络数据研究。本材料中表达的任何观点、结论或建议都是作者的观点，并不一定反映美国国家科学基金会、美国国立卫生研究院或NIDA的观点。

利益冲突

没有宣布。

‎

多媒体附件1

本文中使用的术语表。

DOCX文件，16kb

毒品和犯罪问题办公室《2020年世界毒品报告》:全球毒品使用量上升;新冠肺炎疫情对全球药品市场影响深远。2020年7月25日。URL:https://www.unodc.org/unodc/press/releases/2020/June/media-advisory---global-launch-of-the-2020-world-drug-report.html[2022-04-09]访问
博德曼JD，芬奇BK，埃里森CG，威廉姆斯DR，杰克逊JS。社区劣势，压力和成年人的药物使用。卫生社会行为杂志2001 6;42(2):151-165。［Medline]
斯普纳C，赫瑟林顿K.吸毒的社会决定因素。新南威尔士州悉尼:新南威尔士州大学;2004.
霍尔W，林斯基M.评估娱乐性大麻使用合法化的公共卫生影响:美国的经验。世界精神病学2020年6月11日;19(2):179-186 [免费全文] [CrossRef] [Medline]
Ross EJ, Graham DL, Money KM, Stanwood GD。胎儿暴露于药物的发育后果:我们所知道的和我们仍然必须了解的。神经精神药理学2015 Jan;40(1):61-87 [免费全文] [CrossRef] [Medline]
2019年欧洲药物报告:趋势和发展。欧洲药物和毒瘾监测中心。2019年6月https://www.emcdda.europa.eu/publications/edr/trends-developments/2019_en[2021-02-15]访问
Kruithof K, Aldridge J, Hétu DD, Sim M, Dujso E, Hoorens S.“暗网”在非法毒品贸易中的作用。兰德公司，2016。URL:https://www.rand.org/pubs/research_briefs/RB9925.html[2022-07-29]访问
Aldridge J, Décary-Hétu D.隐藏批发:在线药物加密市场的药物扩散能力。国际毒品政策2016年9月;35:7-15 [免费全文] [CrossRef] [Medline]
胡晓峰，刘志刚，刘志刚，刘志刚。基于推特的预测分析方法研究。在:新兴的研究挑战和机遇在计算社会网络分析和挖掘。可汗:施普林格;2019.
索斯卡K，克里斯汀N.测量在线匿名市场生态系统的纵向演变。于:第24届USENIX安全研讨会论文集。2015年发表于:SEC'15:第24届USENIX安全研讨会论文集;2015年8月12日至14日;华盛顿特区。
张志刚，张志刚。语义网及其应用。在:语义Web服务，过程和应用程序。马萨诸塞州波士顿:施普林格;2006.
Uschold M, Gruninger M.无缝连接的本体和语义。SIGMOD Rec 2004 Dec;33(4):58-64 [免费全文] [CrossRef]
格林S, Abecker A, Völker J, Studer R.本体与语义web。见:语义Web技术手册。柏林，海德堡:施普林格;2011.
本体论和语义网。Commun ACM 2008 Dec;51(12):58-67。［CrossRef]
金亚，朴浩，宋涛。基于社会大数据分析的肥胖本体的开发与评价。Healthc Inform Res 2017年7月;23(3):159-168 [免费全文] [CrossRef] [Medline]
郑浩，宋涛。基于本体的社会数据情感分析方法:青少年抑郁信号的检测。J Med Internet Res 2017 july 24;19(7):e259 [免费全文] [CrossRef] [Medline]
李志强，李志强，李志强，等。药物处方本体论分析。应用Ontol 2018 11月09;13(4):273-294。［CrossRef]
数据收集和相关表征工件的信息工件本体视角。种马健康技术通报2012;180:68-72。［Medline]
Bandrowski A, Brinkman R, Brochhausen M, Brush MH, Bug B, Chibucos MC，等。生物医学研究本体论。PLoS One 2016 april 29;11(4):e0154556 [免费全文] [CrossRef] [Medline]
舒尔曼R，蔡斯特斯W，史密斯B.对本体论治疗疾病和诊断。Summit Transl Bioinform 2009 march 01;2009:116-120 [免费全文] [Medline]
希克斯A，汉娜J，韦尔奇D，布罗豪森M，霍根WR。医学相关社会实体的本体论:最新发展。J Biomed Semantics 2016 7月12日;7(1):47 [免费全文] [CrossRef] [Medline]
韩娜J, Joseph E, Brochhausen M, Hogan WR。基于RxNorm和其他资源构建药物本体。J Biomed Semantics 2013 12月18日;4(1):44 [免费全文] [CrossRef] [Medline]
张晓明，张晓明，张晓明，邹杰。基于知识图谱的阿片类药物流行研究。arXiv 2019 [免费全文]
Motlagh F, Shekarpour S, Sheth A, Thirunarayan K, Raymer M.预测毒品合法化的公众舆论:社交媒体分析和消费趋势。2019年IEEE/ACM社会网络分析和挖掘进展国际会议论文集，2019年发表于:ASONAM '19:社会网络分析和挖掘进展国际会议;2019年8月27日至30日;加拿大不列颠哥伦比亚省温哥华。［CrossRef]
daniel aitte R, Carlson R, Falck R, Cameron D, Perera S, Chen L，等。“我只是想告诉你洛哌丁胺会起作用”:一项基于网络的洛哌丁胺医疗外使用研究。药物酒精依赖2013年6月01日;130(1-3):241-244 [免费全文] [CrossRef] [Medline]
Cameron D, Smith GA, Daniulaityte R, Sheth AP, Dave D, Chen L，等。PREDOSE:使用社交媒体的药物滥用流行病学语义网络平台。J Biomed Inform 2013 Dec;46(6):985-997 [免费全文] [CrossRef] [Medline]
daniel aitte R, Carlson R, Brigham G, Cameron D, Sheth A。“Sub是一种奇怪的药物:”一项基于网络的关于使用丁丙诺啡自我治疗阿片类药物戒断症状的态度的研究。Am J Addict 2015年8月25日;24(5):403-409 [免费全文] [CrossRef] [Medline]
Kursuncu U, Gaur M, Lokala U, Illendula A, Thirunarayan K, Daniulaityte R.你是什么类型的?使用复合多视图嵌入的大麻相关通信中用户类型的上下文化分类。见:2018年IEEE/WIC/ACM网络智能国际会议论文集(WI)。2018发表于:2018 IEEE/WIC/ACM网络智能国际会议(WI);2018年12月03-06日;圣地亚哥,智利。［CrossRef]
daniel aitte R, Nahhas RW, Wijeratne S, Carlson RG, Lamy FR, Martins SS，等。2015年10月1日，155:307-311[毒品酒精依赖]免费全文] [CrossRef] [Medline]
刘志刚，陈丽丽，陈志刚，陈志刚，陈志刚，陈志刚。“什么时候‘坏’就是‘好’”:识别与毒品相关的推文中的个人交流和情绪。JMIR公共卫生监测2016年10月24日;2(2):e162 [免费全文] [CrossRef] [Medline]
Lamy FR, Daniulaityte R, Sheth A, Nahhas RW, Martins SS, Boyer EW，等。“那些可食用食品受到严重打击”:美国大麻可食用食品推特数据探索毒品酒精依赖2016年7月01日;164:64-70 [免费全文] [CrossRef] [Medline]
daniel aitte R, Lamy FR, Smith GA, Nahhas RW, Carlson RG, Thirunarayan K，等。“转发来传递直言”:分析美国各地与大麻相关的推文的地理和内容特征。J Stud Alcohol Drugs 2017 Nov;78(6):910-915 [免费全文] [CrossRef] [Medline]
Kumar R, Yadav S, Daniulaityte R, Lamy F, Lokala U. eDarkFind:用于Sybil帐户检测的无监督多视图学习。见:2020年Web会议记录。2020年发表于:WWW '20: 2020年Web大会;2020年4月20日至24日;台湾台北。［CrossRef]
Lamy F, Daniulaityte R, Barratt M, Lokala U, Sheth A, Carlson R.上市销售:在一个加密市场上分析芬太尼，芬太尼类似物和其他新型合成阿片类药物的数据。药物酒精依赖2020年6月12日;213:108115 [免费全文] [CrossRef] [Medline]
刘志刚，刘志刚，刘志刚，等。全球趋势，局部危害:暗网上芬太尼类药物的可用性和俄亥俄州的意外过量。Comput Math Organ Theory 2019 3月25日;25(1):48-59 [免费全文] [CrossRef] [Medline]
Ontology101。门徒Wiki。URL:https://protegewiki.stanford.edu/wiki/Ontology101,[2022-04-10]访问
欢迎访问ESIP的社区本体存储库，或COR.社区本体存储库。URL:http://esipfed.github.io/cor/[2022-04-10]访问
DBpedia。DBpedia。URL:https://wiki.dbpedia.org/about[2022-04-09]访问
本体指标。Protégé 5文档。URL:http://protegeproject.github.io/protege/views/ontology-metrics/[2022-04-09]访问
Gyrard A. PerfectO:语义web最佳实践。美味极了。2021年10月http://perfectsemanticweb.appspot.com/[2020-02-20]访问
高尔M，库尔松库U，阿兰博A，谢思A，丹尼拉提特R，蒂鲁纳拉扬K。“让我来告诉你你的心理健康状况!”:根据DSM-5对reddit帖子进行基于web干预的上下文化分类。2018年第27届ACM信息与知识管理国际会议论文集，CIKM '18:第27届ACM信息与知识管理国际会议;2018年10月22日至26日;意大利都灵。［CrossRef]
WebVOWL -基于web的本体可视化。VOWL。URL:http://vowl.visualdataweb.org/webvowl.html[2022-04-10]访问
Hamm MP, Chisholm A, Shulhan J, Milne A, Scott SD, Given LM等。患者和护理人员使用社交媒体:范围综述。英国医学杂志公开赛2013年5月09日;3(5):e002819 [免费全文] [CrossRef] [Medline]
Bluelight主页。Bluelight。URL:https://www.bluelight.org/xf/[2021-02-15]访问
药物干预、治疗和成瘾研究(CITAR)趋势中心。莱特州立大学。URL:https://medicine.wright.edu/citar/edrugtrends[2020-02-20]访问
干预、治疗和成瘾研究中心(CITAR)。莱特州立大学。URL:https://medicine.wright.edu/citar/edarktrends[2020-02-20]访问
Scholl L, Seth P, Kariisa M, Wilson N, Baldwin G.药物和阿片类药物过量死亡-美国，2013-2017年。MMWR Morb Mortal Wkly Rep 2018年12月21日;67(5152):1419-1427 [免费全文] [CrossRef]
威尔逊N，卡里莎M，赛斯P，史密斯H，戴维斯NL。与药物和阿片类药物有关的过量死亡-美国，2017-2018年。MMWR Morb Mortal Wkly Rep 2020年3月20日;69(11):290-297 [免费全文] [CrossRef] [Medline]
潘查尔，卡马尔，奥杰拉，考克斯C，加菲尔德R，哈梅尔L，等。COVID-19对心理健康和药物使用的影响。凯撒家庭基金会，2020年8月21日。URL:https://abtcounseling.com/wp-content/uploads/2020/09/The-Implications-of-COVID-19-for-Mental-Health-and-Substance-Use-_-KFF.pdf[2022-07-29]访问
Garfin D, Silver R, Holman E.新型冠状病毒(COVID-2019)爆发:媒体曝光放大公共卫生后果。健康心理2020年5月;39(5):355-357 [免费全文] [CrossRef] [Medline]
Holmes EA, O'Connor RC, Perry VH, Tracey I, Wessely S, Arseneault L，等。针对COVID-19大流行的多学科研究重点:呼吁精神卫生科学采取行动。柳叶刀精神病学2020年6月;7(6):547-560。［CrossRef]
邱娟，沈斌，赵敏，王铮，谢斌，徐艳。新冠肺炎疫情下国人心理困扰调查:启示与政策建议。Gen Psych 2020 3月06日;33(2):e100213。［CrossRef]
Alambo A, Gaur M, Thirunarayan K.抑郁、药物滥用或信息丰富:COVID-19疫情期间新闻暴露的知识意识研究。arXiv 2020 [免费全文]
国家药物滥用研究所。尼达。URL:https://www.drugabuse.gov/[2021-02-11]访问
美国缉毒局主页。美国禁毒署。URL:https://www.dea.gov/[2021-02-11]访问
2022年欧洲药物报告。欧洲药物和毒瘾监测中心。URL:https://www.emcdda.europa.eu/emcdda-home-page_en[2021-02-11]访问
RxNorm。美国国家医学图书馆。URL:https://www.nlm.nih.gov/research/umls/rxnorm/index.html[2021-02-11]访问
daniel aityte R, Carlson RG, Kenne DR.药物类阿片的起始和滥用模式:俄亥俄州药物滥用监测网络获得的初步定性结果。J Drug Issues 2016 Aug 03;36(4):787-808。［CrossRef]
王永强，王永强。“To numb out and start To feel nothing”:中西部城市一群吸食可卡因的女性的压力体验。J Drug Issues 2011 Jan 01;41(1):1-24 [免费全文] [CrossRef] [Medline]
daniel aitte R, Falck R, Carlson RG。药物类阿片年轻成人非医疗使用者社区样本中丁丙诺啡的非法使用情况。药物酒精依赖2012 5月01日;122(3):201-207 [免费全文] [CrossRef] [Medline]
Daniulaityte R, Carlson RG, Kenne DR.俄亥俄州代顿的甲基苯丙胺使用:来自俄亥俄州物质滥用监测网络的初步发现。中国精神药物杂志2007 Sep;39(3):211-221。［CrossRef] [Medline]
拉米FR, Daniulaityte R, Zatreh M, Nahhas RW, Sheth A, Martins SS，等。“你会爱上松香:无溶剂的轻拍，纯净、干净、天然的药物。”探索关于松香技术大麻浓缩物新兴趋势的Twitter数据。药物酒精依赖2018年2月1日;183:248-252 [免费全文] [CrossRef] [Medline]
Noy NF, McGuinness DL。本体开发101:创建第一个本体的指南。斯坦福，加州:斯坦福大学;2001.
马木森，Protégé团队。protégé项目:回顾和展望。AI Matters 2015 Jun 16;1(4):4-12 [免费全文] [CrossRef] [Medline]
林勇，刘志，孙明，刘勇，朱旭。知识图补全的学习实体和关系嵌入。2015年AAAI人工智能会议论文集，第29届AAAI人工智能会议;2015年1月25-30日;美国德克萨斯州奥斯汀网址:https://ojs.aaai.org/index.php/AAAI/article/view/9491
李志强，李志强，李志强，等。DBpedia -从维基百科中提取的大规模、多语言知识库。中文信息学报，2015;6(2):167-195 [免费全文] [CrossRef]
Lohmann S, Negru S, Haag F, Ertl T.用VOWL可视化本体。语义Web 2016 May 27;7(4):399-419 [免费全文] [CrossRef]
呼吁资源跟踪文件。ISWC。URL:http://iswc2018.semanticweb.org/call-for-resources-track-papers/[2020-02-20]访问
Gyrard A, Atemezing G, Serrano M. PerfectO:用于提高基于领域的本体的质量、可访问性和分类的在线工具包。见:语义物联网:理论和应用。可汗:施普林格;2021.
LODE - Live OWL文档环境主页。Live OWL文档环境。URL:http://www.essepuntato.it/lode[2020-02-21]访问
Lokala U.药物滥用本体。地球科学信息合作伙伴社区本体库，2020年7月27日。URL:http://cor.esipfed.org/ont/~ushanri/DAO[2022-02-15]访问
Lohmann S, Negru S, Haag F, Ertl T.用VOWL可视化本体。语义Web 2016 May 27;7(4):399-419。［CrossRef]
OWL本体的可视化符号。视觉数据网。2020年7月27日。URL:http://vowl.visualdataweb.org/webvowl-old/webvowl-old.html#iri=http://cor.esipfed.org/ont/~ushanri/DAO%C2%A0[2022-02-15]访问
Poveda-Villalón M, Gómez-Pérez A, Suárez-Figueroa MC。(本体陷阱扫描器!):用于本体评估的在线工具。国际语义Web信息系统2014;10(2)[免费全文] [CrossRef]
蒸汽报告。蒸汽关联数据验证器。URL:http://linkeddata.uriburner.com:8000/vapour?uri=http://cor.esipfed.org/ont/~ushanri/DAO[2022-02-15]访问
石墨PHP链接数据库。RDF Triple-Checker。URL:http://graphite.ecs.soton.ac.uk/checker/?uri=http://cor.esipfed.org/ont/~ushanri/DAO[2022-02-15]访问
本体指标。Protégé 5文档。URL:http://protegeproject.github.io/protege/views/ontology-metrics/[2021-02-15]访问
García J, García-Peñalvo FJ, Therón R.本体度量研究综述。在:知识管理，信息系统，电子学习和可持续发展研究。柏林，海德堡:施普林格;2010.
Web本体语言(OWL)抽象语法和语义。抽象的语法。W3C工作草案。URL:https://www.w3.org/TR/2002/WD-owl-semantics-20021108/syntax.html[2021-02-15]访问
Sheth A, Perera S, Wijeratne S, Thirunarayan K.知识将推动机器理解内容:从当前的例子中推断。发表于:WI '17: 2017年网络智能国际会议论文集;2017年8月23日至26日;德国莱比锡网址:https://datamed.org［CrossRef]
李国强，李国强。基于本体的自然语言处理方法研究。NLP和XML研讨会论文集(NLPXML-2004):语言技术中的RDF/RDFS和OWL。2004发表于:NLPXML '04: NLP和XML (NLPXML-2004):语言技术中的RDF/RDFS和OWL;2004年6月1日;西班牙巴塞罗那。
daniel aityte R, Carlson RG, Falck RS, Cameron DH, Udayanaga S, Chen L，等。洛哌丁胺自我治疗阿片类戒断症状的网络研究莱特州立大学，2012。URL:https://corescholar.libraries.wright.edu/knoesis/624/[2022-04-08]访问
初始剂量演示。2013年9月16日。URL:https://www.youtube.com/watch?v=gCFPzMgEPQM[2020-02-16]访问
张晓东，张晓东。基于语义过滤的社会数据分析。IEEE Internet计算2016年7月;20(4):74-78。［CrossRef]
《国际疾病分类》第10版。BioPortal。URL:https://bioportal.bioontology.org/ontologies/ICD10[2020-02-20]访问
snom CT。BioPortal。URL:https://bioportal.bioontology.org/ontologies/SNOMEDCT[2020-02-20]访问
bioCaddie核心开发团队。Home - DataMed。URL:https://datamed.org[2020-02-20]访问
研究领域标准(RDoC)。研究领域标准(RDoC)。在:国家精神卫生研究所(NIMH)。URL:https://www.nimh.nih.gov/research/research-funded-by-nimh/rdoc[2022-04-10]访问
Alambo A, Gaur M, Lokala U, Kursuncu U, Thirunarayan K, Gyrard A，等。使用reddit进行自杀风险评估的问题回答。见:2019年IEEE第十三届语义计算国际会议(ICSC)论文集。2019发表于:2019 IEEE第13届语义计算国际会议(ICSC);2019年1月30日至2月1日;美国加利福尼亚州新港海滩。［CrossRef]
Park A, Conway M.利用reddit来理解精神健康障碍患者所经历的书面沟通挑战:来自精神健康社区的文本分析。J Med Internet Res 2018年4月10日;20(4):e121 [免费全文] [CrossRef] [Medline]
Saravia E, Chang C, De Lorenzo RJ, Chen Y. MIDAS:基于社交媒体的精神疾病检测和分析。见:2016年IEEE/ACM社会网络分析和挖掘进展国际会议(ASONAM)论文集。2016年发表于:2016 IEEE/ACM社会网络分析和挖掘进展国际会议(ASONAM);2016年8月18日至21日;美国加州旧金山。［CrossRef]
郭志刚，李志刚，李志刚，李志刚，等。使用知情深度学习在社交媒体中描述心理健康状况。科学报告2017年3月22日;7:45141 [免费全文] [CrossRef] [Medline]
Gaur M, Khandelwal V, kurkuncu U, Pallagani V.利用社会质量指数衡量新型冠状病毒的时空心理影响。YouTube。URL:https://youtu.be/XzYrn0PEzNk[2020-06-27]访问
Gaur M, Kursuncu U, Khandelwal V, Pallagani V, Shalin V, Sheth a .精神病学:用社会质量指数衡量新型冠状病毒的时空心理影响。在:计算研究协会年会论文集。2020年发表于:计算研究协会年会;2020;-。［CrossRef]
对各州进行排名。美国心理健康协会。URL:https://www.mhanational.org/issues/ranking-states[2021-02-11]访问
Daniulaityte R, Carlson RG, Golroo F, Wijeratne S, Boyer EW, Martins SS，等。“小动作时间”:分析Twitter上丁烷哈希油使用的数据。在:2015年文摘书。俄亥俄州费尔伯恩:莱特州立大学;2015.
Covid19 - knoesis wiki。Wiki。URL:http://wiki.aiisc.ai/index.php/Covid19[2022-04-08]访问
Mozzicato P. MedDRA。医药医学2009;23:65-75。
Böhm K, Ortiz M.使用知识图构建特定主题本体的工具。第31届描述逻辑国际研讨会与第16届知识表示和推理原则国际会议(KR 2018)的会议记录。2018年发表于:第31届描述逻辑国际研讨会与第16届知识表示和推理原则国际会议(KR 2018);2018年10月27-29日;坦佩，美国亚利桑那州。

‎

伯特:来自变压器的双向编码器表示

刀:药物滥用本体

第五:精神障碍诊断与统计手册第五版

ML:机器学习

尼珥:命名实体识别

尼达:国家药物滥用研究所

国家卫生研究院:美国国立卫生研究院

NLP:自然语言处理

ODKG:阿片类药物知识图谱

初始剂量:处方药滥用在线监控

H Bradley编辑;提交10.10.20;M Meacham同行评议，P Foulquié， N Dasgupta;对作者21.12.20的评论;修订版本收到15.02.21;接受10.05.22;发表23.12.22

©Usha Lokala, Francois Lamy, Raminta Daniulaityte, Manas Gaur, Amelie Gyrard, Krishnaprasad Thirunarayan, Ugur Kursuncu, Amit Sheth。原载于JMIR公共卫生与监测(https://publichealth.www.mybigtv.com)， 2022年12月23日。

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息，https://publichealth.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

药物滥用本体利用基于web的数据进行药物使用流行病学研究:本体开发研究