JMIR公共卫生和监测-药物滥用本体利用基于网络的数据进行物质使用流行病学研究:本体发展研究

原始论文

¹美国南卡罗来纳州哥伦比亚市南卡罗莱纳大学人工智能研究所

²泰国萨拉亚玛希隆大学社会与卫生系

^3.美国亚利桑那州凤凰城亚利桑那州立大学健康解决方案学院

⁴法国法兰西岛Trialog信息技术与服务公司物联网与人工智能部

⁵赖特州立大学计算机科学与工程系，美国俄亥俄州代顿市

通讯作者:

Usha Lokala, MSci

南卡罗来纳大学人工智能研究所

格林街1112号

哥伦比亚，南卡罗来纳州，29208

美国

电话:1 803 777 9707

电子邮件:nlokala.sc.edu

背景:基于网络的资源和社会媒体平台在健康相关知识和经验分享方面发挥着越来越重要的作用。人们对使用这些新的数据来源进行药物使用行为和趋势的流行病学监测越来越感兴趣。

摘要目的:主要目的是描述药物滥用本体(DAO)的发展和应用，作为分析网络和社交媒体数据的框架，为以下领域的公共卫生和物质使用研究提供信息:通过分析网络论坛数据，确定与丁丙诺啡和非法制造的阿片类药物的非医疗使用相关的用户知识、态度和行为处方药滥用在线监测;通过对Twitter和网络论坛数据的分析，在美国不断发展的大麻合法化政策背景下分析大麻产品使用的模式和趋势(eDrugTrends);通过分析加密市场数据，评估新型合成阿片类药物供应的趋势(eddarktrends);并根据美国心理健康报告，分析与美国13个州相关的社交媒体数据中的COVID-19大流行趋势。

方法:DAO的领域和范围使用流行的本体方法(101本体开发)中的能力问题来定义。101方法包括确定本体的领域和范围、重用现有知识、列举本体中的重要术语、定义类及其属性以及创建类的实例。本体的质量是使用语义网络社区和从事自然语言处理的人工智能社区认可的一组工具和最佳实践来评估的。

结果:当前版本的DAO包含315个类、31个关系和类之间的814个实例。本体是灵活的，可以很容易地适应新的概念。将本体与机器学习算法相结合，通过在机器学习过程中加入外部知识，大大降低了虚警率。该本体定期更新，以捕获不同上下文中不断发展的概念，并应用于分析与社交媒体和暗网市场相关的数据。

结论:DAO提供了一个强大的框架和有用的资源，可以扩展和适应广泛的物质使用和心理健康领域，以帮助推进基于网络的数据的大数据分析，用于物质使用流行病学研究。

中国生物医学工程学报;2010;31 (2):444 - 444

doi: 10.2196/24938

关键字

本体; 知识图谱; 语义网; 非法药物; cryptomarket; 社交媒体

背景

非法药物使用是一种复杂的社会现象，产生影响个人及其社区的各种公共卫生问题。联合国毒品和犯罪问题办公室在其2020年报告中估计，2018年世界人口中有5.4%使用非法药物，而全球人口中有0.7%受到药物使用障碍的影响[1]。受药物使用障碍影响的个人有可能经历各种不利的精神和身体健康影响，例如意外过量服用或疾病感染(例如艾滋病毒和丙型肝炎)。个人药物使用也可能影响他人的福祉，影响当地社区和邻里[2]，这反过来又创造了与个人开始吸毒有关的环境条件和社会决定因素[3.]。尽管大麻仍然是迄今为止消费最多的非法药物，其更强效的形式可能与不良后果有关[4]，阿片类药物和安非他明类药物仍然更多地与精神和身体伤害有关[5]。

尽管非法药物使用是影响现代社会的一种地方性现象，但近年来，在可获得的药物种类、互联网发挥的作用日益增强以及在越来越多的国家将几种非法药物非刑事化或合法化方面，发生了根本性和迅速的变化。例如，自2015年以来，欧洲药物和药物成瘾监测中心已经确定并列出了大约400种新的精神活性物质[6]，而位于暗网上的加密市场已成为分销新型精神活性物质和其他非法或处方药的日益重要的平台[7，8]。这些变化需要更及时的数据收集方法，以便对需求和供给双方进行监测。在这个不断变化的环境中，用户在社交媒体上分享的关于非法药物使用的内容是未经请求和未经过滤的自我披露与药物使用有关的态度和做法的丰富来源[9]。此外，可利用网上分销渠道，提供非法药物供应贸易的最新资料和新趋势[10]。

这些未经过滤的基于网络的通信和广告提供了对不断变化和新出现的药物使用趋势敏感的丰富数据来源，可用于补充和加强现有的流行病学监测系统。

基于语义的方法在增强和改进诸如物质使用等复杂领域的大数据分析方面发挥着关键作用。语义网是万维网的延伸，在其中创造了一套设计原则和技术来捕捉信息的含义。[11]。本体被定义为共享概念及其之间关系的规范，由模式和实例知识库组成[12]。

本体论在以下几个方面的发展中也发挥着关键作用:(1)语义web应用程序，(2)数据的语义注释，以及(3)查询和推理工具[13]。然而，为了有效地应用语义web工具，需要一个特定于领域的本体来表示社交媒体帖子中描述的主要价值实体及其关系[14]。

已经有广泛的研究为社交媒体数据开发本体论。例如，Kim等人提出的工作[15目的是开发一个专门针对肥胖的本体，用于调查与肥胖相关的社交媒体帖子，并检测特定社交媒体上发布的情绪、情绪和观点。他们的本体是通过将本体中的概念与与肥胖相关的推文中发现的相似术语进行映射来评估的，并且仅限于与任何生物医学本体的更广泛视角相关的8个超类。本研究仅限于对本体进行改进的社交媒体帖子，关键词广泛分布在前2名肥胖类型(腹部和大腿)和前3名管理类型(饮食、运动和药物治疗)中，并且仅局限于社交媒体中的一般人群。

与心理健康领域相关的本体较少。例如，Jung等人。[16]提出使用实体-属性-值三元数据模型设计青少年抑郁症本体，对相关社交媒体进行分析。这个本体是使用临床指南和非结构化的社交媒体帖子开发的，分为777个术语危险因素、体征和症状、筛查、诊断、治疗和预防。这项工作主要局限于从青少年抑郁症相关的社交媒体帖子中提取数据。

为了分析处方药领域，开发了几个先验本体。例如，处方药本体[17]旨在通过重用来自信息工件本体的类和对象属性来改进药物处方的语义，并有望实现处方数据的互操作性[18]，生物医学研究的本体[19]，普通医学的本体[20.]，医学相关社会实体的本体[21]，药物本体[22]。然而，这些本体论侧重于处方药的医疗用途，不包括与使用非法药物和成瘾有关的概念或俚语。

近年来，随着阿片类药物危机的加深，分析社交媒体上的阿片类药物研究并制定政策的努力也越来越多。在最近的一项研究中，一种名为阿片类药物知识图谱(ODKG)的特定知识图谱[23]是为了在电子健康记录中记录阿片类药物相关药物和相关实体而开发的。由于药物滥用本体(DAO)也包含阿片类药物相关药物的信息，我们比较了ODKG和DAO在阿片类药物相关社交媒体语料库(Twitter)中相关实体的覆盖范围，并观察到DAO在数量级上优于ODKG。由于DAO的设计也涵盖了社交媒体中常见的俚语，因此在COVID-19大流行期间，它比ODKG(200万)从12亿条抓取的推文资源中多检索了700万条推文。24]。

本文的主要目的是描述DAO的开发，评估和应用过程，以促进和加强社会媒体和基于网络的物质使用流行病学研究分析。本文在4个研究项目的背景下描述了DAO的开发过程，其中3个是美国国立卫生研究院(NIH)资助的研究，旨在利用基于网络和社交媒体的数据进行物质使用流行病学研究:(1)处方药滥用在线监测(PREDOSE)项目，旨在通过分析网络论坛数据，表征与丁丙诺啡和其他非法制造的阿片类药物的非医疗使用相关的用户知识、态度和行为[25-27];(2) eDrugTrends项目，通过分析Twitter和网络论坛数据，重点关注美国大麻合法化政策演变背景下大麻产品使用的模式和趋势[28-32];(3) eDarkTrends项目，旨在通过分析加密市场数据来确定新型合成阿片类药物的可用性趋势[33-35];(4)美国13个州社交媒体数据中COVID-19大流行趋势及其对心理健康的影响。

本文中使用的与机器学习(ML)、自然语言处理(NLP)和本体设计相关的术语按字母顺序排列在文本框1。

介绍了本文中使用的机器学习(ML)、自然语言处理(NLP)和本体术语。

术语和描述

101本体[36]: 101本体是创建本体的指南，并提供了一步一步的过程。它利用了作者在几个本体环境(如prot)中开发和维护本体的经验。
带上下文特征的Bootstrap和bagged random Forest (BRF-CF):随机森林是最流行的ML算法之一。它是一种称为bootstrap或bagging的集成ML算法。
类、数据属性、个体计数:这些术语用作活动本体导入闭包的签名。换句话说，在本体中提到了不同的类、对象属性、数据属性和个体的数量。这里的数字包括内置实体，如owl: Thing，如果它们在本体中显式提到的话。
社区本体储存库[37:这是由地球科学信息合作伙伴成员托管的本体存储库，它将让用户尝试语义技术，了解其好处，并探索使用语义资源的可能应用程序。
BERT: BERT是来自变压器的双向编码器表示，是用于NLP的基于变压器的ML技术。我们在代表抑郁和药物滥用的语料库上微调BERT模型。
DBpedia [38[]: DBpedia是一个众包社区，致力于从各种维基百科项目创建的信息中提取结构化内容。
精神疾病诊断和统计手册(DSM)-5:这是由美国精神病学协会开发和出版的分类和诊断手册。它是精神卫生保健专业人员诊断精神障碍的权威指南。
实体、概念:实体被称为包含类、个体和属性的概念。概念和类只是同义词。
F1分数:是准确率和召回率的加权平均值。这个分数将假阳性和假阴性都考虑在内。F1通常比准确得分更有用。
假阳性，真阳性:误报警也被称为假阳性。假阳性是指在给定条件不存在的情况下显示存在的结果。例如，该模型表明，大麻可以在不引起疼痛的情况下引起疼痛。真正是模型正确预测正类的结果。类似地，真负是模型正确预测负类的结果。假阳性是模型错误地预测阳性类别的结果。
水平语言特征、垂直语言特征、细粒度特征:在训练ML模型时，我们将特征集分为3大类:水平语言特征、垂直语言特征和细粒度特征。有调制(CFwM)和没有调制(CFw/oM)的上下文功能(或嵌入社交媒体帖子)是使用Word2Vec创建的两个附加功能集。
本体度量[39]:这些指标列出了prot中本体的结构和表示的数字，因为它是创建本体最广泛使用的工具。公理将类和属性联系起来，是逻辑和非逻辑属性的组合。报告的不同类、对象属性、数据属性和个体的数量集中在对DAO结构的评估上。
Oops(本体陷阱扫描器)，蒸气，三重检查器[40:这些是语义网(SemWeb)验证或文档工具，可以帮助改进本体。oop自动检测本体中的常见缺陷，并提供修复建议。
Owl文件:W3C web Ontology Language是一种SemWeb语言，旨在表示关于事物、事物组和事物之间关系的丰富而复杂的知识。
完美方法论[40]: PerfectO引用、分类并提供工具来鼓励SemWeb最佳实践，通过关注本体改进来实现语义互操作性。
正确率，召回率:正确率是当你预测结果是正的时候，结果确实是正的，而召回率就像正确率除以正数，它是你正确标记为正的次数除以实际是正的次数。
prot: prot是一个免费的、开源的本体编辑器和框架，用于构建智能系统。
”SEDO [41:它代表语义编码和解码优化。它是对一个词的词嵌入(向量)进行调制的过程。SEDO根据单词与《精神疾病诊断与统计手册-第5版》类别的接近程度，调整用户Reddit内容中每个单词的嵌入。
Vanilla BERT: Vanilla BERT是基于注意力的BERT模型的一个变体，它为神经网络提供了一个预训练的起始点层。
WebVOWL [42:它是一个用于本体交互可视化的web应用程序，是本体可视化表示的一种。

文本框1。介绍了本文中使用的机器学习(ML)、自然语言处理(NLP)和本体术语。

DAO的演变

随着社交媒体和其他网络资源在健康相关知识和经验分享中发挥越来越重要的作用[43]，需要一个明确致力于物质使用研究领域的本体论。开发DAO是为了形式化与成瘾和心理健康领域相关的概念、实体和关系，以利用其在社交媒体数据上的使用。我们的方法建立在语义网技术的集成之上，增强了传统的ML和NLP技术，用于自动提取和表示相关数据，并促进了与每个研究的特定目标相关的分析和解释。

处方药滥用在线监控

这项研究的重点是与丁丙诺啡的非医疗使用有关的网络论坛数据[26，27美国食品和药物管理局于2002年底批准用于治疗阿片类药物成瘾。在没有医疗监督的情况下使用丁丙诺啡被定义为非处方。尽管在网络讨论中，在区分处方用药和非处方用药方面总是存在一定程度的不确定性，但个人分享的一些问题和做法提供了非处方用药的指标(例如，说苏博松是从朋友那里获得的;那国内外哼了一声;或者它被切成小块使用)。丁丙诺啡(Suboxone, Subutex等)是唯一可由执业医生在办公室开处方治疗阿片类药物成瘾的受控物质。PREDOSE的总体目的是研究用户生成的关于非法使用Suboxone(丁丙诺啡或纳洛酮)、Subutex(丁丙诺啡)和其他丁丙诺啡产品的网络论坛讨论，通过应用新的信息处理技术促进定性和定量分析[26]。除了Twitter和Reddit，我们还使用了3个网络论坛，为人们提供了自由分享吸毒经历的场所，并发表了关于不同药物的问题、评论和意见。我们研究中使用的其中一个网络论坛是Bluelight [44(请注意，根据赖特州立大学机构审查委员会的指导方针，其他两个论坛的名称未在本文中披露)。我们的团队与Bluelight团队开展了研究合作，并能够直接从Bluelight获得未识别的数据更新。来自这些论坛的数据是使用定制的网络爬虫收集的。我们之所以选择研究丁丙诺啡，是因为当时(2011-2012年)有越来越多的证据表明丁丙诺啡被使用，而美国对其非医疗使用的模式和趋势的了解相对较少。由于丁丙诺啡的使用与更广泛的非法阿片类药物使用和成瘾有关，DAO的初始版本包括阿片类药物的详细表示，包括俚语和品牌名称术语。为PREDOSE项目开发的DAO还包括其他类别的药物，如大麻和兴奋剂类药物，因为多种物质的使用在非法阿片类药物使用者中很常见。图1［26演示了在我们的PREDOSE架构中使用DAO本体，该架构包括三个主要模块:

数据收集模块，从35,974名用户中收集了大约100万篇帖子(1,066,502篇)。
使用DAO本体对帖子进行语义注释的自动编码模块。
数据分析和解释模块，用于可视化在帖子中发现并在DAO本体中引用的关键字(例如，loperamide和buprenorphine)。

图1所示。处方药滥用在线监测(PREDOSE)中药物滥用本体的使用。RDF:资源描述框架。

eDrugTrends

这是我们在2014年获得NIH和国家药物滥用研究所(NIDA)资助的第二个项目[45]。这项研究的重点是在美国大麻合法化政策不断发展的背景下，与大麻和合成大麻素使用相关的社交媒体数据。本研究的目的是开发eDrugTrends，这是一个全面的软件平台，用于对大麻和合成大麻素使用的社交媒体数据(Twitter和网络论坛)的主题、情感、时空和社交网络维度进行半自动处理和可视化。该研究还旨在(1)利用Twitter和网络论坛数据，识别和比较美国不同大麻合法化政策地区与大麻和合成大麻素使用相关的知识、态度和行为趋势;(2)分析社交网络特征，并确定Twitter上大麻和合成大麻素相关讨论的关键影响者。为了实现eDrugTrends平台的这些目标，DAO进一步扩大，以包括新兴大麻产品、合成大麻素产品、与健康有关的后果和精神健康状况的更全面代表。

eDarkTrends

这是使用DAO的第三个项目。这项研究是由NIH和NIDA时间敏感机制资助的[46，该项目始于2017年。eDarkTrends项目面向新型合成阿片类药物，如过去几年出现的非法制造的芬太尼，它们过去是，现在仍然是导致美国与阿片类药物相关的非故意过量死亡率增加的重要因素。35，47，48]。然而，当时(2017年)对加密市场数据的流行病学监测是有限的。该研究的总体目标是利用加密市场数据对非法芬太尼、芬太尼类似物和其他新型合成阿片类药物的可用性趋势进行监测，并识别在暗网环境中出现的新物质。最终，eDarkTrends旨在为流行病学监测提供一个强有力的工具，增强预警系统的能力，以捕捉芬太尼和其他非法合成阿片类药物供应和可得性的变化。为了满足该项目的具体需求，DAO进一步扩展，包括新的非法合成阿片类药物域(例如卡芬太尼、呋喃基芬太尼、U-47700和MT-45)的全面和详细的表示。

COVID-19大流行

此外，我们将DAO应用于COVID-19社交媒体数据分析，对与大流行相关的社交媒体数据进行分析。目的是COVID-19大流行缓解了社区范围内的抑郁症，并导致吸毒增加[49]。最近的研究调查了COVID-19大流行对心理健康的影响[50-52]。为此，我们提出了一个新的框架来评估美国不同州的抑郁症、药物使用和潜在新闻内容的信息性的时空主题进展[53]。DAO与统一医学语言系统、精神障碍诊断与统计手册第5版(DSM-5)词典中的医学主题标题术语层次结构一起使用[41]，统称为精神健康和药物滥用知识库(MHDA-Kb)，以发现其他实体。

概述

该本体由领域专家共同作者(FL和RD)手动开发，他们使用了一系列来源，包括(1)关键的流行病学数据源和通过NIDA可访问的报告[54]、禁毒署[55]、欧洲药物成瘾监察中心[56]和RxNorm [57];(2)先前与非法制造的阿片类药物、大麻和其他药物有关的同行评审出版物[58-61];(3)对与选定物质相关的基于网络的社交媒体资源进行持续的人工评估和审查[25，27，62]。类型1和2的来源提供了基本概念，而类型3的来源在确定替代概念方面很重要，包括同义词和街道名称。为了开发DAO，我们遵循了著名的101本体开发方法[63]。101方法包括(1)确定本体的领域和范围;(2)重用现有知识;(3)列举本体中的重要术语;(4)定义类及其属性并创建类的实例。

设计

图2提供DAO本体的概述。门徒(64]是一种流行的本体编辑器，用于将本体构建为子类树。本体论被设计为与物质使用有关的概念目录。因此，精神活性物质类别(如大麻素和阿片类药物)被创造出来，并填充了物质亚型(如吗啡和芬太尼)。每种物质均按其名称和(如适用)有关其药品名称或品牌名称的信息进行定义(has_brand_name)、俚语或街名(has_street_name)，以及化学名称(has_chemical_formula)。后一种信息是通过不同的来源收集的:药物或品牌名称基于现有的医学或药理学词典，俚语或街道名称基于第二和第三作者(RD和FL)的领域知识，化学名称主要涉及合成大麻素受体激动剂，并基于学术文献和缉获数据(例如，国家法医实验室信息系统和欧洲刑警组织)。DAO还增加了与单位相关的概念和俚语(例如:瓶盖，毫升，瓶)，纯度及制备形式((例如，压碎和弄瞎)能够识别和分析文本内容中的三元[65]。例如，药物的一个实例吗啡是Poppy_Tea，里面有俚语圆荚体和Poppy_Pods在社交媒体上使用。

图2。proprosamug中的药物滥用本体(概念、对象属性、数据属性和实例)。

实例化

这被定义为在层次结构中创建类的实例。类的实例拥有自己的类并填充一个值。实例有自己的属性。例如,芬太尼属于班级阿片样物质它有自己的属性，比如Has_brand_name, has_同义词，has_slang_term，等。DAO本体重用来自DBpedia数据集的实例[66(如丁丙诺啡)。图3是DAO的WebVOWL(用于本体交互式可视化的web应用程序)表示，专注于从可视化数据网络派生的实体大麻[67]。图2显示了在DAO本体中作为web本体格式(owl)文件实现的药物名称树。在图2、实体、对象属性、实例和数据属性分别用黄色、绿色和紫色标记表示，这些标记清楚地描述了每个实体的类、实例、层次结构和关系的性质。

图3。基于web的OWL本体可视化(WebVOWL)表示药物滥用本体，重点关注大麻概念。RCS-4: 1-pentyl-3 - (4-methoxybenzoyl)吲哚。

伦理批准

这项研究是按照赖特州立大学机构审查委员会的指导方针进行的。所选网站的名称未在本文中披露。我们的项目涉及到对Twitter数据的分析，这些数据是公开的，并且是匿名的。它不涉及与任何个人或其个人身份数据的任何直接互动。此外，我们的数据集不包括与人类参与者的任何交互。根据我们的数据使用安全协议，我们的数据集不包含任何图像。因此，赖特州立大学机构审查委员会对该研究进行了审查，并获得了豁免决定。

评价

DAO本体是按照国际语义网会议资源跟踪指南认可的语义网最佳实践进行评估的[68]，其中提供了以下标准:(1)影响，(2)可重用性，(3)设计和技术质量，以及(4)可用性。我们还遵循了PerfectO方法[40]，它综合了一套额外的最佳实践，并简化了它们的成就[69]。我们已经讨论了将以下标准应用于DAO的结果:

影响和可重用性:如前所述，DAO在4个场景中得到了利用。可以使用Live OWL文档环境提供自动文档[70]， DAO文档可在社区本体存储库[71]。
设计、技术质量和可用性:使用基于web的本体可视化(WebVOWL)，本体的设计以图形可视化的形式在web上可用[72，73]。我们使用Oops (ontology Pitfall Scanner)工具改进了本体，这些工具可以自动检测常见的缺陷并提供修复它们的建议。加载了DAO的ops可以在web上进行测试[71，74]。链接数据验证器，蒸汽工具与DAO集成[75]用于检查解引用统一资源标识符和内容协商。最后，资源描述框架Triple-Checker检查现有的本体是否在我们的DAO中被正确使用[76]。
本体度量:还对DAO进行了评估，如表1，相对于几个本体度量[77]。这些指标列出了proteproteins中本体的结构和表示的数字，因为它是最广泛使用的创建本体的工具[78]。公理将类和属性联系起来，是逻辑和非逻辑公理的组合[79]。中报告的不同类、对象属性、数据属性和个体的数量表1重点是对DAO结构的评估。

表1。药物滥用本体度量:本体度量视图显示活动本体中公理的实体和公理计数[39]。

度规		数n	描述
本体指标
	公理	4876	组合逻辑和非逻辑公理计数
	逻辑公理计数	3478	逻辑公理的数目
	声明公理计数	1185	声明公理的数目
	类数	316	本体中提到的不同类、对象属性、数据属性和个体的数量
	对象属性计数	12	本体中提到的不同类、对象属性、数据属性和个体的数量
	数据属性计数	13	本体中提到的不同类、对象属性、数据属性和个体的数量
	个体数	845	本体中提到的不同类、对象属性、数据属性和个体的数量
类公理
	SubClassOf	313	本体中SubClassOf公理的个数。子类公理说明一个类是另一个类的子类
个人公理
	数据属性断言	2317	数据属性断言声明个体通过数据属性表达式连接到文本。
	ClassAssertion	830	类断言声明个体是类表达式的实例。
	AnnotationAssertion	213	注释断言声明注释主体是具有注释属性和值的匿名个体。

随后的部分将演示在不同平台上使用DAO的结果，以及DAO在每个用例中的演变。

刀在预剂量内

图4［26，80描述了如何使用DAO对文本进行自动注释。在文本中所示图4，我们确定药物实体，剂量，时间间隔，给药途径等。在DAO中，丁丙诺啡被定义为的子类Subutex和目前。里面有俚语国内外和Bupey。这个词国内外如果不将其定义为DAO中的俚语，则不可能在文本中确定。DAO能够基于本体中的词汇查找映射单元(例如，mg→MILLIGRAM)和俚语术语(例如，bupe - buprenorphine)。类似地，其他概念，如管理路线注射，在文中也有说明。在与nlp相关的任务中，例如文本数据的词法、语义和句法分析，添加本体可以作为识别数据中的三元组和实体的外部知识来源。将数据中的领域概念化是处理有关该领域的进一步信息(词汇和基于规则的语法)的先决条件[81) (图5［80])。利用DAO对601篇论坛帖子进行评价，在信息抽取任务中准确率达到84.9%，召回率达到72.5%。特别是，在3639个注释中，2640个预测正确(真阳性)，而683个俚语是不正确的(假阳性)。就召回而言，3639个注释中只有999个被遗漏(假阴性)[26]。对于使用DAO的三重提取，我们在197个评估的三重模式中获得了33%的精度(66个是正确的，131个是不正确的)。对于使用DAO的关系提取，我们在183个短语中实现了36%的精度(66个正确，117个不正确)。另一项发现(图6［25[])是我们与DAO的网络论坛分析显示，洛哌丁胺被广泛用于治疗与阿片类药物成瘾相关的戒断症状，其中丁丙诺啡和美沙酮通常被开处方。在这项工作之后，共有3项毒理学研究导致美国食品和药物管理局在2016年发出警告[25，82]。视频演示[83]在PREDOSE平台上可以在网上找到。PREDOSE平台表明需要在信息提取和自动数据编码技术方面进行额外的增强。

eDrugTrends(监测社交媒体上的毒品趋势)

eDrugTrends项目旨在分析网络论坛和Twitter上与使用大麻和合成大麻素有关的知识、态度和行为趋势[26，28-31]。图7［79]展示了DAO本体在eDrugTrends架构中的应用，其中包括4个阶段:(1)数据收集，(2)数据处理，(3)用于探索和可视化的数据访问工具，以及(4)定量和定性分析和解释。从社会科学或物质使用流行病学的角度来看，数据处理和信息提取阶段对应于为进一步分析和解释准备原始数据的编码任务。在数据处理过程中，DAO在识别数据中的实体方面发挥了重要作用，这些实体是药物的确切名称、同义词、俚语术语或街头名称。我们使用DAO为特定领域的词嵌入模型生成嵌入向量，并构建了一个ML模型，通过对Twitter上与大麻相关的对话进行分类，按用户类型(个人、机构和零售商)对用户进行分类[28]。我们使用从人、内容和网络视图中提取的多模态嵌入实现了这一点，比经验基线提高了8% [28]。我们使用每个用户类型个体(P)、知情机构(I)和零售商(R)的平均F1分数来评估我们的方法。P、I和R的个体类别的F1分数分别为95%、42%和73%。本研究使用的Twitter用户帐户级别的训练集描述性统计，其中涉及语义过滤[84]使用DAO，见表2。

表2。利用药物滥用本体提取Twitter用户账户描述性信息[28]。

特性	个人账户	零售账户	通知代理	总计
推文数量	9836	1928	338	12102年
头像数量	4394	476	111	4981
带有描述信息的用户数量	3884	461	108	4453
转发数	955	24	964	1943
提及次数	94	6	307	407

用DSM-5增强DAO

用DSM-5加强DAO的动机是为临床医生提供关于基于网络干预的诊断术语中患者心理健康的可操作信息。我们之所以选择Reddit的数据进行这项研究，是因为与药物相关的概念、实例和关系在语义上与社交媒体上的心理健康交流有关，尤其是在Reddit上。在我们的Reddit语料库中，与药物使用相关的类别占很大一部分(48%;语料库大小是来自15个心理健康子版块的250万篇帖子，由268,104名用户发布)的数据集大小。然而，DAO仍然缺乏与DSM-5中定义的精神健康诊断障碍直接相关的概念，这些概念出现在国际疾病分类第10版中[85]、医学临床术语系统命名法[86]和DataMed [87]。在最近的一项研究中41]将Reddit用户帖子的精神状况与DSM-5诊断障碍进行匹配，我们利用DSM-5的知识增强了DAO，其中包括20章(表3)，符合《国际疾病分类》第10版和NIH的研究领域标准[88精神健康增强的DAO包括精神健康障碍和相关症状的表征，这些症状是在DSM-5分类之后发展起来的[89]。例如，的引用大麻使用障碍包括以下术语对大麻上瘾，对大麻上瘾,Jazz_mango瘾君子。指的是感觉焦虑或焦虑包括以下条款坐立不安,担心,和激动。这些外行术语是通过使用同义词字典和手工检查与抑郁、焦虑和其他心理健康状况相关的Reddit对话添加到DAO中的。

表3。DSM-5数量改善的示范^一个在包含DAO之前和之后捕获的与类别相关的概念^b［41]。

第五类	在没有DAO的情况下捕获与dsm -5相关的概念	使用DAO捕获的与dsm -5相关的概念
解离性障碍	20.	20.
焦虑性障碍	40	87
物质使用和成瘾障碍	39	123
精神分裂症谱系	77	77
睡眠障碍	14	19
性欲倒错障碍	14	14
性别焦虑症	15	15
神经发育障碍	25	53
性障碍	23	23
人格障碍	76	98
创伤和压力相关障碍	25	28
破坏性、冲动、控制和行为障碍	34	34
精神障碍	85	87
双相及相关障碍	75	84
消除障碍	18	18
抑郁症	71	107
强迫症	43	60
进食障碍	32	39
神经认知障碍	80	80
自杀行为或念头	34	47

^一个DSM-5:精神疾病诊断和统计手册-第5版。

^bDAO:药物滥用本体。

由DSM-5概念策划和增强的DAO在弱监督的环境中使用，以DSM-5分类标记Reddit帖子。在与Park和Conway的最新研究的对比分析中[90]， Saravia等[91]， Gkotsis等[92]，我们观察到，使用DSM-5扩展DAO有助于提高我们实体识别工具的准确性(减少了92%的误报)。这些结果显示在图8。我们通过与领域专家的可靠性评估进一步评估预测的意义，该评估给出了84%的一致性评分。此外，从DAO中加入俚语来匹配和处理非正式的社交媒体数据，提高了覆盖率和召回率(表4)。因此，我们证明了使用DAO和DSM-5知识对内容中的上下文特征进行语义加权可以显著提高人工智能系统的鲁棒性。由于基于网络的内容被映射为临床可接受的词汇，该系统带来了可解释性。此外,表3显示了从DAO中提取的概念在我们的Reddit语料库中捕获的数量的改进，这些语料库与dsm - 5,20章相关，在添加俚语术语之前和之后。

图8。结果表明，特定领域知识库在识别精神疾病诊断与统计手册-第5版(DSM-5)类别时降低了误报率，以标记精神健康子reddit中的帖子。DAO:药物滥用本体。

表4。基于SEDO的上下文特征及其调制的消融研究^一个从DSM-5生成的权重^b或使用DAO对其进行充实^c还有俚语^d。

方法(具有水平语言特征、垂直语言特征和细粒度特征)	精度	回忆	F1-score
BRF^e与CF^f	0.60	0.54	0.57
BRF-CF(从没有DAO的DSM-5词典生成的SEDO权重)	0.87	0.77	0.82
BRF-CF(从DSM-5词典中生成的SEDO权重，DAO不含俚语)	0.87	0.80	0.83
BRF-CF(从不带俚语的DAO的DSM-5词典生成的SEDO权重)	0.85	0.82	0.83
BRF-CF(从DSM-5词典与带有俚语术语的DAO生成的SEDO权重)	0.88	0.83	0.85

^一个语义编码和解码优化。

^bDSM-5:精神疾病诊断和统计手册-第5版。

^cDAO:药物滥用本体。

^d该表展示了使用增强DAO对模型的改进。

^eBRF:平衡随机森林。

^fCF:上下文特性。

消极性研究的基本模型是一个平衡的随机森林，它具有横向语言特征(定冠词的数量、每篇文章的字数、第一人称代词、代词和从属连词)、纵向语言特征(词性标签的数量、帖子之间的相似性、子reddit内部的相似性和子reddit之间的相似性)和细粒度特征(情感、情感和可读性得分)。

eDarkTrends(监测加密市场的药物趋势)

DAO还在识别相关实体和分析来自暗网加密市场(例如Agora, Dream Market和Empire Market)的数据方面发挥着重要作用，以量化和评估芬太尼，芬太尼类似物和其他新型合成阿片类药物在加密市场上的可用性。25，26]。暗网市场的快照显示在图9［33]。与填充DAO阿片类子类的实例相关的术语和俚语，以及剂量(如克、毫升和盎司)和形式(如片剂和粉末)类被编译为正则表达式，并在专门为Darknet数据设计的专用命名实体识别(NER)算法中用作表达模式[35]。DAO被归纳地增加了加密市场环境特有的缩写和术语(例如，fuff表示氟呋喃基芬太尼，FE表示最终确定)，以确保只收集有关新型合成阿片类药物的相关数据。NER允许捕获加密市场上广告的新型合成阿片类药物的类型和数量;例如，NER将提供有关广告的以下信息芬太尼透皮贴剂每小时100微克a类:芬太尼型;名称:芬太尼;用量:0.0001 g / h;形式:皮肤。关于芬太尼、芬太尼类似物和其他非药物合成阿片类药物在加密市场上广告的平均数量的结果显示在表5。获得这些结果的爬虫是2015年和2018年从Agora和Dream市场收集的暗网帖子[35]。我们还对使用DAO的暗网市场(Dream、Tochka和Wall Street是本研究使用的市场)上的供应商进行了分类。我们的调查结果的总结与独特的供应商，实质，位置，供应商的描述，和提款交易的数量显示在表6。

表5所示。用药物滥用本体提取的在加密市场上广告的芬太尼、芬太尼类似物和其他非药物合成阿片类药物的平均数量[34]。

物质种类			每天平均广告数量，按月计算(抓取次数)
			集市							梦想市场
			2015年3月		2015年4月		2015年5月		2018年3月			2018年4月
芬太尼^一个			130		174		139		207			216
芬太尼类似物
	乙酰基芬太尼	44		39		41		3.			1
	Butyr芬太尼	12		10		17		6			7
	卡芬太尼	0		0		0		12			5
	Furanyl芬太尼	0		0		1		31			39
	甲氧基乙酰芬太尼	0		0		0		14			14
	4-fluroIsoButyr芬太尼	0		0		0		19			16
	3-methoxyMethyl芬太尼	0		0		0		2			2
	总的来说，芬太尼类似物	56		49		59		87			84
其他NP^b合成的阿片类药物
	u - 47700	5		4		5		0			3.
	W-18	5		4		5		0			0
	MT-45	9		8		9		0			0
	ah - 7921	0		0		1		0			0
	u - 48800	0		0		0		1			7
	u - 49900	0		0		0		0			1
	U-4TDP	0		0		0		0			4
	u - 50488	0		0		0		8			4
	强积金- 47700	0		0		0		0			5
	总的，其他NP合成阿片类药物	19		16		20.		9			24
其他阿片类药物^c			827		1061		1152		3211			3137
总(任何阿片类药物)			1033		1300		1370		3512			3460

^一个包括芬太尼、中国白海洛因、合成海洛因，以及提到药物芬太尼，如杜拉吉西、芬太尼贴剂和芬太尼透皮系统。

^bNP:药物。

^c包括海洛因、鸦片、吗啡和其他类型的药物阿片类药物(如氢可酮、羟考酮和氢吗啡酮)，不包括药物芬太尼。

表6所示。基于药物滥用本体的暗网市场数据集提取综述[j]33]。

市场	交易提现次数	比特币	等值美元	唯一的供应商数量	唯一数量的物质	唯一的位置数量	描述的唯一数量
梦想	261	99.1503695	197589 .12点	1448	852	356	16800年
Tochka	2990	0.70483642	5072.33	408	313	44	1829
华尔街	7755	2.572515	18729 .40	466	290	29	1723

COVID-19场景

我们利用2020年1月1日至4月10日期间约12亿条推文，对新型冠状病毒病的心理影响进行了时空分析[93，94]。使用DAO中提到的实体和俚语，可以半自动识别与covid -19相关数据中与成瘾和心理健康相关的概念。研究人员使用了大约90个相关概念和140个俚语来提取涉及非法药物使用、酗酒和药物滥用的推文。此外，在使用DAO提取的推文中观察到失眠和抑郁等自杀风险因素。同样，我们研究了COVID-19大流行期间发表的约70万篇新闻文章的负面媒体曝光，方法是使用DAO对变压器(BERT)模型的双向编码器表示进行微调。53]。我们之前的研究考虑了2020年的3个月(1月、2月和3月)，因为根据美国精神卫生报告，这段时间COVID-19的传播非常大。95]。在这份报告中，我们使用了13个州中被认为是高传播区域的10个州。不包括的3个州表7分别是华盛顿州、怀俄明州和爱达荷州。这三个州没有被包括在内，因为相关数据不存在于我们的数据集队列中。在这项工作中，我们使用深度学习模型香草BERT、抑郁BERT和药物使用BERT报告了每个月的状态标签(即抑郁、药物滥用和信息丰富)，如图所示表7。这些深度学习模型的定义见文本框1。该研究随后分析了社会质量指数，该指数综合了心理健康成分(抑郁和焦虑)、成瘾和物质使用障碍，并考虑了2020年3月至4月期间的推文。伊利诺斯州、纽约州、马里兰州、亚利桑那州、新墨西哥州和马萨诸塞州的社会质量指数和推文显示在图中图10［94]。

表7所示。BERT的评价^一个美国各州在3个月内(2020年1月、2月和3月)的心理健康模型[53，94]。

精神健康美国的抑郁症和吸毒问题	vanillaBERT (2020;个月)	Druguse-BERT (2020;个月)	抑郁症BERT (2020;个月)
田纳西州	二月及三月	二月及三月	二月及三月
阿拉巴马州	2月	二月及三月	2月
俄克拉何马州	3月	二月及三月	二月及三月
堪萨斯	2月	一月及二月	一月及二月
蒙大拿	3月	2月	二月及三月
南卡罗来纳	3月	3月	二月及三月
阿拉斯加	二月及三月	一月、二月和三月	二月及三月
犹他州	3月	3月	3月
俄勒冈州	没有一个	2月	没有一个
内华达	2月	2月	2月

^一个BERT:来自变压器的双向编码器表示。

图10。社会质量指数(SQI)模式的改善状况随着推文数量的下降而下降，关于抑郁，成瘾和焦虑。

优势与局限

DAO是一个正在进行的项目，可以不断改进和扩展，以处理其他主题领域和新出现的物质使用问题和趋势。DAO的开发需要物质使用研究领域的专家(领域专家)的深入参与。我们承认我们的方法有局限性，因为我们的DAO开发团队没有包括有物质使用障碍生活经历的人。将来，让使用药物的个人也参与进来，帮助开发和完善DAO章节和术语，这一点很重要。DAO可以为跨学科协作团队提供一种工具和框架来推进这项工作。DAO本体已经在几个场景中被证明是有效的，如评价章节(第三节)。表8根据项目的需要，总结了本体使用的演变和改进。本文件中描述的相关项目的公共卫生调查结果，重点是人、地点和时间，参见表8。

表8所示。药物滥用本体在项目中实现的总结。

域	相关的出版物	手稿部分	数据类型	结果参考
丁丙诺啡，洛哌丁胺，其他阿片类药物	Cameron等[26]、Daniulaityte等[25，82］	初始剂量^一个［26］	Web论坛数据	图4和5
社交媒体上大麻相关帖子的用户类型	Kursuncu等[28]，拉米等人[31］	eDrugTrends [28-31，96］	推特数据，网络论坛和蓝光	表2
抑郁症第五版	Gaur等[41］	eDrugTrends [45］	网络论坛，Reddit和Twitter	表3和4
芬太尼，芬太尼类似物，暗网卖家聚集	Usha等[35]， Kumar等[33]，拉米等人[34］	eDarkTrends [46］	社交媒体和加密货币市场	表5和6
新型冠状病毒肺炎	Gaur等[53，88］	COVID-19:公共卫生研究[97］	社交媒体	图10;表7

^一个预用药:处方药滥用在线监测。

主要发现及结论

在本研究中，我们开发并评估了DAO作为识别社交媒体帖子中感兴趣的概念、实体和关系的框架。本研究中开发的DAO包括315个类、31个关系和814个实例，每个实例有2到4个层次。我们的本体设计用于研究社交媒体数据、暗网数据和网络论坛。DAO主要用于知识提取，广泛适用于这些平台。

本体论的超类整合了健康状况、个人相关、网络相关、社会(公共政策)、来源(经销商、互联网、医疗、自产)、时空和物质相关类的所有概念。本研究开发的集成本体适用于分析社交媒体帖子和暗网帖子，了解网络相关特征、地点和时间问题，识别新趋势、同义词、俚语和新药。

我们的本体不仅包含从DSM-5中提取的术语，还包含社交媒体和其他网络帖子中使用的各种术语和俚语。这些包含所有医学术语、同义词和俚语的术语代表了所有物质，使社交媒体和暗网数据中的术语变得丰富。我们的本体还有助于从社交媒体和暗网数据中发现主题和实体提取。此外，我们使用本体提取暗网市场中每个产品描述中的信息，以识别正在销售的未知物质，例如合成药物，研究化学品，合成大麻素和合成海洛因。

遵循著名的软件开发方法(如敏捷方法)，本体论根据当前基于成瘾的研究需要不断更新。DAO是一种机器可处理的资源，它描述了一组与成瘾领域相关的对象和类，并且随着正在进行的新项目的需求而增长。例如，当前的本体正在被来自暗网的知识所丰富。在未来的工作中，本体将链接到其他本体(例如，MEDDRA [98](管制活动医学词典)来设计药物滥用知识图谱。另一个研究贡献将是用新的概念和属性自动更新DAO，受算法的启发，该算法允许用户使用从知识图中检索的建议交互式地构建特定主题的本体[99]。本文中使用的术语表提供于多媒体附录1。

致谢

这项工作得到了国家药物滥用研究所(NIDA)拨款5R01DA039454-02的部分支持趋势:社交媒体分析监测大麻和合成大麻素的使用;1761931年国家科学基金奖辐条:中:中西部:协作:社区驱动的数据工程预防物质滥用在中西部农村;NIDA拨款5R21DA044518-02暗黑趋势:监测暗网市场，追踪非法合成阿片类药物趋势;国家卫生研究院资助R21 DA030571-01A1基于语义Web技术的丁丙诺啡滥用社交网络数据研究。本材料中表达的任何观点、结论或建议都是作者的观点，并不一定反映美国国家科学基金会、美国国家卫生研究院或美国国家卫生研究院的观点。

利益冲突

没有宣布。

‎

多媒体附录1

本文中使用的术语表。

DOCX文件，16 KB

毒品和犯罪问题办公室《2020年世界毒品报告》:全球毒品使用上升;而2019冠状病毒病对全球药品市场产生了深远影响。2020年7月25日。URL:https://www.unodc.org/unodc/press/releases/2020/June/media-advisory---global-launch-of-the-2020-world-drug-report.html[2022-04-09]访问
Boardman JD, Finch BK, Ellison CG, Williams DR, Jackson JS。成年人的邻里劣势、压力和吸毒情况。[J]中华卫生杂志;2009;32(2):391 - 391。［Medline］
王晓明，王晓明。社会因素对药物使用的影响。新南威尔士州悉尼:新南威尔士大学;2004.
评估娱乐性大麻使用合法化对公众健康的影响:美国的经验。世界精神病学2020 Jun 11;19(2):179-186 [j]免费全文] [CrossRef] [Medline］
Ross EJ, Graham DL, Money KM, Stanwood GD。胎儿接触药物对发育的影响:我们知道什么，我们还必须了解什么。神经精神药理学2015;40(1):61-87 [j]免费全文] [CrossRef] [Medline］
2019年欧洲药品报告:趋势和发展欧洲毒品和毒瘾监测中心。2019年6月https://www.emcdda.europa.eu/publications/edr/trends-developments/2019_en[2021-02-15]访问
Kruithof K, Aldridge J, hsamtu DD, Sim M, Dujso E, Hoorens S.“暗网”在非法毒品交易中的作用。兰德公司，2016。URL:https://www.rand.org/pubs/research_briefs/RB9925.html[2022-07-29]访问
[J] .中国医药市场的发展现状与对策。国际麻醉品杂志2016;35:7-15 [J]免费全文] [CrossRef] [Medline］
Kursuncu U, Gaur M, Lokala U, Thirunarayan K, Sheth A, Arpinar I. Twitter的预测分析:技术与应用。见:计算社会网络分析与挖掘中的新兴研究挑战与机遇。可汗:施普林格;2019.
张建军，张建军。在线匿名市场生态系统的纵向演化分析。在:SEC'15:第24届USENIX安全研讨会会议记录;2015年8月12日- 14日;华盛顿特区。
张志强，张志强。语义网络及其应用。在:语义Web服务、过程和应用程序。马萨诸塞州波士顿:斯普林格出版社;2006.
M.基于本体和语义的无缝连接。SIGMOD Rec 2004;33(4):58-64 [j]免费全文] [CrossRef］
王志强，王志强，Völker J。本体与语义网。见:语义Web技术手册。柏林，海德堡:施普林格出版社;2011.
本体与语义网。通信学报，2008;51(12):58-67。［CrossRef］
金安祥，朴慧，宋涛。面向社会大数据分析的肥胖本体的开发与评价。卫生通报，2017年7月;23(3):159-168 [j]免费全文] [CrossRef] [Medline］
郑慧，朴慧，宋涛。基于本体的社会数据情感分析方法:青少年抑郁信号的检测。医学互联网研究，2017,07,24;19(7):e259 [J]免费全文] [CrossRef] [Medline］
张建军，张建军，张建军，等。药物处方的本体分析。应用控制2018,11月09日;13(4):273-294。［CrossRef］
数据收集和相关的表征工件的信息工件本体视角。畜禽健康技术通报2012;180:68-72。［Medline］
Bandrowski A, Brinkman R, Brochhausen M, Brush MH, Bug B, Chibucos MC等。生物医学研究的本体。PLoS One 2016;11(4):e0154556 [j]免费全文] [CrossRef] [Medline］
刘建军，张建军，张建军，等。疾病的本体论治疗与诊断。生物医学通报2009年3月1日;2009:116-120 [j]免费全文] [Medline］
刘国强，刘国强，刘国强，刘国强。医学相关社会实体的本体论:最新发展。生物医学学报，2016;7(1):47 [J]免费全文] [CrossRef] [Medline］
韩娜J, Joseph E, Brochhausen M, Hogan WR。基于RxNorm等资源构建药物本体。生物医学工程学报，2013,18 (1):1 - 4 [J]免费全文] [CrossRef] [Medline］
Kamdar M, Hamamsy T, Shelton S, Vala A, Eftimov T，邹杰。基于知识图谱的美国阿片类药物流行研究方法。arXiv 2019 [免费全文］
[3]刘建军，陈建军，陈建军，陈建军，陈建军。社会媒体对毒品合法化的影响分析。在:ASONAM '19:社会网络分析与挖掘进展国际会议上发表;2019年8月27日- 30日;加拿大不列颠哥伦比亚省温哥华。［CrossRef］
danulaityte R, Carlson R, Falck R, Cameron D, Perera S, Chen L，等。“我只是想告诉你洛哌丁胺会起作用”:一项关于洛哌丁胺医疗外使用的网络研究。药物酒精依赖2013年6月1日;130(1-3):241-244 [j]免费全文] [CrossRef] [Medline］
Cameron D, Smith GA, Daniulaityte R, Sheth AP, Dave D, Chen L，等。PREDOSE:一个使用社交媒体的药物滥用流行病学语义网络平台。中华生物医学杂志，2013;46(6):985-997 [J]免费全文] [CrossRef] [Medline］
邓文杰，李文杰，李文杰，李文杰。“Sub是一种奇怪的药物:”一项基于网络的研究，调查了外行对使用丁丙诺啡自我治疗阿片类药物戒断症状的态度。中国医学杂志2015年8月25日;24(5):403-409 [J]免费全文] [CrossRef] [Medline］
Kursuncu U, Gaur M, Lokala U, Illendula A, Thirunarayan K, Daniulaityte R.你是什么类型?使用组合多视图嵌入的大麻相关通信中用户类型的上下文化分类。参见:2018年IEEE/WIC/ACM网络智能国际会议论文集。2018年IEEE/WIC/ACM网络智能国际会议(WI);2018年12月03-06日;圣地亚哥,智利。［CrossRef］
danulaityte R, Nahhas RW, Wijeratne S, Carlson RG, Lamy FR, Martins SS，等。“时间点”:分析美国各地大麻浓缩物的Twitter数据[j]; 2015年10月1日;155:307-311。[免费全文] [CrossRef] [Medline］
李建平，陈磊，陈建平，陈建平，陈建平。“当‘坏’是‘好’”:识别与毒品有关的推文中的个人交流和情绪。JMIR公共卫生监测2016 Oct 24;2(2):e162 [j]免费全文] [CrossRef] [Medline］
Lamy FR, Daniulaityte R, Sheth A, Nahhas RW, Martins SS, Boyer EW，等。“那些可食用的食物受到重创”:对美国大麻可食用食物的Twitter数据的探索药物酒精依赖2016年7月01日;164:64-70 [免费全文] [CrossRef] [Medline］
刘建军，刘建军，刘建军，等。“转推传钝”:分析全美大麻相关推文的地理和内容特征。中华临床医学杂志，2017,11 (6):910-915 [J]免费全文] [CrossRef] [Medline］
Kumar R, Yadav S, Daniulaityte R, Lamy F, Lokala U. eDarkFind:基于无监督多视图学习的用户账户检测。见:2020年网络会议论文集。WWW '20: The Web Conference 2020;2020年4月20日至24日;台湾台北。［CrossRef］
拉米F, Daniulaityte R, Barratt M, Lokala U, Sheth A, Carlson R.挂牌出售:芬太尼，芬太尼类似物和其他新型合成阿片类药物在一个加密市场上的分析数据。药物酒精依赖2020年6月12日;213:108115 [j]免费全文] [CrossRef] [Medline］
Lokala U, Lamy FR, Daniulaityte R, Sheth A, Nahhas RW, Roden JI，等。全球趋势，局部危害:芬太尼类药物在暗网上的可用性和俄亥俄州意外过量服用。计算数学器官理论2019年3月25日;25(1):48-59 [免费全文] [CrossRef] [Medline］
Ontology101。门徒Wiki。URL:https://protegewiki.stanford.edu/wiki/Ontology101,[2022-04-10]访问
欢迎来到ESIP的社区本体存储库，或COR.社区本体存储库。URL:http://esipfed.github.io/cor/[2022-04-10]访问
DBpedia。DBpedia。URL:https://wiki.dbpedia.org/about[2022-04-09]访问
本体指标。5 .文件。URL:http://protegeproject.github.io/protege/views/ontology-metrics/[2022-04-09]访问
《语义网最佳实践》。美味极了。2021年10月http://perfectsemanticweb.appspot.com/[2020-02-20]访问
Gaur M, Kursuncu U, Alambo A, Sheth A, Daniulaityte R, Thirunarayan K。“让我告诉你你的心理健康!”: reddit帖子的情境分类到DSM-5进行基于网络的干预。第27届ACM信息与知识管理国际会议录。2018年发表于:CIKM '18:第27届ACM信息与知识管理国际会议;2018年10月22日至26日;意大利都灵。［CrossRef］
WebVOWL——基于web的本体可视化。VOWL。URL:http://vowl.visualdataweb.org/webvowl.html[2022-04-10]访问
杨建军，杨建军，李建军，等。患者和护理人员的社交媒体使用:范围审查。BMJ Open 2013 May 09;3(5):e002819 [j]免费全文] [CrossRef] [Medline］
Bluelight主页。Bluelight。URL:https://www.bluelight.org/xf/[2021-02-15]访问
药物干预、治疗和成瘾研究中心(CITAR)。怀特州立大学。URL:https://medicine.wright.edu/citar/edrugtrends[2020-02-20]访问
干预、治疗和成瘾研究中心(CITAR)。怀特州立大学。URL:https://medicine.wright.edu/citar/edarktrends[2020-02-20]访问
张建军，张建军，张建军，等。药物与阿片类药物相关死亡案例分析。中国医学杂志，2013-2017。MMWR Morb Mortal weekly Rep 2018年12月21日;67(5152):1419-1427 [免费全文] [CrossRef］
Wilson N, Kariisa M, Seth P, Smith H, Davis NL。与药物和阿片类药物有关的过量死亡——美国，2017-2018年。MMWR Morb Mortal weekly Rep 2020 march 20;69(11):290-297 [qh]免费全文] [CrossRef] [Medline］
Panchal N, Kamal R, Orgera K, Cox C, Garfield R, Hamel L，等。COVID-19对精神健康和物质使用的影响。凯撒家庭基金会。2020年8月21日。URL:https://abtcounseling.com/wp-content/uploads/2020/09/The-Implications-of-COVID-19-for-Mental-Health-and-Substance-Use-_-KFF.pdf[2022-07-29]访问
Garfin D, Silver R, Holman E.新型冠状病毒(COVID-2019)疫情:媒体曝光放大公共卫生后果。心理健康杂志，2010;39(5):355-357 [j]免费全文] [CrossRef] [Medline］
Holmes EA, O’connor RC, Perry VH, Tracey I, Wessely S, Arseneault L，等。COVID-19大流行的多学科研究重点:精神卫生科学行动呼吁柳叶刀精神病学2020 Jun;7(6):547-560。［CrossRef］
邱静，沈斌，赵敏，王铮，谢斌，徐勇。新冠肺炎疫情下全国人群心理困扰调查:启示与政策建议。心理医生2020年3月6日;33(2):e100213。［CrossRef］
Alambo A, Gaur M, Thirunarayan K.抑郁、药物滥用或信息丰富:COVID-19疫情期间新闻曝光的知识意识研究arXiv 2020 [免费全文］
国家药物滥用研究所。尼达。URL:https://www.drugabuse.gov/[2021-02-11]访问
美国缉毒局主页。美国禁毒署。URL:https://www.dea.gov/[2021-02-11]访问
2022年欧洲药品报告。欧洲毒品和毒瘾监测中心。URL:https://www.emcdda.europa.eu/emcdda-home-page_en[2021-02-11]访问
RxNorm。国立卫生研究院美国国家药物图书馆。URL:https://www.nlm.nih.gov/research/umls/rxnorm/index.html[2021-02-11]访问
开始使用药物阿片类药物和滥用模式:由俄亥俄州物质滥用监测网络获得的初步定性研究结果。[J] .医药科学，2016,03;36(4):787-808。［CrossRef］
Daniulaityte R, Carlson RG。“麻木，开始感觉不到任何东西”:中西部城市吸食可卡因妇女的压力经历。[J]医药科学，2011;41(1):1-24 [J]免费全文] [CrossRef] [Medline］
达尼拉特R，福尔克R，卡尔森RG。丁丙诺啡在阿片类药物非医疗使用者社区样本中的非法使用情况。药物酒精依赖2012年5月1日;122(3):201-207 [j]免费全文] [CrossRef] [Medline］
俄亥俄州代顿市甲基苯丙胺的使用:来自俄亥俄州药物滥用监测网络的初步调查结果。[J]精神药物学报;2007;39(3):211-221。［CrossRef] [Medline］
Lamy FR, Daniulaityte R, Zatreh M, Nahhas RW, Sheth A, Martins SS，等。“你一定会爱上松香:无溶剂的小块，纯净、干净、天然的药物。”探索松香科技大麻浓缩物的新趋势的Twitter数据。药物酒精依赖2018年2月1日;183:248-252 [j]免费全文] [CrossRef] [Medline］
Noy NF, McGuinness DL。本体开发101:创建你的第一个本体指南。加州斯坦福:斯坦福大学;2001.
Musen MA, prot团队。prosamuise项目:回顾过去，展望未来。AI Matters 2015 june 16;1(4):4-12 [j]免费全文] [CrossRef] [Medline］
林勇，刘震，孙敏，刘勇，朱霞。基于学习实体和关系嵌入的知识图谱补全。参见:AAAI人工智能会议论文集。2015年发表于:第29届AAAI人工智能会议;2015年1月25-30日;美国德克萨斯州奥斯汀https://ojs.aaai.org/index.php/AAAI/article/view/9491
李建军，李建军，李建军，等。DBpedia——一个从维基百科中提取的大型多语言知识库。语义应用，2015;6(2):167-195 [j]免费全文] [CrossRef］
李建军，李建军，李建军，等。本体可视化技术的研究进展。语义网2016 5月27日;7(4):399-419 [免费全文] [CrossRef］
请求资源跟踪文件。ISWC。URL:http://iswc2018.semanticweb.org/call-for-resources-track-papers/[2020-02-20]访问
Gyrard A, Atemezing G, Serrano M. PerfectO:一个用于改进质量、可访问性和基于领域本体分类的在线工具包。In:语义物联网:理论与应用可汗:施普林格;2021.
LODE -实时OWL文档环境主页。实时OWL文档环境。URL:http://www.essepuntato.it/lode[2020-02-21]访问
药物滥用本体。地球科学信息合作伙伴社区本体知识库。2020年7月27日。URL:http://cor.esipfed.org/ont/~ushanri/DAO[2022-02-15]访问
李建军，李建军，李建军，等。本体可视化技术的研究进展。语义网2016 5月27日;7(4):399-419。［CrossRef］
OWL本体的可视化符号。Visual Dataweb。2020年7月27日。URL:http://vowl.visualdataweb.org/webvowl-old/webvowl-old.html#iri=http://cor.esipfed.org/ont/~ushanri/DAO%C2%A0[2022-02-15]访问
Poveda-Villalón M, Gómez-Pérez A, Suárez-Figueroa MC。(OntOlogy Pitfall Scanner!):一个用于本体评估的在线工具。语义网信息系统[J]; 2014;10(2) [J]免费全文] [CrossRef］
蒸汽报告。蒸汽关联数据验证器。URL:http://linkeddata.uriburner.com:8000/vapour?uri=http://cor.esipfed.org/ont/~ushanri/DAO[2022-02-15]访问
石墨PHP链接数据库。RDF Triple-Checker。URL:http://graphite.ecs.soton.ac.uk/checker/?uri=http://cor.esipfed.org/ont/~ushanri/DAO[2022-02-15]访问
本体指标。5 .文件。URL:http://protegeproject.github.io/protege/views/ontology-metrics/[2021-02-15]访问
García J, García-Peñalvo FJ, Therón R.本体度量研究综述。在:知识管理，信息系统，电子学习和可持续发展研究。柏林，海德堡:施普林格出版社;2010.
Web本体语言(OWL)抽象语法和语义部分2。抽象的语法。W3C工作草案。URL:https://www.w3.org/TR/2002/WD-owl-semantics-20021108/syntax.html[2021-02-15]访问
Sheth A, Perera S, Wijeratne S, Thirunarayan K.知识将推动机器对内容的理解:从当前的例子推断。提交于:WI '17: 2017年Web智能国际会议;2017年8月23日- 26日;德国莱比锡https://datamed.org［CrossRef］
李建军，李建军。基于本体的自然语言处理。2004发表于:NLPXML '04: NLP和XML研讨会论文集(NLPXML-2004):语言技术中的RDF/RDFS和OWL;2004年6月1日;西班牙巴塞罗那。
李建军，刘建军，刘建军，等。洛哌丁胺自我治疗阿片类戒断症状的网络研究赖特州立大学，2012。URL:https://corescholar.libraries.wright.edu/knoesis/624/[2022-04-08]访问
初始剂量演示。2013年9月16日URL:https://www.youtube.com/watch?v=gCFPzMgEPQM[2020-02-16]访问
张建平，张建平。社交数据的语义过滤。IEEE Internet computing 2016;20(4):74-78。［CrossRef］
国际疾病分类，第10版。BioPortal。URL:https://bioportal.bioontology.org/ontologies/ICD10[2020-02-20]访问
snom CT。BioPortal。URL:https://bioportal.bioontology.org/ontologies/SNOMEDCT[2020-02-20]访问
bioCaddie核心开发团队。Home - DataMed。URL:https://datamed.org[2020-02-20]访问
研究领域标准(RDoC)。研究领域标准(RDoC)。内:国家精神卫生研究所(NIMH)。URL:https://www.nimh.nih.gov/research/research-funded-by-nimh/rdoc[2022-04-10]访问
Alambo A, Gaur M, Lokala U, Kursuncu U, Thirunarayan K, Gyrard A，等。使用reddit进行自杀风险评估的问答。参见:2019年IEEE第13届语义计算国际会议(ICSC)论文集。2019 IEEE第13届语义计算国际会议(ICSC);2019年1月30日- 2月1日;美国加州新港滩［CrossRef］
Park A, Conway M.利用reddit了解精神健康障碍患者所经历的书面交流挑战:对精神健康社区文本的分析。医学互联网研究，2018年4月10日;20(4):e121 [J]免费全文] [CrossRef] [Medline］
陈毅，陈毅，陈毅。基于社交媒体的精神疾病检测与分析。参见:2016年IEEE/ACM社会网络分析和挖掘进展国际会议论文集(ASONAM)。2016年IEEE/ACM社会网络分析与挖掘进展国际会议(ASONAM);2016年8月18-21日;旧金山，加州，美国。［CrossRef］
李建军，李建军，李建军，等。利用知情深度学习表征社交媒体中的心理健康状况。科学通报2017年3月22日;7:45 - 141 [免费全文] [CrossRef] [Medline］
Gaur M, Khandelwal V, kur uncu U, Pallagani V.利用社会质量指数测量新型冠状病毒的时空心理影响。YouTube。URL:https://youtu.be/XzYrn0PEzNk[2020-06-27]访问
张建军，张建军，张建军，等。新型冠状病毒感染的时空心理效应研究。在:计算研究协会年会论文集。2020提交于:计算研究协会年会;2020;-。［CrossRef］
对各州进行排名。美国心理健康协会。URL:https://www.mhanational.org/issues/ranking-states[2021-02-11]访问
danulaityte R, Carlson RG, Golroo F, Wijeratne S, Boyer EW, Martins SS，等。“时间为数据”:分析丁烷哈希油使用的Twitter数据。In: 2015 Abstract Book。俄亥俄州费尔伯恩:赖特州立大学;2015.
covid - 19 - knoesis wiki。Wiki。URL:http://wiki.aiisc.ai/index.php/Covid19[2022-04-08]访问
莫兹卡托·p·梅德拉。医药医学2009;23:65-75。
Böhm K, Ortiz M.一个使用知识图构建特定主题本体的工具。第31届描述逻辑国际研讨会论文集与第16届知识表示与推理原理国际会议(KR 2018)。第31届描述逻辑国际研讨会与第16届知识表示与推理原理国际会议(KR 2018)同场举行;2018年10月27-29日;坦佩，亚利桑那州，美国

‎

伯特:来自变压器的双向编码器表示

刀:药物滥用本体

第五:精神障碍诊断和统计手册-第5版

ML:机器学习

尼珥:命名实体识别

尼达:国家药物滥用研究所

国家卫生研究院:美国国立卫生研究院

NLP:自然语言处理

ODKG:阿片类药物知识图谱

初始剂量:处方药滥用在线监控

布拉德利编辑;提交10.10.20;M . Meacham, P . foulqui， N . Dasgupta的同行评议;对作者的评论21.12.20;修订版本收到15.02.21;接受10.05.22;发表23.12.22

©Usha Lokala, Francois Lamy, Raminta Daniulaityte, Manas Gaur, Amelie Gyrard, Krishnaprasad Thirunarayan, Ugur Kursuncu, Amit Sheth。最初发表于JMIR公共卫生与监测(https://publichealth.www.mybigtv.com)， 2022年12月23日。

这是一篇根据知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在JMIR公共卫生与监测上，并适当引用。必须包括完整的书目信息，到https://publichealth.www.mybigtv.com上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

药物滥用本体:利用基于网络的数据进行药物使用流行病学研究:本体发展研究