JMIR人为因素-集成自然语言处理和解释性主题分析，以获得HIV移动健康的以人为本的设计见解:概念验证分析

原始论文

¹美国洛杉矶新奥尔良市杜兰大学公共卫生和热带医学院社会、行为和人口科学系

²纽约市立大学亨特学院心理学系，美国纽约

^3.圣地亚哥州立大学心理学系，圣地亚哥，加州，美国

通讯作者:

西蒙·J·斯基恩，马萨诸塞州

社会、行为与人口科学系“，

公共卫生和热带医学学院

杜兰大学

2200 - 11

运河街1440号

新奥尔良，洛杉矶，70112

美国

电话:1 504 988 1847

电子邮件:sskeen@tulane.edu

背景:艾滋病毒移动保健(移动保健)干预措施往往包含交互式点对点功能。由这些功能创建的用户生成内容(UGC)可以通过揭示参与者最突出的主题和生活事件提供有价值的设计见解，这些内容可以作为后续干预的目标。然而，非结构化的文本UGC很难分析。解释性主题分析可以保留丰富的叙事和潜在的主题，但是劳动密集型的，因此规模较小。自然语言处理(NLP)方法更容易扩展，但通常只产生粗略的描述结果。最近，推动该领域发展的呼声强调了将NLP和定性分析相结合以促进下一代移动医疗用户协调的未开发潜力。

摘要目的:在这个概念验证分析中，我们通过将混合连续nlp定性方法应用于HIV移动健康论坛的UGC，获得了以人为本的设计见解。

方法:UGC摘自Thrive With Me，这是一款针对男性艾滋病毒感染者的网络应用程序干预，其中包括一个非结构化的点对点支持论坛。在Python中，主题是通过潜在的Dirichlet分配来建模的。基于规则的情感分析根据情感效价对互动进行评分。使用一种新颖的排名标准，UGC的体验最丰富和情感最极化的部分被浓缩，然后在Dedoose中进行主题分析。然后从这些主题中提炼出设计见解。

结果:改进后的主题模型检测到K=3个主题:A:疾病应对;B:社会逆境;C:问候和签到。强烈的异位主题包括HIV药物依从性、生存率和关系挑战。负面UGC通常涉及对外部媒体事件的强烈负面反应。积极的UGC通常关注对生存、幸福和其他用户支持的感激。

结论:通过常规化，混合nlp定性方法可能是可行的，可以快速表征移动医疗环境中的UGC。设计原则指出，有机会将移动健康干预功能与这些分析中捕捉到的有机发生的用途相结合，例如，通过突出鼓舞人心的个人叙述和感激之情的表达，或减少对诱导愤怒的媒体的强调。

JMIR Hum Factors 2022;9(3):e37350

doi: 10.2196/37350

关键字

移动健康；移动健康；艾滋病毒；自然语言；专题分析；以人为中心的设计；以人为本；以用户为中心的；用户生成内容；概念验证；用户反馈；基于网络的； web应用程序；男性健康；同伴支持；非正式的支持；支持组；数字医疗；电子健康；情绪；设计的见解；用户的洞察力； Python；模型；机器学习

背景

抗逆转录病毒疗法的出现标志着全球艾滋病流行的一个转折点，将艾滋病毒转变为一种可控制的慢性疾病[1-3.］．由于病毒载量无法检测到的艾滋病毒感染者无法将病毒传播给性伴侣，通过优化抗逆转录病毒治疗依从性来抑制病毒现在是人群艾滋病毒预防规划的一个关键原则[4，5］．然而，抗逆转录病毒治疗的依从性仍然是许多艾滋病毒感染者面临的挑战，病毒反弹会危及他们的健康[6］．这些挑战可归因于一系列相互关联的因素，其中许多反映了美国更广泛的社会不平等:对医疗提供者的不信任，医疗预约的后勤和经济负担，以及耻辱[7-10］．不可靠的交通，缺乏可获得的实体服务，以及创伤都会加剧这些挑战，特别是对于许多与男性发生性关系的黑人男性(MSM)而言。11，12］．

这些持续存在的挑战表明，传统的以诊所为基础的治疗方案可能不足以满足许多携带艾滋病毒的男男性行为者的需求。移动健康(mHealth)干预措施提供了信息视频、超本地服务指南和同行支持论坛等工具，在这一领域已显示出前景[13-17]，包括男同性恋者[15］．许多移动健康干预措施包括以用户为中心的调整，以增强其对具有交叉身份的用户群的吸引力(例如，针对黑人和拉丁裔MSM的messes4men [18])或采取特定的危险行为(例如，使用兴奋剂的男同性恋者使用APP+ [19])。

传统的形成方法[20.-23]，通常以以用户为中心和以人为本的设计原则为指导(HCD [24-29])，旨在整合潜在移动医疗用户群的见解。焦点小组、用户体验访谈以及相关的面对面或虚拟互动通常都是为了获得这些见解。这些方法可以为全球卫生公平作出重要贡献[30.，31］．然而，通过依赖深度和经常迭代的交互，如“大声思考”可用性测试[32]，这些方法可能会给社区成员带来负担，需要类似于传统研究参与的时间和后勤承诺[33-35］．这些沉浸式方法的一个替代方案是挖掘用户生成内容(UGC)，包括最终用户自己贡献给平台的丰富的、非结构化的、基于文本的数据，通常以社交媒体帖子或产品评论的形式。36，37］．横跨不同行业[37-39]， UGC越来越被认为是一种无中介的体验数据来源，通过它，消费者、公民和最终用户的需求可以大规模地非侵入性地确定[40，41］．

UGC数据的规模会给分析带来挑战。从大量非结构化数据中提取有意义的分析单元是这些挑战中最重要的[42］．自然语言处理(NLP)方法，依赖于机器可读的元素，如关键字频率和关键字集群的概率分布[43]，常用于UGC分析[44，45］．一种常见的NLP技术是主题建模(TM)，在这种技术中，计算上下文有意义的术语在彼此相对接近的地方同时出现的可能性，从而表示非结构化文本中的离散主题[46］．例如，在本导言的开头几段中，“流行病”、“抗逆转录病毒”和“压制”这三个词相对接近，完全不可能是偶然出现的。相反，它们在这些段落中共同出现的可能性可以被解释为这些段落中主题的有意义的能指，即艾滋病毒治疗。主题模型本身由这些共同出现的术语组成[43］．另一种广泛使用的NLP技术，有时与TM配合使用[47]，为情感分析(SA)。SA指的是将单个关键词和其他句法单位映射到预先验证的人类评级词汇的各种工具，计算出文本主流情感主旨的粗略但总括性的描述[45，48］．

NLP技术通常无法保存叙事、潜台词和细微差别[49，50］．在数字健康研究中，最近解决这些缺陷的尝试将NLP与传统定性方法相结合。这些方法虽然富有成效，但仍是探索性的，而且往往是资源密集型的，在方法上几乎没有明显的标准化。在健康科学中，结合NLP和定性方法已初步应用于每个各自方法的交叉验证。例如，李森等人[51]已经表明，使用Python中的Gensim工具包的概率TM、神经网络应用Word2Vec和开放定性编码的发现之间的概念重叠是广泛的，但并不统一[51]，展示了“兼而有之”与“非此即彼”方法对机器与人类优化UGC分析的价值。“兼容并蓄”方法最明显的优点是它能够分析非常大的文本数据集，同时保留重要的细微差别。为此，Guetterman等人[52]结合定性编码和NLP语义相似聚类技术，对MyVoice全国青年民意调查的开放式文本信息反应进行分类。通过改进的2臂交叉实验，比较了NLP、定性和顺序NLP-定性和定性-NLP的变化。尽管后一种顺序方法被证明是最耗时的，但它们能够分别检查探索性定性工作的有效性或培养对nlp应用主题的更细致的解释[51］．琼斯等人[53]使用连续定性- nlp方法对5个乳腺癌论坛(经许可)的4,901,516个帖子进行主题建模。Timimi等[54)，研究了来自Inspire在线支持社区的UGC，使用嵌套的nlp定性方法在超过1100万篇独特帖子中生成“实体”(一种聚类技术)。一个归纳主题编码分析，应用于246个帖子的子集，有助于开发一个以患者为中心的词汇，以识别与他汀类药物使用相关的认知障碍副作用。

特别是在移动医疗领域，彼得森等人[55结合潜在狄利克雷分配(LDA) TM和SA，在以用户为中心的应用程序设计过程中进行可用性标准评估。随着开发的进展，形成性用户访谈的情绪趋于积极，这反映在系统可用性量表(虽然不是有用性、满意度和易用性)分数的改进中。据我们所知，之前没有研究将nlp -定性方法结合应用于交互式移动健康环境中产生的文本UGC。尽管最近有人呼吁大规模地将数据挖掘的各自优势与最终用户叙述提供的丰富实现的见解联系起来，以推进移动医疗的设计实践[56］．这些详细的用户体验洞察对于在HCD范式中推进移动医疗设计是必要的[24，57，58］．如果移动医疗在全球艾滋病毒疫情应对中发挥关键作用，它的持续采用将需要深刻的人文主义，但可扩展的战略，以指导以用户为中心的适应。为此，对艾滋病毒移动医疗中的UGC的分析必须保护众多边缘化艾滋病毒感染者的全部人类经验和独特需求。

目标

最近的研究结果指出，序列nlp定性方法在表征大规模UGC时的相对优势，同时保留了经验上的细微差别[51-55］．我们将这种方法的变体应用于来自Thrive With Me的同行支持论坛的UGC，这是一款为感染艾滋病毒的同性恋和双性恋MSM量身定制的web应用。59，60］．将使用NLP分析的机器优化技术的优势与传统定性分析的优势相结合，我们的研究结果受到以下目标的指导:

目标1:证明一种新颖的、连续的、nlp定性方法的可行性，该方法用于描述“与我一起成长”的最终用户提供的UGC

目标2:检验目标1中获得的ugc衍生见解对开发以用户为中心的设计适应下一代艾滋病毒移动健康干预措施的影响

研究干预

Thrive With Me是一个网络应用程序提供的干预措施，它结合了抗逆转录病毒治疗依从性的自我监测工具、关于抗逆转录病毒治疗依从性的信息多媒体，以及匿名论坛中的异步点对点支持，目的是提高感染艾滋病毒的男同性恋者的治疗依从性。它的组成部分基于健康行为改变的信息-动机-行为技能(IMB)模型[61］．在一项试点随机对照试验中，“与我一起成长”的早期迭代证明了与常规治疗相比的初步疗效[59］．一项前瞻性的2组随机对照试验，测试了改进版的《与我一起茁壮成长》与2019年完成的仅信息对照条件，目前正在进行结果分析[60］．与我一起茁壮成长的用户交互的用户界面截图显示在图1．

图1。与我一起成长同行支持论坛的用户界面的说明截图。截图中的帖子和评论是研究人员为了演示而模拟出来的。

研究人群

符合条件的参与者:(1)HIV血清阳性，(2)确定为男性，(3)在过去30天内自我报告可检测到病毒载量或ART依从性不佳(<90%)，(4)报告在过去12个月内与另一名男性发生过性行为，(5)能够读写英语，(6)居住在纽约市地区，以及(7)在研究期间可以使用互联网和SMS短信[60］．本研究分析了随机分配到试验积极干预条件下的参与者(N=202)提供的UGC，这些参与者在基线时获得了5个月的Thrive With Me web应用程序。(贯穿始终，我们使用“UGC”指代非结构化文本，区别于paradata或使用分析。)子样本的社会人口学属性显示在表1．“与我一起成长”家长试用的完整细节可在其他地方获得[60］．

表1。“和我一起成长”的基线特征在干预组研究参与者。

人口统计资料				“和我一起成长”干预组(N=202)
年龄，平均值(SD)				40.1 (10.8)
男性，n (%)				202 (100)
种族，n (%)
	非裔美国人或黑人			123 (61)
	美国印第安人/阿拉斯加原住民			1 (0.5)
	亚洲			1 (0.5)
	夏威夷土著或太平洋岛民			2 (1.0)
	白色			54 (27)
	不止一个种族			12 (5.9)
	没有报告			9 (4.5)
拉美裔，n (%)				62 (31)
教育程度，n (%)
	高中及以下学历			59 (29)
	大学/大专/技术学位			90 (45)
	大学/研究生/专业学位			52 (26)
	没有报告			1 (0.5)
就业状况，n（％）
	全职			41 (20)
	兼职			45 (22)
	失业			77 (38)
	禁用			35 (17)
	退休			2 (1.0)
	没有报告			2 (1.0)
病毒载量(VL)测量
	VL(生物)(<20)，n (%)
		检测到六世	74 (37)
		检测不到六世	127 (63)
		没有报告	1 (0.5)

伦理批准

所有研究程序和用于二次分析的相关数据的使用均由明尼苏达大学(#1504S69721)和纽约城市大学亨特学院(#2015-0641)的伦理审查委员会批准。

程序

最初，我们的程序依赖于无监督TM和基于规则的SA的NLP技术来捕获来自Thrive With Me的UGC的语义属性。然后，我们采用了一种新颖的排名技术来浓缩最丰富和最情绪化的UGC。最后，使用解释性主题分析的定性技术探索了包含在这个浓缩UGC中的详细见解。我们的整个过程的流程图显示在图2．

图2。顺序机器和人工优化技术流程图。ICR:编码器可靠性;LDA:潜狄利克雷分配;SA:情感分析;TM:主题建模;UGC:用户生成内容;VADER:情感推理器的价感字典。

数据提取

来自Thrive With Me的同行支持论坛的文本UGC由web应用程序的开发者Radiant使用Drupal内容管理系统的实体导出CSV功能提取为结构化的. CSV文件。原始帖子及其产生的评论一律处理(通篇称为帖子)，以供分析。研究人员在发射前测试期间生成的内容在预处理前被手动删除。删去测试内容后，原始UGC语料库共载有4912篇文章和147,649字。为了适应预处理步骤中必要的区分，创建了2个UGC语料库:SA语料库和TM语料库。

数据预处理

所有后续的数据预处理和NLP分析都是在Windows 10 (Microsoft Corporation)操作系统上的Python (version 3.7.10, Python Software Foundation)中进行的。

在TM语料库中，首先计算单字符频率，丢弃出现次数少于3次的单字符;应用了571个术语SMART(文本机械分析和检索系统)停止列表，删除了所有的字母，如“The”和“of”，这些术语的共同出现通常不代表原始TM语料库中的潜在主题[62，63］．整个过程中去掉了大写和标点符号。所有术语都转换为小写字母，然后“用空格分隔”，以确保模型输入的一致性[43］．

在SA语料库中，保留了所有的语义元素。在诸如Thrive With Me论坛这样的社交媒体环境中，语法上的独特之处可能会放大甚至颠倒文本的意图情感(例如，“太高兴了”和“太高兴了!!”<3”vs .“好开心。”/s”)，从而表示重要的模型输入，以保留[64］．

TM过程

TM中的所有步骤都应用于TM语料库。我们使用了scikit-learn(“sklearn”)Python库的原生无监督LDA算法[65］．LDA是一个生成概率模型，输出单词的分布(称为“令牌”[66])，用以描述文本语料库中的离散主题[46］．K, LDA模型将检测的主题数量，是基于对语料库的先验熟悉度，相关领域的专业知识和探索性分析的结果确定的模型输入[43］．中提供了LDA TM的复制脚本多媒体附件1．

第一和第二作者(SJS和SSJ)在pyLDAvis工具的辅助下评估了每个LDA模型的一致性。pyLDAvis图在用圆表示的二维空间中对主题进行建模，允许可视化地检查主题间距离(每个主题在主题上有多明显)和主题流行度(每个主题在语料库中捕获多少内容)。一个满意的K在视觉上的特征是具有足够大的半径的圆圈，以捕获语料库的实质性份额，圆圈之间的重叠可以忽略，表明跨主题的判别可解释性[67］．关于pyLDAvis使用的详细文档可以在其他地方找到[68］．我们将这个初步的LDA模型称为模型1，该模型将推进到首次通过的主题分析。

最后，在Schofield和同事的通知下[62，63]，基于模型1归纳开发的编码模式，我们删除了高频、非主题特定的n-grams，以生成一组更直观的令牌。第二步用于为这个概念证明分析提供更明显的有意义的标记集群。我们把这个最后的模型称为模型2。

主题标签是基于领域知识开发的，对每个主题的前30个标记进行视觉检查，以及它们在分配给每个主题的完整系列帖子中的特定分布和上下文使用。标签是根据第一和第二作者(SJS和SSJ)的共识确定的。

SA过程

SA中的所有步骤都使用Python中的vaderSentiment库应用到SA语料库[69］．我们使用了经过人类验证的VADER(情感推理者的价感词典)情感词典，它对单个术语及其相关语义元素的价感和强度进行评分，例如表情符号(“(:)”)和社交媒体和网络论坛常见的缩写(“lol”和“wtf”)。VADER为每个输入字符串输出极性(正-中性-负，在-1到+1的范围内)分数[64］．为了进行分析，我们生成了每个独特帖子的情绪极性和复合分数。由于中性情感UGC最丰富的例子在主题上与通过LDA检查的帖子是多余的，我们专注于由VADER的积极和消极极性得分捕获的情感极化UGC。这种对两极分化的UGC的关注使我们能够探索痛苦的来源和表达方式，同时强调Thrive With Me用户之间有机发生的积极互动。

VADER SA的复制脚本在多媒体附件1．

冷凝

数据凝聚通过将分析样本打磨成最丰富、最具说明性的案例，从而强化分析样本[70］．为了压缩原始的4912个UGC语料库，我们使用了一种新的百分位排名标准，该标准大致由Nikolenko和同事的工作提供(并大大简化了)[49将最有意义的数据推进到专题分析。

在TM语料库中，我们通过合计每篇文章中出现的主题特定标记的数量，为每篇文章计算了一个简单的亲和力得分。在这种情况下，亲和度指的是每个帖子在多大程度上代表了它所分配的主题[49］．在Excel中使用=PERCENTILE()函数(Microsoft Corporation) [71]，我们为每个主题确定了第90个百分位的亲和力得分，丢弃了包含少于第90个百分位阈值的主题特定令牌的帖子。

在SA语料库中，我们依赖于vader生成的极性分数进行百分位数排名。低于90百分位正负价值极性分数的帖子被丢弃。

SA和TM语料库是独立的百分位排名。LDA建模依赖于术语的共现，倾向于冗长的UGC，而VADER依赖于更纯粹的情感表达，倾向于简洁;因此，在浓缩的TM和浓缩的SA语料库中没有重复的UGC。具体而言，浓缩的TM语料库强调更丰富和详细的UGC，而浓缩的SA语料库强调情感和简洁的UGC。

选择了第90个百分位数来压缩数据集，使其足够紧凑，以便由2名人类编码员(SJS和CMC)处理以下归纳主题分析。

解释性主题分析

由高亲和力和高极性UGC组成的压缩数据集随后被细分为.csv文件，供人类编码人员进行专题分析。我们使用了一种归纳的潜在水平的方法来检查潜在的概念和话语的细微差别[72］．因此，每个稳定的主题以及得分最高的积极和消极的帖子都被作为一个元主题处理，每个主题都在一个独立的.csv文件中。人类编码员(SJS和CMC)对这些文章进行了沉浸式细读，首先独立地识别突发的主题并构建试验代码，然后通过Excel中的RADaR(严格和加速的数据缩减)技术进行协作[73］．最初，我们在Excel中进行开放式编码，以利用非专业软件所采用的快速矩阵分析技术的可访问性，并促进必要的职位排序和排名。代码被迭代地应用，整个编码模式在会议上被改进，直到在编码应用程序上获得一致。然后，将所有数据迁移到Dedoose(社会文化研究顾问公司)，对包括LDA模型1在内的压缩数据集进行最终编码，其中总体汇总的编码器可靠性为κ=0.78 [70，74］．最后，在获得可接受的编码器可靠性后，第一作者独立地将编码模式应用于压缩数据集，其中包括Dedoose中的LDA Model 2，产生了本文报道的最终编码应用程序。

TM过程

最优一致性的LDA模型由K=3个主题组成，每个主题由30个共现标记组成。话题A疾病应对[75]，包括所有以艾滋病毒作为一种慢性疾病的问题为主的职位。话题B，社会逆境，涵盖了那些解释作为一名艾滋病毒感染者在人际交往领域中的困难的帖子。话题C，问候语和签到，涵盖了Thrive With Me论坛用户经常分享的一系列简短问候和个人更新。从改进模型模型2中，我们的压缩数据集包括67个包含超过5个主题a特定令牌的帖子(平均7.31,SD 1.83)， 118个包含超过6个主题b特定令牌的帖子(平均9.43,SD 2.05)，以及113个包含超过4个主题c特定令牌的帖子(平均5.81,SD 1.14)。

改变百分比划分(本研究的主要理由是实用主义)将大大改变浓缩的UGC语料库的大小。在主题A中，在第75百分位，每个帖子>3 token, 188个帖子将转用于专题分析;在第95百分位，即每篇文章6个代币，38篇文章将结转。在主题B中，在第75百分位，每个帖子4个代币，270个帖子将转入专题分析;在第95个百分位，或每个帖子>8个代币，72个帖子将结转。Topic C，由于其UGC的稀疏性，更加分散。在第75百分位，以每个帖子>2个代币计算，522个帖子将转用于专题分析;在第99百分位，或每个帖子>6个代币，只有20个帖子将被结转。

描述这些主题的Model 2标记、它们的标签和定义、它们的凝聚细节(包括第90百分位亲和分数阈值)以及说明性摘录显示在表2．

根据主题和用户在LDA建模中检测到的帖子数量和令牌数量列在表格中多媒体附件2．

表2。机器检测的主题、标记n-grams、特指内缩合、定义和说明性示例。

主题	模型1令牌	模型2令牌	标签	定义		模型2
						每个主题的帖子，n (%) (n = 4912)	第90百分位门槛	每个主题高亲和力帖子，n (%) (n =1276)	高亲和力职位示例^一个
一个	艾滋病，护理，com，医生，don，效果，免费，健康，帮助，艾滋病毒，http, https，只是，知道，生活，药物，需要，新的，人，积极的，支持，采取，谢谢，时间，采取，治疗，不可检测，使用，www，是的	艾滋病，护理，社区，日子，医生，效果，感觉，免费，同性恋，健康，艾滋病毒，生活，知道，药物，男人，男人，需要，新，人，积极，真的，性，支持，服用，思考，时间，服用，治疗，不可检测，使用	疾病的应对	描述艾滋病毒感染者的日常生活，强调血清状态意识，抗逆转录病毒治疗^b养生法，以及其他社会医学话题		1028例(20.92%)	>每篇文章5个主题特定token	67例(5.25%)	我不认为透露一个艾滋病毒检测不到病毒载量会说服任何人艾滋病毒我们不太可能感染他们。它可以是使用对潜在的伴侣也是HIV阳性的贝科使用他们更有可能理解和接受检测不到病毒载量降低了再次感染的风险。有人想要避免艾滋病毒或者拥有的风险性与任何人艾滋病毒被感染的可能不会护理或者理解检测不到病毒载量。
B	祝福，原因，com，来，日子，不，感觉，同性恋，好，https，只是，知道，生活，喜欢，爱，使，早上，男人，真实，真的，人，人，性，说，事情，思考，时间，想要，方式，WWW	更好，祝福，事业，来，日子，感觉，快乐，好，努力，知道，生活，生活，爱，使，男人，男人，人，人，点，需要，新，真实，真的，说，想，时间，想，方式，工作，年	社会逆境		描绘了作为一个携带艾滋病毒的性少数男同性恋者在社交和性方面的挑战和成就	1555例(31.65%)	>每篇文章6个特定主题的代币	118例(9.25%)	实话实说....我发现硬就是找男人吗想要不止一个钩....(他们)al道路S seem to似乎想要先睡在一起(…)只是和陌生人睡在一起道路不像以前那样让我兴奋了…使年代我感觉有点像个怪胎次…如果我想要我所做的就是“玩”——我可以毫不费力地找到和我一起玩的男人——即使是我的状态——我也会立即公开，无论是在网上还是在里面人……而是寻找那些想要谈话，约会，然后知道有人曾经硬Est给我....
C	更好，日子，日子，享受，感觉，感觉，很好，很好，去，得到，伙计们，高兴，嘿，希望，就像，lol，伙计，早上，新的，真的，今天，时间，ve，欢迎，年，年，周，周末，工作	最好的，更好的，一天，正在做，享受，感觉，去，很好，得到，很棒，伙计们，周五，快乐，你好，嘿，希望，lol，运气，周一，早上，很好，真的，周日，谢谢，时间，今天，一周，周末，欢迎，祝福	问候和签到	问候和简短的个人近况		2329例(47.41%)	>每篇文章4个主题特定令牌	113例(8.86%)	早....欣欣向荣!能说说我的多吗周末因为我睡过了.........我只是希望这胡里节一天这一季应该已经结束了，所以我可以回到某种正常的状态........不管怎样,我希望每个人都是高效的周和一个享受能力谢谢给 ..........

^一个特定于主题的标记用斜体表示。

^b抗逆转录病毒疗法。

^cMSM:与男性发生性关系的男性。

SA过程

对于正价([+]Pos)帖，我们的压缩数据集包括488个被VADER词典赋予极性评分>0.659的帖([+]Pos静脉分布平均值0.81,SD 0.12)。对于负价([-]Neg)帖，我们的浓缩样本包括极性评分>0.196的490个帖([-]Neg静脉分布平均值0.34,SD 0.16)。

强阳性和阴性柱的静脉凝结的细节，与说明性的例子，显示在表3．

表3。VADER(情感推理器的价觉字典)-指定的情感极性、内在凝聚和说明性示例。

情绪极性	第90百分位门槛	每价高亲和力岗位，n (%) (n =1276)	高亲和力帖子示例(包括极性评分)
(+) Pos^一个	>0.659(+)分	488例(38.24%)	“美丽的故事，感谢分享”(0.828赞成，0.172否定)
			“我爱你，积极向上.............(0.789 Pos, 0.000 Neg)
(-)底片^b	>0.196(-)得分	490例(38.4%)	“我讨厌特朗普(小写)!!(0.000 Pos, 0.604 Neg)
			“今天很焦虑。甚至我的血压都很高。(0.000 Pos, 0.552 Neg)

^一个价。

^b负价。

专题分析

压缩数据集包含1276个帖子:298个帖子与LDA模型2中主题A、B和C的亲和力的第90百分位相关，978个帖子与正极性和负极性的第90百分位相关。该数据集被推进到专题分析。检测到的脑内和脑内主题，它们的操作定义，代码共同出现，以及说明性摘录显示在一个元矩阵中多媒体．

在主题A中，大多数主题都明确阐述了艾滋病毒感染者的日常义务。最常检测到的主题，反映了Thrive With Me web应用程序提供的信息提示，涉及ART药物。这些例子足够丰富，足以保证编码专门的子主题，捕捉详细的依从提示，个人抗逆转录病毒疗法和不良反应。他们提出了长期生存的问题，以及各种个人叙述和向潜在性伴侣披露艾滋病毒血清状况的对等建议。此外，一个代码(“提高认识”)记录了许多用户分享活动家活动、当地资源和针对艾滋病毒的公共卫生信息的细节的实例。

在主题B中，分享了不同的个人叙述，包括所有关于感染艾滋病毒的性少数男同性恋者在寻求与其他男性的社会和性联系时可能遇到的具体挑战的表述。这些因素包括对关系寿命和配偶关系的不匹配预期，伴侣饮酒和使用冰毒导致的生活混乱，以及前伴侣的角色。信任、破碎的信任、自信的讨论、孤独和孤立的表达都是突发的主题。支持网络的作用，包括在Thrive With Me用户中直接呼吁和提供点对点的社会支持，也出现在这个主题中。

在话题C中，绝大多数UGC都是简短的问候。在这些问候语扩展到包括个人近况和同事签到的帖子中，有两个主题占主导地位;第一项包括药物使用、滥用和康复，其中包括Thrive With Me用户的复发情况;其次，个人胜利的主题也很明显，包括新的健身方案、事业上的成功，以及稳定CD4计数等治疗目标的实现。

强烈积极的帖子以感恩为特征，通常是对论坛上发生的对等鼓励和肯定的回应。强烈的负面帖子更丰富，主题也更多样化。其中许多帖子都是对外部新闻媒体的回应，这极大地激起了人们的愤怒。这些媒体经常报道同性恋和种族主义的行为。另一个负面主题包括2016年总统选举决定时期“与我一起成长”审判期间的美国政治气候。静脉注射的最后一个主题与心理健康有关，通常表现为急性或持续与抑郁、压力和失眠作斗争。

主要研究结果

我们将常见的NLP技术与传统的潜在主题分析相结合，对来自交互式HIV移动健康环境的UGC进行分类。通过LDA建模的多次迭代，稳定的主题出现了:艾滋病毒感染者的日常关注;作为性少数的男同性恋者，艾滋病毒携带者的社会、浪漫和性代价;还有例行的问候和日常的肯定。使用第90个百分位数，我们将这些主题的UGC从4912个帖子压缩为1276个丰富的说明性帖子子集。通过进一步将这种浓缩的UGC作为一组元主题进行分析，我们确定了其中的潜在话语，通过这些话语可以挖掘出体验式的设计见解。

我们的工作为探索顺序nlp定性方法的多样化、跨学科文献做出了贡献[49，51-55，76]，同时响应Britt和同事的号召[56探索移动医疗中集成数据挖掘和叙事分析的可能性。通过顺序组合NLP和定性技术，我们的工作类似于最近的分析，这些分析证明了连续NLP-定性方法从基于web的论坛和文本消息数据创建机器生成元主题的能力，反过来，通过定性编码保存叙事和上下文[51-55］．与这些分析相反，我们使用了来自交互式移动健康环境的UGC，重点关注以用户为中心的产品适应作为潜在应用。在强调设计应用方面，我们的工作类似于Petersen等人[55]，他将类似的NLP技术应用于一种促进锻炼的可穿戴技术的潜在用户的访谈，以0周、5周和10周为间隔捕捉情绪和可用性的改善。与我们自己的分析不同，这种分析[55]满足了以用户为中心的设计周期的迭代标准[22，26，27]，放弃了定性分析中较为劳动密集型的部分[70]，同时展示了其nlp辅助的、以用户为中心的方法。

为此，这里报告的结果提供了部分目标1的实现。虽然我们演示的顺序方法确实成功地描述了同行论坛的流行主题，但这些方法的未来可行性将取决于它们的常规化。我们的过程包括大量的转换和跨平台迁移，每一个都带来了摩擦，这反过来又抑制了采用[77］．相反，常规nlp支持的移动健康监测将需要集成的文本分析[78，79]和图形用户界面，以确保没有编码专业知识的调查人员也可以使用[56］．这种“无代码”(一个常见的行业术语)解决方案可以通过证据合成和翻译来帮助弥合知识-翻译的差距，这是实施科学中的一个持久挑战[80]，以及临床整合移动健康干预措施[81］．另一方面，尽管我们的方法证明了保持人类对NLP输出的可解释性的价值，但我们归纳开发的主题代码可能在未来将自己重新用作训练hiv域数据集的目标标签，用于监督深度学习应用[82］．这种“兼而有之”的方法的内在潜力仍有待探索。

至于目标2，从这些发现中浮现出一系列可操作的设计见解，以指导“与我一起茁壮成长”的未来迭代，特别是艾滋病毒移动健康。HCD方法通常将这些见解重新定义为“我们如何”(HMW)提示，我们在这里采用这种重新定义[24，26］．首先，参与同侪支持论坛的血清阳性MSM最终用户通常是透明而亲密的，向他们的同侪寻求鼓励，合作解决困难的问题。这些例子在主题A和B中最为明显，特别是在与艺术相关的“生存”和“合作挑战”主题中，以及在通过(+)Pos UGC浮出的对等肯定中。然而，更有问题的是，这个论坛也是一个向外部新闻媒体表达愤怒的平台。这些媒体经常叙述同性恋暴力和歧视的事例。当然，这些问题显然与Thrive With Me用户有关，因为“对媒体的反应”代码出现在(-)Neg浓缩UGC中(专门)，出现的频率是其他任何问题的两倍，除了主题b中的“合作挑战”。然而，它们的侵入性和消极性可能已经削弱了论坛的整体情绪基调。这些对愤怒的诉求可能会阻止新注册或“潜伏”用户与论坛互动，或者不成比例地消耗他们的注意力。在任何一种情况下，该论坛所提供的社会支助的预期效益都可能受到损害。因此，HMW 1是“如何在不妥协同伴论坛的支持目标的情况下，承认一个压迫性社会引发的愤怒?”积极的内容审核，时事频道，甚至封锁出站链接都可能实现这一目标; however, these solutions would require prototyping and prospective end-user feedback in an HCD cycle [24］．

另一个主题，有几个相关的主题，涉及关系困难。除了上述主题B中出现的“伙伴关系挑战”主题外，在“信任和背叛”以及以社会孤立为重点的“我生活中的空虚”主题中，明显存在未满足的关系需求。因此，HMW 2是“我们如何支持血清阳性MSM患者的人际需求，而不将模型漂变纳入ART依从性干预?”潜在的需求是明显的，最终用户的审议经常涉及交叉主题A和(-)消极主题;主题间交叉编码最丰富的例子出现在“披露血清状态”(主题A)、“合作挑战”(主题B)和“药物使用和滥用”(主题C)主题中，说明了这些问题在“与我一起成长”用户生活中的纠缠。专门的信息模块可能会更直接地解决这些需求，将该领域的决策与非法药物使用或错过抗逆转录病毒治疗剂量的特定触发因素联系起来，以与“与我一起成长”的IMB模型相一致的方式[60，61］．

最后，叙述艾滋病毒幸存者的个人胜利的愿望通常在主题a和C中很明显，特别是在“幸存者”和(活体)“其他日子我搬山”代码中。这些叙述涵盖了悲伤，出柜，以及长期生存所带来的教训，作为一种有机发生的UGC形式，指出了它们对Thrive With Me用户的重要性，也许是对他们个人适应力的验证。这种以力量为基础，以人为本的肯定可能具有建设性地重新编写“与我一起成长”用户的社会压迫经历的潜力，同时在彼此的故事中找到共鸣[83，84］．如果仔细实施，这样的重构可能会重定向HMW 1中讨论的消极情绪，而不会使驱动它的压力源失效，同时鼓励与同行论坛的参与。一个合适的HMW 3是“我们如何激活个人叙述的潜力，以促进感染艾滋病毒的男同性恋者的福祉?”异步健康恢复叙述，即使是从开放网络上的UGC中抓取的，也可以提高行为改变的自我效能和癌症筛查的可能性[85，86］．在专门的门户网站上管理这些叙事，类似于数字精神病学的创新，如NEON(在线叙事体验)干预[87]，可能代表了下一代艾滋病毒移动健康的适应性外围[88］．

限制

这些发现受到一系列限制。作为概念验证分析，我们的方法是探索性的。尽管如此，我们的方法中内置的上述迁移和转换允许人为错误的强加，同时限制了生成结果的速度。相比之下，采用单一的替代开发环境，如R (R Foundation for Statistical Computing)，允许通过R定性数据分析包进行定性分析[89会大大提高效率。我们还受到限制，因为我们无法与Thrive with Me用户一起对LDA建模和主题编码模式进行成员检查，这将支持事务有效性，并为真正的HCD过程奠定基础，结合迭代原型，设计冲刺，以及从我们试图满足的用户基础中获得的反馈。使用Nikolenko及其同事雇佣的领域专家评级员[49]以确保LDA输出的一致性和人类可解释性，为这种成员检查方法提供了模板。HCD是灵活的、创造性驱动的、交互式的，而UGC分析是静态的、典型的存档的，两者之间存在着事实上的紧张关系。创新解决方案，如社交媒体上的实时症状监测[90，91]，指出了解决这种紧张关系的可能性，以及互动移动医疗的潜在创新。最后，从设计公正的角度来看[31]，我们认识到，我们描述的方法利用了英语分析的进步，使用英语语料库，在需要用户用英语接收信息和互动的干预环境中[60］．虽然多语言自然语言处理的需求在该领域得到了认可，但进展仍然有限[92］．当然，在人类语言的巨大多样性中，捕捉用户体验洞察力的单语方法的范围仍然很窄。

结论

移动卫生干预措施要满足众多被边缘化的感染艾滋病毒的男同性恋者的需求，就必须适应各种各样的需求和经验。这一概念验证分析的结果表明，结合机器和人类优化的技术可以在不增加潜在终端用户负担的情况下，获得关于这些需求和体验的可操作的见解。通过保持共情的视角并专注于方法的改进，这里所演示的技术可以为艾滋病毒移动健康的未来创新做出贡献。

致谢

我们感谢参与者在研究过程中付出的时间和努力，以及他们为“与我一起成长”论坛贡献的丰富的见解和个人叙述。此外，我们感谢AvaGrace Palazzolo作为评估试点潜在狄利克雷分配输出可解释性的人类评分员的服务。SJS部分由加文·山兹·桑德斯基金会奖学金资助。这项工作得到了国家药物滥用研究所的资助(资助R01DA039950)。

作者的贡献

SJS和SSJ设计并执行了分析，SJS主导了浓缩、主题分析和以人为本的设计(HCD)解释，SSJ主导了预处理、主题建模(TM)和情感分析。CMC在所有回合的专题分析中担任共识编码器，并为手稿的初步起草做出了贡献。KJH设计了“与我一起茁壮成长”干预，领导了这些二次分析起源的开发和家长试验，并监督了本文所述工作的所有方面。SJS撰写了手稿的初稿，SSJ、CMC和KJH对其进行了修改。

利益冲突

SJS是Waverider的付费顾问，该公司构建可定制的辩证行为治疗电子健康工具。SSJ、CMC和KJH声明没有利益冲突。

‎

多媒体附件1

文本预处理，潜在的狄利克雷分配主题建模，以及VADER(情感推理器的价感字典)情感分析复制脚本。

TXT文件，13 KB

‎

多媒体附件2

每个用户、每个主题检测到的令牌(模型2)。

DOCX文件，49 KB

‎

多媒体

人类检测到的特应性内(模型2)和静脉注射主题的定义和说明性的例子。

DOCX文件，29 KB

Vella S, Schwartländer B, Sow SP, Eholie SP, Murphy RL。抗逆转录病毒疗法的历史及其在世界资源有限地区的实施。艾滋病2012年6月26(10):1231-1241。［CrossRef] [Medline］
HIV-CAUSAL Collaboration, Ray M, Logan R, Sterne JAC, Hernández-Díaz S, Robins JM，等。联合抗逆转录病毒疗法对艾滋病毒感染者总死亡率的影响艾滋病2010年1月;24(1):123-137 [免费全文] [CrossRef] [Medline］
Samji H, Cescon A, Hogg RS, Modur SP, Althoff KN, Buchacz K，北美艾滋病队列合作研究与设计(NA-ACCORD)缩小差距:美国和加拿大接受治疗的艾滋病毒阳性患者的预期寿命延长。PLoS One 2013 12月;8(12):e81355 [免费全文] [CrossRef] [Medline］
李国强，李国强。HIV病毒载量和HIV感染的可传播性:检测不到等于不能传播。美国医学杂志2019年2月;321(5):451-452。［CrossRef] [Medline］
艾滋病毒治疗和病毒抑制在预防艾滋病毒性传播方面的证据。cdc.gov。2020.URL:https://www.cdc.gov/hiv/pdf/risk/art/cdc-hiv-art-viral-suppression.pdf[2021-08-03]访问
疾病控制和预防中心。美国选定的国家艾滋病预防和护理成果。cdc.gov。2019.URL:https://www.cdc.gov/hiv/pdf/library/factsheets/cdc-hiv-national-hiv-care-outcomes.pdf[2021-08-03]访问
Altice F, Evuarherhe O, Shina S, Carter G, Beaubrun AC. HIV治疗方案的依从性:系统文献回顾和荟萃分析。患者偏好坚持2019年4月;13:475-490 [免费全文] [CrossRef] [Medline］
Eberhart MG, Yehia BR, Hillier A, Voytek CD, Blank MB, Frank I，等。级联背后:分析艾滋病毒护理连续统一体的空间模式。J Acquir Immune deficiency Syndr 2013 Nov;64(增刊1):S42-S51 [免费全文] [CrossRef] [Medline］
Eberhart MG, Yehia BR, Hillier A, Voytek CD, Fiore DJ, Blank M，等。与艾滋病毒护理保留不良和病毒抑制不良的地理集群相关的个人和社区因素。J Acquir Immune deficiency Syndr 2015 May;69(增刊1):S37-S43 [免费全文] [CrossRef] [Medline］
郭斯华，陈志强，陈志强，等。了解沿护理连续体的局部空间变化:交通脆弱性对高度贫困地区艾滋病毒护理和病毒抑制联系的潜在影响，佐治亚州亚特兰大。获得性免疫缺陷综合征2016年5月;72(1):65-72 [免费全文] [CrossRef] [Medline］
Tieu H, Koblin BA, Latkin C, Curriero FC, Greene ER, Rundle A，等。社区和网络特征以及同性恋、双性恋和其他男男性行为者的艾滋病毒护理连续性。J Urban Health 2020 Oct;97(5):592-608 [免费全文] [CrossRef] [Medline］
Quinn KG, Voisin DR.与HIV感染者发生性关系的男性是否坚持抗逆转录病毒治疗:主要挑战和机遇。2020年8月;17(4):290-300 [免费全文] [CrossRef] [Medline］
张志刚，张志刚，张志刚，张志刚，等。针对艾滋病毒和性传播感染的数字创新有效吗?系统评价结果(1996-2017年)。BMJ公开赛2017 11月;7(11):e017604 [免费全文] [CrossRef] [Medline］
Cooper V, Clatworthy J, Whetham J, EmERGE财团。支持艾滋病毒自我管理的移动健康干预措施:系统综述。Open AIDS J 2017; 11:19 -132 [免费全文] [CrossRef] [Medline］
Nelson KM, Perry NS, Horvath KJ, Smith LR。对移动健康干预措施在同性恋、双性恋和其他男男性行为者中预防和治疗艾滋病毒的系统回顾。Transl Behav Med 2020 10月;10(5):1211-1220 [免费全文] [CrossRef] [Medline］
Catalani C, Philbrick W, Fraser H, michel P, Israelski DM. Open AIDS J 2013 Aug;7:17-41 [免费全文] [CrossRef] [Medline］
Lee SB, Valerius J. mHealth干预促进抗逆转录病毒依从性:叙事回顾。JMIR Mhealth Uhealth 2020 Aug;8(8):e14739 [免费全文] [CrossRef] [Medline］
Herbst JH, Mansergh G, Pitts N, Denson D, Mimiaga MJ, Holman J.关于抗逆转录病毒治疗和避孕套使用益处的简短信息在美国三个城市的黑人和拉丁裔MSM中的影响。《中国同性恋杂志》，2018;29(2):344 - 344。［CrossRef] [Medline］
Horvath KJ, Lammert S, MacLehose RF, Danh T, Baker JV, Carrico AW。一项移动应用程序的试点研究，以支持与使用兴奋剂的男性发生性行为的男性坚持艾滋病毒抗逆转录病毒治疗。艾滋病行为学2019 11月23日(11):3184-3198。［CrossRef] [Medline］
阿农FM，冈田E，万杰G，马塞塞L，欧德尼TA，金努西亚J，等。迭代开发移动健康干预措施，以支持在肯尼亚莫尼亚巴萨的女性性工作者开始抗逆转录病毒治疗和坚持。J Assoc护士艾滋病护理2020年3月31日(2):145-156 [免费全文] [CrossRef] [Medline］
Flickinger TE, Sherbuk JE, Petros de Guex K, Añazco Villarreal D, Hilgart M, McManus KA，等。对美国南部非城市地区的西班牙语拉丁裔艾滋病毒感染者实施移动医疗干预。Telemed Rep 2021年2月;2(1):46-55 [免费全文] [CrossRef] [Medline］
Marent B, Henwood F, darkking M, EmERGE财团。开发艾滋病毒护理移动健康平台:通过联合设计研讨会和访谈收集用户观点。JMIR Mhealth Uhealth 2018 10月;6(10):e184 [免费全文] [CrossRef] [Medline］
Rosen R, Ranney M, Boyer E. mHealth HIV依从性的形成性研究:iHAART应用程序。在:第48届夏威夷系统科学国际会议论集。2015年发表于:第48届夏威夷系统科学国际会议;2015年1月5-8日;夏威夷考艾岛https://ieeexplore.ieee.org/document/7070151［CrossRef］
IDEO(公司)。以人为本的设计指南。美国纽约:IDEO;2015.
设计思维盗版。dschool.stanford.edu。2021.URL:https://dschool.stanford.edu/resources/design-thinking-bootleg[2021-08-03]访问
Beres LK, Simbeza S, Holmes CB, Mwamba C, Mukamba N, Sharma A，等。实施科学的以人为本设计课程:改进以患者为中心的护理干预的实施。J Acquir Immune deficiency Syndr 2019 Dec;82(增刊3):S230-S243 [免费全文] [CrossRef] [Medline］
Farao J, Malila B, Conrad N, Mutsvangwa T, Rangaka MX, Douglas TS.移动健康的以用户为中心的设计框架。PLoS One 2020 Aug;15(8):e0237910 [免费全文] [CrossRef] [Medline］
Schnall R, Mosley JP, Iribarren SJ, Bakken S, Carballo-Diéguez A, Brown Iii W.以用户为中心的自我管理应用程序与现有的艾滋病毒感染者移动健康应用程序的比较。JMIR Mhealth Uhealth 2015 Sep;3(3):e91 [免费全文] [CrossRef] [Medline］
李文杰，李志强，李志强，等。一个以用户为中心的模型，用于设计消费者移动健康(mHealth)应用程序(apps)。J Biomed Inform 2016年4月;60:243-251。［CrossRef] [Medline］
霍尔曼一世，凯恩D.以人为本的全球卫生公平设计。科技发展2019 9月;26(3):477-505 [免费全文] [CrossRef] [Medline］
Costanza-Chock S.设计公正:社区主导的实践来构建我们需要的世界。波士顿，美国:麻省理工学院出版社;2019.
范敏，史松，张凯。工业中大声思考协议的实践与挑战:国际研究。J可用性研究2020年2月;15(2):85-102。［CrossRef］
Marent B, Henwood F, darkking M, EmERGE财团。数字健康的矛盾:共同设计一个艾滋病毒护理移动健康平台。社会科学与医学2018 10月;215:133-141。［CrossRef] [Medline］
一个递归的、对话的成员检查方法的过程和结果:一个项目民族志。qualal Health Res 2019 Jun;29(7):944-957。［CrossRef] [Medline］
Sari E, Tedjasaputra A.用设计冲刺设计有价值的产品。见:第16届IFIP人机交互(INTERACT)会议记录。瑞士:施普林格，Cham;2017.09出席:第16届IFIP人机交互会议(INTERACT);2017年9月25-29日;印度孟买，第391-394页https://hal.inria.fr/hal-01679799［CrossRef］
Alqahtani F, Orji R.从用户评论中获得的见解来改进心理健康应用程序。卫生信息学杂志2020年9月;26(3):2042-2066 [免费全文] [CrossRef] [Medline］
鲍尔哦。利用社会网络增强人们在商业、政府和公共管理方面的意见。Inf Syst Front 2016 7月;19(2):231-251。［CrossRef］
卡马乔-奥特罗J, Boks C, Pettersen IN。时尚行业用户对循环产品的接受和采用:来自用户生成的在线评论的见解。J Clean Prod 2019 Sep;231:928-939。［CrossRef］
Saura JR, Reyes-Menendez A, Thomas SB.使用社交网络和用户生成内容对营养有更深入的了解。互联网Interv 2020年4月20日100312 [免费全文] [CrossRef] [Medline］
Timoshenko A, Hauser JR.从用户生成的内容中识别客户需求。Mark Sci 2019 Jan;38(1):1-20。［CrossRef］
蒂尼莱，特利斯，GJ。从网聊中挖掘营销意义:利用潜狄利克雷配置的大数据战略品牌分析。J Mark Res 2014 8月;51(4):463-479。［CrossRef］
Maddox TM, Matheny MA。自然语言处理和大数据的前景:前进的一小步，但还有很长的路要走。Circ心血管质量结果2015年9月8日(5):463-465。［CrossRef] [Medline］
Bird S, Klein E, Loper E.《用Python进行自然语言处理:用自然语言工具包分析文本》。美国加利福尼亚州塞瓦斯托波尔:O'Reilly Media;2009.
Batrinca B, Treleaven PC。社交媒体分析:技术、工具和平台的调查。人工智能与社会科学2014 july;30(1):89-116。［CrossRef］
Gonzalez-Hernandez G, Sarker A, O'Connor K, Savova G.捕捉患者的视角:健康相关文本的自然语言处理进展综述。Yearb Med Inform 2017 Aug;26(1):214-227 [免费全文] [CrossRef] [Medline］
李国强，李国强。J Mach Learn Res 2003:993-1022 [免费全文］
reaye - menendez A, Saura JR, Alvarez-Alonso C.理解Twitter上#世界环境日用户意见:基于主题的情绪分析方法。国际环境与公共卫生杂志2018年11月;15(11):2537 [免费全文] [CrossRef] [Medline］
文敏，杨东，Rosé C. MOOC论坛中的情感分析:它告诉我们什么?见:第七届教育数据挖掘国际会议论文集(EDM 2014)。2014年发表于:第七届教育数据挖掘国际会议(EDM 2014);2014年7月4-7日;英国伦敦网址:https://www.cs.cmu.edu/~mwen/papers/edm2014-camera-ready.pdf
李志强，李志强。定性研究的主题模型。《科学通报》2016年7月;43(1):88-102。［CrossRef］
Ampofo L, Collister S, O?文本挖掘和社交媒体:当定量遇到定性，软件遇到人。在:Halfpenny P，宝洁R，编辑。数字研究方法的创新。美国加州千橡市:SAGE;2015:161 - 192。
李森W, Resnick A，亚历山大D, Rovers J.自然语言处理(NLP)在定性公共卫生研究:一个概念证明研究。Int J质量方法2019年11月;18:160940691988702。［CrossRef］
Guetterman TC, Chang T, DeJonckheere M, Basu T, Scruggs E, Vydiswaran VGV。用自然语言处理增强定性文本分析:方法学研究。J Med Internet Res 2018 Jun;20(6):e231 [免费全文] [CrossRef] [Medline］
Jones J, Pradhan M, Hosseini M, Kulanthaivel A, Hosseini M.将患者生成的数据聚类为可操作的主题的新方法:基于web的乳腺癌论坛的案例研究。JMIR Med Inform 2018年11月;6(4):e45 [免费全文] [CrossRef] [Medline］
Timimi F, Ray S, Jones E, Aase L, Hoffman K.患者报告的他汀类药物、记忆和认知的在线交流结果:使用在线社区进行定性分析。J Med Internet Res 2019 11月;21(11):e14809 [免费全文] [CrossRef] [Medline］
陈志强，陈志强，陈志强，等。使用自然语言处理和情感分析来增强传统的以用户为中心的设计:开发和可用性研究。JMIR Mhealth Uhealth 2020 Aug;8(8):e16862 [免费全文] [CrossRef] [Medline］
布里特R，马多克斯J，坎塔瓦拉S，海斯JL。移动健康干预措施的影响:通过叙述、混合方法和数据挖掘策略改善健康结果。入:Kim J, Song H，编辑。技术与健康:促进态度和行为的改变。美国马萨诸塞州剑桥:学术出版社;2020:271 - 288。
巴塔查里亚O，莫斯曼K，古斯塔夫松L，施耐德EC。使用以人为本的设计为有复杂需求的患者构建数字健康顾问:人物角色和原型开发。J Med Internet Res 2019 5月;21(5):e10318。［CrossRef] [Medline］
张志强，张志强，张志强，等。与旧金山暴力受害者及其案例管理者一起设计信息和通信技术工具:以人为本的设计研究。JMIR Mhealth Uhealth 2020 Aug;8(8):e15866 [免费全文] [CrossRef] [Medline］
Horvath KJ, Oakes JM, Rosser BRS, Danilenko G, Vezina H, Amico KR，等。在线对等社会支持ART依从性干预的可行性、可接受性和初步疗效。艾滋病行为学2013 july;17(6):2031-2044 [免费全文] [CrossRef] [Medline］
霍瓦斯，阿米科，艾克森，艾克伦，马汀卡，德维特，等。与我一起茁壮成长:一项随机对照试验的方案，以测试同伴支持干预，以提高与男性发生性行为的男性的抗逆转录病毒治疗依从性。JMIR Res Protoc 2018年5月;7(5):e10182 [免费全文] [CrossRef] [Medline］
Amico KR, Toro-Alfonso J, Fisher JD。抗逆转录病毒治疗依从性的信息、动机和行为技能模型的实证检验。艾滋病关怀2005年8月17日(6):661-673。［CrossRef] [Medline］
李文杰，李志强，李志强。基于Dirichlet分配的文本预处理研究。在:第一届自然语言处理妇女和少数民族研讨会论文集。2017年发表于:第一届自然语言处理妇女和少数民族研讨会;2017年7月30日;加拿大温哥华网址:https://www.cs.cornell.edu/~xanda/winlp2017.pdf
斯科菲尔德，马格努森，米诺。拉出停止:重新思考停止词去除主题模型。在:计算语言学协会第15届欧洲分会会议论文集。2017年4月发表于:计算语言学协会第15届欧洲分会会议;2017年4月;西班牙瓦伦西亚，p. 432-436网址:https://aclanthology.org/E17-2069.pdf［CrossRef］
Hutto C, Gilbert E. VADER:一个节俭的基于规则的社交媒体文本情感分析模型。2014年发表于:第八届国际AAAI网络日志和社交媒体会议论文集;2014年6月1日至4日;安娜堡，密歇根州，美国https://www.aaai.org/ocs/index.php/ICWSM/ICWSM14/paper/viewFile/8109/8122
Scikit-learn v. 0.24.2, Python中的机器学习。Scikit学习。URL:https://scikit-learn.org/stable/index.html[2021-08-02]访问
朱晓明，朱晓明。基于Dirichlet森林先验的领域知识与主题建模。Proc Int Conf Mach Learn 2009 Jun;382(26):25-32 [免费全文] [CrossRef] [Medline］
雪莉·k·戴维斯:一种可视化和解释主题的方法。交互式语言学习、可视化和界面研讨会论文集。2014年发表于:交互式语言学习、可视化和界面研讨会;2014年6月27日;美国马里兰州巴尔的摩网址:https://aclanthology.org/W14-31.pdf［CrossRef］
也许是b·派尔·戴维斯。3.3.1释放。GitHub。2021.URL:https://github.com/bmabey/pyLDAvis[2021-08-03]访问
vaderSentiment v. 3.3.1。Python包索引。URL:https://pypi.org/project/vaderSentiment/[2020-06-01]访问
杨建民，杨建民，Saldaña。定性数据分析:方法来源。美国加州千橡市:SAGE;2014.
Excel for Microsoft 365 v. 16.0.14228.20216(2017)。2017.URL:https://www.microsoft.com/en-us/microsoft-365/excel[2020-06-01]访问
Braun V, Clarke V，运用心理学的主题分析。精神病学鉴定2006年1月;3(2):77-101。［CrossRef］
沃特金斯。快速严谨的定性数据分析。Int J Qual Methods 2017 Jun;16(1):160940691771213。［CrossRef］
社会文化研究顾问公司Dedoose v. 8.0.35，用于管理、分析和呈现定性和混合方法研究数据的web应用程序。Dedoose。美国加州洛杉矶;2018.URL:http://www.dedoose.com[2020-06-01]访问
Slomka J, Lim J, Gripshover B, Daly B.长期幸存者如何应对艾滋病毒的生活?J Assoc Nurses AIDS Care 2013 Sep;24(5):449-459 [免费全文] [CrossRef] [Medline］
于晨，杨宇军，杨宇军。基于扎根理论、内容分析和信度的文本挖掘与定性研究的兼容性研究。TQR 2014 10月;16(3):730-744。［CrossRef］
刘志刚，刘志刚，刘志刚。数字接口设计与功率:摩擦，阈值，过渡。环境规划D 2018年4月;36(6):1136-1153。［CrossRef］
使用自然语言医疗保健API。谷歌云医疗保健API。2021.URL:https://cloud.google.com/healthcare/docs/how-tos/nlp[2021-08-05]访问
文本分析。微软Azure, 2021年。URL:https://azure.microsoft.com/en-us/services/cognitive-services/text-analytics/[2021-08-05]访问
Michie S, Thomas J, Johnston M, Aonghusa PM, Shawe-Taylor J, Kelly MP，等。人类行为改变项目:利用人工智能和机器学习的力量进行证据合成和解释。应用科学2017 10月;12(1):121 [免费全文] [CrossRef] [Medline］
美国退伍军人事务部。VA移动医疗实践指南，2021年。URL:https://connectedcare.va.gov/sites/default/files/2021-10/va-mobile-health-practice-guide.pdf[2022-06-01]访问
Kelleher J.深度学习。波士顿，马萨诸塞州，美国:麻省理工学院出版社;2019.
Zeligman M, Barden SM。支持艾滋病毒感染者的叙述方法。精神病学杂志2014 11月28日(1):67-82。［CrossRef］
Ware C.“你不能谈论的事情”:参与艾滋病毒阳性同性恋者的幸存者叙述。口腔历史2018;46(2):33-40 [免费全文］
Manuvinakurike R, Velicer WF, Bickmore TW。健康行为改变的互联网故事的自动索引:减肥态度试点研究。J Med Internet Res 2014 12月;16(12):e285 [免费全文] [CrossRef] [Medline］
Larkey LK, McClain D, Roe DJ, Hector RD, Lopez AM, Sillanpaa B，等。低收入患者大肠癌筛查中讲故事与个人风险工具干预的随机对照试验。美国健康促进杂志2015年11月30日(2):e59-e70。［CrossRef] [Medline］
李志强，李志强，李志强，等。记录心理健康康复叙述作为受心理健康问题影响的人的资源:在线叙述经验(NEON)干预的发展。JMIR Form Res 2021年5月;5(5):e24417 [免费全文] [CrossRef] [Medline］
Damschroder LJ, Aron DC, Keith RE, Kirsh SR, Alexander JA, Lowery JC。促进将卫生服务研究成果付诸实践:推进实施科学的综合框架。执行科学2009 Aug;4:50 [免费全文] [CrossRef] [Medline］
什么是RQDA ?它的特点是什么?RQDA。2021.URL:https://rqda.r-forge.r-project.org/[2021-08-05]访问
Șerban O, Thapen N, Maginnis B, Hankin C, Foot V.使用SENTINEL实时处理社交媒体:结合深度学习进行健康分类的综合征监测系统。Inf Process Manage 2019 5月;56(3):1166-1184。［CrossRef］
冯志强，谢忠生，傅坤。社会媒体在公共卫生监测中的应用。西太平洋地区监测响应J 2015 Jun;6(2):3-6 [免费全文] [CrossRef] [Medline］
王丽娟，陈勇，陈志强，王志强，等。机器学习在说我的语言吗?对跨8种人类语言的nlp管道的批判性考察。ArXiv预印本于2020年7月11日在线发布。［免费全文] [CrossRef］

‎

艺术:抗逆转录病毒疗法

HCD:以人为中心的设计

高分子量:我们该如何

海事局:Information-Motivation-Behavioral技能

LDA:潜在狄利克雷分配

健康:移动健康

男男同性恋者:和男人做爱的男人

(-)底片:消极的价

NLP:自然语言处理

Pos (+):积极的价

山:情绪分析

TM:主题建模

用户原创内容:用户生成内容

维德:用于情感推理的价感字典

编辑:A Kushniruk;提交16.02.22;同行评议作者:A·夏尔马，J·普利;对作者23.05.22的评论;修订本收到13.06.22;接受13.06.22;发表21.07.22

©Simone J Skeen, Stephen Scott Jones, Carolyn Marie Cruse, Keith J Horvath。最初发表于JMIR Human Factors (https://humanfactors.www.mybigtv.com)， 21.07.2022。

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR Human Factors上的原创作品。必须包括完整的书目信息，https://humanfactors.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

集成自然语言处理和解释性主题分析以获得以人为本的HIV移动健康设计见解:概念验证分析

集成自然语言处理和解释性主题分析以获得以人为本的HIV移动健康设计见解:概念验证分析

原始论文

通讯作者:

摘要

关键字

简介

背景

目标

方法

研究干预

研究人群

伦理批准

程序

数据提取

数据预处理

TM过程

SA过程

冷凝

解释性主题分析

结果

TM过程

SA过程

专题分析

讨论

主要研究结果

限制

结论

致谢

作者的贡献

利益冲突

参考文献

缩写