这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
有效的卫生保健和公共卫生干预措施的发展需要全面了解卫生保健消费者和广大公众的看法、关切和所陈述的需求。来自社交媒体和问答服务的大数据集提供了对公众健康问题和优先事项的洞察,而没有更传统的社区参与方法的财务、时间和空间障碍,并可能被证明是公众参与健康研究(信息流行病学)的有用起点。
我们研究的目的是描述ChaCha问答平台的用户特征和与健康相关的查询,并讨论如何使用这些数据来更好地了解医疗保健消费者和广大公众的看法、担忧和所陈述的需求。
我们对2009年1月至2012年11月间提交给ChaCha的匿名用户查询进行了回顾性自动文本分析。共读取20.04亿项查询,其中3.50%(70,083,796/2,004,243,249)缺少1个或多个数据字段,剩下19.34亿行完整的数据用于这些分析。
男性和女性提交的健康问题数量大致相同,但内容因性别而异。女性的问题主要集中在怀孕、月经和阴道健康方面。男性的问题主要集中在身体形象、吸毒和性取向方面。12-19岁的青少年提交的问题比其他任何年龄组都多。他们的问题主要集中在性健康和生殖健康,尤其是怀孕方面。
ChaCha服务的私密性为用户,特别是提出敏感健康问题的青少年之间最大程度地坦诚提供了完美的环境。青少年的性健康问题揭示了具有严重终身后果的知识缺口。向该服务提出的问题的性质为迅速了解健康问题提供了机会,并可能导致制定更有效的针对性干预措施。
制定有效的卫生保健和公共卫生干预措施需要全面了解卫生保健消费者和广大公众的看法、关切和所陈述的需求[
公众参与研究有许多成功的模式,从长期参与模式,如以社区为基础的参与性研究和行动研究,到利用焦点小组、访谈和具体设计来获取利益相关者的反馈[
互联网已经改变了人们寻找和分享健康相关信息的方式[
2014年,印第安纳大学社会网络健康研究实验室与ChaCha (ChaCha Search, Inc, Carmel, In, USA)建立了合作关系[
通过与ChaCha的合作,我们的实验室正在研究使用基于互联网的问答服务,以征求患者的意见,并制定与公众关切产生共鸣的健康干预措施。本文的目的是描述ChaCha用户特征和与健康相关的查询,并讨论如何使用这个大型数据集更好地了解医疗保健消费者和广大公众的看法、关注和陈述需求。
2015年初,我们对2009年1月至2012年11月期间1930万独立用户提交给ChaCha的19亿个匿名查询进行了自动回顾性文本分析。因为我们只分析了现有的、去识别的数据,印第安纳大学机构审查委员会认为这项研究不符合人体受试者研究的定义。
我们在表格ASCII文本文件中按年汇总查询,其中每行包含16个数据字段,表示1个ChaCha查询和16个相关描述符(
提交给ChaCha问答服务的查询中数据字段的描述。
场 | 描述 |
1 | 查询日期和时间(东部时间) |
2 | 全类别路径 |
3. | 自动分类 |
4 | 自动检测子类别 |
5 | 源类型(语音、短信) |
6 | 用于路由和回答问题的系统 |
7 | 用户所在城市(用户报告) |
8 | 用户所处的状态(用户报告) |
9 | 用户居住的区域(由字段8给出的状态派生) |
10 | 用户所在国家 |
11 | 用户电话区号(用户自报) |
12 | 用户居住的邮政编码(用户自报) |
13 | 用户性别(用户自报) |
14 | 用户年龄(用户自报) |
15 | 用户唯一标识符(机器生成) |
16 | 查询文本 |
在调查期间,有1930万独立的ChaCha用户至少提交了一次查询。用户年龄中位数为17岁,大约68.35%(5,431,866/ 7,947118)的用户年龄小于20岁。男性(4,367,538/8,875,704,49.21%)和女性(4,508,166/8,875,704,50.79%)用户数量大致相当。每个用户查询的中位数为16,范围为1-1128(第99百分位)。大约75.93%(1,468,646,207/1,934,159,453)的查询中有用户简介,我们可以从中得出用户的性别,而74.41%(1,439,144,291/1,934,159,453)的查询中也有类似的年龄。超过一半(800,109,775/1,468,646,207,54.48%)的查询是由女性提交的。大部分(987,749,753/1,439,144,291,68.63%)是由12至19岁的用户提交的。在这些青少年用户中,女性提交的查询量(603,941,883/1,053,718,318,57.32%)高于男性(449,776,435/1,053,718,318,42.68%)。总共有74.26%(1,436,399,307/1,934,159,453)的查询是通过短消息服务短信进行的,其余的查询是通过Web界面、其他移动应用程序和语音呼叫到自动化系统进行的。用户位置(居住地)缺失约73.56%(1,422,701,099/1,934,159,453)的查询。 The vast majority of queries were made from the United States (1,933,171,565/1,934,159,453, 99.95%), and approximately 0.05% (987,887/1,934,159,453) of queries originated from the United Kingdom.
该服务的使用在2011年达到顶峰,在此期间有近6.72亿次查询。每月的服务使用量在2009年1月的1000万次查询和2011年5月的6000万次查询之间波动。按月份或每周的日期划分,没有值得注意的服务使用趋势。用户最常在晚上9点到凌晨12点之间提交问题。
2009-2012年,美国用户在ChaCha上发布的查询数量。
所有输入的查询最初都通过专有的ChaCha算法进行过滤,该算法识别关键字,将75.45%(1,459,279,135/1,934,159,453)的查询分为12个大类(
提交到ChaCha的查询:按类别和性别统计问题(n=1,459,279,135)。
类别 | 题目总数 | 每位男性用户的问题 | 每位女性用户提出的问题 | %男性用户,此类别 | %女性用户,此类别 | 分类问题的百分比(n=1,459,279,135) |
娱乐与艺术 | 391911144年 | 40.2 | 42.4 | 49.36% (3850766/7801869) | 50.64% (3951103/7801869) | 26.86% (391911144) |
语言和查找 | 226403804年 | 19.4 | 25.9 | 48.49% (3786865/7809778) | 51.51% (4022913/7809778) | 15.51% (226403804) |
客户服务 | 174889683年 | 17.5 | 19.0 | 49.27% (3727948/7566817) | 50.73% (3838869/7566817) | 11.98% (174889683) |
社会与文化 | 136908800年 | 12.5 | 17.2 | 48.62% (3354359/6899650) | 51.38% (3545291/6899650) | 9.38% (136908800) |
科技 | 109703527年 | 11.1 | 10.5 | 49.97% (3437238/6878206) | 50.03% (3440968/6878206) | 7.52% (109703527) |
健康 | 106247678年 | 11.7 | 16.4 | 47.17% (2847543/6036379) | 52.83% (3188836/6036379) | 7.28% (106247678) |
性 | 89136284年 | 15.7 | 12.6 | 51.09% (2587600/5064404) | 48.91% (2476804/5064404) | 6.11% (89136284) |
生活方式 | 74829194年 | 8.1 | 9.5 | 48.87% (3095517/6334749) | 51.13% (3239232/6334749) | 5.13% (74829194) |
政治与政府 | 47119373年 | 6.7 | 6.6 | 50.26% (2436934/4848274) | 49.74% (2411340/4848274) | 3.23% (47119373) |
体育 | 46741475年 | 9.7 | 5.1 | 55.51% (2617724/4715548) | 44.49% (2097824/4715548) | 3.20% (46741475) |
业务 | 29509年,62年 | 4.4 | 4.3 | 49.60% (2148975/4332832) | 50.40% (2183857/4332832) | 2.02% (29509621) |
旅行 | 25878552年 | 3.7 | 4.2 | 47.93% (2190337/4569614) | 52.07% (2379277/4569614) | 1.77% (25878552) |
我们检查了全句健康查询,首先是由大致相同比例的男性和女性生成的查询,然后是主要由女性提交的查询(≥90%),最后是主要由男性提交的查询(>80%)。在性别平衡的问题中,有关怀孕的问题是目前为止最普遍的,比如:“孩子是怎么生的?”“经期能怀孕吗?”“怀孕的征兆是什么?”男性和女性经常提交的另一个健康问题是酒精在体内停留的时间。
主要由女性提交的询问集中在生殖和尿路感染、排卵和怀孕的症状和体征。最常见的问题是关于酵母菌感染的症状和体征,其次是如何治疗、摆脱或治愈酵母菌感染。女性比男性更常询问月经周期及其与怀孕的关系:“你什么时候排卵?”“你什么时候最有可能怀孕?”“我怀孕了吗?”中毒性休克综合征经常被女性提及,她们想要更多地了解其症状。其他以女性用户为主的问题包括身体形象问题,比如“怎样才能让屁股变大?”“你如何摆脱脂肪团?”,以及一个相关问题:“你如何忘记一个男人?”
男性提交的整句话问题主要集中在身体形象上,尤其是阴茎的大小和增大阴茎的方法:“ExtenZe有用吗?”“如何让你的阴茎变大?”“我怎样才能练出六块腹肌?”大麻是男性提交的第二个最常见的健康问题:“哪种大麻最好?”“一盎司有几克?”“为什么大麻是非法的?”紧随其后的是与女性解剖学和生理学相关的问题:“阴道有多深?”“你怎么让一个女孩怀孕?”个人健康问题集中在睾丸不适(疼痛,瘙痒),使用肌酸是否安全,以及身体健康目标。
接下来,我们研究了更小的单词组,由2个单词和3个单词组成,按性别排序。
男性提交给ChaCha的最流行的3个单词短语。
2个短语 | 表示性别的查询总数 | 不。男性提交 | 男性百分比 |
女孩怀孕期 | 31670年 | 20892年 | 65.97% (20892/31670) |
通过药检 | 84231年 | 55328年 | 65.69% (55328/84231) |
保持你的系统 | 24880年 | 15944年 | 64.08% (15944/24880) |
药检不合格 | 20372年 | 12823年 | 62.94% (12823/20372) |
尿检 | 16183年 | 10075年 | 62.25% (10075/16183) |
杀死脑细胞 | 22120年 | 13477年 | 60.92% (13477/22120) |
大麻滞留系统 | 23891年 | 13765年 | 57.61% (13765/23891) |
大麻长时间停留 | 30325年 | 17410年 | 57.41% (17410/30325) |
长期影响 | 24048年 | 13623年 | 56.65% (13623/24048) |
女性提交给ChaCha的最流行的3个单词短语。
2个短语 | 表示性别的查询总数 | 不。女性提交 | 来自女性的百分比 |
酵母菌感染 | 36158年 | 32177年 | 88.99% (32177/36158) |
15岁女孩 | 33139年 | 28245年 | 85.23% (28245/33139) |
怀孕的早期迹象 | 49749年 | 40368年 | 81.14% (40368/49749) |
尿路感染 | 91179年 | 72242年 | 79.23% (72242/91179) |
避孕药 | 101851年 | 79706年 | 78.26% (79706/101851) |
避孕药 | 69488年 | 53437年 | 76.90% (53437/69488) |
帮助减肥 | 79265年 | 59683年 | 75.29% (59683/79265) |
快速减肥 | 52361年 | 39264年 | 74.99% (39264/52361) |
怀孕节育 | 48347年 | 33946年 | 70.21% (33946/48347) |
最后,我们按年龄组检查了查询中的模式。13-19岁、20-39岁和≥40岁用户查询中最常见的2字短语为
在19岁以下的青少年中,提交查询的女性多于男性,而在19 - 29岁的年轻人中,提交查询的男性多于女性。年龄模式也是与性别相关的模式,这反映在最常见的三个单词短语(
在按性别和年龄向ChaCha提交查询时使用3个单词短语。
年龄 | 男性 | 女性 |
13 - 19 | 平均体重17 | 17岁女孩 |
|
17岁 | 17岁 |
|
16岁 | 18岁女孩 |
热带病 | 丸白色长圆形 | 丸长圆形白色 |
|
丸长圆形白色 | 丸白色长圆形 |
|
边坯边 | 白色长方丸 |
≥40 | 白色长方丸 | 充血性心力衰竭 |
|
充血性心力衰竭 | 边坯边 |
|
13岁女孩 | 小圆白 |
ChaCha上最流行的两个单词短语主要由男性用户提交。
ChaCha上最流行的两个单词短语主要是女性用户提交的。
男性和女性提交给ChaCha的最流行的2个单词短语。
年龄在13â€- 19岁的用户提交给ChaCha的最流行的两个单词短语。
年龄在20â€- 39岁的用户提交给ChaCha的最流行的两个单词短语。
年龄为≥40岁用户提交到茶茶的最流行的2个单词短语
探索消费者使用互联网寻求健康信息的方式也可以帮助基于互联网的各种类型的研究招募,改善消费者和卫生保健提供者之间的沟通,并利用互联网可访问平台为基于证据的干预措施的营销内容和地理范围提供信息。据我们所知,这是对ChaCha数据的首次分析,这些初步结果提供了有价值的方法和内容见解。在方法上,这一初始查询的结果证实了我们的先验假设,以及其他检查互联网健康信息搜索的研究结果,即应用于这些数据集的大数据分析技术可以高效地识别用户的健康问题,并为开发以患者为中心的结果的干预措施提供了大量机会。假设我们的团队在不到5个月的时间里分析了1900万独立用户生成的19亿次与健康相关的查询中的6800万次,总成本不到15,000美元。我们整个团队全职工作,使用传统的患者参与策略,在我们的一生中都无法生成这么多数据,而且成本也无法承受。在如此短的时间内分析如此大量的用户生成的健康信息搜索数据的能力有可能从根本上改变以患者为中心的结果研究。患者参与策略是有效健康结果研究的核心,但成本高且时间密集。大数据分析策略有可能使以患者为中心的参与策略以极低的成本得到广泛采用。
对ChaCha数据集的初步分析中发现的一些重要内容与有关青少年使用社交媒体(如Twitter)寻求健康信息的文献一致。首先,大多数与健康相关的查询是由青少年用户提交的,这表明青少年很乐意使用匿名的基于文本的问答服务来寻求健康信息,类似的平台可能对针对青少年的干预措施很有用。第二,青少年的健康问题揭示了潜在的知识差距,这将造成严重的终身后果。青少年提出的绝大多数健康问题都集中在性健康和生殖健康方面。他们经常询问女孩何时以及如何怀孕,怀孕的迹象和症状,以及节育的有效性和副作用。青少年用户还提出了大量关于生殖道感染(主要是酵母菌和尿路感染)的检测和治疗、大麻在血液或尿液中检测到的时间长短、体重减轻和智齿拔掉的问题。青少年询问的内容表明,他们有兴趣和需要对有关其性健康和生殖健康的问题进行实时匿名回答。
与大多数分析社交媒体数据的研究一样,这项研究也有几个局限性。首先,我们不知道用户是在搜索自己的知识,还是代表朋友或家人。其次,人口统计数据是由匿名用户自我报告的,他们可能没有如实描述他们所在的城市、州、性别或年龄。第三,我们的研究团队直到2014年才获得这些数据,使得数据在分析时为3-6年。因此,用于描述健康问题的术语,特别是在青少年中,可能略显过时。然而,我们不太关注
虽然存在其他问答服务,其中许多比ChaCha更受欢迎,但ChaCha服务有几个独特的功能,使其对以患者为中心的研究具有吸引力。首先,ChaCha的使用是完全匿名的。其他问答网站(如Quora)的用户则需要使用电子邮件或Facebook个人资料等潜在可追踪信息注册该服务。虽然Quora可能是一个安全的网站,但为了使用该网站,必须输入可识别信息,这可能会限制用户池以及他们愿意问的问题类型。谷歌或必应等流行的搜索引擎提供了更大的隐私感,但它们留下了可搜索的历史记录,这也可能促进自我审查。此外,ChaCha被专门设计为一种问答服务,在这种服务中,用户知道在电话的另一端有一个人在策划答案。这比Web搜索更接近地模拟了医疗保健遭遇,在Web搜索中,策划是由信息搜索者完成的。
需要对这些和其他社交媒体数据进行更多的研究,以更深入地了解健康信息寻求的空间和时间模式,从而为以患者为中心的研究提供信息。ChaCha服务为最大程度的坦诚提供了一个完美的环境,特别是在敏感的健康问题上。在这个庞大数据集的表层之下,是一些悄无声息的问题,或平凡或非凡,它们代表了数百万人的希望、恐惧、梦想和担忧。在不以任何方式损害他们的匿名性的情况下,我们可以收听,以改善数百万人的健康和福祉。
该数据集由ChaCha慷慨地提供给印第安纳大学护理学院的社会网络健康研究实验室。该项目由印第安纳大学护理学院研究和奖学金中心提供资金支持。
没有宣布。
ChaCha上最流行的两个单词短语主要由男性用户提交。浏览互动图表
ChaCha上最流行的两个单词短语主要是女性用户提交的。浏览互动图表
男性和女性提交给ChaCha的最流行的2个单词短语。浏览互动图表
年龄在13â€- 19岁的用户提交给ChaCha的最流行的两个单词短语。浏览互动图表
年龄在20â€- 39岁的用户提交给ChaCha的最流行的两个单词短语。浏览互动图表
年龄为≥40岁用户提交到茶茶的最流行的2个单词短语浏览互动图表