发表在第22卷第四名(2020): 4月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/19118,首次出版
中国新冠肺炎疫情暴发早期新闻媒体健康传播:数字主题建模方法

中国新冠肺炎疫情暴发早期新闻媒体健康传播:数字主题建模方法

中国新冠肺炎疫情暴发早期新闻媒体健康传播:数字主题建模方法

原始论文

1暨南大学新闻与传播学院,国家媒体实验教学示范中心,广东省广州市

2美国纽约州奥尔巴尼,纽约州立大学奥尔巴尼大学传播系

3.暨南大学医学院公共卫生与预防医学系,中国广东省广州市

4中国广东省广州市暨南大学国际学校

5暨南大学计算机中心,中国广东省广州市

6美国马萨诸塞州波士顿哈佛医学院马萨诸塞州总医院基因组医学中心

7美国马萨诸塞州波士顿哈佛医学院布里格姆妇女医院医学部肺和重症监护医学组

8联合王国伦敦帝国理工学院圣玛丽校区公共卫生学院流行病学和生物统计系环境与健康多学科合作研究中心

9香港大学李嘉诚医学院公共卫生学院,香港

*这些作者贡献相同

通讯作者:

Ming Wai-Kit, MD, PhD, MPH, MMSc, EMBA

公共卫生和预防医学系

医学院

暨南大学

天河区黄埔西街601号

广东省广州市510632

中国

电话:86 85228852

电子邮件:wkming@alumni.harvard.edu


背景:2019年12月,中国湖北省武汉市首次报告了几例COVID-19病例。不久之后,中国其他地区也发现了越来越多的病例,最终导致了疾病在中国的爆发。随着这种可怕的疾病迅速传播,大众媒体积极开展COVID-19社区教育,传播有关这种新型冠状病毒的发病机制、传播方式、预防和遏制等健康信息。

摘要目的:本研究的目的是收集有关COVID-19的媒体报道,并调查媒体导向的健康传播模式,以及媒体在中国当前COVID-19危机中的作用。

方法:我们采用WiseSearch数据库从2020年1月1日至2020年2月20日期间的主要媒体中提取有关冠状病毒的相关新闻文章。然后我们使用Python软件和Python包Jieba对数据进行整理和分析。我们寻求一个合适的主题数与连贯数的证据。我们使用合适的主题编号进行潜狄利克雷分配主题建模,生成相应的关键字和主题名称。然后,我们通过多维缩放将这些主题划分为不同的主题。

结果:在剔除重复和不相关的报道后,我们搜索出了7791篇相关新闻报道。我们列出了每天发表的文章数量。根据相干值,我们选择20个作为主题数,生成主题的主题和关键词。这些主题被分为九个主要的主要主题基于主题可视化图。排名前三的主题分别是防控程序、医疗研究和全球或本地社会经济影响,分别占收集报告的32.57%(2538)、16.08%(1258)和11.79%(919)。

结论:新闻文章的主题建模可以产生关于大众媒体对早期健康传播意义的有用信息。对比每天的文章数量和疫情发展,我们注意到中国大众媒体的新闻报道滞后于COVID-19的发展。主要主题占据了大约一半的内容,并且倾向于关注更大的社会而不是个人。COVID-19危机已成为一个全球性问题,社会开始关注捐赠和支持以及心理健康等问题。我们建议未来的工作通过对新闻数据的情绪分析来解决大众媒体在COVID-19危机期间对读者的实际影响。

中国医学杂志,2020;22(4):e1918

doi: 10.2196/19118

关键字



2019年12月,湖北省武汉市报告了一些不明病原体引起的肺炎病例,随后中国其他省份也报告了类似病例。经过多次样本采集和实验室分析,病原体被国际病毒分类委员会确定为一种新型冠状病毒,命名为严重急性呼吸综合征冠状病毒2号[1],并于2020年2月11日被世界卫生组织命名为冠状病毒病(COVID-19) [2].根据中华人民共和国国家卫生健康委员会的数据,截至2020年2月,中国约有8万例确诊病例和2000多例死亡[3.].日本、韩国、泰国、新加坡和美国等其他国家也报告了本国的COVID-19病例[4].虽然这些国家的早期病例均为武汉或湖北其他城市输入性病例,但也有部分国内病例和本地传播。

新冠肺炎疫情迅速蔓延,引起社会高度关注和热议,中国大众媒体一直在报道有关病毒和疫情的相关信息。由于必须及时采取有效的公共卫生措施,以避免卫生系统崩溃[5],媒体当然可以在向公民传达政府最新的政策法规方面发挥关键作用。

由于目前还没有COVID-19疫苗,每个公民都应该了解这种新型冠状病毒造成的危害,预防方法,以及随时可以前往当地指定的医院。如果误导或不正确的信息传播给公众,人们可能会焦虑,并以多种方式对信息做出反应,包括恐慌性购买,尝试不必要的甚至有害的药物疗法。因此,需要大众媒体与卫生利益攸关方共同开展信息传播活动,帮助个人、当局、政府和其他人了解COVID-19造成的全球和公共卫生状况的不稳定,并确定应对这一威胁所需的健康相关知识和培训。

为了了解媒体是否有效地向公众传播最新的COVID-19信息,收集和分析了主要媒体的报道。多模态数据建模可以组合来自各种资源的多个信息报告。为了处理多模态数据,采用了主题建模。主题建模是一种统计模型,它根据潜在的主题对非结构化数据进行结构化排列。通过这个模型,我们可以调查媒体健康传播的模式,以及媒体在中国COVID-19危机期间迄今为止所发挥的作用。


数据收集

我们收集了2020年1月1日至2020年2月20日与COVID-19有关的中文新闻和文章。然后,我们应用潜狄利克雷分配(LDA)建模方法从这些新闻报道中获得有用的信息。

中文新闻及相关文章数据来自WiseSearch数据库[6].WiseSearch数据库是中国最著名的、不断增长的媒体内容数据库之一,包含1500多家纸媒和10000多家网络媒体的新闻和文章数据。与其他数据库相比,它以其可重复性、及时性、覆盖面大、数据完整性高而闻名[7].WiseSearch数据库内的新闻及文章数据会及时更新[6].

为了深入了解与冠状病毒相关的早期健康信息传播,我们在WiseSearch数据库中使用关键字“冠状病毒”进行了搜索。

LDA是一种生成概率主题建模方法,广泛应用于文本挖掘[8]、医学[910],以及社会网络分析[11]因为它能出色地将图像中传达有关图像或像素交替的特定信息的一小部分视觉文字转换为图像和视觉文字文档[12-14].它是一个带有三级层次贝叶斯模型的生成统计模型。该模型的基本假设是将属于不同主题的单词组合在一起[15].LDA表示一篇文章中可能有各种主题,而该文章中的措辞可归因于其中一个主题。我们可以利用吉布斯抽样技术在数据池中发现主题[16].

处理

通过关键词“冠状病毒”搜索,在2020年1月1日至2020年2月20日期间共发现了11220篇文章。在清理数据后,还剩下7791篇文章。

在应用LDA建模之前,我们使用Python (Python Software Foundation)进行数据清理,并使用Python包Jieba进行数据处理[1718].详细的数据处理说明在图1.接下来,我们删除了常见的中文停顿字符,如“ten”、“a”、“of”和“it”。我们删除了重复的新闻报道。然后我们手动排除了其他冠状病毒的新闻报道,如严重急性呼吸综合征相关冠状病毒或中东呼吸综合征相关冠状病毒。我们还建立了一个文档-术语矩阵,并使用术语频率-逆文档频率(TF-IDF)对数据进行处理。TF-IDF是一个数字统计,用于反映语料库中一个词对一篇文章的重要性[19].

图1。数据处理流程图。LDA:潜狄利克雷分配;TF-IDF:术语频率逆文档频率。
查看此图

为了寻找一个合适的LDA主题号和解释来调查COVID-19危机与新闻报道之间的关系,我们进行了多项研究。我们使用一致性评分来评估适当数量的主题的选择[20.].主题一致性是通过测量主题中得分较高的词之间的语义相似度来衡量单个主题的一致性,有助于提高对主题的语义理解。即通过词的共现关系将词表示为向量,语义相似度为词向量之间的余弦相似度。相干性是这些相似性的算术平均值[21].我们使用Gensim (RARE Technologies Ltd)的Coherence Model(用于自然语言处理的Python包)来计算Coherence值[22].根据图2,随着话题数增加到20个,连贯得分逐渐上升,达到一个稳定的分数,当话题数增加到25个时,连贯得分开始下降。然而,我们发现,如果只采用统计方法,结果对人类来说是无法解释的。23].因此,我们结合统计测量和人工解释,选择20个主题进行分析,借助Python 3.6.1版本和LDAvis工具[15].设λ=1,设置20个主题及其关键词。根据主题对应的关键词生成主题名称,对主题进行阐述。

图2。主题编号的连贯性得分。
查看此图

我们还将这些主题划分为不同的主题,以便更好地研究它们。在可视化中,这是二维平面(图3而且4), 20个主题以周期表示。这些圆重叠,它们的中心由计算出的主题距离确定[15].通过这种方法,这20个主题被分为9个主要的主要主题,并显示在表1文本框1显示每个主题的说明性引用。

图3。专题间距离图。PC:主成分。
查看此图
图4。主题1最相关的前30个术语(占代币的7.18%)。
查看此图
表1。主题分类和关键词。
主题、主题和关键字 新闻报道(N=7791), N (%)一个
主题一:确诊病例 747 (9.58)

  • 主题5
  • 关键词:病例、确诊、患者、肺炎、新型冠状病毒、感染
444 (5.69)

  • 主题17
  • 关键词:新型冠状病毒肺炎感染
303 (3.88)
主题2:医疗用品 436 (5.59)

  • 议题7:医疗用品
  • 关键词:口罩、消毒、防护、接触、症状
436 (5.59)
主题3:医疗与研究 1253 (16.08)

  • 议题16:病毒调查与药物研究
  • 关键词:检测、研究、实验室、治疗、冠状病毒、药物
327 (4.19)

  • 主题4:流行病学研究
  • 关键词:病毒,感染,传播
498 (6.39)

  • 议题8:医疗机构和员工
  • 关键词:医院,患者,医护人员,武汉,医疗队
428 (5.49)
主题4:预防和控制程序 2538 (32.57)

  • 议题一:疫情防控进展
  • 关键词:防控、工作、会议、疫情、抗击疫情、会议
560 (7.18)

  • 议题六:社区防控工作
  • 关键词:人员、防控、社区、疫情、隔离
436 (5.59)

  • 议题10:防控策略
  • 关键词:防控、工作规程、部门、疫情、依法措施、检疫
374 (4.80)

  • 议题三:防控措施
  • 关键词:防控、措施、疫情
506 (6.49)

  • 议题19:公司抗击疫情
  • 关键词:疫情、公司、防控、冠状病毒、肺炎、影响、抗击、员工
288 (3.69)

  • 议题九:行业和部门的防控方法
  • 关键词:企业、疫情、服务、防控、保障、支持、制造
374 (4.80)
主题五:武汉的故事 522 (6.70)

  • 话题二:武汉的故事
  • 关键词:武汉,工作,春节,一线,家人,一起

主题6:心理健康 342 (4.38)

  • 议题14:心理健康
  • 关键词:疫情、信息、心理、社会、疫情、平台、人民、全国、疫情防控

主题7:全球/地方社会/经济影响 919 (11.79)

  • 议题20:中华人民共和国对中国大陆和特别行政区的影响
  • 关键词:香港、大陆、台湾、澳门、肺炎、疫情、政府、影响
288 (3.69)

  • 议题18:春节期间的影响
  • 关键词:取消、活动、酒店、游客、春节、旅游、公告、记者、武汉
296 (3.79)

  • 议题15:国家和国际反应
  • 关键词:中国、国际、应对、采取措施、疫情
335 (4.29)
主题八:物资供应与社会支持 692 (8.88)

  • 议题13:物资供应和捐赠
  • 关键词:物资、捐赠、口罩、武汉、抗疫、医疗、防控、湖北
342 (4.38)

  • 议题11:掩模供应
  • 关键词:口罩、生产、企业、供应、价格、制造、市场
350 (4.49)
主题9:公共交通检测 342 (4.38)

  • 主题12:公共交通检测
  • 关键词:乘客,武汉,体温,检测,机场,车辆

一个由于导出结果时自动舍入,总百分比不是100%。

每个主题的进一步描述。

主题1

冠状病毒病确诊病例

主题2

疫情初期医用口罩、防护服、护目镜短缺等医疗物资供应情况

主题3

有关该病的最新治疗和研究,如指定的医院、医务人员、传播途径、药物等

主题4

不同方面的预防和控制程序

主题5

来自武汉个人的故事,如抗击疫情的一线工作人员和危机期间个人的生活

主题6

医务人员和国家公民的心理健康

主题7

冠状病毒病对中国及其他地区和国家的影响,以及对经济和社会的影响

主题8

中国社会的合作提供物质支持

主题9

公共交通检测的政策与应用

文本框1。每个主题的进一步描述。

图3显示主题模型的设计,其中20个不同的主题被绘制为圆圈。圆圈的面积表示总体的流行程度,圆圈的中心是通过计算话题之间的距离确定的。主题间距离在二维平面上显示[24通过多维缩放。主成分pc1表示横轴,PC2表示纵轴。

图4,我们显示了主题1的前30个最相关的术语,作为一个例子,它在所有主题中所占的比例最高。我们选择主题1,系统将相对于整个语料库的词频分布可视化。每个柱状图显示了给定术语的总体频率和主题1中估计的频率。在话题1中,新闻报道主要谈到了防控工作部署,其中提到最多的是防控、疫情工作和疫情。这样,我们就可以研究这个主题的内容,并给出这个主题的名称。这种方法在文献[25].

图5、5b、5c、5d为5a的局部放大。2020年1月1日至2020年1月16日的每日确诊病例和死亡病例数据,提取自2020年3月26日发表的传播动力学研究数据[26].图5显示,在2020年1月9日报道了新的死亡病例后,相关新闻的数量略有增加。1月24日至25日也略有下降,因为这两天是中国的除夕和春节,而且中国政府决定封锁湖北省的13个城市,同时在2020年1月31日关闭了交通系统。2020年1月20日至23日期间,相关新闻大幅增加,每天新增病例数百例。我们还发现,2020年1月1日至2日,国家卫生健康委发布《不同危险等级人群防护指南》和《口罩使用预防指南》后,新冠肺炎疫情出现短暂性大幅下降[27].2020年1月4日,随着每日新增病例减少,每日新闻报道数量开始下降。2020年2月12日和13日病例数的增加是由于更新了COVID-19方案(第五版)中的诊断标准[28].

图5。每日确诊病例和死亡病例的新闻流时间序列。
查看此图

表1显示我们收集的新闻报道的主题百分比分配。根据我们的分析,主题4(预防和控制程序)是最受欢迎的主题。主题3(医疗和研究)在相关新闻中所占比例不到六分之一。主题7(全球/地方社会/经济影响)在所有关于冠状病毒的新闻报道中占比不到八分之一。其他6个主题占新闻报道的比例都不到10%。

表2其中,中国新闻社是最多产的媒体来源,其次是《证券时报》和《中国证券报》。地方和全国性报纸都参与报道了最近的最新情况。

表2。收集的新闻报道中最具代表性的媒体来源(N=7791)。
媒体 新闻报道,n (%)
中国新闻社 1155 (14.82)
证券时报 176 (2.26)
中国证券报 159 (2.04)
甘肃日报 121 (1.55)
长沙晚报 102 (1.31)
青海日报(数字报纸) 100 (1.28)
深圳特区报 97 (1.25)
大连日报(数字报纸) 95 (1.22)
右江日报 87 (1.12)
内蒙古日报(中文版) 82 (1.05)

我们收集的新闻报道中提到了各种组织和公司,如图所示表3.武汉大学和湟中科技大学是被提及最多的两所大学,其次是浙江大学。高校附属医院、校友会积极参与抗疫工作。

表3。新闻报道中提到的组织和公司(N=7791)。
机构或公司 新闻文章,n (%)
武汉大学 102 (1.31)
华中科技大学 66 (0.85)
浙江大学 65 (0.83)
养老金和薪酬福利 35 (0.45)
北京大学 28日(0.36)
武汉天河国际机场 28日(0.36)
兰州大学 22日(0.28)
中国建设银行 21日(0.27)
南昌大学 17 (0.22)
中国工商银行 17 (0.22)

主要研究结果

新冠肺炎疫情在中国和世界范围内引起了广泛关注。主题建模为调查媒体报道与COVID-19疫情之间的关系提供了另一种视角。我们收集媒体报道,列出每天的报道数量(见多媒体附件1),并利用主题建模对其进行分析。虽然在2019年12月发现了几例COVID-19病例,但我们观察到关于他们的新闻报道很少,这表明当时媒体没有关注这一疾病。随着疫情的加剧和肺炎确诊病例的增加,新闻报道数量开始稳步增加,并于2020年1月19日迅速增加。一般来说,根据其他传染病爆发期间的确诊病例,新闻趋势有高峰也有低谷;然而,在某些情况下,大众传媒无法及时捕捉疫情,因此未能成为主要指标[29].这是因为记者在最终发表新闻之前,需要选择选题、调查情况、收集数据、验证材料的真实性,这需要时间和严谨的努力;结果,出现了延迟。大众媒体的新闻报道滞后于冠状病毒的实时发展,表明媒体在公共卫生传播和宣传中没有充分发挥预警功能。

2020年1月19日之后,相关新闻快速增加,表明大众媒体开始对疫情进行更多关注。然而,由于这种病毒是一种新病毒,对它的研究还不够,大众媒体可能会传播错误的信息,这可能会导致公众产生恐惧、愤怒或悲伤等负面心理影响[30.].此外,过多的报道会导致大众传播疲劳,从而降低媒体的效果。31].因此,政府和大众媒体应该制定出合适的新闻主题和每日新闻数量,让公众对疫情保持警惕,减少有害的精神压力。媒体也有义务确保报道的准确性。

大众传媒所关注的话题可以分为九类。主题4(预防和控制程序)和主题3(医疗和研究)是两个主要主题,共占内容的一半左右。在疾病爆发期间,政府利用大众媒体与市民沟通非常重要[32];因此,在这些报告中,重点强调了政府重要部门、医疗机构的管理,以及社区的控制方法。通过积极的公共卫生干预,传播积极乐观的预测,消除公众不必要的担忧和极端恐慌,树立短期内遏制疫情、取得胜利的信心。

控制传染源、阻断传播途径、保护易感人群是预防和控制传染病的三大原则。为了应对新冠肺炎危机,中国政府根据这三个原则采取了措施。公共交通网络内发现病毒感染引起了公众的极大关注,因为疫情爆发正值春节,许多人都在旅行。主题4(预防和控制程序)中关于这方面的新闻报道很少,这表明大众媒体可能没有提供足够的关于交通网络内检测的卫生信息。

医疗和研究的规模是第二大热门话题。我们的研究结果表明,大众媒体通过关注可疑病例的发现、可能治愈患者的药物以及病毒的传播途径来传递这类健康信息。但主题4(防控程序)和主题3(医疗与研究)的报告主要集中在整个社会,而关于个人预防和临床及药物选择的说明较少提及。

还报告了对活动(国内外)的影响和经济影响,经济影响被列入主题7(全球/地方社会/经济影响)。这些数据表明,新冠肺炎危机的影响不仅局限于医疗领域,还延伸到社会和经济领域。这也是一个世界性的健康问题,需要全世界人民密切合作。

9.58% (n=747/7791)的文章出现了“确诊病例”一词。这表明大众媒体发挥了公共卫生功能,因为新闻报道中的病例数及其变化率可以直接让公众直观地感受到病毒传播的速度、势头和危险。它还可以帮助公民对病毒传播保持警惕,从而相应地改变他们的日常习惯。

主题2(医疗用品)和主题8(物资供应和社会支持)将物资供应与COVID-19危机联系起来。由于疫情爆发如此突然,传播如此迅速,受影响地区的人们需要医疗物资和其他必需品,特别是在中国政府关闭湖北主要入口以控制疫情之后。大众媒体可以与中国其他地方进行沟通,呼吁捐款和支持。

重点是武汉的故事,新闻故事关注的是个人的生活,而不是整个城市。我们还观察到主题6(心理健康)占所有新闻文章的4.38%(342/7791)。以前的研究表明,在医院工作的医务人员[33]和被隔离的居民[34]在以前其他疾病爆发期间因此,这些类型的新闻报道可以帮助读者重新关注这个容易被忽视的领域,从而可以进行早期干预。这两个主题表明,大众媒体在报道新冠疫情危机时采取了以人为本的原则,为温暖社会现象做出了贡献。

限制

这项研究是了解中国大众媒体在新冠肺炎危机中的作用的第一步。然而,我们的研究还存在一些局限性。首先,我们从WiseSearch大众媒体数据库中收录了大量关于COVID-19的中文新闻文章,该数据库仅涵盖文本新闻文章。然而,大众媒体最近使用抖音(视频社交媒体)和微信(中国最大的即时通讯应用程序)等新媒体平台,通过图像、快照和短视频传递健康信息。因此,在这些媒体平台中,我们可能忽略了新闻内容和大众媒体的影响。其次,我们只选择了疫情爆发的某个时期。大流行仍在继续,话题和主题正在发生变化;因此,我们可能会错过一些新颖的话题和主题。第三,LDA模型有其自身的局限性,如定性专题分析缺乏细微差别,在短文章上表现不佳。一些相关研究引入情感分析来研究信息内容中的情感差异[35];如果我们也能运用情绪分析来监督新闻,调查公众对新冠肺炎相关新闻的反应,那将是很有价值的。

结论

收集和分析有关新型冠状病毒的报道,有助于了解中国媒体在COVID-19危机期间如何传递健康信息。我们的研究提供了证据,表明中国大众媒体新闻在报道病毒传播的重大进展时滞后。防控程序、医疗和研究是新闻报道的主要主题,但主要关注全社会,而在个人和个人预防、临床和药物选择、检测方面的指导有待进一步加强。COVID-19危机开始对全球公共卫生造成压力,并敦促全人类开展合作,报告了全球和地方影响。通过对新闻数据的情感分析,以及通过大众媒体传递的新冠肺炎错误信息的影响,探索大众媒体对读者的影响,可以考虑进一步研究。

致谢

本文由国家社会科学基金资助(18CXW021)。

作者的贡献

QL和W-KM构想了最初的想法,并设计了整个研究过程。QL、GL和QC收集和清理数据。QL和W-KM进行了数据分析和数据解读,并撰写了第一版手稿。QL、JZ和ZZ制作了数字。SC、BC、HZ、JH、CZ和BA对项目的管理、数据分析和数据解释做出了贡献。ZZ和JZ都对最终版本的手稿做出了贡献。BA和W-KM审阅了手稿。所有作者都对结果和最终手稿的解释做出了贡献。所有作者讨论并同意研究结果的含义,并批准发表最终版本。

利益冲突

没有宣布。

多媒体附件1

Timeseries新闻流。

DOCX文件,17kb

  1. 国际病毒分类学委员会冠状病毒研究小组。与严重急性呼吸综合征相关的冠状病毒种类:将2019-nCoV分类并命名为SARS-CoV-2。中国微生物学杂志2020年4月;5(4):536-544。[CrossRef] [Medline
  2. 世界卫生组织。冠状病毒病(COVID-19)爆发网址:https://www.who.int/emergencies/diseases/novel-coronavirus-2019
  3. 中华人民共和国国家卫生健康委员会,2020。2月29日疫情防控最新进展http://www.nhc.gov.cn/xcs/yqtb/202003/9d462194284840ad96ce75eb8e4c8039.shtml
  4. 世界卫生组织2020年2月13日。2019冠状病毒病(COVID-19)疫情报告- 24网址:https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200213-sitrep-24-covid-19.pdf?sfvrsn=9a7406a4_4
  5. 明伟凯,黄娟,张昌平。医疗体系的分解:控制武汉新型冠状病毒(2019-nCoV)爆发的数学建模。bioRxiv 2020年1月30日:[CrossRef
  6. WiseSearch。URL:http://wisenews.wisers.net.cn
  7. 罗军。WiseSearch数据库及其实际应用。农业图书情报学报2016;28(7):19-23。
  8. hasanpour S, Langlotz CP.大型免费文本放射报告存储库中的无监督主题建模。J Digit Imaging 2016 Feb;29(1):59-62 [免费全文] [CrossRef] [Medline
  9. 在精神分裂症试验中纵向和退出数据同时建模的潜在变量方法。欧洲神经精神药理学杂志2013年11月23日(11):1570-1576。[CrossRef] [Medline
  10. Kandula S, Curtis D, Hill B,曾- treitler Q.使用主题建模推荐相关教育材料给糖尿病患者。AMIA年度诉讼程序2011;2011:674-682 [免费全文] [Medline
  11. 李安,黄霞,郝B, O’dea B, Christensen H,朱涛。社交媒体上自杀倾向传播的态度:中国微博的探索性研究。PeerJ 2015; 3: e1209。[CrossRef] [Medline
  12. 李志强,李志强,李志强,等。主题的变体:自然驾驶数据的主题建模。Proc Hum Factors Ergon Soc Annu Meet 2014年9月;58(1):2107-2111 [免费全文] [CrossRef] [Medline
  13. 赵伟,陈俊杰,Perkins R,刘震,葛伟,丁勇,等。主题建模中确定适当数量的启发式方法。BMC Bioinformatics 2015年12月1日;16(S13):e。[CrossRef
  14. 郑勇,张勇。多模态数据主题建模的深度自回归方法。IEEE Trans Pattern Anal Mach Intell 2016年6月1日;38(6):1056-1069。[CrossRef
  15. 布利DM,吴艾,Jordan MI。潜狄利克雷分配。机器学习研究2003年1月;3:993-1022。
  16. He BD, De Sa CM, Mitliagkas I, Ré C.吉布斯抽样中的扫描顺序:在哪个模型中,它的重要性和界限是多少。在:神经信息处理系统的进展。圣地亚哥,加州:NIPS程序;2016.
  17. Day MY, Lee CC.深度学习对财经新闻提供者的财经情绪分析。IEEE 2016。[CrossRef
  18. 赵伟,罗旭,奎涛。智能医疗的最新进展。瑞士巴塞尔:MDPI;2018.
  19. 李志强,李志强。海量数据集挖掘方法研究。英国剑桥:剑桥大学出版社;2011.
  20. Stevens K, Kegelmeyer P, Andrzejewski D, Buttler D.探讨多模型和多主题的主题一致性。2012年发表于:2012自然语言处理和计算自然语言学习的经验方法联合会议;2012;济州岛,韩国。
  21. Röder M, Both A, Hinneburg A.探索主题连贯测量的空间。2015年2月发表于:第八届ACM网络搜索与数据挖掘国际会议;2015;上海,中国。[CrossRef
  22. Gensim。模型。coherencemodel -主题一致性管道https://radimrehurek.com/gensim/models/coherencemodel.html
  23. 格里默J,斯图尔特BM。作为数据的文本:政治文本自动内容分析方法的前景与缺陷。Polit anal 2017 Jan 04;21(3):267-297。[CrossRef
  24. 张建平,张晓明,张晓明。基于模型驱动的文本分析可视化研究。:美国计算机协会;2012年应邀参加SIGCHI计算机系统人为因素会议;2012;奥斯汀,德克萨斯州。[CrossRef
  25. 张志刚,张志刚,张志刚。文本主题模型的可视化评估方法。2012年发表于:先进视觉界面国际工作会议;2012;意大利卡普里岛。[CrossRef
  26. 李强,关旭,吴鹏,王旭,周林,童勇,等。新型冠状病毒感染的肺炎在中国武汉的早期传播动态英国医学杂志2020年3月26日;382(13):1199-1207。[CrossRef
  27. 中华人民共和国国家卫生健康委员会,2020。不同风险等级人群防护指南及口罩使用预防指南通报网址:http://www.nhc.gov.cn/xcs/zhengcwj/202001/a3a261dabfcf4c3fa365d4eb07ddab34.shtml
  28. 中华人民共和国国家卫生健康委员会。新型冠状病毒肺炎治疗方案(第五版)网址:http://www.nhc.gov.cn/yzygj/s7653p/202002/d4b895337e19445f8d728fcaf1e3e13a.shtml[2020-03-11]访问
  29. 高希S, Chakraborty P, Nsoesie EO, Cohn E, Mekaru SR, Brownstein JS,等。时间主题建模用于评估新闻趋势与传染病爆发之间的关联。科学通报2017年1月19日;7(1):40841。[CrossRef] [Medline
  30. 王勇,McKee M, Torbica A, Stuckler D.健康相关虚假信息在社交媒体上传播的系统文献综述。2019年11月;240:112552。[CrossRef] [Medline
  31. 柯林森,K汗,赫弗南,JM。媒体报道对疾病传播和重要公共卫生措施的影响。科学通报,2015;10(11):e0141423。[CrossRef] [Medline
  32. 王松,王斌,彭超,宋超,张宏,孙东,等。公众对SARS与突发公共卫生事件的认知[j]。中华刘星医学杂志2006 6;27(6):503-507。[Medline
  33. 钟敏,王伟,谢伟,李超,赵宁,叶伟,等。严重急性呼吸综合征对三级医院医务人员的心理影响中华精神病学杂志2004年8月;185:127-133。[CrossRef] [Medline
  34. 郑浩,林宏伟,宋勇,基敏,闵杰,赵杰,等。因中东呼吸综合征被隔离者的心理健康状况。2016;38:e2016048。[CrossRef] [Medline
  35. Kim EH, Jeong YK, Kim Y, Kang KY, Song M.基于话题的埃博拉病毒在Twitter和新闻中的内容和情绪分析。信息科学学报2016年7月11日;42(6):763-781。[CrossRef


COVID-19:冠状病毒病
LDA:潜在狄利克雷分配
NHC:国家卫生健康委员会
PC:主成分
TF-IDF:术语频率-逆文档频率


G·艾森巴赫(G Eysenbach)编辑;提交04.04.20;同行评审:MA Bahrami, V Osadchiy, M Lamba, X Shi;对作者09.04.20的评论;订正版本收到15.04.20;接受16.04.20;发表28.04.20

版权

©刘倩,郑泽泉,郑家彬,陈秋义,刘关,陈思翰,褚伯嘉,朱红玉,巴巴通德·阿金武米,黄健,Casper J P Zhang,明伟杰。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2020年4月28日。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map