卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

霁gydF4y2Ba

JMIR InfodemiologygydF4y2Ba

2564 - 1891gydF4y2Ba

卡塔尔世界杯8强波胆分析

加拿大多伦多gydF4y2Ba

v2i2e38839gydF4y2Ba

36193330gydF4y2Ba

10.2196/38839gydF4y2Ba

原始论文gydF4y2Ba

新闻文章可靠性的数据挖掘与分类:深度学习研究gydF4y2Ba

麦基gydF4y2Ba

蒂姆gydF4y2Ba

CerongydF4y2Ba

威尔逊gydF4y2Ba

曹gydF4y2Ba

Shu-FenggydF4y2Ba

詹gydF4y2Ba

凯文gydF4y2Ba

1gydF4y2Ba

https://orcid.org/0000-0003-4802-2535gydF4y2Ba

李gydF4y2Ba

宇通gydF4y2Ba

二元同步通信gydF4y2Ba 1gydF4y2Ba

精神科gydF4y2Ba 阿尔伯塔大学gydF4y2Ba

4-142卡茨集团药学和健康研究中心gydF4y2Ba

87大道和114街gydF4y2Ba

埃德蒙顿，AB, t6g2e1gydF4y2Ba

加拿大gydF4y2Ba 1 403 926 6628gydF4y2Ba yutong5@ualberta.cagydF4y2Ba

https://orcid.org/0000-0002-9370-3455gydF4y2Ba

他gydF4y2Ba

RafaygydF4y2Ba

2gydF4y2Ba

https://orcid.org/0000-0002-4177-0453gydF4y2Ba

王gydF4y2Ba

小雨gydF4y2Ba

3.gydF4y2Ba

https://orcid.org/0000-0002-1203-7711gydF4y2Ba

曹gydF4y2Ba

薄gydF4y2Ba

博士学位gydF4y2Ba 1gydF4y2Ba

https://orcid.org/0000-0001-9338-3271gydF4y2Ba

1gydF4y2Ba 精神科gydF4y2Ba 阿尔伯塔大学gydF4y2Ba

埃德蒙顿ABgydF4y2Ba

加拿大gydF4y2Ba 2gydF4y2Ba 细胞生物学系gydF4y2Ba 阿尔伯塔大学gydF4y2Ba

埃德蒙顿ABgydF4y2Ba

加拿大gydF4y2Ba 3.gydF4y2Ba 计算机科学系gydF4y2Ba 阿尔伯塔大学gydF4y2Ba

埃德蒙顿ABgydF4y2Ba

加拿大gydF4y2Ba

通讯作者:李宇桐gydF4y2Ba yutong5@ualberta.cagydF4y2Ba

Jul-DecgydF4y2Ba 2022gydF4y2Ba

22gydF4y2Ba 9gydF4y2Ba 2022gydF4y2Ba

2gydF4y2Ba 2gydF4y2Ba

e38839gydF4y2Ba

19gydF4y2Ba 4gydF4y2Ba 2022gydF4y2Ba 9gydF4y2Ba 6gydF4y2Ba 2022gydF4y2Ba 25gydF4y2Ba 8gydF4y2Ba 2022gydF4y2Ba 10gydF4y2Ba 9gydF4y2Ba 2022gydF4y2Ba

©詹凯文，李宇桐，Rafay Osmani，王小雨，曹博。最初发表于JMIR信息流行病学(https://infodemiology.www.mybigtv.com)， 2022年9月22日。gydF4y2Ba

2022gydF4y2Ba

这是一篇基于知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首先发表在JMIR infoepidemiology上，并适当引用。必须包括完整的书目信息，到https://infodemiology.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。gydF4y2Ba

背景gydF4y2Ba

在2019冠状病毒病大流行期间，我们每天都接触到大量信息。世界卫生组织将这种“信息流行病”定义为在大流行期间大规模传播误导性或虚假信息。在信息大流行期间，这种错误信息的传播最终导致对公共卫生秩序的误解或对公共政策的直接反对。虽然一直在努力打击错误信息的传播，但目前的人工事实核查方法不足以打击信息泛滥。gydF4y2Ba

客观的gydF4y2Ba

我们建议使用自然语言处理(NLP)和机器学习(ML)技术来构建一个模型，该模型可用于在线识别不可靠的新闻文章。gydF4y2Ba

方法gydF4y2Ba

首先，我们对ReCOVery数据集进行预处理，获得2020年1 - 5月2029篇带有COVID-19关键字标签的英文新闻，并将其标记为可靠或不可靠。进行数据探索，以确定可靠和不可靠文章之间的主要差异。我们使用正文以及情感、移情衍生的词汇类别和可读性等特征构建了一个集成深度学习模型，对可靠性进行分类。gydF4y2Ba

结果gydF4y2Ba

我们发现，可靠的新闻文章有更高比例的中性情绪，而不可靠的文章有更高比例的负面情绪。此外，我们的分析表明，除了具有不同的词汇类别和关键词外，可靠的文章比不可靠的文章更容易阅读。我们的新模型评估达到以下性能指标:曲线下面积(AUC) 0.906，特异性0.835，敏感性0.945。这些值高于原始恢复模型的基线性能。gydF4y2Ba

结论gydF4y2Ba

本文确定了可靠和不可靠新闻文章之间的新差异;此外，该模型使用最先进的深度学习技术进行训练。我们的目标是能够利用我们的发现来帮助研究人员和公众更容易地识别日常生活中的虚假信息和不可靠的媒体。gydF4y2Ba

新型冠状病毒肺炎gydF4y2Ba 深度学习gydF4y2Ba 新闻文章可靠性gydF4y2Ba 虚假信息gydF4y2Ba infodemicgydF4y2Ba 整体模型gydF4y2Ba

介绍gydF4y2Ba

COVID-19大流行的爆发给世界带来了更多的战斗。在“信息大流行”期间，世界面临着铺天盖地的虚假信息，“信息大流行”的定义是在大流行期间传播大量信息，其中包括误导性或虚假信息[gydF4y2Ba 1gydF4y2Ba，gydF4y2Ba 2gydF4y2Ba]。由于隔离和限制增加，信息通过社交媒体和新闻来源向公众传播;因此，虚假信息传播的规模更大，速度更快。尽管有现有的公共卫生指南，但网上仍然存在大量虚假和误导性信息，约占Twitter等主要社交媒体网站文章的20% [gydF4y2Ba 3.gydF4y2Ba]。虽然共享虚假信息的比例低于循证指南，但虚假信息由于含有煽动性信息，传播速度更快[gydF4y2Ba 4gydF4y2Ba，gydF4y2Ba 5gydF4y2Ba]。此外，信息管理是维护公众对科学指导信任的一个重要方面[gydF4y2Ba 1gydF4y2Ba]。因此，我们需要构建方法来阻止虚假信息在网上的传播，并识别虚假新闻的潜在来源。gydF4y2Ba

网上大量的虚假或虚假新闻可能是错误信息或虚假信息的实例，而且内容往往缺乏可靠性和可信度[gydF4y2Ba 6gydF4y2Ba-gydF4y2Ba 8gydF4y2Ba]。Disinformation的定义是故意传播虚假信息，misinformation的定义是疏忽分享虚假信息[gydF4y2Ba 6gydF4y2Ba]。此后，我们将不再区分虚假信息和错误信息，因为我们将它们统称为虚假信息。虚假新闻可分为6类:宣传、广告、操纵、讽刺、恶搞和捏造[gydF4y2Ba 6gydF4y2Ba]。虽然新闻机构和社交媒体公司已经采取了标记和删除虚假新闻的措施，但人工检测虚假新闻的速度还不足以与其通过社交媒体的快速传播相竞争[gydF4y2Ba 9gydF4y2Ba，gydF4y2Ba 10gydF4y2Ba]。大约62%的美国成年人从社交媒体网站获取新闻;因此，更快的事实核查对于确保减少虚假信息的传播至关重要[gydF4y2Ba 11gydF4y2Ba]。因此，虚假新闻的传播造成了公众的困惑，这可能与反口罩和疫苗的言论有关[gydF4y2Ba 10gydF4y2Ba]。目前，在线检测虚假新闻的最常见方法之一是通过人工策划的事实核查网站，如Snopes，来标记虚假信息[gydF4y2Ba 12gydF4y2Ba]。虽然这种方法可能是准确的，但由于COVID-19大流行期间产生了大量的假新闻，因此效率低下[gydF4y2Ba 10gydF4y2Ba]。因此，需要对新闻文章的可靠性进行自动检测。gydF4y2Ba

目前在社交媒体上使用机器学习(ML)进行虚假新闻检测已经得到了广泛的研究。新闻页面的各种文本特征被用来预测文章的可靠性。利用多种特征来预测虚假信息的存在是当前虚假信息检测研究的一个共同主题。使用多个特征可以提高机器学习模型的性能。例如，Reis等[gydF4y2Ba 13gydF4y2Ba使用文本特征(例如，语义和词汇特征)和新闻来源特征(例如，新闻机构的可信度)作为ML模型的输入。使用传统的分类器，如随机森林和极端梯度增强(XGBoost)，分别实现了0.85和0.86的曲线下面积(AUC)的性能[gydF4y2Ba 13gydF4y2Ba]。Elhadad等人[gydF4y2Ba 14gydF4y2Ba]除了特征工程之外，还使用了投票集成方法来进行情感和词性标记。Singhania等[gydF4y2Ba 15gydF4y2Ba]用一篇新闻文章的单词、句子和标题级别的输入创建了一个3级的HAN模型。类似的研究也提出了其他词汇特征，如n-gram，术语频率-逆文档频率(TF-IDF)和概率上下文无关语法(PCFG)也被用作使用深度学习进行错误信息预测的特征[gydF4y2Ba 16gydF4y2Ba]。相应地，特征工程提供了更高的性能指标以及改进的可解释性。这些特征使模型能够专注于重要元素，从而可以进行可靠性预测，特别是在新闻文章中，尽管样本之间存在高度异质性和噪声。为了建立在其他虚假信息研究发现的基础上，并确定有助于虚假信息检测的重要新因素，我们使用ReCOVery数据集创建了最终的集成模型[gydF4y2Ba 17gydF4y2Ba]。gydF4y2Ba

采用集成方法进一步提高新闻文章中错误信息的检测性能。集成模型的使用可以提高模型泛化到未训练过的数据的能力，从而有利于模型的性能[gydF4y2Ba 18gydF4y2Ba]。Kumar等[gydF4y2Ba 19gydF4y2Ba研究表明，在使用集成模型后，性能得到了改善，其中使用卷积神经网络(CNN)和双向长短期记忆(BiLSTM)的集成深度学习模型能够获得比单独使用CNN或长短期记忆(LSTM)模型更高的性能，准确率为88.78%，而CNN和LSTM分别为73.29%和80.62%。由于新闻文章的大小，我们选择双向门控循环单元(BiGRU)作为集成中的第一个模型[gydF4y2Ba 20.gydF4y2Ba]。该模型是一种循环神经网络(RNN)，可以很好地处理顺序文本数据。BiGRU解决了梯度消失问题，即模型对长新闻文章进行训练，并“忘记”文章开头的信息。这个模型由许多神经元或细胞组成，每个神经元或细胞都有一个更新门来控制在每个单词上添加什么新信息，一个重置门来控制保留多少旧信息。BiGRU的双向特性允许它从文章的开头和结尾处理每个样本。与其他最先进的自然语言处理(NLP)模型(如LSTM)相比，门控循环单元(GRU)具有更低的参数，使其更快地训练和使用[gydF4y2Ba 21gydF4y2Ba，gydF4y2Ba 22gydF4y2Ba]。由于每天都会发布大量新闻文章，因此更快的模式非常重要;因此，为了跟上新文章的数量，虚假信息检测模型需要既准确又快速。XGBoost是集成模型中包含的另一个模型。XGboost的一个优点是它从表格数据中学习的特殊能力[gydF4y2Ba 23gydF4y2Ba，gydF4y2Ba 24gydF4y2Ba]。作为一种梯度增强的树模型，它比神经网络更快，并且在特征提取后的第一个模型的低维输出上效果更好。此外，XGBoost已被证明在表格数据方面优于深度学习模型，因为超参数搜索更短[gydF4y2Ba 24gydF4y2Ba]。此外，与集成模型中的多个深度学习模型或经典ML模型的集成模型相比，XGBoost与深度学习模型相结合的结果更好[gydF4y2Ba 24gydF4y2Ba]。gydF4y2Ba

本研究旨在通过一个集成深度学习模型，利用ReCOVery数据集对新闻文章的可靠性进行分类，为多方面的虚假信息问题提供一个潜在的解决方案。我们假设新闻文章中的情感、可读性、词汇类别和其他文本特征可以一起作为新闻可靠性分类改进的输入。我们还探讨了可靠信息和不可靠信息在情绪或语气上的差异，这可以用来对文本的可靠性进行分类。我们的研究结果可以促进新闻可靠性分类，帮助研究者和公众在日常生活中识别不可靠的新闻文章。gydF4y2Ba

方法gydF4y2Ba 工作流gydF4y2Ba

首先，使用ReCOVery数据集完成数据预处理，包括删除停止词、链接和通用资源定位器(url)以及重复文章(gydF4y2Ba 图1gydF4y2Ba）.在预处理步骤中也完成了缩略语和数字到单词的转换。在对数据进行预处理之后，我们执行特征工程来创建可读性和情感评分，以及从文本中提取词汇类别(gydF4y2Ba 图1gydF4y2Ba）.预处理后的数据分为训练集、验证集和测试集。在训练集和验证集上进行词标记化和嵌入。一旦标记化和嵌入完成，9个不同的ML模型将在验证集上进行训练和评估，以确定性能最佳的模型。我们将朴素贝叶斯(NB)、k近邻(KNNs)和逻辑回归(LR)作为传统的机器学习模型，因为它们不是深度学习模型。表现最好的模型是包含双向GRU和XGBoost集成“新模型”的集成模型，如蓝色突出显示gydF4y2Ba 图1gydF4y2Ba。gydF4y2Ba

图1gydF4y2Ba

数据探索和“新模型”构建的工作流程细节(蓝色突出显示)。CNN:卷积神经网络;BiGRU:双向门控循环单元;BiLSTM:双向长短期记忆;GRU:门控循环单元;KNN: k近邻;LR:逻辑回归;LSTM:长短期记忆;NB:朴素贝叶斯;XGBoost:极端梯度增强。gydF4y2Ba

数据描述gydF4y2Ba

ReCOVery数据集是我们与Twitter帖子相关的新闻文章的主要数据来源[gydF4y2Ba 17gydF4y2Ba]。它侧重于来自广泛新闻来源的新闻文章的可靠性，包含来自不同国家约2000家不同新闻机构(2020年1月至5月过滤)的与COVID-19新闻相关的2029篇文章[gydF4y2Ba 17gydF4y2Ba]。根据NewsGuard的评分，每篇文章要么被标记为不可靠的0，要么被标记为可靠的1。gydF4y2Ba 17gydF4y2Ba]。NewsGuard评分是由记者开发的，用于标记在线文章的可靠性。NewGuard采用0-100分的评分标准，对那些实现可信和透明新闻实践的文章打分。分数在60分以上的文章被标记为“绿色”评级为可靠来源，分数在60分以下的文章被标记为“红色”评级为不可靠来源[gydF4y2Ba 17gydF4y2Ba，gydF4y2Ba 25gydF4y2Ba]。除了NewsGuard评分外，ReCOVery还使用媒体偏见/事实检查，根据文章的主观性检查新闻来源的正确性，并根据事实报道将文章从“非常高”到“非常低”进行排名。gydF4y2Ba 17gydF4y2Ba，gydF4y2Ba 26gydF4y2Ba]。可靠的文章在NewsGuard的得分高于90分，在媒体偏见/事实检查中得分为“非常高”或“高”。不可靠文章的NewsGuard评分低于30分，在媒体偏见/事实核查中被评为“混合”、“低”或“非常低”。gydF4y2Ba 17gydF4y2Ba]。ReCOVery数据集结合了NewsGuard和Media Bias/Fact Check得分来创建最终的新闻文章可靠性得分。gydF4y2Ba

预处理gydF4y2Ba

在进行数据分析之前，对文章文本和tweet数据进行了多次预处理。预处理的目的是清理数据，使深度学习模型能够更有效地检测数据中的模式。对文章文本进行预处理的步骤包括删除重复的文章或推文;常见的停顿词，如“the”和“a”;以及所有链接和非英文字符。除了将首字母缩略词转换为完整术语外，还完成了文章文本的词法编排。gydF4y2Ba

预处理使用Python库，如Pandas和Natural Language Toolkit [gydF4y2Ba 27gydF4y2Ba，gydF4y2Ba 28gydF4y2Ba]。共使用1346篇可靠文章和648篇不可靠文章进行模型训练。另外，有34篇文章因字数不足100字而被删除，限制了信度分析的效度。在预处理之后，从新闻文章中提取文本特征、可读性和情感等特征进行分析，并将其作为深度学习模型的输入。gydF4y2Ba

情绪分析gydF4y2Ba

情感分析应用于可靠文章和不可靠文章的正文。这是通过Valence Aware Dictionary和Sentiment Reasoner (VADER)以及TextBlob实现的，它们是用于确定主导情绪、极性和主观性的开源工具[gydF4y2Ba 29gydF4y2Ba，gydF4y2Ba 30.gydF4y2Ba]。分析依赖于词典分析，将每篇文章的文本特征映射到关于情感、极性和强度的不同分数。在情绪方面，文章的连续得分在0到1之间，包括两个端点，1表示文章包含指定的情绪作为主要情绪。例如，如果一篇文章的积极情绪为1，这意味着这篇文章包含了最高可能的积极情绪。将VADER和TextBlob导入Python，并应用于数据集中文章的主体文本。通过VADER和TextBlob中的库函数确定具有积极，消极和中性情绪的文章的总比例。gydF4y2Ba

文本分析gydF4y2Ba

预处理后，对文章正文进行分析。确定了可靠文章和不可靠文章中最常见的单词。它们以频率条形图的形式呈现，以说明不可靠文章和可靠文章之间的主要区别(gydF4y2Ba 图2gydF4y2Ba和gydF4y2Ba 3.gydF4y2Ba分别)。深度学习模型中包含的另一个功能是报纸文章的文本长度和可读性。文章的长度是用文章句子的字符长度和文章的总长度来评估的。使用6种不同的可读性指标来评估可读性:Flesch-Kincaid等级水平、Gunning fog指数、Coleman-Liau指数、Dale-Chall指数、自动可读性指数(ARI)和Linsear Write指数[gydF4y2Ba 31gydF4y2Ba]。上述可读性指标是根据句子长度和单词长度来确定理解书面文件所需的年级[gydF4y2Ba 32gydF4y2Ba]。gydF4y2Ba

Flesch-Kincaid等级等级是在Flesch-Kincaid阅读轻松指数的基础上修改的一种量表，用于比较每个句子的单词比例和每个单词的音节比例[gydF4y2Ba 33gydF4y2Ba]。这个刻度的值线性地表示文本的估计美国等级水平。例如，10-12的分数表明目标读者处于高中水平，而高于12的分数则表明目标读者处于研究生水平[gydF4y2Ba 33gydF4y2Ba]。同样，Coleman-Liau指数和ARI指数对字词频率的评估，都接近美国阅读文本所需的等级水平[gydF4y2Ba 34gydF4y2Ba]。Gunning fog指数评估文本中难词的出现频率，是0到20之间的线性范围:16-20的分数属于研究生水平[gydF4y2Ba 35gydF4y2Ba]。类似地，戴尔-查尔指数评估的是难词出现的频率，但该指数是按比例计算的，9-10分代表大学研究生水平的文本[gydF4y2Ba 31gydF4y2Ba，gydF4y2Ba 36gydF4y2Ba-gydF4y2Ba 38gydF4y2Ba]。最后，Linsear写作指数是为了评估技术文本的可读性而开发的，它的分数代表了理解文本所需的正规美国教育年限，与之前的指数类似[gydF4y2Ba 39gydF4y2Ba]。gydF4y2Ba

使用基于神经网络的词汇库Empath进行主题分析[gydF4y2Ba 40gydF4y2Ba]。移情能够确定某个句子是否有政治、宗教、满足等词汇类别，以及大约200多个类别[gydF4y2Ba 40gydF4y2Ba]。通过使用Empath处理文本，我们得到了194个词汇类别，这些词汇类别被用作附加特征，在最终的深度学习模型中与之前的文本、情感和可读性特征相连接。从Empath中提取的词汇类别增加了深度学习模型为每篇文章训练的信息量，并允许更好的可解释性，因为主题频率的差异也可以被评估。对于每个词汇类别，得出了可靠和不可靠冠词的平均计数，以及gydF4y2Ba tgydF4y2Ba测试和gydF4y2Ba PgydF4y2Ba值(gydF4y2Ba 表1gydF4y2Ba）.gydF4y2Ba

图2gydF4y2Ba

不可靠新闻文章中关键词出现次数(N=298,498个单词)。gydF4y2Ba

图3gydF4y2Ba

可靠新闻文章中关键词的出现次数(N= 662290 words)。gydF4y2Ba

表1gydF4y2Ba

Empath(一个基于神经网络的主题分析工具)在可靠和不可靠的新闻文章中选择的十大词汇类别。可靠平均数和不可靠平均数是指每个词汇类别分别被分类为可靠和不可靠的新闻文章的平均数。gydF4y2Ba

词汇范畴gydF4y2Ba	tgydF4y2Ba（gydF4y2Ba dfgydF4y2Ba）gydF4y2Ba	PgydF4y2Ba价值gydF4y2Ba	可靠平均值(SD)gydF4y2Ba	不可靠平均值(SD)gydF4y2Ba
魔法gydF4y2Ba	-7.91 (1992)gydF4y2Ba	<措施gydF4y2Ba	0.19 (0.60)gydF4y2Ba	0.51 (1.22)gydF4y2Ba
权力gydF4y2Ba	-7.16 (1992)gydF4y2Ba	<措施gydF4y2Ba	1.28 (2.20)gydF4y2Ba	2.16 (3.24)gydF4y2Ba
业务gydF4y2Ba	7.15 (1992)gydF4y2Ba	<措施gydF4y2Ba	8.58 (10.54)gydF4y2Ba	5.31 (7.10)gydF4y2Ba
工作gydF4y2Ba	6.89 (1992)gydF4y2Ba	<措施gydF4y2Ba	5.78 (8.82)gydF4y2Ba	3.28 (3.89)gydF4y2Ba
满足gydF4y2Ba	6.18 (1992)gydF4y2Ba	<措施gydF4y2Ba	0.70 (1.61)gydF4y2Ba	0.29 (0.72)gydF4y2Ba
办公室gydF4y2Ba	6.14 (1992)gydF4y2Ba	<措施gydF4y2Ba	3.02 (4.37)gydF4y2Ba	1.88 (2.60)gydF4y2Ba
争端gydF4y2Ba	-6.11 (1992)gydF4y2Ba	<措施gydF4y2Ba	1.58 (2.48)gydF4y2Ba	2.35 (2.94)gydF4y2Ba
早....gydF4y2Ba	5.87 (1992)gydF4y2Ba	<措施gydF4y2Ba	1.06 (1.87)gydF4y2Ba	0.59 (1.11)gydF4y2Ba
传说gydF4y2Ba	-5.85 (1992)gydF4y2Ba	<措施gydF4y2Ba	0.34 (0.92)gydF4y2Ba	0.64 (1.31)gydF4y2Ba
蓝领工作gydF4y2Ba	5.83 (1992)gydF4y2Ba	<措施gydF4y2Ba	0.62 (1.75)gydF4y2Ba	0.21 (0.68)gydF4y2Ba

标记gydF4y2Ba

由于ML模型只接受数字输入，因此必须对文本数据进行标记。这个过程涉及到一个单词索引字典，其中数据集中的每个单词都被转换为一个数值或索引，该数值或索引对应于字典中的单词。例如，像“冠状病毒”这样的单词可能会作为值1234呈现给ML模型。由于每个唯一的单词创建一个唯一的索引号，数据集中的“词汇表”或唯一单词的总数可能是一个问题，特别是在数据集很大的情况下，因为在数据集中出现一次或两次的单词通常对模型的有效性没有贡献。我们将训练数据中的38,663个唯一单词的词汇量限制为20,000(51.73%)。这排除了在数据集中只使用一次的单词，因为这些单词对模型没有用处——齐夫定律重申，词汇量越大，回报就越小，因为我们经常使用他们总词汇量的一小部分[gydF4y2Ba 41gydF4y2Ba，gydF4y2Ba 42gydF4y2Ba]。此外，对于一个普通的以英语为母语的人的词汇量有各种各样的估计，对词汇量的合理估计在20,000左右[gydF4y2Ba 43gydF4y2Ba，gydF4y2Ba 44gydF4y2Ba]。为了保证模型输入的均匀性，文章也被0填充到3500字，这是最长的文章的大小。gydF4y2Ba

字嵌入gydF4y2Ba

在标记化之后，使用词嵌入(一种无监督机器学习)来处理数据。词嵌入将单个词的数据点放入高维的嵌入空间中。在这个嵌入空间中，每个单词被表示为一个向量，其中彼此相似的单词被放置在很近的位置。因此，词嵌入允许对相似词之间的隐藏关系进行量化，以用于ML分析。虽然可以在我们的数据集上训练和拟合一个新的词嵌入层，但是已经有了更有效的预训练词嵌入模型。对于文章文本数据，我们利用了Global Vectors For Word Representation (GloVE)，这是一种常用的词嵌入模型，它训练了数十万篇维基百科文章，这些文章的嵌入空间为100维[gydF4y2Ba 45gydF4y2Ba]。gydF4y2Ba

机器学习分类gydF4y2Ba

数据被随机分为深度学习的训练、测试和验证子集。这些子集的比例分别为8:1:1。在1994篇文章中，1595篇(79.99%)属于训练子集，199篇(9.98%)属于验证子集，200篇(10.03%)属于测试子集。训练和验证数据用于建立模型，对可靠和不可靠的文章进行分类，而测试数据用于评估模型的性能。对数据进行分割，然后进行模型训练和评估，重复10次，使每篇文章都能包含在训练集中。在每组训练中获得的性能指标之间取平均值。我们在数据集上评估了多个ML模型(NB、KNNs、LR、LSTM、GRU、BiLSTM、BiGRU和CNN)的性能，以确定可靠性检测的最佳模型。通过实验或使用Gridsearch对设置或超参数进行了优化，Gridsearch测试了上述每个ML模型的超参数的所有组合。gydF4y2Ba

最后，我们使用经过轻度训练的BiGRU开发了一个集成模型来生成初始可靠性预测，然后将其与文本特征、可读性、情感和移情分类的词汇类别相结合。然后将其用于训练具有10倍交叉验证的XGBoost模型。gydF4y2Ba

本文使用了几个依赖于混淆矩阵结果的评价指标。这些指标来源于模型的正确预测，如真阳性(TP)和真阴性(TN)，以及不正确的预测，如假阳性(FP)和假阴性(FN)。准确性是正确预测的总比例，但是当存在类别不平衡时，这个评估指标就不那么有效了。灵敏度是指正确预测不可靠条目的比例，特异性是指正确预测可靠条目的比例。AUC分数显示了模型在不同TP和FP速率下的性能[gydF4y2Ba 46gydF4y2Ba]。gydF4y2Ba

灵敏度(召回率)= TP/(TP + FN)gydF4y2Ba

特异性= TN/(TN + FP)gydF4y2Ba

精度= (TP + TN)/(TP + TN + FP + FN)gydF4y2Ba

道德的考虑gydF4y2Ba

本文使用的数据不需要伦理审批，因为它们是通过开放获取的ReCOVery数据集GitHub访问的，如Zhou等人引用的[gydF4y2Ba 17gydF4y2Ba]。gydF4y2Ba

结果gydF4y2Ba 数据探索gydF4y2Ba

执行数据探索，并将可读性、情感和词汇类别等特征与完整的新闻文章文本数据相结合，以训练集成模型。利用1346篇可靠文章和648篇不可靠文章，建立了使用BiGRU和XGBoost的集成方法。gydF4y2Ba

在数据挖掘过程中，我们发现不可靠文章的平均文本长度(平均单词长度和句子长度)比可靠文章的平均文本长度(gydF4y2Ba 表2gydF4y2Ba）.Flesch-Kincaid等级水平、Dale-Chall指数、ARI指数、Coleman-Liau指数、Gunning fog指数和Linsear Write指数表明，可靠的文章比不可靠的文章更容易阅读(gydF4y2Ba 表2gydF4y2Ba）.从194篇共情衍生词类的平均频率来看，110篇(56.7%)在可靠文章和不可靠文章之间存在显著差异(gydF4y2Ba 多媒体附录1gydF4y2Ba）.在不可靠和可靠的文章中最常见的单词也被可视化(gydF4y2Ba 图2gydF4y2Ba和gydF4y2Ba 3.gydF4y2Ba分别)。不可靠文章的负面情绪比率较高，而可靠文章的中性情绪比率较高(gydF4y2Ba 表3gydF4y2Ba）.确定了各种训练后的机器学习模型以及新的集成模型的性能指标(gydF4y2Ba 表3gydF4y2Ba）.gydF4y2Ba

表2gydF4y2Ba

可靠(N=1346)和不可靠(N=648)在线新闻文章的文本长度和可读性指标。文本长度表示为平均句子长度和平均单词长度。可读性用Flesch-Kincaid等级水平、Dale-Chall可读性指数、ARI来表示gydF4y2Ba^{一个gydF4y2Ba}、Coleman-Liau指数、Gunning fog指数和Linsear Write指数。gydF4y2Ba

指标gydF4y2Ba	可靠平均值(SD)gydF4y2Ba	不可靠平均值(SD)gydF4y2Ba	tgydF4y2Ba（gydF4y2Ba dfgydF4y2Ba）gydF4y2Ba	PgydF4y2Ba价值gydF4y2Ba
平均字长(字符)gydF4y2Ba	6.14 (0.27)gydF4y2Ba	6.32 (1.66)gydF4y2Ba	-3.93 (1992)gydF4y2Ba	<措施gydF4y2Ba
平均句子长度(单词)gydF4y2Ba	23.67 (5.17)gydF4y2Ba	26.38 (7.06)gydF4y2Ba	-9.70 (1992)gydF4y2Ba	<措施gydF4y2Ba
flesch - kinkaid等级gydF4y2Ba	12.68 (2.63)gydF4y2Ba	14.39 (3.37)gydF4y2Ba	-12.38 (1992)gydF4y2Ba	<措施gydF4y2Ba
射雾指数gydF4y2Ba	14.87 (2.72)gydF4y2Ba	16.42 (3.33)gydF4y2Ba	-11.00 (1992)gydF4y2Ba	<措施gydF4y2Ba
Coleman-Liau指数gydF4y2Ba	10.85 (1.87)gydF4y2Ba	11.82 (2.46)gydF4y2Ba	-9.72 (1992)gydF4y2Ba	<措施gydF4y2Ba
Dale-Chall指数gydF4y2Ba	10.21 (0.96)gydF4y2Ba	10.70 (1.02)gydF4y2Ba	-10.53 (1992)gydF4y2Ba	<措施gydF4y2Ba
阿里gydF4y2Ba	13.41 (3.30)gydF4y2Ba	15.43 (4.47)gydF4y2Ba	-11.41 (1992)gydF4y2Ba	<措施gydF4y2Ba
Linsear写索引gydF4y2Ba	16.42 (4.02)gydF4y2Ba	18.73 (5.31)gydF4y2Ba	-10.80 (1992)gydF4y2Ba	<措施gydF4y2Ba

^{一个gydF4y2Ba}ARI:自动可读性索引。gydF4y2Ba

表3gydF4y2Ba

可靠新闻(N=1346)和不可靠新闻(N=648)的句子情感极性比较(0=兴趣情感表达最少，1=兴趣情感表达最多)具有积极、中性和消极情绪的句子的频率差异采用2样本独立分析gydF4y2Ba tgydF4y2Ba测试。gydF4y2Ba

情绪gydF4y2Ba	可靠平均值(SD)gydF4y2Ba	不可靠平均值(SD)gydF4y2Ba	tgydF4y2Ba（gydF4y2Ba dfgydF4y2Ba）gydF4y2Ba	PgydF4y2Ba价值gydF4y2Ba
负gydF4y2Ba	0.066 (0.042)gydF4y2Ba	0.076 (0.039)gydF4y2Ba	-5.46 (1992)gydF4y2Ba	<措施gydF4y2Ba
中性gydF4y2Ba	0.850 (0.054)gydF4y2Ba	0.840 (0.050)gydF4y2Ba	4.37 (1992)gydF4y2Ba	<措施gydF4y2Ba
积极的gydF4y2Ba	0.084 (0.035)gydF4y2Ba	0.085 (0.035)gydF4y2Ba	-0.095 (1992)gydF4y2Ba	．92gydF4y2Ba

文本分析gydF4y2Ba

去除停止词后，对可靠文章和不可靠文章中出现频率最高的词进行检测。可靠文章和不可靠文章的最高词频以频率条形图(gydF4y2Ba 图2gydF4y2Ba和gydF4y2Ba 3.gydF4y2Ba）.在可靠和不可靠的新闻报道之间，常见的关键词是“冠状病毒”、“病毒”、“大流行”等与covid -19相关的关键词。这些差异与“特朗普”和“政府”等政治含义有关。此外，Empath词典工具被应用于文本以产生词汇分类。每个词汇类别的平均计数被确定为可靠和不可靠的文本。然后用gydF4y2Ba tgydF4y2Ba测试。在可靠文本和不可靠文本之间，共有194个词汇类别在频率上存在显著差异(gydF4y2Ba 多媒体附录1gydF4y2Ba和gydF4y2Ba 表1gydF4y2Ba）.在gydF4y2Ba 表1gydF4y2Ba，我们显示了排名前10位的词汇类别gydF4y2Ba PgydF4y2Ba价值。分类包括“魔法”、“权力”、“商业”、“工作”、“满足感”、“办公室”、“争议”、“早晨”、“传奇”和“蓝领工作”。“商业”、“工作”、“满足”、“办公室”、“早晨”和“蓝领工作”等词汇类别的可靠文章的平均数量高于不可靠文章。“魔法”、“力量”、“传奇”和“争议”这几个词汇类别在可靠条目中的平均计数要低于不可靠条目。在文本特征方面，可靠和不可靠新闻文章的平均句子长度存在显著差异，可靠文章的句子较短，为23.67 (SD 5.17)个单词/句，而不可靠文章的句子长度为26.38 (SD 7.06)个单词/句(gydF4y2Ba 表2gydF4y2Ba）.此外，可靠文章和不可靠文章的平均字长分别为6.14 (SD 0.27)和6.32 (SD 1.66)。除了文本长度，我们还分析了可靠和不可靠文章的可读性差异。使用的可读性指数为flesch - kinkaid等级水平、Dale-Chall指数、ARI指数、Coleman-Liau指数、Gunning fog指数和Linsear Write指数。如图所示gydF4y2Ba 表2gydF4y2Ba6项可读性指标均表明，不可靠文章的可读性较差。由于这些文本特征对于区分可靠和不可靠的新闻文章非常重要，因此它们被输入到我们最终的深度学习模型中。gydF4y2Ba

情绪分析gydF4y2Ba

使用VADER，文章中的句子被分为积极、中性和消极情绪。情绪得分范围从0到1,1表示强烈表达感兴趣的情绪。对于可靠的文章，消极、中性和积极情绪得分的平均值分别为0.066 (SD 0.042)、0.850 (SD 0.054)和0.084 (SD 0.035) (gydF4y2Ba 表3gydF4y2Ba）.对于不可靠文章，消极、中性和积极情绪得分的平均值分别为0.076 (SD 0.039)、0.840 (SD 0.050)和0.084 (SD 0.035)。gydF4y2Ba

机器学习分析gydF4y2Ba

将报纸文章数据通过GloVE词嵌入后，将文本数据拆分10倍进行交叉验证。传统的机器学习模型包括LR、knn和NB。AUC值(gydF4y2Ba 图4gydF4y2Ba)，以及灵敏度和召回值(gydF4y2Ba 表4gydF4y2Ba）.gydF4y2Ba

然后，对深度学习模型进行拟合。每个模型在训练前都包含GloVE词嵌入。使用ML Python scikit-learn库中的GridSearchCV完成深度学习模型的超参数优化。优化的超参数包括批大小、epoch、dropout率、神经元数、优化器类型、学习率和激活函数类型。每个模型都有不同的产生最佳结果的超参数。gydF4y2Ba

评估的深度学习模型有LSTM、GRU、BiLSTM、BiGRU和CNN。与传统的ML模型类似，AUC、特异性和召回率被确定为性能指标(gydF4y2Ba 表4gydF4y2Ba）.gydF4y2Ba

最后，利用BiGRU和XGBoost建立了集成模型。我们的新模型首先在ReCOVery测试子集上进行了评估。为我们的新模型生成了一个混淆矩阵，如下所示gydF4y2Ba 图5gydF4y2Ba。我们的新深度学习模型的AUC、特异性和敏感性分别为0.906、0.835和0.945 (gydF4y2Ba 表4gydF4y2Ba）.gydF4y2Ba

图4gydF4y2Ba

传统ML模型(KNN, LR,NB)和深度学习模型(BiLSTM, CNN, LSTM, BiGRU, GRU, new model)的Receiver operating characteristic (ROC)曲线和AUC分数对应颜色。AUC:曲线下面积;BiGRU:双向门控循环单元;BiLSTM:双向长短期记忆;CNN:卷积神经网络;FP:假阳性;GRU:门控循环单元;KNN: k近邻;LR:逻辑回归;LSTM:长短期记忆; ML: machine learning; NB: naive Bayes; TP: true positive.

表4gydF4y2Ba

用于传统ML的ReCOVery验证数据集的性能指标gydF4y2Ba^{一个gydF4y2Ba}模型(资讯gydF4y2Ba^bgydF4y2Ba, LRgydF4y2Ba^cgydF4y2Ba,注gydF4y2Ba^dgydF4y2Ba)，以及深度学习模型(BiLSTM)gydF4y2Ba^egydF4y2Ba, CNNgydF4y2Ba^fgydF4y2Ba, LSTMgydF4y2Ba^ggydF4y2Ba, BiGRUgydF4y2Ba^hgydF4y2Ba,格鲁gydF4y2Ba^我gydF4y2Ba(新型号)。gydF4y2Ba

模型gydF4y2Ba	特异性gydF4y2Ba	灵敏度gydF4y2Ba	AUCgydF4y2Ba^jgydF4y2Ba
LRgydF4y2Ba	0.720gydF4y2Ba	0.575gydF4y2Ba	0.563gydF4y2Ba
然而,gydF4y2Ba	0.660gydF4y2Ba	0.739gydF4y2Ba	0.530gydF4y2Ba
注gydF4y2Ba	0.700gydF4y2Ba	0.627gydF4y2Ba	0.553gydF4y2Ba
BiLSTMgydF4y2Ba	0.810gydF4y2Ba	0.925gydF4y2Ba	0.892gydF4y2Ba
美国有线电视新闻网gydF4y2Ba	0.792gydF4y2Ba	0.851gydF4y2Ba	0.789gydF4y2Ba
LSTMgydF4y2Ba	0.829gydF4y2Ba	0.903gydF4y2Ba	0.883gydF4y2Ba
BiGRUgydF4y2Ba	0.791gydF4y2Ba	0.963gydF4y2Ba	0.868gydF4y2Ba
格勒乌gydF4y2Ba	0.804gydF4y2Ba	0.918gydF4y2Ba	0.878gydF4y2Ba
新模型gydF4y2Ba	0.835gydF4y2Ba	0.945gydF4y2Ba	0.906gydF4y2Ba

^{一个gydF4y2Ba}ML:机器学习。gydF4y2Ba

^bgydF4y2Bak近邻。gydF4y2Ba

^cgydF4y2BaLR:逻辑回归。gydF4y2Ba

^dgydF4y2Ba注意:朴素贝叶斯。gydF4y2Ba

^egydF4y2Ba双向长短期记忆。gydF4y2Ba

^fgydF4y2BaCNN:卷积神经网络。gydF4y2Ba

^ggydF4y2BaLSTM:长短期记忆。gydF4y2Ba

^hgydF4y2BaBiGRU:双向门控循环单元。gydF4y2Ba

^我gydF4y2BaGRU:门控循环单元。gydF4y2Ba

^jgydF4y2BaAUC:曲线下面积。gydF4y2Ba

图5gydF4y2Ba

使用BiGRU和XGBoost训练的新集成模型上恢复验证子集的混淆矩阵。BiGRU:双向门控循环单元;XGBoost:极端梯度增强。gydF4y2Ba

讨论gydF4y2Ba 主要研究结果gydF4y2Ba

本研究使用ReCOVery数据集，建立了一个与BiGRU和XGBoost集成的文本可靠性分类模型，其特异性、灵敏度和AUC分别为0.835、0.945和0.906 [gydF4y2Ba 17gydF4y2Ba]。通过我们的数据分析，我们发现不可靠的新闻文章可读性较低，句子长度较高。与可靠的文章相比，它们也包含更多的负面情绪和更少的中性情绪，并且包含更多的两极分化的词汇类别。gydF4y2Ba

数据使用gydF4y2Ba

在使用新闻文章构建分类模型时，一个重要的考虑因素是模型的可泛化性。为了确保模型是可泛化的，用于训练模型的数据在本质上必须是多样化的。许多深度学习错误信息检测研究的一个缺点是专注于从狭窄的新闻来源或地点检测错误信息[gydF4y2Ba 17gydF4y2Ba，gydF4y2Ba 47gydF4y2Ba]。由于用于训练这些模型的数据集的同质性，许多错误信息检测模型的可泛化性可能较低[gydF4y2Ba 47gydF4y2Ba]。CoAID就是一个例子，它是由2019年12月1日至2020年9月1日期间与covid -19相关的新闻文章和社交媒体帖子构建的数据集。CoAID数据集的一个缺点是该数据集使用的新闻来源数量较少，因为在数据收集过程中包含了9个可靠的新闻来源[gydF4y2Ba 48gydF4y2Ba]。CoVerifi是一项研究，它使用CoAID数据集创建了一个基于网络的工具来检查在线新闻文章是否可信[gydF4y2Ba 49gydF4y2Ba]。另一个值得注意的数据集是COVID-19-FAKES数据集，其中包含61,711条带有错误信息的推文和2,985,399条没有错误信息的推文[gydF4y2Ba 50gydF4y2Ba，gydF4y2Ba 51gydF4y2Ba]。Silva等人[gydF4y2Ba 51gydF4y2Ba]使用COVID-19-FAKES数据集来深入了解推文中存在错误信息的预测特征，以及有和没有错误信息的推文的差异参与[gydF4y2Ba 51gydF4y2Ba]。因此，我们使用ReCOVery数据集来分析新闻文章的多样性，因为它们包括来自不同国家的~2000个不同的新闻媒体[gydF4y2Ba 17gydF4y2Ba]。gydF4y2Ba

情绪分析gydF4y2Ba

由于VADER具有较高的准确性，因此在基于词典的水平上使用它来评估情感gydF4y2Ba FgydF4y2Ba1分类精度0.96与计算经济性[gydF4y2Ba 29gydF4y2Ba]。尽管VADER已成为NLP情感分析的主要工具，但需要考虑的两个主要缺点是它无法识别讽刺/讽刺，以及在处理三级分析(负面、中性和正面)时准确性降低[gydF4y2Ba 52gydF4y2Ba]。gydF4y2Ba

从可靠新闻文章和不可靠新闻文章的分布可以看出，与不可靠的文章相比，可靠的文章包含的负面情绪较少，因为它们的负面情绪极性得分较低(gydF4y2Ba 表3gydF4y2Ba）.这与文献中对新闻内容的观察一致，如Arif等[gydF4y2Ba 53gydF4y2Ba讨论了个人在互联网上搜索负面词汇如何导致更多有偏见的文章。为了强调情感在区分假新闻和真新闻中的重要性，Paschen [gydF4y2Ba 54gydF4y2Ba得出的结论是，与真实新闻相比，假新闻的标题和正文包含更多的负面内容，如愤怒和厌恶。假新闻更有可能表现出负面情绪，以驱动特定的盈利叙事，这支持了我们的发现，即负面的不可靠来源比中性或正面的不可靠来源更多。gydF4y2Ba

我们观察到中立可靠文章和中立不可靠文章的数量存在差异，与不可靠文章相比，可靠文章中的中立情绪更多(gydF4y2Ba 表3gydF4y2Ba）.对可靠数据来源的中立情绪评分意味着在讨论主题时不偏不倚和客观[gydF4y2Ba 55gydF4y2Ba]。gydF4y2Ba

由于上述原因，可靠文本和不可靠文本之间的情感效价不同，许多ML研究将情感作为一种特征来预测在线各种书面信息中的错误信息[gydF4y2Ba 56gydF4y2Ba]。由于不同可靠性的文本之间的情感性质不同，情感分析被用于过滤社交媒体上的负面信息，垃圾邮件过滤等应用[gydF4y2Ba 56gydF4y2Ba]。与我们的发现一致，Ajao等[gydF4y2Ba 57gydF4y2Ba研究发现，与可靠的推文相比，不可靠的推文往往包含更多的负面情绪，这是由于不可靠推文的作者如何利用负面情绪来更好地传播他们的信息。他们还表明，除了考虑文本特征外，情感的使用还可以提高支持向量机(SVM)的准确性[gydF4y2Ba 57gydF4y2Ba]。因此，情绪是我们模型选择的一个特征。gydF4y2Ba

文本分析gydF4y2Ba

观察到两组之间的单词本身非常相似，因为可靠和不可靠来源的主题都是相同的:COVID-19。此外，许多最频繁出现的词仅仅是过渡词，这些词很可能在大多数英语文学中找到。gydF4y2Ba

有趣的是，在可靠来源中出现频率最高的单词是“said”(gydF4y2Ba 图3gydF4y2Ba）.这可能是由于“said”被用来引用政治人物和科学领域的领导人。在这种情况下，文章的可靠性是文章引用可靠信息来源的结果。另一个可观察到的趋势是，在不可靠的文章中发现的带有政治色彩的词汇越来越多。“country”、“government”和“Trump”等词在不可靠的来源中出现频率最高，但在可靠的文章中却不常见。gydF4y2Ba 图2gydF4y2Ba）.这传达了一种出现在不可靠来源上的政治评论模式[gydF4y2Ba 58gydF4y2Ba]。我们可以预测，在COVID-19背景下讨论政治内容的文章可能有兴趣宣传议程，因此不可靠。例如，Chen等[gydF4y2Ba 59gydF4y2Ba发现2019冠状病毒病错误信息传播与2020年美国总统选举在口罩使用和邮寄选票方面存在相互作用。具体而言，卫生信息已被政治化，以推动政治议程和攻击政治对手。除了频繁出现的单词外，从Empath和类似模型中提取的词汇类别使我们能够评估可靠和不可靠新闻文章之间主题频率的差异[gydF4y2Ba 40gydF4y2Ba]。与仅使用原始文本数据相比，使用从Empath和类似模型中提取的词汇类别可以提高模型性能[gydF4y2Ba 60gydF4y2Ba-gydF4y2Ba 63gydF4y2Ba]。gydF4y2Ba

我们决定探索并包含在最终深度学习模型中的另一个特性是新闻文章的可读性和长度。可读性已被证明可以预测错误信息。在Santos等人的研究中gydF4y2Ba 64gydF4y2Ba]，仅使用文章可读性分数就可以区分来自假新闻频繁来源的文章，支持向量机算法的准确率为92% [gydF4y2Ba 64gydF4y2Ba]。同样，在Zhou等人的研究中[gydF4y2Ba 65gydF4y2Ba]，根据他们对可靠与不可靠新闻文章进行分类的能力，研究了各种指标。使用随机森林确定，就对模型的贡献而言，可读性与情感一起排在前5位[gydF4y2Ba 65gydF4y2Ba]。gydF4y2Ba

机器学习分类gydF4y2Ba

在最初的ReCOVery研究中，Zhou等[gydF4y2Ba 17gydF4y2Ba]建立了新闻文章信度的基线预测性能，发现可靠和不可靠的新闻文章的预测精度分别为0.721-0.836和0.421-0.667。可靠新闻和不可靠新闻的召回率分别为0.705-0.829和0.441-0.667 [gydF4y2Ba 17gydF4y2Ba]。基线模型中使用的特征包括文本词汇类别、修辞结构和新闻文章中的视觉信息。Zhou等[gydF4y2Ba 17gydF4y2Ba]还在传统的ML模型(如svm)或深度学习算法(如具有单模态和多模态特征的cnn)上测试了该模型。其他研究也探索了使用ReCOVery数据集进行虚假信息分类。其中一项研究是Raj和Meel [gydF4y2Ba 66gydF4y2Ba在那里，一种新的深度学习模型，联合循环和卷积神经网络(ARCNN)，使用新闻文章中的图像和文本特征来检测错误信息。使用6个COVID-19假新闻数据集对ARCNN的性能进行了测试，其中ReCOVery作为一个数据集，实现了准确性、精密度、召回率和gydF4y2Ba FgydF4y2Ba1分分别为80.98%、53.85%、58.33%、56.00% [gydF4y2Ba 66gydF4y2Ba]。另一项使用ReCOVery数据集进行模型开发的研究探索了使用多种语言进行假新闻检测以提高模型性能[gydF4y2Ba 67gydF4y2Ba]。最后，Wahle等[gydF4y2Ba 68gydF4y2Ba]使用ReCOVery数据集作为6个COVID-19错误信息数据集中的1个，评估了15个基于变压器的ML模型的性能，以确定不同变压器模型的泛化性。与上述研究不同的是，我们能够证明可读性、文本特征、情感和词汇类别的使用可以改进原始的ReCOVery数据集基线模型[gydF4y2Ba 17gydF4y2Ba]。因此，我们证明了上述文本特征对提高新闻文章可靠性预测的重要性。此外，我们表明，在NLP背景下，多个输入的组合和所选模型的考虑可以提高ML模型的准确性。gydF4y2Ba

在我们最终提出的模型中，带有XGBoost和特征工程的BiGRU是性能最好的模型。BiGRU擅长捕获长序列的时间数据，因为双向模型可以更好地捕获文本的上下文[gydF4y2Ba 46gydF4y2Ba]。在这些模型在恢复数据上的实验中，我们发现所有深度学习模型都优于传统的机器学习模型，因为深度学习模型能够更好地处理更复杂的数据[gydF4y2Ba 46gydF4y2Ba，gydF4y2Ba 69gydF4y2Ba]。此外，除了LSTM算法之外，我们还选择了GRU算法，这是一种递归神经网络的变体，因为与LSTM算法相比，GRU算法在较长文本上的性能有所提高[gydF4y2Ba 21gydF4y2Ba]。为了进一步提高模型的性能，我们构建了一个集成模型，因为组合多个预测可以产生更准确的预测[gydF4y2Ba 70gydF4y2Ba]。gydF4y2Ba

的优势gydF4y2Ba

我们调查的一个优势在于，它不仅有创建可靠性预测的深度学习模型的主要目标，而且还确定了可靠和不可靠新闻文章的文本和情感的重要趋势。只关注深度学习模型的调查有一个“黑箱”问题，即深度学习模型使用的机制是不可见的，并且包含在其许多复杂的隐藏层中[gydF4y2Ba 71gydF4y2Ba]。因此，结合深度学习模型的数据探索方法能够更好地可视化和描绘文章的可靠性分类。此外，我们的论文研究了新闻文章，与推文和社交媒体相比，新闻文章的优势在于文本更加规范化，因为每篇文章都是用专业的方法撰写的。因此，在预处理过程中由于语法或拼写错误而删除的数据较少。使用新闻文章作为数据也避免了Twitter错误信息数据集在推特删除推文时遭受的低水合性问题。gydF4y2Ba

限制与未来方向gydF4y2Ba

有许多方法可以进一步完善我们的项目。首先，扩大可用数据的总数将是有价值的，因为可靠来源的数据几乎是不可靠来源的两倍。此外，能够抓取Facebook帖子和Reddit帖子将允许我们扩大访问范围并评估其他高流量信息源。纳入聚类模型还将增加我们搜索的特异性，并创建一个更准确的模型，在确定可靠性时可以考虑正在讨论的COVID-19的哪个方面。正如结果所示，由于我们的模型具有很高的准确性，我们的模型可以作为一个web应用程序进行商业化，使用户可以高度自信地评估他们正在阅读的文章的可靠性。此外，它还可以用来确定一篇文章的情感评分，以确定他们是否想要参与该特定的文献。gydF4y2Ba

虽然这个模型专门识别与covid -19相关的信息，但它也可以接受其他类型的错误信息的训练。如前所述，目前大多数打击网络错误信息的方法都是通过使用人工审核的事实核查网站。例子包括Twitter的Birdwatch项目，独立用户可以标记他们认为不可信的帖子。gydF4y2Ba 72gydF4y2Ba]。其他使用的方法包括Facebook的事实核查服务，该服务手动将包含错误信息的帖子或网站标记为不可信，并将其从公众视野中删除。gydF4y2Ba 73gydF4y2Ba]。此外，在包含COVID-19信息的帖子下方放置警告，以警告读者帖子中可能包含的错误信息[gydF4y2Ba 73gydF4y2Ba]。虽然有许多核实事实的例子，但出现的主要问题是人工核实事实的效率低下[gydF4y2Ba 74gydF4y2Ba]。因此，新的事实核查方法旨在使事实核查过程自动化。事实核查网站的第一个例子是Bot Sentinel自动Twitter事实核查软件，用户可以安装该软件来监控垃圾邮件帐户[gydF4y2Ba 75gydF4y2Ba]。Bot Sentinel使用ML技术将帖子或个人资料分类为可靠或不可靠，准确率达到95% [gydF4y2Ba 75gydF4y2Ba]。gydF4y2Ba

结论gydF4y2Ba

总之，我们证明了可读性、情感、文本特征和词汇类别对于区分可靠和不可靠的新闻文章很重要，因为研究表明，不可靠的文章可读性较差，有更多的负面情绪，并且有更多的政治词汇类别。使用我们的新集成深度学习模型，使用上述特征在原始ReCOVery数据集中实现高于基线的性能，其特异性、灵敏度和AUC分别为0.835、0.945和0.906。因此，使用我们的新模型的可读性、情感和词汇类别的应用程序可以帮助确定新闻文章的可靠性，并更好地改进不使用这些特性的现有模型。gydF4y2Ba

COVID-19凸显了为新闻文章开发自动化可靠性评估器的重要性，因为人为调节的事实核查方法可能效率低下。因为可读性、情感和词汇类别可以用来改进现有的可靠性分类模型，我们表明自动化可靠性检测可能是未来确定新文章可靠性的另一种方法，这将帮助新闻读者识别包含潜在不可靠信息的文章。gydF4y2Ba

多媒体附录1gydF4y2Ba

可靠和不可靠新闻文章的共情分类的平均(SDs)分数。gydF4y2Ba

缩写gydF4y2Ba

ARCNNgydF4y2Ba

联合循环和卷积神经网络gydF4y2Ba

阿里gydF4y2Ba

自动可读性索引gydF4y2Ba

AUCgydF4y2Ba

曲线下面积gydF4y2Ba

BiGRUgydF4y2Ba

双向门控循环单元gydF4y2Ba

BiLSTMgydF4y2Ba

双向长短期记忆gydF4y2Ba

美国有线电视新闻网gydF4y2Ba

卷积神经网络gydF4y2Ba

FNgydF4y2Ba

假阴性gydF4y2Ba

《外交政策》gydF4y2Ba

假阳性gydF4y2Ba

手套gydF4y2Ba

单词表示的全局向量gydF4y2Ba

格勒乌gydF4y2Ba

门控循环装置gydF4y2Ba

然而,gydF4y2Ba

再gydF4y2Ba

LRgydF4y2Ba

逻辑回归gydF4y2Ba

LSTMgydF4y2Ba

长短期记忆gydF4y2Ba

毫升gydF4y2Ba

机器学习gydF4y2Ba

注gydF4y2Ba

朴素贝叶斯gydF4y2Ba

NLPgydF4y2Ba

自然语言处理gydF4y2Ba

支持向量机gydF4y2Ba

TNgydF4y2Ba

真正的负gydF4y2Ba

TPgydF4y2Ba

真阳性gydF4y2Ba

维德gydF4y2Ba

价感知词典和情感推理器gydF4y2Ba

XGBoostgydF4y2Ba

极端梯度增压gydF4y2Ba

我们要感谢科学、技术、工程和数学(STEM)奖学金团队组织了2021年全国大学生大数据挑战，并感谢JMIR赞助了本出版物。gydF4y2Ba

没有宣布。gydF4y2Ba

1gydF4y2Ba

EysenbachgydF4y2Ba

GgydF4y2Ba

如何对抗信息泛滥:信息泛滥管理的四大支柱gydF4y2Ba

J Med Internet ResgydF4y2Ba 2020gydF4y2Ba 06gydF4y2Ba 29gydF4y2Ba 22gydF4y2Ba 6gydF4y2Ba e21820gydF4y2Ba

10.2196/21820gydF4y2Ba

32589589gydF4y2Ba

v22i6e21820gydF4y2Ba

PMC7332253gydF4y2Ba

2gydF4y2Ba

世界卫生组织gydF4y2Ba

InfodemicgydF4y2Ba 2022gydF4y2Ba

2022-06-15gydF4y2Ba

https://www.who.int/health-topics/infodemicgydF4y2Ba

3.gydF4y2Ba

Obiał一gydF4y2Ba

JgydF4y2Ba

Obiał一gydF4y2Ba

KgydF4y2Ba

马ńczakgydF4y2Ba

米gydF4y2Ba

OwocgydF4y2Ba

JgydF4y2Ba

OlszewskigydF4y2Ba

RgydF4y2Ba

COVID-19错误信息:关于冠状病毒预防的文章主要在社交媒体上分享的准确性gydF4y2Ba

卫生政策技术gydF4y2Ba 2021gydF4y2Ba 03gydF4y2Ba 10gydF4y2Ba 10gydF4y2Ba 1gydF4y2Ba 182gydF4y2Ba 186gydF4y2Ba

10.1016 / j.hlpt.2020.10.007gydF4y2Ba

33163352gydF4y2Ba

s2211 - 8837 (20) 30116 - 7gydF4y2Ba

PMC7603966gydF4y2Ba

4gydF4y2Ba

FigueiragydF4y2Ba

一个gydF4y2Ba

奥利维拉gydF4y2Ba

lgydF4y2Ba

假新闻的现状:挑战与机遇gydF4y2Ba

计算机科学学报gydF4y2Ba 2017gydF4y2Ba 121gydF4y2Ba 817gydF4y2Ba 825gydF4y2Ba

10.1016 / j.procs.2017.11.106gydF4y2Ba

5gydF4y2Ba

西尔维娅周gydF4y2Ba

WgydF4y2Ba

GaysynskygydF4y2Ba

一个gydF4y2Ba

无伴奏gydF4y2Ba

约gydF4y2Ba

我们该何去何从:社交媒体上的健康错误信息gydF4y2Ba

公共卫生gydF4y2Ba 2020gydF4y2Ba 10gydF4y2Ba 110gydF4y2Ba S3gydF4y2Ba S273gydF4y2Ba S275gydF4y2Ba

10.2105 / ajph.2020.305905gydF4y2Ba

6gydF4y2Ba

TandocgydF4y2Ba

EgydF4y2Ba

LimgydF4y2Ba

ZgydF4y2Ba

凌gydF4y2Ba

RgydF4y2Ba

“假新闻”的定义gydF4y2Ba

数字JgydF4y2Ba 2018gydF4y2Ba 6gydF4y2Ba 2gydF4y2Ba 137gydF4y2Ba 153gydF4y2Ba

10.1002/9781119011071. iemp0300gydF4y2Ba

7gydF4y2Ba

激光冲gydF4y2Ba

DMJgydF4y2Ba

鲍姆gydF4y2Ba

妈gydF4y2Ba

BenklergydF4y2Ba

YgydF4y2Ba

BerinskygydF4y2Ba

AJgydF4y2Ba

GreenhillgydF4y2Ba

公里gydF4y2Ba

MenczergydF4y2Ba

FgydF4y2Ba

MetzgergydF4y2Ba

乔丹gydF4y2Ba

尼汉在新发布的研究报告中gydF4y2Ba

BgydF4y2Ba

PennycookgydF4y2Ba

GgydF4y2Ba

罗斯柴尔德gydF4y2Ba

DgydF4y2Ba

融入社会gydF4y2Ba

米gydF4y2Ba

斯洛曼gydF4y2Ba

SAgydF4y2Ba

桑斯坦gydF4y2Ba

CRgydF4y2Ba

ThorsongydF4y2Ba

EAgydF4y2Ba

美国瓦茨gydF4y2Ba

DJgydF4y2Ba

斯特兰gydF4y2Ba

莱托gydF4y2Ba

假新闻的科学gydF4y2Ba

科学gydF4y2Ba 2018gydF4y2Ba 03gydF4y2Ba 09gydF4y2Ba 359gydF4y2Ba 6380gydF4y2Ba 1094gydF4y2Ba 1096gydF4y2Ba

10.1126 / science.aao2998gydF4y2Ba

29590025gydF4y2Ba

359/6380/1094gydF4y2Ba

8gydF4y2Ba

TandocgydF4y2Ba

电子商务gydF4y2Ba

假新闻的真相:一项研究综述gydF4y2Ba

Sociol指南针gydF4y2Ba 2019gydF4y2Ba 07gydF4y2Ba 25gydF4y2Ba 13gydF4y2Ba 9gydF4y2Ba e12724gydF4y2Ba

10.1111 / soc4.12724gydF4y2Ba

9gydF4y2Ba

de OliveiragydF4y2Ba

NRgydF4y2Ba

比萨gydF4y2Ba

PSgydF4y2Ba

洛佩兹gydF4y2Ba

妈gydF4y2Ba

de MedeirosgydF4y2Ba

深潜器gydF4y2Ba

马托斯gydF4y2Ba

DMFgydF4y2Ba

基于自然语言处理的社交网络假新闻识别:趋势与挑战gydF4y2Ba

信息gydF4y2Ba 2021gydF4y2Ba 01gydF4y2Ba 18gydF4y2Ba 12gydF4y2Ba 1gydF4y2Ba 38gydF4y2Ba

10.3390 / info12010038gydF4y2Ba

10gydF4y2Ba

Torabi AsrgydF4y2Ba

FgydF4y2Ba

TaboadagydF4y2Ba

米gydF4y2Ba

假新闻和错误信息检测的大数据和高质量数据gydF4y2Ba

大数据SocgydF4y2Ba 2019gydF4y2Ba 05gydF4y2Ba 23gydF4y2Ba 6gydF4y2Ba 1gydF4y2Ba 205395171984331gydF4y2Ba

10.1177 / 2053951719843310gydF4y2Ba

11gydF4y2Ba

克莱顿gydF4y2Ba

KgydF4y2Ba

布莱尔gydF4y2Ba

年代gydF4y2Ba

BusamgydF4y2Ba

晶澳gydF4y2Ba

ForstnergydF4y2Ba

年代gydF4y2Ba

看gydF4y2Ba

JgydF4y2Ba

绿色gydF4y2Ba

GgydF4y2Ba

KawatagydF4y2Ba

一个gydF4y2Ba

KovvurigydF4y2Ba

一个gydF4y2Ba

马丁gydF4y2Ba

JgydF4y2Ba

摩根gydF4y2Ba

EgydF4y2Ba

SandhugydF4y2Ba

米gydF4y2Ba

唱gydF4y2Ba

RgydF4y2Ba

Scholz-BrightgydF4y2Ba

RgydF4y2Ba

韦尔奇gydF4y2Ba

在gydF4y2Ba

沃尔夫gydF4y2Ba

AG)gydF4y2Ba

周gydF4y2Ba

一个gydF4y2Ba

尼汉在新发布的研究报告中gydF4y2Ba

BgydF4y2Ba

假新闻的真正解决方案?衡量一般警告和事实核查标签在减少对社交媒体上虚假故事的信任方面的有效性gydF4y2Ba

Polit BehavgydF4y2Ba 2019gydF4y2Ba 02gydF4y2Ba 11gydF4y2Ba 42gydF4y2Ba 4gydF4y2Ba 1073gydF4y2Ba 1095gydF4y2Ba

10.1007 / s11109 - 019 - 09533 - 0gydF4y2Ba

12gydF4y2Ba

克劳斯gydF4y2Ba

纳米gydF4y2Ba

FreilinggydF4y2Ba

我gydF4y2Ba

甜菜gydF4y2Ba

BgydF4y2Ba

布罗萨德gydF4y2Ba

DgydF4y2Ba

作为风险沟通的事实核查:COVID-19时期错误信息的多层风险gydF4y2Ba

J风险再保险gydF4y2Ba 2020gydF4y2Ba 04gydF4y2Ba 22gydF4y2Ba 23gydF4y2Ba 7 - 8gydF4y2Ba 1052gydF4y2Ba 1059gydF4y2Ba

10.1080 / 13669877.2020.1756385gydF4y2Ba

13gydF4y2Ba

里斯gydF4y2Ba

JCSgydF4y2Ba

专题gydF4y2Ba

一个gydF4y2Ba

井gydF4y2Ba

FgydF4y2Ba

维罗索gydF4y2Ba

一个gydF4y2Ba

BenevenutogydF4y2Ba

FgydF4y2Ba

用于假新闻检测的监督学习gydF4y2Ba

IEEE intel系统gydF4y2Ba 2019gydF4y2Ba 3.gydF4y2Ba 34gydF4y2Ba 2gydF4y2Ba 76gydF4y2Ba 81gydF4y2Ba

10.1109 / mis.2019.2899143gydF4y2Ba

14gydF4y2Ba

ElhadadgydF4y2Ba

米gydF4y2Ba

李gydF4y2Ba

KgydF4y2Ba

GebaligydF4y2Ba

FgydF4y2Ba

一种检测COVID-19误导信息的集成深度学习技术gydF4y2Ba

基于网络的信息系统进展gydF4y2Ba 2020gydF4y2Ba 08gydF4y2Ba 20.gydF4y2Ba

基于网络的信息系统国际会议gydF4y2Ba

2020gydF4y2Ba

加拿大维多利亚gydF4y2Ba

曼哈顿,纽约gydF4y2Ba

施普林格国际gydF4y2Ba

163gydF4y2Ba 175gydF4y2Ba

10.1007 / 978 - 3 - 030 - 57811 - 4 - _16gydF4y2Ba

15gydF4y2Ba

SinghaniagydF4y2Ba

年代gydF4y2Ba

费尔南德斯gydF4y2Ba

NgydF4y2Ba

饶gydF4y2Ba

年代gydF4y2Ba

3HAN:用于假新闻检测的深度神经网络gydF4y2Ba

2017gydF4y2Ba

第24届神经信息处理国际会议(ICONIP 2017)gydF4y2Ba

2017gydF4y2Ba

广州,中国gydF4y2Ba

10.1007 / 978 - 3 - 319 - 70096 - 0 - _59gydF4y2Ba

16gydF4y2Ba

汗gydF4y2Ba

司法院gydF4y2Ba

KhondakergydF4y2Ba

结核杆菌感染gydF4y2Ba

AfrozgydF4y2Ba

年代gydF4y2Ba

UddingydF4y2Ba

GgydF4y2Ba

伊克巴尔gydF4y2Ba

一个gydF4y2Ba

在线假新闻检测机器学习模型的基准研究gydF4y2Ba

Mach Learn applegydF4y2Ba 2021gydF4y2Ba 06gydF4y2Ba 4gydF4y2Ba 100032gydF4y2Ba

10.1016 / j.mlwa.2021.100032gydF4y2Ba

17gydF4y2Ba

周gydF4y2Ba

XgydF4y2Ba

他gydF4y2Ba

一个gydF4y2Ba

费拉拉gydF4y2Ba

EgydF4y2Ba

ZafaranigydF4y2Ba

RgydF4y2Ba

恢复:COVID-19新闻可信度研究的多模式存储库gydF4y2Ba

2020gydF4y2Ba

第29届信息与知识管理国际学术会议gydF4y2Ba

2020年10月19日至23日gydF4y2Ba

虚拟事件爱尔兰gydF4y2Ba

3205gydF4y2Ba 3212gydF4y2Ba

10.1145/3340531.3412880gydF4y2Ba

18gydF4y2Ba

GanaiegydF4y2Ba

米gydF4y2Ba

胡gydF4y2Ba

米gydF4y2Ba

马利克gydF4y2Ba

一个gydF4y2Ba

TanveergydF4y2Ba

米gydF4y2Ba

SuganthangydF4y2Ba

PgydF4y2Ba

集成深度学习:综述gydF4y2Ba

arXivgydF4y2Ba 预印本于2021年4月6日在线发布gydF4y2Ba

10.1016 / j.engappai.2022.105151gydF4y2Ba

19gydF4y2Ba

库马尔gydF4y2Ba

年代gydF4y2Ba

就是为了gydF4y2Ba

RgydF4y2Ba

阿帕德海耶gydF4y2Ba

年代gydF4y2Ba

UpretigydF4y2Ba

NgydF4y2Ba

阿克巴gydF4y2Ba

米gydF4y2Ba

使用深度学习模型的假新闻检测:一种新方法gydF4y2Ba

跨新兴电话技术gydF4y2Ba 2019gydF4y2Ba 11gydF4y2Ba 05gydF4y2Ba 31gydF4y2Ba 2gydF4y2Ba e3767gydF4y2Ba

10.1002 / ett.3767gydF4y2Ba

20.gydF4y2Ba

钟gydF4y2Ba

JgydF4y2Ba

GulcehregydF4y2Ba

CgydF4y2Ba

赵gydF4y2Ba

KgydF4y2Ba

BengiogydF4y2Ba

YgydF4y2Ba

门控递归神经网络序列建模的经验评价gydF4y2Ba

arXivgydF4y2Ba 预印本于2014年12月11日发布在网上gydF4y2Ba

10.48550 / arXiv.1412.3555gydF4y2Ba

21gydF4y2Ba

杨gydF4y2Ba

年代gydF4y2Ba

余gydF4y2Ba

XgydF4y2Ba

周gydF4y2Ba

YgydF4y2Ba

LSTM与GRU神经网络性能比较研究:以yelp点评数据集为例gydF4y2Ba

2020gydF4y2Ba

2020年电子通信与人工智能国际研讨会(IWECAI)gydF4y2Ba

2020年6月12日至14日gydF4y2Ba

中国上海gydF4y2Ba

10.1109 / iwecai50956.2020.00027gydF4y2Ba

22gydF4y2Ba

HochreitergydF4y2Ba

年代gydF4y2Ba

SchmidhubergydF4y2Ba

JgydF4y2Ba

长短期记忆gydF4y2Ba

神经第一版gydF4y2Ba 1997gydF4y2Ba 11gydF4y2Ba 15gydF4y2Ba 9gydF4y2Ba 8gydF4y2Ba 1735gydF4y2Ba 1780gydF4y2Ba

10.1162 / neco.1997.9.8.1735gydF4y2Ba

9377276gydF4y2Ba

23gydF4y2Ba

陈gydF4y2Ba

TgydF4y2Ba

GuestringydF4y2Ba

CgydF4y2Ba

XGBoost:一个可扩展的树提升系统gydF4y2Ba

2016gydF4y2Ba

第22届ACM SIGKDD知识发现与数据挖掘国际会议gydF4y2Ba

2016年8月13日至17日gydF4y2Ba

旧金山，加州gydF4y2Ba

10.1145/2939672.2939785gydF4y2Ba

24gydF4y2Ba

Shwartz-ZivgydF4y2Ba

RgydF4y2Ba

艾蒙gydF4y2Ba

一个gydF4y2Ba

表格数据:深度学习并不是你所需要的全部gydF4y2Ba

正融合gydF4y2Ba 2022gydF4y2Ba 05gydF4y2Ba 81gydF4y2Ba 84gydF4y2Ba 90gydF4y2Ba

10.1016 / j.inffus.2021.11.011gydF4y2Ba

25gydF4y2Ba

NewsGuard技术gydF4y2Ba

评核程序及准则gydF4y2Ba 2022gydF4y2Ba

2022-06-14gydF4y2Ba

https://www.newsguardtech.com/ratings/rating-pro cess-criteria /gydF4y2Ba

26gydF4y2Ba

赞德gydF4y2Ba

DgydF4y2Ba

关于媒体偏见/事实核查gydF4y2Ba 2022-06-14gydF4y2Ba

https://mediabiasfactcheck.com/about/gydF4y2Ba

27gydF4y2Ba

洛佩尔gydF4y2Ba

EgydF4y2Ba

鸟gydF4y2Ba

年代gydF4y2Ba

NLTK:自然语言工具包gydF4y2Ba

arXivgydF4y2Ba 预印本于2002年5月17日发布在网上gydF4y2Ba

10.3115/1118108.1118117gydF4y2Ba

28gydF4y2Ba

麦金尼gydF4y2Ba

WgydF4y2Ba

Python统计计算的数据结构gydF4y2Ba

2010gydF4y2Ba

第九届Python in Science会议(SciPy 2010)gydF4y2Ba

2010年6月28日至7月3日gydF4y2Ba

奥斯汀,得克萨斯州gydF4y2Ba

56gydF4y2Ba 61gydF4y2Ba

10.25080 /改称- 92 bf1922 - 00gydF4y2Ba

29gydF4y2Ba

赫托gydF4y2Ba

CgydF4y2Ba

吉尔伯特gydF4y2Ba

EgydF4y2Ba

VADER:一个简洁的基于规则的社交媒体文本情感分析模型gydF4y2Ba

2014gydF4y2Ba

第八届国际AAAI博客和社交媒体会议gydF4y2Ba

2014年6月1日至4日gydF4y2Ba

密歇根州安娜堡gydF4y2Ba

30.gydF4y2Ba

洛里亚gydF4y2Ba

年代gydF4y2Ba

TextBlob:简化文本处理gydF4y2Ba 2022-09-13gydF4y2Ba

https://textblob.readthedocs.io/en/dev/gydF4y2Ba

31gydF4y2Ba

迪马斯里奥正在gydF4y2Ba

CgydF4y2Ba

py-readability-metricsgydF4y2Ba 2022-03-01gydF4y2Ba

https://github.com/cdimascio/py-readability-metricsgydF4y2Ba

32gydF4y2Ba

如果gydF4y2Ba

lgydF4y2Ba

卡兰gydF4y2Ba

JgydF4y2Ba

科学可读性的统计模型gydF4y2Ba

2001gydF4y2Ba

CIKM01:第十届信息与知识管理国际会议gydF4y2Ba

2001年10月5日至10日gydF4y2Ba

亚特兰大,乔治亚州gydF4y2Ba

574gydF4y2Ba 576gydF4y2Ba

10.1145/502585.502695gydF4y2Ba

33gydF4y2Ba

废话gydF4y2Ba

BgydF4y2Ba

用Fry可读性图表和Flesch-Kincaid年级水平比较休闲阅读书籍水平gydF4y2Ba 1999gydF4y2Ba

2022-06-16gydF4y2Ba

https://eric.ed.gov/?id=ED428333gydF4y2Ba

34gydF4y2Ba

KarmakargydF4y2Ba

年代gydF4y2Ba

朱gydF4y2Ba

YgydF4y2Ba

可视化多个文本可读性索引gydF4y2Ba

2010gydF4y2Ba

国际教育与管理技术会议(ICEMT 2010)gydF4y2Ba

2010年11月2日至4日gydF4y2Ba

开罗,埃及gydF4y2Ba

10.1109 / icemt.2010.5657684gydF4y2Ba

35gydF4y2Ba

射击gydF4y2Ba

RgydF4y2Ba

二十年后的雾指数gydF4y2Ba

J总线公司gydF4y2Ba 2016gydF4y2Ba 09gydF4y2Ba 16gydF4y2Ba 6gydF4y2Ba 2gydF4y2Ba 3.gydF4y2Ba 13gydF4y2Ba

10.1177 / 002194366900600202gydF4y2Ba

36gydF4y2Ba

伯克gydF4y2Ba

VgydF4y2Ba

格林伯格gydF4y2Ba

DgydF4y2Ba

确定可读性:如何选择和应用易于使用的可读性公式来评估成人识字材料的难度gydF4y2Ba

成人基础教育文学gydF4y2Ba 2010gydF4y2Ba 4gydF4y2Ba 1gydF4y2Ba 34gydF4y2Ba 42gydF4y2Ba

37gydF4y2Ba

戴尔gydF4y2Ba

EgydF4y2Ba

ChallgydF4y2Ba

JgydF4y2Ba

预测可读性的公式gydF4y2Ba

教育资料gydF4y2Ba 1948gydF4y2Ba 27gydF4y2Ba 1gydF4y2Ba 11gydF4y2Ba 28gydF4y2Ba

38gydF4y2Ba

斯科特gydF4y2Ba

BgydF4y2Ba

新的戴尔-查尔可读性公式:一个基于词汇的可读性公式gydF4y2Ba 2003gydF4y2Ba

2022-06-17gydF4y2Ba

https://www.readabilityformulas.com/new-dale-chall-readability-formula.phpgydF4y2Ba

39gydF4y2Ba

斯科特gydF4y2Ba

BgydF4y2Ba

如何使用Linsear写作可读性公式给你的文章评分gydF4y2Ba 2003gydF4y2Ba

2022-06-17gydF4y2Ba

https://readabilityformulas.com/linsear-write-readability-formula.phpgydF4y2Ba

40gydF4y2Ba

快gydF4y2Ba

EgydF4y2Ba

陈gydF4y2Ba

BgydF4y2Ba

伯恩斯坦gydF4y2Ba

米gydF4y2Ba

移情:理解大规模文本中的主题信号gydF4y2Ba

2016gydF4y2Ba

ACM CHI 2016: 2016 CHI计算系统中的人为因素会议gydF4y2Ba

2016年5月7-12日gydF4y2Ba

圣何塞，加州gydF4y2Ba

4647gydF4y2Ba 4657gydF4y2Ba

10.1145/2858036.2858535gydF4y2Ba

41gydF4y2Ba

高gydF4y2Ba

lgydF4y2Ba

周gydF4y2Ba

GgydF4y2Ba

罗gydF4y2Ba

JgydF4y2Ba

黄gydF4y2Ba

YgydF4y2Ba

单词嵌入与Zipf的上下文gydF4y2Ba

IEEE访问gydF4y2Ba 2019gydF4y2Ba 7gydF4y2Ba 168934gydF4y2Ba 168943gydF4y2Ba

10.1109 / access.2019.2954691gydF4y2Ba

42gydF4y2Ba

西格德gydF4y2Ba

BgydF4y2Ba

Eeg-OlofssongydF4y2Ba

米gydF4y2Ba

范WeijergydF4y2Ba

JgydF4y2Ba

单词长度，句子长度和使用频率——Zipf重新审视gydF4y2Ba

皆语言学家gydF4y2Ba 2004gydF4y2Ba 04gydF4y2Ba 58gydF4y2Ba 1gydF4y2Ba 37gydF4y2Ba 52gydF4y2Ba

10.1111 / j.0039-3193.2004.00109.xgydF4y2Ba

43gydF4y2Ba

BrysbaertgydF4y2Ba

米gydF4y2Ba

史蒂文斯gydF4y2Ba

米gydF4y2Ba

曼德拉gydF4y2Ba

PgydF4y2Ba

KeuleersgydF4y2Ba

EgydF4y2Ba

我们知道多少单词?词汇量的实际估计取决于单词的定义，语言输入的程度和参与者的年龄gydF4y2Ba

前面PsycholgydF4y2Ba 2016gydF4y2Ba 7gydF4y2Ba 1116gydF4y2Ba

10.3389 / fpsyg.2016.01116gydF4y2Ba

27524974gydF4y2Ba

PMC4965448gydF4y2Ba

44gydF4y2Ba

GouldengydF4y2Ba

RgydF4y2Ba

国家gydF4y2Ba

PgydF4y2Ba

读gydF4y2Ba

JgydF4y2Ba

接受性词汇量能有多大?gydF4y2Ba

:语言学家gydF4y2Ba 1990gydF4y2Ba 12gydF4y2Ba 11gydF4y2Ba 4gydF4y2Ba 341gydF4y2Ba 363gydF4y2Ba

10.26686 / wgtn.12560441gydF4y2Ba

45gydF4y2Ba

彭宁顿gydF4y2Ba

JgydF4y2Ba

SochergydF4y2Ba

RgydF4y2Ba

曼宁gydF4y2Ba

CgydF4y2Ba

手套:单词表示的全局向量gydF4y2Ba

2014gydF4y2Ba

2014年自然语言处理(EMNLP)经验方法会议gydF4y2Ba

2014年10月25日至29日gydF4y2Ba

卡塔尔多哈gydF4y2Ba

1532gydF4y2Ba 1543gydF4y2Ba

10.3115 / v1 / d14 - 1162gydF4y2Ba

46gydF4y2Ba

ElfaikgydF4y2Ba

HgydF4y2Ba

NfaouigydF4y2Ba

EgydF4y2Ba

基于深度双向LSTM网络学习的阿拉伯语文本情感分析gydF4y2Ba

J英特尔系统gydF4y2Ba 2021gydF4y2Ba 30.gydF4y2Ba 1gydF4y2Ba 395gydF4y2Ba 412gydF4y2Ba

10.1515 / jisys - 2020 - 0021gydF4y2Ba

47gydF4y2Ba

SupremgydF4y2Ba

一个gydF4y2Ba

聚氨酯gydF4y2Ba

CgydF4y2Ba

评估假新闻检测微调模型的泛化性gydF4y2Ba

arXivgydF4y2Ba 预印本于2022年5月15日在线发布gydF4y2Ba

10.48550 / arXiv.2205.07154gydF4y2Ba

48gydF4y2Ba

崔gydF4y2Ba

lgydF4y2Ba

李gydF4y2Ba

DgydF4y2Ba

CoAID: COVID-19医疗保健错误信息数据集gydF4y2Ba

arXivgydF4y2Ba 预印本于2020年5月22日发布gydF4y2Ba

49gydF4y2Ba

KollurigydF4y2Ba

问gydF4y2Ba

没吃gydF4y2Ba

DgydF4y2Ba

CoVerifi:新冠肺炎新闻核查系统gydF4y2Ba

在线Soc网络媒体gydF4y2Ba 2021gydF4y2Ba 03gydF4y2Ba 22gydF4y2Ba 100123gydF4y2Ba

10.1016 / j.osnem.2021.100123gydF4y2Ba

33521412gydF4y2Ba

s2468 - 6964 (21) 00007 - 0gydF4y2Ba

PMC7825993gydF4y2Ba

50gydF4y2Ba

ElhadadgydF4y2Ba

米gydF4y2Ba

李gydF4y2Ba

KgydF4y2Ba

GebaligydF4y2Ba

FgydF4y2Ba

COVID-19- fakes:一个Twitter(阿拉伯语/英语)数据集，用于检测关于COVID-19的误导性信息gydF4y2Ba

智能网络与协同系统研究进展gydF4y2Ba 2021gydF4y2Ba

智能网络与协同系统国际会议gydF4y2Ba

2020gydF4y2Ba

维多利亚gydF4y2Ba

曼哈顿,纽约gydF4y2Ba

施普林格国际gydF4y2Ba

256gydF4y2Ba 268gydF4y2Ba

10.1007 / 978 - 3 - 030 - 57796 - 4 - _25gydF4y2Ba

51gydF4y2Ba

席尔瓦gydF4y2Ba

米gydF4y2Ba

CeschingydF4y2Ba

FgydF4y2Ba

ShresthagydF4y2Ba

PgydF4y2Ba

黑雁gydF4y2Ba

CgydF4y2Ba

费尔南德斯gydF4y2Ba

JgydF4y2Ba

席尔瓦gydF4y2Ba

CSgydF4y2Ba

GregriogydF4y2Ba

一个gydF4y2Ba

GiovaninigydF4y2Ba

lgydF4y2Ba

在疫情爆发的头几个月，预测COVID-19推特话语中的错误信息和参与gydF4y2Ba

计算机协会gydF4y2Ba 2020gydF4y2Ba 11gydF4y2Ba 37gydF4y2Ba 4gydF4y2Ba 1gydF4y2Ba 24gydF4y2Ba

52gydF4y2Ba

梅纳德gydF4y2Ba

DgydF4y2Ba

格林伍德gydF4y2Ba

米gydF4y2Ba

谁在乎讽刺的推文?调查讽刺对情感分析的影响gydF4y2Ba

2014gydF4y2Ba

第九届国际语言资源与评价学术会议(LREC'14)gydF4y2Ba

2014年5月gydF4y2Ba

雷克雅未克,冰岛gydF4y2Ba

53gydF4y2Ba

ArifgydF4y2Ba

NgydF4y2Ba

Al-JefrigydF4y2Ba

米gydF4y2Ba

BizzigydF4y2Ba

我gydF4y2Ba

PeranogydF4y2Ba

GbgydF4y2Ba

高盛gydF4y2Ba

米gydF4y2Ba

哈克gydF4y2Ba

我gydF4y2Ba

蔡gydF4y2Ba

吉隆坡gydF4y2Ba

MengozzigydF4y2Ba

米gydF4y2Ba

NeunezgydF4y2Ba

米gydF4y2Ba

史密斯gydF4y2Ba

HgydF4y2Ba

GhezzigydF4y2Ba

PgydF4y2Ba

假新闻还是薄弱的科学?谷歌在不同语言和国家返回的反疫苗网页的可见性和特征gydF4y2Ba

前面ImmunolgydF4y2Ba 2018gydF4y2Ba 6gydF4y2Ba 5gydF4y2Ba 9gydF4y2Ba 1215gydF4y2Ba

10.3389 / fimmu.2018.01215gydF4y2Ba

54gydF4y2Ba

帕兴氏小gydF4y2Ba

JgydF4y2Ba

利用人工智能和人工贡献调查假新闻的情感吸引力gydF4y2Ba

J产品品牌管理gydF4y2Ba 2019gydF4y2Ba 05gydF4y2Ba 06gydF4y2Ba 29gydF4y2Ba 2gydF4y2Ba 223gydF4y2Ba 233gydF4y2Ba

10.1108 / jpbm - 12 - 2018 - 2179gydF4y2Ba

55gydF4y2Ba

戴伊gydF4y2Ba

一个gydF4y2Ba

拉菲gydF4y2Ba

RgydF4y2Ba

哈桑gydF4y2Ba

PSgydF4y2Ba

ArkogydF4y2Ba

年代gydF4y2Ba

ChakrabartygydF4y2Ba

一个gydF4y2Ba

基于语言分析的假新闻模式识别gydF4y2Ba

2018gydF4y2Ba

第七届信息与电子视觉国际会议(ICIEV)暨第二届影像与视觉模式识别国际会议(IcIVPR)gydF4y2Ba

2018年6月25-29日gydF4y2Ba

日本北九州市gydF4y2Ba

10.1109 / iciev.2018.8641018gydF4y2Ba

56gydF4y2Ba

阿隆索gydF4y2Ba

妈gydF4y2Ba

VilaresgydF4y2Ba

DgydF4y2Ba

Gomez-RodriguezgydF4y2Ba

CgydF4y2Ba

VilaresgydF4y2Ba

JgydF4y2Ba

面向假新闻检测的情感分析gydF4y2Ba

电子产品gydF4y2Ba 2021gydF4y2Ba 06gydF4y2Ba 05gydF4y2Ba 10gydF4y2Ba 11gydF4y2Ba 1348gydF4y2Ba

10.3390 / electronics10111348gydF4y2Ba

57gydF4y2Ba

AjaogydF4y2Ba

OgydF4y2Ba

BhowmikgydF4y2Ba

DgydF4y2Ba

ZargarigydF4y2Ba

年代gydF4y2Ba

基于情感的在线社交网络假新闻检测gydF4y2Ba

2019gydF4y2Ba

ICASSP 2019: 2019年IEEE声学，语音和信号处理国际会议gydF4y2Ba

2019年5月12日至17日gydF4y2Ba

英国布赖顿gydF4y2Ba

2507gydF4y2Ba 2511gydF4y2Ba

10.1109 / icassp.2019.8683170gydF4y2Ba

58gydF4y2Ba

李gydF4y2Ba

TgydF4y2Ba

全球“假新闻”的崛起以及对美国民主选举的威胁gydF4y2Ba

公共行政政策gydF4y2Ba 2019gydF4y2Ba 07gydF4y2Ba 01gydF4y2Ba 22gydF4y2Ba 1gydF4y2Ba 15gydF4y2Ba 24gydF4y2Ba

10.1108 /巴氏- 04 - 2019 - 0008gydF4y2Ba

59gydF4y2Ba

陈gydF4y2Ba

EgydF4y2Ba

常gydF4y2Ba

HgydF4y2Ba

饶gydF4y2Ba

一个gydF4y2Ba

LermangydF4y2Ba

KgydF4y2Ba

考恩gydF4y2Ba

GgydF4y2Ba

费拉拉gydF4y2Ba

EgydF4y2Ba

COVID-19错误信息与2020年美国总统大选gydF4y2Ba

HKS错误信息审查gydF4y2Ba 2021gydF4y2Ba 3.gydF4y2Ba 3.gydF4y2Ba

2022-09-13gydF4y2Ba

https://misinforeview.hks.harvard.edu/article/covid-19-misin形成- - - - - 2020 u / -总统选举gydF4y2Ba

60gydF4y2Ba

阿加瓦尔gydF4y2Ba

我gydF4y2Ba

RanagydF4y2Ba

DgydF4y2Ba

PanwalagydF4y2Ba

KgydF4y2Ba

沙阿gydF4y2Ba

RgydF4y2Ba

KathiriyagydF4y2Ba

VgydF4y2Ba

基于上下文特征粒度的假新闻检测分析gydF4y2Ba

研究方gydF4y2Ba 预印本于2022年5月27日在线发布gydF4y2Ba

10.21203 / rs.3.rs - 1676328 / v1gydF4y2Ba

61gydF4y2Ba

SekulićgydF4y2Ba

我gydF4y2Ba

GjurkovićgydF4y2Ba

米gydF4y2Ba

Š内志gydF4y2Ba

JgydF4y2Ba

不仅仅是抑郁症:reddit上的双相情感障碍预测gydF4y2Ba

aclanthologygydF4y2Ba 预印本于2018年10月在线发布gydF4y2Ba

10.18653 / v1 / w18 - 6211gydF4y2Ba

62gydF4y2Ba

黛比gydF4y2Ba

KgydF4y2Ba

德gydF4y2Ba

HgydF4y2Ba

ChatterjeegydF4y2Ba

年代gydF4y2Ba

朋友gydF4y2Ba

一个gydF4y2Ba

用机器学习研究边缘型人格障碍gydF4y2Ba

2022gydF4y2Ba

第16届泛在信息管理与通信(IMCOM)国际会议gydF4y2Ba

2022年1月3-5日gydF4y2Ba

韩国首尔gydF4y2Ba

10.1109 / imcom53663.2022.9721800gydF4y2Ba

63gydF4y2Ba

JubairgydF4y2Ba

FgydF4y2Ba

萨利姆gydF4y2Ba

NgydF4y2Ba

Al-KaradshehgydF4y2Ba

OgydF4y2Ba

HassonagydF4y2Ba

YgydF4y2Ba

SaifangydF4y2Ba

RgydF4y2Ba

abdel majeedgydF4y2Ba

米gydF4y2Ba

COVID-19爆发初期Twitter聊天的情绪分析gydF4y2Ba

2021gydF4y2Ba

第四届信息技术与智能系统国际研讨会(ISRITI)gydF4y2Ba

2021年12月12日至17日gydF4y2Ba

日惹,印尼gydF4y2Ba

10.1109 / isriti54043.2021.9702837gydF4y2Ba

64gydF4y2Ba

桑托斯gydF4y2Ba

RgydF4y2Ba

佩德罗gydF4y2Ba

GgydF4y2Ba

忠实的gydF4y2Ba

年代gydF4y2Ba

衡量可读性特征在假新闻检测中的影响gydF4y2Ba

2020gydF4y2Ba

第十二届语言资源与评价会议gydF4y2Ba

2020年5月11日至16日gydF4y2Ba

法国马赛的gydF4y2Ba

1404gydF4y2Ba 1413gydF4y2Ba

65gydF4y2Ba

周gydF4y2Ba

XgydF4y2Ba

耆那教徒的gydF4y2Ba

一个gydF4y2Ba

PhohagydF4y2Ba

VVgydF4y2Ba

ZafaranigydF4y2Ba

RgydF4y2Ba

假新闻早期发现:一个理论驱动的模型gydF4y2Ba

数字威胁恢复实践gydF4y2Ba 2020gydF4y2Ba 06gydF4y2Ba 30.gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba 1gydF4y2Ba 25gydF4y2Ba

10.1145 / 3377478gydF4y2Ba

66gydF4y2Ba

拉吉gydF4y2Ba

CgydF4y2Ba

MeelgydF4y2Ba

PgydF4y2Ba

用于多模式信息检测的ARCNN框架gydF4y2Ba

神经gydF4y2Ba 2022gydF4y2Ba 02gydF4y2Ba 146gydF4y2Ba 36gydF4y2Ba 68gydF4y2Ba

10.1016 / j.neunet.2021.11.006gydF4y2Ba

34839091gydF4y2Ba

s0893 - 6080 (21) 00434 - 2gydF4y2Ba

67gydF4y2Ba

娃gydF4y2Ba

DgydF4y2Ba

PanchenkogydF4y2Ba

一个gydF4y2Ba

跨语言证据提高了单语言假新闻的检测gydF4y2Ba

2021gydF4y2Ba

第59届计算语言学协会年会暨第11届自然语言处理国际联合会议:学生研究工作坊gydF4y2Ba

2021年8月gydF4y2Ba

在线gydF4y2Ba

310gydF4y2Ba 320gydF4y2Ba

10.18653 / v1/2021.acl-srw.32gydF4y2Ba

68gydF4y2Ba

WahlegydF4y2Ba

JgydF4y2Ba

AshokgydF4y2Ba

NgydF4y2Ba

劳gydF4y2Ba

TgydF4y2Ba

MeuschkegydF4y2Ba

NgydF4y2Ba

GhosalgydF4y2Ba

TgydF4y2Ba

GippgydF4y2Ba

BgydF4y2Ba

测试神经语言模型在COVID-19错误信息检测中的泛化gydF4y2Ba

信息创造更美好世界:塑造全球未来。iConference 2022。计算机科学课堂讲稿，卷13192gydF4y2Ba 2022gydF4y2Ba

信息创造更美好世界:塑造全球未来。iConference 2022gydF4y2Ba

2022gydF4y2Ba

虚拟gydF4y2Ba

可汗gydF4y2Ba

施普林格gydF4y2Ba

381gydF4y2Ba 392gydF4y2Ba

10.1007 / 978 - 3 - 030 - 96957 - 8 - _33gydF4y2Ba

69gydF4y2Ba

可乐gydF4y2Ba

FgydF4y2Ba

BrazdilgydF4y2Ba

PgydF4y2Ba

支持向量机与旧分类算法在文本分类任务中的比较gydF4y2Ba

2006gydF4y2Ba

人工智能理论与实践，IFIP第19届世界计算机大会，TC 12: IFIP AI 2006流gydF4y2Ba

2006年8月21日至24日gydF4y2Ba

圣地亚哥,智利gydF4y2Ba

169gydF4y2Ba 178gydF4y2Ba

10.1007 / 978 - 0 - 387 - 34747 - 9 - _18gydF4y2Ba

70gydF4y2Ba

SagigydF4y2Ba

OgydF4y2Ba

RokachgydF4y2Ba

lgydF4y2Ba

集成学习:一项调查gydF4y2Ba

数据挖掘和知识发现gydF4y2Ba 2018gydF4y2Ba 02gydF4y2Ba 27gydF4y2Ba 8gydF4y2Ba 4gydF4y2Ba e1249gydF4y2Ba

10.1002 / widm.1249gydF4y2Ba

71gydF4y2Ba

SamekgydF4y2Ba

WgydF4y2Ba

WiegandgydF4y2Ba

TgydF4y2Ba

穆勒gydF4y2Ba

KgydF4y2Ba

可解释的人工智能:理解、可视化和解释深度学习模型gydF4y2Ba

arXivgydF4y2Ba 预印本于2017年8月28日在线发布gydF4y2Ba

72gydF4y2Ba

罗斯gydF4y2Ba

YgydF4y2Ba

泡菜gydF4y2Ba

NgydF4y2Ba

更新我们对误导性信息的处理方法gydF4y2Ba 2021-07-03gydF4y2Ba

https://blog.twitter.com/en_us/topics/product/2020/updating-our-approach-to-misleading-informationgydF4y2Ba

73gydF4y2Ba

元商业支援中心gydF4y2Ba

关于Facebook上的事实核查gydF4y2Ba 2022-09-13gydF4y2Ba

https://www.facebook.com/business/help/2593586 717571940gydF4y2Ba

74gydF4y2Ba

NakovgydF4y2Ba

PgydF4y2Ba

CorneygydF4y2Ba

DgydF4y2Ba

HasanaingydF4y2Ba

米gydF4y2Ba

自动事实检查，协助人类事实检查gydF4y2Ba

arXivgydF4y2Ba 预印本于2021年3月13日在线发布gydF4y2Ba

10.24963 / ijcai.2021/619gydF4y2Ba

75gydF4y2Ba

机器人哨兵gydF4y2Ba

不仅仅是机器人gydF4y2Ba 2022-09-13gydF4y2Ba

https://botsentinel.com/info/aboutgydF4y2Ba