这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用最初发表在JMIR Infodemiology上的原创作品。必须包括完整的书目信息,https://infodemiology.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
与covid -19相关的错误信息的数量长期超过了事实核查员有效减轻其不良影响的可用资源。自动化和基于网络的方法可以有效地遏制网上的错误信息。基于机器学习的方法在文本分类任务上取得了稳健的表现,包括潜在的低质量新闻可信度评估。尽管初步快速干预取得了进展,但与covid -19相关的错误信息的严重性继续压倒事实核查员。因此,迫切需要改进信息大流行应对的自动化和机器学习方法。
这项研究的目的是改进信息大流行应对的自动化和机器学习方法。
我们评估了三种训练机器学习模型以确定最高模型性能的策略:(1)仅使用与COVID-19相关的事实核查数据,(2)仅使用一般事实核查数据,以及(3)将COVID-19和一般事实核查数据结合起来。我们从事实核查的“虚假”内容和通过编程检索的“真实”内容结合起来,创建了两个与covid -19相关的虚假信息数据集。第一组包含2020年7月至8月的约7000个条目,第二组包含2020年1月至2022年6月的约3.1万个条目。我们众包了31441票给第一个数据集。
模型在第一和第二外部验证数据集上的准确率分别为96.55%和94.56%。我们使用covid -19特定内容开发了性能最佳的模型。我们成功地开发了组合模型,其表现超过了人类对错误信息的投票。具体来说,当我们将模型预测与人类投票混合时,我们在第一个外部验证数据集上获得的最高准确性为99.1%。当我们考虑机器学习模型与人类投票一致的输出时,我们在第一个验证数据集上实现了高达98.59%的准确性。这种方法的准确率仅为73%,超过了人类投票。
96.55%和94.56%的外部验证准确性证明,机器学习可以在对COVID-19内容的准确性进行分类的艰巨任务中产生优异的结果。预训练语言模型在特定主题的数据集上进行微调时表现最佳,而其他模型在特定主题和一般主题数据集的组合上进行微调时达到最佳准确性。至关重要的是,我们的研究发现,混合模型在众包数据的一般主题内容上进行了训练/微调,将我们模型的准确性提高了99.7%。在专家标记的数据稀缺的情况下,成功使用众包数据可以提高模型的准确性。在由机器学习和人类标签组成的“高可信度”分段上,98.59%的准确率表明,众包投票可以优化机器学习标签,将准确度提高到只有人类才能达到的水平。这些结果支持利用监督机器学习来阻止和打击未来与健康相关的虚假信息。
在COVID-19大流行期间,低信息质量导致了个人的不良健康结果[
要解决这种错误信息,仅靠人工干预是不够的。事实上,仅在2020年第一季度,对covid -19相关内容的英语事实核查就增长了900% [
在这项研究中,我们重点比较了用于准确性分类应用的covid -19相关数据集、一般数据集和组合数据集,并开发了一个成功的双向长短期记忆(Bi-LSTM)机器学习模型(内部和外部验证精度分别达到93%和75%)。当众包的人类标签与机器学习的输出一致时,90%的准确性超过了单独的任何一种方法。我们的研究提供了关键的经验证据,证明少量的人类标签和机器学习可以有效地应对健康虚假信息。
Misinformation的定义是“不正确或误导的信息”[
早期与covid -19相关的研究对于记录关键词、正在出现的主题以及时间模式至关重要[
其他研究使用机器学习方法试图对网上传播的错误信息和虚假信息进行分类[
由于大量与covid -19相关的信息在公共领域传播,自动机器学习识别和分类仍然是大规模检测有害内容的关键方法。六种具有集成学习的机器学习算法被用于研究与covid -19相关的推特数据[
为了帮助解决这一差距,FakeCovid是一个包含5182篇经过事实核查的新闻文章的数据库,使用来自105个国家的40种语言,并使用机器学习对数据进行分类[
用于文本分类的NLP应用包括新闻分类、情绪分析、情绪检测和作者归属[
经典的机器学习模型有一些局限性,包括在提取手工制作的特征的过程中繁琐的特征工程,以及在设计特征时由于它们对领域知识的强烈依赖,难以推广到新的任务[
这项研究的目的是通过自动化、机器学习和可扩展的方法来改善在线错误信息的影响。我们的研究试图回答以下三个核心研究问题(RQs):
我们首先使用CoAID数据集开发了一个分类器[
我们评估了不同的架构、退出、激活函数、优化器、正则化器和批处理大小。我们最终选择了嵌入层、Bi-LSTM层、Dropout层(速率为0.7)和密层(具有1维输出和sigmoid激活函数)。我们使用Adam优化器,其学习率为0.0001,二进制交叉熵损失,批处理大小为1。Bi-LSTM模型有一个内核正则化器
我们模型的所有源代码文件都是公开的开源[
数据集来源和规格。
数据集 | 源 | 时间范围 | 尺寸(文章数量) | 类型 | |||
|
|
|
可信的新闻 | 真实的新闻 | 总计 |
|
|
CoAID一个 | 微博 | 2020年5月1日结束 | 572 |
1324 | 1896 | COVID-19-specific | |
模糊神经网络b | PolitiFact | N/Ac | 472 | 797 | 1270 | 一般新闻 | |
模糊神经网络 | 八卦警察 | N/A | 16818年 | 5335 | 22153年 | 一般新闻 | |
验证数据集1d | Poynter.org(不可信的新闻);华盛顿邮报,美联社,Politico(真实新闻) | 2020年7月20日至8月8日 | 3874 | 3177 | 7051 | COVID-19-specific | |
验证数据集2d | Poynter.org(不可信的新闻);BBC, AXIOS, CBS新闻,环球邮报(真实新闻) | 2020年1月20日至2022年6月15日 | 14398年 | 16232年 | 30630年 | COVID-19-specific |
一个仅使用CoAID数据集中的05-01-2020文件夹。
b模糊神经网络:FakeNewsNet。
cN/A:不适用。
d用" COVID-19 "这个查询词搜出来的
为了开发我们的外部验证数据集,我们使用了Poynter [
我们开发了一些方法来评估只在与COVID-19相关的错误信息数据上训练机器学习模型、只在一般错误信息数据上训练机器学习模型,还是在两者上训练机器学习模型,是否会在新的、未见过的COVID-19数据集上获得最高的性能。在评估一般数据集时,FNN (fennewsnet) [
德克萨斯大学奥斯汀分校机构审查委员会(IRB)于2021年4月20日批准了这项人体受试者研究(STUDY00000962)。获得所有研究参与者的知情同意。
我们从众包平台高产(多产)招募了注释员,对我们创建的数据集中的新闻内容进行投票。在高产上,我们将研究分布设置为“标准样本”,从而将研究启动到整个参与者池[
在完成众包投票后,我们手动处理数据,并使用Python脚本进行可用性处理。我们删除了相同标签的重复投票(两张“真实”投票),以及在高产id报告给我们的id集中找不到的高产id的投票。处理后的数据集有超过6800条内容,“真”或“假”标签至少有3票。我们从Poynter和可信的新闻来源获取最初的事实标签,并将它们映射为0或1。“真”被编码为1,“假”被编码为0。此外,“正确”标签被编码为1(2个标签),所有其他标签被转换为0(690个标签)。将我们的标签映射到0或1允许我们为数据集收集某些指标。中提供了来自众包数据集的一些示例
我们还计算了同意决定的百分比,我们将其定义为众包投票决定的标签与真实标签相同的概率。同意决策的百分比(人类选民准确率)为~0.73,即73%。我们还计算了注释者之间的协议,以确定选民之间的协议。由于每条新闻内容的投票人数不同(从3到7),Cohen和Fleiss κ统计不适合我们的数据集。因此,我们计算了用户之间的一致性百分比,以确定我们数据的评级者之间的可靠性(68.5%)。由于百分比一致不考虑机会一致,我们计算了Krippendorff
鉴于这种高度的可变性,我们接下来评估了我们的众包数据是否真的可以改善机器学习模型的预测。考虑到这一点,我们提出并回答了以下问题:(1)哪种模型最能预测众包标签?(2)与众包标签混合后,模型性能是否会提高?(3)哪种模式与众包标签混合使用效果最好?(4)如果我们只取机器学习模型和人类投票标签一致的数据集子集,预测性能是否会提高?如果是,哪种模型性能最高?
来自众包数据集的例子。
新闻标题 | 地面实况 | 选民软标签一个 | 选民的标签 | 选票 | 结果 | |
|
||||||
|
路透社报道,新冠肺炎疫情阻碍德国推动移民融合 | 1 | 1.0 | 1 | 3. | 被人类正确分类 |
|
图为因新冠肺炎去世的土耳其医生在慕尼黑与孩子的最后一次见面 | 0 | 1.0 | 1 | 4 | 被人类错误分类 |
|
3M请来了另一家游说公司 | 1 | 1.0 | 1 | 5 | 被人类正确分类 |
|
视频显示,意大利政府/布里斯班警方使用僵尸机器人/无人机追捕他们的公民,并让他们呆在家里 | 0 | 0.0 | 0 | 4 | 被人类正确分类 |
|
英国疫苗首次在人体研究中激发免疫反应 | 1 | 0.0 | 0 | 3. | 被人类错误分类 |
|
这段视频显示武汉一名女子正在喝蝙蝠汤 | 0 | 0.0 | 0 | 5 | 被人类正确分类 |
|
||||||
|
西班牙一家医院的急诊科关闭了 | 0 | 0.5 | 1 | 6 | 人为错误分类 |
|
爱丁堡的大多数加里多尼亚酒店工作正在审查中 | 1 | 0.5 | 1 | 4 | 被人类正确分类 |
|
英格兰vs爱尔兰:队长Eoin Morgan在ODI系列中享受“新旅程” | 1 | 0.6 | 1 | 5 | 被人类正确分类 |
|
德国的恐慌景象,人们冲进超市 | 0 | 0.4 | 0 | 5 | 被人类正确分类 |
一个选民软标签数由真标签数/总票数计算。
RQ1询问自动化系统是否可以帮助打击与covid -19相关的错误信息。我们发现机器学习比随机预测准确率更好。我们开发了一个基于CoAID数据集训练的Bi-LSTM模型。具体来说,我们使用了来自CoAID的1257个条目进行训练,并在来自CoAID的419个条目上测试了我们的模型。我们在两个标签上的加权平均f1得分为0.93(精密度、召回率和准确性相同)。使用相同的模型,外部验证结果在我们的数据集上的f1得分为0.75,具有相同的精密度、召回率和准确性。此外,我们对BERT-base、RoBERTa-fake-news、Fake-News-BERT-Detect、XLNet进行了微调,并在7个数据集组合上训练了Text-CNN,并在两个外部验证数据集上进行了测试。结果显示在
RQ2询问,仅在与covid -19相关的错误信息数据、仅在一般错误信息数据上训练机器学习模型,还是在两者上训练机器学习模型,在与covid -19相关的数据上的性能最高。我们发现,机器学习模型受益于covid -19相关数据。具体来说,在7个不同的数据集(见
经典分类模型包括LR、SVM、BNB、隐马尔可夫模型和随机森林[
RQ3询问将众包标签与机器学习模型输出相结合是否比单独的两种方法都提高了准确性。我们发现,将人类投票与机器学习输出相结合,可以让我们创建更高的性能模型。具体来说,深度学习模型能够以高达70%的准确率预测人类投票。将人类投票与机器学习输出相结合,使我们能够创建一个准确率为99.1%的模型。当只考虑模型和人类投票一致的子集时,我们的准确率高达98.59%。
我们首先评估了我们的模型如何预测我们的众包价值或我们从多产标签中生成的标签(见
其次,我们将来自模型的软预测(即概率)和来自众包数据的软投票(结合每个预测的概率,与硬投票相比,选择获得最多选票的预测)结果以不同比例混合,以评估混合后可以实现的最大改进和最高准确性。软投票结果的计算方法是将标签1(可信)的票数除以总票数。结果显示在
A×(来自模型的软预测)+(1-a)×(来自众包数据的软投票结果)
第三,正如上面机器学习分类部分所讨论的,机器学习模型的准确率在41%到98%之间,而人类投票的准确率约为73%。在7051条内容中,39.24%-69.58%(表现最好的模型)在人类投票和机器学习模型中都表现出一致。因此,我们能够将内容从2766个减少到4906个。对于每一段内容,我们将其标签分配给机器学习模型和人类投票都同意的值。使用这种方法,我们的最佳准确率为98.59%(见
在一般主题数据集上训练/微调的模型的性能可以通过众包数据(例如,在大流行病等低数据情况下)得到改善。具体而言,基本模型在整个验证数据集上实现了71.01%的精度。例如,对于子集,我们最多实现了89.96%的准确性(通过对PolitiFact进行微调的BERT-base)。此外,在通用主题和covid -19特定数据集上训练的模型也通过这种方法得到了改进。具体来说,整个数据集的准确率高达89.93%(见
混合模型的准确性分析,在第一个外部验证数据集上进行评估。
度规 | 一个= 0.9 | 一个= 0.7 | 一个= 0.5 | 一个= 0.3 | 一个= 0.1 | ||||||
|
平均改善 | 0.069 | 0.082 | 0.084 | 0.063 | 0.029 | |||||
|
|||||||||||
|
最大的改善 | 0.565 | 0.562 | 0.463 | 0.385 | 0.415 | |||||
|
模型名称 | cnn训练八卦警察 | cnn训练八卦警察 | cnn训练八卦警察 | cnn训练八卦警察 | 假新闻-伯特-侦测在八卦警察上进行了微调 | |||||
|
模型精度(混合前) | 0.426 | 0.426 | 0.426 | 0.426 | 0.302 | |||||
|
模型精度(混合后) | 0.991 | 0.981 | 0.889 | 0.804 | 0.717 | |||||
|
|||||||||||
|
模型名称 | cnn训练CoAID | cnn训练CoAID | cnn接受过CoAID和PolitiFact的培训 | cnn训练八卦警察 | cnn接受过PolitiFact培训 | |||||
|
模型精度(混合前) | 0.874 | 0.874 | 0.798 | 0.426 | 0.499 | |||||
|
模型精度(混合后) | 0.991 | 0.984 | 0.891 | 0.804 | 0.728 |
我们的结果表明,RQ1(询问自动化系统和可扩展策略是否有助于打击错误信息)可以得到肯定的回答。我们训练的模型在我们的第一个外部验证数据集(2020年7月20日至2020年8月8日的约7000个帖子和真实新闻)上的准确率为98%,在我们的第二个验证数据集(2020年1月20日至2022年6月15日的约15,000个帖子和真实新闻)上的准确率为93%。由事实核查员进行标记可能耗时、费力且昂贵,而机器学习模型一旦训练好就可以随意和大规模地使用。这些结果支持了我们的发现:考虑到人类事实核查员负担过重,无法跟上日益增长的在线错误信息数量,机器学习显著改善了事实核查。
关于RQ2(询问哪种数据集对机器学习最有帮助),我们发现针对大流行特定内容的训练/微调往往会导致更高的准确性。具体来说,我们表现最好的模型仅针对COVID-19主题内容进行了微调。我们评估了三个经典模型和五个在七个不同数据集上训练的深度学习模型,包括一个特定主题的数据集(仅CoAID),三个一般主题的数据集(FNN,八卦cop和PolitiFact),以及特定主题和一般主题数据集的三种组合(CoAID和FNN,八卦cop和CoAID, PolitiFact和CoAID)。经典模型在一般主题和特定于covid -19的数据组合(CoAID和PolitiFact的组合)上训练时获得了最佳的准确性,而深度学习PLMs(例如BERT)已经在英语文本上训练过,因此可以被认为已经“研究”了英语语言的行为,在对特定于covid -19的数据集(即CoAID)进行微调时获得了最佳的模型性能。
关于RQ3,询问将众包标签与模型结合是否可以提高模型性能,我们发现将众包标签与模型预测结合可以提高模型性能。混合模型(众包投票与机器学习模型混合)能够达到99.1%的准确率。鉴于众包投票的准确率为73%,而我们的机器学习模型的最高准确率为96.55%,因此我们的结果表明,众包可以与机器学习结合使用来提高准确率。此外,经过一般新闻训练的模型在与用户投票结果混合后可以得到改进,以达到更高的准确性。具体来说,我们发现混合后的改善高达57.1%(参见
未来的工作可以进一步优化我们的机器学习模型,扩展和开发我们的标记数据集。此外,我们希望我们的发现能鼓励其他人开发针对covid -19的虚假信息和虚假信息数据集。随着与covid -19相关的标记数据数量的增加,应进一步评估与covid -19相关的标记数据和一般错误信息数据的组合,并由其他人对其进行基准测试,以提高机器学习模型的准确性。因此,我们的结果将受益于未来工作中使用与covid -19相关和广泛、多主题内容的数据集进行的复制。由于我们只对第一个外部验证数据集(跨度一个月)进行众包投票,未来的工作可以对第二个验证数据集进行众包投票结果,以加强我们结论的有效性。此外,众包数据集的规模相对较小(31441条内容,平均每条4.46票),可以随着票数的积累而加强,增加我们结果的泛化性。因此,未来的工作将受益于将我们的框架扩展到更大的众包数据集。由于收集众包数据可能很耗时,使用机器学习模型来生成伪人类投票可能是加强众包数据集的另一种方法。在为一个小型新闻数据集收集众包数据后,在该数据集上训练的伪人类投票模型可以用于预测更大数据集上的人类标签。这种方法对于没有标签的新闻数据集特别有用,我们可以在没有真实标签的情况下模拟人类投票。
未来的工作还可以衡量使用机器学习模型而不是专家事实核查员是否有足够的优势(考虑到前一种方法允许更便宜和更快的大规模数据标注)。机器学习模型和专业事实核查员的结合也有可能带来更好的结果。例如,事实核查人员可以使用模型标记新闻以加快工作速度,事实核查人员的结果可以用于改进模型。该方法可用于人在回路模型的开发。实时新闻浏览器将新闻与事实核查员的结果或模型预测(如果没有事实核查员可用)一起显示,可以帮助评估可信度,即使错误信息比专家手动检查的要多。最后,未来的工作可以进一步研究众包输出与covid -19相关数据的真实标签之间的关系,这是我们在本研究中进行的最低限度调查。具体来说,未来的工作可以通过探索众包标签和地面真相标签最有可能不一致的场景,来检查人类什么时候更有可能做出错误判断。研究可以探索不同问题领域的众包数据,以确定干预措施最应该关注的问题领域中的错误信息,使用诸如人类投票和实际真相标签之间的分歧等指标。
我们工作的一个局限性是,我们的研究没有严格测试FNN和CoAID模型的所有组合上可能的模型优化上限。另一个较小的限制是,在评估我们的模型时,我们将Poynter数据集中的所有标签都赋值为“假”(除了两个“正确”标签),即使一小部分标签可以被解释为真(<0.5%的标签如“半真”和“大部分真”)。由于每个项目的投票数量和标记数据集的时间跨度,众包数据集的质量可能受到限制。最后,由于时间和资金限制,我们只能对第一个外部验证数据集进行众包投票。
人工事实核查无法应对目前存在的大量与covid -19有关的错误信息[
我们的研究结果还表明,机器学习模型可以通过外行、众包选民的标签来增强,以提高准确性,而无需专家事实核查员的额外输入。将人类投票与模型预测结果混合,准确率高达99.1%(通过将10%的人类投票标签与90%的模型标签相结合)。我们以开源形式发布了7000个与主题相关的数据集,包括事实真相和众包标签、机器学习模型和代码,以促进其他人开发自动化、可扩展的COVID-19信息大流行解决方案。
COVID-19信息疫情应对需要承认,错误信息可能是无定形的和高度分散的。本研究中开发的机器学习和自动化方法依赖于文本特征,使其强大,因为它们可以被扩展(例如,由研究人员或技术公司),以研究存在在线错误信息的各种平台和环境(例如,新闻和社交媒体)。自动化和机器学习能够以准确性的小幅下降换取可扩展性,这是一个重要的考虑因素,因为在COVID-19大流行期间,错误信息的增长超过了事实核查能力。
在第一个外部验证数据集上建模性能。
在第二个外部验证数据集上建立性能模型。
使用经典模型对结果进行基准测试。
双向长短期记忆(Bi-LSTM)模型在CoAID上训练并在众包标签上测试的结果。
BERT-base对众包标签的测试结果。
RoBERTa-Fake-News在众包标签上的测试结果。
在众包标签上测试假新闻伯特检测的结果。
XLNet在众包标签上的测试结果。
Text-CNN在众包标签上的测试结果。
当人类和机器学习投票一致时,在简化的内容集上建模表现。
来自变压器的双向编码器表示
双向长短期记忆
伯努利naïve贝叶斯
卷积神经网络
FakeNewsNet
生成式预训练变压器
机构检讨委员会
逻辑回归
自然语言处理
预训练语言模型
研究问题
支持向量机
作者希望感谢Kami Vinton的深刻评论和建议,以及她对手稿校对的帮助。这项工作得到了Good Systems的支持,这是德克萨斯大学奥斯汀分校的一项研究大挑战,以及德克萨斯大学奥斯汀分校的本科生研究奖学金。
NK和DM共同设计了这项研究,撰写了第一版手稿,并合作获得了众包资金。DM为该项目的深度学习方面获得了进一步的资金支持。NK编写了第一版手稿的所有代码,为第一版手稿进行了实验,收集了众包数据,并为
没有宣布。