这是一篇基于知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首先发表在JMIR infoepidemiology上,并适当引用。必须包括完整的书目信息,到https://infodemiology.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2Ba
在2019冠状病毒病大流行期间,我们每天都接触到大量信息。世界卫生组织将这种“信息流行病”定义为在大流行期间大规模传播误导性或虚假信息。在信息大流行期间,这种错误信息的传播最终导致对公共卫生秩序的误解或对公共政策的直接反对。虽然一直在努力打击错误信息的传播,但目前的人工事实核查方法不足以打击信息泛滥。gydF4y2Ba
我们建议使用自然语言处理(NLP)和机器学习(ML)技术来构建一个模型,该模型可用于在线识别不可靠的新闻文章。gydF4y2Ba
首先,我们对ReCOVery数据集进行预处理,获得2020年1 - 5月2029篇带有COVID-19关键字标签的英文新闻,并将其标记为可靠或不可靠。进行数据探索,以确定可靠和不可靠文章之间的主要差异。我们使用正文以及情感、移情衍生的词汇类别和可读性等特征构建了一个集成深度学习模型,对可靠性进行分类。gydF4y2Ba
我们发现,可靠的新闻文章有更高比例的中性情绪,而不可靠的文章有更高比例的负面情绪。此外,我们的分析表明,除了具有不同的词汇类别和关键词外,可靠的文章比不可靠的文章更容易阅读。我们的新模型评估达到以下性能指标:曲线下面积(AUC) 0.906,特异性0.835,敏感性0.945。这些值高于原始恢复模型的基线性能。gydF4y2Ba
本文确定了可靠和不可靠新闻文章之间的新差异;此外,该模型使用最先进的深度学习技术进行训练。我们的目标是能够利用我们的发现来帮助研究人员和公众更容易地识别日常生活中的虚假信息和不可靠的媒体。gydF4y2Ba
COVID-19大流行的爆发给世界带来了更多的战斗。在“信息大流行”期间,世界面临着铺天盖地的虚假信息,“信息大流行”的定义是在大流行期间传播大量信息,其中包括误导性或虚假信息[gydF4y2Ba
网上大量的虚假或虚假新闻可能是错误信息或虚假信息的实例,而且内容往往缺乏可靠性和可信度[gydF4y2Ba
目前在社交媒体上使用机器学习(ML)进行虚假新闻检测已经得到了广泛的研究。新闻页面的各种文本特征被用来预测文章的可靠性。利用多种特征来预测虚假信息的存在是当前虚假信息检测研究的一个共同主题。使用多个特征可以提高机器学习模型的性能。例如,Reis等[gydF4y2Ba
采用集成方法进一步提高新闻文章中错误信息的检测性能。集成模型的使用可以提高模型泛化到未训练过的数据的能力,从而有利于模型的性能[gydF4y2Ba
本研究旨在通过一个集成深度学习模型,利用ReCOVery数据集对新闻文章的可靠性进行分类,为多方面的虚假信息问题提供一个潜在的解决方案。我们假设新闻文章中的情感、可读性、词汇类别和其他文本特征可以一起作为新闻可靠性分类改进的输入。我们还探讨了可靠信息和不可靠信息在情绪或语气上的差异,这可以用来对文本的可靠性进行分类。我们的研究结果可以促进新闻可靠性分类,帮助研究者和公众在日常生活中识别不可靠的新闻文章。gydF4y2Ba
首先,使用ReCOVery数据集完成数据预处理,包括删除停止词、链接和通用资源定位器(url)以及重复文章(gydF4y2Ba
数据探索和“新模型”构建的工作流程细节(蓝色突出显示)。CNN:卷积神经网络;BiGRU:双向门控循环单元;BiLSTM:双向长短期记忆;GRU:门控循环单元;KNN: k近邻;LR:逻辑回归;LSTM:长短期记忆;NB:朴素贝叶斯;XGBoost:极端梯度增强。gydF4y2Ba
ReCOVery数据集是我们与Twitter帖子相关的新闻文章的主要数据来源[gydF4y2Ba
在进行数据分析之前,对文章文本和tweet数据进行了多次预处理。预处理的目的是清理数据,使深度学习模型能够更有效地检测数据中的模式。对文章文本进行预处理的步骤包括删除重复的文章或推文;常见的停顿词,如“the”和“a”;以及所有链接和非英文字符。除了将首字母缩略词转换为完整术语外,还完成了文章文本的词法编排。gydF4y2Ba
预处理使用Python库,如Pandas和Natural Language Toolkit [gydF4y2Ba
情感分析应用于可靠文章和不可靠文章的正文。这是通过Valence Aware Dictionary和Sentiment Reasoner (VADER)以及TextBlob实现的,它们是用于确定主导情绪、极性和主观性的开源工具[gydF4y2Ba
预处理后,对文章正文进行分析。确定了可靠文章和不可靠文章中最常见的单词。它们以频率条形图的形式呈现,以说明不可靠文章和可靠文章之间的主要区别(gydF4y2Ba
Flesch-Kincaid等级等级是在Flesch-Kincaid阅读轻松指数的基础上修改的一种量表,用于比较每个句子的单词比例和每个单词的音节比例[gydF4y2Ba
使用基于神经网络的词汇库Empath进行主题分析[gydF4y2Ba
不可靠新闻文章中关键词出现次数(N=298,498个单词)。gydF4y2Ba
可靠新闻文章中关键词的出现次数(N= 662290 words)。gydF4y2Ba
Empath(一个基于神经网络的主题分析工具)在可靠和不可靠的新闻文章中选择的十大词汇类别。可靠平均数和不可靠平均数是指每个词汇类别分别被分类为可靠和不可靠的新闻文章的平均数。gydF4y2Ba
词汇范畴gydF4y2Ba |
|
|
可靠平均值(SD)gydF4y2Ba | 不可靠平均值(SD)gydF4y2Ba |
魔法gydF4y2Ba | -7.91 (1992)gydF4y2Ba | <措施gydF4y2Ba | 0.19 (0.60)gydF4y2Ba | 0.51 (1.22)gydF4y2Ba |
权力gydF4y2Ba | -7.16 (1992)gydF4y2Ba | <措施gydF4y2Ba | 1.28 (2.20)gydF4y2Ba | 2.16 (3.24)gydF4y2Ba |
业务gydF4y2Ba | 7.15 (1992)gydF4y2Ba | <措施gydF4y2Ba | 8.58 (10.54)gydF4y2Ba | 5.31 (7.10)gydF4y2Ba |
工作gydF4y2Ba | 6.89 (1992)gydF4y2Ba | <措施gydF4y2Ba | 5.78 (8.82)gydF4y2Ba | 3.28 (3.89)gydF4y2Ba |
满足gydF4y2Ba | 6.18 (1992)gydF4y2Ba | <措施gydF4y2Ba | 0.70 (1.61)gydF4y2Ba | 0.29 (0.72)gydF4y2Ba |
办公室gydF4y2Ba | 6.14 (1992)gydF4y2Ba | <措施gydF4y2Ba | 3.02 (4.37)gydF4y2Ba | 1.88 (2.60)gydF4y2Ba |
争端gydF4y2Ba | -6.11 (1992)gydF4y2Ba | <措施gydF4y2Ba | 1.58 (2.48)gydF4y2Ba | 2.35 (2.94)gydF4y2Ba |
早....gydF4y2Ba | 5.87 (1992)gydF4y2Ba | <措施gydF4y2Ba | 1.06 (1.87)gydF4y2Ba | 0.59 (1.11)gydF4y2Ba |
传说gydF4y2Ba | -5.85 (1992)gydF4y2Ba | <措施gydF4y2Ba | 0.34 (0.92)gydF4y2Ba | 0.64 (1.31)gydF4y2Ba |
蓝领工作gydF4y2Ba | 5.83 (1992)gydF4y2Ba | <措施gydF4y2Ba | 0.62 (1.75)gydF4y2Ba | 0.21 (0.68)gydF4y2Ba |
由于ML模型只接受数字输入,因此必须对文本数据进行标记。这个过程涉及到一个单词索引字典,其中数据集中的每个单词都被转换为一个数值或索引,该数值或索引对应于字典中的单词。例如,像“冠状病毒”这样的单词可能会作为值1234呈现给ML模型。由于每个唯一的单词创建一个唯一的索引号,数据集中的“词汇表”或唯一单词的总数可能是一个问题,特别是在数据集很大的情况下,因为在数据集中出现一次或两次的单词通常对模型的有效性没有贡献。我们将训练数据中的38,663个唯一单词的词汇量限制为20,000(51.73%)。这排除了在数据集中只使用一次的单词,因为这些单词对模型没有用处——齐夫定律重申,词汇量越大,回报就越小,因为我们经常使用他们总词汇量的一小部分[gydF4y2Ba
在标记化之后,使用词嵌入(一种无监督机器学习)来处理数据。词嵌入将单个词的数据点放入高维的嵌入空间中。在这个嵌入空间中,每个单词被表示为一个向量,其中彼此相似的单词被放置在很近的位置。因此,词嵌入允许对相似词之间的隐藏关系进行量化,以用于ML分析。虽然可以在我们的数据集上训练和拟合一个新的词嵌入层,但是已经有了更有效的预训练词嵌入模型。对于文章文本数据,我们利用了Global Vectors For Word Representation (GloVE),这是一种常用的词嵌入模型,它训练了数十万篇维基百科文章,这些文章的嵌入空间为100维[gydF4y2Ba
数据被随机分为深度学习的训练、测试和验证子集。这些子集的比例分别为8:1:1。在1994篇文章中,1595篇(79.99%)属于训练子集,199篇(9.98%)属于验证子集,200篇(10.03%)属于测试子集。训练和验证数据用于建立模型,对可靠和不可靠的文章进行分类,而测试数据用于评估模型的性能。对数据进行分割,然后进行模型训练和评估,重复10次,使每篇文章都能包含在训练集中。在每组训练中获得的性能指标之间取平均值。我们在数据集上评估了多个ML模型(NB、KNNs、LR、LSTM、GRU、BiLSTM、BiGRU和CNN)的性能,以确定可靠性检测的最佳模型。通过实验或使用Gridsearch对设置或超参数进行了优化,Gridsearch测试了上述每个ML模型的超参数的所有组合。gydF4y2Ba
最后,我们使用经过轻度训练的BiGRU开发了一个集成模型来生成初始可靠性预测,然后将其与文本特征、可读性、情感和移情分类的词汇类别相结合。然后将其用于训练具有10倍交叉验证的XGBoost模型。gydF4y2Ba
本文使用了几个依赖于混淆矩阵结果的评价指标。这些指标来源于模型的正确预测,如真阳性(TP)和真阴性(TN),以及不正确的预测,如假阳性(FP)和假阴性(FN)。准确性是正确预测的总比例,但是当存在类别不平衡时,这个评估指标就不那么有效了。灵敏度是指正确预测不可靠条目的比例,特异性是指正确预测可靠条目的比例。AUC分数显示了模型在不同TP和FP速率下的性能[gydF4y2Ba
本文使用的数据不需要伦理审批,因为它们是通过开放获取的ReCOVery数据集GitHub访问的,如Zhou等人引用的[gydF4y2Ba
执行数据探索,并将可读性、情感和词汇类别等特征与完整的新闻文章文本数据相结合,以训练集成模型。利用1346篇可靠文章和648篇不可靠文章,建立了使用BiGRU和XGBoost的集成方法。gydF4y2Ba
在数据挖掘过程中,我们发现不可靠文章的平均文本长度(平均单词长度和句子长度)比可靠文章的平均文本长度(gydF4y2Ba
可靠(N=1346)和不可靠(N=648)在线新闻文章的文本长度和可读性指标。文本长度表示为平均句子长度和平均单词长度。可读性用Flesch-Kincaid等级水平、Dale-Chall可读性指数、ARI来表示gydF4y2Ba一个gydF4y2Ba、Coleman-Liau指数、Gunning fog指数和Linsear Write指数。gydF4y2Ba
指标gydF4y2Ba | 可靠平均值(SD)gydF4y2Ba | 不可靠平均值(SD)gydF4y2Ba |
|
|
平均字长(字符)gydF4y2Ba | 6.14 (0.27)gydF4y2Ba | 6.32 (1.66)gydF4y2Ba | -3.93 (1992)gydF4y2Ba | <措施gydF4y2Ba |
平均句子长度(单词)gydF4y2Ba | 23.67 (5.17)gydF4y2Ba | 26.38 (7.06)gydF4y2Ba | -9.70 (1992)gydF4y2Ba | <措施gydF4y2Ba |
flesch - kinkaid等级gydF4y2Ba | 12.68 (2.63)gydF4y2Ba | 14.39 (3.37)gydF4y2Ba | -12.38 (1992)gydF4y2Ba | <措施gydF4y2Ba |
射雾指数gydF4y2Ba | 14.87 (2.72)gydF4y2Ba | 16.42 (3.33)gydF4y2Ba | -11.00 (1992)gydF4y2Ba | <措施gydF4y2Ba |
Coleman-Liau指数gydF4y2Ba | 10.85 (1.87)gydF4y2Ba | 11.82 (2.46)gydF4y2Ba | -9.72 (1992)gydF4y2Ba | <措施gydF4y2Ba |
Dale-Chall指数gydF4y2Ba | 10.21 (0.96)gydF4y2Ba | 10.70 (1.02)gydF4y2Ba | -10.53 (1992)gydF4y2Ba | <措施gydF4y2Ba |
阿里gydF4y2Ba | 13.41 (3.30)gydF4y2Ba | 15.43 (4.47)gydF4y2Ba | -11.41 (1992)gydF4y2Ba | <措施gydF4y2Ba |
Linsear写索引gydF4y2Ba | 16.42 (4.02)gydF4y2Ba | 18.73 (5.31)gydF4y2Ba | -10.80 (1992)gydF4y2Ba | <措施gydF4y2Ba |
一个gydF4y2BaARI:自动可读性索引。gydF4y2Ba
可靠新闻(N=1346)和不可靠新闻(N=648)的句子情感极性比较(0=兴趣情感表达最少,1=兴趣情感表达最多)具有积极、中性和消极情绪的句子的频率差异采用2样本独立分析gydF4y2Ba
情绪gydF4y2Ba | 可靠平均值(SD)gydF4y2Ba | 不可靠平均值(SD)gydF4y2Ba |
|
|
负gydF4y2Ba | 0.066 (0.042)gydF4y2Ba | 0.076 (0.039)gydF4y2Ba | -5.46 (1992)gydF4y2Ba | <措施gydF4y2Ba |
中性gydF4y2Ba | 0.850 (0.054)gydF4y2Ba | 0.840 (0.050)gydF4y2Ba | 4.37 (1992)gydF4y2Ba | <措施gydF4y2Ba |
积极的gydF4y2Ba | 0.084 (0.035)gydF4y2Ba | 0.085 (0.035)gydF4y2Ba | -0.095 (1992)gydF4y2Ba | .92gydF4y2Ba |
去除停止词后,对可靠文章和不可靠文章中出现频率最高的词进行检测。可靠文章和不可靠文章的最高词频以频率条形图(gydF4y2Ba
使用VADER,文章中的句子被分为积极、中性和消极情绪。情绪得分范围从0到1,1表示强烈表达感兴趣的情绪。对于可靠的文章,消极、中性和积极情绪得分的平均值分别为0.066 (SD 0.042)、0.850 (SD 0.054)和0.084 (SD 0.035) (gydF4y2Ba
将报纸文章数据通过GloVE词嵌入后,将文本数据拆分10倍进行交叉验证。传统的机器学习模型包括LR、knn和NB。AUC值(gydF4y2Ba
然后,对深度学习模型进行拟合。每个模型在训练前都包含GloVE词嵌入。使用ML Python scikit-learn库中的GridSearchCV完成深度学习模型的超参数优化。优化的超参数包括批大小、epoch、dropout率、神经元数、优化器类型、学习率和激活函数类型。每个模型都有不同的产生最佳结果的超参数。gydF4y2Ba
评估的深度学习模型有LSTM、GRU、BiLSTM、BiGRU和CNN。与传统的ML模型类似,AUC、特异性和召回率被确定为性能指标(gydF4y2Ba
最后,利用BiGRU和XGBoost建立了集成模型。我们的新模型首先在ReCOVery测试子集上进行了评估。为我们的新模型生成了一个混淆矩阵,如下所示gydF4y2Ba
传统ML模型(KNN, LR,NB)和深度学习模型(BiLSTM, CNN, LSTM, BiGRU, GRU, new model)的Receiver operating characteristic (ROC)曲线和AUC分数对应颜色。AUC:曲线下面积;BiGRU:双向门控循环单元;BiLSTM:双向长短期记忆;CNN:卷积神经网络;FP:假阳性;GRU:门控循环单元;KNN: k近邻;LR:逻辑回归;LSTM:长短期记忆; ML: machine learning; NB: naive Bayes; TP: true positive.
用于传统ML的ReCOVery验证数据集的性能指标gydF4y2Ba一个gydF4y2Ba模型(资讯gydF4y2BabgydF4y2Ba, LRgydF4y2BacgydF4y2Ba,注gydF4y2BadgydF4y2Ba),以及深度学习模型(BiLSTM)gydF4y2BaegydF4y2Ba, CNNgydF4y2BafgydF4y2Ba, LSTMgydF4y2BaggydF4y2Ba, BiGRUgydF4y2BahgydF4y2Ba,格鲁gydF4y2Ba我gydF4y2Ba(新型号)。gydF4y2Ba
模型gydF4y2Ba | 特异性gydF4y2Ba | 灵敏度gydF4y2Ba | AUCgydF4y2BajgydF4y2Ba |
LRgydF4y2Ba | 0.720gydF4y2Ba | 0.575gydF4y2Ba | 0.563gydF4y2Ba |
然而,gydF4y2Ba | 0.660gydF4y2Ba | 0.739gydF4y2Ba | 0.530gydF4y2Ba |
注gydF4y2Ba | 0.700gydF4y2Ba | 0.627gydF4y2Ba | 0.553gydF4y2Ba |
BiLSTMgydF4y2Ba | 0.810gydF4y2Ba | 0.925gydF4y2Ba | 0.892gydF4y2Ba |
美国有线电视新闻网gydF4y2Ba | 0.792gydF4y2Ba | 0.851gydF4y2Ba | 0.789gydF4y2Ba |
LSTMgydF4y2Ba | 0.829gydF4y2Ba | 0.903gydF4y2Ba | 0.883gydF4y2Ba |
BiGRUgydF4y2Ba | 0.791gydF4y2Ba | 0.963gydF4y2Ba | 0.868gydF4y2Ba |
格勒乌gydF4y2Ba | 0.804gydF4y2Ba | 0.918gydF4y2Ba | 0.878gydF4y2Ba |
新模型gydF4y2Ba | 0.835gydF4y2Ba | 0.945gydF4y2Ba | 0.906gydF4y2Ba |
一个gydF4y2BaML:机器学习。gydF4y2Ba
bgydF4y2Bak近邻。gydF4y2Ba
cgydF4y2BaLR:逻辑回归。gydF4y2Ba
dgydF4y2Ba注意:朴素贝叶斯。gydF4y2Ba
egydF4y2Ba双向长短期记忆。gydF4y2Ba
fgydF4y2BaCNN:卷积神经网络。gydF4y2Ba
ggydF4y2BaLSTM:长短期记忆。gydF4y2Ba
hgydF4y2BaBiGRU:双向门控循环单元。gydF4y2Ba
我gydF4y2BaGRU:门控循环单元。gydF4y2Ba
jgydF4y2BaAUC:曲线下面积。gydF4y2Ba
使用BiGRU和XGBoost训练的新集成模型上恢复验证子集的混淆矩阵。BiGRU:双向门控循环单元;XGBoost:极端梯度增强。gydF4y2Ba
本研究使用ReCOVery数据集,建立了一个与BiGRU和XGBoost集成的文本可靠性分类模型,其特异性、灵敏度和AUC分别为0.835、0.945和0.906 [gydF4y2Ba
在使用新闻文章构建分类模型时,一个重要的考虑因素是模型的可泛化性。为了确保模型是可泛化的,用于训练模型的数据在本质上必须是多样化的。许多深度学习错误信息检测研究的一个缺点是专注于从狭窄的新闻来源或地点检测错误信息[gydF4y2Ba
由于VADER具有较高的准确性,因此在基于词典的水平上使用它来评估情感gydF4y2Ba
从可靠新闻文章和不可靠新闻文章的分布可以看出,与不可靠的文章相比,可靠的文章包含的负面情绪较少,因为它们的负面情绪极性得分较低(gydF4y2Ba
我们观察到中立可靠文章和中立不可靠文章的数量存在差异,与不可靠文章相比,可靠文章中的中立情绪更多(gydF4y2Ba
由于上述原因,可靠文本和不可靠文本之间的情感效价不同,许多ML研究将情感作为一种特征来预测在线各种书面信息中的错误信息[gydF4y2Ba
观察到两组之间的单词本身非常相似,因为可靠和不可靠来源的主题都是相同的:COVID-19。此外,许多最频繁出现的词仅仅是过渡词,这些词很可能在大多数英语文学中找到。gydF4y2Ba
有趣的是,在可靠来源中出现频率最高的单词是“said”(gydF4y2Ba
我们决定探索并包含在最终深度学习模型中的另一个特性是新闻文章的可读性和长度。可读性已被证明可以预测错误信息。在Santos等人的研究中gydF4y2Ba
在最初的ReCOVery研究中,Zhou等[gydF4y2Ba
在我们最终提出的模型中,带有XGBoost和特征工程的BiGRU是性能最好的模型。BiGRU擅长捕获长序列的时间数据,因为双向模型可以更好地捕获文本的上下文[gydF4y2Ba
我们调查的一个优势在于,它不仅有创建可靠性预测的深度学习模型的主要目标,而且还确定了可靠和不可靠新闻文章的文本和情感的重要趋势。只关注深度学习模型的调查有一个“黑箱”问题,即深度学习模型使用的机制是不可见的,并且包含在其许多复杂的隐藏层中[gydF4y2Ba
有许多方法可以进一步完善我们的项目。首先,扩大可用数据的总数将是有价值的,因为可靠来源的数据几乎是不可靠来源的两倍。此外,能够抓取Facebook帖子和Reddit帖子将允许我们扩大访问范围并评估其他高流量信息源。纳入聚类模型还将增加我们搜索的特异性,并创建一个更准确的模型,在确定可靠性时可以考虑正在讨论的COVID-19的哪个方面。正如结果所示,由于我们的模型具有很高的准确性,我们的模型可以作为一个web应用程序进行商业化,使用户可以高度自信地评估他们正在阅读的文章的可靠性。此外,它还可以用来确定一篇文章的情感评分,以确定他们是否想要参与该特定的文献。gydF4y2Ba
虽然这个模型专门识别与covid -19相关的信息,但它也可以接受其他类型的错误信息的训练。如前所述,目前大多数打击网络错误信息的方法都是通过使用人工审核的事实核查网站。例子包括Twitter的Birdwatch项目,独立用户可以标记他们认为不可信的帖子。gydF4y2Ba
总之,我们证明了可读性、情感、文本特征和词汇类别对于区分可靠和不可靠的新闻文章很重要,因为研究表明,不可靠的文章可读性较差,有更多的负面情绪,并且有更多的政治词汇类别。使用我们的新集成深度学习模型,使用上述特征在原始ReCOVery数据集中实现高于基线的性能,其特异性、灵敏度和AUC分别为0.835、0.945和0.906。因此,使用我们的新模型的可读性、情感和词汇类别的应用程序可以帮助确定新闻文章的可靠性,并更好地改进不使用这些特性的现有模型。gydF4y2Ba
COVID-19凸显了为新闻文章开发自动化可靠性评估器的重要性,因为人为调节的事实核查方法可能效率低下。因为可读性、情感和词汇类别可以用来改进现有的可靠性分类模型,我们表明自动化可靠性检测可能是未来确定新文章可靠性的另一种方法,这将帮助新闻读者识别包含潜在不可靠信息的文章。gydF4y2Ba
可靠和不可靠新闻文章的共情分类的平均(SDs)分数。gydF4y2Ba
联合循环和卷积神经网络gydF4y2Ba
自动可读性索引gydF4y2Ba
曲线下面积gydF4y2Ba
双向门控循环单元gydF4y2Ba
双向长短期记忆gydF4y2Ba
卷积神经网络gydF4y2Ba
假阴性gydF4y2Ba
假阳性gydF4y2Ba
单词表示的全局向量gydF4y2Ba
门控循环装置gydF4y2Ba
再gydF4y2Ba
逻辑回归gydF4y2Ba
长短期记忆gydF4y2Ba
机器学习gydF4y2Ba
朴素贝叶斯gydF4y2Ba
自然语言处理gydF4y2Ba
支持向量机gydF4y2Ba
真正的负gydF4y2Ba
真阳性gydF4y2Ba
价感知词典和情感推理器gydF4y2Ba
极端梯度增压gydF4y2Ba
我们要感谢科学、技术、工程和数学(STEM)奖学金团队组织了2021年全国大学生大数据挑战,并感谢JMIR赞助了本出版物。gydF4y2Ba
没有宣布。gydF4y2Ba