卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIRgydF4y2Ba

J医疗互联网服务gydF4y2Ba

医学互联网研究杂志gydF4y2Ba

1438 - 8871gydF4y2Ba

卡塔尔世界杯8强波胆分析

加拿大多伦多gydF4y2Ba

v24i12e38859gydF4y2Ba

36563029gydF4y2Ba

10.2196/38859gydF4y2Ba

原始论文gydF4y2Ba

使用结构化和非结构化数据预测临床试验的发表:模型开发和验证研究gydF4y2Ba

EysenbachgydF4y2Ba

冈瑟gydF4y2Ba

邓恩gydF4y2Ba

亚当gydF4y2Ba

赛义德gydF4y2Ba

MahanazuddingydF4y2Ba

张gydF4y2Ba

荣gydF4y2Ba

王gydF4y2Ba

泗阳gydF4y2Ba

MScgydF4y2Ba 1gydF4y2Ba

https://orcid.org/0000-0001-9412-9865gydF4y2Ba

Š科大gydF4y2Ba

西蒙gydF4y2Ba

博士学位gydF4y2Ba 1gydF4y2Ba

计算机与信息系统学院“，gydF4y2Ba 墨尔本大学gydF4y2Ba

ParkvillegydF4y2Ba

墨尔本,3000gydF4y2Ba

澳大利亚gydF4y2Ba 61 40834491gydF4y2Ba simon.suster@unimelb.edu.augydF4y2Ba

https://orcid.org/0000-0002-8817-8545gydF4y2Ba

鲍德温gydF4y2Ba

蒂莫西gydF4y2Ba

博士学位gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba

https://orcid.org/0000-0003-4525-6950gydF4y2Ba

VerspoorgydF4y2Ba

卡琳gydF4y2Ba

博士学位gydF4y2Ba 3.gydF4y2Ba

https://orcid.org/0000-0002-8661-1544gydF4y2Ba

1gydF4y2Ba 计算机与信息系统学院“，gydF4y2Ba 墨尔本大学gydF4y2Ba

墨尔本gydF4y2Ba

澳大利亚gydF4y2Ba 2gydF4y2Ba 穆罕默德·本·扎耶德人工智能大学gydF4y2Ba

阿布扎比gydF4y2Ba

阿拉伯联合酋长国gydF4y2Ba 3.gydF4y2Ba 计算机技术学院gydF4y2Ba 皇家墨尔本理工大学gydF4y2Ba

墨尔本gydF4y2Ba

澳大利亚gydF4y2Ba

通讯作者:Simon ŠustergydF4y2Ba simon.suster@unimelb.edu.augydF4y2Ba

12gydF4y2Ba 2022gydF4y2Ba

23gydF4y2Ba 12gydF4y2Ba 2022gydF4y2Ba

24gydF4y2Ba 12gydF4y2Ba

e38859gydF4y2Ba

19gydF4y2Ba 4gydF4y2Ba 2022gydF4y2Ba 13gydF4y2Ba 7gydF4y2Ba 2022gydF4y2Ba 14gydF4y2Ba 10gydF4y2Ba 2022gydF4y2Ba 16gydF4y2Ba 11gydF4y2Ba 2022gydF4y2Ba

©Siyang Wang, Simon Šuster, Timothy Baldwin, Karin Verspoor。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2022年12月23日。gydF4y2Ba

2022gydF4y2Ba

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。gydF4y2Ba

背景gydF4y2Ba

发表已注册的临床试验是及时传播试验结果的关键步骤。然而，很大一部分已完成的临床试验从未发表，这促使人们需要分析成功或失败背后的因素。这可以为研究设计提供信息，帮助监管决策，并改善资源配置。它还可以增强我们对试验发表偏倚的理解，以及基于研究方向或结果强度的发表趋势。虽然临床试验的发表在一些描述性研究中已经在总体水平上得到了解决，但在给出单个(计划的)临床试验描述时，缺乏对试验可发表性的预测分析的研究。gydF4y2Ba

客观的gydF4y2Ba

我们的目标是进行一项研究，将与出版状态相关的结构化和非结构化特征结合在一个单一的预测方法中。现有的自然语言处理技术以及最近预训练的语言模型使我们能够将临床试验的文本描述中的信息合并到机器学习方法中。我们特别感兴趣的是，哪些文本特征可以提高出版结果的分类精度。gydF4y2Ba

方法gydF4y2Ba

在本研究中，我们使用来自ClinicalTrials.gov(临床试验注册库)和MEDLINE(学术期刊文章数据库)的元数据构建了一个临床试验数据集(N=76,950)，其中包含已注册试验的描述及其发表结果(27,702/76,950,36%已发表，49248 /76,950,64%未发表)。这是同类中最大的数据集，我们将其作为这项工作的一部分发布。数据集中的发表结果是根据临床试验标识符从MEDLINE确定的。我们进行了描述性分析，并使用两种方法预测出版结果:具有大型领域特定语言模型的神经网络和使用文本加权词袋表示的随机森林分类器。gydF4y2Ba

结果gydF4y2Ba

首先，我们对新创建的数据集的分析证实了现有文献中关于与较高发表率相关的属性的几个发现。其次，从我们的预测模型中观察到的一个关键现象是，添加文本特征(例如，资格标准)比仅使用结构化数据提供了一致的改进(gydF4y2Ba FgydF4y2Ba_1gydF4y2Ba分数= 0.62 - -0.64 vsgydF4y2Ba FgydF4y2Ba_1gydF4y2Ba-score=0.61，无文本特征)。预训练的语言模型和更基本的基于单词的表示都提供了高效用的文本表示，两者之间没有显著的经验差异。gydF4y2Ba

结论gydF4y2Ba

不同的因素会影响已注册临床试验的发表。我们的预测建模方法结合了异构特征，包括结构化和非结构化。我们表明，来自自然语言处理的方法可以提供有效的文本特征，从而更准确地预测出版成功，这在以前的这项任务中没有被探索过。gydF4y2Ba

临床试验gydF4y2Ba 研究特点gydF4y2Ba 机器学习gydF4y2Ba 自然语言处理gydF4y2Ba 预训练语言模型gydF4y2Ba 发布成功gydF4y2Ba

简介gydF4y2Ba 背景gydF4y2Ba

严格进行的随机对照试验提供了最高水平的科学证据，使医疗从业人员能够为患者提供更好的护理，并最终改善公共卫生。可用的、可发现的和可获取的临床研究结果对于成功地将发现转化为循证实践和进一步研究是必要的[gydF4y2Ba 1gydF4y2Ba］．近年来，临床试验注册的改进意味着根据各种元数据可以发现和搜索的试验比以往任何时候都要多。然而，注册并没有提供有关研究执行和结果的重要方面的详细信息，例如结果的说明和所有结果出版物的指针[gydF4y2Ba 2gydF4y2Ba］．由完成的临床试验产生的科学出版物提供了一种全面传播研究结果的手段，这对于支持后续的临床试验、增加研究合作的可能性以及推进医疗实践和研究至关重要[gydF4y2Ba 3.gydF4y2Ba］．除了研究结果外，在出版物中提供的关于研究方法的详细信息对于临床实践中评估临床证据的有效性、可靠性和适用性也至关重要[gydF4y2Ba 4gydF4y2Ba］．gydF4y2Ba

尽管发表很重要，但许多临床试验从未发表。试验发表率的估计值因医学领域和随访时间长短而异。总体而言，发表率在52%至77%之间[gydF4y2Ba 5gydF4y2Ba-gydF4y2Ba 8gydF4y2Ba］．在临床试验完成后30个月的较短随访期的基础上，该比率往往较低，约为11%至46% [gydF4y2Ba 3.gydF4y2Ba，gydF4y2Ba 6gydF4y2Ba，gydF4y2Ba 9gydF4y2Ba］．如果结果不公布、大大推迟，或根据研究结果的方向或强度有选择地公布，则卫生保健专业人员和消费者根据现有全部证据作出知情决定的能力就会受到阻碍[gydF4y2Ba 10gydF4y2Ba，gydF4y2Ba 11gydF4y2Ba］．证据基础上的这种差距可能导致使用无效或有害的干预措施，并可能浪费稀缺的卫生保健资源。Eyding等人的一项研究[gydF4y2Ba 12gydF4y2Ba研究人员发现，当荟萃分析纳入未发表的研究时，抗抑郁药瑞波西汀在治疗重度抑郁症方面的不良反应更多，但疗效并不比安慰剂更好，这与只纳入已发表的研究时的结果不同。一些研究人员也提出了更多的伦理问题[gydF4y2Ba 7gydF4y2Ba，gydF4y2Ba 13gydF4y2Ba]，强调在不发表的情况下，试验参与者仍然面临参与的风险，但没有研究结果传播带来的社会效益。gydF4y2Ba

在这项工作中，我们通过基于大量临床试验数据集和相关文献的临床试验发表结果预测建模工具，探索影响单个临床试验结果发表的因素。采用这种方法提供了一种机制，既可以预测给定试验的发表结果，也可以确定驱动这些结果的关键因素。gydF4y2Ba

现有工作及贡献gydF4y2Ba 出版成果研究gydF4y2Ba

许多研究讨论了临床试验的发表率及其影响因素。然而，以往的研究采用不同的统计分析方法来检验研究特征与临床试验发表结果之间的关系。现有的研究分析了少量的临床试验(以数百为数量级)[gydF4y2Ba 3.gydF4y2Ba，gydF4y2Ba 7gydF4y2Ba，gydF4y2Ba 14gydF4y2Ba]或只纳入特定人群的临床试验(如儿童或癌症患者[gydF4y2Ba 5gydF4y2Ba，gydF4y2Ba 15gydF4y2Ba，gydF4y2Ba 16gydF4y2Ba])。相反，在我们的工作中，我们专注于接近出版结果的建模gydF4y2Ba 通过预测镜头gydF4y2Ba，尽管我们也提供了描述性分析，以更好地描述我们开发的数据集。我们的分析检查了可能影响出版结果的因素，没有任何关于人群或医学专业的限制，因此更普遍。gydF4y2Ba

许多研究集中在分析和纠正ClinicalTrials.gov和PubMed之间的链接质量[gydF4y2Ba 17gydF4y2Ba-gydF4y2Ba 22gydF4y2Ba］．不完整链接的存在可能会阻碍测量发表和结果报告偏差的努力，并确定相关试验进行系统评价。因此，使用自然语言处理(NLP)技术对文章进行排名并允许人类扫描排名靠前的文档的半自动方法在支持有效识别临床试验出版物方面很有价值[gydF4y2Ba 17gydF4y2Ba，gydF4y2Ba 18gydF4y2Ba］．gydF4y2Ba

影响出版的因素gydF4y2Ba

已有多种因素被确定为影响发表结果的因素，可总结如下:(1)大型临床试验和由非商业资助的临床试验更有可能被发表[gydF4y2Ba 8gydF4y2Ba，gydF4y2Ba 13gydF4y2Ba，gydF4y2Ba 23gydF4y2Ba];(2)行业资助的临床试验不太可能以出版物的形式出现[gydF4y2Ba 7gydF4y2Ba];(3)发表可能性与研究结果的方向和意义相关[gydF4y2Ba 11gydF4y2Ba，gydF4y2Ba 24gydF4y2Ba]，尽管将这种发表偏倚归因于期刊拒绝还是研究者缺乏时间和兴趣一直存在争议[gydF4y2Ba 7gydF4y2Ba];(4)研究的进行地点可能会影响发表的机会[gydF4y2Ba 23gydF4y2Ba];(5)某些领域的发表率较高，如神经病学和精神病学[gydF4y2Ba 13gydF4y2Ba(在某些情况下，这可能与子领域的存在有关，例如血管神经学，小众期刊允许更容易传播[gydF4y2Ba 25gydF4y2Ba]);(6)作者缺乏时间和资源，甚至合作者之间的分歧，在文献中被提到是潜在的因素[gydF4y2Ba 26gydF4y2Ba]但在临床试验的描述中没有直接捕捉到，因此很难量化。gydF4y2Ba

完成状态和药物批准研究gydF4y2Ba

虽然我们不知道有任何工作在预测框架内分析可发布性，但几个相关问题已被视为分类问题[gydF4y2Ba 27gydF4y2Ba-gydF4y2Ba 29gydF4y2Ba］．其中一项任务就是预测临床试验的完成情况。就不希望出现的后果而言，未完成可以被视为与未发表类似。一项未完成的临床试验通常仍涉及大量的财政资源，因此确保决策者在临床试验的早期阶段意识到终止或不发表的可能性是有意义的，这可能会改变研究设计。不可否认，拥有这样的预测能力意味着决策者肩负着额外的责任，考虑潜在的非发表性，并有能力解释这种预测模型的输出。还需要持续注意，以减轻模型及其使用中的潜在偏差[gydF4y2Ba 30.gydF4y2Ba，gydF4y2Ba 31gydF4y2Ba］．gydF4y2Ba

与发表结果预测相关的另一项任务是，在临床试验中研究的药物干预是否会导致该药物获得批准。结构化数据上的机器学习(ML)已经在这种情况下进行了探索[gydF4y2Ba 32gydF4y2Ba-gydF4y2Ba 34gydF4y2Ba]，依据与药物和试验特征有关的特征，以及与适应症有关的商业数据。罗等[gydF4y2Ba 33gydF4y2Ba]提出了一个大型数据集，包括近16,000个2期试验中6000个药物指征对的批准结果。虽然这代表了将监督ML应用于药物批准的最大数据收集，但我们的任务更一般(涉及临床试验，而不需要确定药物指征对)，允许我们包括更多与发表结果配对的临床试验。gydF4y2Ba

与关于发表状态的描述性研究相比，关于试验完成和药物批准的研究确实在建模中包含了来自试验描述的文本输入，这比单独使用结构化特征具有更好的敏感性和特异性[gydF4y2Ba 27gydF4y2Ba，gydF4y2Ba 35gydF4y2Ba］．这些研究通常使用相对简单的方法来表示文本。Elkin和Zhu [gydF4y2Ba 27gydF4y2Ba]包括词嵌入功能[gydF4y2Ba 36gydF4y2Ba，gydF4y2Ba 37gydF4y2Ba]用于预测试验完成，但只使用静态单词表示，而不是从预训练语言模型中获得的更高级的上下文化单词表示[gydF4y2Ba 38gydF4y2Ba，gydF4y2Ba 39gydF4y2Ba］．在药物批准预测中，Feijoo等人研究了在非结构化输入数据上构建的特征[gydF4y2Ba 35gydF4y2Ba他专注于预测药物在临床试验阶段的转变。作者使用简单的模式匹配来开发资格标准复杂性度量，根据纳入和排除标准的数量来定义。尽管这些标准被证明是有用的(标准的数量越多，试验失败的风险越高)，但它们的表现仍然相当初级。在我们的工作中，我们使用最先进的NLP技术来包含资格标准，这些技术可以捕获资格标准的含义。gydF4y2Ba

贡献gydF4y2Ba

我们构建并提供了一个新的数据集，提供了在ClinicalTrials.gov上注册的临床试验的发表结果。这是迄今为止同类数据中最大的一组。gydF4y2Ba

在单个ML模型中使用数值、分类和文本输入特征预测临床试验的发表状态，可得到曲线下面积(AUC)为>0.7的分类性能。我们发现，注册试验的文本描述是一个重要的信息来源，并且可以有效地使用NLP技术表示。gydF4y2Ba

我们发现缺乏研究的出版在一个gydF4y2Ba 预测gydF4y2Ba框架。因此，我们确认了几个已知的因素gydF4y2Ba 描述性的gydF4y2Ba研究对出版结果的影响和确定gydF4y2Ba 新gydF4y2Ba来自临床试验的文本描述(例如，资格标准)。我们的工作为一项技术奠定了基础，该技术将通过为给定的试验提供导致特定出版结果的突出特征，来支持试验计划和决策。这种技术如何能最大限度地使试验开发人员受益，增加其前瞻性研究的价值，应该是未来研究的主题。gydF4y2Ba

方法gydF4y2Ba 自动构造数据集gydF4y2Ba

在我们的工作中，我们使用了两个主要资源:最大的临床试验注册表ClinicalTrials.gov和MEDLINE，一个学术期刊文章的书目数据库。对于这两个数据源，我们使用了截至2020年8月研究开始时可用的XML数据转储[gydF4y2Ba 40gydF4y2Ba，gydF4y2Ba 41gydF4y2Ba］．为了找出哪些临床试验实际上被发表了，我们采用了一个两步程序，并对每一步中发现的临床试验发表链接进行联合。第一步是识别所有直接列在临床试验注册表中的PubMed文章id。然而，由于一些临床试验缺乏这方面的信息，我们也在出版物本身中寻找临床试验相关的信息(第二步)。我们在数据库列表中找到MEDLINE中的信息，从中检索临床试验标识符，前提是数据库名称等于“clinicaltrials.gov”。要考虑一个已发表的试验，我们要求MEDLINE中至少有一个与之相关的出版物。如果一个试验有多个相关的出版物，则为每个出版物创建额外的对。gydF4y2Ba

最终结果是临床试验ID和PubMed文章ID值之间的映射(gydF4y2Ba trial-publication地图gydF4y2Ba)．在我们的数据集中，有相关出版物的临床试验数量为74,394个，约有275,000个临床试验没有出版物，总计约349,000个试验(数据集A)。我们在中说明了数据创建过程gydF4y2Ba 图1gydF4y2Ba．我们公开了该地图，以促进关于这一主题的进一步工作。gydF4y2Ba

在我们的工作中使用的数据字段和模型特征的完整列表如表S1所示gydF4y2Ba 多媒体附件1gydF4y2Ba［gydF4y2Ba 42gydF4y2Ba］．虽然大多数特征直接从试验文件中获得，但研究地点的数量和主要或次要结果的数量等信息并没有明确说明。因此，我们添加了这些特征，因为它们与临床试验设计有关，并且可能包含预测发表状态的重要信号。gydF4y2Ba

图1gydF4y2Ba

数据集构建。gydF4y2Ba

我们在描述性分析和预测建模中使用的数据集(gydF4y2Ba 数据集BgydF4y2Ba)是基于选择满足一些附加标准的实例。具体来说，我们过滤掉了不满足以下两个条件的数据实例:(1)研究已经开始并且已经完成gydF4y2Ba 完成gydF4y2Ba，起始和结束日期已知，没有“预期”状态(由于临床试验的信息在注册后可能会多次更新，如更新登记字段，显示计划参与人数，因此完成后信息保持稳定，从而增加了代表性);和(2)gydF4y2Ba 完成日期gydF4y2Ba该研究的时间晚于2006年(剔除信息不完整的较老研究)，但早于我们收集数据前3年(为发表留出时间，与Jones等人类似[gydF4y2Ba 7gydF4y2Ba]和罗斯等人[gydF4y2Ba 3.gydF4y2Ba])。gydF4y2Ba

执行这些步骤可以大大减小数据的大小。结果数据集用于获得描述性统计。gydF4y2Ba

此外，我们还限定了研究的类型gydF4y2Ba 介入gydF4y2Ba要获得用于预测建模的数据集(gydF4y2Ba 数据集CgydF4y2Ba)．我们决定排除观察性研究，因为它们不太常见，并且具有与介入性研究不同的几个特征。gydF4y2Ba

为了模拟预测未来试验可发表性的现实场景，我们对数据进行了分区，使测试集中所有试验的完成日期晚于训练数据集中的完成日期。这也使任务更具挑战性，因为我们可以预期在测试集中出现以前未见过的干预。最后，我们从每个试验记录中删除了在试验注册时不知道的所有特征，如试验持续时间和结果。尽管包括它们会简化预测，但也会使任务变得不那么现实。通过对比，我们注意到，在Lo等人的药品审批预测工作的相关ML任务中[gydF4y2Ba 33gydF4y2Ba]，作者假设临床试验的信息相同gydF4y2Ba 是gydF4y2Ba可访问。由于这些特征被发现是药物批准的强预测因素，在没有这些信息的更现实的情况下，预测性能可能会受到影响。gydF4y2Ba

由于数据集C中未发表的临床试验数量远远大于已发表的临床试验数量，我们对未发表的临床试验进行了随机低抽样，用于我们的发表预测实验。我们通过对每个完成年份进行分层来进行不足抽样，每年保持积极和消极标签的大致相同百分比。注意，我们只对训练集执行了这一步，在测试集中保留了真实世界的标签偏差，再次使任务尽可能忠实于现实。gydF4y2Ba

手工构建的测试集gydF4y2Ba

前面提到的数据构建方法提供了一个大规模的数据集，允许我们使用ML模型大规模地分析和预测出版状态。然而，正如我们在文献中提到的，临床试验和出版物之间的一些联系可能是不完整的gydF4y2Ba 现有工作及贡献gydF4y2Ba部分。因此，我们从先前发表的3项研究中收集了数据[gydF4y2Ba 3.gydF4y2Ba，gydF4y2Ba 18gydF4y2Ba，gydF4y2Ba 20.gydF4y2Ba]，其中包括手动发布状态注释(参见gydF4y2Ba 表1gydF4y2Ba对于统计数据)。尽管这些注释的规模小于我们自动构建的数据集，但由于人为的努力，临床试验的发表不太可能被忽视。我们使用该数据集作为额外的测试集，并在原始作者的许可下将其公开。gydF4y2Ba 43gydF4y2Ba］．gydF4y2Ba

表1gydF4y2Ba

数据来自先前发表的研究。共有5项研究被不止一篇原创著作收录，但注释相同。因此，结果测试集的大小小于各个数据集的大小之和。gydF4y2Ba

	大小gydF4y2Ba	阳性标签(“已发布”)在所有标签中的比例gydF4y2Ba
罗斯等人[gydF4y2Ba 3.gydF4y2Ba］gydF4y2Ba	630gydF4y2Ba	0.54gydF4y2Ba
Zarin等[gydF4y2Ba 20.gydF4y2Ba］gydF4y2Ba	148gydF4y2Ba	0.23gydF4y2Ba
邓恩等[gydF4y2Ba 18gydF4y2Ba］gydF4y2Ba	199gydF4y2Ba	0.45gydF4y2Ba
结合gydF4y2Ba	972gydF4y2Ba	0.48gydF4y2Ba

建模方法gydF4y2Ba

为了研究与发表状态相关的因素，并学习预测临床试验是否可能被发表，我们为我们的模型创建了3种类型的特征:数值特征、分类特征(两者都可以被视为结构化输入)和文本特征。文本特征编码了丰富的信息，这些信息增强了结构化信息，并有可能改进预测建模，但它们也可能更嘈杂。可以指示发布状态的文本字段的一个示例是包含和排除标准。Elkin和Zhu指出，资格标准、样本量、显著效应和发表状态之间可能存在联系[gydF4y2Ba 27gydF4y2Ba］．NLP技术允许我们在预测模型中提取和表示这些信息，并突出显示哪些文本特征是重要的。gydF4y2Ba

作为一个简单的基线，我们使用了一个k近邻分类器，它只使用数字和分类特征(没有基于文本的特征)。在测试时，分类器预测其中的优势标签gydF4y2Ba kgydF4y2Ba在欧几里得距离方面最接近测试实例的训练实例。通过对各种值的随机搜索gydF4y2Ba kgydF4y2Ba，我们决定gydF4y2Ba kgydF4y2Ba= 460。gydF4y2Ba

我们训练并评估了2个包含文本特征的不同模型:随机森林(RF)分类器和神经网络(NN)。gydF4y2Ba

对于射频，包含文本输入的标准方法是将它们转换为数字字向量，同时提取字母和字母。这些术语使用术语频率-文档频率逆(Schütze等[gydF4y2Ba 44gydF4y2Ba])，其中一个术语在文档中的出现频率除以该术语在数据集中出现的文档的比例，再除以常用术语的权重。我们通过选择2万个最常用的词汇来设置词汇的阈值。我们使用单热编码方法来表示分类特征，并在没有额外调整的情况下包含数值特征。我们报告其他射频细节gydF4y2Ba 多媒体附件2gydF4y2Ba．gydF4y2Ba

在神经网络中，使用在训练过程中随机初始化和更新的权重矩阵嵌入分类特征。文本输入(示例包含在gydF4y2Ba 表2gydF4y2Ba)是使用预训练的语言模型嵌入的，该语言模型输出与上下文相关的令牌激活[gydF4y2Ba 39gydF4y2Ba]，下文将更详细地解释。gydF4y2Ba

表2gydF4y2Ba

从临床试验元数据中选择的文本特征的例子。gydF4y2Ba

特性名称和标识符gydF4y2Ba			原文摘录gydF4y2Ba
简短的标题gydF4y2Ba
	NCT01309919gydF4y2Ba	产后IUD放置后的出血模式和并发症:一项初步研究gydF4y2Ba
	NCT00230971gydF4y2Ba	替加环素与头孢曲松钠联合甲硝唑治疗并发腹腔内感染的比较研究gydF4y2Ba
	NCT01364948gydF4y2Ba	椰子油在减少早产儿出生第一周皮肤水分流失(TEWL)中的作用(TopOilTewl)gydF4y2Ba
简短的总结gydF4y2Ba
	NCT01309919gydF4y2Ba	该研究的目的是确定在分娩后放置左炔诺孕酮释放宫内系统(LNG - IUS，曼月乐®)的可行性。研究人员将在放置时获得有关并发症的信息;研究人员还将检查在插入后不同时间段的排出率、副作用、出血模式和受试者满意度。gydF4y2Ba
	NCT00230971gydF4y2Ba	这是一项关于替加环素对cIAI住院患者头孢曲松钠加甲硝唑的安全性和有效性的研究。受试者将通过治愈试验评估进行疗效随访。安全性评估将在治疗和治疗后期间进行，并持续到不良事件的解决或稳定。gydF4y2Ba
	NCT01364948gydF4y2Ba	新生婴儿的皮肤不成熟，不能作为屏障。由于自我调节热量机制差，脂肪组织少，皮肤薄，早产儿的皮肤更容易受到环境的影响。大多数早产儿在出生后的第一周会因为皮肤水分的流失而损失高达13%的体重。新生儿学家采用了许多策略来减少水分流失。在皮肤上涂抹油可以起到不渗透的屏障作用，有助于减少皮肤水分的流失。可食用椰子油通常被印度社区用于婴儿的传统按摩，在文化上是可以接受的，因此研究人员决定进行这项研究，客观地评估涂抹油后皮肤失水的减少gydF4y2Ba
入选标准gydF4y2Ba
	NCT01309919gydF4y2Ba	年龄18岁或以上，会说英语或西班牙语，希望使用宫内节育器作为产后避孕(IUD臂)，不希望使用宫内节育器作为避孕(仅限日志臂)，计划在贝州医疗中心分娩gydF4y2Ba
	NCT00230971gydF4y2Ba	临床诊断并发腹腔内感染，需在24小时内手术。发烧加上其他症状，如恶心，呕吐，腹痛gydF4y2Ba
	NCT01364948gydF4y2Ba	所有在研究中心出生的出生体重为1500克的早产儿都符合纳入研究的条件。gydF4y2Ba
参与者的条件gydF4y2Ba
	NCT01309919gydF4y2Ba	产后gydF4y2Ba
	NCT00230971gydF4y2Ba	阑尾炎、胆囊炎、憩室炎、腹腔脓肿、腹腔感染、腹膜炎gydF4y2Ba
	NCT01364948gydF4y2Ba	表皮水分流失(TEWL)gydF4y2Ba
关键字gydF4y2Ba
	NCT01309919gydF4y2Ba	宫内节育器，曼月乐，左炔诺孕酮宫内节育器，产后避孕gydF4y2Ba
	NCT00230971gydF4y2Ba	腹腔感染，脓肿gydF4y2Ba
	NCT01364948gydF4y2Ba	早产，VLBW，椰子油应用，经皮失水，体重增加gydF4y2Ba

我们评估了使用文本特征的RF和NN分类器与不使用文本特征的RF和NN分类器的比较，其中仅使用结构化特征。gydF4y2Ba

我们选择了2种不同的编码器:变压器(BERT)的双向编码器表示[gydF4y2Ba 39gydF4y2Ba]，预训练一般领域的英语语料库，以及科学文本的BERT (SciBERT) [gydF4y2Ba 38gydF4y2Ba]，接受过生物医学领域的预培训。我们使用了和Adhikari等人相同的想法[gydF4y2Ba 45gydF4y2Ba]，将句子级分类级别的隐层输出作为文档的表示。此外，我们使用了最后3层的隐藏输出[gydF4y2Ba 46gydF4y2Ba]作为分类器顶部密集层的输入。为了完善模型的表征能力，我们加入了2个额外的信息源:位置信息源和分段信息源。第一个是可训练的位置嵌入[gydF4y2Ba 47gydF4y2Ba]，每个令牌都是唯一的，添加到令牌向量中，使模型具有语序感。对于第二个，可训练的段嵌入帮助编码器区分多个独立的文本字段(表S1)gydF4y2Ba 多媒体附件1gydF4y2Ba)作为一个长文本字符串传递给模型。我们发现了图S1所示的可互换段方案gydF4y2Ba 多媒体附件1gydF4y2Ba工作得最好。另一种变体用不同的段嵌入表示每个文本字段，但效果不太好，尽管差异很小。此外，位置嵌入的另一种方案是，在每个文本字段中重新启动嵌入索引，从而产生类似的结果。我们从Herzig等人那里获得了灵感[gydF4y2Ba 48gydF4y2Ba]，他在表解析的上下文中使用位置嵌入来增强输入结构。gydF4y2Ba

原始BERT体系结构的一个限制是它只能接受最多512个令牌的序列。因此，我们需要截断超过这个限制的文本输入。我们从第一个n=512/开始gydF4y2Ba TgydF4y2Ba每个字段的标记(gydF4y2Ba TgydF4y2Ba是要编码的文本字段的总数)。由于一些文本字段可以更短，我们逐步提高gydF4y2Ba ngydF4y2Ba遍历所有字段，直到达到最大令牌数量。最后，编码器的参数与我们的出版结果预测数据集上的剩余NN参数一起进行微调，最小化训练期间的交叉熵损失。gydF4y2Ba

除了在神经网络中采用标准BERT模型外，我们还研究了训练机制的两种适应:一种特殊情况下，编码器参数在训练期间保持不变(在结果表中称为“冻结”)，另一种模型接收带大小写的文本作为输入(“带大小写的”;例如，之前没有小写的文本)，后者是最常见的做法。最后，对于射频，我们测试了一种自适应，使用之前在文本中诱导的语言模型表示，而不是术语频率逆文档频率编码器。这些表示在整个训练和测试阶段都是固定的。gydF4y2Ba

评估的细节gydF4y2Ba

我们评估了预测性能使用gydF4y2Ba FgydF4y2Ba_1gydF4y2Ba-分数测量(gydF4y2Ba FgydF4y2Ba_1gydF4y2Ba= 2 × [P × R / (P + R)])，为精度的谐波平均值(P = TP / [TP + FP];在所有预测中，TP为真阳性，FP为假阳性)和召回率(R = TP / [TP + FN];预测已发表的试验占所有已发表试验的比例，其中FN为假阴性)。我们还报告了接收器工作特征曲线下的面积(它本身表明了在不同阈值与预测概率之间的召回率和假阳性率之间的权衡)，这对于总结分类器通过单个优点数字区分类别的能力是有用的。gydF4y2Ba

结果gydF4y2Ba 描述性分析gydF4y2Ba 概述gydF4y2Ba

获得一个清晰的概念gydF4y2Ba 出版速度gydF4y2Ba在我们的数据集中，我们绘制了每年发表和未发表的研究的数量，如图所示gydF4y2Ba 多媒体gydF4y2Ba．我们观察到，已注册试验的数量呈单调增加(2016年注册试验数量为>万)，但已发表试验的数量增长不那么强劲。对于完成年份较早的试验，发表率约为45%，而对于完成年份较晚的试验，发表率下降约10%。相比之下，现有的发表率研究报告了高度可变的发表百分比，在Huiskens等人的研究中高达77% [gydF4y2Ba 6gydF4y2Ba]而Chen等人则低至11% [gydF4y2Ba 9gydF4y2Ba]取决于所考虑的医疗领域和随访时间长短。gydF4y2Ba

此外，我们检查了gydF4y2Ba 发布所需时间gydF4y2Ba．仅分析已发表的研究，我们发现平均发表时间为27个月。的出版时间分布gydF4y2Ba 图2gydF4y2Ba．对于数量较少的试验，可能需要更长的时间才能发表，如图中右侧的长尾所示。以往的研究一般报告的时间较短，约为19至23个月[gydF4y2Ba 3.gydF4y2Ba，gydF4y2Ba 9gydF4y2Ba，gydF4y2Ba 16gydF4y2Ba］．gydF4y2Ba

分析发表时间的另一种方法是绘制一项研究在超过一段时间间隔内未发表的概率gydF4y2Ba tgydF4y2Ba．这里我们借用了生存分析中的一个工具，Kaplan-Meier图。通过类比，在我们的案例中，生存时间代表临床试验未发表的时间，相关事件是发表。有些个体(临床试验)可能会丢失到随访中(权利审查)，这也是该方法所考虑的。我们看到gydF4y2Ba 图3gydF4y2Ba在很短的时间内(例如，完成后几个月)，该试验不发表的可能性仍然很高。当给予更多时间时，不发表的概率会下降，尽管即使间隔很长时间，它仍然相当高(在80个月时，它仍然是70%)。gydF4y2Ba

图2gydF4y2Ba

以月为单位的出版次数分布。gydF4y2Ba

图3gydF4y2Ba

一个Kaplan-Meier (KM)图，表示一项试验未发表的时间(y轴)大于x轴上显示的月数的概率。gydF4y2Ba

发表结果与分类特征的关系gydF4y2Ba

为了分析特稿与发表结果之间的关系，我们应用卡方检验(与相关文献一致[gydF4y2Ba 8gydF4y2Ba，gydF4y2Ba 9gydF4y2Ba，gydF4y2Ba 14gydF4y2Ba，gydF4y2Ba 16gydF4y2Ba，gydF4y2Ba 23gydF4y2Ba，gydF4y2Ba 49gydF4y2Ba，gydF4y2Ba 50gydF4y2Ba])，但由于其对样本量的敏感性[gydF4y2Ba 51gydF4y2Ba，gydF4y2Ba 52gydF4y2Ba]，我们还进行了CramérgydF4y2Ba VgydF4y2Ba离散变量的关联检验。在这个分析中，我们遵循相关的工作，只关注分类特征。在gydF4y2Ba 预测性能gydF4y2Ba在本节中，我们分析了所有特征类型在预测性能中的重要性。所有分类特征的结果显示在gydF4y2Ba 表3gydF4y2Ba．的最大值的特征gydF4y2Ba VgydF4y2Ba包括总体状态(例如，“暂停”值可能表示未来发表)，是否报告结果，入组类型(预期与实际)，以及试验的阶段(在计算试验不同阶段的优势比时，我们发现第三阶段的试验发表的可能性比其他阶段的试验高2倍)。相比之下，一些特征，如观察性研究的类型(回顾性、前瞻性或横断面)和资助机构的类别(美国国立卫生研究院、其他美国联邦机构、行业或其他)很难与发表状态联系起来。后一个例子尤其令人惊讶，因为大多数以前的作品都报告说，资金来源是发表状态的一个强有力的指标[gydF4y2Ba 8gydF4y2Ba，gydF4y2Ba 23gydF4y2Ba，gydF4y2Ba 50gydF4y2Ba]，除了甘地等人[gydF4y2Ba 14gydF4y2Ba］．gydF4y2Ba

表3gydF4y2Ba

直接从与临床试验相关的结构化元数据中提取的分类特征与发表状态之间的关联强度。各特征的定义见表S1gydF4y2Ba 多媒体附件1gydF4y2Ba．gydF4y2Ba

功能名称gydF4y2Ba	卡方gydF4y2Ba PgydF4y2Ba价值gydF4y2Ba	克莱默VgydF4y2Ba
overall_statusgydF4y2Ba	措施gydF4y2Ba	0.26gydF4y2Ba
were_results_reportedgydF4y2Ba	措施gydF4y2Ba	0.157gydF4y2Ba
enrollment_typegydF4y2Ba	措施gydF4y2Ba	0.153gydF4y2Ba
阶段gydF4y2Ba	措施gydF4y2Ba	0.126gydF4y2Ba
plan_to_share_ipdgydF4y2Ba	措施gydF4y2Ba	0.095gydF4y2Ba
intervention_type_behavioralgydF4y2Ba	措施gydF4y2Ba	0.06gydF4y2Ba
has_dmcgydF4y2Ba	措施gydF4y2Ba	0.056gydF4y2Ba
intervention_modelgydF4y2Ba	措施gydF4y2Ba	0.053gydF4y2Ba
intervention_type_diagnostic_testgydF4y2Ba	措施gydF4y2Ba	0.047gydF4y2Ba
has_single_facilitygydF4y2Ba	措施gydF4y2Ba	0.044gydF4y2Ba
intervention_type_devicegydF4y2Ba	措施gydF4y2Ba	0.039gydF4y2Ba
国家gydF4y2Ba	措施gydF4y2Ba	0.035gydF4y2Ba
study_typegydF4y2Ba	措施gydF4y2Ba	0.034gydF4y2Ba
分配gydF4y2Ba	措施gydF4y2Ba	0.026gydF4y2Ba
primary_purposegydF4y2Ba	措施gydF4y2Ba	0.025gydF4y2Ba
is_fda_regulated_devicegydF4y2Ba	措施gydF4y2Ba	0.023gydF4y2Ba
屏蔽gydF4y2Ba	措施gydF4y2Ba	0.022gydF4y2Ba
intervention_type_dietary_supplementgydF4y2Ba	措施gydF4y2Ba	0.021gydF4y2Ba
intervention_type_biologicalgydF4y2Ba	措施gydF4y2Ba	0.019gydF4y2Ba
性别gydF4y2Ba	措施gydF4y2Ba	0.018gydF4y2Ba
intervention_type_combination_productgydF4y2Ba	措施gydF4y2Ba	0.017gydF4y2Ba
intervention_type_othergydF4y2Ba	措施gydF4y2Ba	0.016gydF4y2Ba
intervention_type_radiationgydF4y2Ba	措施gydF4y2Ba	0.013gydF4y2Ba
sampling_methodgydF4y2Ba	措施gydF4y2Ba	0.013gydF4y2Ba
intervention_type_druggydF4y2Ba	措施gydF4y2Ba	0.012gydF4y2Ba
intervention_type_proceduregydF4y2Ba	措施gydF4y2Ba	0.012gydF4y2Ba
observational_modelgydF4y2Ba	.002gydF4y2Ba	0.012gydF4y2Ba
is_us_exportgydF4y2Ba	13。gydF4y2Ba	0.011gydF4y2Ba
responsible_party_typegydF4y2Ba	措施gydF4y2Ba	0.011gydF4y2Ba
intervention_type_geneticgydF4y2Ba	措施gydF4y2Ba	0.01gydF4y2Ba
healthy_volunteersgydF4y2Ba	措施gydF4y2Ba	0.009gydF4y2Ba
is_fda_regulated_druggydF4y2Ba	措施gydF4y2Ba	0.009gydF4y2Ba
observational_prospectivegydF4y2Ba	.14点gydF4y2Ba	0.006gydF4y2Ba
agency_classgydF4y2Ba	收gydF4y2Ba	0.002gydF4y2Ba

预测性能gydF4y2Ba 概述gydF4y2Ba

我们对数据集C的预测模型的主要结果显示在gydF4y2Ba 表4gydF4y2Ba．有趣的是，k近邻基线已经为结构化输入的使用设置了很高的门槛。我们看到，使用文本信息的模型在测试集上获得了最佳性能。这两个评估指标显示出略有不同的趋势(即，当观察gydF4y2Ba FgydF4y2Ba_1gydF4y2Ba-得分，使用基于bert的表示的神经模型比使用单词袋表示的RF分类器表现得更好);然而，根据AUC，射频分类器优于不同的神经模型变体。从两种模型中加入文本特征后的改进来看，NN模型更有效地利用了这些特征。我们发现，仅使用结构化特征的神经网络模型与使用scibert编码文本特征的神经网络模型之间的差异在统计上具有显著性gydF4y2Ba PgydF4y2Ba<措施(统计值:778.4)，用二元分类任务的McNemar检验测量[gydF4y2Ba 53gydF4y2Ba］．虽然在只包含结构化特征时，其性能明显低于射频分类器，但在包含文本特征时，两种模型之间的性能差异消失了。对于神经模型，选择一个具有更好的领域拟合的BERT模型(即SciBERT)似乎可以增强gydF4y2Ba FgydF4y2Ba_1gydF4y2Ba-score，但差异太小，无法在AUC情况下做出判断。我们包括精度-召回曲线gydF4y2Ba 图4gydF4y2Ba和gydF4y2Ba 5gydF4y2Ba，使用模型的预测进行计算，该模型的测试结果最佳gydF4y2Ba FgydF4y2Ba_1gydF4y2Ba-score(即具有结构化和SciBERT文本特征的NN)。gydF4y2Ba

表4gydF4y2Ba

发表预测结果gydF4y2Ba^{一个gydF4y2Ba}．gydF4y2Ba

方法gydF4y2Ba	输入gydF4y2Ba	验证gydF4y2Ba		测试gydF4y2Ba
		FgydF4y2Ba_1gydF4y2Ba分数gydF4y2Ba	AUCgydF4y2Ba^bgydF4y2Ba	FgydF4y2Ba_1gydF4y2Ba分数gydF4y2Ba	AUCgydF4y2Ba
再gydF4y2Ba	结构化gydF4y2Ba	0.592gydF4y2Ba	N/AgydF4y2Ba^cgydF4y2Ba	0.611gydF4y2Ba	N/AgydF4y2Ba
射频gydF4y2Ba^dgydF4y2Ba	结构化gydF4y2Ba	0.64gydF4y2Ba	0.701gydF4y2Ba	0.614gydF4y2Ba	0.704gydF4y2Ba
射频gydF4y2Ba	结构化(TF-IDF +文本gydF4y2Ba^egydF4y2Ba）gydF4y2Ba	0.656gydF4y2Ba	0.721gydF4y2Ba	0.623gydF4y2Ba	0.719gydF4y2Ba
射频gydF4y2Ba	结构化(SciBERT +文本gydF4y2Ba^fgydF4y2Ba）gydF4y2Ba	0.65gydF4y2Ba	0.709gydF4y2Ba	0.63gydF4y2Ba	0.711gydF4y2Ba
神经网络gydF4y2Ba^ggydF4y2Ba	结构化gydF4y2Ba	0.611gydF4y2Ba	0.672gydF4y2Ba	0.607gydF4y2Ba	0.612gydF4y2Ba
神经网络gydF4y2Ba	结构化+文本(冻结SciBERT)gydF4y2Ba	0.642gydF4y2Ba	0.689gydF4y2Ba	0.63gydF4y2Ba	0.696gydF4y2Ba
神经网络gydF4y2Ba	结构化+文本(SciBERT)gydF4y2Ba	0.648gydF4y2Ba	0.708gydF4y2Ba	0.641gydF4y2Ba	0.7gydF4y2Ba
神经网络gydF4y2Ba	结构化+文本(带大小写的SciBERT)gydF4y2Ba	0.641gydF4y2Ba	0.697gydF4y2Ba	0.637gydF4y2Ba	0.701gydF4y2Ba
神经网络gydF4y2Ba	结构化(BERT +文本gydF4y2Ba^hgydF4y2Ba）gydF4y2Ba	0.64gydF4y2Ba	0.699gydF4y2Ba	0.633gydF4y2Ba	0.7gydF4y2Ba

^{一个gydF4y2Ba}所有模型都使用分类和数值特征(“结构化”)。当添加文本特性时，用“+ text”标记。由于k最近邻分类器不输出概率，我们无法计算曲线下的面积。gydF4y2Ba

^bgydF4y2BaAUC:曲线下面积。gydF4y2Ba

^cgydF4y2BaN/A:不适用。gydF4y2Ba

^dgydF4y2BaRF:随机森林。gydF4y2Ba

^egydF4y2BaTF-IDF:术语频率逆文档频率。gydF4y2Ba

^fgydF4y2BaSciBERT:用于科学文本的变形金刚模型的双向编码器表示。gydF4y2Ba

^ggydF4y2Ba神经网络。gydF4y2Ba

^hgydF4y2BaBERT:来自变压器的双向编码器表示。gydF4y2Ba

图4gydF4y2Ba

使用具有结构化和文本特征的神经网络模型(来自科学文本transformer模型的双向编码器表示)的正类(出版物)的精度-召回曲线。AP:平均精度。gydF4y2Ba

图5gydF4y2Ba

使用具有结构化和文本特征的神经网络模型(来自transformer模型的双向编码器表示)用于科学文本的负类(未发表)的精度-召回曲线。AP:平均精度。gydF4y2Ba

影响出版的因素gydF4y2Ba

为了确定哪些特征在预测中发挥关键作用，我们使用了一种特征置换技术来获得根据各自性能下降进行排名的特征。我们只使用射频进行分析，因为推理时间更快。分类器训练一次;然后，在测试时，通过变换测试集中可能的特征值来获得特征的损坏表示。在此之后，将模型应用于测试集，并与未损坏数据集上的性能进行比较，计算精度的下降。我们一次只损坏一个特性，并对所有特性重复这个过程。整个过程使用不同的随机种子进行5次洗牌，然后对报告的分数取平均。gydF4y2Ba

根据特征类型组织的结果显示在gydF4y2Ba 表5gydF4y2Ba．最重要的数字特征是参与研究的人数，一种可能的解释是，这可能会影响结果的可靠性(从而最终增加发表的几率)。同样，更多的设施与更高的出版率有关[gydF4y2Ba 8gydF4y2Ba］．结果的数量表明了研究的规模和复杂性，这反过来也可能影响可发表性。对于文本输入，描述试验的叙述(详细描述和简要摘要)以及资格标准是最强的特征。我们观察到一些文本特征包含重叠的信息。例如，简短的标题可以包含在正式标题中。相同的单词经常出现在不同的输入中，这种冗余可以作为预测发表状态的有力指标。例如，当我们使用我们RF实现的杂质标准来测量RF中单词的重要性时[gydF4y2Ba 9gydF4y2Ba]，我们发现……的存在gydF4y2Ba 随机gydF4y2Ba(出现在正式标题和详细描述中)是已发表和未发表研究的有力区别。gydF4y2Ba

在分类输入的情况下，我们发现相似的特征是重要的，如中提到的gydF4y2Ba 描述性分析gydF4y2Ba部分，包括主要机构所在的国家(“国家”)以及该研究是否设有数据监测委员会(“has dmc”)。然而，在我们的描述性分析和之前的工作中发现的一些重要特征在预测方法中不那么重要(例如，调查阶段[“阶段”]，参与者分配到试验组[“分配”]，以及为参与者分配干预措施的方法[“干预模型”])。gydF4y2Ba

表5gydF4y2Ba

使用词频-逆文本文档频率表示的随机森林对特征值进行排列后准确度的下降。每个特征类型的值都是按递减顺序排列的，所以最重要的特征会先提到。gydF4y2Ba

特征类型和特征gydF4y2Ba			准确度下降gydF4y2Ba
数值gydF4y2Ba
	number_of_facilitiesgydF4y2Ba	0.007364gydF4y2Ba
	outcome_counts_secondarygydF4y2Ba	0.004911gydF4y2Ba
	outcome_counts_othersgydF4y2Ba	0.004068gydF4y2Ba
	outcome_counts_primarygydF4y2Ba	0.003702gydF4y2Ba
	number_study_directorsgydF4y2Ba	0.003518gydF4y2Ba
	number_study_chairsgydF4y2Ba	0.003359gydF4y2Ba
	minimum_agegydF4y2Ba	0.003235gydF4y2Ba
	number_principal_investigatorsgydF4y2Ba	0.003157gydF4y2Ba
	maximum_agegydF4y2Ba	0.002719gydF4y2Ba
	number_of_armsgydF4y2Ba	0.000985gydF4y2Ba
文本gydF4y2Ba
	detailed_descriptiongydF4y2Ba	0.010193gydF4y2Ba
	brief_summarygydF4y2Ba	0.008551gydF4y2Ba
	criteria_ExclusiongydF4y2Ba	0.008313gydF4y2Ba
	criteria_InclusiongydF4y2Ba	0.004971gydF4y2Ba
	official_titlegydF4y2Ba	0.003428gydF4y2Ba
	brief_titlegydF4y2Ba	0.001433gydF4y2Ba
	源gydF4y2Ba	0.001342gydF4y2Ba
	responsible_party_keywordsgydF4y2Ba	0.001064gydF4y2Ba
	participant_conditiongydF4y2Ba	0.00064gydF4y2Ba
分类gydF4y2Ba
	has_single_facilitygydF4y2Ba	0.004591gydF4y2Ba
	intervention_type_BehavioralgydF4y2Ba	0.004211gydF4y2Ba
	primary_purposegydF4y2Ba	0.003914gydF4y2Ba
	国家gydF4y2Ba	0.003804gydF4y2Ba
	intervention_type_BiologicalgydF4y2Ba	0.003643gydF4y2Ba
	is_fda_regulated_devicegydF4y2Ba	0.003376gydF4y2Ba
	is_us_exportgydF4y2Ba	0.003333gydF4y2Ba
	intervention_type_Diagnostic_TestgydF4y2Ba	0.003322gydF4y2Ba
	intervention_type_Combination_ProductgydF4y2Ba	0.003322gydF4y2Ba
	intervention_type_GeneticgydF4y2Ba	0.003322gydF4y2Ba
	is_fda_regulated_druggydF4y2Ba	0.003321gydF4y2Ba
	intervention_type_ProceduregydF4y2Ba	0.003205gydF4y2Ba
	has_dmcgydF4y2Ba	0.003185gydF4y2Ba
	intervention_type_OthergydF4y2Ba	0.003144gydF4y2Ba
	intervention_type_RadiationgydF4y2Ba	0.003144gydF4y2Ba
	intervention_type_DevicegydF4y2Ba	0.003078gydF4y2Ba
	性别gydF4y2Ba	0.003012gydF4y2Ba
	responsible_party_typegydF4y2Ba	0.002925gydF4y2Ba
	intervention_type_Dietary_SupplementgydF4y2Ba	0.002873gydF4y2Ba
	plan_to_share_ipdgydF4y2Ba	0.002819gydF4y2Ba
	healthy_volunteersgydF4y2Ba	0.002607gydF4y2Ba
	intervention_type_DruggydF4y2Ba	0.00227gydF4y2Ba
	agency_classgydF4y2Ba	0.001854gydF4y2Ba
	阶段gydF4y2Ba	0.001426gydF4y2Ba
	分配gydF4y2Ba	0.001347gydF4y2Ba
	intervention_modelgydF4y2Ba	0.00131gydF4y2Ba

手动验证测试集上的性能gydF4y2Ba

作为额外的实验，我们选择了达到最高的模型gydF4y2Ba FgydF4y2Ba_1gydF4y2Ba在自动构建的数据集(具有结构化+文本[SciBERT]输入特征的神经网络)上获得-分数，并将其应用于从本文中介绍的手动验证的出版物链接构建的测试集gydF4y2Ba 手工构建的测试集gydF4y2Ba部分。我们测量了gydF4y2Ba FgydF4y2Ba_1gydF4y2Ba-得分为55.9，受试者工作特征曲线下面积为58.6。为了更好地理解这种相对于自动获得的测试集的性能下降，我们计算了一个混淆矩阵，它揭示了模型过于急切地预测“发布”(即，它更有可能犯1型错误[假阳性，272/972,28%的时间]而不是2型错误[假阴性，146/972,15%的时间])。由于测试数据由3个子集组成，在性能中可能存在重要的个体变化，我们需要考虑。实际上，根据每个子集(gydF4y2Ba 表6gydF4y2Ba)，我们注意到Zarin等人[gydF4y2Ba 20.gydF4y2Ba]的表现低于Ross等人的子集[gydF4y2Ba 3.gydF4y2Ba]和邓恩等人[gydF4y2Ba 18gydF4y2Ba]，两者表现相似。我们的解释是，这些子集包含不同比例的积极标签，如果这些标签与训练中看到的不同，将对测试表现产生负面影响。具体来说，Zarin等人[gydF4y2Ba 20.gydF4y2Ba]子集只有23%(34/148)的阳性标签，而其余子集的阳性标签约为50%(410/ 824,49.8%)。可以理解的是，在大约等量的积极和消极实例上训练的模型过度预测了Zarin等人的积极类[gydF4y2Ba 20.gydF4y2Ba]子集，在这种情况下，几乎所有的建模错误都是由于假阳性(78/ 87,90 %相比9/ 87,10 %假阴性)。我们发现，当模型以类似的正面和负面实例比例重新训练时，这种负面影响消失了。我们使用非平衡版本的训练数据集(数据集C在gydF4y2Ba 图1gydF4y2Ba)．gydF4y2Ba

表6gydF4y2Ba

手动验证测试集的子集上的数据统计和性能。gydF4y2Ba

	罗斯等人[gydF4y2Ba 3.gydF4y2Ba］gydF4y2Ba	Zarin等[gydF4y2Ba 20.gydF4y2Ba］gydF4y2Ba	Zarin等[gydF4y2Ba 20.gydF4y2Ba]使用非平衡训练集gydF4y2Ba	邓恩等[gydF4y2Ba 18gydF4y2Ba］gydF4y2Ba
积极的百分比gydF4y2Ba^{一个gydF4y2Ba}	54gydF4y2Ba	23gydF4y2Ba	23gydF4y2Ba	45gydF4y2Ba
FgydF4y2Ba_1gydF4y2Ba分数gydF4y2Ba	58.4gydF4y2Ba	43.4gydF4y2Ba	58.2gydF4y2Ba	55.0gydF4y2Ba
AUROCgydF4y2Ba^bgydF4y2Ba	62.3gydF4y2Ba	52.6gydF4y2Ba	53.5gydF4y2Ba	60.4gydF4y2Ba

^{一个gydF4y2Ba} 积极的百分比gydF4y2Ba表示带有阳性标签的实例的百分比(gydF4y2Ba 发表gydF4y2Ba)。gydF4y2Ba

^bgydF4y2BaAUROC:受试者工作特征曲线下的面积。gydF4y2Ba

讨论gydF4y2Ba 限制gydF4y2Ba

虽然我们的工作在规模上建立了与较高发表率相关的各种属性，以及在预测框架中包括临床试验的文本描述的积极影响，但一些额外的考虑是必要的。gydF4y2Ba

ML模型的定性性能对用于训练和测试的底层数据的质量很敏感，预测发布成功也不例外。在构建我们的数据集时，我们注意到试验注册条目中存在不正确的信息(例如，估计的完成年份可能设置为2099年)。此外，研究的当前状态(例如，正在进行、完成或终止)可能并不总是最新的，这与其他注册信息类似。在文献中检查了ClinicalTrials.gov中的不完整和不正确信息[gydF4y2Ba 7gydF4y2Ba，gydF4y2Ba 54gydF4y2Ba-gydF4y2Ba 56gydF4y2Ba]，但它的确切程度是未知的，难以估计，需要大量的手工工作来揭示它。我们将噪声视为从大型数据收集中学习的一个组成部分，类似于相关工作(gydF4y2Ba 现有工作及贡献gydF4y2Basection)使用结构化资源，如ClinicalTrials.gov [gydF4y2Ba 27gydF4y2Ba-gydF4y2Ba 29gydF4y2Ba，gydF4y2Ba 32gydF4y2Ba-gydF4y2Ba 34gydF4y2Ba]以及在远方监督下的学习工作[gydF4y2Ba 57gydF4y2Ba-gydF4y2Ba 59gydF4y2Ba］．由于我们的分类器使用了大量的训练实例，并且每个实例都使用多个特征来表示，因此偶尔噪声的影响被认为很小。gydF4y2Ba

在我们自动构建的数据集中，另一个潜在的噪音来源可能来自临床试验及其出版物之间的链接，这是自动建立的，因此，容易出现不正确或遗漏的链接。数据集也仅限于公开可用并在公共资源中编入索引的研究。尽管会议摘要和其他灰色文献资源可以提供试验结果的额外背景，但它们通常不被视为正式出版物，需要特别的收集策略，这超出了我们的研究范围。总的来说，所提出的结果反映了基于可获得资源的可能的最现实的情况。gydF4y2Ba

最后，发表结果建模的一个更普遍的限制是，很难捕捉和量化试验登记中无法获得但在其他情况下有用的因素的影响，特别是对于理解非发表，例如，研究人员是否没有足够的时间发表而专注于其他任务，合著者之间是否存在利益变化或分歧，研究人员是否认为某家期刊不太可能接受他们的工作，以及财务问题或其他合同问题是否阻碍了发表[gydF4y2Ba 15gydF4y2Ba，gydF4y2Ba 60gydF4y2Ba-gydF4y2Ba 62gydF4y2Ba］．虽然原则上可以从研究作者那里获得这些信息，但要大规模地进行此类信息获取将是极其困难的，而且目前在公共资源中无法获得。gydF4y2Ba

影响gydF4y2Ba

在这项研究中，我们试图模拟一个真实世界的情况，在这个情况下，人们希望对临床试验的发表结果进行前瞻性估计。为此，我们对新创建的数据集进行了一系列实验，这些数据集将2007年至2016年的临床试验记录与其出版物(如果存在)联系起来，并进行了4年的随访。得到的数据集是迄今为止最大的此类集合。我们已经展示了异质特征(包括来自临床试验注册记录的文本特征)的组合如何导致>0.7 AUC的分类性能;这意味着，如果随机选择一个阳性病例(即最终将导致发表的审判)，至少有70%的几率该病例也被归类为阳性病例。该技术具有较强的试验设计潜力。在临床试验的早期阶段，当研究设计和环境的特性已经已知时，它可以提供对可发表性的前瞻性估计，更广泛地给出试验可行性的指示。该工具可以在不必要地浪费资源之前，向试验开发人员揭示表明发表机会降低的不同领域(并且，推而广之，他们的研究价值降低)。在未来的工作中，我们将探索将该模型整合到一个系统中，该系统可以毫不费力地以人类友好的方式为给定的试验提供导致特定结果的突出特征，并表明分类器决策的可靠性，以支持试验计划和决策。gydF4y2Ba

多媒体附件1gydF4y2Ba

文本表示计划。gydF4y2Ba

多媒体附件2gydF4y2Ba

实验的细节。gydF4y2Ba

多媒体gydF4y2Ba

每年完成的已发表和未发表试验的分布情况。gydF4y2Ba

缩写gydF4y2Ba

AUCgydF4y2Ba

曲线下面积gydF4y2Ba

伯特gydF4y2Ba

来自变压器的双向编码器表示gydF4y2Ba

毫升gydF4y2Ba

机器学习gydF4y2Ba

NLPgydF4y2Ba

自然语言处理gydF4y2Ba

神经网络gydF4y2Ba

射频gydF4y2Ba

随机森林gydF4y2Ba

SciBERTgydF4y2Ba

用于科学文本的变压器模型的双向编码器表示gydF4y2Ba

本研究由澳大利亚研究委员会与IBM合作，通过工业转型培训中心赠款(IC170100030)资助。作者真诚地感谢Deborah Zarin、Joseph Ross、Shifeng Liu和Adam G Dunn提供他们的注释数据。gydF4y2Ba

数据可用性gydF4y2Ba

我们已公开该数据集[gydF4y2Ba 63gydF4y2Ba］．gydF4y2Ba

SW收集数据，构思和设计分析，并执行分析。SŠ构思和设计了分析，对概念化做出了贡献，并撰写了论文。TB构思和设计了分析，对概念化做出了贡献，撰写了论文，并进行了监督。KV参与了概念化并撰写了这篇论文。gydF4y2Ba

没有宣布。gydF4y2Ba

1gydF4y2Ba

威尔金森gydF4y2Ba

医学博士gydF4y2Ba

DumontiergydF4y2Ba

米gydF4y2Ba

Jan AalbersberggydF4y2Ba

我gydF4y2Ba

阿普尔顿gydF4y2Ba

GgydF4y2Ba

AxtongydF4y2Ba

米gydF4y2Ba

BaakgydF4y2Ba

一个gydF4y2Ba

显得过于gydF4y2Ba

NgydF4y2Ba

BoitengydF4y2Ba

JgydF4y2Ba

达席尔瓦桑托斯gydF4y2Ba

磅gydF4y2Ba

伯恩gydF4y2Ba

体育gydF4y2Ba

BouwmangydF4y2Ba

JgydF4y2Ba

布鲁克斯gydF4y2Ba

AJgydF4y2Ba

克拉克gydF4y2Ba

TgydF4y2Ba

CrosasgydF4y2Ba

米gydF4y2Ba

DillogydF4y2Ba

我gydF4y2Ba

DumongydF4y2Ba

OgydF4y2Ba

埃德蒙兹gydF4y2Ba

年代gydF4y2Ba

EvelogydF4y2Ba

CTgydF4y2Ba

FinkersgydF4y2Ba

RgydF4y2Ba

Gonzalez-BeltrangydF4y2Ba

一个gydF4y2Ba

灰色的gydF4y2Ba

AJgydF4y2Ba

GrothgydF4y2Ba

PgydF4y2Ba

GoblegydF4y2Ba

CgydF4y2Ba

GrethegydF4y2Ba

JSgydF4y2Ba

HeringagydF4y2Ba

JgydF4y2Ba

霍恩gydF4y2Ba

巴勒斯坦权力机构gydF4y2Ba

HooftgydF4y2Ba

RgydF4y2Ba

库恩gydF4y2Ba

TgydF4y2Ba

角gydF4y2Ba

RgydF4y2Ba

角gydF4y2Ba

JgydF4y2Ba

酒鬼gydF4y2Ba

SJgydF4y2Ba

MartonegydF4y2Ba

我gydF4y2Ba

蒙斯gydF4y2Ba

一个gydF4y2Ba

封隔器gydF4y2Ba

艾尔gydF4y2Ba

皮尔森gydF4y2Ba

BgydF4y2Ba

Rocca-SerragydF4y2Ba

PgydF4y2Ba

鲁斯gydF4y2Ba

米gydF4y2Ba

van SchaikgydF4y2Ba

RgydF4y2Ba

桑松gydF4y2Ba

年代gydF4y2Ba

舒尔特gydF4y2Ba

EgydF4y2Ba

SengstaggydF4y2Ba

TgydF4y2Ba

斯莱特gydF4y2Ba

TgydF4y2Ba

-gydF4y2Ba

GgydF4y2Ba

SwertzgydF4y2Ba

妈gydF4y2Ba

汤普森gydF4y2Ba

米gydF4y2Ba

范德雷gydF4y2Ba

JgydF4y2Ba

范MulligengydF4y2Ba

EgydF4y2Ba

Jan VelteropgydF4y2Ba WaagmeestergydF4y2Ba

一个gydF4y2Ba

WittenburggydF4y2Ba

PgydF4y2Ba

WolstencroftgydF4y2Ba

KgydF4y2Ba

赵gydF4y2Ba

JgydF4y2Ba

蒙斯gydF4y2Ba

BgydF4y2Ba

附录:科学数据管理和管理的FAIR指导原则gydF4y2Ba

科学数据gydF4y2Ba 2019gydF4y2Ba 03gydF4y2Ba 19gydF4y2Ba 6gydF4y2Ba 1gydF4y2Ba 6gydF4y2Ba

10.1038 / s41597 - 019 - 0009 - 6gydF4y2Ba

30890711gydF4y2Ba

10.1038 / s41597 - 019 - 0009 - 6gydF4y2Ba

PMC6427092gydF4y2Ba

2gydF4y2Ba

DickersingydF4y2Ba

KgydF4y2Ba

兰尼gydF4y2Ba

DgydF4y2Ba

试验注册中心的演变及其在评估临床试验企业中的应用gydF4y2Ba

《美国医学会杂志》gydF4y2Ba 2012gydF4y2Ba 05gydF4y2Ba 02gydF4y2Ba 307gydF4y2Ba 17gydF4y2Ba 1861gydF4y2Ba 4gydF4y2Ba

10.1001 / jama.2012.4230gydF4y2Ba

22550202gydF4y2Ba

307/17/1861gydF4y2Ba

3.gydF4y2Ba

罗斯gydF4y2Ba

JSgydF4y2Ba

谢霆锋gydF4y2Ba

TgydF4y2Ba

ZaringydF4y2Ba

达gydF4y2Ba

徐gydF4y2Ba

HgydF4y2Ba

周gydF4y2Ba

lgydF4y2Ba

KrumholzgydF4y2Ba

嗯gydF4y2Ba

发表在ClinicalTrials.gov上注册的NIH资助的试验:横断面分析gydF4y2Ba

BMJgydF4y2Ba 2012gydF4y2Ba 01gydF4y2Ba 03gydF4y2Ba 344gydF4y2Ba jan03 1gydF4y2Ba d7292gydF4y2Ba

10.1136 / bmj.d7292gydF4y2Ba

22214755gydF4y2Ba

bmj.d7292gydF4y2Ba

PMC3623605gydF4y2Ba

4gydF4y2Ba

Cochrane干预系统评价手册，第二版gydF4y2Ba 2019gydF4y2Ba

霍博肯，美国新泽西州gydF4y2Ba

威利gydF4y2Ba

5gydF4y2Ba

查普曼gydF4y2Ba

PBgydF4y2Ba

刘gydF4y2Ba

新泽西gydF4y2Ba

周gydF4y2Ba

问gydF4y2Ba

IasonosgydF4y2Ba

一个gydF4y2Ba

汉利gydF4y2Ba

年代gydF4y2Ba

BoslgydF4y2Ba

GJgydF4y2Ba

斯普里格gydF4y2Ba

博士gydF4y2Ba

是时候发表肿瘤学试验了，为什么有些试验从未发表gydF4y2Ba

《公共科学图书馆•综合》gydF4y2Ba 2017gydF4y2Ba 9gydF4y2Ba 21gydF4y2Ba 12gydF4y2Ba 9gydF4y2Ba e0184025gydF4y2Ba

10.1371 / journal.pone.0184025gydF4y2Ba

28934243gydF4y2Ba

玉米饼- d - 17 - 17821gydF4y2Ba

PMC5608207gydF4y2Ba

6gydF4y2Ba

HuiskensgydF4y2Ba

JgydF4y2Ba

库尔gydF4y2Ba

BRgydF4y2Ba

赞美上帝gydF4y2Ba

JgydF4y2Ba

布鲁斯gydF4y2Ba

呃gydF4y2Ba

·德容gydF4y2Ba

西南gydF4y2Ba

OlthofgydF4y2Ba

PBgydF4y2Ba

范RosmalengydF4y2Ba

BVgydF4y2Ba

高罗佩面包车子女gydF4y2Ba

TMgydF4y2Ba

HooftgydF4y2Ba

lgydF4y2Ba

下赌注者gydF4y2Ba

CJgydF4y2Ba

从注册到出版:荷兰学术随机对照试验研究gydF4y2Ba

Res合成方法gydF4y2Ba 2020gydF4y2Ba 03gydF4y2Ba 28gydF4y2Ba 11gydF4y2Ba 2gydF4y2Ba 218gydF4y2Ba 26gydF4y2Ba

10.1002 / jrsm.1379gydF4y2Ba

31614063gydF4y2Ba

PMC7078864gydF4y2Ba

7gydF4y2Ba

琼斯gydF4y2Ba

连续波gydF4y2Ba

处理程序gydF4y2Ba

lgydF4y2Ba

克罗威尔gydF4y2Ba

柯gydF4y2Ba

凯尔gydF4y2Ba

LGgydF4y2Ba

韦弗gydF4y2Ba

妈gydF4y2Ba

Platts-MillsgydF4y2Ba

特遣部队gydF4y2Ba

未发表的大型随机临床试验:横断面分析gydF4y2Ba

BMJgydF4y2Ba 2013gydF4y2Ba 10gydF4y2Ba 29gydF4y2Ba 347gydF4y2Ba oct28 9gydF4y2Ba f6104gydF4y2Ba

10.1136 / bmj.f6104gydF4y2Ba

24169943gydF4y2Ba

bmj.f6104gydF4y2Ba

PMC3812466gydF4y2Ba

8gydF4y2Ba

BlmlegydF4y2Ba

一个gydF4y2Ba

HuwilergydF4y2Ba

KgydF4y2Ba

WitschigydF4y2Ba

米gydF4y2Ba

临床试验的发表和未发表:对提交给研究伦理委员会的申请进行纵向研究gydF4y2Ba

瑞士医学周刊gydF4y2Ba 2008gydF4y2Ba 04gydF4y2Ba 05gydF4y2Ba 197gydF4y2Ba

10.4414 / smw.2008.12027gydF4y2Ba

9gydF4y2Ba

陈gydF4y2Ba

RgydF4y2Ba

德赛gydF4y2Ba

NRgydF4y2Ba

罗斯gydF4y2Ba

JSgydF4y2Ba

张gydF4y2Ba

WgydF4y2Ba

洲gydF4y2Ba

KHgydF4y2Ba

WaydagydF4y2Ba

BgydF4y2Ba

MurugiahgydF4y2Ba

KgydF4y2Ba

陆gydF4y2Ba

DYgydF4y2Ba

米塔尔gydF4y2Ba

一个gydF4y2Ba

KrumholzgydF4y2Ba

嗯gydF4y2Ba

临床试验结果的发表和报告:跨学术医疗中心的横断面分析gydF4y2Ba

BMJgydF4y2Ba 2016gydF4y2Ba 02gydF4y2Ba 17gydF4y2Ba 352gydF4y2Ba i637gydF4y2Ba

10.1136 / bmj.i637gydF4y2Ba

26888209gydF4y2Ba

PMC4768882gydF4y2Ba

10gydF4y2Ba

埃尼迪斯gydF4y2Ba

摩根大通gydF4y2Ba

格陵兰岛gydF4y2Ba

年代gydF4y2Ba

HlatkygydF4y2Ba

妈gydF4y2Ba

库利gydF4y2Ba

乔丹gydF4y2Ba

麦克劳德gydF4y2Ba

先生gydF4y2Ba

莫赫gydF4y2Ba

DgydF4y2Ba

舒尔茨gydF4y2Ba

KFgydF4y2Ba

TibshiranigydF4y2Ba

RgydF4y2Ba

在研究设计、实施和分析中增加价值和减少浪费gydF4y2Ba

《柳叶刀》gydF4y2Ba 2014gydF4y2Ba 01gydF4y2Ba 383gydF4y2Ba 9912gydF4y2Ba 166gydF4y2Ba 75gydF4y2Ba

10.1016 / s0140 - 6736 (13) 62227 - 8gydF4y2Ba

11gydF4y2Ba

笨蛋gydF4y2Ba

CgydF4y2Ba

席尔gydF4y2Ba

路gydF4y2Ba

PortalupigydF4y2Ba

年代gydF4y2Ba

OellergydF4y2Ba

PgydF4y2Ba

卡布瑞拉gydF4y2Ba

lgydF4y2Ba

BasslergydF4y2Ba

DgydF4y2Ba

施瓦彻尔gydF4y2Ba

GgydF4y2Ba

谢勒gydF4y2Ba

RWgydF4y2Ba

在什么gydF4y2Ba

GgydF4y2Ba

冯榆树gydF4y2Ba

EgydF4y2Ba

MeerpohlgydF4y2Ba

JJgydF4y2Ba

开放的财团gydF4y2Ba

经研究伦理委员会批准或纳入试验登记的研究队列中未发表的程度gydF4y2Ba

《公共科学图书馆•综合》gydF4y2Ba 2014gydF4y2Ba 12gydF4y2Ba 23gydF4y2Ba 9gydF4y2Ba 12gydF4y2Ba e114023gydF4y2Ba

10.1371 / journal.pone.0114023gydF4y2Ba

25536072gydF4y2Ba

玉米饼- d - 14 - 33159gydF4y2Ba

PMC4275183gydF4y2Ba

12gydF4y2Ba

EydinggydF4y2Ba

DgydF4y2Ba

LelgemanngydF4y2Ba

米gydF4y2Ba

GrouvengydF4y2Ba

UgydF4y2Ba

哈特gydF4y2Ba

米gydF4y2Ba

KrompgydF4y2Ba

米gydF4y2Ba

凯撒gydF4y2Ba

TgydF4y2Ba

克雷克斯gydF4y2Ba

曼氏金融gydF4y2Ba

GerkengydF4y2Ba

米gydF4y2Ba

威塞尔gydF4y2Ba

BgydF4y2Ba

瑞波西汀用于重度抑郁症的急性治疗:已发表和未发表的安慰剂和选择性血清素再摄取抑制剂对照试验的系统回顾和荟萃分析gydF4y2Ba

BMJgydF4y2Ba 2010gydF4y2Ba 10gydF4y2Ba 12gydF4y2Ba 341gydF4y2Ba oct12 1gydF4y2Ba c4737gydF4y2Ba

10.1136 / bmj.c4737gydF4y2Ba

20940209gydF4y2Ba

bmj.c4737gydF4y2Ba

PMC2954275gydF4y2Ba

13gydF4y2Ba

BlumlegydF4y2Ba

一个gydF4y2Ba

WollmanngydF4y2Ba

KgydF4y2Ba

比绍夫gydF4y2Ba

KgydF4y2Ba

卡普gydF4y2Ba

PgydF4y2Ba

LohnergydF4y2Ba

年代gydF4y2Ba

NurygydF4y2Ba

EgydF4y2Ba

·尼奇克gydF4y2Ba

KgydF4y2Ba

ZahringergydF4y2Ba

JgydF4y2Ba

洛克gydF4y2Ba

GgydF4y2Ba

舒马赫gydF4y2Ba

米gydF4y2Ba

研究者发起的试验与行业赞助的试验——将随机对照试验转化为临床实践(IMPACT)gydF4y2Ba

BMC医学Res MethodolgydF4y2Ba 2021gydF4y2Ba 08gydF4y2Ba 31gydF4y2Ba 21gydF4y2Ba 1gydF4y2Ba 182gydF4y2Ba

10.1186 / s12874 - 021 - 01359 - xgydF4y2Ba

34465296gydF4y2Ba

10.1186 / s12874 - 021 - 01359 - xgydF4y2Ba

PMC8406615gydF4y2Ba

14gydF4y2Ba

甘地gydF4y2Ba

RgydF4y2Ba

1月gydF4y2Ba

米gydF4y2Ba

史密斯gydF4y2Ba

接下来的gydF4y2Ba

MahomedgydF4y2Ba

神经网络gydF4y2Ba

班达里gydF4y2Ba

米gydF4y2Ba

在Clinicaltrials.gov上注册后发表的骨科创伤试验的比较gydF4y2Ba

BMC肌肉骨骼失调gydF4y2Ba 2011gydF4y2Ba 12gydF4y2Ba 07gydF4y2Ba 12gydF4y2Ba 1gydF4y2Ba 278gydF4y2Ba

10.1186 / 1471-2474-12-278gydF4y2Ba

22151841gydF4y2Ba

1471-2474-12-278gydF4y2Ba

PMC3266218gydF4y2Ba

15gydF4y2Ba

黄gydF4y2Ba

TJgydF4y2Ba

卡彭特gydF4y2Ba

DgydF4y2Ba

LauffenburgergydF4y2Ba

JCgydF4y2Ba

王gydF4y2Ba

BgydF4y2Ba

富兰克林gydF4y2Ba

JMgydF4y2Ba

KesselheimgydF4y2Ba

作为gydF4y2Ba

研究药物在后期临床开发和试验结果发表中失败gydF4y2Ba

美国医学会实习生gydF4y2Ba 2016gydF4y2Ba 12gydF4y2Ba 01gydF4y2Ba 176gydF4y2Ba 12gydF4y2Ba 1826gydF4y2Ba 33gydF4y2Ba

10.1001 / jamainternmed.2016.6008gydF4y2Ba

27723879gydF4y2Ba

2565686gydF4y2Ba

16gydF4y2Ba

ShamliyangydF4y2Ba

TgydF4y2Ba

凯恩gydF4y2Ba

RLgydF4y2Ba

涉及儿童的临床研究:注册、完整性和发表gydF4y2Ba

儿科gydF4y2Ba 2012gydF4y2Ba 05gydF4y2Ba 129gydF4y2Ba 5gydF4y2Ba e1291gydF4y2Ba 300gydF4y2Ba

10.1542 / peds.2010 - 2847gydF4y2Ba

22529271gydF4y2Ba

peds.2010 - 2847gydF4y2Ba

17gydF4y2Ba

刘gydF4y2Ba

年代gydF4y2Ba

资产阶级gydF4y2Ba

英国《金融时报》gydF4y2Ba

邓恩gydF4y2Ba

AG)gydF4y2Ba

确定ClinicalTrials.gov试验注册与其公布结果之间未报告的联系gydF4y2Ba

Res合成方法gydF4y2Ba 2022gydF4y2Ba 05gydF4y2Ba 23gydF4y2Ba 13gydF4y2Ba 3.gydF4y2Ba 342gydF4y2Ba 52gydF4y2Ba

10.1002 / jrsm.1545gydF4y2Ba

34970844gydF4y2Ba

PMC9090946gydF4y2Ba

18gydF4y2Ba

邓恩gydF4y2Ba

AG)gydF4y2Ba

CoieragydF4y2Ba

EgydF4y2Ba

资产阶级gydF4y2Ba

英国《金融时报》gydF4y2Ba

在ClinicalTrials.gov的横断面分析中，使用文献相似度测量方法确定了试验注册和发表文章之间未报告的联系gydF4y2Ba

临床流行病学gydF4y2Ba 2018gydF4y2Ba 03gydF4y2Ba 95gydF4y2Ba 94gydF4y2Ba 101gydF4y2Ba

10.1016 / j.jclinepi.2017.12.007gydF4y2Ba

29277557gydF4y2Ba

s0895 - 4356 (17) 30596 - 6gydF4y2Ba

19gydF4y2Ba

巴希尔gydF4y2Ba

RgydF4y2Ba

资产阶级gydF4y2Ba

英国《金融时报》gydF4y2Ba

邓恩gydF4y2Ba

AG)gydF4y2Ba

系统回顾用于将临床试验注册与其发表结果联系起来的过程gydF4y2Ba

系统加速gydF4y2Ba 2017gydF4y2Ba 07gydF4y2Ba 03gydF4y2Ba 6gydF4y2Ba 1gydF4y2Ba 123gydF4y2Ba

10.1186 / s13643 - 017 - 0518 - 3gydF4y2Ba

28669351gydF4y2Ba

10.1186 / s13643 - 017 - 0518 - 3gydF4y2Ba

PMC5494826gydF4y2Ba

20.gydF4y2Ba

ZaringydF4y2Ba

达gydF4y2Ba

谢霆锋gydF4y2Ba

TgydF4y2Ba

威廉姆斯gydF4y2Ba

RJgydF4y2Ba

卡利夫gydF4y2Ba

RMgydF4y2Ba

IdegydF4y2Ba

数控gydF4y2Ba

临床试验。政府results database — update and key issues

N英语J医学gydF4y2Ba 2011gydF4y2Ba 03gydF4y2Ba 03gydF4y2Ba 364gydF4y2Ba 9gydF4y2Ba 852gydF4y2Ba 60gydF4y2Ba

10.1056 / nejmsa1012065gydF4y2Ba

21gydF4y2Ba

ZaringydF4y2Ba

达gydF4y2Ba

乐意的gydF4y2Ba

公里gydF4y2Ba

DobbinsgydF4y2Ba

高清gydF4y2Ba

谢霆锋gydF4y2Ba

TgydF4y2Ba

威廉姆斯gydF4y2Ba

RJgydF4y2Ba

提交临床试验的研究结果的10年更新。政府gydF4y2Ba

N英语J医学gydF4y2Ba 2019gydF4y2Ba 11gydF4y2Ba 14gydF4y2Ba 381gydF4y2Ba 20.gydF4y2Ba 1966gydF4y2Ba 74gydF4y2Ba

10.1056 / nejmsr1907644gydF4y2Ba

22gydF4y2Ba

溶血性尿毒综合征gydF4y2Ba

VgydF4y2Ba

西米洛gydF4y2Ba

JJgydF4y2Ba

链接ClinicalTrials.gov和PubMed，以跟踪介入性人体临床试验的结果gydF4y2Ba

《公共科学图书馆•综合》gydF4y2Ba 2013gydF4y2Ba 7gydF4y2Ba 9gydF4y2Ba 8gydF4y2Ba 7gydF4y2Ba e68409gydF4y2Ba

10.1371 / journal.pone.0068409gydF4y2Ba

23874614gydF4y2Ba

玉米饼- d - 13 - 17506gydF4y2Ba

PMC3706420gydF4y2Ba

23gydF4y2Ba

Al-DurragydF4y2Ba

米gydF4y2Ba

诺兰gydF4y2Ba

RPgydF4y2Ba

濑户gydF4y2Ba

EgydF4y2Ba

CafazzogydF4y2Ba

晶澳gydF4y2Ba

EysenbachgydF4y2Ba

GgydF4y2Ba

数字健康领域已注册随机临床试验的未发表率和特征:横断面分析gydF4y2Ba

J医疗互联网服务gydF4y2Ba 2018gydF4y2Ba 12gydF4y2Ba 18gydF4y2Ba 20.gydF4y2Ba 12gydF4y2Ba e11924gydF4y2Ba

10.2196/11924gydF4y2Ba

30485832gydF4y2Ba

v20i12e11924gydF4y2Ba

PMC6315268gydF4y2Ba

24gydF4y2Ba

CanestarogydF4y2Ba

WJgydF4y2Ba

亨德里克斯gydF4y2Ba

NgydF4y2Ba

邦萨尔gydF4y2Ba

一个gydF4y2Ba

沙利文gydF4y2Ba

SDgydF4y2Ba

迪瓦恩gydF4y2Ba

海尔哥哥gydF4y2Ba

卡尔森gydF4y2Ba

JJgydF4y2Ba

有利的和公共资助的研究更有可能被发表:系统评价和荟萃分析gydF4y2Ba

临床流行病学gydF4y2Ba 2017gydF4y2Ba 12gydF4y2Ba 92gydF4y2Ba 58gydF4y2Ba 68gydF4y2Ba

10.1016 / j.jclinepi.2017.08.004gydF4y2Ba

28842289gydF4y2Ba

s0895 - 4356 (17) 30134 - 8gydF4y2Ba

25gydF4y2Ba

SreekrishnangydF4y2Ba

一个gydF4y2Ba

MampregydF4y2Ba

DgydF4y2Ba

OrmsethgydF4y2Ba

CgydF4y2Ba

MiyaresgydF4y2Ba

lgydF4y2Ba

酒店现有gydF4y2Ba

一个gydF4y2Ba

罗斯gydF4y2Ba

JSgydF4y2Ba

ShethgydF4y2Ba

KNgydF4y2Ba

神经病学临床试验结果的出版和传播gydF4y2Ba

JAMA神经gydF4y2Ba 2018gydF4y2Ba 07gydF4y2Ba 01gydF4y2Ba 75gydF4y2Ba 7gydF4y2Ba 890gydF4y2Ba 1gydF4y2Ba

10.1001 / jamaneurol.2018.0674gydF4y2Ba

29710083gydF4y2Ba

2679317gydF4y2Ba

PMC6145765gydF4y2Ba

26gydF4y2Ba

谢勒gydF4y2Ba

RWgydF4y2Ba

Ugarte-GilgydF4y2Ba

CgydF4y2Ba

笨蛋gydF4y2Ba

CgydF4y2Ba

MeerpohlgydF4y2Ba

JJgydF4y2Ba

作者报告说，缺乏时间是在生物医学会议上发表未发表研究的主要原因:系统综述gydF4y2Ba

临床流行病学gydF4y2Ba 2015gydF4y2Ba 07gydF4y2Ba 68gydF4y2Ba 7gydF4y2Ba 803gydF4y2Ba 10gydF4y2Ba

10.1016 / j.jclinepi.2015.01.027gydF4y2Ba

25797837gydF4y2Ba

s0895 - 4356 (15) 00065 - 7gydF4y2Ba

PMC4458220gydF4y2Ba

27gydF4y2Ba

艾尔金gydF4y2Ba

我gydF4y2Ba

朱gydF4y2Ba

XgydF4y2Ba

使用特征工程和嵌入学习的临床试验终止预测建模gydF4y2Ba

Sci代表gydF4y2Ba 2021gydF4y2Ba 02gydF4y2Ba 10gydF4y2Ba 11gydF4y2Ba 1gydF4y2Ba 3446gydF4y2Ba

10.1038 / s41598 - 021 - 82840 - xgydF4y2Ba

33568706gydF4y2Ba

10.1038 / s41598 - 021 - 82840 - xgydF4y2Ba

PMC7876037gydF4y2Ba

28gydF4y2Ba

福利特gydF4y2Ba

lgydF4y2Ba

GelettagydF4y2Ba

年代gydF4y2Ba

LaugermangydF4y2Ba

米gydF4y2Ba

量化与临床试验终止相关的风险:文本挖掘方法gydF4y2Ba

通知流程管理gydF4y2Ba 2019gydF4y2Ba 05gydF4y2Ba 56gydF4y2Ba 3.gydF4y2Ba 516gydF4y2Ba 25gydF4y2Ba

10.1016 / j.ipm.2018.11.009gydF4y2Ba

29gydF4y2Ba

GelettagydF4y2Ba

年代gydF4y2Ba

福利特gydF4y2Ba

lgydF4y2Ba

LaugermangydF4y2Ba

米gydF4y2Ba

潜在狄利克雷分布在预测临床试验终止中的作用gydF4y2Ba

BMC Med通知Decis MakgydF4y2Ba 2019gydF4y2Ba 11gydF4y2Ba 27gydF4y2Ba 19gydF4y2Ba 1gydF4y2Ba 242gydF4y2Ba

10.1186 / s12911 - 019 - 0973 - ygydF4y2Ba

31775737gydF4y2Ba

10.1186 / s12911 - 019 - 0973 - ygydF4y2Ba

PMC6882341gydF4y2Ba

30.gydF4y2Ba

通gydF4y2Ba

lgydF4y2Ba

蒂莫西gydF4y2Ba

BgydF4y2Ba

特雷弗gydF4y2Ba

CgydF4y2Ba

实现健壮且保护隐私的文本表示gydF4y2Ba

arXivgydF4y2Ba 2018gydF4y2Ba

31gydF4y2Ba

JieyugydF4y2Ba

ZgydF4y2Ba

TianlugydF4y2Ba

WgydF4y2Ba

马克gydF4y2Ba

YgydF4y2Ba

韦森特gydF4y2Ba

OgydF4y2Ba

Kai-WeigydF4y2Ba

CgydF4y2Ba

男性也喜欢购物:使用语料库限制来减少性别偏见的放大gydF4y2Ba

arXivgydF4y2Ba 2017gydF4y2Ba

32gydF4y2Ba

DiMasigydF4y2Ba

JgydF4y2Ba

赫尔曼gydF4y2Ba

JgydF4y2Ba

TwymangydF4y2Ba

KgydF4y2Ba

KondrugydF4y2Ba

RgydF4y2Ba

StergiopoulosgydF4y2Ba

年代gydF4y2Ba

男孩旁边gydF4y2Ba

KgydF4y2Ba

RackoffgydF4y2Ba

WgydF4y2Ba

预测新肿瘤化合物II期试验后监管批准的工具gydF4y2Ba

临床药物学gydF4y2Ba 2015gydF4y2Ba 11gydF4y2Ba 24gydF4y2Ba 98gydF4y2Ba 5gydF4y2Ba 506gydF4y2Ba 13gydF4y2Ba

10.1002 / cpt.194gydF4y2Ba

26239772gydF4y2Ba

33gydF4y2Ba

罗gydF4y2Ba

亚历山大-伍尔兹gydF4y2Ba

SiahgydF4y2Ba

千瓦gydF4y2Ba

黄gydF4y2Ba

CHgydF4y2Ba

罗gydF4y2Ba

亚历山大-伍尔兹gydF4y2Ba

SiahgydF4y2Ba

千瓦gydF4y2Ba

黄gydF4y2Ba

CHgydF4y2Ba

机器学习与统计归因预测药物批准gydF4y2Ba

哈佛数据科学gydF4y2Ba 2019gydF4y2Ba 06gydF4y2Ba 23gydF4y2Ba

10.1162 / 99608 f92.5c5f0525gydF4y2Ba

34gydF4y2Ba

SiahgydF4y2Ba

千瓦gydF4y2Ba

凯利gydF4y2Ba

NgydF4y2Ba

BallerstedtgydF4y2Ba

年代gydF4y2Ba

HolzhauergydF4y2Ba

BgydF4y2Ba

律gydF4y2Ba

TgydF4y2Ba

梅特勒gydF4y2Ba

DgydF4y2Ba

太阳gydF4y2Ba

年代gydF4y2Ba

WandelgydF4y2Ba

年代gydF4y2Ba

钟gydF4y2Ba

YgydF4y2Ba

周gydF4y2Ba

BgydF4y2Ba

锅gydF4y2Ba

年代gydF4y2Ba

周gydF4y2Ba

YgydF4y2Ba

罗gydF4y2Ba

亚历山大-伍尔兹gydF4y2Ba

预测药物批准:诺华的数据科学和人工智能挑战gydF4y2Ba

SSRN JgydF4y2Ba 2021gydF4y2Ba 3.gydF4y2Ba 2gydF4y2Ba

10.2139 / ssrn.3796530gydF4y2Ba

35gydF4y2Ba

FeijoogydF4y2Ba

FgydF4y2Ba

PalopoligydF4y2Ba

米gydF4y2Ba

伯恩斯坦gydF4y2Ba

JgydF4y2Ba

西迪基gydF4y2Ba

年代gydF4y2Ba

奥尔布赖特gydF4y2Ba

TEgydF4y2Ba

通过机器学习进行临床试验的相变关键指标gydF4y2Ba

今日毒品发现gydF4y2Ba 2020gydF4y2Ba 02gydF4y2Ba 25gydF4y2Ba 2gydF4y2Ba 414gydF4y2Ba 21gydF4y2Ba

10.1016 / j.drudis.2019.12.014gydF4y2Ba

31926317gydF4y2Ba

s1359 - 6446 (20) 30005 - 2gydF4y2Ba

36gydF4y2Ba

勒gydF4y2Ba

问gydF4y2Ba

MikolovgydF4y2Ba

TgydF4y2Ba

句子和文档的分布式表示gydF4y2Ba

2014gydF4y2Ba

机器学习国际会议gydF4y2Ba

2014gydF4y2Ba

中国,北京gydF4y2Ba

2 - 1188gydF4y2Ba 2 - 1196gydF4y2Ba

37gydF4y2Ba

MikolovgydF4y2Ba

TgydF4y2Ba

SutskevergydF4y2Ba

我gydF4y2Ba

陈gydF4y2Ba

KgydF4y2Ba

柯拉gydF4y2Ba

GgydF4y2Ba

迪安gydF4y2Ba

jgydF4y2Ba

单词和短语及其组合的分布式表示gydF4y2Ba

2013gydF4y2Ba

神经信息处理系统国际会议gydF4y2Ba

2013gydF4y2Ba

太浩湖gydF4y2Ba

38gydF4y2Ba

BeltagygydF4y2Ba

我gydF4y2Ba

罗gydF4y2Ba

KgydF4y2Ba

科汉gydF4y2Ba

一个gydF4y2Ba

SciBERT:科学文本的预训练语言模型gydF4y2Ba

2019gydF4y2Ba

自然语言处理经验方法会议暨第九届自然语言处理国际联合会议(EMNLP-IJCNLP)gydF4y2Ba

2019年11月gydF4y2Ba

中国香港gydF4y2Ba

10.18653 / v1 / d19 - 1371gydF4y2Ba

39gydF4y2Ba

DevlingydF4y2Ba

JgydF4y2Ba

常gydF4y2Ba

兆瓦gydF4y2Ba

李gydF4y2Ba

KgydF4y2Ba

ToutanovagydF4y2Ba

KgydF4y2Ba

BERT:深度双向转换器的预训练，用于语言理解gydF4y2Ba

2019gydF4y2Ba

计算语言学协会北美分会年会:人类语言技术gydF4y2Ba

2019gydF4y2Ba

明尼阿波里斯市gydF4y2Ba

40gydF4y2Ba

所有公共XMLgydF4y2Ba

ClinicalTrials.govgydF4y2Ba 2022-11-24gydF4y2Ba

https://clinicaltrials.gov/AllPublicXML.zipgydF4y2Ba

41gydF4y2Ba

/pubmed/baseline指数gydF4y2Ba

NCBIgydF4y2Ba 2020-08-15gydF4y2Ba

https://ftp.ncbi.nlm.nih.gov/pubmed/baselinegydF4y2Ba

42gydF4y2Ba

Pytorch闪电gydF4y2Ba

GitHubgydF4y2Ba 2022-01-01gydF4y2Ba

https://github.com/PyTorchLightning/pytorch-lightninggydF4y2Ba

43gydF4y2Ba

SustergydF4y2Ba

年代gydF4y2Ba

手动验证的发布预测数据集gydF4y2Ba

ZenodogydF4y2Ba 2022gydF4y2Ba 9gydF4y2Ba 27gydF4y2Ba

2022-12-16gydF4y2Ba

https://zenodo.org/record/7115724#.Y5x1j-xBxpQgydF4y2Ba

44gydF4y2Ba

曼宁gydF4y2Ba

CDgydF4y2Ba

RaghavangydF4y2Ba

PgydF4y2Ba

SchutzegydF4y2Ba

HgydF4y2Ba

信息检索概论gydF4y2Ba 2008gydF4y2Ba

剑桥，马萨诸塞州，美国gydF4y2Ba

剑桥大学出版社gydF4y2Ba

45gydF4y2Ba

AdhikarigydF4y2Ba

一个gydF4y2Ba

内存gydF4y2Ba

一个gydF4y2Ba

唐gydF4y2Ba

RgydF4y2Ba

林gydF4y2Ba

JgydF4y2Ba

DocBERT:用于文档分类的BERTgydF4y2Ba

arXivgydF4y2Ba 2019gydF4y2Ba

46gydF4y2Ba

太阳gydF4y2Ba

CgydF4y2Ba

邱gydF4y2Ba

XgydF4y2Ba

徐gydF4y2Ba

YgydF4y2Ba

黄gydF4y2Ba

XgydF4y2Ba

如何微调BERT的文本分类?gydF4y2Ba

中国计算语言学gydF4y2Ba 2019gydF4y2Ba

可汗gydF4y2Ba

施普林格gydF4y2Ba

47gydF4y2Ba

格林gydF4y2Ba

JgydF4y2Ba

AuligydF4y2Ba

米gydF4y2Ba

GrangiergydF4y2Ba

DgydF4y2Ba

YaratsgydF4y2Ba

DgydF4y2Ba

多芬gydF4y2Ba

YNgydF4y2Ba

卷积序列到序列学习gydF4y2Ba

2017gydF4y2Ba

机器学习国际会议gydF4y2Ba

2017gydF4y2Ba

澳大利亚悉尼gydF4y2Ba

48gydF4y2Ba

赫齐格gydF4y2Ba

JgydF4y2Ba

诺瓦克gydF4y2Ba

PKgydF4y2Ba

穆勒gydF4y2Ba

TgydF4y2Ba

PiccinnogydF4y2Ba

FgydF4y2Ba

EisenschlosgydF4y2Ba

EgydF4y2Ba

TaPas:通过预训练进行弱监督表解析gydF4y2Ba

2020gydF4y2Ba

计算语言学协会年会gydF4y2Ba

2020年7月,gydF4y2Ba

在线gydF4y2Ba

10.18653 / v1/2020.acl-main.398gydF4y2Ba

49gydF4y2Ba

ShamliyangydF4y2Ba

助教gydF4y2Ba

凯恩gydF4y2Ba

RLgydF4y2Ba

临床研究结果的可获得性:失败的政策努力gydF4y2Ba

J流行病Glob健康gydF4y2Ba 2014gydF4y2Ba 03gydF4y2Ba 4gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba 12gydF4y2Ba

10.1016 / j.jegh.2013.08.002gydF4y2Ba

24534330gydF4y2Ba

s2210 - 6006 (13) 00086 - 5gydF4y2Ba

PMC7320403gydF4y2Ba

50gydF4y2Ba

TrinquartgydF4y2Ba

lgydF4y2Ba

邓恩gydF4y2Ba

AG)gydF4y2Ba

资产阶级gydF4y2Ba

英国《金融时报》gydF4y2Ba

已发表的随机试验的登记:系统回顾和荟萃分析gydF4y2Ba

BMC医学gydF4y2Ba 2018gydF4y2Ba 10gydF4y2Ba 16gydF4y2Ba 16gydF4y2Ba 1gydF4y2Ba 173gydF4y2Ba

10.1186 / s12916 - 018 - 1168 - 6gydF4y2Ba

30322399gydF4y2Ba

10.1186 / s12916 - 018 - 1168 - 6gydF4y2Ba

PMC6190546gydF4y2Ba

51gydF4y2Ba

KhalilzadehgydF4y2Ba

JgydF4y2Ba

TascigydF4y2Ba

广告gydF4y2Ba

大样本量、显著性水平和效应量:在学术研究中使用大数据的风险解决方案gydF4y2Ba

旅游管理gydF4y2Ba 2017gydF4y2Ba 10gydF4y2Ba 62gydF4y2Ba 89gydF4y2Ba 96gydF4y2Ba

10.1016 / j.tourman.2017.03.026gydF4y2Ba

52gydF4y2Ba

林gydF4y2Ba

米gydF4y2Ba

卢卡斯gydF4y2Ba

HCgydF4y2Ba

·史慕丽gydF4y2Ba

GgydF4y2Ba

研究评论:大到不能倒:大样本和p值问题gydF4y2Ba

通知系统gydF4y2Ba 2013gydF4y2Ba 12gydF4y2Ba 24gydF4y2Ba 4gydF4y2Ba 906gydF4y2Ba 17gydF4y2Ba

10.1287 / isre.2013.0480gydF4y2Ba

53gydF4y2Ba

手动验证的发布预测数据集gydF4y2Ba

ZenodogydF4y2Ba 2022gydF4y2Ba 9gydF4y2Ba 27gydF4y2Ba

2022-12-06gydF4y2Ba

https://doi.org/10.5281/zenodo.7115724gydF4y2Ba

54gydF4y2Ba

米隆gydF4y2Ba

lgydF4y2Ba

GoncalvesgydF4y2Ba

RSgydF4y2Ba

为了gydF4y2Ba

妈gydF4y2Ba

在ClinicalTrials.gov中重复使用研究元数据的障碍gydF4y2Ba

科学数据gydF4y2Ba 2020gydF4y2Ba 12gydF4y2Ba 18gydF4y2Ba 7gydF4y2Ba 1gydF4y2Ba 443gydF4y2Ba

10.1038 / s41597 - 020 - 00780 - zgydF4y2Ba

33339830gydF4y2Ba

10.1038 / s41597 - 020 - 00780 - zgydF4y2Ba

PMC7749162gydF4y2Ba

55gydF4y2Ba

谢霆锋gydF4y2Ba

TgydF4y2Ba

乐意的gydF4y2Ba

公里gydF4y2Ba

ZaringydF4y2Ba

达gydF4y2Ba

在研究中使用ClinicalTrials.gov时如何避免常见问题:需要考虑的10个问题gydF4y2Ba

BMJgydF4y2Ba 2018gydF4y2Ba 05gydF4y2Ba 25gydF4y2Ba 361gydF4y2Ba k1452gydF4y2Ba

10.1136 / bmj.k1452gydF4y2Ba

29802130gydF4y2Ba

PMC5968400gydF4y2Ba

56gydF4y2Ba

查图尔维迪gydF4y2Ba

NgydF4y2Ba

MehrotragydF4y2Ba

BgydF4y2Ba

KumarigydF4y2Ba

年代gydF4y2Ba

古普塔gydF4y2Ba

年代gydF4y2Ba

SubramanyagydF4y2Ba

海关gydF4y2Ba

SaberwalgydF4y2Ba

GgydF4y2Ba

ClinicalTrials.gov网站上的一些数据质量问题gydF4y2Ba

试用gydF4y2Ba 2019gydF4y2Ba 06gydF4y2Ba 24gydF4y2Ba 20.gydF4y2Ba 1gydF4y2Ba 378gydF4y2Ba

10.1186 / s13063 - 019 - 3408 - 2gydF4y2Ba

31234923gydF4y2Ba

10.1186 / s13063 - 019 - 3408 - 2gydF4y2Ba

PMC6591874gydF4y2Ba

57gydF4y2Ba

华莱士gydF4y2Ba

公元前gydF4y2Ba

柯伊伯gydF4y2Ba

JgydF4y2Ba

沙玛gydF4y2Ba

一个gydF4y2Ba

朱gydF4y2Ba

MBgydF4y2Ba

马歇尔gydF4y2Ba

IJgydF4y2Ba

利用监督式远程监督从临床试验报告中提取PICO语句gydF4y2Ba

J Mach Learn ResgydF4y2Ba 2016gydF4y2Ba 17gydF4y2Ba 132gydF4y2Ba

27746703gydF4y2Ba

132gydF4y2Ba

PMC5065023gydF4y2Ba

58gydF4y2Ba

明茨gydF4y2Ba

米gydF4y2Ba

账单gydF4y2Ba

年代gydF4y2Ba

雪gydF4y2Ba

RgydF4y2Ba

JurafskygydF4y2Ba

DgydF4y2Ba

远程监控无标记数据的关系提取gydF4y2Ba

ACL第47届年会和AFNLP自然语言处理第4届国际联合会议论文集:卷2 -卷2gydF4y2Ba 2009gydF4y2Ba

ACL第47届年会联合会议和AFNLP自然语言处理第四届国际联合会议:卷2 -卷2gydF4y2Ba

2009年8月2日至7日gydF4y2Ba

15日新加坡gydF4y2Ba

10.3115/1690219.1690287gydF4y2Ba

59gydF4y2Ba

石香肠gydF4y2Ba

FgydF4y2Ba

聂gydF4y2Ba

j ygydF4y2Ba

道斯gydF4y2Ba

米gydF4y2Ba

临床信息检索的位置语言模型gydF4y2Ba

自然语言处理的经验方法会议论文集gydF4y2Ba 2010gydF4y2Ba

自然语言处理经验方法研讨会gydF4y2Ba

2010年10月9日至11日gydF4y2Ba

剑桥,麻gydF4y2Ba

60gydF4y2Ba

riverogydF4y2Ba

CgydF4y2Ba

DechartresgydF4y2Ba

一个gydF4y2Ba

PerrodeaugydF4y2Ba

EgydF4y2Ba

汉尼弗gydF4y2Ba

RgydF4y2Ba

BoutrongydF4y2Ba

我gydF4y2Ba

RavaudgydF4y2Ba

PgydF4y2Ba

在ClinicalTrials.gov上发布并在期刊上发表的试验结果的时间和完整性gydF4y2Ba

科学硕士gydF4y2Ba 2013gydF4y2Ba 12gydF4y2Ba 3.gydF4y2Ba 10gydF4y2Ba 12gydF4y2Ba e1001566;讨论e1001566gydF4y2Ba

10.1371 / journal.pmed.1001566gydF4y2Ba

24311990gydF4y2Ba

pmedicine - d - 13 - 01170gydF4y2Ba

PMC3849189gydF4y2Ba

61gydF4y2Ba

泰斯gydF4y2Ba

DgydF4y2Ba

卡罗尔gydF4y2Ba

KgydF4y2Ba

BhattgydF4y2Ba

KgydF4y2Ba

贝尔科那普gydF4y2Ba

年代gydF4y2Ba

梅gydF4y2Ba

DgydF4y2Ba

吉普森gydF4y2Ba

HgydF4y2Ba

西gydF4y2Ba

DgydF4y2Ba

学术医疗机构非应计临床研究(NACR)的特点和原因gydF4y2Ba

临床医学杂志gydF4y2Ba 2013gydF4y2Ba 06gydF4y2Ba 5gydF4y2Ba 3.gydF4y2Ba 185gydF4y2Ba 93gydF4y2Ba

10.4021 / jocmr1320wgydF4y2Ba

23671544gydF4y2Ba

PMC3651069gydF4y2Ba

62gydF4y2Ba

韦伯gydF4y2Ba

EJgydF4y2Ba

CallahamgydF4y2Ba

毫升gydF4y2Ba

穿gydF4y2Ba

RLgydF4y2Ba

巴顿gydF4y2Ba

CgydF4y2Ba

年轻的gydF4y2Ba

GgydF4y2Ba

医学专业会议未发表的研究:为什么研究者未能发表gydF4y2Ba

《美国医学会杂志》gydF4y2Ba 1998gydF4y2Ba 07gydF4y2Ba 15gydF4y2Ba 280gydF4y2Ba 3.gydF4y2Ba 257gydF4y2Ba 9gydF4y2Ba

10.1001 / jama.280.3.257gydF4y2Ba

9676674gydF4y2Ba

jpv71023gydF4y2Ba

63gydF4y2Ba

王gydF4y2Ba

年代gydF4y2Ba

SustergydF4y2Ba

年代gydF4y2Ba

鲍德温gydF4y2Ba

TgydF4y2Ba

VerspoorgydF4y2Ba

KgydF4y2Ba

使用结构化和非结构化数据预测临床试验的发表gydF4y2Ba

ZenodogydF4y2Ba 2022gydF4y2Ba 2gydF4y2Ba 28gydF4y2Ba

2022-12-16gydF4y2Ba

https://zenodo.org/record/6302910#.Y5x2CuxBxpQgydF4y2Ba