JMIR医学信息学-大数据和临床医生:对科学现状的回顾

审查

美国加州帕洛阿尔托斯坦福大学医学院

通讯作者:

埃斯瓦尔·克里希南，医学博士，公共卫生硕士

医学院

斯坦福大学

韦尔奇路1000号203室

帕洛阿尔托，加利福尼亚州，94304

美国

电话:16507258004

传真:16507239656

电子邮件:e.krishnan@stanford.edu

背景:在过去的几十年里，医学相关的数据收集出现了巨大的增长，被称为大数据。这些庞大的数据集给存储、处理和分析带来了挑战。在临床医学中，大数据有望在识别患者症状的因果关系、预测疾病发生或复发的危险、提高初级保健质量等方面发挥重要作用。

摘要目的:本综述的目的是概述临床大数据的特点，描述一些常用的计算算法、统计方法和用于数据操作和分析的软件工具包，并讨论该领域的挑战和局限性。

方法:我们进行了文献综述，以确定大数据在医学，特别是临床医学方面的研究。我们使用不同的关键字组合来搜索PubMed、Science Direct、Web of Knowledge和b谷歌Scholar，以获取过去10年的相关文献。

结果:本文回顾了分析临床大数据的研究，并讨论了这类数据的存储和分析相关问题。

结论:大数据正在成为生物学和临床研究的共同特征。使用临床大数据的研究人员面临多重挑战，数据本身也有局限性。数据分析方法必须与我们收集和存储数据的能力保持同步。

中华医学杂志，2014;2(1):1

doi: 10.2196 / medinform.2913

关键字

大数据; 数据库; 医学信息学; 临床研究; 医学

大数据是指具有复杂结构的非常大的数据集，使用传统方法和工具难以处理。“过程”一词包括捕获、存储、格式化、提取、管理、集成、分析和可视化[1-9]。大数据的一个流行定义是Gartner提出的“3V”模型[10]，认为大数据具有三个基本特征:数据量大、数据流速度快、数据类型多样。大数据的概念可以追溯到20世纪70年代[11-13当科学家们意识到他们缺乏分析大型数据集的工具时。那时，大数据只有几到几百兆[14];现在tb级的数据集很常见[15，16]。因此，大数据中的“大”反映了给定时间点存在的数据存储和计算能力的极限。

表1展示了自2009年以来全球大数据量和大数据计算机科学论文的增长情况。这张表表明，到2020年，存储的数据将达到数十zb，关于如何处理大数据的研究也将呈指数级增长。

大数据在许多学科中收集，并通过无处不在的信息传感设备和软件成为可能[19]。以web日志为例，谷歌、Facebook等网站会自动记录用户每次访问的信息。其他例子来自股票市场[20.]、地震监测[21]、政治选举[22]，行为研究[23]，体育[24]、药物报告[25]，医疗保健[26，27]、电子病历[28]、影像资料[29]，基因组数据[30.，31]、企业家交易记录[32]。数据收集有时是跨学科的。例如，谷歌搜索词如“流感症状”和“流感治疗”的突然增加可以用来预测到医院急诊室就诊的流感患者的增加[33]。这个例子也证明了大数据具有很好的预测能力和投资回报。大数据投资回报也被建议用于临床大数据[34，35]。

尽管可以说大数据是有价值的，但由于原始数据的数量庞大且多样性，大数据很难分析，如图所示图1。因此，通常从原始数据中提取一个大数据集，以生成用于分析目的的数据的二级存储，而不是原始大数据。例如，当临床试验中涉及计算机断层扫描，并且数据分析中只包括基于扫描的医生诊断时，就会应用这种数据提取。类似地，在只保留关键参数的情况下，可以提取大量关于各种样品、测试或分析的描述性数据。因此，临床医学中分析的数据通常来自只包含感兴趣的数据的次要数据集。次要数据集虽然仍然很大，但不是太字节的大小。此外，由于临床试验的性质，临床医学中的大型数据集通常没有压倒性的样本数量。Kjaergard等[36]将1000名或更多参与者的临床试验定义为大型试验，而临床医学中标题为“大/大”、“数据/数据集”的研究通常有数千个属性，但只有数百个样本[37-39]。

在本文中，我们回顾了文献，以确定临床大数据的特征，并确定对这些数据进行操作和分析的方法。本文的重点是临床医学，而不是一般的卫生保健问题;因此，我们主要回顾了与临床医生相关的研究。我们检查了选定的研究，以提取有关研究兴趣、目标、成就和实施方法的信息。我们的目的不是进行详尽的系统回顾，而是基于文献的讨论如何在临床医学中解决大数据问题。基于我们的发现，我们讨论了大型临床数据集分析的挑战和局限性。

表1。全球大数据增长与大数据计算机科学论文。

一年	数据量，ZB^a、c	会议文件，CS^{b, c}	期刊论文，CS^c
2009	1.5	12	7
2010	2	26	7
2011	2．5	32	23
2012	3.	78	47
2015	8	？	？
2020	44	? ?	? ?

^一个数据从甲骨文［17]。

^b数据从研究趋势［18]。

^cCS，计算机科学;ZB, zettabytes (1 zettabyte = 1000 tb = 10)⁶pb = 10¹⁸g, g)。

图1所示。关于大数据存储和使用的问题示意图。临床大数据，以及其他学科的大数据，已经被许多问题和挑战所包围，包括(但不限于):生成、存储、策展、提取、集成、分析、可视化等。ANN:人工神经元网络;EMR:电子病历;MPP:大规模并行处理;PCA:主成分分析;ROI:投资回报;SVM:支持向量机。

我们进行了文献综述，以确定大数据在医学，特别是临床医学方面的研究。我们使用不同的关键字组合来搜索PubMed、Science Direct、Web of Knowledge和b谷歌Scholar，以获取感兴趣的文献，主要是最近10年的文献。关键词:“大数据医学”、“大数据医学”、“临床大数据”、“临床大数据”、“临床数据仓库”、“临床数据库”、“临床数据挖掘”、“生物医学大数据”、“生物医学数据库”、“生物医学数据仓库”、“医疗大数据”、“医疗数据库”、“医疗数据仓库”。

临床医学中的大数据

大数据在医学和临床研究中发挥着重要作用，已被应用于临床相关研究。主要的研究机构中心和资助机构在这个领域进行了大量投资。例如，美国国立卫生研究院最近承诺为大数据到知识(BD2K)计划提供1亿美元[40]。BD2K将“生物医学”大数据定义为由研究小组或个人调查人员生成的大数据集，以及由较小数据集聚合产生的大数据集。医疗大数据最著名的例子是医疗保险和医疗保健成本和利用项目维护的数据库(拥有超过1亿个观察值)。医学大数据与其他学科大数据集的区别之一是，临床大数据通常是基于协议(即固定形式)收集的，因此相对结构化，部分原因是上述提取过程简化了原始数据。这一特征可以追溯到弗雷明汉心脏研究[41自1948年以来，该研究一直追踪马萨诸塞州弗雷明汉镇的一群人。通过弗雷明汉心脏研究收集了大量的数据，这些分析使我们了解了心脏病，包括饮食、运动、药物和肥胖对风险的影响。42]。还有许多其他不同范围的临床数据库，包括但不限于患病率和趋势研究、风险因素研究和基因型-表型研究。

患病率及趋势研究

临床大数据的主要用途之一是分析不同人群中疾病或表型的患病率或趋势。一项早期的大数据研究评估了一组由890394名患有糖尿病的美国退伍军人组成的队列，随访时间为2002年至2006年[43]。Bermejo-Sanchez等[44在来自4大洲23个国家的2300万活产、死产和胎儿异常中，观察到了326例出生缺陷Amelia，发现Amelia在年轻母亲中患病率更高。在809例大肠内镜活检中发现了慢性特发性炎症性肠病与正常人、克罗恩病与溃疡性结肠炎之间的组织学特征差异[45]。Kelly等[46]研究了8192名A型和b型血友病患者髋关节异常的患病率。Siregar等[47]对荷兰所有16家心胸外科中心的心脏手术后患者进行了一项基于人群的研究。Elshazly等[48研究了130万美国成年人的非高密度脂蛋白胆固醇和低密度脂蛋白胆固醇的患者水平不一致。陈和麦格瑞[49]总结了如何分析大型数据集以得出基于人口的结论，特别是确定长期趋势、健康差异、地理差异以及评估特定疾病和治疗方法。本文还总结了大型数据集的优势和局限性，并解决了数据缺失和偏倚等问题。这些问题也将在下面简要讨论。

风险因素研究

临床大数据还可用于确定风险因素与感兴趣的疾病之间的因果关系、影响或关联。Ursum等[50研究了18658例类风湿关节炎患者和对照组自身抗体血清转化和患者年龄与炎症作用之间的关系，结果表明瓜氨酸化蛋白和肽是比免疫球蛋白M类风湿因子更可靠的类风湿关节炎标志物。Ajdacic-Gross等[51]研究了2003年以来11905名瑞士新兵的口吃数据，发现没有单一的压倒性的口吃风险因素，尽管早产和父母酗酒似乎有影响。从美国50个州、波多黎各和哥伦比亚特区的155个退伍军人管理局医疗中心收集的14433名患者的数据被用来确定药物对酒精的依赖。52]。通过对来自放射学和心导管实验室数据库的35,922例患者中53,177例造影剂给药的分析，对比剂肾病的增加与碳酸氢钠的使用有关[53]。对534例左心室射血分数的超声心动图和心电图门控单光子发射计算机断层图进行了比较[54]。Zhang等[55]研究了16135例成人患者的临床资料，阐明了血糖、血糖水平和胰岛素摄入与死亡率的关系。mitchell等人[56]研究了两种胰岛素对英国800万患者中7720名患者的影响。Kobayashi等[57]分析了日本3500家医院19070例右半结肠切除术的记录，并成功开发了一个风险模型。值得注意的是，在这些研究中，必须严格区分“关联”和“因果关系”这两个术语;大多数研究都声称有关联，而很少断言有因果关系。

Genotype-Phenotype研究

随着基因分型技术的进步，越来越多的危险因素研究试图通过评估基因表达和/或从患者和对照组获得的基因组数据来评估遗传水平上的相关性。例如，5700名接受华法林治疗的患者的临床和遗传数据被用来创建一种算法来估计合适的剂量[58]。通过分析31516例患者与13696例对照组的拷贝数变异，研究了自闭症谱系障碍的因果关系[59]。Koefoed等[60]努力评估信号传递的影响，并从803个单核苷酸多态性(SNP)基因型(23亿个组合)中计算了1355名对照和607名双相情感障碍患者的三种基因型的所有组合。这些研究类似于风险因素研究，但由于基因分析的大数据量往往比风险因素研究大得多。

方法发展研究

许多研究利用临床大数据建立了新的方法或技术，或开发了新的工具来进行数据分析和决策。一个典型的例子是，Hill等[61]设计了一个界面，使用临床数据来评估各种疾病的风险比率，以帮助评估治疗方案。Liu等[62，63]使用大规模数据分析来优化从全视野数字乳房x线摄影图像中诊断乳腺癌。Lin等[64]努力将数据库Genotypes和Phenotypes中的表型变量正规化。Stephen等[65]开发了一种算法，利用临床数据仓库中的临床变量将出现呼吸窘迫的儿科患者分为不同的亚型。根据放射治疗临床试验数据建立了临床数据仓库或数据库[66]、基因突变[67]、癌症病人资料[68，69]、肾病患者资料[70]、胃肠手术患者资料[71]。此外，研究集中在个性化大数据[72]，以公民为中心的医疗保健与以患者为中心的医疗保健[72，73]，医嘱[74，75]，以及一般的决策和信息管理/检索[75-80]。在过去的几年中，大范围的研究数量急剧增加，表明研究人员对临床大数据的操纵欲望日益强烈;“大数据辅助诊所”有望在不久的将来出现。

临床医学数据的多样性

使用大型数据集进行的大量医学研究表明，所使用的数据资源范围广泛，并表明医学数据集的结构取决于研究问题。来自医学研究不同子领域的数据在条目数量、存储的数据类型(或级别)、维度和样本量方面存在很大差异[81]。数据集的大小明显不同:来自高通量微阵列和下一代测序技术的基因表达数据集，如分析snp和拷贝数变化的数据集，往往是庞大的，而临床试验数据集则没有那么大。Phan等[82]建议将医学数据分为四个不同的层次:分子水平(如基因组数据)、细胞和组织水平(如干细胞分化数据)、临床和患者水平(如临床试验数据)和生物医学知识库水平(即综合数据收集)。此外，数据往往具有不同层次的维度(即属性或参数的数量，p)和样本大小(即记录/条目的数量n)。典型的数据集分为三类之一，如Sinha等人所总结的[83]:大n，小p;小n，大p;n很大p。由于计算技术的进步，大多数算法可以处理低维数据(即大n，小np)而不会遇到很大的困难。

然而，大多数临床数据是高维的(即，小n，大p或者大n，大p)，因为病人数量有限。一个典型的例子来自对69名布洛卡失语症患者(n=69)的研究，他们被测试了近6000个刺激句子(即，p~ 6000) [84]。具有相似维度的Mitchell等[39研究了双相情感障碍，样本只有217名患者。对于高维数据，每个点、样本或元素由许多属性描述[83]与“维度的诅咒”有关[85]。由于高维数据在维度上是稀疏的，大多数分类或聚类方法都不能很好地工作，因为问题空间的增加降低了数据样本的总体密度。为了解决这一问题，通常采用压缩方法和显著性检验，在数据分析之前，通过某种数据预处理，要么降低维数，要么选择相关特征[83]。

临床大数据的操作方法

数据存储与处理技术

由于大数据的海量性和复杂性，Apache Hadoop等非关系型和分布式数据库[86]，谷歌BigTable [87]， NoSQL [88]，并且使用大规模并行处理数据库而不是传统的关系数据库来存储数据。大量的生物统计学软件包已被用于处理大型临床数据集，其中一些软件包启用了基于云计算或分布式计算的功能。流行的软件包包括但不限于SAS [36，51-53]， Mplus [51]、SPSS [36，39，45]， pp-vlam [89]， Stata [90]和R [91]。这些技术和工具极大地促进了大数据的处理。

数据预处理方法

未经预处理的临床原始大数据可能高度多样化且缺乏信息。从原始计算机断层扫描数据中提取诊断是临床大数据预处理的主要方式之一。这种类型的过程依赖于专家的个人专业知识，可能是偏见的来源。大多数早期的大数据分析，包括弗雷明汉心脏研究收集的数据，都采用了某种形式的预处理;因此，策展存在挑战[6]。作为专家预处理、计算算法或统计方法的替代方法，包括压缩方法、显著性检验或归一化[92]可以实现对原始大数据的预处理。这种方法也可能引入偏差，并可能导致数据集成过程中的不确定性问题。

在某些情况下，可视化可以是数据预处理(以及结果显示)的一部分。这方面的典型例子包括使用热图[93]、基因排列[94]、蛋白质结构可视化[95]、散点图矩阵、树可视化、网络可视化、平行坐标、堆叠图等。当感兴趣的大数据分散或存储在不同资源时，数据集成[96，97]和federation [98]是数据预处理过程中的一个重要阶段。资讯歧管等方法[97]，可以对多个联网信息源进行浏览和查询，可以解决数据集成和映射后的不确定性问题[99]。

数据分析的统计方法

一些流行的统计方法在临床数据分析中得到了应用。最常见的有线性回归和逻辑回归[30.]、潜在类分析[One hundred.]、主成分分析[101]，以及分类和回归树[One hundred.]。此外，对数和平方根变换[58]，朴素贝叶斯方法[102]、决策树[103]，神经网络[104]、支持向量机[105]和隐马尔可夫模型[83]也用于研究医疗数据中的问题。

当数据集不是过于复杂时，单个测试(例如，一个简单的学生测试)t检验)应该足够强大，足以拒绝零假设，而单一假设检验是采用的方法[106]。有时，除非对同一数据集进行不同的统计检验，否则无法确定假设的显著性。多重检验通常用于确定值得进一步调查的相关性[107]。错误发现率算法[108]和家庭误差率[109]计算已经在基因表达数据和具有相似复杂程度的数据集的研究中实施了多次测试。

临床大数据应用的挑战与局限

概述

大数据本身有很多局限性。这些限制包括“报告来源的充分性、准确性、完整性、性质以及数据质量的其他衡量标准”，如上文所述[110]。这些限制的后果在《模型》一书中得到了简明扼要的总结。的行为。得很厉害。“(111]。建模通常会导致有偏差的统计相关性或推断，有时被称为“错误发现”。临床大数据用户面临着各种各样的挑战，包括但不限于样本量、选择偏差、解释问题、缺失值、依赖问题和数据处理方法。

样本大小

在分析大数据临床数据集时，一个违反直觉的挑战是，与允许进行统计显著分析的属性数量相比，有时样本量并不大。有时采用人口调查方法，因为这些方法可以提供更大的数据集。然而，这种类型的数据的真实性和准确性是有限的;因此，调查方法不能可靠地用于提供充分的描述或预测[39]。

选择性偏差

任何数据集都是数据的选择，而不是整个数据世界;因此，选择偏差是一个非常现实的限制[112即使样本量很大。从这个意义上说，所有临床数据的研究在某种程度上都有这种局限性[39]。

解释问题

Gebregziabher等[43]指出，由于数据集参数和相关元数据的复杂性和不充分的描述/文件记录，通过许多转化研究项目生成的用于回答与公共卫生有关的问题的数据集并非不言自明。因此，解释数据的方法可能会受到各种哲学辩论的影响。例如，数据可能不完全naïve或客观，解释可能因主观假设和/或个别分析师的操纵而有偏见。

缺失值

大型数据集存在缺失值是一个常见的问题，在许多情况下，这个问题可能很严重[44]。一个典型的例子是弗雷明汉心脏研究，其中关于血清尿酸的数据在很大程度上缺失。此外，协变量(即属性)可能不能完全反映患者的风险程度，并可能导致结果的不确定性[53]。

依赖问题

一个经常被忽视的问题是数据的依赖性。数据集中属性或样本之间的依赖关系可能导致自由度降低和/或一些统计原则不再适用。当通过随访对同一患者进行多次评估时，以及基于使用类似药物治疗的不同患者的样本得出基因表达的相关性时，就会发现这方面的例子[83]。由于许多统计方法没有考虑到依赖性，如果在数据分析之前没有适当地解决这个问题，这些测试的结果可能是不可靠的。

数据处理方法

有效处理大数据一直是一个挑战。在处理和分析过程中，必须考虑数据集的所有方面，包括收集、管理、提取、整合、解释、imputation和选择适当的统计方法。有人声称，由于研究人员缺乏对可用工具和方法的了解，对大型数据集的分析往往是次优的[83]。另一方面，处理大数据的算法也有一定的欠发达，值得更多的关注[113]。

结论

本文回顾了分析临床大数据的研究，并讨论了与数据存储和分析相关的问题。大数据正在成为生物学和临床研究的共同特征。今天，一个生物物理学研究人员可以在几个小时内生成兆兆字节的数据。在过去的十年中，临床数据集的规模增长得令人难以置信，这主要是由于使用了现代技术来收集和记录数据。使用临床大数据的研究人员面临多重挑战，数据本身也有局限性。数据分析方法必须与我们收集和存储数据的能力保持同步。

作者的贡献

WW对本文引用的文献进行了检索和初步综述，并撰写了稿件。EK指导了研究并对手稿进行了严格的修改。

利益冲突

没有宣布。

Wenkebach U, Pollwein B, Finsterer U.重症监护大数据集的可视化。[j]中华医学杂志，2002(2):18-22。免费全文] [Medline］
王军，陈勇，华锐，王鹏，付军。分布式大数据存储与数据挖掘框架的太阳能发电量预测。光子学与光电子学学术会议，2011 [j]。免费全文] [CrossRef］
王建忠，陈玉军，华锐，王鹏，付军。分布式大数据存储与数据挖掘框架的太阳能发电量预测。光子学与光电子学会议(POEM) 2011 [j]免费全文] [CrossRef］
付军，陈志华，王建军，何明明，王建中。基于高性能计算的分布式存储系统大数据挖掘应用——太阳能光伏发电预测系统实践。Information-Tokyo 2012; 15(3): 3749 - 3755。
Brinkmann BH, Bower MR, Stengel KA, Worrell GA, Stead M.大规模电生理学:大数据的采集、压缩、加密和存储。中华神经科学杂志(英文版);2009;32 (1):391 - 391 [J]免费全文] [CrossRef] [Medline］
Howe D, Costanzo M, Fey P, Gojobori T, Hannick L, Hide W，等。大数据:生物定位的未来。《自然》2008;455(7209):47-50 [j]免费全文] [CrossRef] [Medline］
张建军，张建军，张建军，等。一种基于数据集的运动识别方法。计算机工程学报，2011(1):30-35。［CrossRef］
刘建军，李建军，李建军，等。基因组学中的“大数据”、Hadoop和云计算。中华生物医学杂志，2013;46(5):774-781。［CrossRef] [Medline］
李国强，邓文成，蔡建强。关系数据库的替代方案:临床数据存储NoSQL和XML方法的比较。计算机工程学报，2013,31(1):391 - 391。［CrossRef] [Medline］
张晓东，张晓东。“大数据”的重要性:一个定义。2012http://www.gartner.com/it-glossary/big-data/[访问日期:2013-08-25][WebCite缓存］
张建军，张建军，张建军，等。大数据集反演技术分析。地球与行星内部物理学1976;12(2-3):248-252。［CrossRef］
Byth DE, Eisemann RL, DE Lacy IH。对大型数据集进行双向模式分析以评估基因型适应。遗传1976;37(2):215 - 230。［CrossRef］
Chaudron J, Assenlineau L, Renon H.基于大量纯组分数据分析的Redlich-Kwong状态方程新修正。化工学报，1993;28(3):839-846。［CrossRef］
格雷夫JF，伍德RW。处理大型数据集。中华神经科杂志1990;12(5):449-454。［Medline］
阿克曼乔丹。大数据。中华医学杂志;2012;28(2):153-154。［Medline］
刘建军，刘建军，刘建军。大数据，但我们准备好了吗?学报，2011;12(3):224。［CrossRef] [Medline］
ATK公司分析。大数据与当今商业模式的创造性破坏。2013http://www.atkearney.com/strategic-it/ideas-insights/article/-/asset_publisher/LCcgOeS4t85g/content/big-data-and-the-creative-destruction-of-today-s-business-models/10192[2013-11-25访问][WebCite缓存］
Halevi G, Moed HF。《大数据作为一个研究和科学主题的演变:文献综述》2012http://www.researchtrends.com/issue-30-september-2012/the-evolution-of-big-data-as-a-research-and-scientific-topic-overview-of-the-literature/[2013-11-25访问][WebCite缓存］
李建军，李建军，李建军，等。城市交通传感器数据集的概率分析。传感器数据的知识发现[j]; 2010;58(4):94-114。［CrossRef］
李春华，李春华，李春华，等。基于DNDC模型的农田土壤有机碳储量变化研究进展[j]。针对空间显式数据集的大规模模型验证。土壤利用管理，2006;22(4):342-351。［CrossRef］
Cianchini G, De Santis A, Balasis G, Mandea M, Qamili E.基于熵的卫星磁数据分析寻找可能的大地震电磁特征。计算机工程，2009:29-35 [j]免费全文］
奥巴马总统的竞选团队如何利用大数据来召集个人选民。科技导报，2013;116(1):38-49 [j]免费全文］
Kessler RC, Brown RL, Broman CL。精神科求助的性别差异:来自四项大规模调查的证据。中华卫生杂志;1998,22(1):49-64。［Medline］
《点球成金》:赢得不公平比赛的艺术;《点球成金》:赢得不公平比赛的艺术纽约，纽约:w.w. Norton & Company;2003.
埃金斯S，威廉姆斯AJ。当制药公司发布大型数据集时:是丰富的财富还是傻瓜的黄金?现代毒品发现2010;15(19-20):812-815。［CrossRef] [Medline］
Grimley Evans J, Tallis RC。照顾老人的新开始?中华医学杂志2001;22(2):397 - 398 [j]免费全文] [Medline］
Jee K, Kim GH。大数据在医疗领域的潜力:关注如何重塑医疗体系。卫生通报，2013;19(2):79-85 [j]免费全文] [CrossRef] [Medline］
默多克TB，德斯基AS。大数据在医疗领域的不可避免的应用。《美国医学会杂志》2013;309(13):1351 - 1352。［CrossRef] [Medline］
参议员的职位啊。大型神经影像学数据集在阿尔茨海默病中的临床价值。中华神经影像杂志，2012;22(1):107-118,9 [j]免费全文] [CrossRef] [Medline］
Bakke PS，朱刚，Gulsvik A, Kong X, Agusti AG, Calverley PM，等。两个大数据集的COPD候选基因。中国生物医学工程杂志，2011;37(2):557 - 557 [J]免费全文] [CrossRef] [Medline］
Solomon BD, Nguyen AD, Bear KA, Wolfsberg TG。临床基因组数据库。中国科学院学报，2013;110(24):9851-9855 [j]免费全文] [CrossRef] [Medline］
刘晓玲，杜金平，李文忠，左明，韩志明。基于Olap技术的数据挖掘数据仓库。2008:中国-爱尔兰信息与通信技术国际会议论文集;2008年9月26日至28日;北京，中国，第176-179页。［CrossRef］
《纽约时报》，2012。大数据时代http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html?pagewanted=1&_r=0［WebCite缓存］
电子病历提高投资回报率。2013网址:http://www.healthcareitnews.com/news/ehr-boost-roi-revenue-medical-group[2013-11-25访问][WebCite缓存］
组三位一体。电子病历效益及投资回报类别。2008http://www.informatics-review.com/wiki/index.php/EMR_Benefits_and_Return_on_Investment_Categories[2013-11-25访问][WebCite缓存］
Kjaergard LL, Villumsen J, Gluud C.荟萃分析中报告的大、小型随机试验的方法学质量和差异。中华医学杂志，2001,11(3):382 - 389。［Medline］
Mancia G, Omboni S, Ravogli A, Parati G, Zanchetti A.动态血压监测在降压治疗评价中的作用:来自大型数据库的附加信息。血液学杂志1995;4(3):148-156。［Medline］
李建平，李建平，李建平，等。具有明确结果的BRCA1检测:在大量临床样本中对心理困扰的前瞻性研究。癌症杂志;2002;3(1):21-28。［CrossRef］
Mitchell PB, Johnston AK, Corry J, Ball JR, Malhi GS。澳大利亚专科门诊双相情感障碍的特征:跨大数据集的比较。中华精神病学杂志;2009;43(2):109-117。［CrossRef] [Medline］
NHGRI。信息请求(RFI):关于大数据分析方法软件开发的意见。2013http://grants.nih.gov/grants/guide/notice-files/NOT-HG-13-014.html[访问日期:2013-08-27][WebCite缓存］
Wolf PA, Abbott RD, Kannel WB。心房颤动是中风的独立危险因素:Framingham研究。中风1991;22(8):983-988 [免费全文] [Medline］
Hubert HB, Feinleib M, McNamara PM, Castelli WP。肥胖是心血管疾病的独立危险因素:对弗雷明汉心脏研究参与者的26年随访。发行量1983;67(5):968 - 977。［Medline］
李建军，李建军，李建军，李建军，等。基于随机效应模型的大数据拟合方法研究。中华医学杂志2012;12:163 [j]免费全文] [CrossRef] [Medline］
Bermejo-Sánchez E, Cuevas L, Amar E, Bakker MK, Bianca S, Bianchi F，等。Amelia:一项来自国际出生缺陷监测和研究信息中心的大型数据集的多中心描述性流行病学研究，以及文献综述。[J]中华医学杂志，2011;32(4):389 - 391。［CrossRef] [Medline］
克罗斯SS，哈里森RF。慢性特发性炎症性肠病诊断中的鉴别组织学特征:通过一种新的数据可视化技术对大型数据集进行分析。中华病毒学杂志2002;55(1):51-57 [J]免费全文] [Medline］
Kelly D, C Zhang Q, M Soucie J, Manco-Johnson M, Dimichele D，血友病治疗中心网络调查统一数据收集数据库协调委员会联合成果小组委员会。血友病A和B的临床髋关节异常患病率:UDC数据库分析。血友病2013;19(3):426 - 431。［CrossRef] [Medline］
Siregar S, Roes KC, van Straten AH, Bots ML, van der Graaf Y, van Herwerden LA，等。监测临床数据库中危险因素的统计方法:以国家心脏外科登记为例。中国心血管杂志;2013;6(1):110-118。［CrossRef] [Medline］
Elshazly MB, Martin SS, Blaha MJ, Joshi PH, Toth PP, McEvoy JW等。非高密度脂蛋白胆固醇、指导目标和130万成人二级预防的人口百分位数:VLDL-2研究(非常大的脂类数据库)。中华心血管病杂志，2013,11(2):391 - 391。［CrossRef] [Medline］
陈L, McGarey P.基于人口健康研究的大数据集。In: Gallin JI, Ognibene FP。eds。《临床研究原理与实践》第3版，马里兰高地，密苏里州:爱思唯尔公司;2012:371 - 381。
Ursum J, Bos WH, van de Stadt RJ, Dijkmans BA, van Schaardenburg D.来自大数据集的ACPA和IgM-RF的不同特性:两种不同的自身抗体系统的进一步证据。中国生物医学工程学报(英文版);2009;11(3):563 [j]免费全文] [CrossRef] [Medline］
Ajdacic-Gross V, Vetter S, m ller M, Kawohl W, Frey F, Lupi G，等。口吃的危险因素:对大型数据库的二次分析。欧洲精神病学临床神经科学2010;260(4):279-286。［CrossRef] [Medline］
Monnelly EP, Locastro JS, Gagnon D, Young M, Fiore LD.奎硫平与曲唑酮降低酒精依赖再住院的大型数据库研究。中华医学杂志2008;2(3):128-134。［CrossRef] [Medline］
来自AM, Bartholmai BJ, Williams AW, Cha SS, Pflueger A, McDonald FS。碳酸氢钠与造影剂肾病发病率增加有关:梅奥诊所7977例患者的回顾性队列研究。中华临床医学杂志，2008;3(1):10-18 [J]免费全文] [CrossRef] [Medline］
Habash-Bseiso DE, Rokey R, Berger CJ, Weier AW, Chyou PH.大型社区诊所无创射血分数测量的准确性。临床医学杂志，2005;3(2):75-82 [j]免费全文] [Medline］
张颖，Hemond MS.通过对大型临床数据集的统计分析揭示最低血糖的预测价值。中国生物医学工程学报;2009;39 - 39 [j]免费全文] [Medline］
Morgan CL, Evans M, Toft AD, Jenkins-Jones S, Poole CD, Currie CJ。在英国一般临床实践中，双期胰岛素aspart30:70与双期人胰岛素30的临床疗效:一项回顾性数据库研究。中华临床杂志，2011;33(1):27-35。［CrossRef] [Medline］
Kobayashi H, Miyata H, Gotoh M, Baba H, Kimura W, Kitagawa Y等。基于国家临床数据库19070名日本患者的右半结肠切除术风险模型。胃肠病学杂志2013年7月27日。［CrossRef] [Medline］
国际华法林药物遗传学联合会，Klein TE, Altman RB, Eriksson N, Gage BF, Kimmel SE，等。根据临床和药理学资料估计华法林的剂量。中华医学杂志，2009;36 (8):753-764 [J]免费全文] [CrossRef] [Medline］
morno - de - luca D, Sanders SJ, Willsey AJ, Mulle JG, Lowe JK, Geschwind DH，等。使用大型临床数据集推断自闭症队列中罕见拷贝数变异的致病性。精神病学杂志;2013;18(10):1090-1095 [j]免费全文] [CrossRef] [Medline］
Koefoed P, Andreassen OA, Bennike B, Dam H, Djurovic S, Hansen T，等。双相情感障碍中与信号转导相关的snp组合。科学通报，2011;6(8):e23812 [j]免费全文] [CrossRef] [Medline］
李建军，李建军，李建军，等。临床数据对临床决策的影响。种马卫生技术通报2013;192:851-855。［Medline］
李宏，Giger ML，袁毅，陈伟，Horsch K，兰丽，等。计算机辅助诊断在大型临床全视野数字乳房x线摄影数据集上的评估。中华放射学杂志，2008;15(11):1437-1445 [j]免费全文] [CrossRef] [Medline］
李洪华，刘建军，刘建军，刘建军，等。全视场数字乳房x光片临床数据集中乳房x光片实质形态的计算机化分析:两个高风险数据集的稳健性研究。数字影像学报;2012;25(5):591-598 [J]免费全文] [CrossRef] [Medline］
林文华，张建军，张建军，等。应用临床元素模型(CEM)标准化基因型和表型数据库(dbGaP)中表型变量的可行性。科学通报，2013;8(9):662 - 662 [j]免费全文] [CrossRef] [Medline］
Stephen R, Boxwala A, Gertman P.使用大型临床数据仓库自动选择诊断队列的可行性。AMIA年会程序2003:1019 [免费全文] [Medline］
Roelofs E, Persoon L, Nijsten S, Wiessler W, Dekker A, Lambin P.临床数据仓库与数据挖掘工具收集放疗试验数据的好处。中国生物医学工程学报，2013,31(1):394 - 394。［CrossRef] [Medline］
stensen PD, Mort M, Ball EV, Shaw K, Phillips AD, Cooper DN。人类基因突变数据库:为临床和分子遗传学、诊断测试和个性化基因组医学建立一个全面的突变库。2013年9月28日。［CrossRef] [Medline］
胡慧，Brzeski H, Hutchins J, Ramaraj M，曲丽，熊荣，等。生物医学信息学:开发用于临床和基因组乳腺癌研究的综合数据仓库。药物基因组学2004;5(7):933 - 941。［CrossRef] [Medline］
血管生成/VEGF通路的遗传标记及其与人类癌症临床结局的关系。中国生物医学工程学报，2012;51(2):243-246。［CrossRef] [Medline］
Singh SK, Malik A, Firoz A, Jha V. CDKD:肾脏疾病的临床数据库。生物医学工程学报2012;13:23 [j]免费全文] [CrossRef] [Medline］
铃木H，后藤M，杉原K，北川Y，木村W，近藤S，等。日本胃肠外科临床数据库的全国性调查和建立:目标是整合癌症登记系统和改善癌症治疗的结果。癌症科学，2011;32(1):229 - 229。［CrossRef] [Medline］
查拉内华达州，戴维斯州。将大数据引入个性化医疗保健:以患者为中心的框架。实习医学杂志;2013;28(增刊3):S660-S665。［CrossRef] [Medline］
韩勇，Itälä T, Hämäläinen M.以公民为中心的体系结构方法——通过整合公民和服务提供商推动电子医疗向前发展。种马健康技术通知2010;160(Pt 2):907-911。［Medline］
Boussadi A, Caruba T, Zapletal E, Sabatier B, Durieux P, Degoulet P.。基于临床数据仓库的药物订单警报细化过程。中华医学杂志，2012;19(5):782-785 [J]免费全文] [CrossRef] [Medline］
张建军，张建军，张建军，张建军。中国生物医学工程学报，2009。自动将药房订单从两个电子健康记录系统映射到STRIDE临床数据仓库URL中的RxNorm:http://europepmc.org/abstract/MED/20351858/reload=0;jsessionid=4aLVRuWM5ugKTsb134ug.0[2014-01-09查阅][WebCite缓存］
刘建军，刘建军，刘建军，等。用于临床数据仓库的信息检索引擎。猪健康技术通报2011;169:584-588。［Medline］
周旭，陈生，刘斌，张锐，王勇，李鹏，等。面向医学知识发现和决策支持的中医临床数据仓库的开发。中华医学杂志，2010;48(2):139-152。［CrossRef] [Medline］
zappletal E, Rodon N, Grabar N, Degoulet P.临床数据仓库与临床信息系统集成的方法:HEGP案例。种马健康技术通知2010;160(Pt 1):193-197。［Medline］
Hanss, Schaaf T, Wetzel T, Hahn C, Schrader T, Tolxdorff T.数据仓库中分散临床数据的集成:面向服务的设计与实现。方法中华医学杂志2009;48(5):414-418。［CrossRef] [Medline］
埃文斯RS，劳埃德JF，皮尔斯LA。中国科学院学报，2012。企业数据仓库URL的临床应用:http://europepmc.org/abstract/MED/23304288/reload=0;jsessionid=P5NVyPK8BYs9OV0Ra8hg.0[2014-01-09查阅][WebCite缓存］
哈里森JH。临床数据挖掘导论。临床检验医学2008;28(1):1-7。［CrossRef] [Medline］
潘建辉，郭春春，程晨，王明德。生物医学信息学中基因组、影像和临床数据的多尺度集成。生物医学工程学报(英文版);2012;［CrossRef] [Medline］
辛哈A, Hripcsak G, Markatou M.生物医学大数据集:突出分析问题的讨论。中华医学杂志，2009;16(6):759-767 [J]免费全文] [CrossRef] [Medline］
D，格罗金斯基Y.变异争论的新经验视角:对布洛卡失语症大数据集的定量神经句法分析。中国生物医学工程学报(英文版);2006;31(2):391 - 391。［CrossRef] [Medline］
李建军。动态规划与统计通讯理论。科学通报，2006;43(8):749-751 [j]免费全文] [Medline］
陈志强。分布式文件系统的设计与实现。2007https://hadoop.apache.org/docs/r0.18.0/hdfs_design.pdf[2013-11-25访问][WebCite缓存］
张峰，Dean J, Ghemawat S. Bigtable:一种面向结构化数据的分布式存储系统。2006，发表于第七届USENIX操作系统设计与实现研讨会(OSDI ' 06);2006;西雅图，华盛顿州，美国第205-218页。
NoSQL: Unix数据库(带awk)。2007网址:http://www.troubleshooters.com/lpm/200704/200704.htm[2013-11-25访问][WebCite缓存］
van der Burgt YE, Taban IM, Konijnenburg M, Biskup M, Duursma MC, Heeren RM等。NanoLC-FTICR-MS测量大数据集的并行处理。生物质谱仪学报，2007;18(1):152-161。［CrossRef] [Medline］
占据公司。Stata参考手册:第6版。在:Stata参考手册集，4卷:第6版。得克萨斯州大学城:Stata Corp;1999.
R开发核心团队。官方网站R.维也纳，奥地利统计计算R项目http://www.r-project.org/[2014-01-08查阅][WebCite缓存］
Bolstad BM, Irizarry RA, Astrand M, Speed TP。基于方差和偏差的高密度寡核苷酸阵列数据归一化方法的比较。生物信息学2003;19(2):185-193 [j]免费全文] [Medline］
李建军，李建军，李建军，等。基于生物标志物的环境热图可视化研究。臭氧层2011;84(5):716 - 723。［CrossRef] [Medline］
Garcia- betancur JC, Menendez MC, Del Portillo P, Garcia MJ。多个完整基因组的比对表明，基因重排可能有助于分枝杆菌的物种形成。感染与遗传进化，2012;12(4):819-826。［CrossRef] [Medline］
Aita T, Nishigaki K.三维蛋白质组宇宙的可视化:基于蛋白质结构组成的蛋白质组集合映射到三维空间。生物化学学报;2011;31(2):484-494。［CrossRef] [Medline］
Lenzerini M.数据集成:一个理论视角。2002发表于:ACM数据库系统原理研讨会论文集(PODS);2002;罗马，意大利，233-246页。［CrossRef］
张建军，张建军。数据整合的实证研究。2006年发表于:VLDB '06第32届超大型数据库国际会议论文集;2006;首尔，韩国，p. 9-16。
Haas LM, Lin ET, Roth MA。通过数据库联合进行数据集成。IBM系统。J 41 2002;(4): 578 - 596。［CrossRef］
Shyu C, Ytreberg FM。利用回归拟合热力学积分数据，减少自由能估计的偏差和不确定性。计算机学报，2009;30(14):2297-2304。［CrossRef] [Medline］
Taylor W, Gladman D, Helliwell P, Marchesoni A, Mease P, Mielants H, CASPAR研究小组。银屑病关节炎的分类标准:一项大型国际研究中新标准的发展。中华风湿病杂志;2006;26 (8):563 - 568 [j]免费全文] [CrossRef] [Medline］
郭世德R, Robert Y.，《对时间的分析》Veränderungen《反射率分析》。吉林大学学报(自然科学版);2008;19(04):249。［CrossRef］
santaf G, Lozano JA, Larrañaga P.朴素贝叶斯聚类的贝叶斯模型平均。通信学报，2006;36(5):1149-1161。［Medline］
farr J，卡布雷拉JA，罗梅罗J，卢比奥J。持续性室性心动过速或流产性心脏骤停患者的治疗决策树:抗心律失常与植入式除颤器试验和加拿大植入式除颤器研究的重要回顾中国生物医学工程学报(英文版);2009;31(2):444 - 444。［Medline］
葡京PJ。人工神经网络在医疗干预中的健康益处证据综述。神经网络学报;2002;15(1):11-39。［Medline］
陈高频。用支持向量机、径向基神经网络和多元线性回归对大数据集进行log P预测。中国生物医学工程学报，2009;32(2):444 - 444。［CrossRef] [Medline］
在报告研究结果时对多重测试的调整:Bonferroni与Holm方法。[J] .公共卫生;1996;86(5):726-728。［CrossRef］
多组测试的调整——何时、如何调整?临床流行病学杂志2001;54(4):343-349。［CrossRef］
对未改变基因比例和错误发现率估计的比较回顾。生物医学信息学报(英文版)2005;6:99 [免费全文] [CrossRef] [Medline］
van der Laan MJ, Dudoit S, Pollard KS。多个测试。第二部分。逐步降低程序控制家庭误差率。2 .中国生物医学工程学报(英文版);［CrossRef］
Sanders CM, Saltzstein SL, Schultzel MM, Nguyen DH, Stafford HS, Sadler GR.理解大数据集的局限性。中华肿瘤医学杂志，2012;27(4):664-669。［CrossRef] [Medline］
德曼E.模型。: Models.Behaving.Badly。为什么混淆幻觉和现实会导致灾难，无论是在华尔街还是在生活中。纽约，纽约:新闻自由;2012.
Kobayashi T, Kishimoto M, Swearingen CJ, Filopoulos MT, Ohara Y, Tokuda Y，等。美国和日本患者behet综合征两套主要标准的临床表现、治疗和符合率差异:来自一项大型三中心队列研究的数据中华风湿病杂志，2013;23(3):547-553。［CrossRef] [Medline］
雅各布斯A.大数据的病态。通信学报，2009;52(8):36。［CrossRef］

‎

BD2K:从大数据到知识

CS:计算机科学

SNP:单核苷酸多态性

ZB:字节

G·艾森巴赫编辑;提交27.08.13;L Toldo, J Gao的同行评审;对作者27.10.13的评论;修订版收到25.11.13;接受08.12.13;发表17.01.14

这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)条款下发布的开放获取文章，该许可允许在任何媒体上不受限制地使用、分发和复制，前提是原始作品首次发表在JMIR研究协议中，并适当引用。必须包括完整的书目信息，到http://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

大数据与临床医生:科学现状综述