巨大的数据集将会成为一个大分心,如果我们忽视科学方法

大数据的概念

来源:©iStock

俯看到伟大的努力,我们称之为科学和一看到什么?在一个规模,似乎同质;科学家们正在一个统一的整体,进行实验,收集和解释数据。但是凑近看复杂性:科学家的许多部落,每个都有自己的领土,和不同的习俗和习惯,尤其是当涉及到理论的使用。

这些差异与大数据的发展变得越来越重要方法的研究,比如微软的出价与计算机科学“解决”癌症扎克伯格30亿美元陈倡议,强调“转型技术”等机器学习。

物理和生物科学的方式回应的机会大数据反映了这些群体倾向于不同的哲学。

前往往遵循卡尔·波普尔在20世纪给我们Popperianism:提出一个理论,然后测试用数据。在生物学和医学的大部分地区,重点是一个方法,可以追溯到16世纪经验主义之父,弗朗西斯·培根:从实验观察收集数据,然后设计事后的解释。

然而,德州农工埃德·多尔蒂,我们指出的英国皇家学会哲学学报随着大数据的崛起,生物和医学科学越来越成为精准医疗培根,因为即使是四个世纪前,培根也价值概念。然而今天的大数据在生物学的拥护者希望获得足够大的数据集提供的答案而不需要构造一个基本理论。

在生物科学的复杂的世界,这是一个诱人的承诺:一个简单的方法来生产推断未来的行为根据过去的观察。谁需要如果科学理论可以归结为盲数据收集和查找表的数据和结果?

抛开问题是实验成功的关键——无论是正确的数据收集了足够的质量——基因组的扩散,蛋白质组和转录组可以很难找到错误的一个重要信号在一个错综复杂的相互关系。这也是为什么人类基因组计划的影响相对令人失望。

化学在这个问题上可以提供一个独特的视角。像生物学的同行一样,材料基因组计划通过积累更多的数据也在寻求答案。再次,许多相关性在所有这些数据很可能是虚假的线索。为了解决这个问题,一个团队在新墨西哥州洛斯阿拉莫斯的混合元素大数据和大胆的理论,利用所谓的贝叶斯方法来推断未知的机械参数使用超级计算机从大量的实验数据。1

还有其他生产化学鸡尾酒的培根和波普尔。与詹姆斯·苏特和德里克Groen伦敦大学学院,我们中的一个(PVC)已经证明可以自底向上计算纳米复合材料的性能,使用超级计算机来推断从量子领域板测量微米。这个虚拟实验室有许多应用程序时为汽车和飞机,开发高性能纳米复合材料为例。2

化学家也可以显示前进时追求个性化医学。这个世纪的许多研究人员希望人能开出药物基于病人的基因组的知识。但统计,而培根的观点是对人口的成千上万的病人,它在个体水平的分解。

今天个人化药物已经降级为精密医学:研究基因相似的人有什么反应,然后假设另一个人在这个人口将同样的回应。因为每个人都是不同的,唯一的方法提供的原始视觉使用遗传信息来预测个体将如何应对Popperian造型的药物,目前可靠成为可能,例如在使用艾滋病病毒的序列来指导治疗。3

今年早些时候,伦敦大学学院的研究小组垄断6.8 Petaflop SuperMUC -慕尼黑附近由莱布尼茨超级计算中心100年36个小时研究药物在体内与蛋白质结合的目标。这项工作表明,它可以设计个性化治疗之间的时间诊断和选择一个现成的药。

今天一个新欧盟CompBioMed卓越中心将采取这种方法,如果成功,将标志着真正个人化药物的一个重要发展方向。是的,科学将在大数据茁壮成长。但是我们也需要理解:生物学需要更大的理论。

Peter Coveney是伦敦大学的化学教授,对外事务主管罗杰·海菲尔德科学博物馆