化学家必须拥抱开放数据让我们共同得到最好的质量的新知识我们发掘,克莱尔桑塞姆报告

罗比照/科学照片库

化学数据山的越来越高。很难计算出多少化学数据,但伊万伯尼,副主任欧洲生物信息学研究所英国剑桥附近(EBI)估计,在生命科学数据生成的速度只有一个数量级小于从大型强子对撞机的。这是一个许多字节;大部分是化学数据,更多的是与化学密切相关。它是极其重要的,但也非常具有挑战性——化学家能够访问和充分利用这个资源。

历史上,化学社会落后分子生物学家在发展中政策和软件使其广泛使用的数据。这不仅是因为分子生物学可以说是领先的化学成为一个“大数据”的学科,但通过深思熟虑的决策主要生物学家。该协议在1996年人类基因组计划的数据都应在24小时内免费获取有理由被视为是一个模型对开放获取的科学学科。

化学,然而,现在正在迎头赶上。安妮·赫西开放获取的协调员ChEMBL数据库组EBI发表在《华尔街日报》的一篇社论未来药物化学在2012年认为医药化学家应该学习生物群落,使尽可能多的数据的广泛访问,最好是在机器可读的格式。药物发现,她建议,正在成为一个更加多样化的过程,与学术和慈善实验室(没有大笔的预算花在数据访问)开始扮演重要角色的商业同行。三年后,证据表明,这种变化已经开始认真现在明显。

一个全球社区

一个组织帮助走向开放访问数据库研究数据联盟(RDA)。RDA——建立在欧盟委员会(European Commission)的资助下,美国国家科学基金会和澳大利亚政府,支持和促进开放数据和数据共享一切形式的所有科学学科。它是任何人都可以免费加入,和志愿者专家一起工作和利益集团发展所需的技术和社会基础设施开放的数据共享。

化学家加入RDA越多,他们的声音会被听到的开放数据社区

英国bioinformaticians安德鲁•哈里森埃塞克斯大学的休·沙纳伦敦大学皇家霍洛威学院的,他们一起工作在几个组,解释聚合来自不同数据源的数据如何增加价值。的高通量数据生成,如同时测量成千上万的基因表达水平,有再现性问题,”哈里森说。如果你做同样的分析几次结果常常是不同的。这些实验才会重现,因此非常有用,当数据从许多研究相结合;我们现在可以提供“科学作为一种服务”而不是期待一个实验室做一切。在许多学科的科学家可能了解更多通过寻找模式在别人的比通过生成自己的数据。陪审员可能不喜欢它,但最有用的单元的研究可以说是不再研究论文:数据集。

这不是一个新概念。事实上,这要追溯到几个世纪前做出一些重要的发现。例如,在化学、门捷列夫在19世纪中叶放在一起的第一个被广泛接受的版本元素周期表在已知元素,通过观察数据中的模式收集了在此前的世纪。他甚至推断属性用于元素然后未知。

目前,相对较少的化学家在RDA是活跃的,但是有许多更有价值的工作,这应该直接受益纪律作为一个整体。,我们希望每个人都加入化学家加入RDA越多,越多他们的声音会被听到在开放数据社区,”哈里森说。

输入选项

迄今为止,药物化学家可能是最活跃的化学学科的沉淀,使用开放和共享数据。ChEMBL是使用最广泛的开放化学数据库之一,它完全集中于药物活性分子的结构和性质。该数据库目前持有约150万这样的化合物,与1350万年相关生物活性数据点。每个化合物的结构存储在几个人类和计算机可读格式和有关计算的物理化学性质和生物测定数据。大部分的数据手动ChEMBL是策划。从表中提取数据的工作发表的文献,并输入到数据库已经外包,以及由此产生的数据是非常准确的。但并不是所有的这些数据都是一样精确。我们提供主要是二维结构,提取三维信息只对那些存在的化合物作为配体的蛋白质数据银行。这个数据不是一样高精密三维小分子晶体结构的数据。然而,大量的软件可用于二维化学结构转换成3 d,“赫西解释道。

赫西描述另一个开放EBI化学数据库,SureChEMBL作为一种完全不同的概念。这个数据库中的数据自动提取从专利全文发表在美国和欧洲专利局,世界知识产权组织,日本专利的英文摘要。它的速度增长每月约80000化合物和化学数据已经拥有大约1600万的化合物从超过1300万带注释的专利。“每一个化学实体认可这样的专利进入这个数据库,所以我们必须开发智能过滤的方法,”赫西说。的一些化合物,如生物活性分子,在本质上更有趣比,例如,常用的试剂。

该软件用于生成SureChEMBL条目自动转换图像的二维结构以及化学名称以机器可读的结构。转换的质量当然是依赖于原始专利的质量形象。这两个Inchi(国际化学标识符)和记录微笑(简体molecular-input line-entry系统)生成字符串。Inchi,微笑像一个字符串,是一个线性文本记录定义了一个化学实体,但它有不同的层次:第一个是分子式,还有连通性和立体化学,在适当情况下,同位素和电荷层。都有优点和缺点的数据类型。一个Inchi优于微笑一般化学标识符,因为它是相同的但是它是生成的,而不同的项目可能产生不同的微笑字符串相同的结构:然而,只能用于子结构检索,微笑的赫西解释道。

一个网络的数据

ChemSpider,另一个免费的和广泛使用的数据库,由安东尼·威廉姆斯在美国自动拖网互联网化学数据并将其集成到一个数据库。它最初几乎一个爱好项目,但因为它在2009年被皇家化学学会的收购已经增加到3400万种化合物,包括一个更大、更代表的一部分“化学空间”比pharma必威手机登陆cologically-focused ChEMBL。

如果所有化学博士学位候选人提交数据…这将使他们的工作更可见的和有价值的释放

每一个新的ChemSpider记录自动检查等严重错误是不可能的结构;更小的问题,如丢失的立体化学,被标记为警告。如果用户发现的错误已经被自动错过检查——因为他们不经常做他们可以国旗校正。理查德·基德,出版商的数据和数据库RSC,描述了数据库管理模式之间的混合谷歌和维基百科的。小型内部团队由一群志愿者帮助手工修正,包括在各自领域的专家。ChemSpider目前有大约48000个独特的数据库用户每天从纯粹与应用化学及相关学科,基德说。”公司认为这是一个宝贵的除了他们的内部资源,并广泛应用于教学中,特别是但不限于高等教育”。

尽管ChemSpider庞大的规模和快速扩张,其开发人员仍在调查新方法支持更广泛的可访问性发表和未发表的数据。来自布里斯托尔大学的领导的一个试点项目中提取45000复合记录从700年博士学位论文,旨在证明国家化合物收藏,并将数据输入到ChemSpider(见化学世界,2015年4月,p10)。必威体育 红利账户如果所有化学博士学位候选人提交他们的数据登记时提交他们的论文,”基德说,“这将使他们的工作更可见的和有价值的释放,但我们需要让他们相信其价值的额外的努力。”

每个分子在ChemSpider使用Inchi明确确定。尽管尽了最大努力国际纯粹与应用化学联合会,其他类型的化学实体的定义更可能出现歧义和误解,尤其是在国际合作。RSC的生产和推广使用受控词汇表或本体化学概念。灵感第一RSC本体,本体的反应(RXNO),来自听到一个基因本体在EBI生化过程被开发。我们意识到化学社区也有类似的问题在讨论有机反应的,数据科学家RSC科林·巴舍乐说。这有点像国际象棋,每一个化学家恰恰需要承认这个词的含义格氏反应,正如每个棋手都可以承认·洛佩兹。NextMove的软件公司开发了一个工具来反应直接从电子实验室笔记本使用RXNO并分类。药物化学家在制药巨头阿斯利康发现有用的发现如果他们正在考虑方法已经做过的房子。

文本挖掘

提取化学(或任何其他)文献的数据并将其转换为数据库条目需要一组方法分组在文本挖掘的。这是现在一个承认在信息学学科,它有很多应用在化学、生命科学和医学。文本挖掘在曼彻斯特国家中心(Nactem),英国曼彻斯特大学的有密切联系中心的综合系统生物学。研究者们参加了一系列挑战评估从生物医学文本中提取信息的方法称为Biocreative(信息提取系统生物学的关键评估)。BioCreative 4, 2013年,包括几个任务领域的化学实体识别。我们的团队现在接替前几个任务,包括牧师toxicogenomics数据库的特定任务,“Nactem主任说,索菲亚Ananiadou。我们设计了一个模块化的平台,阿尔戈,这可以很容易地将文本挖掘工具最适合一个特定的任务,包括商业的如果这些是可用的。

BioinformaticianSoren椰子饼丹麦技术大学的,他更出名的是蛋白质序列分析算法,建立了一个项目,我的丹麦医疗记录的数据,遵循同样的患者多年来研究疾病的风险。他引用几这项工作的结果:“我们发现患者短期预后的一个重症监护室,或者他们的药品不良反应的经验,可能取决于在他们数十年病史和遗传差异。

椰子饼和Ananiadou组织依赖于免费获取原材料,无论是期刊文章或医疗记录,在公共领域。结果,这样的组织往往是强烈呼吁公开数据。和丹麦和英国目前世界上最开放的国家之一。完整的医疗记录的丹麦人都保持了几十年,这个数据是可用的所有人员。在英国,Ananiadou说,最近英国版权法意味着变化,以及能够文本我开放获取期刊,研究人员现在可以在这里文本我订阅期刊用于非商业目的,只要他们有合法的访问例如通过大学图书馆的订阅。因此,情况已经有了很大的改进,导致重新欧洲版权法。

协助药物开发

马修·托德,悉尼大学的有机化学副教授,澳大利亚,正在进一步开放数据的概念。他的团队使用开放实验室的概念笔记本,做的一切——每个合成,不管是成功还是失败,释放进入公共领域。“我们称之为开源研究:任何人都可以在任何时间访问我们的记录,和任何访问实验室能够成为平等的伙伴在我们的项目中,帮助直接研究完成之前,”他说。他的团队是专注于抗疟疾药物的开发开源疟疾联盟并保持一个完整的和容易的搜索记录中每个分子合成项目,包括中间体。

托德的想法“药物发现没有保密”的极端的例子是趋势,早期药物发现从大型制药公司为中小企业,越来越多的公共和慈善部门。利用“群众的智慧”,从资深科学家志愿者到高中的学生,可以支付股息但不足以将分子到诊所。完整的临床试验的一种抗疟疾药物成本约为3000万美元(£1900万):这不是很多的成本相比,在肿瘤治疗中类似的试验,但这是一个障碍,即使是最好的政府机构和慈善机构资助,”托德说。

至少和一些大的制药公司在药物研发取得重大投资的热带疾病。葛兰素史克(GSK)建立了一个研究校园在西班牙马德里附近非常章致力于新的结核病药物的发展,疟疾和一群原生动物由感染引起的疾病称为动基体。这个校园的开放实验室的基础,哪些主机独立研究人员来自世界各地致力于这些疾病。它的工作是尽可能保持开放;他们的学术合作者包括开放数据的倡导者,如托德和他们所有的结果迅速释放到公共领域。我们已经取得了一些显著的成功结果的开放创新方法,包括识别的兰花欧盟资助的财团内beta-lactam肺结核抗生素可以再利用,”说Lluis Ballell葛兰素史克非常章开放实验室的主管。

开放数据资源也在小型生物技术领域被广泛使用。约翰Overington直到最近EBI cheminformatics主管,现在加入了一个伦敦的生物技术,分层医疗的生物信息学。本公司是用一个人工智能的方法被称为“深度学习”加速药物发现。其庞大的数据集是由公共数据库如ChEMBL和生成的数据库的分子。后者包含所有可能的化学结构,包括17的重原子的最常见的药物分子:碳、氮、氧、氟。我们的数据集是如此之大,我们一直使用的数据库软件不停地跌倒,“Overington说。我们正在开发的新解决方案很大程度上基于开源软件。

许多化学家,然后,听从赫西的建议向同行学习生命科学。他们可能来晚开放数据党,但是现在他们不仅工作数据我但更广泛有效地共享数据,并使用聪明而有效的方式。