马特·莱特福特在剑桥职业生涯导航数据库结构

一个图像显示马特快脚旁边CCDC 1000000结构

来源:©控烟条例

马特·莱特福特CCDC旁边的1000000结构

马特·莱特福特是化学家谁没有在实验室工作了近20年。但做这个工作,你化学包围,”他说。

作为主要的科学编辑在剑桥晶体数据中心(CCDC),快脚可以帮助照看剑桥结构数据库(CSD),有机和有机金属晶体结构的存储库,自1960年代以来一直收集化合物。今年早些时候,CSD庆祝一个重要的里程碑——它的一百万结构

当快脚开始他的职业生涯在2001年控烟条例,CSD是当前规模的约五分之一200000结构。他已经熟悉数据库,直接来自完成博士学位碱金属配位化学在曼彻斯特大学的,在此期间他被CSD的普通用户。快脚加入的一个小团队工作的编辑人员提交的晶体结构转化为CSD条目。

博士期间我在实验室里很多,所以很不同,特别是在早期,“他记得开始在中国疾控中心。你可以坐在电脑长时间,因为使数据库条目相当缓慢,手动过程。

当时只有一小部分的结构电子报CSD。许多人从印刷期刊文章类型。甚至当抵达晶体结构信息文件格式(代表晶体的标准格式信息),进入到数据库的过程是艰苦的。的文件你有坐标,它不会说什么连着,或化学是什么,“快脚说。我们必须解决这一切。

当然,自那以后发生了很多变化。现在,99%的提交CSD电子和专业软件帮助自动化的过程。中国疾控中心也有协议最主要的出版商,他直接从接受提交晶体信息出版物。

就在九年前,莱特福特说,当努力使CSD更高效和自动化的开始。到那个时候,他是管理组的数据库编辑器。我们每天处理大约25到30的结构,而不是可持续的,当我们得到50 - 60000一年,”他说。这促使一个审查流程和快脚被任命为一个为期三年的项目改革内部系统允许团队更快和更有效的工作。

“我成为产品所有者——的内部用户需求的人,帮助一个团队开发人员理解需求是什么,”他说。所涉及的工作与开发人员密切合作,从头重写CSD的老化的软件。快脚的早些年的经验作为一个编辑是无价的,他知道如何在数据库和理解工作人员的需求将会使用它。

2013年,新系统启动。现在,它的编辑可以每天处理大约100结构。

从这之后,快脚始终是一个产品所有者,照顾内部和外部项目。现在我可能花一半时间工作与开发人员和数据库中的一半,”他说。的很不同,很忙。

之一,他目前正在参与的项目是一个合作与其他数据库,无机化合物结构数据,帮助改善他们的数据通过沉积的门户,中国疾控中心发展。我们有很多好的反馈如何有用的社区,作为无机和有机之间的界限正变得不那么重要,”莱特福特说。

CSD本身持续增长和发展,新结构是提交的速度继续增加。快脚说一百万年的里程碑式的结构是一个相当成就的结晶社区,未来,许多令人兴奋的机遇与机器学习技术的出现,可以处理大量的数据。

你没有这么好的资源在很多学科,“他说。“当我开始有超过200000(结构),而现在有一百万——这是很多的数据。的机器学习已经帮助中国疾控中心来改善它如何自动建新的结构,和莱特福特热衷于采用类似的方法可以了解更多关于结构数据库中的数据。重要的是,这项新技术还开辟了新的更广泛的科学界的机会:“我很兴奋,我们的高数据质量将使其他人使用人工智能和机器学习从CSD获得新的见解。”