一个新的开放获取的微生物天然产物推出了在线数据库。的天然产物阿特拉斯(NPAtlas)是免费使用的,包含超过24000的化学结构。该工具是基于公平原则的数据,使信息更容易搜索和使用二次分析。

”尽管我们已经取得了大量的数据驱动的科学领域的进步,仍然没有一个中央存储库记录所有来自微生物的化学环境,在公共和开放格式,“说项目的领导者罗杰Linington基于天然产物化学家西蒙弗雷泽大学、加拿大。

一个图像显示工作流的创建和管理自然产品图集

来源:©2019年美国化学学会杂志》上

工作流的创建和管理自然产品图集

NPAtlas提供参考信息来源生物,以及化合物名称、特级和总合成。Linington解释说,与许多商业数据库,所有的数据都下载和发布基于知识共享许可,允许它使用没有限制。“我们想确保这个平台是真正的开放,世界上任何一个想要使用它为任何下游应用程序是免费的,”他说。

编制数据,数十名来自世界各地的研究人员精心筛选几十年的文学。目前的化合物包括在数据库中提取从超过300种期刊10481篇文章。Linington的团队面临的一个重大挑战,化学结构很少包含在机器可读的形式。这意味着他们必须手动处理数千个文章之前他们可以训练机器学习工具来分析论文标题和摘要加速中的文本搜索。

马塞尔Jaspars基于天然产物化学家阿伯丁大学的说Linington的团队已经做了巨大的工作在数据库设置。”这是一个社区的努力,深思熟虑,策划一个非常高的标准,将允许其他科学家贡献和利益,“Jaspars说。天然产物化学的未来在于这种类型的开放存取数据库,坚持公平原则。“这些原则指定数据应该是可发现的,访问,可互操作和可重用。

NPAtlas还提供了工具,使研究人员可以想象有天然产物化合物在化学涉及到另一个空间。这允许用户研究分子共享子结构和官能团之间的联系。

对天然产物化学的最伟大的事情之一是可用数据的财富,和社区的工作来构建数据集覆盖特定环境或化合物类,”琼斯的家伙说,皇家化学学会的执行编辑的必威手机登陆化学数据库。”罗杰和团队的努力收集这两个在一起,阐明它们之间的联系是非常有趣的,尤其是工具建模和可视化NPAtlas的连接。

琼斯说,他的团队已经寻求利用大会资料中包含NPAtlas。“我们计划添加的数据服务ChemSpider化学,我们的公共资源,进一步协助将天然产物资源链接在一起,”他说。

Linington迫切希望进一步扩大数据库。他解释说,发掘化合物专利报道,年长的论文和文章除英语之外的其他语言的挑战,他的团队正在研究。他的团队也在积极地试图添加更多的分类信息,允许更大的理解生物有机体之间的关系和它们产生的化合物。

Linington和他的团队还计划进一步发展数据库的搜索功能。“目前,电脑没有办法直接查询web界面——人类用户可以使用web界面来做任何他们想要的查询。但是没有机制来允许其他系统来做同样的事情,”Linington说。”这是一个结构变化,这将大大提高那些公平原则,特别是互操作性问题。