亨利Rzepa解释了为什么我们的数据值得的地方

共享数据的主题,或大或小,好吧,而大1数据是科学的货币;分享它使研究,这样做透明和公开支持再现性。然而,近似估计,80%以上的化学数据不可用在任何公开或搜索方式,代表了一个巨大的浪费资源,形成了一个潜在的缺乏透明度。资助机构在英国和国外也推动公共资金资助的研究增加透明度,是时候重新思考如何共享数据。

和分享

数字存储库,最初与开放获取出版但现在关注数据,是一个可能的解决方案。我自己的旅程始于2001年的一个实验,当彼得Murray-Rust我发表了一篇文章展示数据语义集成2一篇文章的叙述,的结果化学标记语言项目。3彼得创造了表达datument42004年来描述这些增强的文章,我开始创建更多的例子(大约402005 - 2013年)期间5作为一个鼓励其他人,其中大部分有自己的数字存储库的链接。6

其中一个正值的发射化学性质在2009年。预测他们可能愿意实验,我(和提交他们接受了)7一个交互式探索主办的期刊本身,还给我发了一个变种结合成氦8两项包含交互数据,后者也将可重用的数据,和完整的数据集在每种情况下都存入这种新型的数字存储库。

然而,当大卫Scheschkewitz我最近提交这样的另一篇文章相同的杂志,我们被告知他们可以不再处理此类互动表。我们必须找到一种方法,主机和我们丰富的数据对象。

一张桌子和它所包含的数据本身是一个科学的工具,应该珍惜

当然,我们可以简单地填满一个Word文档数据和提交支持信息(SI),和其他人一样。但是,坦率地说,如果不是适合的目的。这些文件通常是结构不合理和包含semantically-void扫描图像。此外,Word文档,或者更糟的是,pdf文档并不好航空公司的数据,这可以防止数据被容易地重用。一张桌子和它所包含的数据本身是一个科学的工具,应该珍惜,不是遗弃在黑暗和经常uncurated深处的杂志。

同时,如今如果文档可以超过100页,这是太正确审查(尽管对于大多数裁判博客似乎做得更好)。

简而言之,数据应该提交一个表单,允许浏览(交互和视觉),人类和机器发现并采取行动。

我们的解决方案是提出一个双组分模型,这篇文章和数据分别出版。在我们的例子中,化学性质发表了这篇文章,然后呢Figshare数据。

在这个场景中,这篇文章是有关的“叙事”,但仍不同,数据是编织。一个关键点是,数据本身是可引用的(最近的原则阿姆斯特丹的宣言共享数据)。这两个组件被单独可引用的,他们成为平等的共生体。的叙述9引用数据和数据10可以参考的叙述。数据继承相信从叙事的同行评审,叙事和继承了一个日期戳和数据的完整性。每一个可以有不同的出版商,重要的是,表示每个可以优化自己的需求。

理想情况下,数据应该有两层:原始数据和接口呈现。读者可以访问层,根据他们的需求。软件(例如,数据挖掘,语义注释和搜索11或错误检测)将专注于原始数据。

打开所有的

这也许是最好的例子:叙事存在于DOI:10.1038 / nchem.1751和数据可以在DOI:10.6084 / m9.figshare.744825表示层,或10042/20409(有些)包含全部细节的原始数据。或者,我可以将图直接嵌入到本文档:

这种方法有很多优点。的角色数据出版商和文章出版商是分开的,所以每个可以专门为其特定的任务。多次使用的数据可以在多个故事,托管在一个开放的存储库,可以免费提供(叙事可能是也可能不是,根据出版商)。整个基础设施可以发展致力于提高引用数据。共享原始数据也防范数据操作。研究员和每个组件分别可引用的可能成为闻名公布的数据以及他们出版的故事,甚至叙述别人的数据。这些只是一些清单上的项目的好处,和其他人毫无疑问会找到更多。

我们甚至可以采用相同的数据共享原则非正式的讨论和响应,比如最近的一次博客我的灵感来写必威体育 红利账户的研究的报道不寻常的FSSF3分子12

所以在你提交你的下一篇文章发表之前,思考如何共享其数据。使用数字数据存储库(如果你的机构有一个),或一个网站Figshare等。激活你的研究出版物的数据可能比你想象的更容易(上面的例子和其他四人发生在几周内)。和传播这个词!

计算化学教授亨利Rzepa是伦敦帝国理工学院,英国

请注意,这篇文章需要一个浏览器上安装java运行时环境的互动元素