可查找、可访问、可互操作和可重复使用信息的好处

0418CW -评论-数字数据概念

来源:©Shutterstock

期刊出版中的数据是当前的大新闻。2016年,一份有影响力的宣言创造了“公平”(可查找、可访问、可互操作和可重复使用,我还要加上出处)一词,来描述数字数据应该具有的有利于学术界的属性,从而支持发现和创新。1这份宣言已经促使许多图书馆员将自己重新改造为研究数据管理者。但可以说,Fair数据更好地体现在实际例子上,而不是人们的愿望上——以及它在过去20年里给计算化学、晶体学和光谱学等领域带来的好处。

分享知识

化学出版中公平数据原则的第一个例子可以追溯到电子期刊的早期。2我们提出,这些期刊应该是“一种新的科学仪器形式,允许向用户提供可操作的3D分子图像、仪器数据、能够在本地评估的符号算法,以及其他语义完整的分子数据,供读者在本地重用”。到1999年,出版商已经开始采用DOI来表示在线文章,尽管数据本身花了几年时间才开始获得自己的持久标识符(pid)。

首先,数据表以HTML版本的在线文章呈现,然后分配一个基于pid的超链接到存储原始数据的存储库;3.PID链接描述了数据的属性,例如表明其可重用性和来源的许可声明。到2008年,这些表格(被称为web增强对象)被嵌入到文章中,并使用基于java的交互式分子查看器将数据以一种可访问的、可视的和(通过广泛的内置工具)可互操作的形式呈现给读者。

不幸的是,这种方法的薄弱环节是Java。许多现代web浏览器不再以这种方式支持它,那些需要读者配置他们的浏览器。原始存储库持有的数据及其链接继续按预期运行。

修改脚本

今天,JavaScript几乎已经完全取代了Java,旧的表格正在被基于JavaScript的组件(JSmol)所取代(有了出版商的协议)。3.至少在未来十年,浏览器很可能会支持这一功能。原始的基于句柄的数据pid还可以使用datacite发布的doi进行增强,从而生成全局聚合的可搜索元数据。

最新的演变是将文章的表格托管在与出版商网站分开的数据存储库中,并为它们分配单独的DOI。这些表不再使用数据的本地副本,而是根据需要检索和显示原始数据。4

在晶体学中也出现了类似的方法,在晶体学项目中,新的结构被保存在存储库中,作为Fair数据进行增强。到2014年,剑桥结构数据库(一个拥有近100万个条目的存储库)中的大多数个人条目也被分配了自己的doi。关联的元数据既指向引用数据的原始文章,也指向其他存储库(如果有更完整的(图像)数据集的话)。5文章与其数据之间的这种双向链接正变得越来越普遍。

光谱学也采用了费尔原则。通过包含密码许可文件,MestreNova可以分析来自免费感应衰变NMR的数据,而不需要完整的许可。在未来,我们可以看到来自更多仪器类型的完整数据,再加上供应商提供的软件。

Fair数据的一些好处可以在最近一个研究硼催化酰胺的机制的多机构项目中看到。6所有合作者都可以立即和容易地访问所有数据的完整版本,因此11B核磁共振谱可以自由地重新分析。这导致了一个比较计算和测量的派生项目11B化学变化-现在有自己的Fair数据收集。

公平的未来

《Fair》杂志最初的设想是,科学期刊逐渐吸收这些数据原则。在创建和发布这类数据20年的经验之后,我相信未来更有可能看到期刊和数据存储库越来越多地共存,但不一定会合并。

为了实现这一目标,研究出版的文化必须将公平数据视为有价值的产出,并得到认可。本地级别和标准的存储库基础设施也必须如此进化,在可能的情况下,以适应化学界的需要。最近对采用电子实验室笔记本电脑的关注也应该包括对公平数据发布的投资。

如果我们继续做出这些改变,数据将被视为出版过程中的一等公民,获得自己的可发现性和目的,并在此过程中帮助加强科学研究的可重复性,并允许其他人在数据中发现见解。

编者:我们公司的风格是只大写首字母缩写。在所有附带的参考文献中,“Fair”均表示为“Fair”。