跳到主要内容

开放数据

本页提供关于BMC开放数据政策的信息,该政策于2013年9月3日生效,是我们2012年公开数据咨询的结果,结果在此报告文章在BMC研究笔记中。

围绕科学数据的法律限制和不确定性阻碍了有效的数据共享和重用,最终阻碍了研究的步伐。版权对数据来说尤其是个问题。数据是否受版权保护通常是不清楚的,各国的法律差异很大。除特别注明外,所有由BMC发表的开放存取文章均在创作共用署名许可,CC-BY 4.0.但如果版权不适用,创作共用署名许可也不适用。

我们的开放数据政策旨在澄清在我们的开放获取期刊上发表的数据的合法(版权)地位,并最大限度地利用已发表科学成果的重用潜力,例如数据和文本挖掘。为了让社会从科学数据中获得充分的利益,它需要是可用的,这样它可以被重用,审查和建立在以最小的障碍-根据科学中开放数据的潘顿原则.这意味着通过放弃已发布数据中的版权和相关权利,实现数据的重用,而无需获得其原始创建者的特别许可。为了实现这一点,除非在单个文章的许可中另有说明,BMC发布的开放访问文章中包含的数据根据创作共用CC0 1.0公共领域奉献弃权书.任何重用BMC期刊上发表的数据的人都必须尽可能在衍生作品中引用数据的来源,尽管这不是法律上的要求。创作共用CC0豁免适用于文章、参考列表及其附加文件中包含的数据。我们已经详细描述了在2012年的数据中使用Creative Commons CC0的情况这篇文章发表在BMC研究笔记上年代

开放数据政策适用于哪些内容?

除非另有说明,开放数据政策和创作共用CC0豁免条款适用于数据。有许多文件类型显然属于数据,但全面定义它们目前是不可实现的。我们的开放数据政策允许我们期刊中数据的重用者(人类和机器)根据他们对自己研究领域的数据定义的理解来解释许可证。未来,技术将进一步增强我们在已发表文章的不同部分附加许可证的过程。下表是为那些寻求数据定义的人提供的指南,这些定义将随着时间的推移而变化。

如需建议更新和添加内容,请与我们联系。


表:发表在期刊文章及其附加文件中的数据示例
文件/内容类型 解释
作为附加文件提交的材料
XML XML是科学中广泛使用的数据传输标准,许多领域特定的扩展形成了数据标准和交换格式,如流式细胞术实验中的gate - ml。
CSV CSV是一种开放文件格式,通常用于数据表和电子表格。
XLS / XLSX XLS是一种专有的电子表格文件格式,可以用Microsoft Excel打开,但广泛用于发布科学数据。
RDF 资源描述框架(RDF)是对web上的数据和元数据进行编码的标准语言。
包含在论文全文中的材料
以列和行组织的各个数据元素(主要是数字)是事实的表示,应该被视为数据。
书目数据 识别科学出版物的事实信息,包括作者、标题、出版日期和标识符,应被视为数据。适用于个别文章及其参考列表。
图表和图形数据点 软件可以从图形和图表中获取数据点,而图形和其他图形通常是数据的可视化表示。
文章文本中特定词语、名称和短语的出现频率及其与他人的联系 这些信息通常通过文本挖掘来识别,例如特定基因和蛋白质名称的频率以及它们之间的潜在联系。


同行评议期刊中关于开放数据的常见问题

这些常见问题改编自这篇文章在BMC研究笔记中。

问题:商业组织会从公共领域数据的使用中获益吗?
回应:商业组织已经可以利用在CC-BY许可下的开放获取期刊上发表的内容为自己的利益服务。BMC和许多其他开放存取出版商使用CC-BY作为期刊文章及其补充材料(附加文件,可以包括数据)的默认许可。开放获取学术出版商协会(OASPA)强烈建议其所有成员使用CC-BY。对已发表文章中包含的数据使用CC0并不会改变已经存在的对已发表文章的商业用途的潜力。
此外,允许商业使用开放获取内容可以实现所有重用,包括维基百科上的内容共享(使用CC-BY)和商业组织对内容的保存,这在出版商破产的情况下可能是有价值的。英国政府已经认识到,通过公开提供公共资助的数据,以刺激商业创新,为2012年启动的开放数据研究所(Open data Institute)提供资金,这对更广泛的经济和纳税人都有好处。对发表在期刊上的数据应用CC0并不打算改变众多的社区或期刊数据可用性策略。作者和编辑仍然可以控制他们选择发布的数据,除非他们受到特定于社区的数据发布要求的约束。

问题:剽窃会增加吗?
回应:剽窃(未注明出处的抄袭)和剽窃的可能性随着对内容的数字访问而增加,这与内容许可无关。在学术出版中,抄袭通常发生在文本,而不是数据,未经允许或出处被重用的情况下。发布文章叙事文本的许可证CC-BY不变。如果发表在期刊上的数据可以在CC0下获得,数据的重新使用者仍然应该在技术上可能的情况下引用其来源。像CrossCheck这样的软件可以检测剽窃,同行审查员也可以检测剽窃。同行评审和剽窃检测软件都不知道内容许可。创作共用协议正确地将剽窃描述为“与版权侵权完全正交的问题”。

问题:作者是否需要发布比他们已经发布的更多的数据?
回应:我们并不要求作者发布更多的数据。开放数据政策只影响数据作者选择提交到我们的期刊进行开放访问发表,不要求发布任何其他数据或更改未提交到期刊的任何数据的许可。因此,作者、编辑和他们的社区仍然控制着他们发布的内容。CC0是已经或将要开放访问的数据的默认术语。但是,在可能的情况下,BMC支持所有研究领域的数据共享和发布。

问题:如果作者的资助者或雇主不允许他们在发表的作品中使用CC0呢?
回应:如果有合理的原因导致作者无法对其发布的数据应用CC0,则可以选择退出并使用非标准许可证。这个过程已经在期刊出版中发生了。通常情况下,在获得许可的情况下,期刊文章中转载的数字、表格或图表的来源与二级出版商的条款许可不同,文章中也包含了这方面的声明。当作者向期刊提交作品时,应该阅读出版商的标准版权和许可协议,如果他们不能同意这些条款,在提交或发表之前查询这些条款。由世界卫生组织、英国政府和美国政府资助的一些科学家已经与出版商达成协议,在他们的开放获取文章中使用非标准的版权声明。

问题:病人的隐私会受到威胁吗?
回应:保护人体主体的隐私权是伦理学研究和许多国家法律的核心原则。然而,更改已发布内容的许可并不影响提交用于发布的人类受试者数据,也不会改变已发布的任何匿名人类数据的可访问性。它也不影响与知情同意、隐私和同意发表有关的程序和法律。这些建议只是关于免费数据的许可,而不是发布更多或更少的数据。

问题:文章的引用会减少吗?
回应:对已发布的数据应用CC0豁免意味着,在法律上,如果数据被复制、重新分发或重用,则不需要对原始作者的归属进行要求。然而,在技术上可行的情况下,任何重用数据的人都应该仍然引用原始作者。归因是版权法的一项法律要求,而引用则是学术领域的一种文化规范,它确保科学家的工作得到认可。但这两个概念是不同的,而且经常被混淆。在缺乏法律对引用的要求的情况下,引用资料在学术上是一种既定的文化规范,已经持续了几个世纪。归因和引用有时可以以相同的方式实现,但实践服务于不同的目的(见表Hrynaszkiewicz & Cockerill实例)。归因并不总是等于引用,学术上的学分是由后者分配的。
将数据或任何其他内容放在公共领域与生成它的人指定其重用条件并不矛盾。例如,国际中风试验研究人员发表他还要求“任何因使用该数据集而发表的出版物都要承认数据集的来源、资助和收集数据的合作小组。”另外两个研究小组已经重新使用了这些数据。
我们知道,没有经验证据表明,将CC0应用于已发表的数据会导致科学家的工作获得更少的引用或更少的荣誉。事实上,与没有支持数据的文章相比,已经发表的文章提供了对支持数据的完全访问,但关于引用共享的有限证据表明,与期刊文章一起发布数据并允许重用会增加被引用的数量。这已经在微阵列研究、天文学和海洋科学中被发现,尽管这些研究没有评估不同的内容许可——只评估可访问性。
此外,仅对已发布的数据放弃了属性要求。附加文件和期刊文章中的数据将是保留CC-BY许可的文章的一部分。

问题:有什么激励原作者使用CC0而不是CC-BY?
回应:不同的数据许可对数据集和相关学术著作的引用的影响尚未确定。但是由于公共领域的奉献最大化了数据发现和重用的潜力,我们可以合理地假设开放许可可能会增加个人的信用和引用。有证据表明,期刊文章的研究数据共享增加了引用份额,并增加了结果的可重复性。缺乏可以随时共享和组合的数据集——这些数据集在开放数据许可下的公共领域——已经被认为阻碍了进化磁共振成像(evoMRI)研究的进展。在面临这一问题的领域中,支持出版物的数据和放在公共领域的数据促进了研究团队之间的合作和进一步的进展。

问题:如果版权已经不适用于数据,为什么我们需要使用CC0 ?
回应:我们是全球研究和开放获取出版企业的一部分,版权是否适用于数据取决于法律管辖权。在美国,这种担忧可能是有效的,因为版权并不适用于事实(数据是事实的数字表示),只适用于它们的呈现方式。然而,在澳大利亚,版权可能适用于数据,因为法律的重点是原创性而不是创造性。此外,公共领域奉献不仅仅是关于版权。应用CC0旨在消除共享和重用内容的所有法律障碍,因此不仅放弃版权,而且放弃所有相关和邻近的权利,如专利和商标,从而最大限度地提高重用的潜力。

实现显式和清晰的开放数据许可的另一个重要原因是要消除歧义。为了提高数据重用的效率,人和机器都需要对内容进行明确的许可。另一种方法是逐个进行评估,并与个别数据发布者和作者检查个别数据包的许可或版权状态,这种方法无法扩展。明确授权还可以降低个人或组织善意发布或重用数据的风险,从而避免在未来卷入意外的法律争论。

问题:数据存储是否会给出版商或作者带来问题?
回应:我们的开放数据政策纯粹是关于更改在BMC期刊上发表的数据的许可证。没有计划增加可发布的最大附加文件大小和文件数量(实际上每个文件不超过20Mb)。因此,数据存储不受策略影响。

Baidu
map