跳到主要内容

DCSO:面向机器可操作的数据管理计划的本体

摘要

数据管理计划(DMP)的概念已经成为帮助研究人员对数据进行系统管理的基本工具。研究数据联盟DMP通用标准(DCS)工作组开发了一组描述DMP的通用概念,因此可以将其表示为机器可操作的工件,即机器可操作的数据管理计划(maDMP)。当前maDMP规范的技术不可知方法:(i)没有明确地链接到相关的数据模型或本体,(ii)没有标准化的方法来描述受控词汇表,(iii)是可扩展的,但没有明确的机制来区分核心规范及其扩展。本文报告了一个社区努力创建DMP通用标准本体(DCSO)作为DCS核心概念的序列化,特别关注本体组件的详细描述。我们的初步结果表明,提议的DCSO可以成为DMP通用标准参考序列化的合适候选。

背景

随着研究数据的不断增长和共享FAIR(可发现、可访问、可互操作和可重用)数据的最终目标[1,研究人员面临着系统管理这些数据及其相应元数据的挑战。数据管理计划(dmp)使研究人员更容易应对这一挑战。DMP是一份基于文本的文件,描述了在整个生命周期内如何产生和管理数据的技术、方法和政策[2].此外,它还建立了数据管理活动和相应的责任人之间的联系[3.].

DMP作为文档的概念已经演变为机器可操作的DMP (maDMP)。madmp的实现将允许克服与当前基于文本的表示相关的一些障碍[4].一个主要问题是DMP所提供的细节级别,这可以根据其创建者的设计选择、意识和知识而变化。此外,将信息表达为自由文本通常会导致dmp的信息不完整、不充分、模糊或缺失。madmp的主要目标是用一种格式表示dmp,使其信息可被人类和自动化系统阅读和重用。这种机器可操作的表示将允许在自动化系统之间交换信息,将其集成到现有的数据管理工作流中,并将支持关于数据管理策略的自动化机器处理管道[56].因此,它将减轻研究人员的行政负担,并促进数据管理专家和服务的参与和支持。此外,它将简化dmp和数据管理后续跟进的更新过程,并实现研究成果、研究对象、参与者和基础设施的链接。因此,可由机器操作的dmp将促进公平原则的实际实施。

由于机器可操作的表示需要一定的形式主义和标准化水平,研究数据联盟(RDA)脚注1DMP通用标准(DCS)工作组为DMP创建了一个通用的特征,正式成为DCS应用概要。它还使用JavaScript对象表示法(JSON)格式发布了相应的序列化脚注2,将开发其他序列化格式的责任留给社区。尽管DCS应用程序概要在基于文本的dmp方面又向前迈进了一步,但在互操作性方面仍然存在许多开放的挑战,特别是(1)缺乏与现有本体的显式链接;(2)缺乏描述受控词汇的机制;(3)缺乏一种机制,允许扩展DCS的条款集。为了应对这些挑战并提高互操作性,需要在DCS应用程序概要文件提供的语法层之上添加语义层。

本文报告了DMP通用标准本体(DCSO)的创建,目前为4.0.0版本,这是社区为创建DCS应用程序概要的本体序列化所做的努力。DCSO的创建旨在解决当前DCS模型和现有序列化的上述挑战。

本文的其余部分详细介绍了生成的本体及其组件,并组织如下。”结构与内容部分报告了DCSO的创建过程。本文首先介绍了创建DCSO的动机,然后介绍了其多个版本直到最新版本(4.0.0版本)所面临的挑战。所有报告的工作都是在更广泛的范围内进行的,即采用DCSO作为DCS应用程序概要文件的官方基于语义的序列化。”实用和讨论"部分通过描述Data Stewardship Wizard (DSW) DMP创建工具采用DCSO来呈现一个用例[7].最后,“结论”部分提供了对本文内容的概述,以及对DCSO未来目标的描述。

结构与内容

本节将描述创建DCSO的过程,以及用于迭代开发DCSO的方法。”应用程序概要文件作为起点"部分提供了DCS应用概要的简要描述,并描述了由DCSO完成的关键要求。”初始版本一节将重点介绍DCSO的初始版本(2.0.2),并对其起源进行描述。第一个稳定版本(3.0.2)随后在“第一个稳定版本”一节。该版本是对DCSO的完全重新设计,在2020年RDA机器可操作数据管理计划黑客松期间进行的努力[8].最后,DCSO的最新(4.0.0)版本的特点是“朝向DCS工作组采用DCSO”一节。它主要报告了第一个稳定版本没有满足的一些先决条件,需要通过创建新版本来解决。对这些先决条件的遵从以及由此产生的DCSO 4.0.0版本是使DCSO被DCS工作组采纳为DCS应用程序概要文件的正式序列化的持续努力的一部分。

应用程序概要文件作为起点

为了实现建立一组通用术语来描述DMP的目标,DCS工作组努力创建了一个应用程序概要文件。根据定义,应用程序概要文件是一种元数据设计规范,它使用从多个元数据词汇表中选择的术语,并添加约束,以满足特定于应用程序的需求脚注3..然而,由于并非DCS工作组选择的所有术语都与已建立的元数据词汇表相关联,应用程序概要文件的概念还没有完全实现,因此它仍然是一项正在进行的任务。不管这个事实如何,作为总体目标的一部分,有必要开发应用程序概要的序列化。这将允许从事研究数据处理的任何工具或系统,不仅可以消费数据,还可以向madmp添加数据,从而实现数据交换自动化。

DCSO是作为社区倡议创建的,其总体目标是通过添加基于语义的序列化来扩展DCS应用程序概要文件的现有序列化集。使用DCSO,来自DCS应用程序概要文件的信息使用语义技术表示,特别是本体,它允许通过使用正式语义来表示知识的共享概念化[9].选择本体论背后的关键特征之一是它们的可扩展性,因为可以在涵盖不同领域的本体论之间匹配概念或建立关系。这一特性加强了本体作为表示DCS应用程序概要文件的方法的适用性,因为它在设计时也考虑到了模块化。此外,本体论能够进行推理,从而从显式表示的信息中进行知识推断[10].尽管传统上认为本体论是高度正式的知识表示手段,但它们已被证明适合创建关联开放数据(LOD) [1112].因此,语义技术的使用符合maDMP概念所建立的总体需求。

在创建DCS应用程序概要的基于语义的序列化过程中,确定了DCSO应该实现的三个关键需求。这些是:(1)DCSO应该允许在DCS应用程序概要中引用的本体通过其术语的重用进行集成;(2) DCSO应允许并加强受控词汇的使用;(3) DCSO应该是可扩展的,以符合DCS应用概要的任何未来扩展。以下部分描述了DCSO的创建过程,从它的起源到当前的迭代。

初始版本

第一次尝试创建基于语义的DCS应用程序概要的序列化发生在2019年春季。创建这个版本(2.0.2)主要是为了验证概念。因此,由于没有完全遵守本体工程中的最佳实践,创建过程被加快和简化了。第一个版本证明了DCS应用程序概要基于语义表示的可行性,但是,它也未能完全满足DCSO概念应该实现的三个关键需求。

DCS应用程序概要文件引用来自标准化词汇表(例如,数据目录词汇表(DCAT))的多个术语和字段。脚注4和都柏林核心(DC)脚注5).在DCSO的初始版本中,所有的术语和字段都被重新定义。这与通过集成现有领域本体重用术语的最佳实践相反。尽管表示了所有的术语和字段,但是引用的术语和字段缺乏重用,这意味着这个版本的DCSO将不能满足其开发的关键需求之一。

为了简化创建过程,决定创建一组自定义文字数据类型,以适应DCS应用程序概要文件中指定的受控词汇表的使用。这个解决方案违反了本体工程的最佳实践,尽管DCSO用户可能会使用受控词汇表,但这并不是一个可扩展的解决方案。此外,还决定通过使用Web本体语言(OWL)约束来表示多样性和类型约束。尽管这是本体工程中约束表示的一种可行方法,但这种解决方案不允许对数据进行规范符合性验证。因此,对于所有有效的目的来说,强制使用受控词汇表是不可能的,因此无法满足另一个关键需求。

最后,在追求本体工程中的最佳实践时,还存在其他问题,例如使用数字存储库链接作为本体名称空间,而不是通过统一资源标识符(URI)分配持久名称空间。

第一个稳定版本

在最初的尝试之后,社区决定开发一个稳定的版本,它符合DCSO的三个关键需求,并遵循本体工程中的最佳实践。RDA关于机器可操作数据管理计划的黑客马拉松[8]被证明是实现这一目标的绝佳机会。黑客马拉松的动机是促进研究社区对maDMP概念的使用。鼓励参与者提交主题,并组建团队,在两天内合作解决提交的主题。根据黑客马拉松的动机,决定创建一个稳定版本的DCSO应该是黑客马拉松的提议主题之一。

新版本的DCSO将是一个新的开始,它将受益于创建第一个版本期间获得的经验。因此,它应该符合之前确定的所有关键需求,同时遵循本体工程中的最佳实践。为了实现这一目标,决定将DCSO组织为DCSO核心和DCSO扩展(DCSX)(如图所示)。1).第一种是DCS应用程序概要文件的表示,它将重用来自领域本体的术语,而后者通过提供DCS应用程序概要文件中引用的所有受控词汇表的聚合来支持DCSO核心。由于黑客马拉松持续时间所施加的时间限制,开发过程被分为三个迭代阶段,从而产生了第一个稳定的DCSO版本(3.0.2)。

图1
图1

DCSO的类结构。一个DCSO核心的类结构。bDCSX的类结构

第一阶段- DCSO核心

第一阶段仅专注于DCSO核心的开发。生成的本体使用RDF三元语法(Turtle)进行序列化。脚注6.在DCSO Core中,DCS应用程序概要文件概念之间的所有关系都表示为对象属性,而数据属性用于表示DCS应用程序概要文件术语,如图所示。1a.对象属性以它们所属的类命名,使用CamelCase表示法,并使用前缀'”。此解决方案解决了DCS应用程序概要文件中存在的一个问题,即概念之间的关系没有命名,只提供了关于它们的基数的信息。数据属性遵循类似的命名约定,区别在于没有添加前缀。但是,DCS应用程序概要文件中的一些术语需要遵循受控词汇表。表示此选定术语集的解决方案是使用对象属性在DCSO Core的类和DCSX的类之间建立关系(请参阅“第二阶段- DCSX和验证层”一节)。这些对象属性遵循与DCS应用程序概要文件中表示概念之间关系的对象属性相同的命名约定,例如,dcso: hasCurrencyCode

第二阶段- DCSX和验证层

第二阶段有两个目标:(1)将受控词汇纳入DCSO;(2)约束验证层的创建。DCS应用程序概要文件指定了一组三个受控词汇表:(1)国际标准化组织(ISO) 639-3 [13],其语言代码用于表示包含多个概念(例如,数据集分布,元数据)表示;(2) ISO 3166-1,其国家代码用于描述数据托管的地理位置;及(3)ISO 4217 [14],其货币代码用于识别在数据管理计划中描述与数据管理有关的成本的货币。

在DCSO的初始版本中,受控词汇表使用自定义文字数据类型表示。这个解决方案仅仅是作为简化创建过程的一种手段来实现的,对于一个稳定的版本来说是不够的。hackathon团队选择创建一个独立的本体,作为DCSO的扩展,受控词汇表可以用类表示,它们的术语可以作为这些类的单独实例。结果是创建了DCSX及其类(dcsx:语言dcsx:国家而且dcsx: CurrencyCode),每一个都与一组单独的实例相关联,如图所示。1b.此外,还创建了与属于DCSO Core的类建立关系所需的必要对象属性。

创建DCSO约束验证层的动机是为用户提供评估madmp与DCS应用程序概要的合规性的方法,同时还促进数据的完整性和一致性。在DCSO的初始版本中,约束使用OWL语言表示;然而,由于OWL的局限性,不可能验证单个DMP实例与DCSO的合规性。这个问题的解决方案是选择一种允许遵从性验证的约束表示语言。

三种验证语言通常被认为是最流行的:(1)JSON模式;(2)形状表达式(ShEx) [15];(3)形状约束语言[16].就语义数据验证场景中的专用用途而言,这三种验证语言中没有一种特别突出。我们选择了ShEx,因为它是Wikidata中用于验证模式的选项,已经提供了一个很大的实践社区。Wikidata脚注7是一个开放的知识库,对应于维基媒体姐妹项目(如维基百科)的结构化数据。在Wikidata中,WikiProject schema支持ShEx形状脚注8,其中包括示例和教程。ShEx是一种用于描述RDF图的数据建模语言。单独的ShEx表达式集被收集到一个ShEx模式中,定义元素关系、它们的基数(例如,一个或多个、零或多个、零或一个等)和它们的存在(例如,强制或可选)的条件。

DCSO约束验证层包括两个不同的ShEx模式,它们遵循在DCS应用程序概要文件中建立的约束。第一个模式名为'dcso-dmp’,重点关注DMP文档的验证。因此,它包括以标识符、联系人、贡献者、费用和项目为目标的要素。第二个模式名为'dcso-dataset’,只关注DMP文档中引用的数据集的验证。这种模块化提高了可读性(对于人类),并使扩展更容易创建。在模式中,为每个DCSO类提供一个形状,并对数据属性(例如日期或字符串)进行初始验证,然后验证由对象属性表示的关系。的相关验证元素dcso: dmp类,如图所示。2.与这些形状相对应的解释摘录如图所示。3.

图2
图2

显示根据DCSO描述DMP的形状的图表,以及描述相关项目、成本、贡献者和联系人的附加元素。与数据集相关的验证不包括在此图中

图3
图3

验证DMP的ShEx模式的摘录

有不同的第三方工具来尝试和测试ShEx模式,例如由Web Semantics Oviedo研究小组支持的RDfShape验证服务。1718和ShEx2简单在线验证器脚注9由ShEx形状表达式支持脚注10.它们都提供了终端用户界面,用户可以直接输入要验证的实例以及相应的ShEx模式。RDFShape支持直接输入,通过URL或文件,而ShEx2简单在线验证器只支持直接输入。在Tabel1,我们一步一步地描述了如何使用RDFShape和ShEx2简单在线验证器来验证使用DCSO表达的DMP(这个过程也在图中说明4).

图4
图4

使用RDFShape验证服务的验证示例

表1使用ShEx验证DCSO实例的步骤

第三阶段——人类可读性和传播性

到开发过程的第三阶段,DCSO的大部分功能需求已经得到满足。因此,目标是通过解决将促进其使用和采用的要求来完成开发进程。为此,我们考虑了三个任务:(1)在DCSO核心和DCSX中创建人类可读的描述,(2)为DCSO定义持久名称空间,以及(3)修改和扩展关于组成DCSO的各种工件的现有文档。人类可读的描述的创建是通过使用rdfs:评论所有已创建的类、数据属性和对象属性的描述。缺乏稳定的URI作为DCSO命名空间是DCSO初始版本中确定的问题之一。为了解决这个问题,并遵循使用URI名称空间作为持久标识符的最佳实践,团队求助于W3ID脚注11W3C永久标识符社区组的服务脚注12,并登记了“https://w3id.org/dcso”。最后,现有的主要由标记文件组成的文档被修改并与DCSO一起保存在GitHub存储库中。

朝向DCS工作组采用DCSO

在DCSO的第一个稳定版本(3.0.2版本)完成后,有必要将其作为DCS应用程序概要文件的正式序列化被DCS工作组采用。然而,在正式通过任何提案之前,必须满足若干先决条件。这导致了DCSO版本4.0.0,这是现有的最新版本。前提条件如下:

将DCSX名称空间集成到验证层。

使用DCSX作为DCSO的扩展,其根源在于需要有方法来表示应用于特定DCS应用程序概要术语集的受控词汇表(请参阅“第二阶段- DCSX和验证层”一节)。然而,为了更接近地表示DCS应用程序概要文件(其中DCSX所涵盖的术语是用字符串值表示的),决定放弃DCSX方法,而将这些术语表示为DCSO Core中的数据属性。因此,受控词汇表在验证层中被表示为约束,以保持DCSO最初愿景中理想的验证特性。

DCSO对DCS应用概要文件的全面覆盖。

一个基本的先决条件是确保DCSO中匹配的术语涵盖了所有DCS应用程序概要文件术语。为满足这一先决条件而采用的方法是在DCS应用程序概要术语和第一个稳定版本的DCSO之间进行直接的比较分析(见“第一个稳定版本”一节)。通过分析,发现了多个差异,如表所示2.这些差异分为两类:缺少术语这些DCS应用程序配置文件术语在DCSO中没有对应的匹配。最常见的情况是各方面缺乏代表标识符与多个DCS应用程序概要概念相关联的术语。在DCSO的第一个稳定版本中,曾显式地尝试为DCS应用程序概要标识符概念定义一种表示dcso: Id类及其子类(例如,dcso: ContactIddcso: ContributorId等),以及dcso: identifierType属性的dcso: Id类作为它的域。但是,没有数据属性来表示标识符术语。解决这个问题的方法是创建dcso:标识符数据属性,它作为域dcso: Id类。还创建了另外三个数据属性,即dsco:创建dcso:修改,dcso:类型.这些差异是决定放弃DCSX作为表示指定一组受控词汇表的DCS应用程序概要文件术语的方法的直接结果。解决这种差异的方法是将DCSO术语的表示类型从对象属性更改为数据属性。结果是dcso: hasLanguagedcso: hasGeoLocation,dcso: hasCurrencyCode对象属性替换为dcso:语言dcso:地理位置,dcso: currencyCodeDSCO数据属性。

表2在DCS应用概要文件和第一个稳定版本的DCSO之间进行比较分析发现的差异

采用DCS应用概要名称和版本控制方案。

DCSO的当前名称和版本基于本体的开发,与参考DCS应用程序概要文件没有任何显式的联系。为了确保DCS应用程序概要文件在其各种序列化中使用一致,采用“maDMP”术语作为语义序列化名称,与DCSO相对,并采用DCS应用程序概要文件版本号正在考虑之中。这样的决定将导致本体的新版本将随DCS应用程序概要文件的任何修订一起发布。

maDMP的JSON和RDF表示之间的转换机制。

由于DCS应用程序概要文件的JSON序列化非常流行,因此采用DCSO提供在JSON和RDF序列化之间转换数据的机制非常重要。为此,将maDMP JSON转换为RDF序列化的JavaScript对象标记(JSON- ld)上下文和将maDMP RDF转换为JSON序列化的JSON- ld序列化器的可用性非常重要。我们提供了执行这些函数的初始方法,并提供了转换的示例脚注13

作为本体扩展的出资人简介示例。

maDMP的RDF序列化的主要优点之一是它能够捕获数据模型扩展,而无需更改原始DCS应用程序概要文件。为此,我们计划在未来提供一组过程来定义DCS应用程序概要文件的这种扩展,并对其进行评估,以将资助者概要文件定义为本体扩展。

实用和讨论

本节主要介绍数据管理向导(DSW)对DCSO的采用,DSW是目前可供公众使用的最流行的DMP创建工具之一。此外,它还设有一个“讨论部分,其中强调了使用DMP的语义表示的好处。

用例:数据管理向导

的DSW脚注14是一种用于数据管理规划的工具,广泛应用于欧洲生命科学生物信息基础设施(ELIXIR)及其他领域[19].它的多功能性已在多个定制中得到证明,如VODAN-in-a-Box解决方案作为病例报告表格的数据输入工具[20.]或作为FIP向导,以便有效地捕获FAIR实现配置文件[21].DSW的核心思想是允许与资助者的DMP模板相对应的定制。为了实现这一点,DSW为智能问卷提供了知识模型和可扩展模板的概念,其中的指导以多种但自然的方式完成——解释、建议、回答选项、后续问题、参考,以及与应用程序编程接口(api)的集成以提供回答建议。有了这样的问卷,人们可以通过选择所需的导出模板,例如Horizon 2020 DMP模板[22].导出模板是用Jinja2模板语言完成的脚注15;因此,它可以生成任何文本格式和转换问卷答复的任何限制。

在2020年RDA maDMP黑客松期间,开发了一个新的导出模板。首先,需要定义核心DSW知识模型和DCS应用程序概要JSON模式之间的映射。当时还没有涉及到一些信息,因此增加了新的问题。此外,有几个问题被调整或移动了;DSW迁移机制使得用户可以轻松地升级到新版本,而不会丢失所有存储的答案。JSON格式的maDMP Jinja2模板非常简单。它使用已知的通用唯一标识符(uuid)查询问题的答案,并根据预定义的JSON模式创建一个对象。然后它将对象简单地打印为JSON。DSW中的导出模板可以提供几种格式。例如,可以导出。pdf、。docx、。html、。tex或。pdf格式的Horizon 2020 DMP文档。Md文件格式。 DSW also supports RDF export for maDMPs by using DCSO. There is a Jinja2 template for transforming the same object used for JSON to synthesise an RDF file in the Turtle format. It traverses the object (its fields, arrays, nested objects) and outputs the RDF triples according to DCSO. In the first version, the template produced valid RDF but with the use of blank nodes. It turned out that it causes problems with several other tools after being exported from DSW, i.e., lays obstacles in interoperability. The recent version is free of blank nodes by giving every node a unique identifier.

RDF中的节点标识符有两种类型。首先,是由JSON模式(和DCSO)具体定义的,例如,dcso: DMPIddcso: FunderId.如果用户输入的标识符是直接的URI还是经过某种转换(例如,我们可以添加https://doi.org/在数字对象标识符(DOI)之前)。对于有效的URI,它被用作对应节点的标识符。然后,如果它不是有效的URI,或者实体没有由DCSO定义的ID,它仍然需要一个URI。它是使用相关的URI和问题/回答通用唯一标识符(UUID)合成的,例如,DMP的URI,问卷的URI和数据集回复项的UUID。指出DSW中的集成也很重要。例如,用户可以通过与CrossRef的集成选择出资人脚注16,类似于Wikidata的许可脚注17或隶属于研究机构注册处(ROR)脚注18.然后,条目的URI保存为应答的一部分,并在与RDF三元组对应的模板中使用,遵循链接数据原则。

最后,Turtle并不是DSW支持madmp和DCSO的唯一RDF导出格式。使用rdflib脚注19for自动转换允许以不同的格式导出,如RDF/XML, TRiG, N3或JSON-LD。导出模板是作为开源开发的脚注20.,任何人都可以轻松地贡献或使用它。这种方法既允许对模板进行简单的版本控制(例如,当DCSO的新版本发布时),也允许在独立分支中采用对DCSO的各种未来扩展。

讨论

创建基于语义的DCS应用程序序列化概要文件已被DCS工作组确定为一个研究机会,但它只是在RDA机器可操作数据管理计划黑客马拉松之后(见“第一个稳定版本章节)中,一组具有足够专业知识的研究人员聚集在一起,以应对这一机遇。拥有基于语义的序列化的总体目标是促进数据管理中涉及的不同服务之间的信息交换,因为它独立于它们的技术实现。促使选择本体论的另一个因素是它们的可扩展性,因为涵盖不同领域的本体论之间可以匹配概念或建立关系。这体现在DCSO中,它利用现有的领域本体,如万维网联盟(W3C) DCAT规范、都柏林核心元数据倡议(DCMI)元数据术语和朋友的朋友(FOAF)来进一步标准化其内容,从而增加其公平性。此外,它使用的受控词汇(针对语言、国家和货币)进一步有助于所表示内容的标准化。所有这些因素使得DMP内容更容易链接到其他图形,如持久标识符(PID)图或研究对象图。本体论也支持推理,因此,从显式表示的信息中进行知识推断[10],这些都是未来可以探索的特征。

DCSO的创建,更具体地说,它的最新版本,是为研究数据管理提供越来越好的解决方案的又一步。创建DCSO的过程并不总是理想的,但在每次迭代中,我们都试图解决已确定的挑战,并在持续的改进周期中遵守最佳实践。这种持续的改进周期是通过采用DSCO来验证的,采用的是一个成熟的DMP创建工具(如DSW)。DSW现在有了另一种表示DMP文档的方法,它的社区现在能够找到利用这种序列化的新方法。至于DCSO,它将在一个已经开始的过程中被交还给它起源的团体(即DCS工作组)。DCS工作组将面临组织上的挑战,因为所有的标准、建议、模型(在本例中是本体)都需要维护。接下来的步骤将集中于确定如何维护这个序列化,以及由谁维护。这一进程无疑需要多轮修订和创建相应的文件。然而,这超出了本文的范围。

结论

本文报告了DCSO的创建过程,直到它的最新版本(4.0.0),以及它作为DCS应用程序概要文件的序列化被DCS工作组采用的路径。此外,它还报告了DCSO被DSW(最流行的DMP创建工具之一)采用的情况。DCSO是DCS应用程序概要文件的语义表示,涵盖了来自DCS应用程序概要文件的所有术语,同时还重用了来自已建立的领域本体的术语。此外,DCSO配备了一个验证层,该层由一组ShEx约束组成,允许通过DCSO表示的dmp根据DCS应用程序概要进行验证。DCSO增加了现有DCS应用程序概要序列化的意义,它不仅仅是数据的表示,它允许从数据推断知识。因此,DCSO具有扩展DCS应用程序概要的用例的潜力。然而,DCSO受到与形式化的基于语义的表示相关的限制。也就是说,使用和扩展的入门成本都很高,与其他DCS应用程序概要文件序列化相比,复杂性也增加了。这些因素可能会挑战社区对DCSO的采用。

负责DCSO开发和维护的团队努力遵循本体工程中的最佳实践,同时不断尝试更新和升级DCSO及其组件。目前,该团队正专注于为DCS工作组采用DCSO准备一个正式的提案,作为DCS应用程序概要文件的正式序列化。这将需要定义如何在未来维护DCSO,这将需要与DCS工作组密切合作。此外,该团队还正在解决或计划解决以下问题:(1)继续寻求将其他已建立的本体中的术语集成到DCSO中(例如,拨款本体的数据集成(DINGO))。脚注21),从而丰富了DCS应用程序概要,并可能包括与所有相关概念相关的受控词汇表;(2)对使用DCSO表示的DMP文件进行语义验证,这是一个雄心勃勃但有用的功能,特别是对任何资助机构的利益相关者。旨在通过使用DCSO执行任务的服务目前正在考虑创建概念验证工具。

数据和材料的可用性

在当前研究期间生成和/或分析的数据集可在DMP通用标准工作组GitHub存储库中获得,https://github.com/RDA-DMP-Common/RDA-DMP-Common-Standard/tree/master/ontologies

笔记

  1. 研究数据联盟网站。https://www.rd-alliance.org/rda-europe.访问2009年3月2022。

  2. 该DCS应用程序配置文件JSON序列化,在GitHub。https://github.com/RDA-DMP-Common/RDA-DMP-Common-Standard/tree/master/examples/JSON.访问时间:

  3. 应用程序概要文件的定义,根据都柏林核心。https://www.dublincore.org/resources/glossary/application_profile/.访问2009年3月2022。

  4. 数据目录词汇-版本2。https://www.w3.org/TR/vocab-dcat-2/.访问2009年3月2022。

  5. 都柏林核心规范。https://www.dublincore.org/specifications/dublin-core/dcmi-terms/.访问2009年3月2022。

  6. Turtle语法。https://www.w3.org/TR/turtle/.访问2009年3月2022。

  7. https://www.wikidata.org/.访问2022年4月11日。

  8. https://www.wikidata.org/wiki/Wikidata:WikiProject_Schemas.访问2022年4月11日。

  9. http://shex.io/webapps/shex.js/doc/shex-simple.html.访问2022年4月11日。

  10. https://shex.io/.访问2022年4月11日。

  11. w3d服务网页。https://w3id.org/.访问2009年3月2022。

  12. W3C永久标识符社区组网站。http://www.w3.org/community/perma-id/.访问2009年3月2022。

  13. 转换之间的DMP通用标准序列化应用程序,在GitHub。https://github.com/fekaputra/dcso-json.访问2009年3月2022。

  14. 数据管理向导网站。https://ds-wizard.org.访问2009年3月2022。

  15. 金贾项目网站。https://jinja.palletsprojects.com.访问2009年3月2022。

  16. CrossRef网站。https://www.crossref.org.访问2009年3月2022。

  17. 维基数据网站。https://www.wikidata.org.访问2009年3月2022。

  18. 研究组织注册社区网站。https://ror.org.访问2009年3月2022。

  19. rdflib规范。https://rdflib.readthedocs.io.访问2009年3月2022。

  20. DSW的maDMP模板,在GitHub中。https://github.com/ds-wizard/madmp-template.访问2009年3月2022。

  21. 授权本体的数据集成规范。https://dcodings.github.io/DINGO.访问2009年3月2022。

缩写

API:

应用编程接口

DC:

都柏林核心

DCAT:

数据目录词汇

DCMI:

都柏林核心元数据计划

DCS:

通用标准

DCSO:

通用标准本体

DCSX:

DCSO扩展

野狗:

授权本体的数据集成

DMP:

数据管理计划

DSW:下手

数据管理向导

DOI:

数字对象标识符

长生不老药:

欧洲生命科学生物信息基础设施

公平:

可发现、可访问、可互操作和可重用

FOAF:

朋友的朋友

ISO:

国际标准化组织

JSON:

JavaScript对象表示法

JSON-LD:

链接数据的JavaScript对象表示法

maDMP:

machine-actionable DMP

LOD:

互联开放数据

猫头鹰:

Web本体语言

PID:

持续的标识符

RDA:

研究数据联盟

RDF:

资源描述框架

ROR:

研究机构注册处

SHACL:

形状约束语言

ShEx:

形状表达

乌龟:

简洁的RDF三元语言

URI:

统一资源标识

UUID:

通用唯一标识符

W3C:

万维网联盟

XML:

可扩展标记语言

参考文献

  1. Wilkinson MD, Dumontier M, Aalbersberg IJ, Appleton G, Axton M, Baak A, Blomberg N, Boiten J-W, da Silva Santos LB, Bourne PE,等科学数据管理和管理的公平指导原则。科学数据,2016;3(1): 1 - 9。

    文章谷歌学者

  2. Surkis A, Read K.研究数据管理。医学图书馆协会JMLA。2015;103(3): 154。

    文章谷歌学者

  3. 麦切纳工作。制定好的数据管理计划的十条简单规则。《公共科学图书馆·计算生物学》2015;11(10): 1004525。

    文章谷歌学者

  4. Simms S, Jones S, Mietchen D, Miksa T.机器操作的数据管理计划(madmps)。2017年Res Ideas成果;3:13086。https://doi.org/10.3897/rio.3.e13086

    文章谷歌学者

  5. Miksa T, Simms S, Mietchen D, Jones S.机器可操作的数据管理计划的十个原则。公共科学图书馆,计算生物学,2019;15(3): 1006750。https://doi.org/10.1371/journal.pcbi.1006750

    文章谷歌学者

  6. Miksa T, Oblasser S, Rauber A.使用机器可操作的数据管理计划自动化研究数据管理。ACM Trans管理Inf系统2021;13(2)。https://doi.org/10.1145/3490396

  7. Suchánek M, Pergl R.开放科学的数据管理向导。见Data A Znalosti WIKT 2018,第121-125页,布尔诺,捷克共和国,2018。Vysoké učení technické v brn。ISBN 978-80-214-5679-2。

  8. Cardoso J, Castro LJ, Miksa T.使用机器可操作的数据管理计划的互连系统-黑客松报告。数据科学J. 2021;20.https://doi.org/10.5334/dsj-2021-035

  9. 陈志强,陈志强,陈志强,等。知识工程:原理与方法。数据知识,1998;25(1): 161 - 98。

    文章谷歌学者

  10. 李国强,李国强。本体表示与推理。罗马大学,罗马,意大利,技术代表NoE InterOp (IST-508011)。2004.

  11. almang D, Hendler J.语义Web的工作本体:在RDFS和OWL中的有效建模。摩根·考夫曼出版公司,旧金山,加州,美国,2011年2版。ISBN 9780123859655。

  12. 贾恩·P,希特勒P,谢思·AP,魏玛·K,叶培泽。链接开放数据的本体对齐。在:,等。语义Web - ISWC 2010。ISWC 2010。计算机科学课堂讲稿,第6496卷。施普林格,柏林,海德堡;2010.https://doi.org/10.1007/978-3-642-17746-0_26

  13. 国际标准化组织。ISO 3166-1:2020国家名称及其细分的表示代码。第1部分:国家代码。国际标准化组织,日内瓦,CH, 4版,2020年。

  14. 国际标准化组织。ISO 4217:2015货币表示代码。日内瓦:国际标准化组织,CH, 8版;2015.

  15. Baker T, Prud 'hommeaux E.形状表达式(ShEx)入门。技术报告。2019.https://shexspec.github.io/primer/

  16. knubluch H, Kontokostas D.形状约束语言(SHACL)。W3C技术报告,2017年7月。https://www.w3.org/TR/shacl/

  17. Gayo JEL, Fernández-Álvarez D, García-González H. RDFShape:一个基于形状的RDF游乐场。在:van Erp M, Atre M, López V, Srinivas K, Fortuna C,编辑。ISWC 2018海报和演示、工业和蓝天创意轨道的会议记录与第17届国际语义Web会议(ISWC 2018)在2018年10月8日至12日在美国蒙特利举行。CEUR研讨会论文集2180卷。CEUR-WS.org;2018.http://ceur-ws.org/Vol-2180/paper-35.pdf

  18. Labra Gayo JE, Ulibarri Toledo E, Menéndez Suárez P. Shaclex/RDFShape - RDF, ShEx, SHACL和更多的游乐场。http://shaclex.herokuapp.com

  19. Pergl R, Hooft RWW, Suchánek M, Knaisl V, Slifka J.“数据管理向导”:围绕数据管理计划将研究人员、数据管理员和数据专家聚集在一起的工具。数据科学,2019;18:59。https://doi.org/10.5334/dsj-2019-059

    文章谷歌学者

  20. Suchánek M, Basajja M. VODAN在一个盒子里:概念的证明。Zenodo》2020。https://doi.org/10.5281/zenodo.4321626

  21. Koumoulos EP, Sebastiani M, Romanos N, Kalogerini M, Charitidis C. H2020项目数据管理计划模板(v01.100419)。Zenodo》2019。https://doi.org/10.5281/zenodo.2635768

  22. Koumoulos EP, Sebastiani M, Romanos N, Kalogerini M, Charitidis C. H2020项目数据管理计划模板。Zenodo》2019。https://doi.org/10.5281/zenodo.2635768

下载参考

确认

不适用

资金

这项工作得到了奥地利研究促进机构FFG的资助,资助金额为877389 (OBARIS)。DSW的开发和运营得到了ELIXIR CZ研究基础设施项目的支持(教育、青年和体育部批准No。LM2018131)。SBA研究SBA- k1是COMET -卓越技术计划能力中心框架内的COMET中心,由BMK, BMDW和维也纳联邦州资助;COMET由FFG管理。来自INESC-ID的研究人员得到了国家基金的支持,通过Fundação para a Ciência ea Tecnologia (FCT),参考UIDB/50021/2020,由DRE项目,Imprensa Nacional - Casa da Moeda S.A. (INCM)和Portugal 2020。最后,作者还想感谢RDA建立社区,使这次合作成为可能。

作者信息

作者及隶属关系

作者

贡献

JB, TM和MJ参与了手稿的撰写和修改。MS作为软件开发人员,作为DSW核心团队的一员,他负责将DCSO集成到DSW中。他还参与了手稿的写作和修改,特别关注“实用和讨论”一节。FE大量参与了DCSO的设计和创建,特别是在其第一个稳定版本的创建过程中。FE还负责开发一种在maDMP的JSON和RDF表示之间转换的机制。FE还参与了手稿的撰写和修改。LC在创建DCSO的第一个稳定版本方面做出了贡献,主要是通过创建其验证层。LC也参与了手稿的撰写和修改。最后,JC是手稿写作和修改的主要贡献者,并积极参与了DCSO所有现有版本的创建。所有作者都阅读并批准了最终的手稿。

相应的作者

对应到若昂卡多佐

道德声明

伦理批准并同意参与

不适用

发表同意书

不适用

相互竞争的利益

作者宣称他们之间没有利益冲突。

额外的信息

出版商的注意

伟德体育在线施普林格自然对出版的地图和机构从属关系中的管辖权主张保持中立。

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议,允许以任何媒介或格式使用、分享、改编、分发和复制,只要您对原作者和来源给予适当的署名,提供知识共享许可协议的链接,并注明是否有更改。本文中的图像或其他第三方材料包含在文章的创作共用许可协议中,除非在材料的信用额度中另有说明。如果材料未包含在文章的创作共用许可协议中,并且您的预期使用不被法定法规所允许或超出了允许的使用范围,您将需要直接获得版权所有者的许可。如欲查看本牌照的副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用公共领域奉献弃权书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条所提供的资料,除非在资料的信用额度中另有说明。

转载及权限

关于本文

通过CrossMark验证货币和真实性

引用本文

卡多索,J.,卡斯特罗,l.j.,埃卡普特拉,F.J.et al。DCSO:面向机器可操作的数据管理计划的本体。J生物医学语义13, 21(2022)。https://doi.org/10.1186/s13326-022-00274-4

下载引用

  • 收到了

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/s13326-022-00274-4

关键字

  • 数据管理计划
  • 机器可操作的数据管理计划
  • 本体
  • 语义web技术
Baidu
map