首页 > 国家标准(GB) > GB/T 38371.2-2020 数字内容对象存储、复用与交换规范第2部分:对象封装、存储与交换
GB/T 38371.2-2020

基本信息

标准号: GB/T 38371.2-2020

中文名称:数字内容对象存储、复用与交换规范第2部分:对象封装、存储与交换

标准类别:国家标准(GB)

标准状态:现行

出版语种:简体中文

下载格式:.zip .pdf

相关标签: 数字 内容 对象 存储 复用 交换 规范 封装

标准分类号

关联标准

出版信息

相关单位信息

标准简介

GB/T 38371.2-2020.Specification of digital content object storage,reuse and exchange-Part 2: Object encoding, storage and exchange.
1范围
GB/T 38371的本部分规定了数字内容对象的封装、存储与交换方式并给出了对象交换服务接口。
GB/T 38371.2适用于新闻出版业、图书馆和博物馆等领域有关数字内容资源的数字化统一管理和共享。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 7408-2005 数据元和交换格式 信息交换日 期和时间表示法(ISO 8601 :2000,IDT)
GB/T 38371.1-2020数字内容对 象存储、复用与交换规范第1部分:对象模型
GB/T 38371.3-2020数字内容对象存储 、复用与交换规范第3 部分:对象一致性检查方法
3术语和定义
下列术语和定义适用于本文件。
3.1
数据文件 data file
包含资源数字信息的文件。
3.2
信息包 information package
通过打包信息进行封装和识别的一种逻辑容器。
注:信息包包括内容信息和保存描述信息。
3.3
交换信息包
exchange information package; EIP
在不同系统之间,用于数据交换的信息包。
3.4
存档信息包 archive information package; AIP
为资源存档和长期保存而规定的逻辑存储格式。
3.5
DCOO RDF实例文件 DCOO based RDF instance file
基于数字内容对象本体模型的符合RDF表示规范的实例数据存储文件。
4缩略语
下列缩略语适用于本文件。
AIP :存档信息包(Archive Information Package)
DCOO:数字内容对象本体(Digital Content Object Ontology)
EIP:交换信息包( Exchange Information Package)
MIME:多用途互联网邮件扩展( Multipurpose Internet Mail Extensions)

标准图片预览






标准内容

ICS35.240.30
中华人民共和国国家标准
GB/T38371.2—2020
数字内容对象存储、复用与交换规范第2部分:对象封装、存储与交换Specification of digital content object storage, reuse and exchange-Part 2: Object encoding, storage and exchange2020-03-31发布
国家市场监督管理总局
国家标准化管理委员会
2020-10-01实施
GB/T38371.2—2020
规范性引用文件
术语和定义
缩略语
数字内容对象封装
对象封装方式
交换信息包文件结构
证实方法
6数字内容对象存储
信息包存储
实例文件存储
数据文件存储
证实方法
7数字内容对象交换
交换方式
资源标识符获取接口
指定资源IRI获取接口
元数据获取接口
数据文件URL获取接口
数据流获取接口
交换信息包获取接口
交换信息包上传接口
资源检索接口
参考文献
GB/T38371《数字内容对象存储、复用与交换规范》分为3个部分:第1部分:对象模型;
一第2部分:对象封装、存储与交换;一第3部分:对象一致性检查方法本部分为GB/T38371的第2部分
本部分按照GB/T1.1—2009给出的规则起草。本部分由国家新闻出版署提出。本部分由全国新闻出版信息标准化技术委员会(SAC/TC553)归口。GB/T38371.2—2020
本部分起草单位:北京大学、中宣部机关服务中心(中宣部信息中心)、北京拓标卓越信息技术研究院、中国科技出版传媒股份有限公司。本部分主要起草人:王文清、陈鹏飞、刘成勇、刘勇、张沫、周长岭、关涛、梁、姜磊、陆新民、郭昱锦张志。
HiiKaeeiKAca
GB/T38371.2—2020
在数字内容资源的管理和应用等过程中,涉及的相关资源种类包括图书、论文、报告、数据集、应用程序等;资源媒体类型包括文本、音频、视频、图像、虚拟现实或增强现实资源等;可复用的资源类型包括各种构件类资源,如章节、图表、公式等资源片段或构件用于资源组织类的资源包括受控术语表、主题词表、分类法等;其他相关资源类型还包括代理者、元数据、权利等。对于数字内容资源,需要建立一个统一的对象模型,以系统地表示和记录资源的结构、特征以及对象资源之间的各种关系,并能够按不同的粒度进行封装、存储和交换。GB/T38371参考了国内外相关标准,结合新闻出版业、图书馆和博物馆等涉及数字内容资源的相关领域针对数字内容资源管理与服务的需求,从对象模型、对象封装、存储和交换以及对象一致性检查等多个方面给出一套统一的标准,以实现相关领域对数字内容资源的规范化表示,消除数据复用和交换障碍,降低资源管理和利用成本,推动数字内容资源的融合和深人利用。HiiKaeerKAca
1范围
数字内容对象存储、复用与交换规范第2部分:对象封装、存储与交换GB/T38371.2—2020
GB/T38371的本部分规定了数字内容对象的封装、存储与交换方式并给出了对象交换服务接口。
本部分适用于新闻出版业、图书馆和博物馆等领域有关数字内容资源的数字化统一管理和共享。规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件GB/T7408一2005数据元和交换格式信息交换日期和时间表示法(ISO8601:2000IDTGB/T38371.1一2020数字内容对象存储、复用与交换规范第1部分:对象模型iiKaeeik
GB/T38371.3一2020数字内容对象存储、复用与交换规范第3部分:对象一致性检查方法3术语和定义
下列术语和定义适用于本文件。3.1
数据文件
datafile
包含资源数字信息的文件。
信息包
information package
通过打包信息进行封装和识别的一种逻辑容器。注:信息包包括内容信息和保存描述信息3.3
exchangeinformationpackage;EIp交换信息包
在不同系统之间,用于数据交换的信息包。3.4
存档信息包
archive information package; AIP为资源存档和长期保存而规定的逻辑存储格式3.5
DCOORDF实例文件
DCOObasedRDF instancefile
基于数字内容对象本体模型的符合RDF表示规范的实例数据存储文件。4缩略语
下列缩略语适用于本文件。
GB/T38371.2—2020
AIP:存档信息包(ArchiveInformationPackage)DCOO:数字内容对象本体(DigitalContentObjectOntology)EIP:交换信息包(ExchangeInformationPackage)MIME:多用途互联网邮件扩展(MultipurposeInternetMailExtensions)OAIS:开放档案信息系统(OpenArchivalInformationSystem)RDF:资源描述框架(ResourceDescriptionFramework)SRU:基于URL的搜索/检索(Search/RetrieveviaURL)SRW:搜索/检索Web服务(Search/RetrieveWebService)URL:统一资源定位符(UniformResourceLocator)5数字内容对象封装
对象封装方式
5.1.1容器级封装
容器级封装用以封装数字内容对象及其相关的所有对象信息5.1.2对象级封装
媒体对象信息。
对象级封装用以封装数字内容对象及其所包含的单一5.2
交换信息包文件结构
交换信息包类型
根据交换信息包所封装的资源粒度,可分为容器级交换信息包与对象级交换信息包。5.2.2容器级交换信息包结构
5.2.2.1容器级交换信息包封装了二个完整的容器级封装所包含的所有信息,其结构如下:Container_Local_ID.zip/
mimetype
META-INF/
container.xml
dcoomanifest.xml
CONTAINER/
dcoo_rdf_instance.xml(实例文件)dataFile/
audio/
音频数据文件
video/
视频数据文件
image/
图像数据文件
other/
其他类型数据文件
“Container_Local_ID”为容器级封装的本地标识符;交换信息包以“Container_Local_ID.zip”命名,采用ZIP压缩格式对信息包进行压缩。GB/T38371.2—2020
5.2.2.3每个交换信息包均含有一个名为mimetype的文件,其中内容为固定值“application/dcoo+zip”,用于说明交换信息包文件的格式;mimetype文件不含新行或回车,自身不作压缩。5.2.2.4\META-INF”文件目录用于存放容器级封装相关的信息,其中包含container.xml和dcoomanifest.xml两个文件:
a)container.xml:其文件内容如下面的XML片段所示:rootfiles
/rootfiles

full-path:当前容器级封装的DCOORDF实例文件的相对路径;media-type:该交换信息包文件的打开方式;package-type:表示包类型,容器级交换信息包类型为“dcoo-container十xml”b)dcoomanifest.xml:该清单文件给出了该容器级封装所包含的媒体对象文件(即数据文件)列表及对象实例关系列表,文件命名为“dcoomanifest.xml”。该文件的顶级元素为\”,其属性包括:
identifier:取值为数字内容对象实例IRI,在该内容清单中是唯一的;version:内容清单的版本号:用来区分具有相同标识符的内容清单“”下包含子元素“dataFileList>”(数据文件列表),示例XML片段如下所示:

id:必备属性:每一个“item”对应一份数据文件,“id”为当前媒体对象的IRI(\&.myNamespace\表示应用单位的命名空间取值);href:必备属性;取值为当前媒体对象对应数据文件的相对路径(相对于CONTAINER文件目录);
-media-type:必备属性;取值为当前数据文件的MIME类型取值“”下包含的另一个子元素“objectld=\&myNamespace;example/mediaObj_1\/>
/objectList
subjectId:必备属性;当前主体对象实例的IRI(\&myNamespace\表示应用单位的命名空间取值);subjectId来自于当前DCOORDF实例文件,即dcoo_rdf_instance.xml;predicate:必备属性;当前“”(关系)所对应的属性类型;obiectId:必备属性:当前客体对象实例的IRI;objectId是“”中某一个“”的subjectId。
5.2.2.5“CONTAINER”文件目录包含两部分:dcoo_rdf_instance.xml:当前容器级封装实例的DCOORDF实例文件;dataFile文件目录:其下的文件子目录包括audio.video、image、other;每个文件子目录下eeiKA
包含对应类型的数据文件。
5.2.3对象级交换信息包结构
5.2.3.1对象级交换信息包用以封装数字内容对象及其所包含的单一媒体对象(及相关数据文件)信息,其结构如下:
Object_Local_ID.zip/
mimetype
META-INF/
container.xml
dcoomanifest.xml
CONTAINER/
dcoo_rdf_instance.xml(实例文件)dataFile/
[media_type_label]
某一媒体类型数据文件
“Object_Local_ID”为数字内容对象的本地标识符;交换信息包以“Object_Local_ID.zip”命5.2.3.2
名,采用ZIP压缩格式对信息包进行压缩。5.2.3.3“mimetype\文件的内容及要求与容器级交换信息包中同名文件一致。5.2.3.4“META-INF”文件目录用于存放当前数字内容对象相关信息,其中包含container.xml和dcoomanifest.xml两个文件:
a)container.xml:其文件内容如下面的XML片段所示:4
<?xml version=\1.o\encoding=\utf-8\?>GB/T38371.2—2020

rootfiles

/container
full-path及media-type属性含义及内容与容器级交换信息包中对应属性一致;package-type:表示包类型;对象级交换信息包类型为\dcoo-object十xml\;class:在以上示例中·class属性表示当前对象实例的类型为DCOO所定义的某二对象类型。
b)dcoomanifest.xml:该清单文件的内容格式与容器级交换信息包中同名文件要求一致。5.2.3.5“CONTAINER”文件目录包含两部分:dcoo_rdf_instance.xml:当前对象实例的DCOORDF实例文件;-dataFile文件目录:其下的文件子目录名“[media_type_label]”可为\audio”“video”image\或“other\中的一种;该文件子目录下包含对应类型的数据文件。5.3证实方法
数字内容对象封装的证实方法见GBT38371.3—2020的6.2。6数字内容对象存储
6.1信息包存储
信息包的存储包括数内容对象(及其相关资源)的实例文件及数据文件的存储。实现这两类文件的逻辑存储结构即为数字内容对象存档信息包结构。6.2实例文件存储
6.2.1文件系统存储
完整的DCOORDF实例文件可单独存储于文件系统中。如果文件中涉及媒体对象相关数据文件的具体存储位置时,该存储位置可以是当前DCOORDF实例文件存储位置的相对路径,也可以是其他路径。
示例:当前DCOORDF实例文件存储为\/Base_Path/dcoo_rdf_instance.xml\(\Base_Path\为存储DCOORDF实例文件的基础存储路径)。该实例文件中涉及的媒体对象相关数据文件可存储于同一路径下,其RDF/XML示例片段如下所示:
GB/T38371.2—2020
rdf:typerdf:resource=\http://dcoo_authority_domain/standards/dcoo#E14_MediaObject\/>dcoo:p45_contentUrl>dataFile/other/mediaObj_1.pdf
注1:“&.myNamespace;”表示某应用单位的命名空间取值。注2:“dataFile\是位于“Base_Path”下的文件子目录。6.2.2关系数据库存储
6.2.2.1关系数据库以二维表结构对实例数据进行组织和存储。6.2.2.2
将DCOORDF实例文件存储于关系数据库中时,每个实例作为独立的文本单元,存储于数据库表中。表结构见表1所示。
RDF实例存储表
字段名
Description
当前实例的本地标识符
当前实例的IRI
某一完整的rdf:Description节点XML片段内容
字符串型
字符夷型
长文本型
唯一键
注:IRI字段内容的示例形如:\&.myNamespace;example/book_1\(其中\&myNamespace:\表示应用单位的命名空间取值);Deseription元素内容的RDFXML示例片段如下:图书的名称之/dcoo:p30_name>
实例关系表用于存储DCOORDF实例文件中各个实例之间的关系。表结构见表2。表2
字段名
subjectId
predicate
objectld
当前关系的标识符
当前主体实例对象的IRI
当前属性的IRI
当前客体实例对象的IRI
实例关系表
数值型或字符串型
字符串型
字符串型
字符串型
取值形如:
&.myNamespace;example/book_1取值形如:
&dcoo;p5_associatedMedia
取值形如:
&myNamespace:example/mediaObj_1注1:该表的存储内容与交换信息包中dcoomanifest.xml的节点下的内容一致(见5.2.2.4)。注2:该表采用\&.dcoo;\简化表示DcOO命名空间取值\http://dcoo_authority_domain/standards/dcoo#”6
6.2.3图数据库存储
GB/T38371.2—2020
6.2.3.1DCOO对象模型具有图特性,当数字内容对象及其相关资源的实例文件数据规模较大时,利用结构化数据模型的传统管理方式难以满足低数据穴余与高查询性能的要求。以图方式管理RDF实例数据不仅可避免RDF逻辑数据模型与物理模型之间的转换,而且可利用成熟的图算法优化RDF数据查询。
6.2.3.2图数据库基于有向图,其理论基础是图论。DCOORDF实例文件中的主体(及客体)实例对象视为节点,主体与客体之间的关系(即属性)视为边,可将数字内容对象及其相关资源的RDF实例数据存储到图数据库中。
6.2.3.3常见的图数据库存储系统包括:Neo4j、OrientDB、HyperGraphDB、InfiniteGraph、InfoGrid等。6.3
数据文件存储
与DCOORDF实例文件相关的数据文件存储于dataFile文件目录中,按照不同的媒体类型归类,存储结构见表3。
数据文件根目录
[dataFile]
数据文件逻辑存储结构
媒体类型文件目录
Laudio]
EvideoWww.bzxZ.net
Cimage]
Eother]
分组文件目录
汇分组文件目录]
[分组文件目录]
[分组文件目录]
【分组文件目录】
数据文件根目录
音频数据文件根目录
视频数据文件根目录
图像数据文件根目录
其他类型数据文件根目录
注1:数据文件或直接存于“媒体类型文件目录”下,或分为多组后存于“分组文件目录”下。注2:当某一类型数据文件数量较多时,在对应媒体类型文件目录下,可采用自定义“分组文件目录”的方式进行组织,本部分对“分组文件目录”的名称、数量和层级等未做要求6.4证实方法
数字内容对象存储的证实方法见GB/T38371.3—2020的8.1和8.2。数字内容对象交换
交换方式
7.1.1为了支持数字内容对象的交换与复用,数字内容对象应用系统之间可通过FTP/SFTP、接口等方式进行数字内容对象的交换
7.1.2对于FTP/SFTP方式.应用系统之间可直接传送“交换信息包”文件7.1.3对于接口交换方式,资源存储系统可提供以下8个方面的接口,以供第三方(外部系统)从该系GB/T38371.2—2020
统中获取数字内容对象信息(包括元数据、数据文件等)。a)
资源标识符获取接口(listIdentifiers):获取符合查询条件的资源标识符列表;指定资源IRI获取接口(listIris):获取符合查询条件的资源容器级封装包含的所有相关资源b)
的IRI列表:
元数据获取接口(getMetadata):获取指定IRI的资源的元数据,支持多种元数据格式(如c)
MARC、DC等格式);
数据文件URL获取接口(listContentURL):获取指定资源所关联的数据文件的URL列表:数据流获取接口(getDataStream):获取数据文件对应的数字内容的字节流;交换信息包获取接口(getEIP):获取指定资源IRI的交换信息包;交换信息包上传接口(uploadEIP):将交换信息包上传至资源存储系统;资源检索接口(resRetrieve):在资源存储系统中检索资源信息。资源标识符获取接口
资源标识符获取接口定义
资源标识符获取接口(listIdentifiers)定义见表4。表4资源标识符获取接口定义
listldentifiers
根据参数的不同组合,返回符合查询条件的资源标识符的列表http://hostname:port/listIdentifiers?type=IDType&.from=startTime&until=endTime&resumptionToken=token
注1:hostname为资源存储系统所在服务的主机名·port为当前接口的服务端口,注2:在实际应用中,参数值应进行URL编码;本部分中,为了方便阅读,后续示例中未做参数值的转换type:必备,资源标识符类型,取值可为isbn、issn、iri.doi、isli等注:通过对DCOO中的\标识符”属性进行扩展,可支持多种类型的数字内容对象标识符.例如isbn、issn、iri、doi、isli等
from;可选,资源最近更新时间的下限时间值;该参数为空表示不限定该下限时间值注:时间值格式形如\YYYY-MM-DD\或“YYYY-MM-DDThh:mm:ssZ”,符合GB/T74O8UTC格式until:可选,资源最近更新时间的上限时间值;该参数为空表示不限定该上限时间值注:时间值格式形如\YYYY-MM-DD\或\YYYY-MM-DDThh:mm:ssZ\,符合GB/T7408UTC格式resumptionToken:当查询条件所命中的标识符较多需要分页(多次请求)传输时采用resumptionToken作为续传标记;resumptionToken与type、from和until互斥,作为独立参数拼接在请求URL中,形如:http://hostname:port/listldentifiers?resumptionToken=token注:resumptionToken的具体实现方式本部分不做规定当请求参数正确、必备参数齐备,并且资源标识符类型可识别时,响应符合查询条件的资源标识符列表(分页响应时,同时返回请求下一页时所需的resumptionToken值):当请求包含错误参数或缺失必备参数时.响应错误代码及描述信息为:badArgument(请求包含错误参数或缺失必备参数):
当请求参数中的资源标识符类型无法识别或不存在时,响应错误代码及描述信息为:typeDoesNotExist(类型无法识别或不存在)
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。