GB/Z 43768-2024
基本信息
标准号:
GB/Z 43768-2024
中文名称:信息与文献 网络存档的统计和质量问题
标准类别:国家标准(GB)
英文名称:Information and documentation—Statistics and quality issues for web archiving
标准状态:现行
发布日期:2024-03-15
实施日期:2024-10-01
出版语种:简体中文
下载格式:.pdf .zip
下载大小:16043734
相关标签:
信息
文献
网络
存档
统计
质量
标准分类号
标准ICS号:综合、术语学、标准化、文献>>信息学、出版>>01.140.20信息学
中标分类号:综合>>经济、文化>>A14图书馆、档案、文献与情报工作
关联标准
采标情况:ISO/TR 14873:2013,IDT
出版信息
出版社:中国标准出版社
页数:56页
标准价格:86.0
相关单位信息
起草人:吴振新、张冬荣、潘亚男、敦文杰、朱佳丽、曲云鹏、孙超、谢靖、付鸿鹄、单嵩岩、薛杰、吴欣雨、孔贝贝、胡吉颖、陈子俊、张静
起草单位:中国科学院文献情报中心、国家图书馆、中国科学院档案馆、北京大学图书馆
归口单位:全国信息与文献标准化技术委员会(SAC/TC 4)
提出单位:全国信息与文献标准化技术委员会(SAC/TC 4)
发布部门:国家市场监督管理总局 国家标准化管理委员会
标准简介
本文件为网络存档定义了统计数据、术语和质量标准。本文件考虑了图书馆、档案馆、博物馆、研究中心和文化遗产基金会等众多机构组织的需求和实践。
本文件面向直接参与网络存档的专家,通常是由网络存档机构的领导决策人员、工程师和保存管理人员组成的团队。对网络存档机构的资助机构和利益相关方也同样有用。本文件使用的专业术语试图能够表达受众所拥有的广泛兴趣和专业知识,并在计算机科学、管理和图书馆学之间达到平衡。
本文件不适用于学术和商业电子资源的管理,如电子期刊、电子报纸或电子书,这些资源通常使用不同的管理系统单独存储和处理。它们虽然被视为互联网资源,但在本文件中不作为网络存档的特定内容流进行阐述。一些组织还采集通过网络分发的电子文档,如通过出版商的电子存储库和仓储系统,这些内容也不在本文件的阐述范围。这类采集使用的原理和技术与网络存档有很大不同,因此本文件的统计数据和质量指标不一定适用。
本文件专注于网络存档的原理和方法,不包括其他采集互联网资源的方式。事实上,一些互联网资源,尤其是那些不在网络上传播的资源(如以电子邮件形式传播的通信),不是通过网络存档技术采集的,而是通过其他方式采集的,而这些方式也不属于本文件的适用范围。
标准内容
ICS 01.140.20
CCSA14
中华人民共和国国家标准化指导性技术文件GB/Z43768—2024/ISO/TR14873:2013信息与文献
网络存档的统计和质量问题
Information and documentation-Statistics and quality issues forweb archiving
(ISO/TR14873:2013IDT)
2024-03-15发布
国家市场监督管理总局
国家标准化管理委员会
2024-10-01实施
规范性引用文件
术语和定义
网络存档的方法和目的
采集方法
访问和描述方法
保存方法
网络存档的法律基础
网络存档的其他原因
统计数据:
资源集合建设
资源集合表征
资源集合使用
网络存档保存
网络存档成本
质量指标
用途和获益
预期用途和读者
对用户群体的好处
按用户群体使用提出的统计数据7.5网络存档流程及相关性能指标参考文献
按用户群体使用的统计数据
网络存档流程及对应的性能指标目
GB/Z43768—2024/ISO/TR14873:201313
GB/Z43768—2024/ISO/TR14873:2013表1HTTP状态码列表
表2资源集合建设的核心统计数据表3资源集合表征的核心统计数据表4评估存档使用情况的基本统计数据表5存档使用情况的高级表征汇总统计数据表6资源集合使用情况的核心统计数据表7
与元数据保存相关的统计数据
表8资源集合保存的核心统计数据表9资源集合成本的核心统计数据表10
预期用途和读者
图1中使用的术语:
本文件按照GB/T1.1—2020《标准化工作导则起草。
GB/Z43768—2024/IS0/TR14873:2013第1部分:标准化文件的结构和起草规则》的规定本文件等同采用ISO/TR14873:2013《信息与文献网络存档的统计和质量问题》,文件类型由IEC的技术报告调整为我国的国家标准化指导性技术文件。本文件增加了“规范性引用文件”一章。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件做了下列最小限度的编辑性改动:为了增强易读性,在保留国际标准中示例的基础上,将部分示例替换为国内示例;针对我国没有明确网络信息存档的法定呈缴机构的现状,修改第1章相关表述。本文件由全国信息与文献标准化技术委员会(SAC/TC4)提出并归口。本文件起草单位:中国科学院文献情报中心、国家图书馆、中国科学院档案馆、北京大学图书馆本文件主要起草人:吴振新、张冬荣、潘亚男、敦文杰、朱佳丽、曲云鹏、孙超、谢靖、付鸿、单嵩岩、薛杰、吴欣雨、孔贝贝、胡吉颖、陈子俊、张静,Ⅲ
GB/Z43768—2024/ISO/TR14873:2013引言
本文件是为了指导我国网络存档以及网络存档产品的管理和评估而制定。网络存档指随着时间推移,对互联网资源的快照进行选择、抓取、存储(Storing)、保存(Preserving)和访问管理的活动。20世纪90年代末,人们预见到互联网资源存档将成为未来研究、商业和政府的重要记录,开始实施网络存档。互联网资源被视为文化遗产的一部分,能像印本那样得到保存。许多参与网络存档的机构将此视为保护国家文化遗产这一长期使命的延伸,且受到许多国家法律法规如法定缴存制度的认可和支持。
互联网上提供多种类型的资源,包括文本、图片、电影、音频及其他多媒体格式的资源。除了相互链接的网络页面外,还有通过使用各种传输与通信协议提供的新闻组、时事通讯、博客和交互式服务(如游戏)。网络存档通过采集软件对互联网资源副本进行自动采集(通常是定期执行)。网络存档的目标是实现资源的回放,包括内在关联,例如通过超文本链接,尽可能呈现出与原始环境中一样的效果。网络存档的主要目标是尽可能地按原始状态永久保存网络记录,以满足各种学术、专业和私人用途。网络存档是一项新兴但不断扩展的活动,需要持续引入新方法和工具以与快速发展的网络技术保持同步。由于存档机构对战略重要性的认识、可采用方式以及法律要求的不同,导致出现了多种互联网资源的存档方法,存档范围涉及单个网络页面抓取到全部顶级域抓取。不同组织的网络存档成熟度等级也不同,对于某些组织来说,网络存档已成为其常规业务活动,而有些组织则针对这项挑战刚刚启动试验计划。
根据采集的规模和目的,网络存档策略分为两大类:批量采集和选择性采集。规模的批量采集,如国家域采集,旨在抓取整个域(或其子集)的快照。选择性采集的规模则小得多,采集更集中且更频繁,经常是依据某项规则执行,例如,主题、事件、格式(如音频或视频文件)或与内容所有者之间的协议。这两种策略的关键区别在于质量控制程度,即对所采集网站进行评估以确定是否达到预定义的质量标准。域采集的规模(如此之大)使得无法通过人工对所采集的资源和该资源的实时版本进行任何人工比对,而该方式在选择性采集中则是一种常用的质量保证方法。本文件旨在证明网络存档作为广义文化遗产资源集合的一部分,基于传统的图书馆工作流,用类似的和兼容的方式进行评估和管理。本文件阐述了资源集合建设、表征、描述、保存、使用和组织结构,同时表明,尽管在实践中需要做出调整,但传统资源集合管理工作流的大多数方面原则上仍然适用于网络存档。
本文件概述了网络存档的现状,重点给出了网络存档统计数据和质量指标的定义和使用。一些统计数据的产生依赖于所使用的采集、索引或浏览软件,选择不同的软件可能会导致结果的差异。本文件并不给出特定或推荐的软件,而是提供一组指标来帮助评估网络存档的总体性能和质量。IV
1范围
GB/Z43768—2024/ISO/TR14873:2013信息与文献
代网络存档的统计和质量问题
本文件为网络存档定义了统计数据、术语和质量标准。本文件考虑了图书馆、档案馆、博物馆、研究中心和文化遗产基金会等众多机构组织的需求和实践。本文件面向直接参与网络存档的专家,通常是由网络存档机构的领导决策人员、工程师和保存管理人员组成的团队。对网络存档机构的资助机构和利益相关方也同样有用。本文件使用的专业术语试图能够表达受众所拥有的广泛兴趣和专业知识,并在计算机科学、管理和图书馆学之间达到平衡。本文件不适用于学术和商业电子资源的管理,如电子期刊、电子报纸或电子书,这些资源通常使用不同的管理系统单独存储和处理。它们虽然被视为互联网资源,但在本文件中不作为网络存档的特定内容流进行阐述。一些组织还采集通过网络分发的电子文档,如通过出版商的电子存储库和仓储系统,这些内容也不在本文件的阐述范围。这类采集使用的原理和技术与网络存档有很大不同,因此本文件的统计数据和质量指标不一定适用。本文件专注于网络存档的原理和方法,不包括其他采集互联网资源的方式。事实上,一些互联网资源,尤其是那些不在网络上传播的资源(如以电子邮件形式传播的通信),不是通过网络存档技术采集的,而是通过其他方式采集的,而这些方式也不属于本文件的适用范围。规范性引用文件
本文件没有规范性引用文件。
3术语和定义
下列术语和定义适用于本文件。3.1
Jaccess
图书馆提供的在线服务的成功请求(3.36)。注1:一次访问是用户活动的一个周期,通常从用户连接到图书馆提供的在线服务时开始,并以显式(通过注销或退出离开数据库)或隐式(由于用户不活动而导致超时)的终止活动结束注2:对图书馆网站(3.52)的访问被视为虚拟访问。注3:不包括通用人口或网关页面(3.33)的请求(3.36)。注4:尽可能地不包括搜索引擎发起的请求(3.36)。[来源:ISO2789:2022,3.2.1]
访问工具
accesstool
用于查找、检索和回放存档互联网资源的专业软件。注:该工具通过组合运行多个独立软件包实现。3.3
居administrativemetadata
管理元数据
妥善管理存储库中数字对象所必需的信息。1
GB/Z43768—2024/IS0/TR14873:2013注:管理元数据分为以下几类:上下文或溯源元数据:描述资源截止到某一时间点的生命周期,包括相关的实体和过程,如配置和日志文件(3.28);
技术元数据:描述数字对象的技术特征,例如其格式;—一权限元数据:定义对象的所有权和合法使用权限,3.4
archive
网络存档
Webarchive
随着时间的推移,从网络(3.53)上抓取到的全部资源,包括一个或多个集合。3.5
比特流
bitstream
构成数字文件的由0和1组成的序列。3.6
预设参数
budget
抓取crawl
与一次抓取(3.10)或单个种子(3.43)相关参数的限制,可用如文件数量、数据体量或爬虫(3.12)设置中定义的每次抓取(3.10)所花费的时间来表示。3.7
批量抓取
bulkcrawlwww.bzxz.net
bulkharvest
批量采集
在采集单个或多个顶级域(3.48)或子集的全部内容的抓取行为。注1:与选择性抓取(3.45)相比,批量抓取的范围更广,通常执行的频率更低。注2:批量抓取通常会产生大规模的网络存档(3.4),导致无法进行细致的质量检验,通常通过抽样的方式进行质量检验。
抓取实例
capture
instance
在某个时间点抓取的资源的副本。注:如果同一资源在不同日期被抓取了三次,则有三个抓取实例。3.9
资源集合
collection
网络存档资源集合
Webarchivecollection
组紧密关联的资源。
注1:一个资源集合能在采集前专门选定(例如按照事件或主题),也能从存档(3.4)的可用资源中回溯汇集。注2:网络存档(3.4)由一个或多个资源集合组成。3.10
harvest
使用爬虫(3.12)浏览和复制资源的过程。注:抓取分为批量抓取(3.7)或选择性抓取(3.45)。3.11
抓取设置
抓取参数
crawlsettings
crawl parameters
GB/Z43768—2024/IS0/TR14873:2013界定采集哪些资源以及每组种子(3.43)所需的频率和深度。注:抓取(3.10)设置还包括爬虫(3.12)礼仪[每秒或每分钟发送到资源所在主机(3.21)服务器的请求(3.36)数」、遵守robots.txt(3.39)及用于排除爬虫陷(3.13)的过滤器爬虫crawler
采集器harvester
存档爬虫archivingcrawler
蜘蛛程序(已弃用)
一种可连续请求URL并解析结果资源以获取更多URL的软件注:资源的存储和URL的丢弃都需要遵循一套预定义的规则[见抓取设置(3.11)和范围(抓取)(3.40)#crawlertrap
爬虫陷阱
可导致爬虫(3.12)崩溃或无休止跟踪指向其他低价值或无价值资源的网络页面(3.33)(或其系列)。
注:爬虫(3.12)陷阱可能是为了防止爬虫(3.12)采集资源故意设置的,也可能在不经意间发生,例如,当爬虫(3.12)无休止跟踪日历的日期时。
保存管理工具
curatortool
运行在网络(3.53)爬虫(3.12)上层并支持采集过程的应用程序。注:核心功能是管理目标(3.47)对象以及相关的描述性元数据(3.17)和管理元数据(3.3),还包括用于调度和质量控制的组件。
数据挖掘
datamining
通过从不同的角度和维度分析定量数据,对其进行分类以及总结潜在关系和影响来提取模式的计算过程。
[来源:ISO16439:2014,3.13]3.16
deepWeb
深度万维网
隐蔽网(已弃用)
不可见网(已弃用)
不能被搜索引擎抓取和索引的部分网络(3.53),由动态生成的资源或受密码保护的资源组成的网络(3.53)。
descriptivemetadata
描述性元数据
描述数字对象本身的内容、属性、外在特征等知识性内容的信息3.18
domainname
由域名系统(3.19)的规则和程序定义的标识字符串,该标识字符串规定了在互联网上的管理自治、授权或控制领域。
domainnamesystem;DNS
域名系统
用于标识连接到互联网的实体的分层分布式全局命名系统。注:项级域(3.48)是域名系统层次结构中最高的。3
GB/Z43768—2024/ISO/TR14873:20133.20
emulation
利用当前计算机系统上的软件(称为仿真器)再现过时系统的功能和行为。注:仿真是一种主要的数字保存策略。3.21
URI中用来命名内容的网络来源部分。注:主机通常是如www.archive.org的域名(3.18),或如web.archive.org的子域名。3.22
hypertextmarkuplanguage;HTML超文本标记语言
网络页面(3.33)的主要标记语言,由用于向原始文本添加结构和语义信息的元素组成。3.23
超文本传输协议
hypertexttransferprotocol;HTTP用于在网络(3.53)上传输信息的客户端/服务端通信协议。3.24
hyperlink
超链接
链接link
用于在互联网上链接信息的关系结构、3.25
垃圾信息
被视为无关的或无长期价值的未被要求保存的内容。注1:有意的垃圾信息通常用于操纵搜索引擎索引。当爬虫(3.12)掉入爬虫陷阱(3.13)时,也会无意地生成垃圾信息。
注2:一般来说,采集机构会尽量避免采集垃圾信息,以便资源能用于采集“好”资源。然而,有些机构会保留一小部分样本作为网络(3.53)记录的一部分。3.26
链接挖掘
linkmining
侧重于从超链接(3.24)中提取模式和启发式方法的处理和分析,如绘制网络图。3.27
liveWebleakage
实时网络泄露
呈现存档资源时的常见问题,当存档资源中的链接解析为实时站点上的当前资源而不是网络存档(3.4)中的存档版本时,会出现此问题。注:当存档网络页面(3.33)上的脚本继续引用并成功请求存档呈现中的实时网络(3.53)资源时,也会发生实时网络(3.53)泄露。例如,这可能会导致实时网络(3.53)社交媒体源或视频流显示在存档的网络页面(3.33)中。3.28
日志文件
logfile
由维护其活动记录的服务器自动创建的文件。3.29
元数据
metadata
描述数字对象的上下文、内容和结构及其随时间推移的管理信息的数据。注:元数据分为描述性元数据(3.17)、结构性元数据(3.46)和管理元数据(3.3)。[[来源:ISO15489-1:2001,2.12]]4
migration
GB/Z43768—2024/ISO/TR14873:2013为了保持数字对象的可访问性,将旧的或过时的文件格式转换为较新的或当前的文件格式注:迁移是一种主要的数字保存策略,来源:ISO15489-1:2001,3.133.31
型MIMEtype
MIME类型
互联网媒体类型
internet media type
内容类型
contenttype
互联网文件格式的两部分标识符注:MIME(MultipurposeInternetMailExtensions,多用途互联网邮件扩展)使用由类型和子类型组成的内容类型头来指示资源的格式,如IMAGE/JPGE。3.32
备选资源
nomination
被考虑包含在网络存档((3.4)中的候选资源。3.33
网络页面Webpage
结构化资源,除人类可读的内容之外,还包含与其他资源的零个或多个关系,通过URL来标识3.34
permission
授权抓取实时网站(3.52)和/或在网络存档(3.4)上公开显示其内容注:许可通过权利持有者的正式许可证来表示,也通过法定缴存制度获得豁免3.35
注册用户
registereduser
为在图书馆内或图书馆外使用其资源集合(3.9)和/或服务而在图书馆注册的个人或组织。注1:用户注册基于用户请求(3.36),或用户在该机构注册时即自动注册。注2:定期监控注册情况,至少每3年一次,以便将非活跃用户从注册中删除。[来源:ISO2789:2022,3.2.46]3.36
request
由请求系统如浏览器或爬虫(3.12)发送到远程服务器的HTTP格式消息,以获取由URL标识的特定资源。
response
远程服务器对资源的HTTP请求(3.36)的应答,包含请求的资源、到另一个URL的重定向,或指示无法返回请求资源原因的拒绝(错误)响应3.38
响应码
responsecode
状态码status code
向请求服务器说明请求资源状态的三位数字。注:例如,以4(4xx)开头的代码表示请求的资源不可用。5
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。