GB/T 39400-2020
基本信息
标准号:
GB/T 39400-2020
中文名称:工业数据质量 通用技术规范
标准类别:国家标准(GB)
标准状态:现行
出版语种:简体中文
下载格式:.zip .pdf
下载大小:967577
相关标签:
工业
数据
质量
通用
技术规范
标准分类号
关联标准
出版信息
相关单位信息
标准简介
GB/T 39400-2020.Industrial data quality-General technical specification.
1范围
GB/T 39400规定了工业数据质量持续改进的模型,以及工业数据质量的描述、识别、评价、控制和报告的要求。
GB/T 39400适用于工业数据采集、传输、维护和使用过程中的质量管理。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 19001-2016质量管理体系 要求
3术语和定义
下列术语和定义适用于本文件。
3.1
数据质量 data quality
数据的一组固有特性满足要求的程度。
注:固有特性一般指永久性的特性。
3.2
数据质量管理 data quality management
指导和控制某机构数据质量的协调活动。
3.3
质量评价过程 quality evaluation procedure
用于应用和报告质量评价方法及结果的操作。
3.4
质量测量 quality measurement
对质量定量元素、子元素的评估。
3.5
质量结果 quality result
数据质量测量得到的一个值或一组值,或将这些值同规定的-致性质量等级相比得到的评价结果。
3.6
质量范围 quality scope
报告质量信息的数据的覆盖范围或特征。
3.7
数据集 data set
可以标识的数据集合。
[GB/T 33674-2017,定义3.1]
3.8
完全检查 complete inspection
质量范围内所有个体都进行的检查。
3.9
抽样检查 sampling inspection
从质量范围内的整体中抽取若千个体进行的检查。
3.10
主数据 master data
组织未来执行事务需要使用的,用于描述实体的独立的、基本的数据。
注1:主数据通常包括描述客户、产品、雇员、材料、供应商、服务、股东、设施、设备以及规章制度的记录。
注2:主数据的选择和确定,取决于组织的视角。
注3:此处“实体”为一般含义,而非数据建模中使用的含义。
标准内容
ICS25.040.40
中华人民共和国国家标准
GB/T39400—2020
工业数据质量
通用技术规范
Industrial data qualityGeneral technical specification2020-11-19发布
国家市场监督管理总局
国家标准化管理委员会
2021-06-01实施
规范性引用文件
术语和定义
工业数据质量持续改进
质量特性
持续改进模型
工业数据质量描述
描述要素
定量元素
非定量元素
工业数据质量识别
6.1定量的数据质量信息
6.2非定量的数据质量信息
7工业数据质量评价
评价方法
7.2评价流程和步骤
8工业数据质量控制
控制规则
控制方法
9报告数据质量信息
数据质量报告
参考文献
rKaeerKAca-
GB/T39400—2020
本标准按照GB/T1.1-2009给出的规则起草GB/T39400—2020
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任本标准由中国机械工业联合会提出。本标准由全国自动化系统与集成标准化技术委员会(SAC/TC159)归口:本标准起草单位:中国标准化研究院、浙江大学、中机生产力促进中心、深圳鹏锐信息技术股份有限公司、深圳市华傲数据技术有限公司、北京三维天地科技股份有限公司。本标准主要起草人:杨青海、王志强、顾复、洪岩、潘康华、刘守华、顾新建、岳高峰、肖承翔、张伟群、贾西贝、曹朝晖、徐凯程、尹书蕊用
rrKaeerkAca-
GB/T39400—2020
随着信息化与工业化的深度融合,信息技术渗透到了工业企业产业链的各个环节,工业企业建立了很多计算机信息系统,积累了大量工业数据,工业数据已成为工业企业的重要资源。同时,数据质量贯穿于工业数据生命周期的产生、收集、存储、维护、传输、加工和利用等各个阶段,海量的工业数据存在数据残缺、数据不规范以及数据错误等数据质量问题本标准通过对工业数据质量持续改进的模型、质量的描述、识别、评价、控制和报告等的标准化,支撑工业数据的协同建设、互联互通、共享利用,提高工业数据的质量、可用性和利用效率。本标准的实施有助于实现工业数据的规范化管理和质量保证。IN
nKaeerKAca-
1范围
工业数据质量
通用技术规范
GB/T39400—2020
本标准规定了工业数据质量持续改进的模型,以及工业数据质量的描述、识别、评价、控制和报告的要求。
本标准适用于工业数据采集、传输、维护和使用过程中的质量管理。n
规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T19001—2016质量管理体系要求3
术语和定义
下列术语和定义适用于本文件。3.1
数据质量
dataquality
数据的一组固有特性满足要求的程度。注:固有特性一般指永久性的特性。3.2
数据质量管理
data quality management
指导和控制某机构数据质量的协调活动。3.3
quality evaluation procedure质量评价过程
用于应用和报告质量评价方法及结果的操作。3.4
qualitymeasurement
质量测量
对质量定量元素、子元素的评估。3.5
qualityresult
质量结果
数据质量测量得到的一个值或一组值,或将这些值同规定的一致性质量等级相比得到的评价结果。3.6
质量范围
qualityscope
报告质量信息的数据的覆盖范围或特征。3.7
dataset
数据集
可以标识的数据集合。
[GB/T33674—2017,定义3.1]
rKaeerKAca-
GB/T39400—2020
完全检查
completeinspection
质量范围内所有个体都进行的检查。3.9
samplinginspection
抽样检查
从质量范围内的整体中抽取若干个体进行的检查3.10
主数据
master data
组织未来执行事务需要使用的,用于描述实体的独立的、基本的数据注1:主数据通常包括描述客户、产品、雇员、材料、供应商、服务、股东、设施、设备以及规章制度的记录注2:主数据的选择和确定,取决于组织的视角注3:此处“实体”为一般含义,而非数据建模中使用的含义。3.11
事务数据
transactiondata
表征业务活动或活动方案实现的数据3.12
产品数据
productdata
适合于人或计算机进行通信、解释或处理的,以形式化方法表达的有关产品的信息。4:工业数据质量持续改进
质量特性
工业数据主要包括主数据、事务数据和产品数据。工业数据质量特性包括完整性、一致性、准确性以及其他附加特性。2持续改进模型
工业数据质量管理应用戴明环(PDCA循环)持续改进方法,PDCA循环符合GB/T19001一2016的规定,工业数据质量持续改进模型见图1·包括策划、实施、检查和处置4个阶段,其中:策划(Plan):明确质量目标和用户需求,规划数据质量描述要素,开展数据质量描述;实施(Do):识别数据质量要素,新建数据质量要素,开展数据质量识别;检查(Check):选择评价方法,确定评价流程和步骤,开展数据质量评价:处置(Act):确定控制规则,选择控制方法,开展数据质量控制。2
rKaeerKAca-
数据质生猫述
划效治消述要素
效据质甲控制
阐定学制圳则
洗¥神方法
数据质量识别
以教是一京
新连效要款
数据质量评价
选择评价方法
瑞计许程出战
图1工业数据质量持续改进模型
5工业数据质量描述
5.1描述要素
GB/T39400—2020
源自数据集、用户需求的工业数据质量信息所反映的数据质量应满足用户的特定需求。质量目标表明数据质量应符合任务的特定目的。通过识别数据集、用户需求、质量目标中的质量元素来描述质量信息。质量描述可用于数据集系列、数据集或数据集内具有相同特征的部分数据一个数据集的质量用以下两个要素来描述:数据质量定量元素;
数据质量非定量元素。
每个数据质量定量元素可细分为多个数据质量定量子元素。每个数据质量定量子元素用多个数据质量定量子元素描述项描述。通过数据质量定量元素,数据质量定量子元素及数据质量定量子元素描述项,描述数据集满足数据规范中预先设定标准的程度,并提供定量的质量信息。数据质量非定量元素提供非定量的质量信息,可用于评价数据集在非预期的特定应用中的质量。质量信息的可信性,记录在“数据质量报告”中。数据质量描述框架见图2。
-rKaeerKAca-
GB/T39400—2020
5.2定量元素
5.2.1构成
摧透法
是一质女作总
而4效乐质量定量心素
而4效素质互完三广素
数情就量定量了元索择速项
效下径上
激染质测当
教据质学过
鼓质大红
数范质二尚激型
效违质大位三业
教活质上测三一期
质与信点均段
十沃信
可用表心减型定素
非庆信
损三法价技吧
图2数据质量描述框架
数据质量定量元素用来描述数据集的定量质量信息,用来表达符合数据规范的程度。包括但不限于以下元素:
完整性:特征、特征属性及特征关系存在或不存在:致性:数据结构(包括概念结构、逻辑结构、物理结构)、属性及其关系符合逻辑规则的程度:准确性:包括正确性、精确性和时序性:附加数据质量定量元素:用户可根据需求设置,以便描述无法用以上定量元素描述的定量的数据质量信息。
5.2.2子元素
数据质量定量子元素与数据质量定量元素相对应,用来描述数据集的定量质量信息。包括但不限于以下子元素:
a)完整性的子元素:
多余:数据集中有多余数据;
缺少:数据集中缺少应有数据;交叉:数据集中存在交叉重复数据。b)一致性的子元素:
概念一致性:符合概念模式规则;值域一致性:值在值域范围内;格式一致性:数据存储与数据集物理结构的一致性。c)准确性的子元素
正确性:数据反映和描述客观事物及其变化的准确程度;4
rKaeerKAca-
一精确性:数值符合其实际值或规定值的程度;时序性:表达有序活动或序列活动相关数据时间顺序的正确性对任意数据质量定量元素,可新建附加数据质量定量子元素。5.2.3子元素描述项
GB/T39400—2020
对每个可用的数据质量定量子元素,应记录其质量信息。每个数据质量定量子元素的完全质量信息,用下列7个数据质量描述项来描述:数据质量范围;
数据质量测量;
数据质量评价过程;
数据质量结果;
数据质量值类型;
数据质量值单位;
数据质量测量日期。
5.3非定量元素
数据质量非定量元素用来描述数据集的非定量的质量信息。包括但不限于以下元素:目的:描述数据集的创建原因和其预定的使用目的。用途:描述使用过该数据集的应用。数据生产者或其他数据使用者用“用途”来描述数据集的使用情况,
数据志:描述数据集的历史,即数据集的整个生命周期信息。数据志包含两部分:描述数据集起源的源信息:描述数据集生命周期中的处理步骤和过程信息。数据溯源描述参见GB/T349452017
附加数据质量非定量元素:描述以上数据质量非定量元素没有描述的非定量的质量信息。工业数据质量识别
6.1定量的数据质量信息
6.1.1识别可用的数据质量定量元素对可用于数据集的所有数据质量定量元素加以识别,判断这些元素是否适用于某一特定类型的数据集。
注:数据质量定量元素可用性由数据规范来决定。6.1.2新建附加数据质量定量元素若本标准所列的数据质量定量元素未能充分描述数据质量的某一方面,则应命名并定义新的数据质量定量元素。附加数据质量定量元素的命名和定义,应作为数据集质量信息的一部分。6.1.3识别可用的数据质量定量子元素对可用数据质量定量元素的所有数据质量定量子元素加以识别,判断这些元素的数据质量定量子元素是否适用于某一特定类型的数据集。每个可用数据质量定量元素至少包含一个可用数据质量定量子元素。
注:数据质量定量子元素可用性由数据规范来决定5
-iKacerKAca-
GB/T39400—2020
6.1.4新建附加数据质量定量子元素若本标准所列的数据质量定量子元素未能充分描述数据质量的某一方面,则应命名并定义新的数据质量定量子元素。附加数据质量定量子元素的命名和定义,应作为数据集质量信息的一部分。6.1.5数据质量定量子元素描述项使用6.1.5.1数据质量范围
对每个可用数据质量定量子元素,应识别至少一个数据质量范围。数据质量范围可以是数据集系列、数据集或数据集内具有相同特征的部分数据。若数据质量范围无法识别,则默认为该数据集注:数据质量范围的确定参照数据规范及数据质量非定量元素提供的非定量质量信息。6.1.5.2数据质量测量
每个数据质量范围有一个数据质量测量。数据质量测量应简要描述测量类型和测量边界。数据集的质量应由多个测量来衡量。
注:单一测量不能充分评价数据质量,也不能为数据集的所有应用提供单一测量6.1.5.3数据质量评价过程
每个数据质量测量有一个数据质量评价过程。数据质量评价过程应描述数据质量范围内的数据质量测量方法,并包含该方法报告。6.1.5.4数据质量结果
每个数据质量测量有一个数据质量结果。数据质量结果应为以下两者之一:将数据质量测量应用到数据质量范围所限定的数据后得到的值或值的集合。将所得到的值或值的集合,用可接受的指定一致性质量等级,评价这些值或值的集合得到的结果。该数据质量结果为“通过”或“不通过”。这两种类型的数据质量结果都应被提供6.1.5.5数据质量值类型
每个数据质量结果有一个数据质量值类型。注:“通过”或“不通过\的数据质量值类型为“布尔型”。6.1.5.6数据质量值单位
每个数据质量结果有一个数据质量值单位(若存在)。6.1.5.7数据质量测量日期
每个数据质量测量应有一个数据质量测量日期。6.2非定量的数据质量信息
6.2.1识别可用的数据质量非定量元素数据集目的应明确,用途应清晰,数据志应完整。数据集的数据志应是可用的,或者报告数据志,或者报告缺少数据志的原因。数据质量范围所限定的数据集内,当一部分数据的数据志与其他部分的数据志不同时,应提供其数6
iKaeeiKca
据志,作为非定量的数据质量信息完整记录的一部分。6.2.2新建附加数据质量非定量元素GB/T39400—2020
若本标准所列数据质量非定量元素未能充分描述非定量数据质量的某一方面,则应命名并定义新的数据质量非定量元素。附加数据质量非定量元素的命名和定义,应作为数据集质量信息的一部分7工业数据质量评价
7.1评价方法
7.1.1数据质量评价方法分类
数据质量评价方法分为:
直接评价方法:通过比较数据与内外部参考信息来确定数据质量;间接评价方法:使用与数据相关的外部知识推断或估计数据质量。7.1.2直接评价方法
直接评价方法可分为:
完全检查方法:测试数据质量范围内的所有数据项;抽样检查方法:测试数据质量范围内的部分数据项,抽样方法、抽样率及抽样过程应在数据质量报告中报告。
注:使用抽样检查方法时,特别是在使用小样本或非随机抽样时,分析数据质量结果的可信度。7.1.3间接评价方法
间接评价方法所依据的外部知识包括但不限于:数据质量非定量元素、数据集的其他质量报告。注:仅当直接评价方法不可用时,才用间接评价方法。7.2评价流程和步骤
数据质量评价过程是产生和报告数据质量结果的一系列步骤。评价与报告数据质量结果的过程流见图3,评价步骤见表1。
rrKaeerkAca-
GB/T39400—2020
民定心压的
认别!激长质一一心求
识教其质三,、并素
润微长三游
第一步
到激质二测
第三步
注控兰运训整据后世评价方
定教据质中结果
报吉数粘质中结果
定量结来!
数规池
致山效性压兰等级
明定致
技激粘质中结果
(、不油性)
图3评价与报告数据质量结果的过程流表1
评价步骤
识别可用数据质量定量元素,数据质量定量子元素及数据质量范围
识别数据质量测量
选择并运用数据质量评价方法
确定数据质量结果Www.bzxZ.net
确定一致性
工业数据质量控制
控制规则
数据质量描述测试套件
根据5.2识别数据质量定量元素、数据质量定量子元素及数据质量范围。若数据规范或用户需求有测试需要,则重复该步对每个测试,识别数据质量测量、数据质量值类型及数据质量值单位(若存在)
对每个被识别的数据质量测量,选择数据质量评价方法结果为:定量数据质量结果、数据质量值或数据质量值集合、数据质量值单位及数据质量测量日期
若数据规范或用户需求中已指定一致性质量等级,将其与数据质量结果相比可确定一致性。一致性数据质量结果(“通过”或“不通过”)是定量数据质量结果与一致性质量等级比较后的结果“数据质量描述测试套件”用来测试数据集质量描述的正确性。数据集质量描述应通过该测试套件的所有测试。
测试一:要素测试
rrKaeerKAca
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。