GB/T 38667-2020
基本信息
标准号:
GB/T 38667-2020
中文名称:信息技术 大数据 数据分类指南
标准类别:国家标准(GB)
标准状态:现行
出版语种:简体中文
下载格式:.zip .pdf
下载大小:18901957
相关标签:
信息技术
数据
分类
指南
标准分类号
关联标准
出版信息
相关单位信息
标准简介
GB/T 38667-2020.Information technology-Big data-Guide for data classification.
1范围
GB/T 38667提供了大数据分类过程及其分类视角、分类维度和分类方法等方面的建议和指导。
GB/T 38667适用于指导大数据分类。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 4754-2017国民经济行业分类
GB/T 35295-2017 信息技术大数据术语
3术语和定义
GB/T 35295-2017 界定的以及下列术语和定义适用于本文件。为了便于使用,以下重复列出了GB/T 35295-2017 中的某些术语和定义。
3.1
大数据 big data
具有体量巨大、来源多样、生成极快、且多变等特征,并且难以用传统数据体系结构有效处理的包含大量数据集的数据。
注:国际上,大数据的4个特征普遍不加修饰地直接用volume、variety、velocity和variability予以表述,并分别赋予了它们在大数据语境下的定义:
a) 体量volume:构 成大数据的数据集的规模.
b) 多样性variety:数据可能来自多个数据仓库.数据领域或多种数据类型。
c) 速度velocity:单 位时间的数据流量.
d )多变性variability:大数据其他 特征,即体量、速度和多样性等特征都处于多变状态。
[GB/T 35295-2017,定义 2.1.1]
3.2
数据集 data set
数据记录汇聚的数据形式。
注:它可以具有大数据的体量、速度、多样性和易变性特征。数据集的特征表征的是数据本身或静态数据,而数据的特征,当其在网络上传输时或暂时驻留于计算机存储器中以备读出或更新时,表征的是动态数据。
[GB/T 35295-2017,定义2.1.46]
3.3
大数据分类 big data classification
根据大数据的属性或特征,将其按--定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序的过程。
标准内容
ICS35.240.70
中华人民共和国国家标准
GB/T38667—2020
信息技术
大数据
数据分类指南
Information technologyBigdataGuidefordataclassification2020-04-28发布
国家市场监督管理总局
国家标准化管理委员会
2020-11-01实施
GB/T38667—2020
2规范性引用文件
术语和定义
缩略语
5分类过程
分类规划
5.3分类准备
5.4分类实施
5.5结果评估
5.6维护改进
6分类视角
6.2技术选型视角
6.3业务应用视角
6.4安全隐私保护视角
7分类维度
7.1概述
7.2技术选型维度
7.3业务应用维度
7.4安全隐私保护维度…
8分类方法
8.1线分类法…
8.2面分类法
8.3混合分类法
附录A(资料性附录)大数据分类示例目
本标准按照GB/T1.1一2009给出的规则起草。GB/T38667—2020
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。本标准起草单位:中国科学院信息工程研究所(信息安全国家重点实验室)、国家信息中心、浪潮软件集团有限公司、智慧神州(北京)科技有限公司、方正国际软件(北京)有限公司、国网安徽省电力有限公司(电力科学研究院)、中国铁道科学研究院集团有限公司、中国电子技术标准化研究院、上海三零卫士信息安全有限公司、联通大数据有限公司、中国保险信息技术管理有限责任公司、九次方大数据信息集团有限公司、中电长城网际系统应用有限公司、广东电网有限责任公司信息中心、中电科大数据研究院有限公司、北京大学、山东省计算中心(国家超级计算济南中心)。本标准主要起草人:陈驰、马红霞、马书南、田雪、高亚楠、黄先芝、单震、张慧敏、张煜、顾广宇、吴艳华、郑金子、尹卓、叶林、干露、关泰璐、李燕超、郎佩佩、闵京华、魏理豪、禄凯、张吉才、冯念慈、赵俊峰、史丛丛、孙嘉阳。
1范围
信息技术大数据数据分类指南
GB/T38667—2020
本标准提供了大数据分类过程及其分类视角、分类维度和分类方法等方面的建议和指导。本标准适用于指导大数据分类。2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T4754—2017国民经济行业分类GB/T35295—2017信息技术大数据术语3术语和定义
GB/T35295一2017界定的以及下列术语和定义适用于本文件。为了便于使用,以下重复列出了GB/T352952017中的某些术语和定义。3.1
大数据
bigdata
具有体量巨大、来源多样、生成极快、且多变等特征,并且难以用传统数据体系结构有效处理的包含大量数据集的数据。
注:国际上,大数据的4个特征普遍不加修饰地直接用volume、variety、velocity和variability予以表述,并分别赋予了它们在大数据语境下的定义:a)体量volume:构成大数据的数据集的规模。b)多样性variety数据可能来自多个数据仓库、数据领域或多种数据类型。c)速度velocity:单位时间的数据流量。d)多变性variability:大数据其他特征,即体量、速度和多样性等特征都处于多变状态。[GB/T35295—2017,定义2.1.1]3.2
数据集dataset
数据记录汇聚的数据形式。
注:它可以具有大数据的体量、速度、多样性和易变性特征。数据集的特征表征的是数据本身或静态数据,而数据的特征,当其在网络上传输时或暂时驻留于计算机存储器中以备读出或更新时,表征的是动态数据。[GB/T35295—2017,定义2.1.46]]3.3
bigdataclassification
大数据分类
根据大数据的属性或特征,将其按一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序的过程。
GB/T38667—2020
classificationsubject
分类主体
大数据收集、存储、使用、分发、删除等过程中对大数据进行梳理归类的组织或个人。3.5bzxz.net
分类视角classificationangle
分类主体观察和开展大数据分类活动的角度。3.6
分类维度
classification dimension
用于实现分类的数据所具有的某个或某些共同特征。注:常见数据分类维度包括产生来源、结构化特征、业务归属、处理时效性要求等。3.7
分类方法
classificationmethod
根据选定的分类维度,将数据类别以某种形式进行排列组织的逻辑方法。3.8
tdatadistribute
数据分发
将原始数据、处理数据、分析结果等形式的数据传递给内部或外部实体的过程。注:数据分发包括线上或线下等多种方式,如数据交换、数据交易、数据共享、数据公开等。3.9
category
具有共同属性(或特征)的数据的集合。4
缩略语
下列缩略语适用本文件。
ETL:提取、转换和加载(Extract-Transform-Load)FTP:文件传输协议(FileTransferProtocol)SQL:结构化查询语言(StructuredQueryLanguage)5分类过程
5.1概述
大数据分类过程划分为分类规划、分类准备、分类实施、结果评估、维护改进5个阶段,如图1所示。2
分类规划
选择分类视角
制定工作计划
分类准备
调研数据现状
确定分类对象
选择分类维度
选择分类方法
分类实施
拟定实施流程
开发工具脚本
记录实施过程
输出分类结果
图1大数据分类过程
结果评估
核查实施过程
访谈相关人员
测试分类结果
GB/T38667—2020
维护改进
变更控制
定期评估
本章规范了大数据的分类过程,并根据大数据实际应用场景,在第6章、第7章、第8章分别对分类视角、分类维度、分类方法3个关键步骤进行规范,具体分类示例参见附录A。5.2分类规划
5.2.1选择分类视角
选择分类视角过程包括:
a)明确分类业务场景;
b)根据业务场景选取分类视角。注:分类视角见第6章。
2制定工作计划
制定工作计划过程包括:
明确规划拟开展分类的数据范围;a
明确拟采用的分类维度和方法;b)
明确预期分类结果;
明确分类工作实施方案及进度安排;d)
明确对分类结果的评估方法;
明确对分类结果体系的维护方案。分类准备
调研数据现状
调研数据现状过程包括:
调研数据产生情况,包括但不限于数据产生的场景、主体、方式、频率、稀疏稠密、合法合规a)
性等;
调研数据存储现状,包括但不限于数据内容的格式、存储方式、存储位置、存储量等;b)
调研数据质量情况,包括但不限于数据的规范性、完整性、准确性、一致性、时效性、可访问性等;
d)调研数据业务类型,如组织人事管理数据、经营数据、财务数据等;3
GB/T38667—2020
调研数据敏感程度,包括但不限于数据的涉密程度、安全性、保护需求等;e)
调研数据应用情况,包括但不限于数据的使用目的、应用领域、使用方式等;调研数据时效性情况,包括但不限于数据处理的时效性要求、数据价值时效性等;g)
调研数据权属情况,包括但不限于数据的所有权、管理权、使用权等。h)
5.3.2确定分类对象
确定分类对象过程包括:
确定数据分类的业务场景;
确定数据产生的起止时间;
确定数据量大小;
确定数据产生频率;
确定数据结构化特征;
确定数据存储方式;
确定数据处理时效性;
确定数据交换方式;
确定数据产生来源;
确定数据流通类型;
确定数据质量;
确定数据敏感程度。
选择分类维度
选择分类维度过程包括:
a)梳理分类视角的数据特征;
b)根据数据特征选取分类维度。注:分类维度见第7章。
5.3.4选择分类方法
选择分类方法过程宜明确分类维度的排列顺序和组合方式。注1:分类方法见第8章。
注2:若选择混合分类法,还需考虑以哪种分类维度为主,哪种分类维度作为补充5.4分类实施
5.4.1拟定实施流程
拟定实施流程宜结合大数据的生命周期,拟定具体的分类实施流程,包括但不限于明确实施步骤、启动实施工作、开展实施工作、总结实施过程等。5.4.2开发工具脚本
开发工具/脚本宜根据实施流程、分类维度和分类方法编写分类算法,遵循软件开发或者脚本编制的规范开发分类工具/脚本。
5.4.3记录实施过程
记录实施过程宜记录分类实施过程的各个步骤及其分类结果,输出文档。4
5.4.4输出分类结果
输出分类结果宜梳理各个步骤的分类结果,形成数据分类表。5.5结果评估
5.5.1核查实施过程
核查实施过程包括:
核查数据分类表,明确类别划分是否合理;核查分类过程记录,明确分类结果与预期目标的偏离程度;b)
核查分类维度,确保分类维度符合业务需求、分类目标;d)
核查分类方法的合理性;
根据核查结果调整大数据分类过程。e
访谈相关人员
访谈相关人员包括:
GB/T38667—2020
访谈数据分类执行者,询问分类视角、范围、维度、方法与业务场景的关联性等;a)
访谈数据所有者,询问数据分类结果中的数据权属类别划分、产生频率类别划分等是否符合实b)
际情况;
访谈数据管理者,询问数据分类结果中的数据结构化类别划分、数据存储方式类别划分、稀疏c)
程度划分、敏感程度划分等是否符合实际情况;访谈数据使用者,询问数据分类结果中的数据处理实时性划分、交换方式类别划分、业务归属d)
类别划分、流通类型类别划分等是否符合实际应用情况;e)
核查意见和问题,调整大数据分类过程。5.5.3测试分类结果
测试分类结果包括:
a)对分类后的数据执行分类脚本或程序,查看是否有不符合分类策略的分类结果;b)核查意见和问题,调整大数据分类过程。5.6维护改进
5.6.1变更控制
变更控制包括:
分析变更的必要性和合理性,确定是否实施变更;a)
b)制定变更计划,评估变更对大数据分类工作的影响,包括分类维度、分类方法的改变等;执行变更,对分类结果进行更改,记录变更过程;c
d)对新的大数据分类结果进行评估;发布新的大数据分类结果。
定期评估
定期评估包括:
a)定期评估大数据分类维度和方法的合理性,检查其是否符合业务场景变化和分类视角变化:5
GB/T38667—2020
b)定期评估大数据分类结果的有效性和应用情况,检查其是否满足业务应用需求的更新;c)核查意见和问题,调整大数据分类过程。6分类视角
6.1概述
大数据分类视角分为技术选型视角、业务应用视角和安全隐私保护视角。2技术选型视角
技术选型视角包括但不限于:
a)理清数据产生频率,明确数据产生规律,确定数据更新周期和存储策略,确定数据存储平台配型等存储资源分配方案;
b)理清数据产生方式,分析数据的来源和质量,确定在整个数据处理流程中数据所处的位置,及数据处理及存储技术;
分析数据的结构化特征,确定数据存储与处理方案;c)
明确数据的存储方式,确定数据建模模型与数据的访问方式,支撑各类数据应用场景;d)
理清数据稀疏稠密程度,明确数据稀疏稠密规律,确定数据存储策略和分析方法,选择数据存e)
储方案和分析方案;
明确数据处理时效性要求,明确数据处理时机,确定数据处理策略,选择包括计算平台和资源f)
匹配等的数据处理方案;
g)理清数据交换方式,确定数据共享方式及策略,支撑构建信息交换体系。3业务应用视角
业务应用视角包括但不限于:
理清数据产生来源,明确数据权属和访问权限,便于数据道踪溯源;明确数据应用场景,确定数据业务主题,判断数据应用价值,选择数据分析方案;b)
明确数据分发场景,确定数据应用行业,明确可用数据的种类和范围;c)
d)理清数据质量情况,明确数据应用需求,确定数据质量管理方案。6.4安全隐私保护视角
安全隐私保护视角包括但不限于:明确不同敏感程度的大数据在存储、传输、访问、分发时的安全要求;a)
b)明确不同敏感程度的大数据的隐私保护要求;c)指导分类主体制定隐私保护方案;d)指导分类主体制定安全管理方案。7分类维度
7.1概述
本章从技术选型、业务应用和安全隐私保护三种视角给出不同的分类维度,以及用于描述每种分类维度的分类要素、数据类别和适用场景。6
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。