首页 > 国家标准(GB) > GB/T 38673-2020 信息技术 大数据 大数据系统基本要求
GB/T 38673-2020

基本信息

标准号: GB/T 38673-2020

中文名称:信息技术 大数据 大数据系统基本要求

标准类别:国家标准(GB)

标准状态:现行

出版语种:简体中文

下载格式:.zip .pdf

下载大小:11061021

相关标签: 信息技术 数据 数据系统

标准分类号

关联标准

出版信息

相关单位信息

标准简介

GB/T 38673-2020.Information technology-Big data-Basic requirements for big data systems.
1范围
GB/T 38673规定了大数据系统的功能要求和非功能要求。
GB/T 38673适用于各类大数据系统要求的设计、选型.验收和检测。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 35295-2017 信息技术 大数据 术语
GB/T 35589-2017 信息技术大数据技术参考模型
3术语和定义
GB/T 35295-2017 界定的以及下列术语和定义适用于本文件。为了便于使用,以下重复列出了GB/T 35295-2017 中的某些术语和定义。
3.1
大数据系统 big data system
实现大数据参考体系结构的全部或部分功能的系统。
[GB/T 35295-2017,定义 2.1.14]
3.2
分布式计算 distributed computing
一种覆盖存储层和处理层的、用于实现多类型程序设计算法模型的计算模式。
注:分布式计算结果通常加载到分析环境。MapReduce 是数据分布式计算中默认的处理构件。
[GB/T 35295-2017 ,定义2.1.22]
3.3
集群 cluster
一组相互独立的、通过高速网络互联的计算机或服务器。
3.4
租户 tenant
对一组物理和虚拟资源进行共享访问的一个或多个云服务用户。
4缩略语
下列缩略语适用于本文件。
API:应用程序接口(Application Programming Interface)
CPU:中央处理器(Central Processing Unit)
DAG :有向无环图(Directed Acyclic Graph)
OLAP:联机分析处理(On-Line Analytical Processing)
REST:表述性状态转移(Representational State Transfer)
SQL :结构化查询语言(Structured Query Language)

标准图片预览






标准内容

ICS35.240www.bzxz.net
中华人民共和国国家标准
GB/T38673—2020
信息技术
大数据
大数据系统基本要求
Information technology-Big data-Basic requirements for big data systems2020-04-28发布
国家市场监督管理总局
国家标准化管理委员会
2020-11-01实施
规范性引用文件
术语和定义
缩略语
大数据系统框架
功能要求
数据收集模块
数据预处理模块
数据存储模块
数据处理模块
数据分析模块
数据可视化模块
数据访问模块
资源管理模块
系统管理模块
非功能要求
可靠性要求
兼容性要求
安全性要求
可扩展性要求
维护性要求
易用性要求
GB/T38673—2020
本标准按照GB/T1.1一2009给出的规则起草。GB/T38673—2020
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。本标准起草单位:中国电子技术标准化研究院、华为技术有限公司、北京大学、中国人民大学、中兴通讯股份有限公司、浪潮电子信息产业股份有限公司、阿里云计算有限公司、天津南大通用数据技术有限公司、北京百分点信息科技有限公司、复旦大学、南京大学、东南大学、北京和仲宁信息技术有限公司、北京启迪区块链科技发展有限公司。本标准主要起草人:梅宏、孙文龙、杜小勇、吴东亚、董建、张群、尹卓、许洁、李冰、李瑛、高琨、朱松、赵江、张展新、梁佳男、赵俊峰、符海芳、卫凤林、孙嘉阳、赵菁华、陈晋川、刘海军、孙伟、姜育刚、周志华、张敏灵。
1范围
信息技术大数据
大数据系统基本要求
本标准规定了大数据系统的功能要求和非功能要求。本标准适用于各类大数据系统要求的设计、选型、验收和检测。2规范性引用文件
GB/T38673—2020
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T35295—2017信息技术大数据术语GB/T35589—2017
信息技术大数据技术参考模型
3术语和定义
GB/T35295一2017界定的以及下列术语和定义适用于本文件。为了便于使用,以下重复列出了GB/T35295—2017中的某些术语和定义。3.1
大数据系统bigdatasystem
实现大数据参考体系结构的全部或部分功能的系统。[GB/T35295—2017,定义2.1.14]3.2
分布式计算distributedcomputing一种覆盖存储层和处理层的、用于实现多类型程序设计算法模型的计算模式。注:分布式计算结果通常加载到分析环境。MapReduce是数据分布式计算中默认的处理构件。[GB/T35295—2017,定义2.1.22]3.3
集群cluster
一组相互独立的、通过高速网络互联的计算机或服务器。3.4
租户tenant
对一组物理和虚拟资源进行共享访问的一个或多个云服务用户。4缩略语
下列缩略语适用于本文件。
GB/T38673—2020
API:应用程序接口(ApplicationProgrammingInterface)CPU:中央处理器(CentralProcessingUnit)DAG:有向无环图(DirectedAcyclicGraph)OLAP:联机分析处理(On-LineAnalyticalProcessing)REST:表述性状态转移(RepresentationalStateTransfer)SQL:结构化查询语言(StructuredQueryLanguage)5大数据系统框架
GB/T35589一2017定义了大数据参考架构,如图1所示。大数据参考模型是一个通用的大数据系统概念模型,它表示了通用的、与技术无关的大数据系统的逻辑功能构件及构件之间的互操作接口,作为开发各种具体类型大数据应用系统架构的通用技术参考框架。信息价值链
系统协调者
大数据应用提供者
预处理
大数据框架提供者
处理框架:提供计算和分析
批处理
息交互通
通信框
平台:提供数据组织与分布
索引存储
可视化
流处理
文件系统
基础设施:提供网络、计算、存储虚拟资源
物理资源
图1大数据参考架构
本标准参考大数据参考架构逻辑功能构件划分,将大数据系统划分为数据收集、数据预处理、数据存储、数据处理、数据分析、数据访问、数据可视化、资源管理、系统管理9个模块。大数据系统框架如图2所示。
数据提供者
6功能要求
数据收集模块
数据收集模块要求如下:
系统管理模块
数据访间模块
数据分析模块
数据处理模块
数据存储模块
数据可视化模块
图2大数据系统框架
资频管理模快
GB/T38673—2020
数据消费者
应提供数据导人功能,支持结构化数据、非结构化数据和半结构化数据导人;应支持离线数据导人和实时数据导人;应支持全量数据导人和增量数据导人;应提供自动定时导人数据功能;宜提供开放的数据导人API;
宜提供图形界面实现数据导人功能。6.2
数据预处理模块
数据预处理模块要求如下:
a)应提供数据抽取功能,支持对结构化数据、非结构化数据和半结构化数据进行抽取;b)
应提供数据清洗功能,支持对不一致数据、无效数据、缺失数据和重复数据的处理;应提供结构化数据的列转换、行转换和表转换功能;应提供数据加载功能,支持将经过清洗和转换的数据加载到数据分析模块;d)
宜提供清洗前后的数据比对功能;e)
宜支持非结构化数据的数据转换功能。6.3数据存储模块
数据存储模块要求如下:
a)应提供数据存储功能,支持结构化数据、非结构化数据和半结构化数据存储。应提供与关系型数据库、其他文件系统之间交换数据或文件的功能。b
c)支持分布式文件存储,实现以下功能:3
GB/T38673—2020
1)应支持文件系统基本操作,包括上传、下载、读写、复制、移动、删除、重命名、权限修改等;2)应提供数据块多副本存储、恢复功能;宜支持文件快速检索功能,支持数据资源的统一检索、编目、增加和删除操作;3)
4)宜支持数据压缩存储功能,
d)支持分布式列式数据存储,实现以下功能:1)应支持以键值形式存储数据的功能;2)宜支持基于表、列族和列的用户权限管理功能,权限管理操作包括读、写、创建等。e)支持分布式结构化数据存储,实现以下功能:宜支持结构化数据的分布式存储,保证数据存储的可扩展性和一致性;1
2)宜提供API实现数据的各类查询操作;3)宜支持多表关联。
f)支持分布式图数据存储,实现以下功能:1)宜支持由节点及边组成的数据模型;2)宜支持图查询,支持单节点、多节点多层关系的扩线查询;3)
宜支持图遍历,支持最短路径、最优路径遍历查询;4)宜支持图分析。
6.4数据处理模块
数据处理模块要求如下:
a)支持批处理框架,实现以下功能:1)应支持结构化数据、非结构化数据和半结构化数据的离线分析;2)应支持多节点离线任务联动执行;3)应支持分散-聚集的处理方式;4)宜支持多种开发语言接口。
b)支持流处理框架,实现以下功能:1)应提供实时计算功能,并将计算结果输出到消息队列或持久化;应支持采用滑动窗口方式的实时分析任务,时间窗口大小可调;2)
3)应提供容错机制,出现故障时,可对故障进行处理;宜提供用户级别的访问控制功能,支持对消息处理任务进行创建、浏览、中止、恢复等操4)
作,并记录操作日志。
c)宜支持图计算框架,实现以下功能:1)内置图数据查询类API,支持同步或异步计算模型缩写送代算法;2)在线图分析和查询功能;
3)基于属性图模型的图数据表达,包含节点/边上的标签和属性类型定义;4)内置常用图指标计算功能,用以描述图的拓扑结构特征。d)宜支持内存计算,实现以下功能:1)通过分布式内存计算和DAG执行引擎提供数据处理能力;2)支持多种数据类型,包括结构化数据、非结构化数据、半结构化数据的数据处理。e)宜支持批流融合计算框架,实现以下功能:1)批流融合统一查询SQL语言;2)多场景下的流式SQL,如位置信息分析等;3)常用时间窗口,包括跳跃窗口、滑动窗口等。f)宜支持按照任务间的依赖关系自动调度任务。4
g)宜支持以有向无环图形式描述作业内多任务的依赖关系。h)宜提供对复杂任务的调度能力。6.5数据分析模块
数据分析模块要求如下:
a)支持数据查询,实现以下功能:1)应提供通过标准的数据库连接接口进行查询的功能;应提供通过RESTAPI查询接口进行查询的功能;2)
应提供建立数据索引的功能,达到查询加速的效果;3)
应支持精确查询和模糊查询功能。4)
支持机器学习,实现以下功能:b)
应提供数据集管理功能,可将数据划分为训练集、验证集和测试集;1)
应提供机器学习模型导人和导出功能;2)
应提供常用机器学习算法;
宜支持集成第三方机器学习算法。支持统计分析,实现以下功能:c)
应提供基本数值统计,如最大值、最小值、求和、总数等统计量;1)
应提供数据集中趋势统计,如平均数、中位数、众数等统计量;2)
宜提供数据离散程度统计,如极差、方差、标准差等统计量;3)
宜提供随机变量关系的统计,如协方差、相关系统等统计量。4)
d)支持离线数据分析,实现以下功能:应支持结构化查询语言;
应支持分布式计算或并行计算等计算框架;3)
宜支持对海量工作任务的切分和分布式调度。支持流数据分析,实现以下功能:e)
应提供按时间切片进行批量处理的功能;应支持基于事件触发或者采样的流式处理;2)
宜支持实时流上的数据统计;
宜支持流式数据的排序;
宜支持与静态表之间的关联;
宜支持多个数据流的关联处理。f)
宜支持交互式联机分析,实现以下功能:1)
通过结构化查询语言对数据进行分布式的联机分析,如OLAP等;2)
通过结构化查询语言对数据进行即席查询;利用可视化中间件对数据分析结果进行显示;3)
在交互式分析过程中定义计算公式和参数配置;4)
在交互式分析过程中自动保存和回退;5)
在交互式分析过程中对分析结果的保存和发布;6)
基于在线联机分析的交互式数据分析。7)
宜支持可视化的流程编排操作,实现以下功能:g)
通过拖拽方式进行流程编排和修订;1)
支持工作流调度触发机制,可配置触发时间或触发事件;2)
支持流程编排结果的持久化保存。3)
GB/T38673—2020
GB/T38673—2020
6.6数据可视化模块
可视化模块要求如下:
a)应支持使用常规图表展示数据,如表格、柱状图、饼图、折线图、热力图等;b)宜支持第三方数据可视化工具的API。6.7数据访问模块
数据访问模块应支持相应的访问接口,以便于第三方应用程序使用大数据系统的数据。3资源管理模块
资源管理模块要求如下:
应提供CPU、内存等资源的调度和配置功能;a
应提供对全局资源的集中管理功能;b)
应支持静态资源分配策略和动态资源分配策略;c)
应支持资源的弹性与抢占,即有空闲资源时,租户可使用超过其配置上限的资源,系统繁忙时,d)
若租户使用的资源未达到其原始配置,则可抢占其他租户使用资源的超出部分;e
宜提供设置任务优先级的功能,并按任务优先级对资源进行调度:f)
宜支持多层次的队列资源管理,队列资源实现隔离,即不为队列分配超过其资源上限的资源;宜提供根据作业需求动态分配计算资源,自动管理回收资源功能。g)
6.9系统管理模块
系统管理模块要求如下:
应提供配置管理功能,包括对大数据集群软硬件资源的配置管理,支持配置管理的分角色、分组管理及自动化;
应提供租户管理功能,包括租户的角色、权限、资源等功能;c)
应提供监控告警管理功能,包括多维度、可视化的大数据系统的监控、告警等;d)
应提供服务管理功能,包括对大数据系统组件服务的管理;e)
宜提供健康检查管理功能,支持以图形界面方式实现集群健康检查。7非功能要求
可靠性要求
7.1.1高可用
高可用要求如下:
应提供系统自动故障探测及管理功能;a)
应确保系统组件不存在单点故障风险;b)
集群任意节点发生故障时,不应出现服务中断、数据丢失或数据不一致的情况;c)
集群任意单元发生故障时,系统操作应不受影响;d)
应保证系统长期无故障不间断运行。e)
7.1.2数据余存储与分布
数据完余存储与分布要求如下:6
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。