GB/T 38643-2020
基本信息
标准号:
GB/T 38643-2020
中文名称:信息技术 大数据 分析系统功能测试要求
标准类别:国家标准(GB)
标准状态:现行
出版语种:简体中文
下载格式:.zip .pdf
下载大小:1413230
相关标签:
信息技术
数据
分析
系统
标准分类号
关联标准
出版信息
相关单位信息
标准简介
GB/T 38643-2020.Information technology-Big data-Functional testing requirements for analytic system.
1范围
GB/T 38643规定了大数据分析系统的数据准备模块、分析支撑模块、数据分析模块、流程编排模块的功能测试要求。
GB/T 38643适用于指导大数据分析系统的设计、开发和交付。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 37721-2019信息技术大数据 分析系统功能要求
3术语和定义
GB/T 37721-2019界定的以及下列术语和定义适用于本文件。
3.1
大数据分析系统 big data analysis system
在大数据存储和处理系统提供的原始数据和计算框架的基础上,集成了一系列数据分析生命周期过程中所用工具的系统。
4缩略语
下列缩略语适用于本文件。
API:应用程序接口( Application Programming Interface)
AUC: ROC曲线下方的面积( Area under the ROC Curve)
CPU:中央处理器(Central Processing Unit)
GPU:图形处理器(Graphics Processing Unit)
HDFS:分布式文件系统( Hadoop Distributed File System)
JSON:JS对象标记(JavaScript Object Notation)
OLAP:联机分析处理(On-Line Analytical Processing)
PCA:主成分分析(Principal Components Analysis)
REST:表述性状态转移( Representational State Transfer )
ROC:接受者操作特性( Receiver Operating Characteristic)
SQL:结构化查询语言(Structured Query Language)
SSD:固态硬盘( Solid State Drives)
XML:可扩展置标语言(Extensible Markup Language)
标准内容
ICS35.240
中华人民共和国国家标准
GB/T38643—2020
信息技术
大数据
分析系统功能测试要求
Information technology-Big data-Functional testing requirements foranalyticsystem
2020-04-28发布
国家市场监督管理总局
国家标准化管理委员会
2020-11-01实施
GB/T38643—2020bzxz.net
规范性引用文件
术语和定义
缩略语
数据准备模块功能测试
数据抽取功能测试
数据清洗功能测试
数据转换功能测试
数据加载功能测试
7分析支撑模块功能测试
查询功能测试
机器学习功能测试
统计分析功能测试
可视化功能测试
8数据分析模块功能测试
8.1分析模式测试
8.2分析类型测试
9流程编排模块功能测试
9.1工作流管理测试
9.2告警和日志测试
附录A(资料性附录)
测试示例
本标准按照GB/T1.1—2009给出的规则起草。GB/T38643—2020
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。本标准起草单位:浪潮电子信息产业股份有限公司、中国电子技术标准化研究院、中国人民大学、上海计算机软件技术开发中心、浪潮软件集团有限公司、勤智数码科技股份有限公司、深圳迅策科技有限公司、成都四方伟业软件股份有限公司、陕西省信息化工程研究院、中国铁道科学研究院集团有限公司、平安科技(深圳)有限公司、内蒙古大学、江苏中堃数据技术有限公司、重庆大数据研究院有限公司。本标准主要起草人:赵江、苏志远、卫凤林、张群、杜小勇、陈敏刚、黄先芝、公维锋、陈文捷、蔡立志、王建华、李正、耿大为、赵志强、颜怀柏、顾美营、张勇、朱志祥、马小宁、吴艳华、赵正阳、韩梅、李华、魏清、张海静、王东强。
1范围
信息技术
大数据
分析系统功能测试要求
GB/T38643-—2020
本标准规定了大数据分析系统的数据准备模块、分析支撑模块、数据分析模块、流程编排模块的功能测试要求
本标准适用于指导大数据分析系统的设计、开发和交付。规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T37721—2019
术语和定义
信息技术大数据分析系统功能要求GB/T37721一2019界定的以及下列术语和定义适用于本文件。3.1
大数据分析系统
big data analysis system
在大数据存储和处理系统提供的原始数据和计算框架的基础上,集成了一系列数据分析生命周期过程中所用工具的系统
缩略语
下列缩略语适用于本文件。
API:应用程序接口(ApplicationProgrammingInterface)AUC:ROC曲线下方的面积(AreaundertheROCCurve)CPU:中央处理器(CentralProcessingUnit)GPU:图形处理器(GraphicsProcessingUnit)HDFS:分布式文件系统(HadoopDistributedFileSystem)JSON:JS对象标记(JavaScriptObjectNotation)OLAP:联机分析处理(On-LineAnalyticalProcessing)PCA:主成分分析(PrincipalComponentsAnalysis)REST:表述性状态转移(RepresentationalStateTransfer)ROC:接受者操作特性(ReceiverOperatingCharacteristic)SQL:结构化查询语言(StructuredQueryLanguage)SSD:固态硬盘(SolidStateDrives)XML:可扩展置标语言(ExtensibleMarkupLanguage)GB/T38643—2020
5概述
本标准根据GB/T37721一2019规定的大数据分析系统的功能要求,给出了相应的测试要求。测试示例参见附录A。
6数据准备模块功能测试
6.1数据抽取功能测试
数据抽取功能测试要求如下:
应测试大数据分析系统数据准备模块是否支持按照需求抽取存放在存储系统中的数据a)
应测试大数据分析系统数据准备模块是否对结构化数据、非结构化数据提供不同抽取方法应测试大数据分析系统数据准备模块是否提供全量抽取及增量抽取模式;c
应测试大数据分析系统数据准备模块是否支持主动抽取和被动追加;d
应测试天数据分析系统数据准备模块是否支持定时批量抽取;应测试大数据分析系统数据准备模块是否支持分布式数据抽取,并测试在数据抽取过程是否实f)
现负载均衡。
数据清洗功能测试
数据清洗功能测试要求如下:
应测试大数据分析系统数据准备模块是否支持数据一致性;a)
b)应通过进行无效数据值删除、修正等操作测试大数据分析系统数据准备模块是否支持处理无效值;
c)应通过填充缺失值或删除缺失值对应数据条目等操作测试大数据分析系统数据准备模块是否支持处理缺失值:
d)应通过合并重复数据或者删除重复数据等操作测试大数据分析系统数据准备模块是否支持处理重复数据;
应测试天数据分析系统数据准备模块是否提供清洗前后的数据比对功能:f
应测试大数据分析系统数据准备模块是否支持逻辑矛盾、关联性验证、不合理数据的清洗。数据转换功能测试
数据转换功能测试要求如下:
a)应通过对结构化数据进行列转换操作测试大数据分析系统数据准备模块是否支持结构化数据列转换;
b)应通过对结构化数据进行行转换操作测试大数据分析系统数据准备模块是否支持结构化数据行转换;
应通过对结构化数据进行表转换操作测试大数据分析系统数据准备模块是否支持结构化数据表c
转换;
应测试大数据分析系统数据准备模块是否支持非结构化数据的结构化处理;d)
e)应测试大数据分析系统数据准备模块是否支持对文本、网页类数据的规范化处理,是否支持将文档类数据转化成单一规范形式:f)
应通过进行语音和音频输入,检测输入识别结果准确性,测试大数据分析系统数据准备模块是否支持对语音/音频数据的识别处理;2
GB/T38643-—2020
g)应通过进行图像输入,检测输入识别结果准确性,测试大数据分析系统数据准备模块是否支持提取图像信息。
6.4数据加载功能测试
数据加载功能测试要求如下:
应测试大数据分析系统数据准备模块是否支持把经过清洗和转换之后的数据加载到大数据分析a)
系统;
应按照加载的目标结构将转换过的数据输入到目标结构中去,测试大数据分析系统数据准备模块是否支持全量加载:
c)在目标结构中已经存在数据时,应通过在保存已有数据的基础上增加新的数据,测试大数据分析系统数据准备模块是否支持增量加载:d)应测试大数据分析系统数据准备模块是否支持实时加载或批量加载,7
分析支撑模块功能测试
1查询功能测试
7.1.1查询接口测试
查询接口测试要求如下:
a)应测试大数据分析系统分析支撑模块是否支持通过标准的数据库连接接口进行查询;b)应测试大数据分析系统分析支撑模块是否支持RESTAPI查询接口进行查询。Kaee
2查询优化测试
查询优化测试要求如下:
a)应通过建立数据索引测试大数据分析系统分析支撑模块是否达到查询加速的效果;应测试大数据分析系统分析支撑模块是否支持精确查询和模糊查询;b)
应测试大数据分析系统分析支撑模块是否支持基于规则或者基于成本的查询优化;d)
应测试大数据分析系统分析支撑模块是否支持数据分片和多副本技术:e)
应测试大数据分析系统分析支撑模块是否支持通过SQL进行复杂条件高并发查询;f
应测试大数据分析系统分析支撑模块是否支持二级索引7.2机器学习功能测试
数据集管理功能测试
数据集管理功能测试要求如下:a)应测试大数据分析系统分析支撑模块是否能够将输人数据划分为训练集、验证集和测试集;b)应通过将训练、验证过的模型导入到大数据分析系统中,以及将大数据系统中训练所得的模型导出的操作,测试大数据分析系统分析支撑模块是否提供机器学习模型的导人和导出的功能7.2.2支持算法测试
支持算法测试要求如下:
a)应测试大数据分析系统分析支撑模块是否支持回归与分类算法;b)应测试大数据分析系统分析支撑模块是否支持聚类算法;应测试大数据分析系统分析支撑模块是否支持协同过滤算法:c
GB/T38643—2020
d)应测试大数据分析系统分析支撑模块是否支持降维算法;e)应测试大数据分析系统分析支撑模块是否支持频繁模式挖掘算法;应测试大数据分析系统分析支撑模块是否支持神经网络算法;f
应通过检查是否具有特征提取、特征转换、特征选择、模型选择、交叉验证、模型调优组件测试大g)
数据分析系统分析支撑模块是否提供机器学习流程的其他组件;h)应测试大数据分析系统分析支撑模块是否支持Java、Scala、Python、R等一种或多种语言,并且是否支持二次开发增加新的算子。7.2.3模型评估功能测试
应通过检查机器学习模块中包含交叉验证、模型选择等核心评估组件测试大数据分析系统分析支撑模块是否能够支持算法模型的评估模块。统计分析功能测试
统计分析功能测试要求如下:
a)应通过计算最大值、最小值、求和、总数等统计量测试大数据分析系统分析支撑模块是否支持基本的数值统计;
b)应通过计算平均数、中位数、众数等统计量测试大数据分析系统分析支撑模块是否支持分析数据co
集中趋势的统计;
c)应通过计算极差、方差、标准差等统计量测试大数据分析系统分析支撑模块是否支持分析数据离散程度的统计;
d)应通过计算协方差、相关系数等统计量测试大数据分析系统分析支撑模块是否支持分析多个随Tae
机变量的关系;
e)应通过保存常用的统计分析方案测试大数据分析系统分析支撑模块是否支持统计分析的自定义模板能力。
7.4可视化功能测试
可视化功能测试要求如下:
应通过以Excel、关系型数据库、JSON、XML格式输人测试大数据分析系统分析支撑模块是否支a)
持常见的数据源数据格式作为输入:应测试大数据分析系统分析支撑模块是否支持对高维数据的可视化展示;b)
c)应通过检查是否可以以柱状图、饼图、折线图等方式展示测试大数据分析系统分析支撑模块是否支持可视化分析工具库;
d)应测试大数据分析系统分析支撑模块是否支持算法模型的评估相关的可视化工具,8数据分析模块功能测试
分析模式测试
8.1.1离线数据分析功能测试
离线数据分析功能测试要求如下:a)
应测试大数据分析系统数据分析模块是否支持结构化查询语言:b)
应测试大数据分析系统数据分析模块是否支持对离线数据的分布式分析:c)
应测试大数据分析系统数据分析模块是否具有通过标准接口支持第三方应用的能力:GB/T38643-—2020
d)应测试大数据分析系统数据分析模块是否支持分布式计算或并行计算等计算框架;e)
应测试大数据分析系统数据分析模块是否支持对海量工作任务的切分和分布式调度;f
应测试大数据分析系统数据分析模块是否支持集成第三方的机器学习算法库;g)
应测试大数据分析系统数据分析模块是否支持使用内存或SSD存储作为缓存:h)
应测试大数据分析系统数据分析模块是否支持分布式执行计划层面的优化:i
应测试大数据分析系统数据分析模块是否支持对文本类、音视频类以及图像类数据的分析;应测试大数据分析系统数据分析模块是否支持对关系型数据库和大数据存储系统中的数据源进j
行交叉查询、聚合、关联操作的能力;k)应测试大数据分析系统数据分析模块是否支持使用GPU对特定算法加速分析8.1.2流数据分析功能测试
流数据分析功能测试要求如下:应测试大数据分析系统数据分析模块是否支持按时间切片后进行批量处理:a)
b)应测试大数据分析系统数据分析模块是否支持基于事件触发或者采样的流式处理;c)
应测试大数据分析系统数据分析模块是否支持实时流上的数据统计:应测试大数据分析系统数据分析模块是否支持流式数据的排序;d)
应测试大数据分析系统数据分析模块是否支持与静态表之间的关联;e
应测试大数据分析系统数据分析模块是否支持多个数据流的关联处理;应测试大数据分析系统数据分析模块是否支持采用滑动窗口方式的实时分析任务,并测试其时g)
间窗口大小是否可调:
应测试大数据分析系统数据分析模块是否支持实时数据的分组、优先级调度;h)
应测试大数据分析系统数据分析模块是否支持对文本类、音视频类以及图像类数据的分析。8.1.3
交互式联机分析功能测试
交互式联机分析功能测试要求如下,a)
应测试大数据分析系统数据分析模块是否支持通过结构化查询语言对数据进行分布式的联机分析;
应测试大数据分析系统数据分析模块是否支持通过结构化查询语言对数据进行即席查询;b)
c)应测试大数据分析系统数据分析模块是否支持利用可视化中间件对数据分析结果进行显示;d)
应测试大数据分析系统数据分析模块是否支持在交互式分析过程中定义计算公式和参数配置;e)
应测试大数据分析系统数据分析模块是否支持交互式分析过程的自动保存和回退等操作;f)
应测试大数据分析系统数据分析模块是否支持在交互式分析过程中对分析结果的保存和发布;应测试大数据分析系统数据分析模块是否支持基于在线联机分析的交互式数据分析;g)
应测试大数据分析系统数据分析模块是否支持对非结构化数据的分析8.2分析类型测试
8.2.1预测型分析功能测试
预测型分析功能测试要求如下:a)应测试大数据分析系统数据分析模块是否支持趋势预测、回归分析等多种预测分析方法:;b)应测试大数据分析系统数据分析模块是否支持准确率以百分比数值化形式呈现,并测试是否精确到小数点后至少1位;
c)应测试大数据分析系统数据分析模块是否支持使用可视化方式进行显示分析结果;5
GB/T38643—2020
d)应测试大数据分析系统数据分析模块是否支持对训练好的模型的发布应用。8.2.2描述型分析功能测试
描述型分析功能测试要求如下:a)应测试大数据分析系统数据分析模块是否支持使用相关关系分析方法进行描述型分析:b)
应测试大数据分析系统数据分析模块是否支持可视化展示样本数据的分析结果,是否支持展示模型训练效果,是否支持对训练好的模型可存储和发布;c)应测试大数据分析系统数据分析模块是否支持分析结果的良好直观呈现,9流程编排模块功能测试
工作流管理测试
工作流管理测试要求如下:
a)应通过拖拉方式进行流程编排和修订等操作测试大数据分析系统流程编排模块是否支持可视化的流程编排操作界面;
b)应通过配置工作流的触发时间的启动时间、执行周期测试大数据分析系统流程编排模块是否支持工作流的调度触发机制,并且是否支持配置触发时间或触发事件;c)
应测试大数据分析系统流程编排模块是否支持通过管理界面对工作流进行启动、停止操作d)
应测试大数据分析系统流程编排模块是否支持并行执行多流程任务:e)
应测试大数据分析系统流程编排模块是否支持通过数据管道实现工作流的串联;应测试大数据分析系统流程编排模块是否支持多人协同功能:g)
应测试大数据分析系统流程编排模块是否支持流程编排结果的持久化保存告警和日志测试
告警和日志测试要求如下:
应测试大数据分析系统流程编排模块是否支持跟踪计算或任务的执行状态,并测试是否对异常a
任务给出告警:
b)应测试大数据分析系统流程编排模块是否支持任务执行状态的细节输出到日志6
数据准备模块功能测试示例
数据抽取功能测试示例
测试示例见表A.1~表A.6。
功能要求
测试项
测试示例
功能要求
测试项
测试示例
功能要求
测试项
测试示例
附录A
(资料性附录)
测试示例
GB/T37721—20196.1a)
GB/T38643-—2020
在全量/增量/负载均衡三种常见需求中选择抽取方法进行测试。分别执行表A.3或表A.6的测试示例
GB/T37721—2019 6.1b)
可选择以下至少一种结构化数据的抽取方法:1)
数据库复制:从源数据库读取数据,写人目标数据库;数据库同步:在源数据库变化时,动态更新目标数据库中的数据,保持源数据库和目标数据库内容一致;
数据抽取-转换:从源数据库中读取数据,经过转换处理,然后写入目标数据库。可选择以下至少一种非结构化数据的抽取方法:1)
单文件复制:将单个文件从源存储地址复制到指定的目标存储地址;批量文件复制:将选取的多个文件从源存储地址复制到指定的目标存储地址;文件夹复制:将选取的一个或多个源文件夹中存储的所有文件复制到指定的目标存储地址;文件夹同步:采用同步更新机制实现源文件夹中存储的文件与目标存储的文件同步表A.3
GB/T37721—20196.1c)
数据存储在源数据库或文件系统中,抽取到目标数据库或文件系统:a
全量抽取操作:对待抽取的源数据库或源文件内容进行签名,全量抽取并存储到目标数据库或文件系统后,全量抽取后再进行签名,对比签名是否一致;增量抽取操作:目标数据库或文件存储中已经包含全量抽取的内容,对待追加的数据记录或文件内容进行签名·向目标数据库或文件系统中追加新增的数据记录或文件,增量抽取后再签名,对比签名是否一致
GB/T38643—2020
功能要求
测试项
测试示例
功能要求
测试项
测试示例
功能要求
测试项
测试示例
GB/T37721—20196.1d)
数据存储在源数据库或文件系统中,抽取到目标数据库或文件系统:a)
主动抽取操作:系统能够将待抽取的数据记录或文件从源数据库或文件系统,通过拉取(pull)方式进行全量抽取或增量抽取,测试示例与表A.3相同;b)
被动追加操作:外部系统通过数据准备模块的API,将待抽取的数据以推送(push)方式追加到目标数据库或文件系统,追加前后分别对数据进行签名,对比签名是否一致表A.5
GB/T 37721—2019 6.1e)
源数据存放在数据库或文件系统中。对待抽取的数据进行签名,执行定时批量抽取操作到目标数据库或文件系统,然后对数据进行签名,对比抽取前后数据的签名是否一致:设置分钟级定时任务,批量抽取过程中修改系统时钟:a)
设置小时级定时任务,批量抽取过程中修改系统时钟,并模拟抽取过程中跨天的情况;b)
设置天级定时任务,批量抽取过程修改系统时钟表A.6
GB/T37721—20196.1f)
数据存放在数据库中,并能够继续追加数据。在数据库中存人足够多的文件内容足够大的数据,把监控探针分别部署到数据库每个节点(≥2),然后进行为期1h的数据抽取,分析监控探针传回的监测数据,得到每个节点的负载情况数据清洗功能测试示例
测试示例见表A.7~表A.12。
功能要求
测试项
测试示例
GB/T37721—20196.2a)
数据已经抽取到分析系统的结构化存储。对数据表中的数据进行检查,分析数据一致性。筛选出不一致的数据,对不一致的数据进行处理功能要求
测试项
测试示例
功能要求
测试项
测试示例
功能要求
测试项
测试示例
功能要求
测试项
测试示例
功能要求
测试项
测试示例
GB/T 37721—2019 6.2b)
GB/T38643—2020
数据已经抽取到分析系统的结构化存储。对数据表中的数据项进行检查,删除或修改数据中的无效值
GB/T37721—20196.2c)
数据已经抽取到分析系统的结构化存储。对数据表中的数据记录进行检查,删除存在缺失值的数据记录或将缺失值补全
GB/T37721—20196.2d)
数据已经抽取到分析系统的结构化存储。对数据表中的数据记录进行检查,删除或合并重复数据记录
GB/T 37721—2019 6.2e)
数据已经抽取到分析系统的结构化存储并经过了数据清洗模块的处理。提供清洗前数据信息和清洗后数据信息的自动比对或人工比对功能,并输出数据清洗前后变化结果表A.12
GB/T37721—20196.2f)
数据已经抽取到分析系统的结构化存储:a)
对数据表中的数据进行检查,分析数据逻辑·删除或修改存在逻辑矛盾的数据:6)
对数据表中的数据进行检查,分析数据关联性,删除或修改存在关联性错误的数据;c)
对数据表中的数据进行检查,分析数据合理性,删除或修改不合理的数据数据转换功能测试示例
测试示例见表A.13~表A.19。
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。