GB/T 33767.14-2023
基本信息
标准号:
GB/T 33767.14-2023
中文名称:信息技术 生物特征样本质量 第14部分:DNA数据
标准类别:国家标准(GB)
英文名称:Information technology—Biometric sample quality—Part 14: DNA data
标准状态:现行
发布日期:2023-03-17
实施日期:2023-10-01
出版语种:简体中文
下载格式:.pdf .zip
下载大小:2568846
相关标签:
信息技术
生物
特征
样本
质量
DNA
数据
标准分类号
标准ICS号:信息技术、办公机械设备>>信息技术应用>>35.240.15识别卡和有关装置
中标分类号:电子元器件与信息技术>>信息处理技术>>L72数据元表示方法
关联标准
出版信息
出版社:中国标准出版社
页数:16页
标准价格:31.0
相关单位信息
起草人:高升杰、程多福、杜红丽、耿力、刘倩颖、王文峰、赖江华、吴昊、宋继伟、张洪波、严江伟、沈悦生、李泽琴、张奕、苏立伟、钟陈、丁国徽、郭云峰、张蕾、汪小我、阳明霞、李栋、李海燕、黄建春、李倩一、魏曙光、龚疏影、沈鹤霄、张玮、穆豪放、李宁、姜华艳、陈卫彬等
起草单位:深圳华大法医科技有限公司、中国电子技术标准化研究院、华南理工大学、山西医科大学、西安交通大学、深圳华大基因股份有限公司、深圳华大智造科技股份有限公司、深圳华大基因科技有限公司、清华大学、上海国际人类表型组研究院、福州数据技术研究院有限公司等
归口单位:全国信息技术标准化技术委员会(SAC/TC 28)
提出单位:全国信息技术标准化技术委员会(SAC/TC 28)
发布部门:国家市场监督管理总局 国家标准化管理委员会
标准简介
本文件提出了在生物特征识别中高通量测序产生的DNA数据类型,规定了DNA数据质量要求以及对应的DNA数据质量测试方法。本文件适用于生物特征识别中高通量测序产生DNA数据的质量评价。
标准内容
ICS.35.240.15
CCS L 72
中华人民共和国国家标准
GB/T 33767.14—2023
信息技术
生物特征样本质量
第14部分:DNA数据
Information technologyBiometric sample quality-Part 14:DNA data
2023-03-17发布
国家市场监督管理总局
国家标准化管理委员会
2023-10-01实施
1范围
2规范性引用文件
术语和定义
4缩略语
5DNA数据类型
5.1DNA测序数据
DNA比对数据
DNA分型数据
6DNA数据质量要求
准确性
完备性
可追溯性
7DNA数据质量测试方法
DNA数据质量测试工具
7.2DNA数据准确性测试方法,
7.3DNA数据完备性测试方法
7.4DNA数据可溯性测试方法
参考文献
GB/T33767.142023
GB/T 33767.14—2023
本文件按照GB/T1.1一2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。
本文件是GB/T33767《信息技术生物特征样本质量》的第14部分。GB/T33767已经发布了以下部分:
一第1部分:框架;
第4部分:指纹图像数据;
第5部分:人脸图像数据;
第6部分:虹膜图像数据:
第14部分:DNA数据。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。本文件起草单位:深圳华大法医科技有限公司、中国电子技术标准化研究院、华南理工大学、山西医科大学、西安交通大学、深圳华大基因股份有限公司、深圳华大智造科技股份有限公司、深圳华大基因科技有限公司、清华大学、上海国际人类表型组研究院、福州数据技术研究院有限公司、福建省公安厅刑事技术总队、广东省公安厅刑事技术中心、临汾市公安局、中船重工信息科技有限公司、武汉益鼎天养生物科技有限公司、广州广电运通金融电子股份有限公司。本文件主要起草人:高升杰、程多福、杜红丽、耿力、刘倩颖、王文峰、赖江华、吴昊、宋继伟、张洪波、严江伟、沈悦生、李泽琴、张奕、苏立伟、钟陈、丁国徽、郭云峰、张蕾、汪小我、阳明霞、李栋、李海燕、黄建春、李倩一、魏曙光、龚疏影、沈鹤霄、张玮、穆豪放、李宁、姜华艳、陈卫彬、郭小森、尹烨。Ⅲ
GB/T33767.14—2023
GB/T33767《信息技术生物特征样本质量》旨在规定生物特征识别数据的样木质量要求和测试方法,拟由十五个部分构成
一一第1部分:框架。目的在于规定用于生物特征识别或验证技术的图像数据的样木质量要求和测试方法通用框架。
一一第2部分:指纹细节点数据。目的在于规定基于细节点的指纹用于指纹识别或验证技术的图像数据的样本质量要求和测试方法。第3部分:指纹型谱数据。目的在于规定基于指纹型谱用于指纹识别或验证技术的图像数据的样本质量要求和测试方法。
一一第4部分:指纹图像数据。目的在于规定基于指纹图像用于指纹识别或验证技术的图像数据的样本质量要求和测试方法。
一第5部分:人脸图像数据。目的在于规定基于人脸图像用于人脸识别或验证技术的图像数据的样本质量要求和测试方法。
第6部分:虹膜图像数据。目的在于规定基于虹膜图像用于虹膜识别或验证技术的图像数据的样本质量要求和测试方法。
第7部分:签名/签字时间序列数据,目的在于规定基于签名/签字信息用于签名/签字识别或验证技术的数据的样本质量要求和测试方法。一第8部分:指纹骨架数据。目的在于规定基于指纹骨架模式用于指纹骨架识别或验证技术的图像数据的样本质量要求和测试方法。一第9部分:血管图像数据。目的在于规定基于血管图像用于血管识别或验证技术的图像数据的样本质量要求和测试方法。
第10部分:手形轮廓数据。目的在于规定基于手形轮廓图像用于手形识别或验证技术的图像数据的样本质量要求和测试方法。第11部分:签名/签字处理的动态数据。目的在于规定基于处理后的签名/标志行为数据用于签名/签字识别或验证技术的数据的样本质量要求和测试方法。第12部分:脸型特性数据。目的在于规定基于脸型特性数据用于人脸识别或验证技术的图像数据的样本质量要求和测试方法。一第13部分:声纹数据。目的在于规定基于单个会话中记录的单个扬声器的人的声纹数据用于说话人识别或验证技术的数据的样本质量要求和测试方法。一第14部分:DNA数据。目的在于规定基于高通量测序产生的各种DNA数据类型的DNA数据用于DNA识别或验证技术的数据的样本质量要求和测试方法。第15部分:掌纹图像数据。目的在于规定基于掌纹图像数据用于掌纹识别或验证技术的图像数据的样本质量要求和测试方法。IM
1范围
信息技术生物特征样本质量
第14部分:DNA数据
GB/T33767.14—2023
本文件提出了在生物特征识别中高通量测序产生的DNA数据类型,规定了DNA数据质量要求以及对应的DNA数据质量测试方法
本文件适用于生物特征识别中高通量测序产生DNA数据的质量评价。2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T35890一2018高通量测序数据序列格式规范YY/T1723—2020高通量基因测序仪3术语和定义
下列术语和定义适用于本文件。3.1
高通量测序high-throughputsequencing区别于传统Sanger(双脱氧法)测序,能够一次并行对大量核酸分子进行平行序列测定的技术。注:通常一次测序反应能产出不低于100Mb的测序数据。[来源:GB/T30989—2014,3.19,有修改]3.2
DNA分型DNAgenotyping
利用生物学检测方法测定个体DNA序列,并将其与参考DNA序列进行比对,以确定该个体基因型的过程。
数据质量dataquality
在指定条件下使用时,数据的特性满足明确的和隐含的要求程度。[来源:GB/T363442018,2.3]
DNA数据
DNAdata
高通量测序后得到的原始数据、信息分析过程中的比对数据和DNA分型数据。3.5
核酸序列
nucleic acid sequence
核酸的一级结构,使用一串字母表示的携带基因信息的DNA分子的一级结构。GB/T33767.14—2023
FASTQ格式FASTQformat
基于文本的、保存生物序列(通常是核酸序列)和其测序质量信息的、每四行表示一条序列的标准格式。
[来源:GB/T35890—2018,3.9,有修改工
碱基识别base calling
测序过程中从荧光信号或其他测序反应产生的信号转换成碱基序列信息的过程。3.8
碱基质量值basequalityscore
碱基识别出错的概率的整数映射,用来衡量碱基正确识别的概率。注:通常以数字值直接表示。
测序片段reads
高通量测序平台产生的含有碱基序列和质量值的序列片段。[来源:GB/T35890—2018,3.2]3.10
读长read length
高通量测序仪单次测序所得到的平均碱基序列长度。3.11
coverageratio
覆盖度
测序序列与参考序列比对时,所有比对成功的区域占参考序列总区域的百分比。3.12
序列比对sequencealignment
比较两个或两个以上核酸序列间的相似性的过程。[来源:GB/T29859—2013,2.2.1,有修改]3.13
reference genome sequence
参考序列
测序片段对应的物种基因组序列,[来源:GB/T35890—2018,3.11]3.14
短串联重复序列
short tandem repeat
染色体上重复单位为2bp~6bp的串联重复序列,表现出高度的个体差异。[来源:GB/T26237.142019,4.10]3.15
单核苷酸多态性singlenucleotidepolymorphism由单个核苷酸改变所引起的脱氧核糖核酸序列多态性。[来源:GB/T 2
29859—2013,2.2.33,有修改
目标区域targetregion
包含目标短串联重复序列或单核苷酸多态性位点的基因组区域。2
基因型genotype
个体的一个或多个基因座上等位基因的组成注:木文件中特指SNP或STR位点的等位基因组成。测序深度
sequencingdepth
测序样本中目标区域核苷酸被检测到的次数。测序芯片sequencing chip;flow cell高通量测序中为待测DNA分子提供测序反应场所的容器。GB/T33767.14—2023
注:测序芯片是高通量测序的核心部件,具有吸附移动DNA片段的通道,测序文库中的DNA片段在通过通道时会随机附着在通道表面。
4缩略语
下列缩略语适用于本文件。
BAM:二进制比对(binaryalignment map)bp:碱基对(basepair)
DNA:脱氧核糖核酸(deoxyribonucleicacid)MAPQ:比对质量值(mappingqualityscore)MD5:消息摘要算法第五版(message-digestalgorithm5)Q-score:碱基质量值(basequalityscore)Q30:碱基识别质量三十百分比(thepercentofbasequalitymorethan30)SAM:序列比对(sequence alignment map)SAM/BAM:序列比对/二进制比对(sequencealignmentmap/binaryalignmentmap)SNP:单核苷酸多态性(singlenucleotidepolymorphism)STR:短串联重复序列(short tandemrepeat)5DNA数据类型
5.1DNA测序数据
DNA测序数据包括基于高通量测序的光学或其他信号生成的碱基序列和每个碱基对应的质量值。高通量测序产生的DNA测序数据文件宜以FASTQ格式存放。FASTQ格式中每一条测序片段用4行信息表示,应符合GB/T35890一2018中6.1的要求。5.2DNA比对数据
DNA比对数据是样本的DNA测序数据与参考序列进行比对,确定相对位置关系的比对文件。比对过程中每个短序列应分配一个比对质量值表示映射质量分数,以表明比对过程的可信度;测序深度和覆盖度通过参考序列的参考基因组位置次数和范围来计算。DNA比对数据的格式宜为SAM/BAM格式。
注1:SAM/BAM格式:基于文本的储存核酸序列及其测序质量和序列比对相关的信息,其头部为注释信息,主体部分以每一行表示一条序列且每行以制表符分隔的标准格式,BAM格式是SAM格式的二进制压缩格式。注2:比对质量值:比对到错误位置的概率的整数映射,用来衡量比对正确的概率,通常以数字值直接表示。3
GB/T33767.142023
5.3DNA分型数据
DNA分型数据是对DNA比对数据由适用的分型软件进行STR和SNP分型得到的数据,STR分型数据应包含但不限于样本编号、STR名称和基因型;基因型以重复单元的次数表示,未得到基因型或无法明确判定基因型记为\NA\。SNP分型数据应包含但不限于样本编号、SNP名称和基因型;基因型以A、C、G、T表示,未得到基因型或无法明确判定基因型的记为\NA”。6
DNA数据质量要求
6.1准确性
1DNA测序数据的准确性
DNA测序数据准确率应不低于99%。6.1.2DNA比对数据准确性
DNA比对数据准确率应不低于95%。6.1.3DNA分型数据准确性
DNA分型数据准确率应不低于98%。6.2完备性
6.2.1DNA测序数据完备性
DNA测序数据至少包含以下文件和相应的内容:a)样本信息文件,应包含但不限于样本名称、样本类型和样本来源;b)测序关联信息文件,应包含但不限于测序仪器(编号、版本号)、测序芯片标识、测序文库标识和DNA测序数据文件名称;
c)DNA测序数据文件,应包含碱基序列和每个碱基对应的质量值;d)DNA测序数据对应的MD5值。
以上文件应至少有一份备份。Www.bzxZ.net
2DNA比对数据完备性
DNA比对数据至少包含以下文件和相应的内容:a)样本信息文件,应包含但不限于样本名称、样本类型和样本来源;b)比对关联信息文件,应包含但不限于测序仪器(编号、版本号)、测序芯片标识、测序文库标识、DNA测序数据文件名称和DNA比对数据文件名称;c)DNA比对数据文件,应包含比对质量、测序深度和覆盖度;d)DNA比对数据对应的MD5值。
以上文件应至少有一份备份
6.2.3DNA分型数据完备性
DNA分型数据至少包含以下文件和相应的内容:a)样本信息文件,应包含但不限于样本名称、样本类型和样本来源;4
GB/T33767.142023
b)分型关联信息文件,应包含但不限于测序仪器(编号、版本号)、测序芯片标识、测序文库标识、DNA测序数据文件名称、DNA比对数据文件名称和DNA分型数据文件名称;c)DNA分型数据文件,应包含STR分型数据和SNP分型数据;d)DNA分型数据对应的MD5值。
以上文件应至少有一份备份。
6.3可追溯性
6.3.1概述
DNA分型数据能够追溯对应DNA比对数据和DNA测序数据的样本信息和测序信息。样本信息和测序信息包括但不限于样本名称、样本类型、测序仪(编号、版本号)、测序芯片编号、测序试剂编号、测序文库标签等关联信息。
6.3.2DNA测序数据可追溯性
DNA测序数据的可追溯信息应包含样本信息、测序信息及DNA测序数据信息:DNA测序数据可追溯信息应与DNA样本的可追溯信息100%一致。6.3.3DNA比对数据可追溯性
DNA比对数据的可追溯信息应包含样本信息、DNA测序数据信息及DNA比对数据信息。DNA比对数据可追溯信息应与DNA样本的可追溯信息100%一致。6.3.4DNA分型数据可追溯性
DNA分型数据的可追溯信息应包含样本信息、DNA比对数据信息及DNA分型数据信息。DNA分型数据可追溯信息应与DNA样本的可追溯信息100%一致。7DNA数据质量测试方法
7.1DNA数据质量测试工具
DNA数据质量测试工具应满足以下要求:a)可重复地获得高通量测序DNA数据质量的测试结果:b)详细记录DNA数据质量分析的信息,包括但不限于软件程序包、脚本、版本号、时间、命令行和参数信息;
c)查阅异常记录文档。
7.2DNA数据准确性测试方法
7.2.1DNA测序数据准确性测试
在以下测试条件下并使用以下测试方法对DNA测序数据进行准确性测试。a)测试条件:
1)使用符合YY/T1723—2020规定的高通量基因测序仪2)读长不低于50bp。
3)Q30不低于85%。
b)测试方法:
1)运行DNA数据质量测试工具,打开需要测试的DNA测序数据文件,检测并得到DNA测5
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。