GB/T 35890-2018
基本信息
标准号:
GB/T 35890-2018
中文名称:高通量测序数据序列格式规范
标准类别:国家标准(GB)
标准状态:现行
出版语种:简体中文
下载格式:.rar .pdf
下载大小:516KB
相关标签:
高通量
测序
数据
序列
格式
规范
标准分类号
关联标准
出版信息
相关单位信息
标准简介
GB/T 35890-2018 高通量测序数据序列格式规范
GB/T35890-2018
标准压缩包解压密码:www.bzxz.net
标准内容
ICS07.080
中华人民共和国国家标准
GB/T35890—2018
高通量测序数据序列格式规范
Technical specification of high throughput sequencing data format2018-02-06发布
中华人民共和国国家质量监督检验检疫总局中国国家标准化管理委员会
2018-09-01实施
本标准按照GB/T1.1—2009给出的规则起草。本标准由全国生化检测标准化技术委员会(SAC/TC387)提出并归口。本标准起草单位:深圳华大基因研究院、中国计量科学研究院。本标准主要起草人:梁鑫明、刘心、蒋慧、杜佳婷、谢强、李倩一、李岱怡、王晶GB/T35890—2018
-iiKAoNni KAca
1范围
高通量测序数据序列格式规范
GB/T35890—2018
本标准规定了高通量测序数据的序列格式,包括序列描述格式规范和高通量测序数据整体格式规范。
本标准适用于规范生物体DNA高通量测序数据序列格式。2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T30989高通量基因测序技术规程ISO/IEC646信息技术ISO信息交换七位编码字集(Informationtechnology-ISO7-bitcodedcharacter set for information interchange)3术语和定义
下列术语和定义适用于本文件。3.1
高通量测序
high-throughputsequencing
以一次并行几十万到几百万条核酸分子序列测定和一般读长较短等为标志,适用于DNA的测序技术。
注:改写GB/T30989—2014定义3.1.9。3.2
测序片段
高通量测序平台产生的含有碱基序列和质量值的序列片段3.3
双末端测序
paired-end sequencing
对DNA模板链和互补链分别测序,并得到两条链成对测序片段的测序技术3.4
插入片段长度
insertsize
双未端测序中,从模板链测序的测序片段左端到互补链测序的测序片段右端的距离3.5bZxz.net
reads identifier
测序片段识别码
用以识别一段测序片段的具有唯一性的字符串。3.6
碱基序列
base sequence
测序片段中记录碱基排列的字符串,碱基序列中的每个碱基应使用大写字母(A、T、C、G和N)或小写字母(a、t、c、g和n),其中字母A和a表示腺嘌呤,字母T和t表示胸腺嘧啶,字母C和c表示胞嘧1
iiiKAoNiKAca
GB/T35890—2018
啶,字母G和g表示鸟嘌呤,字母N和n表示未测定的碱基。3.7
美国标准信息交换代码Americanstandardcodeforinformationinterchange;AsCI基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,并等同于国际标准ISO/IEC646.
质量值体系
qualityscoresystem
测序碱基质量一个特定的范围,常见的质量值体系有Phred十33和Phred十64两种,Phred十33体系质量值0对应ASCII码33,用!表示,Phred+64体系质量值0对应ASCII码64,用表示。3.9
FASTQ格式FASTQformat
FASTQ是基于文本的、保存生物序列(通常是核酸序列)和其测序质量信息的、每四行表示一条序列的标准格式,
SAM/BAMformat
SAM/BAM格式
SAM是基于文本的、存储核酸序列和其测序质量信息的、以每一行表示一条序列、每行以制表符分割成11列的标准格式,测序质量信息使用ASCII字符表示,BAM是SAM格式的二进制格式注:SAM和BAM也可作为序列比对格式。3.11
参考序列
reference sequence
测序片段对应的物种基因组序列。4缩略语
下列缩略语适用于本文件。
bp:碱基对(basepair)
DNA:脱氧核糖核酸(deoxyribonucleicacid)ID:识别码(identifier)
MAPQ:比对质量(mappingquality)POS:比对起始位点(position)QNAME:查询序列名称/测序片段名称(queryname)RNAME:参考序列名称(referencename)5序列描述规范
测序片段ID
测序片段ID应保证一个序列编号对应一段测序片段,具有唯一性。对于双末端测序序列,ID中应包含标明模板链或互补链的标识。5.2
2碱基序列
碱基序列应使用大写字母(A~Z)或者小写字母(a~z)来表示,自成一行(FASTQ格式)或一列(SAM/BAM格式)。
HiiKAoNiKAca
6高通量测序数据整体格式规范
6.1FASTQ格式
每一条测序序列用以下4行信息表示:GB/T35890—2018
首行以字符@开头,后面为测序片段ID,字符@与测序片段ID之间不应有空格,格式规范与5.1小节描述一致;
第二行为测序的碱基序列信息,不应换行;b)
第三行以加号(十)开头,后面内容与首行一样,为序列ID,序列ID可省略;c)
第四行为第二行的碱基序列对应的测序质量值,不应换行。测序质量值应用ASCII码表示,d)
且质量值体系与ASCII码对照表应符合附录A的规定6.2SAM/BAM格式
6.2.1基本结构
SAM/BAM格式分为头文件和比对结果两部分。6.2.2头文件
头文件每行应以字符开头,后面为HD,SQ,RG,PG和CO标签信息,每行标签与子标签应用制表符间隔,头文件标签符合附录B的规定。头文件标签格式规范如下:HD标签应存在;
一当测序片段比对上参考序列时,SQ标签应存在;当RG出现在比对结果任意一行时,其对应编号应出现RG标签中,该RG标签自成一行;当PG出现在比对结果任意一行时,其对应编号应出现PG标签中,该PG标签自成一行。6.2.3比对结果
比对结果每行的信息应用制表符间隔,分为11列必须字段和1列可选字段,每个字段描述如下测序片段名称QNAME,格式规范与5.1小节描述一致;a
比对情况标记,具体规范符合附录C的规定;c)
参考序列名称RNAME,如果测序片段未必对上任何参考序列,RNAME应用星号(*)表示;POS,测序片段比对到参考序列的最左起始坐标,最小值为1。如果测序片段未比对上任何参d)
考序列,起始坐标应记为0;
比对质量MAPQ,如果测序片段未比对上任何参考序列,MAPQ应记为255;f)
CIGAR字符串,记录插入,删除,错配以及剪切拼接等信息;g)
对于双末端测序,测序片段互补链比对到参考序列的编号,等号(一)表示与模板链与互补链比对到的参考序列编号相同:
互补链比对到参考序列的最左起始坐标;h)
推测的插人片段长度;
测序片段碱基序列;
测序片段碱基序列对应的质量值序列;k)
可选字段,格式如:标签:类型:数值,其中标签由两个字符组成,首字符为大写字母(A一Z)、小写字母(a~z)的任意组合,第二个字符为大写字母、小写字母和数字(0~9)的任意组合,每个标签代表一类信息,每行一个标签只能出现一次;类型表示标签对应值的类型,可以是字符串、3
iiKANiKAca
GB/T35890—2018
整数、字节、数组等
高通量测序数据文件格式样例
高通量测序数据文件格式样例参见附录D。4
-iiiKAoNiKAca
ASCI码字符范围如下:
附录A
(规范性附录)
常见质量值体系ASCII码对照关系表GB/T35890—2018
!\#$%&\O*+,一./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[]abcdefghijklmnopqrstuvwxyz(/)常见质量值体系与ASCII码对照关系表见表A.1。表A.1常见质量值体系与ASCII码对照关系表质量值体系
Phred+33
Phred+64
ASCII字符范围
!~或!~』
@~h或B~h
注:质量值0和1未使用质量值2用作Read质量控制质量值范围
0~40或0~41
0~40或3~40
GB/T35890—2018
附录B
(规范性附录)
SAM/BAM格式头文件标签描述
SAM/BAM格式头文件标签描述见表B.1。SAM/BAM格式头文件标签描述
子标签
格式版本。可接受格式为:数字(0~9)加点号(.)加数字(0~9)比对信息排序顺序。合法值:unknown(未知,默认值),unsorted(未排序),queryname(按测序片段名称排序).coordinate(按比对起始坐标排序)。coordinate的排序方式,应以参考序列编号为主要关键字,按照@SQ定义的顺序排序,次要排序关键字应以比对起始坐标信息。对于参考序列信息、比对坐标信息都相同的比对记录,顺序随机。所有参考序列信息为“*”的比对记录应排在参考序列信息不为“*”的比对记录之后,并且顺序随机比对信息组别,表示相似的比对结果组合在一起但文件不一定整体排序。合法值:none(默认值)、query(比对结果根据测序片段编号组合),reference(比对结果根据RNAME/POS组合)参考序列名称。每一行@SQ应有唯一的SN标签,用于比对记录的测序片段编号、双末端测序的第2个片段比对上的参考序列名称参考序列长度,范围从1到231—1基因组组装标志
参考序列大写形式MD5校验值
参考序列链接。该标签以一种标准协议开头,如:http:或者ftp:。如果不以标准协议开头,则认为是一个文件系统路径
测序片段组标志。每一行@RG应有唯一ID(在头文件部分所有@RG中),用于比对记录RG标签。为了处理冲突序列组标志在合并SAM文件时可能会被修改提供序列的测序中心名称
描述信息
测序运行日期,格式为ISO8601日期或日期/时间流程顺序
关键序列
用于处理测序片段分组的程序
预测插人片段长度的中位数
测序平台/技术。合法值:CAPILLARY,LS454,ILLUMINA,SOLID,HELICOS,ION-TORRENT,ONT和PACBIO
平台模型,其他关于测序平台/技术的信息平台装置,唯一标志符
样品。如果进行混合样品测序则应使用混合样品名称标签
子标签
表B.1(续)
GB/T35890—2018
程序记录标志。每一行@PG必须拥有唯一ID.用于比对记录的PG标签或其他@PG的PP标签。为了处理冲突@PGID在合并SAM文件时可能会被修改程序名称
命令行
前置@PG-ID。必须与另一个@PG的ID一致,@PG可以被PP标签提前声明。为了处理PGID冲突,PP在合并SAM文件时可能会被修改。第一个PG(如)描述最近处理SAM记录的程序,下一个PG描述下一个最近处理SAM记录的程序。一条SAM记录的PGID不必要涉及最新的PG记录,可以涉及一系列PG记录中的任意一个,意味着这条SAM记录已被该PG中的程序以及PP标签中涉及的程序处理解释说明
程序版本
评论信息,充许多行无序
GB/T35890—2018
附录C
(规范性附录)
SAM/BAM格式比对标记描述
SAM/BAM格式比对标记描述见表C.1。表C.1
模板链包含两个测序片段
SAM/BAM格式比对标记描述
双末端测序的两个片段正确地比对上参序列(即测序片段均比对上参考序列同一条染色体)测序片段没有比对上参考序列
双末端测序的第二个片段没有比对上参考序列双末端测序的第一个片段的反向互补链双末端测序的第二个片段的反向互补链双末端测序的第一个片段比对上参考序列双末端测序的第二个片段比对上参考序列测序片段的比对位置不是最优选择测序片段未通过质量控制
测序片段是PCR或者光学重复
测序片段部分序列比对上参考序列
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。