GB/T 43584.2-2023
基本信息
标准号:
GB/T 43584.2-2023
中文名称:生物技术 大规模并行测序 第2部分:测序数据的质量评估
标准类别:国家标准(GB)
英文名称:Biotechnology—Massively parallel sequencing—Part 2:Quality evaluation of sequencing data
标准状态:现行
发布日期:2023-12-28
实施日期:2023-12-28
出版语种:简体中文
下载格式:.pdf .zip
下载大小:4080685
相关标签:
生物
技术
测序
数据
质量
评估
标准分类号
标准ICS号:数学、自然科学>>07.080生物学、植物学、动物学
中标分类号:综合>>基础学科>>A40基础学科综合
关联标准
采标情况:ISO 20397-2:2021,IDT
出版信息
出版社:中国标准出版社
页数:24页
标准价格:43.0
相关单位信息
起草人:周李华、李怀平、叶善蓉、易艳、王丹、姜展樾、魏晓锋、林华、樊东生、陈佳平、叶德萍、彭海、冯双、王奇、马丽侠、张岩、张勇、杨俊、张才敏、蒋慧、杨国武
起草单位:中国测试技术研究院生物研究所、江汉大学、中国测试技术研究院、深圳华大生命科学研究院、河北省食品检验研究院、成都医学院、深圳华汉基因生命科技有限公司、浙江贝兰伯生物技术有限公司、深检集团(深圳)医学检验实验室
归口单位:全国生化检测标准化技术委员会(SAC/TC 387)
提出单位:全国生化检测标准化技术委员会(SAC/TC 387)
发布部门:国家市场监督管理总局 国家标准化管理委员会
标准简介
本文件明确了对大规模并行测序数据进行质量评估的整体要求和建议。涵盖了原始数据生成后的程序、序列比对和变异识别。
本文件提供了大规模并行测序(MPS)数据验证和存档的一般指南。
本文件不适用于与从头组装相关的任何处理。
标准内容
ICS07.080
CCS A 40
中华人民共和国国家标准
GB/T 43584.2—2023/ISO20397-2:2021生物技术大规模并行测序
第2部分:测序数据的质量评估
Biotechnology—Massively parallel sequencing-Part 2 :Quality evaluation of sequencing data(ISO 20397-2:2021,IDT)
2023-12-28发布
国家市场监督管理总局
国家标准化管理委员会
2023-12-28实施
规范性引用文件
术语和定义
原始数据
原始数据文件
原始数据的质量评估
原始数据预处理
5序列比对与定位
序列比对与定位文件格式
序列比对和定位的质量控制
比对后处理
变异识别
变异识别的数据文件
变异识别的质量指标
假阳性变异处理
序列注释
7.2质量指标验证
8文件
附录A(资料性)特定MPS平台示例的质量指标附录B(资料性)按应用划分的覆盖范围和推荐读序附录C(资料性)序列比对和定位软件·参考文献
GB/T43584.2—2023/ISO20397-2:202110
本文件按照GB/T1.1一2020《标准化工作导则起草。
GB/T43584.2—2023/ISO20397-2:2021第1部分:标准化文件的结构和起草规则》的规定本文件是GB/T43584《生物技术大规模并行测序》的第2部分。GB/T43584已经发布了以下部分:第2部分:测序数据的质量评估、本文件等同采用ISO20397-2:2021《生物技术大规模并行测序第2部分:测序数据的质量评估》。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任本文件由全国生化检测标准化技术委员会(SAC/TC387)提出并归口。本文件起草单位:中国测试技术研究院生物研究所、江汉大学、中国测试技术研究院、深圳华大生命科学研究院、河北省食品检验研究院、成都医学院、深圳华汉基因生命科技有限公司、浙江贝兰伯生物技术有限公司、深检集团(深圳)医学检验实验室,本文件主要起草人:周李华、李怀平、叶善蓉、易艳、王丹、姜展樾、魏晓锋、林华、樊东生、陈佳平、叶德萍、彭海、冯双、王奇、马丽侠、张岩、张勇、杨俊、张才敏、蒋慧、杨国武。GB/T43584.2—2023/IS020397-2:2021引言
大规模并行测序(MPS)是一种利用大规模并行处理进行核酸测序的高通量分析方法,该方法可在相对较短时间内对不同生物体的全基因组、转录组和特定靶核酸进行研究,MPS已用于许多生命科学领域,可对数百方乃至数千方个核苷酸碱基进行测定和高通量分析。生物体内脱氧核糖核酸和核糖核酸聚合物的生物变异为准确测定序列带来了挑战。通过MPS测定,序列质量取决于许多因素,包括但不限于样品质量、文库制备、平台选择及测序数据质量GB/T43584拟由以下部分构成:
第1部分:核酸和文库制备。第1部分主要提供基础研究,目的在于规定了测序和数据生成前文库制备和文库质量评估的一般准则和注意事项。第2部分:测序数据的质量评估。第2部分基于第1部分开展具体操作和数据质量控制并为第3部分提供研究基础。
-第3部分:宏基因组学的总体要求和指南。第3部分包含第1部分、第2部分,规定了宏基因组学从样品制备、生成和分析测序数据的准则。测序数据分析在数据存储、计算时间和变异检测准确性等多个领域均对生物信息学提出较大的挑战。与测序数据相关的主要挑战之一是监测数据处理流程各个阶段的质量控制指标,此点易被忽视。了解数据质量对下游序列分析至关重要。核酸测序数据处理与分析的质量控制可分为三个阶段:原始数据、比对和变异识别。本文件提供了MPS测序数据质量评估的注意事项,以及针对不同的MPS平台提供具体建议。
1范围
GB/T43584.2—2023/ISO20397-2:2021生物技术大规模并行测序
第2部分:测序数据的质量评估
本文件明确了对大规模并行测序数据进行质量评估的整体要求和建议。涵盖了原始数据生成后的程序、序列比对和变异识别
本文件提供了大规模并行测序(MPS)数据验证和存档的一般指南。本文件不适用于与从头组装相关的任何处理。2规范性引用文件
本文件没有规范性引用文件。
术语和定义
下列术语和定义适用于本文件。3.1
adapter sequence
接头序列
接头adapter
种已知序列的人工寡核昔酸,可连接到核酸片段的3端或5'端注:它提供引物位点以及对测序插入序列片段所需的其他必要序列。3.2
algorithm
完全确定的有限序列指令,通过它可以从输入变量的值计算输出变量的值。[来源:IEC60050-351:2013,351-42-27,有修改]3.3
碱基识别
base calling
将大规模并行测序原始电信号转化为核昔酸序列的计算过程。注:碱基识别的应用和算法的性能由读序和共有序列准确性来确定,3.4
生物信息学流程
bioinformaticspipeline
对程序、脚本或软件的整合和顺序执行,在数据处理过程中,原始数据或一个程序的输出作为下一个步骤的输人。
示例:碱基质量剪切程序的输出能作为从头组装程序的输人。3.5
捕获效率
captureefficiency
所测得目标区域序列占所有测序序列或参考序列的百分比。3.6
Ecoverage
覆盖度
coveragedepth
覆盖深度
在一次测序中,每个指定位置的碱基被测序的次数。GB/T43584.2—2023/ISO20397-2:2021注:覆盖特定位置的读序数目。3.7
coverage breadth
覆盖宽度
多次测序产生的基因组序列总长占覆盖目标区域的百分比。3.8
簇密度clusterdensity
每个单元中簇的数量
注1:簇密度适用于有扩增步骤的MPS(3.30)平台。注2:在某些测序平台上,每个单测序簇的密度来自于单分子。注3:簇密度通常以K/mm2表示。3.9
环化共有序列测序
circular consensus sequencing;CCs一种高准确度的测序模式,指一定大小的插入片段在滚环扩增反应中多次测序。注:在这种模式下,使用多个通道对同一分子进行测序,实现更高准确度。3.10
coveragerange
覆盖范围
多次测序得到的覆盖整个基因组的深度范围。3.11
copynumbervariation;CNV
拷贝数变异
copynumbervariant
拷贝数变异体
一个生物体的基因组中一个或多个DNA片段的拷贝数的变异。注:拷贝数变异(CNVs)是指长度至少为1kb片段的插入、缺失、倒位和重复。3.12
脱氧核糖核酸
deoxyribonucleic acid;DNAbzxz.net
脱氧核糖核苷酸的聚合物,以双链(dsDNA)或单链(ssDNA)形式出现来源:ISO22174:2005,3.1.2
缺失deletion
与参考序列相比,核酸序列中一个(或多个)碱基对的缺失。3.14
duplication level
重复水平
一个文库中每个相同序列的重复数注:重复水平通常以图表形式显示序列的相对数量,3.15
GC含量GC content
鸟嘌呤和胞嘧啶在一个或多个核酸序列所有碱基中所占的比率。注:多核苷酸中鸟嘌呤和胞嘧啶的含量,通常以总含氮碱基的摩尔分数(或百分比)表示。总含氮碱基包括一次或多次MPS过程中所产生的核苷酸碱基总数。3.16
基因gene
位于染色体上编码特定功能产物(RNA或蛋白质)的一段核苷酸(DNA或RNA)序列。注1:基因是遗传信息的基本单位,注2:基因由经细胞内剪接后重新排列的非连续性核酸片段组成。2
注3:基因包括或是含基因表达元件在内的操纵子的一部分。插入/缺失
GB/T43584.2—2023/ISO20397-2:2021基因组DNA中插人(3.18)或/和缺失(3.13)的核苷酸片段。注:插人/缺失突变长度小于1kb。插入1
insertion
核酸序列中加人一个(或多个)核苷酸碱基对。[来源:ISO/TS20428:2017,3.19,有修改]sequencing
对核酸分子中核苷酸碱基(腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶或尿嘧啶)排列顺序和组分的测定。注:序列通常用5'端到3'端表示。[来源:ISO/TS17822-1:2020,3.19,有修改3.20
序列比对
sequence alignment
根据相似区域排列核酸序列。
注:序列比对可能不需要参考基因组/参考靶标核酸区域,目的或许不是产生组装基因组。3.21
原始数据
rawdata
由测序仪产生的原始测序数据,未经任何软件预过滤与分析的数据。3.22
核糖核酸
ribonucleicacid
以双链或单链形式存在的核糖核苷酸聚合物注:信使RNA(mRNA)的核苷酸序列所携带的遗传信息能指导细胞中蛋白质的合成。3.23
核糖核苷酸
ribonucleotide
以核糖为戊糖组成部分的核苷酸,是构成RNA的基本单位注:核糖核苷酸包括腺嘌呤核糖核苷酸(AMP)、鸟腺嘌呤核糖核苷酸(GMP)、胞嘧啶核糖核苷酸(CMP)或尿嘧啶核糖核苷酸(UMP)。
读序read
序列读序
sequence read
由测序仪产生的核苷酸序列。
注:一个读序是指对应于单个核酸片段的所有(或部分)核酸碱基对(或碱基对概率)的推断序列。读序指MPS实验中获得的所有序列。
读序类型
readtype
序列类型,取决于实验设计和实施的序列读取方式。示例:读序类型包括单端读序、双端读序、配对读序、连续长读序、环化共有序列。3.26
参考序列
referencesequence
用于读序定位时的比对核酸序列,或作为基因和序列变异注释时的基础核酸序列。3
GB/T43584.2—2023/ISO20397-2:20213.27
多路分解demultiplexing
多重复合过程的反向计算,将两个或多个样本混合,让MPS仪器单次测序运行即可对所有样品进行测序。
注1:样品混合之前需标记条形码/索引。注2:多路分解是一种计算算法,能够根据条形码将一组读序进行分离。3.28
mapping
将核酸序列与现有基础(参考)序列进行比较并构建一个共有序列的过程。3.29
matepairs
配对读序matepairreads
通过将样本片段化(大于或等于2kb)获得的长核酸序列末端的成对读序。3.30
massively parallel sequencing;MPS大规模并行测序
基于多个DNA模板独立聚合延伸的测序技术。注:大规模并行测序技术一次运行能同时读取数百万或数十亿的DNA分子模板。3.31
paired-end reads
双端读序
通过从一个DNA片段两个末端测序获得的读序。注:在双端测序中,仪器同时对插人片段(200bps~800bps范围内)的两端进行测序。3.32
质量值
quality score
Q值Q score
碱基质量值phred qualityscore衡量给定核苷酸碱基的测序质量注1:Q值定义见公式(1):
Q=-10lgp
式中:
碱基识别错误率。
注2:质量值为20代表错误率为1/100,相应的准确率为99/100。(1)
注3:质量值越高,出错的概率越小。较低的质量值会导致大部分读取无效。低质量值也能表示假阳性变异,导致结论不准确。
测序仪从启动到获得原始数据的单次循环过程。3.34
序列注释
sequence annotation
对DNA、RNA或蛋白质序列的结构或功能方面的信息加以解释、评价或说明的过程。注:序列注释视为将数据元分配给序列的过程。3.35
单端读序
single-end read
通过从DNA片段的一端读取到另一端而获得的序列。3.36
单核苷酸变异singlenucleotidevariant;SNv一个核酸分子中单个核苷酸的变异结构变异structural variation;SvGB/T 43584.2—2023/ISO20397-2:20211kb及以上范围的DNA片段发生倒位、平衡易位和基因组失衡等结构变化。注:常见的结构变异类型包括拷贝数变异(缺失、插人、扩增、重复)、拷贝数中性缺失(杂合性缺失)、倒位、片段重复和易位(平衡或失衡)。
子读序subread
从发夹接头之间读取到的片段。trimming of raw reads
原始读序修剪
去除低质量或被污染序列,同时保留大规模并行测序读取的高质量序列的过程。变异
variation
序列中一个或多个核酸碱基与预期碱基之间的差异。variant calling
变量识别
准确识别数据序列与参考序列之间差异的过程。zeromodewaveguideZMw
零模波导
把光能量定向限制于小于光波长尺度的区域范围的光波导。注:聚合酶被固定在ZMW的底部,通过判别荧光信号来识别结合到核酸链上的核苷酸分子的类别。4原始数据
4.1通则
序列中每个核苷酸宜匹配一个数值(碱基质量值),该值与碱基识别过程准确度相关(如适用)。4.2
2原始数据文件
序列读序文件宜使用仪器特定的软件或流程生成。每次测序实验中应实时监测并记录物理参数,如信噪比等。
序列读序文件宜设定适当的文件格式,包含每个序列读序的编码、相应的标识符以及每个核苷酸的碱基质量值。
注:FASTQ格式(或可转换为FASTQ格式)可作为MPS数据集质量分析的标准格式。FASTQ作为一种可跨平台交换的文件格式已被广泛接受生物信息学流程中宜采用适当的软件对测序生成的输出文件和相关质量指标进行分析。4.3原始数据的质量评估
4.3.1通则
质量控制指标可能因MPS平台、文库制备方法和分析目的差异而有所不同。5
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。