GB/T 34798-2017

基本信息

标准号： GB/T 34798-2017

中文名称：核酸数据库序列格式规范

标准类别：国家标准(GB)

标准状态：现行

出版语种：简体中文

下载格式：.zip .pdf

下载大小：1950466

相关标签：核酸数据库序列格式规范

标准分类号

关联标准

出版信息

标准简介

标准号：GB/T 34798-2017
标准名称：核酸数据库序列格式规范
英文名称：Formats specifications of nucleotide sequence database
标准格式：PDF
发布时间：2017-11-01
实施时间：2018-05-01
标准大小：1.87M
标准介绍：本标准规定了核酸数据库的序列格式，包括生物体基因组核酸序列特征规范制定的总则、序列描述格式规范、序列特征描述规范和序列格式规范等。
本标准适用于生物体基因组核酸数据库序列文件的编写。

标准图片预览

标准内容

ICS07.080
iiikAacJouaKA
中华人民共和国国家标准
GB/T347982017
核酸数据库序列格式规范
Formats specifications of nucleotide seguence database2017-11-01发布
中华人民共和国国家质量监督检验检疫总局中国国家标准化管理委员会
2018-05-01实施
iiKAa-cJouaKAa
规范性引用文件
术语和定义
缩略语
栈酸序列格式规范制定的总则
核酸序列推连规范
7核酸序列特征述规范
8核微序列格式现范
核酸序列文件整体格式规范
附录A资料性附录·技苷酸合义表附录B（资料性附录）
附录C（资料性附录）
附录D（资料性附录）
附录E（资料性附录）
附录F（资料性附录）
附录G（资料性团录）
参考文献
与核酸相关的特征关键词表
密码子表
修饰藏基表
限定词中英文对照表
核酸序列文件样例
行首大写学母舍义表
iriKAacJouaKA
GB/T34798-2017
iiKAa-cJouaKAa
本标准按照GB/T1.1-2009给出的规则起章iiKAa~cJouaKAa
GB/T34798-2017
本标准由全国生化检测标准化技术委员会（SAC/TC387)提出并归口本标雅起草单位：深圳华大基因研究院、深圳华大基因科技有限公司、广东省标准化研究院，广东产晶质量监督检验研究院、
本标准主要起罩人、魏晓峰、陈风珍、刘克、杜佳婷、李情、沈维燕、李启沉、谢强、王娟、谭嘉力宋菲辊黄江勇
iiKAa-cJouaKAa
1范围
核酸数据库序列格式规范
iiKAa-cJouaKAa
GB/T34798-2017
本标准规定了校酸数据库的序列格式，包括生物体基因组核酸序列特征规范制定的总则，序列述格式规范，序列特征描还规范和序列格式规范等本标准适用工生物体基因组核酸数据库序列文件的绩写2规范性引用文件
下列文件对于本文件的应用是必不可少的，凡是注日期的引用文件，仅注日期的版本适用于本文件。是不注日期的引用文件，其最新版本（包括所有的修改单）适用手本文件GB/T29859生物信息学术语
2C0003核苷酸和/或氨基酸序列表稚摩列表电子文件标准3术语和定义
GB/T29859界定的以及下列术语稚定义适用于本文件3.1
核酸数据库nucleic acid database以核酸序列为基本内容，并附有核酸序列注释信息的数据库，3.2
编码序列cudingsequence
编码段蛋自产物的序列始于起始密码子，终于终止密码子。3.3
序列组装
sequence assembly
基因组长序列打断之后形成较短的序列，通过算法和计算机的帮助，把这些短的序列组装起来成为一条完整有序的序列的过程
甲基化
mcthylation
蛋白质和核酸的种重要的修饰，调节基因的表达和关闭3.5
识别码identifier
某个体系中相对唯一的端码
位置location
个或一段碱基在另一段较长碱基上的相对座标位置。3.7
特征限定词feature qualifier
用来进一步措述序列的某一类特征的词。GB/T34798-2017
修饰碱基modified base
iiKAa-cJouaKAa
核酸中主要碱基（腺噪岭、鸟噪岭、尿童啶、胞略啶等）的修饰化合物，校酸转录之后经甲基化、乙酰化，复化氟化以及硫化而成，多半是主要碱基的甲基指生物4缩略语
下列错略语适用手本文件
CDS，编码序列（codingsequence)DDBJ：日本核酸数据库（DNAdatabankofJapan）EMBl.欧洲分子生物学实验室（europeanmolecularbiologylaboratory）Hiv人美免疫快陷纳毒humanimmunodefieiencyvirus)D，识别码Gdentifier）
Medline：医学文献资料库（medlarsonline）NCBI：美国国立生物技术信息中心（nationalcenterforbiotechnologyinformation）RNA：核耕校股(ribonucleicacidd)UTR非翻译区（untranslatedregions)5核酸序列格式规范制定的总则
5.1，核酸序列文件应能够与NCBI.EMBLDDBI等数据库进行共享5.2核酸序列特征描述具有准确性，清断性，简洁性和明确性，参见GB/T29859。5.3核酸序列特征内容具有实用性6核酸序列描述规范
序列名称
序列名称应特合以下要求
起）序列名称应为简短的序列达，包含序列的物种名，基因或蛋白名称及序列功能的简单指述：b）序列的物种名称命名参考林态的自然系统们一书中的生物学命名方式！除人类免疫缺陷病毒可用HIVI和HIV2表示，其他种属应给出属和种的全名，不宜使用通用名如（human）或居名缩写（如代表Homo sapiens的H.sapiens）。6.2序列编号
序列给号应保证一个序列号码对应个核酸序列，具有唯性，序列编号由调个字母加下划线加6个数字组成，DNA序列编号两个字母为NT（如NT123456）·RNA序列字母为NM如NM123456）.蛋白序列字母为NP如NP123456），整个染色体质粒等的基因组序列为NC（如NC123456，提交个新的序列会系统产生个新的序列销号，为保证序列的唯一性，当提交的序列在数据库中已经存在.序列将不能被提交6.3序列版本号
序列的版本号是由序列编号加个点号加版本号（如序列编号.版本号，NM123456.1），当一个序列改变，相应的版本号加1。
6.4序列长度
序列的长度宜大于50bp.无最大值限制6.5日期
iiKAa~cJouaKAa
GB/T34798--2017
日期应为序列最后被公开的日期，此信息只供用户参考，不具有法律保证，不能作为仲裁的判据，不能用来作为优先权声明或专利权请求的依据，日期的格式为dd-mmyyyy格式（如15-06-1991）6.6藏基总数
碱基总数应为出现在房列中碱基教日的总和，包括A心TG、U等城耳教之和·具体技酸含义表参见表A.1。
6.7分子类型
序列应注明分子类型，分子类型包括DNA和RNA两种类型。6.8测序类型
序列应注明测序的仪器类型
6.9组装软件及版本号
序列应注明序列组装所使用的软件：格式为软件名称加版本号，著只有一个版本，版本号可缺省。6.10序列参考文献
序列参考文献要求包括
a）每个核酸序列记录要求至少有一篇包含该序列数据的参考文献，如果是已经发表，宜有一个唯识别码，如Medine识刷码等宜提供指向文章数据库的鞋接，如果未发表，则标识为Unpublished
b）参考文献包含文献的标题，应为引用文献的标题全名：包含文献作者，应为引文的全部作者名称，以及包含发表的杂志名称，卷，期，页码，年号，如Yeas1011）.1503-150961994Y若引用的参考文献为书本，应包括书本端辑的名称，书的题日，引用的页码，出版者名称年份精息
7核酸序列特征描述规范
7.1关键特征
序刻的美键特征需满足以下要求n-个序列特征可包含多个关键特征如CDS、gene等，与核酸相关的特征关键词表参见表B.14每个关键特征包含位置和限定调两部分：b5）核酸序列关键特征同的定义和分类按照ZC0003的规定执行7.2序列位置描述
序列的位置措述类型包括：
地单个碱基，如23，表示第23基！b）一个连续的贼基序列，第一个和最后一个破基用两个点号分开，如23..79，表示从23和79之3
GB/T34798-2017
iiKAa~cJouaKAa
间的碱基疗列。若为互补链，需要在碱基位置前面加complemen.如complement（33oo4037）若为5端部分序列.需要在前面加（如CDS1.206），若为3端，需要在后面加）（如CDS435..915)0:
两个碱基之间的一个位点，用并分十1表示，两个基之间用尖括号分开，如核截内切臂位点，2321，表示第23个和第21个碱基之间的-个位点对手一个环形的分子来说，用1表示，其中载表示分子的总长度，如10001表示环形分子总长度为1000从一系列碱基选出的单个碱基，第一个碱基和最后一个碱基用点号分开，如23.79，表示被选的单个贼基在第23和第79贼基之间：e）多个不连续的序列，用join连接，表示为join（位置1，位置2+位置），如join（23..79，100160-200..245
7.3特征限定词
7.3.1特征限定词表示方法和类型7.3.1.1限定词的命名可以包含大写字母（A~Z），小写字母（a~z）和数字（0～9）、下划线（）连字符号单号或撒号）星号）
7.3.1.2序列特征限定词提供了序列特征额外的信息，可以用”“给限定间赋值，如note一“text”，限定词色含的信息美型有：
载文本，文本信息应用效引号标记：b）引用，引用的数宇宜用方括号“们”与其他数学区别开来；序列，序列应该用双引号标记.如“atgeatt”e
7.3.2限定调定义和分类
限定调的定义
限定词的定义包括：
a）反密码子：IRNA分子二级结构的反密码环中部的三个相邻的与mRNA上的密码子互补配对基：
密码子RNA分子中每相邻的三个核苷酸编成一组在蛋白质合成时，代表某一种复基酸·出b
码子表参见表CL:
）交叉引用数据库，交叉引用数据库应为支持该核首酸序列的其他数据库资源，交叉引用数据库宜包含数据库的名称以及交叉引用识别码，数据库和识别码中间用““隔开，如BioProfect：PRINA177352，其中BioProject为数据库名称.PRJNA177352为识别码。若引用一个数据库的多个识别码，直接并排引用多个识别码，如BioProject：PRJNA174162，PRJNA999998：方向·DNA复制的方海
额率：某一特征发生的颗率！
修饰破基：在ATGC四种的不同部位甲基化或进行其他的化学修饰面形成的循生物，主要修饰碱基及其简写参见表D.1
遗传元素编号：主要指外显子或内含子从5到.3.组号，如number2表示第2个外显子h）产物：序列编码的产物名称，7.3.2.2
限定词中英文对照表
限定词中英文对照表参见表E1
核酸序列格式规范
iiKAa~cJouaKAa
GB/T347982017
核背酸序列宜有开始和结束标志，序列以ORIGIN开头，序列在ORIGIN的下一行，只包含序列数据。序列以“/“结尾.ORIGIN和17”单独为行。序列行不宜超过60个碱基，每10个核首酸碱基后空一格，该行的行首标明本行序列第一个融基的端号示例
ORIGIN
1gatcctecat
nacRimt
icct caggtitaga reteaacaar ggaaccattg61 ccgucatgag acagttaget atcgticgaga gttacaagct aaaacgagca gtagtcagci12I cugcatetg折商gecgtgan Rtetactaa#egtan海tia cntcatcett gcanmasc核酸序列文件整体格式规范
序刻文件每行首部使用相应的大写字母标识核酸的列描述，序列特征捕速序刻值惠等不能超过16个学特印两个b格妞“SEONAME慧：限定同从第9个学行童置开婚，如核酸序列文件样例中的CDS”，核酸序列文件样例参见附录F序列措述内容部分从第17个字符位置开始，限定词描达部分从第25个字待位置开始技算序列指的大马学母标识含文参见表GGB/T34798--2017
核苷酸含义见表A.1
蒙或a
附录A
资料性附录5
核苷酸含义表
核苷酸含义下载标准就来标准下载网
婴或x/u
a或t/u
g或c或u
a城g或t/u
a减e或t/u
#或g成c
a或g或c或u米知，或其他
iiKAa~cJouaKAa
名称的来源
藤嘌岭
鸟曦岭
腹瞻啶
慕馨院
绿噬靛
强作用H键
职作用艺程键
非非荘
小提示：此标准内容仅展示完整标准里的部分截取内容，若需要完整标准请到上方自行免费下载完整标准文档。