首页 > 商检行业标准(SN) > SN/T 4714-2016 DNA条形码数据库技术规范
SN/T 4714-2016

基本信息

标准号: SN/T 4714-2016

中文名称:DNA条形码数据库技术规范

标准类别:商检行业标准(SN)

标准状态:现行

出版语种:简体中文

下载格式:.zip .pdf

下载大小:21477779

相关标签: DNA 条形码 数据库 技术规范

标准分类号

关联标准

出版信息

相关单位信息

标准简介

SN/T 4714-2016.Technical specification for DNA barcodes database.
1范围
SN/T 4714规定了DNA条形码的分类代码、实体编码、属性数据的结构、数据库构建、运行与维护等技术规范。
SN/T 4714适用于指导检疫性有害生物DNA条形码数据库建设及数据交换。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 2260- -2007 中华 人民共和国行政区划代码
SN/T4621医学媒介生物标本编码规范
3术语和定义
下列术语和定义适用于本文件。
3.1DNA条形码 DNA barcode
生物体内能够代表该物种的、标准的、有足够变异的、易扩增的DNA特征片段。
3.2候选基因candidate genes
使用DNA条形码进行物种鉴别时供选择的基因。理想的候选基因具有如下特点:种间遗传距离显著大于种内遗传距离,且重叠区小或无。常用的候选基因有线粒体细胞色素C氧化酶1亚基(COI)基因、rDNA ITS序列、质体trnH- psbA 序列、叶绿体rbcL序列等。
3.3聚合酶链式反应polymerase chain reaction PCR
一种分 子生物学技术,用于扩增特定的DNA片段。在该反应中,使用与目的DNA序列互补的寡核苷酸作为引物,进行多轮的DNA合成。其中包括DNA变性,引物退火和在聚合酶催化下的合成。
3.4测序实验信息sequencing run information
测定DNA条码相关的包含PCR扩增引物、测序引物、实验流程、测序时间、测序机构、测序原始峰图等的信息。

标准图片预览






标准内容

中华人民共和国出入境检验检疫行业标准SN/T4714—2016
DNA条形码数据库技术规范
Technical specification for
DNAbarcodes database
2016-12-12发布
中华人民共和国
国家质量监督检验检疫总局
2017-07-01实施
中华人民共和国出入境检验检疫行业标准
DNA条形码数据库技术规范
SN/T4714—2016
中国标准出版社出版
北京市朝阳区和平里西街甲2号(100029)北京市西城区三里河北街16号(100045)总编室:(010)68533533
网址spc.net.cn
中国标准出版社秦皇岛印刷厂印刷开本880×12301/16
2017年11月第
印张2.5
字数74千字
2017年11月第一次印刷
印数1—500
书号:155066·2-32160
定价36.00元
本标准按照GB/T1.1—2009给出的规则起草本标准由国家认证认可监督管理委员会提出并归口。SN/T4714—2016
本标准起草单位:中国检验检疫科学研究院、国家质量监督检验检疫总局信息中心、中华人民共和国广东出入境检验检疫局、中国科学院微生物研究所。本标准主要起草人:蒋弘山、张燕平、雷荣、岳巧云、马骏、陈克、刘力。I
1范围
DNA条形码数据库技术规范
SN/T4714—2016
本标准规定了DNA条形码的分类代码、实体编码、属性数据的结构、数据库构建、运行与维护等技术规范。
本标准适用于指导检疫性有害生物DNA条形码数据库建设及数据交换2规范性引用文件
下列文件对于本文件的应用是必不可少的,凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件其最新版木(包括所有的修改单)适用于本文件。GB/T22602007:中华人民共和国行政区划代码SN/T4621医学媒介生物标本编码规范3术语和定义
下列术语和定义适用于本文件
DNA条形码
DNA barcode
生物体内能够代表该物种的、标准的、有足够变异的、易扩增的INA特征片段。3.2
候选基因
candidate genes
使用DNA条形码进行物种鉴别时供选择的基因。理想的候选基因具有如下特点:种间遗传距离显著大于种内遗传距离,且重叠区小或无。常用的候选基因有线粒体细胞色素C氧化酶I亚基(CO1)基因、rDNAITS序列、质体trnH一psbA序列、叶绿体rbcL序列等。3.3
聚合酶链式反应polymerasechainreactionPCR一种分子生物学技术,用于扩增特定的DNA片段。在该反应中,使用与日的DNA序列互补的寡核首酸作为引物,进行多轮的DNA合成。其中包括DNA变性,引物退火和在聚合酶催化下的合成。3.4
测序实验信息
sequencingrun information
测定DNA条码相关的包含PCR扩增引物、测序引物、实验流程、测序时间、测序机构、测序原始峰图等的信息。
voucherspecimen
凭证标本
具完备的采集、鉴定信息(采集人、日期、地点、生境、鉴定人、种名等),用于物种复核、引证、溯源并永久保存的标本(或腊叶标本)。1
-TTTKAONiKAca
SN/T4714—2016
参考物质referencematerial
某些具有确定含量或组分,在实际样品定量/定性测定中用作计算被测物质的组分含量的直接或间接的参照标准的一类物质
标本图片specimenphotograph
反映标本形态学信息的图片,包含宽度、高度、文件类型等信息。3.8
taxonomyinformation
分类学信息
由林奈分类法界定的包括界、门、纲、目、科、属、种的分类学信息。3.9
分布地点
distributionsite
包括经度、纬度、海拔的位置集合3.10
机构代码institutioncode
用于唯一标识检疫系统内部机构或与检疫相关的组织机构的6位数字代码。3.11
数据库database
按照数据结构来组织、存储和管理数据的仓库3.12
服务器server
也称伺服器。通常指一个管理资源并为用户提供服务的计算机软件,分为文件服务器、数据库服务器和应用程序服务器等。运行以上软件的计算机或计算机系统也被称为服务器。3.13
DNA(deoxyribo Nucleic acid)
脱氧核糖核酸。
coI(cytochrome C oxidaseI
线粒体细胞色素C氧化酶I亚基,为最常见的DVA条形码基因。3.15
ITS(internal transcribed spacer)核糖体转录间隔区,常作为植物的DNA条形码基因。3.16
BOLD (barcode of life data)
生命条形码系统,总部设在加拿大的全球最大的DNA条形码数据库系统。3.17
NCBI(national centerforbiotechnologyinformation)美国国家生物技术信息中心。
ER(entity relationship diagram)实体关系图,用于设计数据库系统的一种图形表示。2
TKAONiKAca
4数据编码规则
基本内容
DNA条形码数据主要包含如下数据实体:a)
样本/标本:
参考物质;
DNA条形码;
数字影像。
编码规则
Attributes
获取方式
实体类型分类
检疫类群
SN/T4714—2016
数据编码由数据分类和数据属性两部分组成·具体规定为:起始为表示数据分类的3字母编码.之后为对应的数据属性编码。两部分之问通过””号连接4.2.2分类的表示
第1位
检疫类群
啮齿动物
节肢动物
原生生物
非检疫真菌
对应英文
Inseet
Nemarode
mollusc
Bacteria
Fungus
Glires
aRthropod
Animal
protozoa
archaea
第2位免费标准下载网bzxz
实体类型
分类的表示
样本/标本
参考物质
DNA条
字影像
对应英文
Specimen
Referer
第3位
获取方式
双端测序
单端测序
克隆测序
数字照相
显微照相
对应英文
Collect
Interecpt
Extraet
Paired
Single
Vectar
Digital
Micror
Unknown
iKAoNiKAca
SN/T4714—2016
第1位
检疫类群
非检疫细菌
对应英文
bacteria
chromista
Unknown
第2位
表1(续)
实体类型
对应英文
第3位
获取方式
第1位检疫类群的说明(参考http://catalogueoflife.org/中的物种分类):1-1、昆虫(1)表示检疫性有害的昆虫纲物种;1-2、线虫(N)表示检疫性有害的线虫动物门物种;1-3、蜗牛(O)表示蜗牛等检疫性有害的软体动物门物种;1-4、杂草(W)表示检疫性有害的植物物种:1-5细菌(B)表示检疫性有害的细菌界物种:1-6、真菌(F)表示检疫性有害的真菌界物种:1-7、病毒(V)表示检疫性有害的病毒界物种;1-8、啮齿动物(G)表示能够传播疫病的媒介生物中的啮齿目物种;1-9、节肢动物(R)表示能够传播疫病的媒介生物中的节肢动物门物种;1-10、动物(A)表示除传统检疫类群之外的属于动物界的物种;1-11、植物(P)表示除传统检疫类群之外的属于植物界的物种:1-12、原生生物(z)表示除传统检疫类群之外的属于原生生物界的物种;1-13、非检疫真菌(f)表示除传统检疫类群之外的属于真菌界的物种:1-14、古菌(a)表示除传统检疫类群之外的属于占菌界的物种;1-15、非检疫细菌(b)表示除传统检疫类群之外的属于细菌界的物种;1-16、色藻(c)表示除传统检疫类群之外的属于色藻界的物种;第2位实体类型的说明:
2-1、样本/标本指通过野外采集或者口岸截获得到的生物样本或生物标本;2-2、参考物质主要指核酸、菌液或者克降载体等用作定性的标准参考物质:2-3、DNA条形码指像条形码一样能够唯一标识生物所属物种的DNA特征片段:编码
2-4、数字影像指用做形态学特征存档用的数字图片或视频,常用于构建数字图书馆;第3位获取方式的说明:
3-1、采集指科学考察类的野外采集;3-2、截获指口岸检疫过程中截获;33、提取指通过物理化学方法提取;3-4、双端测序指通过正链和反链两个方向对DNA片段进行测序;3-5、单端测序指仅通过正链一个方向对DNA片段进行测序;对应英文
3-6、克隆测序指通过构建vector载体将待测片段插入载体再测序,它通常比用PCR扩增得到的序列更可靠;
3-7、数字照相指通过数码相机进行照相;3-8、显微照相指通过带有照相功能的高倍显微镜照相;第2、3位合法的编码组合有:SC、SI、SU、RE、RU、BP、BS、BV、BU、PD、PM、PU。-KAONTKAca
4.2.3属性的表示
SN/T4714—2016
编码格式:(格式名称)/属性编码。其中,由圆括号包含的格式名称”为可选项(不指明时采用默认格式),表示属性编码所采用的国家标准或行业标准的名称,如:(GB/T15514)和(GA24.4)。4.2.4默认的属性编码格式
4.2.4.1采集标本的属性
编码格式:采用与SN/T4621相兼容的规范,其格式为:类群/标本序号/-采集地点/-采集日期/-保地点/-物种名。以下为具体的格式说明:a)类群用该类群的英文名称的首三位的缩略语大写学母表示;b)标本序号直接用数字表示,为该类生物的流水号,位数为5位;c)采集地点由表示地区的两位国家代码(参见附录A)加不含前导零的地区区号以及表示具体地名的英文组成(其体地名的拼写采用每个单词的首字母为大写,其他字母均为小写的命名方式,即大骆驼(UCC.UpperCamelCase)命名方式,如无具体地点,用U表示);如果采集地点在国内,亦可以采用6位行政区划代码(参见GB/T2260—2007)十具体的采集地全小写英文名表示,如:采集地在辽宁朝阳凤凰山,则表示为2111301fenghuangshan;采集日期的格式为YYYYMMDD
保存地点为我国检疫机构的,用其对应的6位检验检疫机构代码表示,参见J2B2一2008:保存地点非我国检疫机构的,用“0”十3位国家代码十“00”或“00”十2位国家代码十“00”表示,参见附录A。如:广东中山出人境检验检疫局为442000,葡萄牙某机构用062000;f)物种拉丁名称的拼写采用大骆驼命名方式。示例1:2012年8月2日在广东中山(国家代码CN,区号十86760)小榄采集的鉴定为红头丽蝇的第1号蝇类保存在中山局的标本编号为:
ISC-FLY00001-CN760XiaoLan-20120802-442020-CalliphoraVicina,或者ISC-FLY00001-442000xiaolan-20120802-442020-CalliphoraVicina示例2:2011年7月16日在北京(国家代码CN,区号-8610)房山采集的鉴定为褐家鼠的第5号鼠类保存在中山局的标本编号为:
GSC-MOU00005-CN10FangShan-20110716-442000-RattusNarvegicus,或者GSC-MOU00005 110111fangshan-20110716-442000-RattusNorvegicus示例3:BOLD纪录号为CDFD001-12的在2011年3月30日在葡萄牙(Portugal,国家代码PT)里斯本(Lisban,区号+35121)采集的第1号红头丽蛇保存在UriversidadedeLishoa(非检疫机构代码0620)的样本编号为:ISC-FLY00001-PT21U-20110330-062000-CalliphoraVicina。4.2.4.2截获标本的属性
编码格式:采用SN/T4621,其格式为:类群/标本序号/-国家/(起运港口)/截获口岸/-截获日期/保存地点/-物种名。为了便于整体说明,将其中对截获标本的编码格式摘要如下:a)类群用该类群的英文名称的首三位的缩略语大写字母表示,与4.2.4.1a)同;b)标本序号直接用数字表示,为该类生物的流水号,位数为5位,与4.2.4.1b)同;用国家或地区的电话直拨代码十2位国名缩写代替,具体参见附录A;d)起运港口用该港的英文名十起运港类别十携带工具类别表示。起运港类别:海港为S(Seaport),空港为A(Airport),陆港为G(Ground)。携带工具:船舶为S(Ship),飞机为P(Plane),火车为T(Train),集装箱为C(Container),行李为L(Luggage).邮包为B(Box),货车为V(Vchicle)。如:剑桥港的英文为CAMBRIDGE,表5
KANKAca
SN/T47142016
示为(CAMBRIDGE),无法确定起运港着用(V)表示。海港船舶为S(S),空港飞机为A(P),海运集装箱为S(C),陆运火车为GT)陆运货车为G(V)e
截获口岸用该口岸或者办事处检验检疫局的统一机构代码(参见附录B)表示,如:中华人民共和国樟木出人境检验检疫局的业务代码为540100:截获日期的格式为YYYYMMDD,与4.2.4.Id)同;f
保存地点用保存所在地检验检疫机构业务代码(参见附录B)表示,与4.2.4.1e)同:物种拉丁名称的拼写采用大骆驼命名方式:h)
示例4:如于2012年8月2日在西藏樟木口岸截获的装载港为英国剑桥陆港的蝇类鉴定为红头丽蝇的第1号标本,保存地点为广东中山局(代码442000):IVIFLY00001-44GBECAMBRIDGE G(1200-Cattiphara Vicina
示例5:如于2012年8月2日在湖南检验检疫局湘百局(代码:430900)截获的来自英国海港无法确定准确来源地区的蝇类鉴定为红头丽蝇的第2号标本,保存地点为广东中山局(代码:442000)IVI-FLY00002-44GBLU-S(C)I430900-20120802-442000-4.2.4.3未知标本的属性
HiohoraVicina
编码格式:其格式为:类群/标本序号/-保存日期/-保存地点/物种名。类群用该类群的英文名称的首三位的缩略语大写字母表示,与4.2.4.1a)同;a
标本序号直接用数字表示,为该类生物的流水号,位数为5位,与4.2.4.1b)同:保存日期的格式为YYYYMMDD.与4.2.4.1d)同;保存地点用保存所在地检验检疫机构业务代码(参见附录B)表示,与4.2.4.1e)同;物种拉丁名称的拼写采用大骆驼命名方式,参考物质的属性
编码格式:类别/物质序号/-送样机构/-收藏日期/-保存地点/-物种名a)
类别:蛋白质为P,核酸为
N.菌株为S.病毒粒子V
示,为该类物质的流水号,位数为5位:物质序号直接用数字表示
送样机构用送样单位的检验检疫机构业务代码表示;收薇H期的格式为YYYYMMDD,与4.2.4.1d)同;d
保存地点用保存所在地的检验检疫机构业务代码表示:f
物种拉丁名称的拼写采用大骆驼命名方式。示例6:如于2014年3月7日由中科院植物所送样的病毒粒子,被鉴定为黄瓜花叶病毒的第5号参考物质,保存地点在中国检验检疫科学研究院:VRE-V00005-993106-20140307-909006-CucumberMosaicVirus4.2.4.5DNA条形码的属性
编码格式:基因编码/序号/-区域/(正向引物/,反向引物)/-测序日期/-测序地点基因编码见表2。
表2基因编码表
DNA条形码基因
线粒体COI基因
叶绿体matK基因
叶绿体rbeL基因
双字母
美文名
DNA条形码基因
叶绿体trnH.psbA基因
核糖体基因间区
细菌16S核糖体RNA基因
其他基因
表2(续)
双字身
序号直接用数字表示,为DNA条形码的流水号,位数为5位;区域为:V1、V2、V3等
引物序列为IUPAC编码的字符
测序日期的格式为YYYYMMDD,与4.2.4.1d)同;测序地点用测序所在地的检验检疫机构业务代码表示SN/T4714-2016
英文名
trnH-psbA
示例7:如于2014年3月7日由中国检科院(双向2测序的细菌16SrDNA基因的V3、V4区,正向引物为ACTC-CTACGGGAGGCAGCA,反向引物为GGACTACIIVGGGTWTCTAAT的第1号DNA条形码数据:BBP-SR00001-V3V4(ACTCCTACGGGAGGCAGCA.GGACTACHVGGGTWTCIAATD-20140307-909000.4.2.4.6
数字影像的属性
编码格式:文件格式/序号/-拍摄日期/-拍摄地点/-物种名a)
文件格式包括:JPG、BMP、PNG、GIF等;序号直接用数字表示,为该格式文件的流水号,位数为5位:拍摄日期的格式为YYYYMMDD,与4.2.4.1d)同:拍摄地点用拍摄所在地的检验检疫机构业务代码表示;d
物种拉丁名称的拼写采用大骆驼命名方式。e)
示例8:如于2012年8月2日在中国检科院拍摄的红头丽蝇的第2号标本,文件格式为JPG:IPD-JPG00002-20120802-909c00-CalliphoraVicina.5数据库建设
5.1流程
数据库建设的基本流程为:
确定数据库建设总体目标;
进行户调查和需求分析;
进行数据库的总体设计和详细设计(包括概念设计、功能设计,逻辑设计、物理设计和安全设计等);
根据设计要求建立集成化软硬件环境;创建库体结构,开发功能模块;将各种数据在经过人库检查和数据处理后加载到数据库中,并进行数据集成和功能集成;g)系统测试、数据库验收。在建设完成后开始数据库的运行、服务和维护、更新。具体建库流程如图1所示,其中数据准备是数据库建设的重要组成部分,所生产的数据应符合有关的技术规定,并满足数据库建库的要求。7
SN/T4714—2016
5.2系统设计
5.2.1需求分析
创建数据库
需求分析包括以下:
DNA条形码数据库建设
需求分析
数据库设计
数据准备
入库前检查
是否合格
数帮入库
DNA条形码数据库
图1DNA条形码数据库建库流程
a)采集标本方面:为厂有效测定遗传多样性,以便精确地进行物种分类和物种鉴定,每个物种需要采集多个标本(通常为10~100个个体),对于凭证标本还需要记录馆藏信息,以使发生争议时能够追根溯源;
参考物质方面:需要记录馆藏信息、保藏条件等,以便发生争议时能够追根潮源;b)
条码基因方面:根据测序数据和进化分析的结果确定理想的候选基因或者基因组合,需要记录用PCR扩增条码基因区序列所需要的正反向引物序列、扩增反应条件等:数字标本库方面:按照《标本数字化制作规范》建立数字图片,同时记录对应的物种信息:d)
物种鉴定的需求:作鉴定时将未知样本的条码信息与已知物种的DNA条码信息进行序列比对,确定可能的物种鉴定结果,并给出统计显著性计量。做数据库设计时,需要记录实验信息、原始数据、相关负责人、时间、地点等信息,并且实现信息的分级管理。从数据安全的角度考虑,除了需要设计用户登录认证机制,还需要对关键数据进行版本管理,以使在误操作之后能够恢复正确数据。5.2.2质量要求
数据库中的数据应满足如下要求,完整性:数据库中的数据不应有遗漏和重复,数据集之间关系应完整,尽量减少穴余,不同类型a
的数据和数据集之间的集成关系应当完全正确逻辑一致性:实体类别、数据结构、属性及各要素问的关系应保持一致;数据项的取值应在值b)
域的界定范围内;数据存储应与数据集物理结构及规定格式保持一致。c)
属性准确性:实体的属性项及其名称、类型、长度、顺序和值应完整正确。现实性:应按需求定期或及时对数据进行更新,保持数据的现实性,相关属性中应包含时间标识。
5.2.3概念模型设计
SN/T4714—2016
采用自底向上的概念设计方法进行DNA条形码概念设计,即先抽象形成局部概念设计,再集成局部设计形成总体概念设计视图,首先对DNA条形码相关的各类数据进行归类、抽取:其次确定局部应用中的实体、属性、实体编码;最后确定实体之间的联系及其类型。DNA条形码数据实体及属性主要包括:a)样本(标本)实体:基本属性包括样本编码(编码方式见“4.2.4.1采集标本的属性\和“4.2.4.2截获标本的属性”中的编码规定)、林奈分类信息、采集(截获)日期、采集地(截获口岸)、保存地点等,扩展属性包括鉴定者、采集者(截获人)、组织类别(肌肉组织等)、组织类型(冰冻、福尔马林浸泡等)、性别、所属生命期、寄主信息等;参考物质实体:基本属性包括物质类型(核酸、菌种)、送样机构、收藏日期、保存地点,扩展属b)
性包括保藏条件(温度、湿度、营养液等)等;DNA条形码实体:基本属型包括条码基因名称、正反向PCR扩增引物、条码核酸序列等,扩展c
属性包括测序实验信息,如测序时间、测序机构、测序原始峰图等;数字影像实体:基本属型包括所属物种、文件格式(JPG、BMP等)、宽、高,扩展属性包括对应d)
样本标识、拍摄者、拍摄时间、拍摄地;用户实体:基本属型包括用户名称、口令密文、姓名、单位代码、电子邮件地址。e
依据DNA条形码数据实体及属性确定实体关系图(ER图),如图2所示:样本
样本编码T
物种分类T
采集日期
采集地
保存地点
DNA条形码
基因名称T
正向引物T
反向引物T
核酸序列T
参考物质
物质类型
送样机构
收藏日期
保存地点
口令密文
单位代码
电邮地址
数字影像
物种分类
文件格式
链接地址
图2DNA条形码数据库基本实体关系图T
其中属性数据类型表示为:T(Text)文本类型D(Date)日期类型,C(Character)字符类型,#(Number)数字类型。
用户对样本、DNA条形码、参考物质以及数字影像的管理权限可以通过相应的关联表来控制。通过增加“项目”表,还可以以项目为权限控制单位来组织对各类实体的管理。通过增加版本属性或时间戳属性的方式还可以实现版本控制。5.2.4功能设计
数据展示
可通过DNA条形码信息系统进行可视化的DNA条形码数据管理,具有图形、图像的缩小、放大和9
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。