首页 > 国家标准(GB) > GB/T 7027-2002 信息分类和编码的基本原则与方法
GB/T 7027-2002

基本信息

标准号: GB/T 7027-2002

中文名称:信息分类和编码的基本原则与方法

标准类别:国家标准(GB)

英文名称:Basic principles and methods for information classifying and coding

英文名称:Basic principles and methods for information classifying and coding

标准状态:现行

发布日期:2002-07-18

实施日期:2002-12-01

出版语种:简体中文

下载格式:.rar.pdf

下载大小:KB

标准分类号

标准ICS号:综合、术语学、标准化、文献>>01.120标准化总则

中标分类号:综合>>标准化管理与一般规定>>A00标准化、质量管理

关联标准

替代情况:GB/T 7027-1986

采标情况:ISO/IEC TR 9789-1994(E)

出版信息

出版社:中国标准出版社

书号:155066.1-19111

页数:平装16开, 页数:18, 字数:31千字

标准价格:13.0 元

出版日期:2002-12-01

相关单位信息

首发日期:1986-11-25

复审日期:2004-10-14

起草人:李小林、冯卫、胡嘉璋

起草单位:中国标准研究中心

归口单位:中国标准研究中心

提出单位:中国标准研究中心

发布部门:中华人民共和国国家质量监督检验检疫总局

主管部门:国家质量监督检验检疫总局

标准简介

本标准规定了信息分类编码的基本原则和方法,适用于各类信息分类编码标准的编制。 GB/T 7027-2002 信息分类和编码的基本原则与方法 GB/T7027-2002 标准下载解压密码:www.bzxz.net
本标准规定了信息分类编码的基本原则和方法,适用于各类信息分类编码标准的编制。


标准图片预览






标准内容

ICS01.120
中华人民共和国国家标准
GB/T7027—2002
代替GB/T7027—1986
信息分类和编码的基本原则与方法Basic principles and methods for informationclassifying and coding
集团有限公
资料室
2002-07-18发布
中华人民共和国
国家质量监督检验检疫总局
2002-12-01实施
规范性引用文件
术语和定义
4信息的分类与编码
4.1信息分类
4.2信息编码
5信息分类的基本原则
5.1科学性
系统性
5.3可扩延性
5.4兼容性
5.5综合实用性
6信息分类的基本方法
线分类法
面分类法
6.4混合分类法
7信息编码的基本原则
唯一性 ·
合理性
可扩充性
简明性
适用性
规范性
8信息编码的基本方法
代码类型
代码特征
代码表现形式
8.5代码设计
8.6代码赋值约定.
附录A(资料性附录)各种信息分类编码方法的优缺点A.1信息分类方法优缺点
A.2各种类型代码编码方法优缺点业
GB/T 7027—-2002
GB/T7027-2002
本标准是对GB/T7027一1986标准化工作导则信息分类编码的基本原则和方法》的修订。在信息编码部分内容上,本标准参考了国际技术报告ISO/IECTR9789:1994(E)《信息技术一数据交换用数据元素组织与表示指南一编码方法与原理》,采纳了其中比较成熟的相关技术内容。本标准代替GB/T7027一1986《标准化工作导则信息分类编码的基本原则和方法》。同GB/T7027一1986相比,本次修订所作的主要修改是:一修改了标准的名称。标准名称改为《信息分类和编码的基本原则与方法》。一标准的总体编排和结构按GB/T1.1一2000进行了修改增加了目次,前言,引言和附录A对原标准的内容进行了相应的增删。增补的内容包括:第2章”规范性引用文件”,第3章“术语和定义”和第4章“信息的分类与编码”概述。删除的内容是:原标准的第2.4条“代码的校验“的有关算法。
对原标准的结构进行了调整:原标准的第1.1条“信息分类的基本原则”调整为第5章,原标准的第1.2条“信息分类的基本方法”调整为第6章,原标准的第2.2条“编码的基本原则”调整为第7章,原标准的第2.3条“代码的种类”和第2.5条“代码的类型”与ISO/IECTR9789的相关技术内容经过整理共同构成第8章“信息编码的基本方法”,原标准中分散叙述的各个信息分类和编码方法的优缺点集中汇总调整为“附录A各种信息分类编码方法的优缺点”。对原标准中的代码名称进行了若干项调整:原标准中的“特征组合码”对应于本标准的“并置码”,原标准中的”复合码”对应于本标准的“组合码”,原标准中的“数值化字母顺序码”被本标准的“约定顺序码”所涵盖。
在信息分类编码标准化领域,本标准应与GB/T20001.32001《标准编写规则第3部分:信息分类编码》和GB/T10113《分类编码通用术语》两项标准配套应用。本标准的附录A是资料性附录。
本标准由中国标准研究中心提出并归口。本标准主要起草单位:中国标准研究中心。本标准主要起草人:李小林、冯卫、胡嘉璋。GB/T7027于1986年11月首次发布本次修订为第一次修订GB/T7027—2002
在通常情况下,人们对信息的理解是:一切有含义的具体或抽象事物或概念的真相及相关陈述,通过数据、消息及其进一步细节表达出来。在信息分类编码领域,信息的表现形式是数据。客观,明确的信息是计算机建立信息系统以及数据在其中进行交换的先决条件。在信息系统中,数据是用字符(通常为数字或字母)算术符号以及描述来表示,这些表示形式应该对其所涉及的每一个数据都有一个明确稳定的含义,从而达到处理与交流的目的。信息要被不同用户组或应用系统所共享,就必须有一致认可的定义,举例来说,要有概念的语义含义(内涵)、概念的全部实例(外延)以及一致认可的表示法。对各类信息概念的正确理解需要依赖于信息分类:对各类信息作出一致认可的表示需要依赖于信息编码。
1范围
信息分类和编码的基本原则与方法GB/T7027-2002
本标准规定了信息分类编码的基本原则和方法,适用于各类信息分类编码标准的编制。2规范性引用文件
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。GB/T1988—1998信息技术信息交换用七位编码字符集(eqvISO/IEC646:1991)GB2312—1980信息交换用汉字编码字符集基本集GB/T22602002中华人民共和国行政区划代码GB/T2659-2000世界各国和地区名称代码(eqvISO3166-1:1997)GB/T46572002中央党政机关,人民团体及其他机构代码GB/T74081994数据元和交换格式信息交换日期和时间表示法(eqvISO8601:1988)GB/T10113分类编码通用术语
GB11643—1999公民身份号码
GB/T13745-1992学科分类与代码GB/T14721.1-1993林业资源分类与代码森林类型GB/T14805-1993用于行政,商业和运输业电子数据交换的应用级语法规则(idtISO9735:1988)
GB/T177101999数据处理校验码系统(idtISO7064:1983)3术语和定义
GB/T10113中确立的术语适用于本标准4信息的分类与编码
4.1信息分类
信息分类是根据信息内容的属性或特征,将信息按一定的原则和方法进行区分和归类,并建立起定的分类体系和排列顺序。
信息分类有两个要素:一是分类对象,二是分类的依据。分类对象由若干个被分类的实体组成。分类依据取决于分类对象的属性或特征。信息内容属性的相同或相异,形成了各种不同的类。在信息分类体系中,类可称为类目。4.2信息编码
信息编码是将事物或概念(编码对象)赋予具有一定规律、易于计算机和人识别处理的符号,形成代码元素集合。代码元素集合中的代码元素就是赋予编码对象的符号,即编码对象的代码值。所有类型的信息都能够进行编码:如关于产品、人、国家、货币、程序、文件、部件等各种各样的信息。信息编码包含的内容有:数据表达成代码的方法,数据的代码表示形式、代码元素集合的赋值。信息编码的主要作用有:标识、分类、参照。GB/T7027-2002
标识的目的是要把编码对象被此区分开,在编码对象的集合范围内,编码对象的代码值是其唯一性标志,信息编码的分类作用实质上是对类进行标识;信息编码的参照作用体现在编码对象的代码值可作为不同应用系统或应用领域之间发生关联的关键字。5信息分类的基本原则
5.1科学性
宜选择事物或概念(即分类对象)最稳定的本质属性或特征作为分类的基础和依据5.2系统性
将选定的事物,概念的属性或特征按一定排列顺序子以系统化并形成一个科学合理的分类体系。5.3可扩延性
通常要设置收容类目,以保证增加新的事物或概念时,不打乱已建的分类体系,同时,还应为下级信息管理系统在本分类体票
5.4兼容性
应与相关标准(包
5.5综合实用性
分类要从系统
务,总要求的前提
出上进行延拓细化创造务
际标准)协调
局部问题放在系统整体中处理,达到系统最优健角度出发,把
量满足系统内各相关单位的实际需要信息分类的基本方
信息分类的
系分类法:面分
6.2线分类法
6.2.1方法
即在满足系统总任
方法有三种:线分类法、面分类法、混合分类法。其中线分类法又称层级分类法、体R
文称组配分类法。
线分类法是米
专对象(即被划分的事物或概念)接所选定的者于个属性或特行逐次地分成相应的一个有层
若干个层级的类目
美欢的
上位类,划分出的类
类目之间存在着并列
6.2.2示例
下位类.由
逐渐展开的分类体务
类目直接划分出来自
下位类与上位类
美之间存在着
这个分类件系中被划分的类目称为级各类被此称为同位类。同位类系
GB/T14721.1一199《余业资源分类与代码森林类型》是采用线分类去,并用五位数字代码进行表示的。该标准将森林类型务成个层级,第层级用等
三位数字表示森林类型组,第
位数字码表示森林植被型,第二层级用第层级用第四、五位数字表示森林类型,部分代码表见表1。表1
经济林
饮料林
茶叶林
咖啡林
可可林
鲜果林
苹果林
梨树林
桃树林
类型名称
在表1中,经济林相对于饮料林、鲜果林为上位类类目,饮料林、鲜果林相对于经济林为下位类类2
GB/T7027-2002
目,饮料林、鲜果林是同位类类目:同理,饮料林相对于茶叶林、咖啡林,可可林是上位类类目,茶叶林、咖啡林、可可林是饮料林的下位类类目,茶叶林、咖啡林,可可林是同位类类目6.2.3要求
a)由某一上位类划分出的下位类类目的总范围应与该上位类类目范围相等:当某一个上位类类自划分成若干个下位类类目时,应选择同一种划分基准:b
c)同位类类目之间不交叉、不重复,并只对应于一个上位类;d)
分类要依次进行,不应有空层或加层。6.3面分类法
6.3.1方法
面分类法是将所选定的分类对象的若干属性或特征视为若干个”面”,每个“面”中又可分成被此独立的若干个类目。使用时,可根据需要将这些“面”中的类目组合在一起,形成一个复合类目。6.3.2示例
服装的分类可采用面
成若干个类目,见表2
中长纤维
使用时,将有
6.3.3要求
根据需要选择
不同“面
每个“面”有
选服装所用材料,男女式样,服装款式作为三个“面”,每个“面”又可分表2
男女武样
中山装
连衣裙
服馨款式
组配起来。如纯毛男式中山装·中长纤维女式西服.等对象的各个“面”;
类对象本质的
属性或特征作为分
也不能重复出现:
日不应相互
的固定位置
这置的确定,根据实际需要而定。d)“面”的选择
6.4混合分类法
混合分类法是将线分
方法。
7信息编码的基本原则
7.1 唯一性
一种分类法为生,另一种做补充的信息分类面分类法组合使用,以其中
在一个分类编码标准中,每一个编码对家仅应有一个代码,一个代码只唯一表示一个编码对象7.2合理性
代码结构应与分类体系相适应。7.3可扩充性
代码应留有适当的后备容量,以便适应不断扩充的需要7.4简明性
代码结构应尽量简单,长度尽量短,以便节省机器存储空间和减少代码的差错率7.5适用性
代码应尽可能反映编码对象的特点,适用于不同的相关应用领域,支持系统集成7.6规范性
GB/T70272002
在一个信息分类编码标准中,代码的类型,代码的结构以及代码的编写格式应当统一。8信息编码的基本方法
8.1通则
编码方法应以预定的应用需求和编码对象的性质为基础,选择适当的代码结构。在决定代码结构的过程中,既要考虑各种代码的编码规则,又要考虑各种代码的优缺点(参见附录A),还要分析代码的般性特征,选取合适的代码表现形式,研究代码设计所涉及的各种因素,避免潜在的不良后果。8.2代码类型
图1根据代码的含义性(参见8.3.2条)给出了各种常用代码的类型。代码
无舍义代码
顺序码
健增服岸圈
8.2.1顺序码
8.2.1.1规则
系列服序
约定顺码
无序码
有含义代码
从一个有序的字符集合中顺序地取出字符分配给各个编码对象。这些字符通常是自然数的整数,如:以“1”打头:也可以是字母字符,如:AAA、AAB、AAC,8.2.1.2应用
顺序码一般作为以标识或参照为目的的独立代码来使用,或者作为复合代码的一部分来使用,后一种情况经常附加着分类代码。
在码位固定的数字字段中,应使用零填满字段的位数直到满足码位的要求。示例:在3位数字字段中,数字1编码为001,而数字15编码为015。8.2.1.3类型
顺序码有三种类型:递增顺序码、分组顺序码、约定顺序码。8.2.1.3.1递增顺序码
编码对象被赋子的代码值,可由预定数字递增决定。例如,预定数字可以是1(纯递增型),或者是10(只有10的倍数可以赋值),或者是其他数字(如:偶数情况下的2),等等。用这种方法,代码值不带有任何含义。相类似的编码对象的代码值不作分组为了以后原始代码集的修改,可能需要使用中间的代码值,这些中间代码值的赋值根据不必按1递增。
示例:GB/T26592000《世界各国和地区名称代码》中,部分国家和地区的数字代码(见表3)。4
国家和地区名称
阿富汗 AFGHANISTAN
阿尔巴尼亚 ALBANIA
阿尔及利亚ALGERIA
美属萨摩亚AMERICANSAMOA
安道尔ANDORRA
安哥拉ANGOLA
GB/T70272002
该标准中,后来增加的地区名称南极洲(ANTARCTICA)使用了中间代码值O1O,属于对原始代码集的增补。
8.2.1.3.2系列顺序码
这种代码首先要确定编码对象的类别,按各个类别确定它们的代码取值范围,然后在各类别代码取值范围内对编码对象顺序地赋子代码值。示例:GB/T4657一2002《中央党政机关、人民团体及其他机构代码》,就采用了三位数字的系列顺序码。
100~199
表示全国人大、全国政协、高检、高法机构200~299表示中央直属机关及直属事业单位300-399表示国务院各部委
700~799表示全国性人民团体、民主党派机关系列顺序码只有在类别稳定并且每一具体编码对象在目前或可预见的将来不可能属于不同类别的条件下才能使用。
8.2.1.3.3约定顺序码
约定顺序码不是一种纯顺序码。这种代码只能在全部编码对象都预先知道并且编码对象集合将不会扩展的条件下才能顺利使用。在赋予代码值之前,编码对象应按某些特性进行排列,例如:依名称的字母顺序排序,按(事件,活动的)年代顺序排序等。这样得到的顺序再用代码值表达,而这些代码值本身也应是从有序的列表中顺序选出的。
示例:按英文字母顺序排列的数值化字母顺序码(见表4)。表4
8.2.2无序码
8.2.2.1规则
Apples(苹果)
Bananas(香蕉)
Cherries(樱桃)
Dates(枣)
无序码是将无序的自然数或字母赋子编码对象。此种代码无任何编写规律,是靠机器的随机程序编写的。
8.2.2.2应用
无序码既可用作编码对象的自身标识,又可作为复合代码的组成部分(复合代码的其他部分则以其他编码规则为基础)。
GB/T70272002
8.2.3缩写码
8.2.3.1规则
这种代码的本质特性是依据统一的方法缩写编码对象的名称,由取自编码对象名称中的一个或多个字符赋值成编码表示。
8.2.3.2应用
缩写码能有效用于那些相当稳定的,并且编码对象的名称在用户环境中已是人所共知的有限标识代码集
示例:GB/T26592000《世界各国和地区名称代码》中,部分国家的字母代码见表5。表5
国家名称
奥地利 AUSTRIA
加拿大 CANADA
中国 CHINA
法国 FRANCE
UNITED STATY
8.2.4层次码
8.2.4.1规则
层次码以编码
时象集合中的层级分类为基础,将编码对象缩码成为连续且理增的组(类)。位于较高层级
型以每个层级上级
细分至较低层
层次码的-
8.2.4.2应用
个组(类)都包含井且只能包含它下面较低层级全部的组(类)。这种代码类特性必须互
象特性之间的差异为编码基础,每个层级上相咨
层次码实际上是较高层级代码段和较低层级代码段的复合代码如图2所示:
第二层代有
是代馆
层次码通常用于分类的
的级数目的建立依懒主信息管理的需求层次码较少用于标识和参照的目的
层次码非常适合于诸如统计自的报告货物运转,基于学科的出版分类等情况。在实践中既有固定格式,也有可变格式,固定格式比可变格式重容易处理一此示例1:固定递增格式。GB/T13745一1992《学科分类与代码》中学科代码格式由7个数字位组成下一级学科相对于上一级学科按固定的2位代码段递增,其部分代码见表6。表6
110-14
110·1410
数理逻辑与数学基础
演绎逻辑学
学科名称
示例2:可变递增格式。在通用十进制分类法(UDC)中,字符的数目和编码表达式的分段是可变的其细节描述的程度能被延伸到想要达到的层级。“建筑学的屋顶坡度”这样一个概念可被编码表达式表达成624.024.13。
624.024.13
8.2.5矩阵码
8.2.5.1规则
主木工程
建筑物成分
屋顶,屋顶用材料
屋顶坡度
GB/T70272002
矩阵码以复式记录表的实体为基础。赋子这个表中行和列的值用于构成表内相关坐标上编码对象的代码表示。
这种方法的日的是对矩阵表中的编码对有若干共同特性。
8.2.5.2应用
矩阵码可有效地用于标
含义的代码值,这些编码对象在不同的组合中具那些具有良好结构和稳定特性的编码对象示例:GB2312-198
员中区导务建牌表中的行
集根据矩库码编码方法对汉字信息交换用汉
换用的基本图形字符编
“啊”用区位码16
码表示,图形字符
8.2.6并置码
8.2.6.1规则
并置码是由
独立的。这种方
8.2.6.2应用
并置码非常
应用代码段
术方法。
示,在这
位码01
13编码表示
些代码段组成的复合代码,
,位享为矩属表中的列号。汉字字符为位导:同理拉大字符4\用区位码0313编没提供了描绘编码对象的特性。这些特性是相互华代
码表达式可以是任意类型(顺序码、缩写码S
手那些具有若干共同特性的商品分类。中
示例:轨道编码
等级、形状和尽
无序码)的组合。
作出描绘性编码(何种产品,何时何地生产)或者是用作开发制造业方面的成组技形装
个特性在很大程度上是相互独立的aN
8.2.7组合码
8.2.7.1规则
组合码也是由一些代成的复合代码,这些代码段提供了编码对象的不同特性。与并置码不同的是,这些特性相互依赖并通层次关8.2.7.2应用
组合码经常被用于标识目的,以置盖宽泛的应用领域示例:GB11643-1999《公民身份号码公民身份号码
XXXXXXXXXXXXXXXXXX
XXXXXX
XXXXXXXX
公民身份号码的18位组合码结构行政区划代码
出生日期
顺序号,其中奇数表示男性,偶数表示女性校验码
整个18位组合码共分4段,前两个代码段标识了编码对象(公民)的空间和时间特性,第三个代码段则依赖于前两个代码段所限定的范围,第四个代码段依赖于前三个代码段赋值后的校验计算结果。8.3代码特征
GB/T70272002
8.3.1概述
代码的一般性特征除第7章“信息编码的基本原则”所论述的唯一性、合理性、可扩充性、简明性,适用性以外,还包括:稳定性,含义性、代码长度、结构与格式、容量等特征。8.3.2稳定性
当代码为设计的变化留有余地而不必修改其结构时,代码就是稳定的。用户需要稳定的代码。代码值的赋值必须考虑相对于代码值自身以及代码结构作偶然修改的最小可能性。当某个代码元素从代码元素集合中撤销时,原编码表示不应再为其他编码对象所用。8.3.3含义性免费标准下载网bzxz
如果代码的编码表达式直接(例如:缩写码)表达或间接根据一个或多个表(例如:层次码、矩阵码并置码)来表达它们的含意,则代码就被认为是有含义的。在使用编码表达式时,有含义也与根据编码对象特性进行的归类和分组(类)有关。在以分类为目的情况下,有含义是尤其重要的。对于以标识和参照为目的者,宜用无含义代码8.3.4代码长度
代码长度是指编码表达式位置的数目。代码长度可被规定成固定的或可变的字符数目注:可变的代码长度有两条主要缺欠,其一是当存储代码值的数据字段所容纳的字符数比使用的代码值宇符数多时,字符数目的不可预知会产生排列对齐问题,其二是由于字符元余或增加引起的错误不能被人工或机器容易地检测出来。因此,代码长度宜使用固定的字符数目。8.3.5结构与格式
代码结构定义包括:构成编码表达式的位置或位置组的数目,以及每一位置上有效字符的集合。其中空格可以作为结构的组成部分。检查语法错误的输人确认主要与结构相关。就各个位置组来说,编码表达式的每个位置都可以这样定义其格式:字母的、数字的、字母数字的、特殊字符的、8.3.6容量
容量是指编码表达式的数量,它是在选定的基数范围内由每个位置上全部可用的字符组合构成的。
示例:(C表示容量)
)对于位置数日是1,基数是2使用三进制字符:b)对于位置数目是3.基数是10.使用十进制数字字符:c)对于位置数日是2+基数是26,使用字母字符:C=2
C-1000
理论容量以全部字符的所有组合都得到使用为前提。由于实践或理论原因造成的初始限制,减少了这此理论容量。实际上,容量的快择是在以下各因素之间折裹的结果:a)对扩充系统的预见:
b)组成代码表达式的字符数目的限制:c)书写和使用代码表达式的容易程度:d)系统的期望使用寿命:
e)操作代价,等等。
8.4代码表现形式
8.4.1数字格式代码
数字格式代码是用一个或若干个阿拉伯数字表示编码对象的代码,简称为数字码。数字码的特点是结构简单,使用方便.排序容易并且易于国内、外推广。但是对编码对象特征措描述不直观。
在数字格式代码值赋值时,不宜使用全部是0或全部是9的值,如“0000和*9999”这些值应当保留用于特殊情形。
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。