GB/T 7027-1986
标准分类号
标准ICS号:信息技术、办公机械设备>>35.040字符集和信息编码
中标分类号:综合>>标准化管理与一般规定>>A00标准化、质量管理
相关单位信息
标准简介
GB/T 7027-1986 标准化工作导则 信息分类编码的基本原则和方法 GB/T7027-1986 标准下载解压密码:www.bzxz.net
标准内容
中华人民共和国国家标准
标准化工作导则
信息分类编码的基本原则和方法Directives for the work of standardizationThe basic principles and methods for informationclassifying and coding
标准,原则、方法
UDC 025.4
GB7027 -- 86
信息分类编码是信息标准化工作的一项重要内容。本导则介绍了信息分类编码的基本原则和方法。各系统、各单位编制信息分类编码标准时应参照使用。1信息分类
信息分类就是根据信息内容的属性或特征,将信息按一定的原则和方法进行区分和归类,并建立起一·定的分类系统和排列顺序,以便管理和使用信息。1.1信息分类的基本原则
信息分类必须遵循以下基本原则。1.1.1科学性
通常要选择事物或概念(即分类对象)的最稳定的本质属性或特征作为分类的基础和依据1.1.2系统性
将选定的事物、概念的属性或特征按一定排列顺序予以系统化,并形成一个合理的科学分类体系。1.1.3可扩延性
通常要设置收容类目,以便保证增加新的事物或概念时,不致丁打乱已建立的分类体系,同时,还应为下级信息管理系统在本分类体系的基础上进行延拓细化创造条件。1.1.4兼容性
与有关标准(包括国际标准)协调一致。1.1.5综合实用性
分类要从系统工程角度出发,把局部问题放在系统整体中处理,达到系统最优。即在满足系统总任务,总要求的前提下,尽量满足系统内各有关单位的实际需要。1.2信息分类的基本方法
信息分类的基本方法有二种:线分类法和面分类法。1.2.1线分类法
也称层级分类法。它是将初始的分类对象(即被划分的事物或概念)按所选定的若干个属性或特征(作为分类的划分基础)逐次地分成相应的若干个层级的类目,并排成一个有层次的,逐级展开的分类体系。在这个分类体系中,同位类类目之间存在着并列关系;下位类与上位类类月之间存在着隶属关系,同位类类目不重复,不交叉,所谓上位类:即在线分类体系中,一个类日相对于由它直接划分出来的下级类而离,称为上位类;
下位类:即在线分类体系中,由上位类直接划分出来的下一级类目相对于上位类而言,称为下位类;同位类:即在线分类体系中,由个类月直接划分出来的下.级各类日、被此称为同位类,例如:GB2260一86《中华人民共和国行政区划代码》,是采用线分类法,并用六位数字代码表国家标准局1986-11-25发布
1987-10-01实施
GB7027—86
示的。全国行政区划共分三个层级,每层级用二位数字码表示。第一层级为省(自治区、直辖市),用第一、二位数字表示;第二层级为地区(市、州、盟),用第、四位数字表示,第三层级为县(市、旗、镇、区),用第五、六位数字表示。河北省部分行政区划的划分与代码如表1:表1
132221
132222
河北省
石家庄市
唐山市
邢台地区
邢台县
沙河县wwW.bzxz.Net
表1中所列,河北省相对于石家庄市、唐山市、邢台地区为上位类类月;石家庄市、唐山市、邢台地区··相对于河北省为下位类类目。同时,石家庄市、唐市、邢台地区它们是同位类类每。它们之间存在着并列关系。同样,邢台地区相对F邢台县、沙河县是上位类类月:邢台县和沙河县是邢台地区的下位类类目。
1.2.1.1线分类法的原则
在线分类中,由某上位类划分出的下位类类目的总范围应与其上位类类范封相等:a.
当某一个上位类类目划分成若干个下位类类目时,应选择-个划分基准:同位类类目之间不交叉、不重复,并只对应于.…个上位类;分类要依次进行,不应有空层或加层。1.2.1.2线分类法的优点
层次性好,能较好地反映类目之间的逻辑关系;b.
使用方便,既符合手工处理信息的传统习惯,又便于电子计算机处理信息,1.2.1.3线分类法的缺点
a。结构弹性较差,分类结构一经确定,不易改动;b。效率较低,当分类层次较多时,代码位数较长,影响数据处理的速度。1.2.2面分类法
面分类法是将所选定的分类对象的若干个属性或特征视为若干个“面”,每个“而”中义可分成许多彼此独立的若千个类月。使用时,可根据需要将这些“面”中的类月组合在起、形成…个复合类周。
例如:服装的分类就可采用面分类法,选服装所用材料、男女式样、服装款式作为三个“面”每个“面”又可分成若干个类目,见表2:表2
中长纤维
男女武样
中山装
连农褂
使用时,将有关类目组配起来。如纯毛男式中山装。中长纤维女式西服·等9
1.2.2.1面分类法的原则
GB 702786
根据需要选择分类对象本质的属性或特征作为分类对象的各个“面”:a.
不同“面”内的类月不应相互交叉,也不能重复出现;c
每个“南”有严格的固定位置;d.
“面”的选择以及位置的确定,根据实际需要而定。1.2.2.2面分类法的优点
具有较大的逆性,“·个“面”内类H的改变,不会影响其他的“面”;b.
适应性强,可根据需要组成任何类,同时也便于机器处理信息:c
易于添加和修改类用。
1.2.2.3面分奖法的缺点
a不能充分利用容量,可组配的类月很多,伯有时实际应用的类目不多:b.难于手工处理信息。
线分类法和面分类法各有其优、缺点,在实践中,出于客观事物的复杂性,单独使用·种分类法有时满足不了使用者的要求。因此。在实际应用中,可以根据情况组合使用,以其中种分类法为主。另种做补充,有时还要做些人为的特殊规定以满足使用者的要求2信息编码
信息编码就是将事物或概念(编码对象)赋予有一定规律性的,易于计算弹机和人识别与处理的符号
2.1代码
代码是…-个或一组有序的,易于计算机和人识别与处理的符号。有时简称“码”代码的功能如下:
a。标识:代码是鉴别编码对象的唯标志;b。分类:当按编码对象的属性或特征(如工艺、材料、用途、等)分类,并分别赋予不同的类别代码时:代码又可以作为区分编码对象类别的标志;心,排序:当按编码对象发现(产生)的时间、所占有的空间或其他方面的顺序关系分类,并分别赋子不同的代码讨,代码义可以作为区别编码对象排序的标志:d。特定贪义:H于某种客观需要采用些专用符号时此代码又可提供-定的特定含义:e.其他:上述以外的其他功能。代码的以上儿种功能,标识功能是代码的最基本特性,征何代码都必须具备此种基本特性,代码的共他功能是人们为了便于处理信息,管理信息而选用的,是人为赋予的,2.2编码的基本原则
2.2.1唯·性
虽然个编码对象可有很多不同的名称,也可按各种不同方式对其进行描述,但是,在·个分类编码标准中。每个编码对象仅有·…个代码、·一个代码只唯表示…个编码对象。2.2.2合理性
代码结构要与分类体系相适应,2.2.3可扩充性
必须留有适当的后备容量,以便适应不断扩充的需要2.2.4简单性
代码结构应尽量简单,长度尽量短,以便节省机器存购牢间和减少代码的差错率,同时,提高机、器处理的效率
2.2.5适用性
代码要尽间能反映编码对象的特点。行助记忆,便于填写10
2.2.6规范性
GB7027-86
在·个信息分类编码标准中。代码的类型、代码的结构以及代码的编\与格式必须统2.3代码的种类
代码的种类很多,以下是儿种主要的常用的代码结构及其优缺点,供编码时选择。代码种类及名称如下图:
无含义代码
顺序码
系列顺序码
无序码
数值化
学母顾码
层次码
有含义代码
特征纽合码
复合码
图是·个在信息编码中常用的基本的代码种类图:代码按其功能可分成有含义代码、无含义代码,常见的无含义代码有顺序码、无序码,见的有今义代码有系列顺序码、数值化字持顺序码,层次码、特征组合码、复合码
2.3.1无个义代码
无含义代码就是无实际合义的代码,此种代码只作为编码对象的唯一标识,只起代替编码对象名称的作用、南不提供有关编码对象的其他任何信息,顺序码和无序码是两种常用的无个义代码2.3.1.1顺序码
顺序码是·种最简单、最常用的代码.此种代码是将顺序的自然数或学母赋予编码对象:例如:GB226181《人的性别代码》中,1为男性、2为女性,通常非系统化的编码对象常采用此种代码、顺序码的优点:代码简短。使用方便,易于管理,易添加,对编码对象的顺序无任何特殊规定和要求。
顺序码的缺点:代码本身不给出任何有关编码对象的具他信息。2.3.1.2无序码
无序码是将无序的门然数或字啡赋子编码对象:此种代码无任何编导规律,是常机器的随机程序编得的
2.3.2有含义代码
行合义代码就是具有某种实际含义的代码。此种代码不仪作为编码对象的唯一标识,起代替编码11
GB7027-86
对象名称的作用,还能提供编码对象的有关信息(如分类、排序、逻辑意义等)。常用的有含义代码有系列顺序码、数值化字母顺序码、层次码、特征组合码、复合码2.3.2.1系列顺序码
系列顺序码是-一种特殊的顺序码。此种代码是将顺序码分为若干段(系列)并与分类对象的分段相对应,给每段分类对象赋予定的顺序码。般对分类深度不大的分类对象进行编码时,常采用这种代码。例如:GB4657一84《国务院各部、委、局及具他机构名称代码》,就采用三位数字的序列顺序码如:300~399表示国务院各部、委:400~499表示国务院各局、办公机构和直属于国务院各部、委的国家局级机构以及国务院咨询机构和国家学术机关;
700~799表示全国性的人民团体系列顺序码的优点:能表示编码对象-定的属性或特征、易添加。系列顺序码的缺点:空码较多时,不便于机器处理,不适用于复杂的分类体系。2.3.2.2数值化字母顺序码
数值化字母顺序码是按编码对象名称的字母排列顺序编写的代码。此种代码是将所有的编码对象按其名称的字母排列顺序排列,然后分别赋了不断增加的数字码。例如:按英文字母顺序排列的数值化字母顺序码(见表3)。表3
Apples
(果)
Bananas(香蕉)
Cherries(樱桃)
又如:按汉语拼音字母顺序排列的数值化字母顺序码(见表4)。表4
(枣)
数值化字母顺序码的优点:编码对象容易类(不存在可多处列类的现象),容易维持并可起到代码索引(按字丹顺序编写)的作用,便」检索,12
GB 7027 --
数值化字母顺序码的缺点:编制标准时、需要次性地给新的分类编码对象留有足够空位,有时为广保证新增加的分类编码对象的排列次序,而原有空位义不多讨,需要重新编码,因此相对地讲。此种代码使用寿命较知,同时各类具密集的程度不均匀。出于这种代码是基于字母顺序规律的原则。它是将语育文字相近的分类编码对象聚集在-起,因此,只要再按分类编码对象的其他特征进行细分类就更加完善了。这种代码结构·般适用于根据人名,机关、企业、事业单位名称来检索信息。2.3.2.3层次码
层次码常用于线分炎体系,它是按分类对象的从属、层次关系为排列顺序的-种代码。对产品来讲,这个排列顺序可以是按工艺、材料、用途等属性来排列。编码时,将代码分成若于层级。并与分类对象的分类层级相对应,代码自左至右表示的层级由高全低,代码的左端为最高位层级代码,右端为最低位层级代码。每个层级的代码可采用顺序码或序列顺序码。例如:GB4754一84《国民经济行业分类和代码》就是采用三层四位数字的层次码,第层、第层、第三层代码分别表示大类、中类、小类、其代码结构如下:第一层代码(大类)
第二层代码(中类)
第层代码(小类)
层次码的优点:能明确地表明分类对象的类别;有严格的隶属关系:代码结构简单:容量大,便机器汇总,
次码的缺点:代码结构弹性较差,当层次较多时,代码位数较长图书分类编码采用的十进制码与层次码的编码原理基本相同。所不同者,是在卜进制编码结构中采用了小数点符号。在小数点符号后根据需要可任意扩充数字位。2.3.2.4特征组合码
特征组合码常用」面分类体系,它是将分类对象按其属性或特征分成若干个“面”,每个“面”内的诸类目按其规律分别进行编码。因此,“面”与“面”之间的代码没有层次关系,也没有隶属关系,使用时,根据需要选用各“面”中的代码,并按预先确定的“面”的顺序将代码组合,以表示类H
例如:对机制螺钉叫选用材料、螺钉直径、螺钉头形状及螺钉表面处理状况四个“面”,每个“面”内又分成若干个类国,并分别编码,如表5所:表5
不锈钢
——黄铜
2$ —
3-六角形头
方形头
第四面
1 -——未处理
2··镀铬
3镀锌
使用时,将各“面”的代码组合例如:代码2342即表示黄铜中1.5方形头镀铬螺钉特征组合码的优点:代码结构具有:定的柔性,适于机器处理。特征组合码的缺点:代码容量利用率低,不便于求和、汇总。2.3.2.5复合码
GB7027—86
复合码是一种应用较广的有含义代码。它常常是由两个或两个以上完整的,独立的代码组成。例如:分类部分和标识部分组成的复合码是将分类编码对象的代码分成分类部分和标识部分两段。分类部分表示分类编码对象的属性或特征的层次,隶属关系。标识部分起着分类编码对象注册号(即登记号)的作用,常采用顺序码或系列顺序码。例如:适用于美国和“北约”国家的美国物资编目就是采用十三位的数字复合码,其代码结构如:
联邦物资分编码局物品识别编号,类号,代码
分类部分
标识部分
其中,标识部分是由表示美国及“北约”国家编码局的二位数字的代码和七位物品识别编号组成的。这是由于“北约”国家编码局所编的物品识别编号可能与美国物资编码局的重复,因此。美国物资编目标识码必须是由美国或“北约”国家编码局代码和物品识别编号两部分组成,九位数字码联合使用,只有这样才能保持其完整性,真正做到一物一码,起到唯一标识的作用。分类部分是由四位数字组成,表示联邦物品分类的类别。为了便于管理采用了层次码,分成人类、小类两个层次,并各用两位数学表示。复合码的优点:代码结构具有很大的柔性。易于扩大代码容量和调整编码对象的所属类别。同时,代码的标识部分可以用于不同的信息系统,因而便于若干个系统之间的信息交换。复合码的缺点:代码总长较长。2.4代码的校验
2.4.1代码校验的目的
在数据处理中,代码作为事物或概念的唯一代表是计算机的重要输入内容之一。因此,代码输入的正确性直接影响整个计算机数据处理工作的质量。对较长的代码和那些关键性的代码,为检查其输入、转录等操作而产生的差错,应加校验码。2.4.2校验码的计算方法
为了保证代码正确的输入,在原有的代码基础上,附加一个校验码。校验码的获得是根据原有的代码,通过预先确定的某种数学算法而得到的。当带有校验码的代码输入时,计算机就会用同样的数学算法按输入的代码数字计算校验码,并与输入的校验码进行比较,如果一致,则表明代码输入正确,如果不一致,则表示代码输入不正确,并自动报整提示录入人员。2.4.2.1校验码可检测的错误类型校验码可以检测的错误类型如下:a.单一的替代错误。即一个字符替代了另一个字符。如!234误录入为4234:b。单置换错误。即任何-~对相邻两字符,或不相邻的两字符的置换。如12345误为12354或12543;
c.移位错误。即整个代码的移位,向左或向右。如误为红;d。复合型错误。即上述几种错误的组合。2.4.2.2校验码的形成
校验码的形成有很多种算法,还有待于统…、标准化。现通过举例介绍-种常用的校验码的算法。设:代码为31504,自左至右代码各位的权为6—5一43一2,模11”校验码形成的14
步骤如下:
GB7027-86
a,将代码的每位数字分别乘以对应的权,得:(36)
b.求各积之和,得:
(15)
(0×3)
186+20+0-851
用模11去除和,得余数了,即:51 : 11 - 1 ... 7
(1×2)
d,从模!」中减去余数了,以其作为校验码,添加代码有端,构成带有较验码的完整代码。315014
使用时,将带有校验码的代码315011输入。校验时,重复校验码形成步骤a一℃(校验码的权为1,其他权同前),如果余数为\则代码输入正确,如果余数不为1),则代码输入有错误。通常代码的校验采用-位数字校验码,当·位数字校验码满足不广要求时,可采用位数字校验码
当代码是由字母或字母与数字组成时,为计算方便,将相应的数值(~25或10~35)分别赋予A~Z(按英文字母顺序)。
2.4.2.3模和权的选择
模可有各种选择、泛采用的模数有9。10,11、37,97等。其中,11使用频率最高、:·般来讲,模的取值催越大。则关错的检测率越高,通常模的取值应遵循下述原则:模的取值应天于或等于代码字符集中字符的个数(数字码是10,字科码是26,字母数字码是a.
36):
模与代码各位上的权卫为质数:b.
c.模最好取质数(10是常用的非质数模),权的选择也是多种多样的,它可以由儿何级数算法而得,也可以按算术级数算弹法得到,还川以是某·固定的数列等。但通常权的选择应符舍下述要求:a.山自然数组成:
b,有·固定的顺序或按果固定的算法而得的数列2.5代码的类型
代码的类型般有以下几种:数字型代码、字母型代码、数字与字母混合型代码2.5.1数字型代码
数字型代码是用·个或若干个阿拉伯数字表示编码对象的代码。可以简称为数字码,数字型代码的特点是结构简单,使用方使、排序容易并目易于国内、外推广,但是对编码对象特征描述不直观。数字型代码是目前各国广泛采用的-种代码形式,2.5.2学母型代码
字母型代码是用个或多个字母表示编码对象的代码:可以简称为字抖码.字母型代码的特点是字母型代码要比用同样位数的数字型代码容量人得多,如:用·位英文字母型代码可表示26个类目。一位数字型代码最多只可表示(0~9)10个类目,位英文字持型代码最多可表示676(262)个类日,而二位数字型代码最多可表示100(102)个类1、同附,字抖型代码有时还可提供便于人们识别的信息,如铁道部制定的火车站站名字母缩等码HB表示哈尔滨:BJ表示北京
GB7027---86
字母型代码便于记忆,人们有使用习惯,但不便于机器处理信息,特别是当编码对象数较多或添期、更改频繁以及编码对象名称较长时,常常会山现重复和冲突的现象:因此,这种宁持型代码常用于编码对象较少的情况。
2.5.3数字呼字母混合型代码
数字与字母混合型代码是由数字、学母组成的代码、或数字、学母、专用符组成的代码:可以简称为字性数字码或数字字母码。数字与字母混合型代码的特点是基本兼有了数字型代码、字母型代码的优点,结构严密。具有良好的直观性,同时又有使用上的习惯,但是,出于代码组成形式复杂也带来了·定的缺点,邸计算机输入不方便,录入效率低,错误率增高,不便于机器处理:1述严种代码类型,有时为了改善代码的直观性,当代码较长时,也可根据需要在代码中间添加分剧符如:“,”,“”等符号或采用“空格”的形式数字型代码、字证型代码,数学与字混合型代码都各有所长。通常是根据使用者的品求,信息量的多少。信息交换的频度,计算机的容量,使用者的习惯等多种因素综合考虑选用的,但从借息处理效率以及信息交换来考虑,数字型代码较好。附加说明:
本标准由国家标准局信息分类编码研究所提出。本标准由国家标准局信息分类编码研究所负责起草。本标准婴起草人胡嘉璋。
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。