GB/T 19102-2003
标准分类号
标准ICS号:综合、术语学、标准化、文献>>01.020术语学(原则和协调配合)
中标分类号:综合>>基础标准>>A22术语、符号
关联标准
出版信息
出版社:中国标准出版社
书号:155066.1-19897
页数:平装16开, 页数:7, 字数:15千字
标准价格:10.0 元
出版日期:2003-12-01
相关单位信息
首发日期:2003-05-14
复审日期:2004-10-14
起草人:叶盛、吴云芳、宋敏、穗志方、程永红、胡俊峰、肖玉敬
起草单位:中国标准研究中心
归口单位:全国术语标准化技术委员会
提出单位:全国术语标准化技术委员会
发布部门:中华人民共和国国家质量监督检验检疫总局
主管部门:国家标准化管理委员会
标准简介
本标准规定了术语部件库的信息描述规范。本标准适用于术语部件库的研究、开发、维护及有关管理工作,在情报检索领域中也可参照使用。 GB/T 19102-2003 术语部件库的信息描述规范 GB/T19102-2003 标准下载解压密码:www.bzxz.net
本标准规定了术语部件库的信息描述规范。本标准适用于术语部件库的研究、开发、维护及有关管理工作,在情报检索领域中也可参照使用。
标准内容
ICS01.020
中华人民共和国国家标准
GB/T19102—2003
术语部件库的信息描述规范
Specification for description of term component database2003-05-14发布
中华人民共和国
国家质量监督检验检疫总局
2003-12-01实施
1范围
2规范性引用文件
3术语和定义
4术语部件库的信息描述
5术语部件库的建设
附录A(资料性附录)
术语部件的结构语义信息描述
GB/T19102—2003
本标准是术语数据库的系列国家标准之一。已经发布的系列标准有:
GB/T13726—1992
GB/T16785—1997
GB/T16786—1997
GB/T17532—1998
GB/T18155—2000
术语与辞书条目的记录交换用磁带格式术语工作
术语工作
概念与术语的协调
计算机应用
数据类目
术语工作计算机应用
GB/T19102—2003
术语工作计算机应用
机器可读术语交换格式(MARTIF)协商交换GB/T13725—2001
建立术语数据库的一般原则与方法GB/T15387.1—2001
术语数据库开发文件编制指南
GB/T15387.2—2001术语数据库开发指南GB/T15625—2001术语数据库技术评价指南GB/T19101一2003建立术语语料库的一般原则与方法本标准的附录A是资料性附录。
本标准由全国术语标准化技术委员会提出。本标准由中国标准研究中心归口。本标准由中国标准研究中心、北京大学计算语言学研究所等单位起草。本标准主要起草人:叶盛、吴云芳、宋敏、穗志方、程永红、胡俊峰、肖玉敬。GB/T19102—2003
术语部件库是一个包含丰富信息的知识库。这些丰富信息有助于新术语的自动发现、术语的自动定义、术语概念体系的建立等相关研究工作。1范围
术语部件库的信息描述规范
本标准规定了术语部件库的信息描述规范。GB/T19102—2003
本标准适用于术语部件库的研究、开发、维护及有关管理工作,在情报检索领域中也可参照使用。2规范性引用文件
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。GB/T13715信息处理用现代汉语分词规范GB/T13725建立术语数据库的一般原则与方法GB/T15237.1—2000术语工作词汇第1部分:理论与应用(egvISO1087-1:2000)GB/T17532—1998术语工作计算机应用词汇(eqvISO/DIS1087-2-2:1996)3术语和定义
GB/T15237.1一2000、GB/T17532—1998确立的术语和定义适用于本标准。为了便于使用,本标准重复了其中的部分术语和定义。3.1
术语term
在特定专业领域中一般概念的词语指称。[GB/T15237.1—2000,3.4.3]3.2
术语数据库terminologicaldatabase包含术语数据的数据库。[GB/T17532—1998,7.6]3.3
单词术语singlewordterm
由单个词构成的术语。
多词术语multi-wordterm
由多个词组成的术语。
术语部件termcomponent
组成多词术语的词。特定专业领域中结合紧密、生成能力强、使用稳定的语言片断也可看作是术语部件,如“超大规模”“光耦合”在信息科学与技术领域也可看作是术语部件。3.6
术语部件库termcomponentdatabase存储术语部件信息的数据库。
领域特异性domainspecific
特定专业领域所特有的、与专业领域的主题密切相关的特性。1
GB/T19102—2003
领域特异性部件domainspecificcomponent在特定专业领域中具有领域特异性的术语部件,一般是该领域中的单词术语。如“半导体材料”中的“半导体”。4术语部件库的信息描述
4.1术语部件库的信息结构
术语部件库的信息描述可从四个方面进行:a)术语部件的基本信息描述;
b)与术语部件位置相关的统计信息描述;c)术语部件的语法信息描述;
d)术语部件的语义信息描述。
不同应用目标的术语部件库建设可根据需要选择不同的描述侧面。术语部件的上述相关信息从特定专业领域的术语数据库中获得。4.2术语部件的基本信息描述
4.2.1主条目术语部件
标明术语部件本身。
4.2.2缩略语
标明术语部件是否是缩略语。
4.2.3全称
标明术语部件对应的全称(当主条目术语部件为缩略语时)。4.2.4领域特异性标注
标明术语部件是否是领域特异性部件。4.2.5来源
标明术语部件的来源语种和对应的原文。示例:软件(英语,software)4.2.6其他基本信息
根据研究需要可以设定其他的相关信息。4.3与术语部件位置相关的统计信息描述4.3.1频次描述
描述术语部件在术语的不同位置出现的频次。包括:a)术语部件独立作为术语条目出现的频次;b)术语部件在术语开始出现的频次;c)术语部件在术语中间出现的频次;d)术语部件在术语结尾出现的频次。示例:寄存器(1,63,87,786)表示术语部件寄存器”在术语数据库中,单独作为术语条目出现了1次;在术语的开始出现了63次;中间出现了87次;结尾出现了786次。4.3.2频率描述
描述术语部件在术语的不同位置出现的频率。包括:a)术语部件独立作为术语条目出现的频率;b)术语部件在术语开始出现的频率;2
c)术语部件在术语中间出现的频率;d)术语部件在术语结尾出现的频率。GB/T19102—2003
示例:寄存器(0.1%,7%,9%,84%)表示术语部件寄存器”在术语数据库中,单独作为术语条月出现的频率为0.1%:在术语的开始出现的频率为7%;中间出现的频率为9%,结尾出现的频率为84%,4.3.3其他统计信息
根据研究需要可以描述其他的统计信息。4.4术语部件的语法信息描述
4.4.1词性
标明术语部件的词性。
根据研究需要可自行选择合适的词性标记集。术语部件词性的确定以其在术语数据库中的使用为依据。同一个术语部件可标记一个以上的词性,即允许有兼类。4.4.2术语部件构成术语时和其他部件组成的词性序列标明术语部件构成术语时和其他部件组成的词性序列。词性库列的确定以术语部件在术语数据库中的表现为依据。术语部件构成术语时可能存在多种不同的词性序列,可以根据需要选择合适的标记方式,例如:a)只标明频次最高的词性序列;示例:电路(名词+电路)
注:“十”表示线性组合。下同。标明所有的词性序列并附带频次信息;b)
示例:电路(名词+电路280;电路十名词105:动词十电路20)c)标明所有的词性序列并附带频率信息。示例:电路(名词+电路69%;电路+名词26%:动词+电路5%)4.4.3其他语法信息
根据研究需要可以设定其他的语法信息。4.5术语部件的语义信息描述
描述术语部件的语义信息。
根据研究需要可从不同的角度进行描述,例如:a)设定一个语义分类体系,描述术语部件在语义分类体系中的位置,即为每个术语部件赋予一个合适的语义类标记,语义分类体系应该是具有领域特异性的;b)
结合术语概念体系的建立,设定一些语义关系,描述术语部件构成术语时所引发的术语之间的语义关系的变化。详见附录A。5术语部件库的建设
术语部件库的建设是与特定专业领域术语数据库的建设相结合的,服务于该领域的新术语自动发现、术语概念体系的建立等研究工作。术语部件库的建设应明确其相关的专业领域、应用目标以及最新更新日期等。
术语部件库的建设应遵循国家有关信息系统建设的规定,做好与术语语料库、术语数据库的协调,实现信息交换与资源共享。
术语部件库建设的基本流程如图1所示。3
GB/T19102—2003
术语数据库
术语条目的
切分和标注
术语部件的
5.1术语数据库
基本信息
的分析
位置信息
的分析
语法信息
的分析
语义信息
的分析
基本信息
的描述
位置信息
的播述
语法信息
的描述
语义信息
的描述
术语部件库建设的基本流程
术语部件库
的生成
是术语部件库建设的基础,是术语部件信息的主要来源。术语数据库应达到一定的规模,并具有领域特异性。
5.2术语条目的切分和标注
是准确获取术语部件的必需前提。术语条目的切分原则上遵循GB/T13715的分词规范。在特定专业领域中结合紧密、生成能力强、使用稳定的语言片断也宜看作一个切分单位。术语条目标注的词性标记集应与部件标记的词性标记集保持一致。操作中,可用成熟的词语切分和词性标注软件先行进行计算机自动切分和标注,然后加以人工校对。
5.3术语部件的提取
在术语条目切分和标注的基础上,提取出术语部件。5.4术语部件的信息分析
基于术语数据库,对提取出来的术语部件的基本信息、位置信息、语法信息、语义信息逐项进行统计和分析。各类信息的统计宜在专家的参与指导下,利用计算机自动实现。5.5术语部件的信息描述
在术语部件信息分析的基础上,对术语部件的基本信息、位置信息、语法信息、语义信息逐项进行描述。
5.6术语部件库的生成
在上述工作的基础上,生成完整的术语部件库。术语部件库应该是一个结构化的系统,可以方便地存取、检索、修改、删除、更新和补充数据。数据库的建设可参见GB/T13725的相关规定。A.1术语和定义
左部件leftcomponent
附录A
(资料性附录)
术语部件的结构语义信息描述
GB/T19102—2003
如果一条术语可以拆分为一个术语部件与另外一条本专业的术语,且该部件位于术语的左方,则该部件称为该条术语的左部件。
如:“报文分组交换”中“报文”是该术语的左部件;“分组交换”中“分组”是该术语的左部件。A,1.2
右部件rightcomponent
如果一条术语可以拆分为另外一条本专业的术语与一个术语部件,且该部件位于术语的右方,则该部件称为该条术语的右部件。
如:“解码器”中“器”是该术语的右部件;“虚拟空间”中“空间”是该术语的右部件。A.2术语部件的结构语义信息描述术语部件的结构语义信息对术语部件作为术语左部件、右部件时与术语被修饰成份之间的语义关系进行描写。结构语义信息的描述是与术语概念体系中设定的分类标准相关的,可以用来指导新术语在术语概念体系内的定位。也可以根据新术语自动发现和术语自动定义等方面的应用需求设定所需的描述内容。
同一个术语部件在具体的术语条目中作为左部件出现或右部件其结构语义属性一般不相同。因此在描述过程中又分为以下两个方面:A.2.1左部件的结构语义信息描述左部件的结构语义信息是指术语部件作为左部件出现时所表现的结构语义特性。左部件的结构语义信息可定义为一个N元组。其中N的取值等于所选定的概念体系中包含的关系数。其取值可以是一个根据统计得到的概率值,也可以是在设定阈值情况下得到的0一1属性值。示例:在信息科学与技术领域的概念关系中包含有“方法和技术”和“使用材料”两种类型的分类标准。在仅考察这两种关系的情况下,左部件的结构语义信息可描述为一个二元组Q(h,p)。并行(1,0)表示左部件“并行”当附加在一个原有的术语X上形成术语Y时,术语Y指称的概念是原术语X的一个属概念,而且Y概念可以形式化的定义为:采用“并行”技术的一种X。但不会与原术语构成:使用“并行”材料的一种X。
A.2.2右部件的结构语义信息描述右部件的结构语义信息描述是指术语部件作为右部件出现时所表现的结构语义特性。右部件的结构语义信息描述也同样可定义为一个N元组。其中N的取值等于所对应的概念体系中包含的关系数。其取值可以是一个根据统计得到的概率值,也可以是在设定阈值情况下得到的0一1属性值。
示例:在信息科学技术领域中右部件往往可以引导“设备、装置”以及“操作”的分类关系。一些常用的词与后缀如:“处理”“装置”和“器”“机”等,在作为术语的右部件时常可以引导“设备、装置”的概念关系。也就是说,如果一条术语Y可分析为“X十器”的话,一般可以导出Y是产生(完成)X的一种装置(设备)。
GB/T19102-2003
中华人民共
国家标准
术语部件库的信息描述规范
GB/T19102—2003
中国标准出版社出版
北京复兴门外三里河北街16号
邮政编码:100045
电话:6852394668517548
中国标准出版社案皇岛印刷厂印刷新华书店北京发行所发行
各地新华书店经售
开本880×12301/16下载标准就来标准下载网
印张3/4
字数15于字
2003年10月第一版
2003年10月第一次印刷
印数1—1500
书号:155066:1-19897
网址bzcbs.com
版权专有
侵权必究
举报电话:(010)68533533
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。