首页 > 国家标准(GB) > GB/T 19101-2003 建立术语语料库的一般原则与方法
GB/T 19101-2003

基本信息

标准号: GB/T 19101-2003

中文名称:建立术语语料库的一般原则与方法

标准类别:国家标准(GB)

英文名称:General principles and methods of establishing terminology corpus

标准状态:现行

发布日期:2003-05-14

实施日期:2003-12-01

出版语种:简体中文

下载格式:.rar.pdf

下载大小:KB

标准分类号

标准ICS号:综合、术语学、标准化、文献>>01.020术语学(原则和协调配合)

中标分类号:综合>>基础标准>>A22术语、符号

关联标准

出版信息

出版社:中国标准出版社

书号:155066.1-19896

页数:平装16开, 页数:6, 字数:15千字

标准价格:10.0 元

出版日期:2003-12-01

相关单位信息

首发日期:2003-05-14

复审日期:2004-10-14

起草人:陈玉忠、宋敏、何燕、叶盛、穗志方、程永红、肖玉敬

起草单位:中国标准研究中心

归口单位:全国术语标准化技术委员会

提出单位:全国术语标准化技术委员会

发布部门:中华人民共和国国家质量监督检验检疫总局

主管部门:国家标准化管理委员会

标准简介

本标准规定了建立术语语料库的一般原则与方法。本标准适用于术语语料库的研究、开发、维护及有关管理工作。其他涉及语料库建设的工作也可参照使用。 GB/T 19101-2003 建立术语语料库的一般原则与方法 GB/T19101-2003 标准下载解压密码:www.bzxz.net
本标准规定了建立术语语料库的一般原则与方法。本标准适用于术语语料库的研究、开发、维护及有关管理工作。其他涉及语料库建设的工作也可参照使用。


标准图片预览






标准内容

ICS01.020
中华人民共和国国家标准
GB/T19101—2003
建立术语语料库的一般原则与方法General principles and methods of establishing terminology corpus2003-05-14发布
中华人民共和国
国家质量监督检验检疫总局
2003-12-01实施
规范性引用文件
术语和定义
基本要求..
语料的要求
置标语言的要求
4.3术语语料库系统的要求
5术语语料库的加工和组织
5.1术语语料库的加工层次
5.2术语语料库的加工流程
5.3术语语料库的组织
6术语语料库系统的建立和功能设计6.1术语语料库系统的建立
6.2术语语料库系统的功能设计
6.3术语语料库系统的服务方式
7术语语料库系统的管理与维护
附录A(资料性附录)
建立术语语料库的有关国家标准GB/T19101—2003
本标准是术语数据库的系列国家标准之一已经发布的系列标准有:
GB/T13726—1992
GB/T16785-1997
GB/T16786—1997
GB/T17532—1998
GB/T18155—2000
GB/T13725—2001
术语与辞书条目的记录交换用磁带格式术语工作概念与术语的协调
术语工作
计算机应用数据类目
术语工作计算机应用词汇
GB/T19101—2003
术语工作计算机应用机器可读术语交换格式(MARTIF)协商交换
建立术语数据库的一般原则与方法GB/T15387.1—2001
术语数据库开发文件编制指南
GB/T15387.2—2001
术语数据库开发指南
GB/T15625—2001
:术语数据库技术评价指南
GB/T19102—2003
术语部件库的信息描述规范
本标准的附录A是资料性附录。
本标准由全国术语标准化技术委员会提出。本标准由中国标准研究中心归口。本标准由中国标准研究中心、北京大学计算语言学研究所等单位起草。本标准主要起草人:陈玉忠、宋敏、何燕、叶盛、穗志方、程永红、肖玉敬。1范围bzxz.net
建立术语语料库的一般原则与方法本标准规定了建立术语语料库的一般原则与方法。GB/T19101—2003
本标准适用于术语语料库的研究、开发、维护及有关管理工作。其他涉及语料库建设的工作也可参照使用。
2规范性引用文件
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。GB/T137252001建立术语数据库的一般原则与方法GB/T15237.1—2000术语工作词汇第1部分:理论与应用(eqvISO1087-1:2000)3术语和定义
GB/T15237.1确立的术语和定义适用于本标准。为了便于使用,本标准重复了其中的部分术语和定义。
术语term
在特定专业领域中一般概念的词语指称。[GB/T15237.1--2000,3.4.3]3.2
语料库corpus
集中起来供分析用的语言数据集合。[GB/T15237.1—2000,3.6.9]3.3
术语语料库terminologycorpus
分析和研究术语用的语料库。
术语语料库系统terminologycorpussystem包含管理框架的术语语料库。
注:改自GB/T17532—1998,7.7。4基本要求
4.1语料的要求
4.1.1—致性
入库语料应是格式一致、有效的。4.1.2适用性
语料应从正式出版物或从权威性网站发布的相关专业文献中选择。4.1.3忠实性
语料中原来使用的标题、摘要、关键字以及参考文献等各类原始信息和篇章结构应保持完整。GB/T19101—2003
4.1.4广泛性
在特定的领域内研究术语时,宜按各个子领域数量相对平衡的原则收集语料。对于由各个子领域发展的不均衡性造成新术语分布的不均衡,宜在领域收集语料总数不变的情况下,容许部分子领域间的语料数量进行适当调配,以增加所收集语料对新术语的覆盖量。语料来源宜考虑题材多样性的原则,应综合考虑其专业性、代表性和客观性的应用需求。在翻译和原创作品类型的收集上,应确定合适的比例。在选取语料时还应适当考虑地域分布原则,即适当收取港、澳、台和海外华人的学术文章。4.1.5适时性
应及时补充和更新语料。
4.2置标语言的要求
4.2.1通用性
应采用广泛使用且具备相应的软件工具包的置标语言。4.2.2简洁性
应功能完备、简单易用、便于扩充和软件开发。4.2.3易交换性
应不受具体使用平台的限制,容许跨平台进行语料的交换和共享。4.2.4保值性
应能够长期使用,而且标注的文件易于向其他文件格式转化,能够适应语料库在实际应用中各种不同存储格式的要求
4.3术语语料库系统的要求
4.3.1设计原则与质量要求
术语语料库系统的设计原则和质量要求参见GB/T13725—2001的6.1。4.3.2对计算机系统的要求
术语语料库系统对计算机软硬件的要求参见GB/T13725—-2001的6.2。5术语语料库的加工和组织
5.1术语语料库的加工层次
术语语料库的加工层次可分为三级:a)原始术语语料库,是未经任何标注的术语语料库。b)篇章级标注术语语料库,是标注了文本篇章一级信息的术语语料库。c)术语标注级术语语料库,是在篇章级标注的基础上,标注了领域术语信息的术语语料库。术语语料库的规模一般比较大,在语料的篇章标注、术语标注等方面宜采用人机结合的方式进行;为便于数据交换,标注工具宜采用通用的置标语言。5.2术语语料库的加工流程
术语语料库的一般加工流程如图1所示:2
其他术语
语料库
语料来源:
文献,网站等
5.2.1语料搜集
语料搜集
规范化处理
信息标注
图1术语语料库的一般加工流程
GB/T19101—2003
术语语料阵
语料可以来自国家标准、行业标准及其他标准文献,也可以来自正式出版发行的辞典、百科全书、期刊、教材、报刊及其他工具书和权威性网站发布的相关文献;还可以通过与其他术语语料库联网、交换语料数据及记录载体等方式获得。5.2.2规范化处理
按照已定的标准格式或规则,对从各种途径获取的语料进行初加工。例如语料的查重、文件格式的统一转换等。
5.2.3信息标注
对规范化处理后的原始语料,结合项目研究的近远期目标可采用置标语言进行篇章级、术语级等的信息标注。一般根据术语语料库加工层次的不同,可选择的标注信息有以下三类:5.2.3.1篇章信息
主要包括:
文件标识;
篇章编号;
语料来源;
学科领域(如信息科学领域):子领域(如计算机科学技术领域、电子通信与自动控制技术领域、信息科学与系统科学领域等);
题材来源(如杂志、报纸、书籍等);作品类型(如原创作品、翻译作品);-地域分布(如大陆语料、港台语料);时间;
标题;
作者,
一作者单位;
一摘要;
关键词;
一正文;
段落;
GB/T19101—2003
句子,
参考文献等。
5.2.3.2术语信息
主要包括:
术语;
术语结构;
词性等。
5.2.3.3其他
一个多功能的术语语料库应具备灵活性,允许增加新的描述信息,以满足不同的用户群所需要的各类信息。
5.2.4术语语料库生成
按照一定的格式和要求生成术语语料库。5.3术语语料库的组织
为便于术语研究、语料交换和术语语料库系统开发,术语语料库中语料的存储和管理应尽量采用通用的分类法进行分类组织。通用的分类方法如:中国标准文献分类法(CCS);
国际标准分类法(ICS);
c)GB/T13745学科分类与代码等。6术语语料库系统的建立和功能设计6.1术语语料库系统的建立
术语语料库系统建立的基本过程应遵循一般系统建立的原则和方法。6.2术语语料库系统的功能设计
根据术语研究的需要,术语语料库系统一般应提供术语的用例查询、领域频度信息统计等功能。6.3术语语料库系统的服务方式
应方便用户使用,系统设计时可根据需要加以选择。例如:查询、联机检索、通过互联网访问等。术语语料库系统的管理与维护
至少应包括如下内容:
语料管理与更新;
一服务方式或功能的更新;
术语语料库系统的维护与管理;一输入、输出设备维护与管理等。GB/T3860
GB/T10112
GB/T13190
GB/T13745
附录A
(资料性附录)
建立术语语料库的有关国家标准文献叙词标引规则
术语工作原则与方法
汉语叙词表编制规则
学科分类与代码
GB/T15237.1术语工作词汇第1部分:理论与应用术语工作计算机应用词汇
GB/T17532
GB/T14814
信息处理文本和办公系统标准通用置标语言(SGML)GB/T19101—2003
GB/T19101-2003
中华人民共和国
国家标准
建立术语语料库的一般原则与方法GB/T19101—2003
中国标准出版社出版
北京复兴门外三里河北街16号
邮政编码:100045
电话:6852394668517548
中国标准出版社案皇岛印刷剧厂印刷新华书店北京发行所发行
各地新华书店经售
开本880×12301/16印张3/4字数15千字2003年10月第一版2003年10月第一次印刷印数1-1000
书号:1550661-19896
网址bzcbs.com
版权专有
侵权必究
举报电话:(010)68533533
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。