GB/T 13715-1992
基本信息
标准号:
GB/T 13715-1992
中文名称:信息处理用现代汉语分词规范
标准类别:国家标准(GB)
标准状态:现行
发布日期:1992-10-04
实施日期:1993-06-01
出版语种:简体中文
下载格式:.rar.pdf
下载大小:266953
标准分类号
标准ICS号:信息技术、办公机械设备>>35.020信息技术(IT)综合
中标分类号:电子元器件与信息技术>>信息处理技术>>L70信息处理技术综合
关联标准
出版信息
出版社:中国标准出版社
书号:155066.1-9287
页数:12页
标准价格:10.0 元
出版日期:2004-08-13
相关单位信息
首发日期:1992-10-04
复审日期:2004-10-14
起草单位:北京航空航天大学
归口单位:全国信息技术标准化技术委员会
发布部门:国家标准化管理委员会
主管部门:国家标准化管理委员会
标准简介
本规范规定了现代汉语的分词原则,以满足信息处理的需要。它对汉语信息处理的规范化,对各种汉语信息处理系统之间的兼容性有重要的作用。本规范适用于汉语信息处理各领域,其他行业和有关学科可以参考使用。汉语信息处理各领域可以根据其专门需求,进一步补充和细化本规范的规定。 GB/T 13715-1992 信息处理用现代汉语分词规范 GB/T13715-1992 标准下载解压密码:www.bzxz.net
标准内容
中华人民共和国国家标准
信息处理用现代汉语分词规范
Contemporary Chinese language word segmentation specificationFor information processing
1主题内容与适用范围
1.1主题内容
GB/T 13715—92
本规范规定了现代汉语的分词原则,以满足信息处理的需要。它对汉语信息处理的规范化,对各种汉语信息处理系统之间的兼容性有重要的作用。1.2适用范围
本规范适用于汉语信息处理各领域,其他行业和有关学科可以参考使用。汉语信息处理各领域可以根据其专门需求,进一步补充和细化本规范的规定。2引用标准
GB12200汉语信息处理词汇
3术语
以下术语引自GB12200
3.1汉语信息处理
用计算机对汉语的音、形、义等信息进行的处理。3.2词
最小的能独立运用的语言单位。3.3词组
由两个或两个以上的词,按一定的语法规则组成,表达一定意义的语言单位。3.4分词单位
汉语信息处理使用的、具有确定的语义或语法功能的基本单位。它包括本规范的规则限定的词和词组。
3.5汉语分词
从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程。4概述
本规范以信息处理应用为目的,根据现代汉语的特点及规律,规定现代汉语的分词原则。本规范用下划线“
”作为分词单位标记。
4.1空格或标点符号是计算机中分词单位的分隔标记。作为分隔标记的标点符号有:句号,逗号、顿号分号、貿号、间号、收号、号、括号、破折号、省略号、书名号、间隔号、连接号及符号“/”等。4.2字或三字词,以及结合紧密、使用稳定的二定或三字词组,一律为分词单位。例如:国家技术监督局1992-10-04批准1993-06-01实施
对不起 自行车 青霉素
4.3四字成语一律为分词单位。例如:胸有成竹欣欣向荣
GB/T 13715-92
四字词或结合紧密、使用稳定的四字词组,一律为分词单位。例如:社会主义春夏秋冬由此可见
4.4五字或五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分。例如:时间就是生命
失败是成功之母
人心齐,泰山移
结合紧密、使用稳定的词组,分开后如违背原有组合的意义,或影响进一步的处理,则不予切分。例如
不管三七二十
4.5惯用语和有转义的词或词组,在转义的语言环境下,一律为分词单位。例如:妇女能顶半边天
他真小气,象个铁公鸡
4.6略语一律为分词单位。例如:科技奥运会工农业
4.7分词单位加形成儿化音的“儿”,一律为分词单位。例如:花儿悄悄儿玩儿
4.8在现化汉语中出现的非汉字符号,例如其他语言的字符串、数学符号、化学符号、阿拉伯数字等,仍保留原有形式。例如:
CADCO:=cm124712985763.14
4.9现代汉语中其他语言的汉字音译外来词,不予切分。例如:巧克力
4.10不同的语言环境中的同形异构现象,按照具体语言环境的语义,根据本规范的规定进行切分。例如:
把手抬起来
这个把手是木制的
5具体说明
为叙述方便,本规范沿用了把词分为名词、动词、形容词、代词、数词、量词、副词、介词、连词、助词、语气词、叹词、象声词等十三类的方法。5.1名词
5.1.1普通名词
5.1.1.1二字的名词或结合紧密的二字名词词组,一律为分词单位。例如:火车牛肉、钢铁
5.1.1.2结合紧密,分开后如违背原有组合的意义的名词性词组,一律为分词单位。例如:有功功率被子植物
5.1.1.3由形容词加名词组成的词组,应予切分。例如:绿叶
形容词加名词组成的有转义的词组,一一律为分词单位。例如:小媳妇
戴高帽儿
GB/T 13715--92
5.1.1.4前加成分加名词性分词单位应为分词单位。例如:阿老鹰
非金属
超声波
5.1.1.5名词性分词单位加如下类型的后加成分:;家手性员子化长头者
应为分词单位。例如:
科学家拖拉机手革命性
理发员椅子
标准化
名词性分词单位后如有多个后加成分,则它们是一个分词单位。例如:物理学家
5.1.1.6名词性分词单位前后如有前加成分和后加成分,则它们是--个分词单位。例如:非党员
超导性
5.1.1.7各类专业的基本术语为分词单位。例如:加速度
中央处理器
5.1.1.8方位词应予单独切分。例如:桌子上
长江以北
5.1.1.9除“人们”之外,仅表示前一个名词性分词单位复数的“们”单独切分。例如:学生们
朋友们
但是“哥儿们
爷们儿”等是分词单位。
时间名词或词组的分词规则如下:5. 1. 1. 10
一年的十二个月份以及每周的七天,一律为分词单位。例如:五月
星期日
礼拜兰
“年、日、时、分、秒”分别为分词单位。例如:1988年3月15日
11时42分8秒
“前、后、上、下、大前、大后”等直接与时间名词或量词组合时,它们为一个分词单位。例如前天
大前天下载标准就来标准下载网
上星期
大后年
“初”加十以内的数字一律为分词单位。例如:韧
5.1.2专有名词
人名、称谓等处理如下:
5. 1.2. 1
汉族人名的姓和名分别单独切分。例如:张胜利
欧阳海
其他国家、其他民族的人名按其习惯形式切分。例如:卡尔·马克思
小林多喜二
带职务、职称的称呼一律切分。例如:张教授王部长李师傅
简称、尊称等为分词单位。例如:老张小李郭老陈总
带排行的亲属称谓一一律切分。例如:三叔大女儿
才县卓玛
GB/T 13715--92
5.1.2.2民族名、地名中的“族、省、市、州、县、乡、区、江、河、山”等应单独切分。但包括“族、省、市、州、县、乡、区、江、河、山”等只有两个字的民族名、地名,则不予切分。例如:汉族哈萨克族北京市浙江省正定县长江、忻县专名部分不能单独存在而保持原有意义的地名,不予切分。例如:牡丹江横浙山
街、路、村镇名称,各大洋和各大海一一律为分词单位。例如:长安街学院路周口店刘家村大西洋地中海5.1.2.3国家全名一律为分词单位。例如:中华人民共和国大不列颠及北爱尔兰联合王国5.1.2.4组织、机构、单位的全名按组成其全名的分词单位切分。例如:联合国教科文组织
中国共产党
5.1.2.5商品牌号、品种、产品系列名称中的专有名词与普通名词-律分别切分。例如:永久牌中华烟牡丹耳型
5.2动词
5.2.1动词的重叠形式较多,具体规定如下:a.
单动词重叠使用为一一个分词单位。例如:看看动动
字动间性分词单位的重叠方式“AABB”为个分词单位。例如:来来往往拉拉扯扯
“AAB、ABAB”重叠形式的动词词组应予切分。例如:说说看研究研究
d.“A·-A、A了A、A了-A\重叠形式的动词词组应予切分。例如:谈谈想二想
想了想
想了想
5.2.2动间前的否定副词--律单独切分。例如:不写不能没研究来完成
5.2.3用背能加否定的形式表示疑问的动词词组一一律切分,不完整的则不予切分。例如:说没说看不看相信不相信
相不相信
5.2.4动宾结构的词或结合紧密、使用稳定的二字动宾词组,不予切分。例如:升会跳舞
解决吃饭间题
孩了该念书了
结合不紧密或有众多与之相同结构词组的动宾词组一律切分。例如:吃鱼学滑冰
信写文章;写论文写书·)
动宾结构的词或词继如中间插入其他成分,则应予切分。例如:吃两顿饭
跳新疆舞
5.2.5动补结构的二字训或结合紧密、使用稳定的二字动补词组,不予切分。例如:打倒提高加长做好
*2十【\或“1-+2\结构的动补词组一律切分,三字以上的动补结构词组也-律切分。例如:1472
整理好说清楚解释清楚
GB/T13715-92
动补结构的调或词组如中间插入“得、不”,应予切分。例如:打得倒提不高
5.2.6偏正结构的词,以及结合紧密、使用稳定的偏正结构的词组,不予切分。否则应予切分。例如:胡闹瞎说死记
早来晚走重说
5.2.7复合趋向动词一律为分词单位。例如:出去 进来
当插人“得、不”时应予切分。例如:出得去进不来
5.2.8动词与趋向动词结合的词组一律切分。例如:寄来
跑出去
5.2.9单字动词无连词并列,并且均保持各自独立动词意义的词组,一律切分。例如:苣盖
听说读写
多字动词无连词并列,·律切分。例如:调查研究
5.3形容词
宣传鼓动
5.3.1形容词的重叠形式AA、AABB、ABB、AAB、A里AB”一律为分词单位。例如:大大
高高兴兴
绿油油
蒙蒙亮
匆匆忙忙
红通通
马里马虎
“ABAB\重叠形式的形容词应予切分。例如:雪白雪白
滚圆滚圆
5.3.2“A-B、—A二B、半A半B、半A不B、有A有B”等类型的形容词性词组,不予切分。例如:
心—意
半明半暗
有条有理
二清二楚
半生不熟
5.3.3形容词的并列形式按以下规则切分:两个单字形容词并列且改变词性的,一律不予切分。例如:a.
长短深浅 大小
形容词并列且各自保持原有形容词语义的词组,应予切分。例如:b.
大小尺寸
光荣伟大
5.3.4有关颜色的形容词或词组不予切分。例如;浅黄橄榄绿
5.3.5用肯定加否定的形式表示疑问的形容词词组一律切分,不完整的则不切分。例如:容易不容易
容不容易
5.4代词
5.4.1单字代词“们”为分词单位。例如:我们你们它们他们
5.4.2“这、那、哪”加量词“个”或“些、样、么、里、边”等为一个分词单位。例如:1473
GB/T 13715--92
5.4.3“这、那、哪”加数、量、名词性分词单位一律切分。例如:这土天
那人那种
5.4.4疑问代词或词组为分词单位。例如:多少
为什么
5.4.5“各、每、某、本、该、此、全”等代词与后面的量词或名词一律切分。例如:各国
某工厂
该单位
5.5数词
本部门
5.5.1数词与量词--律切分。例如:三金二种
5.5.2汉语数位词分别为分词单位。例如:一亿八于零四万七百二十三
5.5.3表示序数的“第”与后面的数词一律切分。例如:第二第四第五土三
5.5.4分数中的“分之”为一个分词单位。例如:五分之三百分之二万分之五
5.5.5数字并列表示概数时,表示概数的数字为分词单位。例如:八九公斤十七八岁
5.5.6表示概数的\多、来、几\等在数词或量词之后时,一律为分词单位。例如:两点多二王多人土来家土几全
5.5.7“些、些、点儿、点儿”等表示概数的词在形容词或动词之后时,一律切分。例如:大些
懂一些
快点儿快一点儿
5.5.8“近、约、数等在数词或数位词前,与之连用表示概数时,应予切分。例如:近王人约三百数万
“成、上”在数位词前,与之连用表示概数时,不予切分。例如:成百
5.6量词
5.6.1量词重叠使用不予切分。例如:年年
家家户户
5.6.2复合量词或词组为分词单位。例如:人年
5.7副词
吨公里
5.7.1副词一律为分词单位。例如:很好
都来了
互相协助
5.7.2以下经常使用,起副词作用的词组为分词单位:1474
越来越
不得不
不能不
GB/T 13715—92
起关联作用的“越·越、又又”等应予切分。例如;越走越远
5.8介词
又查甜
介词一律为分词单位。1
例如:
5.9连词
走向胜利
按照规定
连词一律为分词单位。例如:
工人和农民
5.10助词
光荣而伟大
5.10.1结构助词“的、地、得、之”一律为分词单位。例如他的书
慢慢地走
美丽的城市
说得快
中国的大熊猫
成功之路
5.10.2时态助词“着、了、过”一律为分词单位。例如:看着
5.10.3助词“所”与其后的动词一律切分。例如:所想所认识
5.11语气词
语气词一律为分词单位。例如:你好吗?
快去吧!
5.12叹词
叹词一律为分词单位。例如:
,真美!
喉呀,他走了!
5.13象声词
象声词一律为分词单位。例如:哪
轰隆隆
A1略语
离退休
亚运会
零部件
农副业
奥委会
惯用语及有转义的分词单位
喝西北风
好家伙
进一步
这件事真扎手
进步说
A3动宾结构
闲人免进
对台戏
GB/T13715-92
附录A
分词举例
(参考件)
“2十1”或\1十2\结构的动宾词组一律切分。开资
生炉子
动补结构
来得及
偏正结构
了不起
叠清楚
感置药
主调结构
“于”的处理
介词:
“于\作为后加成分:
“于”作为助词:
出现于
应用于
逝世于
“不”作为前加成分的几种情况A8
不论(连词)
趋向动词
A10前后加成分
GB/T 13715--92
不能(能愿动词切分开)
引起(已是词)
跑出去
完全虚化的前后加成分:
现代化
悄悄儿
运动员
规律性
压追者
科学家
拖拉机手
发明家
爆破手
部分虑化的前后加成分:
超导体
多边形
泛神论
接头调接尾词,
被打倒
侦察班
航空馆
展销楼
附加说明:
代军长
进度表
棉花库
副部长
超时代
多功能
泛希腊
可采纳
GB/T1371592
所称赞
工具厂
工程师室
计算机处
本标准由中华人民共和国机械电子工业部提出。本标准由北京航空航天大学、燕山公司系统部、北京师范大学、中国标准技术咨询服务中心、机电部计算机与微电子中心、北京语言学院、水电科学院计算所、中国软件技术公司、机电部第四研究所负责起草。
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。