首页 > 国家标准(GB) > GB/T 20532-2006 信息处理用现代汉语词类标记规范
GB/T 20532-2006

基本信息

标准号: GB/T 20532-2006

中文名称:信息处理用现代汉语词类标记规范

标准类别:国家标准(GB)

英文名称:Standard of POS tag of contemporary Chinese for CIP

标准状态:现行

发布日期:2006-09-18

实施日期:2007-03-01

出版语种:简体中文

下载格式:.rar.pdf

下载大小:154171

标准分类号

标准ICS号:综合、术语学、标准化、文献>>词汇>>01.040.01综合、术语学、标准化、文献 (词汇)

中标分类号:综合>>基础标准>>A22术语、符号

关联标准

出版信息

出版社:中国标准出版社

页数:平装16开 页数:9, 字数:12千字

标准价格:14.0 元

计划单号:20030301-T-360

出版日期:2007-03-01

相关单位信息

首发日期:2006-09-18

起草人:靳光瑾、肖航、郭曙伦、富丽、章云帆、于桂英、陈玉泉、王立

起草单位:教育部语言文字应用研究所

归口单位:教育部(语言)

提出单位:教育部

发布部门:中华人民共和国国家质量监督检验检疫总局 中国国家标准化管理委员会

主管部门:教育部(语言)

标准简介

本标准规定了信息处理中现代汉语词类及其他切分单位的标记代码。 本标准适用于汉语信息处理,也可供现代汉语教学与研究参考。 GB/T 20532-2006 信息处理用现代汉语词类标记规范 GB/T20532-2006 标准下载解压密码:www.bzxz.net
本标准规定了信息处理中现代汉语词类及其他切分单位的标记代码。本标准适用于汉语信息处理,也可供现代汉语教学与研究参考。


标准图片预览






标准内容

ICS D1. 040. 01
中华人民共和国国家标准
GB/T 20532-2006
信息处理用现代汉语词类标记规范Standard of POS tag of contemparary Chinese for CIF2006-09-18发布
中华人民共和国国家质量监督检验检疫总局中国国家标准化管理委员会
2007-03-01实施
前言·
2术语和定义·
词类及其他切分单位分类
词类及其他切分单位标记代码表目
CB/T20532—2006
标由教育部语言文字信息誉理司提出,本标准由教育部语言文字信息普理同归口。本标准起草单位:教育部语言文字应用研究所。本标准主要起草人:靳光瑾、肖航、郭蹈伦、富丽、章云帆、于桂英、陈玉泉、王立。GB/T20532—2006
1范围
信息处理用现代汉语词类标记规范本标准规定了信息处理中现代汉语词类及其他切分单位的标记代码。本标准适用于汉语信息处理,也可供现代孜语教学与研究参考,2术语和定义
下列术语和定义适用予本标准。2. 1
汉语信息处理Chinese,information processing:CH用计算机对汉语疮,曾、义等信息进行输人,排序、存储、输出统计、取等。2.2
切分单位 seghteat unit
GB/T20532—2006
汉语信息处理使用的、具有确定语法功能的基本单位。它包括本标准的规则所限定的词、短语及其他单位。
词类 parts ot speech ; POS
词的语法分翼,主要是根据语法功能划分出来的类:2. 4
标记ag
对文本中切分单位的类别进行标注的代码,3总则
3.1切分单位的范围
本标准的切分单位包搭询、短语和其他切分单位,如习用语,缩略语:前接分、后接成分,语素字。非语索字、标点符号,罪汶学符号等。3.2词类划分的原则
本标准的词类分类体系参考了吕寂湘,朱德熙,胡裕树等先生的语法体系和中学教学语法系统提要。
本标准根据汉语信息处理的特点和要求,主要依据语法功能原则划分词类。3.3标记代码的制定原则
依据国际通常做法,标记代码主要采用英文术语的字母。例如,“名词”,采用英文术语“noun”的首学母\n\作为标记代码;“数词\,采用英文术语\numeral\的第三个字母“m\作为标记代码。汉语独有的,或使用英文术语字母不便的,依据国内通常做法,标记代码采用汉语拼音字母。如,\缩略语”,采用汉字“简”汉语拼音的首字母\}\作为标记代码;\语紫字”,采用没学\根”汉语拼音的首字母“g\作为标记代码。
4词类及其他切分单位分类
本标准将词类划分为13个一级类,16个二级类:其他切分单位划分为7个一级类,13个二级类。用户可根据需要自行增补。
GB/T20532—2006
4. 1调类划分及标记代码
4.1.1名词(n),示人或事物的名称,在句子中主要充当主语和宾语。4.1.1.1普通名调(g),表示事物的名称。如:人马书教师飞机电球籍阿核栗子木头道德理论历史思想文化因豪作风哲学4.1.1.2时间名词(nt),包括一股所说的时量词。如:年月日分秒 
现在、过去昨天去年将来,宋朝呈期一4.1.1.3为位名词(d),表示位置的相对方向。如:上下左右前后亚外中东西南北
前边左面里头宁间 外部
4.1.1.4处所名词(nl),表示处所。如:空中 离处隔壁 门口附近 边疆 一旁 野外4. 1. 1. 5人名(nh).表示人的名称的专有名词。华罗庚阿凡提请离尧司马相如松赞千布卡尔·马克感
4.1.1.6地名(ns),表示地理区域名称的专有名词。如:亚洲 大西洋 地中海 阿尔率斯加亨大中国北京 浙江景德镇呼和浩特宁关村4.1.1.7族名(nm),表示民族或部落名称的专有名调。如:回族戴族杜族案古族维吾尔族哈萨克族4.1.1.8机构名(ni),表示团体、组织.机构名称的专有名词。妇:联合国教育部北京大学中羽科学院4,1.1,9其他专有名词(nz)。如:五粮液宫煤鸡丁桑塔钠
4.1.2动词(v),表示动作、行为,心理活动、生理状态及事物的存现、变化等,在句子中主要充当谓语。4.1.2.1没物动词(v).能够带宾语。如:吃打擦洗喂储送买提填
真欢 告诉 接受 美蒸 考虑 调查 同忘 发动4. T. 2. 2 不及物动词(vi),不能够带宾语。 如:病依息咳啦痴疾游泳睡觉
4.1.2.3联系动词(vl),表示关系的判断。如:是
4.1.2.4能愿动词(vu),表示可能、意。如:能够能应该可以可能情压愿意要4. 1.2. 5趋向动词(vd),表示趋向。如:(走)上
(就)下
(进)来
(面)去
(摔)下去 (提)起来(扔)过去
(跑)上亲
4.1.3形容词(a),表示性质、状态,在句中主要充当谓语、定语、状语和补语。4.1. 3.1性质形容词(aq).表示性质。如:好高美大勇敢危险滋亮干净伟大4. 1. 3.2 状态形容词(as),表示状态。如:雷白酸黑、通红冰凉绿油油亮堂堂白花花冷冰冰4.1.4区别词(),表示事物的区别性特征,在句子中只能做定语修饰名词或跟助词\的”组成“的\字结2
构。如
男女公母雎
雄型国产军用
4.1.5数词(m).表示数和次序。如:季一华百于
一百八
第第十八
4.1.6量词(q),表示人,事物或动作的单位。如:个条片匹瓣尺斤两吨支回次遮千瓦时4.1.7代词(1),起替代和复指作用:如:我你他下载标准就来标准下载网
这个那个
我们你们
什么哪里
大家 自己
恋么恋么样
GE/T 20532—2006
4.1.8副词(d),修饰或限制动词和形容词,表示范围、程度等。在何子中做状语。如都只就
总共正在
仅很再三屡次将不却
常常 重新 曾经 竞然 居然4,1.9分词(p),引介名词性成分,不单独充当句子成分。如:把被从
按照对于
尚对凭
自从关于
连词(心),连接词.短语或句子,表示两者之间所具有的某种关系。如:4. 1. 10
和同与
并且、而且
及并或
或者 因为 所以
助词(u)附着在词、短语,句子后面表示某种附加意义。如:地得了羞过等等似的一样
吸词(e),表示感叹、呼唤或应答,可独立成句或在句中充当独立成分。如:嗯喉
哼哦哎的哎呀
拟声词(o),模拟自然界事物的某种声音,不能单独成句。如;砰滴答扑通咕咚丁丁当当
4.2其他切分单位划分及标记代码4.2、1月语(1一种相沿习用的定型短语4.2. 1. 1 名词性习用语(in)。如;海市感楼 并底之蛙蛛丝马迹
4.2、1.2动词性习用语(iv)。如:跑龙套打官腔吃老本与时惧进
励精图治
4.2.1.3形穿词性习用语(ia)。如:丰害多彩 艰苦朴素光明正大
4.2.1.4连词性习用语(ic)。如:总而言之由此可见。综上所述
4.2.2缩略语(),专有名词或常用语的简缩形式:4.2.2.1名词性缩略语《jm)。如:人大五四 奥运
4.2.2.2动词性缩略语(jv)。如:码研离返休
4.2.2.3形容词性缩略语ja)。如;短平快离精尖
4.2.3前接成分(b),词报前面的附加构调成分。如:3
GB/T 20532—2006
阿老初第
4.2.4后接成分(k),间根后面的附加构词成分。如:于儿头化们式性者
4.2.5语素字(g),汉字字符集中一般不单独使用的汉字。4.2.5.1名词性语素学(gn)。如:民农材
4.2.5.2动词性语索字(gv)。如:抒究涤
4.2.5.3形容词性语案字(ga)。如:珠遂伟
4.2.6非语紊字(x),汉字字符集中单独使用时不具有意义的汉字,如:垃昆蜘跨鸯靖
4.2.7 其他(w)
4.2.7.1 标点符号(wp),如:
4.2.7.2非汉学学符串(ws),如:officewindows
4.2.7.3其他未知的符号(wu)。
词类及其他切分单位标记代码表词类改其他切分单位标记代码表见装1。表1词类及其地切分单位标记代码表(按标记代码的字母顺序排列)
标记代码
-·级类
二级类
形容词
类别名称
adjective
性质形容词
状态形容词
区别词
语囊学
形容词性语变学
名词性语寰字
动词性语衰字
前接成分
习用语
形容词性习用语
连词性习用语
adjectiveguality
adjer tiv-s ta'e
ganjunction
adverb
sxclamation
difference
代码说明
“”的汉语拼音首字母
“根\的汉语拼音首字母-adjecnive“根\的汉语拼音首字母-noun
“根\的汉语拼音首字母-verb
jdiorn
idiom-adjertive
idiam-conjunction
标记代码
一级类
二坡类
表1(续)
类别名称
名调性习用语
动调性习用语
缩略语
形容词性缩略语
名词性缩略语
动调性缩略谱
后接成分
方位名词
普通名调
机掏名
处所名词
时间名调
其他专有名词
拟声词
趋向动词
不及物动词
联系动词
改物动词
能屌动词
标点符号
非汉字字符中
其他未知符号
非语衰字
idiom-noun
idiom-yerb
GB/T20532—2006
代码说明
“简”的汉语讲音首学母
“简\的汉语拼音首学母-adljectivc“简\的汉语拼音首字母-oun
“简”的汉语耕音首字母-verb
依据通常做法
numeral
noundirection
nounrgeneral
noun-human
noun-institution
nonn-locarinn
ounaton
noun-space
nountime
noun\专”的汉语拼音首字母
gramatopoeia
preposition
guanity
pronoun
auxiliary
verb-dirertion
yerb-intransitive
yerb-linking
verb-transitive
yerb-auxiliary
依据通常做云
依据通常做
\w\-gtring
\w\-unkuown
依据通带做法
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。