首页 > 国家标准(GB) > GB/T 23829-2009 辞书条目XML格式
GB/T 23829-2009

基本信息

标准号: GB/T 23829-2009

中文名称:辞书条目XML格式

标准类别:国家标准(GB)

英文名称:XML Representation of dictionary entries

标准状态:现行

发布日期:2009-05-06

实施日期:2009-11-01

出版语种:简体中文

下载格式:.rar .pdf

下载大小:22075736

相关标签: 格式

标准分类号

标准ICS号:综合、术语学、标准化、文献>>01.020术语学(原则和协调配合)

中标分类号:综合>>基础标准>>A22术语、符号

关联标准

采标情况:IDT ISO 1951:2007

出版信息

出版社:中国标准出版社

页数:64页

标准价格:71.0 元

计划单号:20070101-T-469

出版日期:2009-11-01

相关单位信息

首发日期:2009-05-06

起草人:周长青、程永红、肖玉敬、高莹、王海涛等

起草单位:上海辞书出版社、中国大百科全书出版社、人民教育出版社等

归口单位:全国术语标准化技术委员会

提出单位:全国术语标准化技术委员会

发布部门:国家标准化管理委员会

主管部门:国家标准化管理委员会

标准简介

本标准涉及各种辞书的编纂,提出了一个通用规范数据结构,适用于辞书内容信息,且不受出版媒介限制。该数据结构和辞书中实际条目呈现形式之间的关系,在本标准资料性附录中以实例的形式予以描述。数据结构采用了XML(即可扩展标记语言)的描述形式。本标准充分考虑了辞书的各种使用方式,特别是电子文档的超链接功能,以及建立单一的、充分结构化的辞书信息数据源或数据存储系统,使辞书的信息内容能够以不同的印制形式或电子格式得以开发利用。本标准有助于辞书信息数据的制作、合并、比较、抽取、交换、发布和查询。 GB/T 23829-2009 辞书条目XML格式 GB/T23829-2009 标准下载解压密码:www.bzxz.net
本标准涉及各种辞书的编纂,提出了一个通用规范数据结构,适用于辞书内容信息,且不受出版媒介限制。该数据结构和辞书中实际条目呈现形式之间的关系,在本标准资料性附录中以实例的形式予以描述。数据结构采用了XML(即可扩展标记语言)的描述形式。 本标准充分考虑了辞书的各种使用方式,特别是电子文档的超链接功能,以及建立单一的、充分结构化的辞书信息数据源或数据存储系统,使辞书的信息内容能够以不同的印制形式或电子格式得以开发利用。 本标准有助于辞书信息数据的制作、合并、比较、抽取、交换、发布和查询。
前  言
  本标准等同采用ISO1951:2007Presentation/representationofentriesindictionaries—Require
ments,recommendationsandinformation。
本标准在制定过程中,除对ISO1951:2007中附录A(资料性附录)和附录B(资料性附录)的内容
未予考虑外,其余内容均等同采用。ISO1951:2007中附录A(资料性附录)和附录B(资料性附录)的内
容属于GB/T11617—2000《辞书编纂符号》(ISO1951:1997,NEQ)。GB/T11617—2000非等效采用
ISO1951:1997,而ISO1951:1997不包含目前本标准所采用的ISO1951:2007的内容。
本标准由全国术语标准化技术委员会提出。
本标准由全国术语标准化技术委员会归口。
本标准由中国标准化研究院、上海辞书出版社、中国大百科全书出版社、人民教育出版社、南京大学
辞书研究中心、商务印书馆、中国社科院语言所等单位起草。
本标准主要起草人:周长青、程永红、肖玉敬、高莹、王海涛等。
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有
的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究
是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。
ISO10871:2000 术语工作 词汇 第1部分:理论与应用
ISO704:2000 术语工作 原则与方法

标准图片预览






标准内容

ICS01.020
中华人民共和国国家标准
GB/T23829—2009/IS01951:2007辞书条目XML格式
XMLRepresentation of dictionary entries(ISO1951:2007Presentation/representationof entries indictionariesRequirements,recommendations and information,IDT)2009-05-06发布
中华人民共和国国家质量监督检验检疫总局中国国家标准化管理委员会
2009-11-01实施
GB/T23829-2009/ISO1951:2007
2规范性引用文件
术语和定义
基于XML的辞书条目描述方法
5词条的排版
词条编码实例
附录A(资料性附录)
附录B(资料性附录)
参考文献
词条版式与省略形式的辅助置标.2
GB/T23829—2009/ISO1951:2007本标准等同采用IS01951:2007Presentation/representationofentriesindictionaries—Requirements,recommendations andinformation.本标准在制定过程中,除对ISO1951:2007中附录A(资料性附录)和附录B(资料性附录)的内容未予考虑外,其余内容均等同采用。ISO1951:2007中附录A(资料性附录)和附录B(资料性附录)的内容属于GB/T11617-2000《辞书编符号》(ISO1951:1997,NEQ)。GB/T11617—2000非等效采用ISO1951:1997,而ISO1951:1997不包含目前本标准所采用的ISO1951:2007的内容。本标准由全国术语标准化技术委员会提出。本标准由全国术语标准化技术委员会归口。本标准由中国标准化研究院、上海辞书出版社、中国大百科全书出版社、人民教育出版社、南京大学辞书研究中心、商务印书馆、中国社科院语言所等单位起草。本标准主要起草人:周长青、程永红、肖玉敬、高莹、王海涛等。I
1范围
辞书条具XML格式
GB/T23829—2009/IS01951:2007本标准涉及各种辞书的编繁,提出了一个通用规范数据结构,适用于辞书内容信息,且不受出版媒介限制。该数据结构和辞书中实际条目呈现形式之间的关系,在本标准资料性附录中以实例的形式予以描述。该数据结构采用了XML(即可扩展标记语言)的描述形式。本标准充分考虑了辞书的各种使用方式,特别是电子文档的超链接功能,以及建立单一的、充分结构化的辞书信息数据源或数据存储系统,使辞书的信息内容能够以不同的印制形式或电子格式得以开发利用。
本标准有助于辞书信息数据的制作、合并、比较、抽取、交换、发布和查询。2规范性引用文件
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。IS01087-1:2000术语工作词汇第1部分:理论与应用ISO704:2000术语工作原则与方法3术语和定义
IS01087-1:2000,IS0704:2000中确立的以及下列术语和定义适用于本标准。3.1
[解释说明
comment
用辞书编繁所需的数据元素(3.3)或复合元素(3.2),对词汇单位(3.8)予以描述的基本语言学信息。
复合[数据]元素compositionalelement由多个元素组成的复合信息单位注:有三种复合元素族:块[元素](3.2.1)、容器[元素](3.2.2)和组[元索](3.2.3)。3.2.1
块[元素],分解结构
一种复合元素(3.2),用来列举其他一些元素,这些元素是起详细描述限定作用的功能单位,在另外某个特定元素的多个实例间共享。3.2.2
客器[元素],细化修饰结构container一种复合元素(3.2),通过所包含的一些其他元素(3.5)来为单个特定数据元索(3.3)提供补充信息。
示例:条头需要的容器元素或细化修饰结构一般给出条头的发音、词性等细节信息。条头本身此时则是被细化修饰的数据元素。
GB/T23829--2009/IS01951:20073.2.3
组[元素]group
种复合元素(3.2),用来把几个独立元素(3.5)结合在一起。示例:一个义项由诸如定义、学科领域等一些元素构成的“组”来描述。3.3
数据元素,数据类目dataelement,datacategory信息数据单位,其定义、标识、表现形式以及可允许的信息数据值等是通过使用一组属性特征来规定的。
条目,调条dictionaryentry,lexicographicalentry,entry辞书中由作为标题或开始标志的字、词或短语及其各种变体形式,以及针对该字、词或短语的全部释文两部分组成的内容单位,
元素element
信息数据单位,既可以是数据元素(3.3)也可以是复合元素(3.2)。3.6
条头headword,entryword
辞书中条目(3,4)的标题,标志条目开始位置或引出条目内容的字、词或短语。3.7
词目,主调lemma,baseword
根据辞书学传统选择出来,标志条目开始位置或引出条目内容的调汇单位(3.8)。注:主词是其所在各种词形变化形式列表的代表,例如\sell\是\sells,sold,selling\等词形的代表,3.8
词汇单位lexicalunit
属于特定语言的字、调或短语。3.9
辞书编集符号lexicographicalsymbol在单独或以组合的形式显示或输出辞书信息时,用来表述某些辞书信息数据或术语学信息数据的字母、标点符号、其他排版符号或图形符号。3.10
主副条结构
nestedentry
用于表现具有共同调目的多个相关条目的组合结构。4基于XML的辞书条目描述方法
4.1概述
以下阐述的描述方法模式叫做\XmLex模式”。在本标准的附录A中还通过示例对其进行了详细说明。
4.2辞书条目中的数据元素和复合数据元素词条可以被看成是对作为标题的词汇单位(3.8)进行的[解释]说明(3.1)。每个词条都有一个主要标题,即条头(3.6),以及其他一些相关标题内容。诸如西文中词的屈折变化形式、条头在其他语言中的对应形式等内容,都应属于这种“相关标题内容”。各种标题内容和各类解释说明都是构成调条的数据元素。每个元素都有自已的内容模型。多个数据元素组合形成各种复合元素,进而构成无歧义的、可以完全进行计算处理的辞书条目。本章提供了相关数据元素和复合数据元素的清单。清单的内容是开放2
的,允许用户根据特定的目的进行扩展。GB/T23829-—2009/ISO1951;2007印刷辞书通常利用印刷排版体例(正体/黑体/斜体)、空间位置设定(在前/在后)和标点符号(逗号或分号)来表明词条标题与其解释说明之间的关系。但是在“XmLex模式”中,不会通过元素的位置来表示两个元素之间的关系;不会有与排版印刷符号和体例一样的标记。复合数据元素(3.2)有块元素(3.2.1)、容器元素(3.2.2)和组元索(3.2.3)三种类型,一般用来对条头与其各种解释说明之间的逻辑关系进行编码。这样做的结果,一方面是能够自动生成印刷式的表现形式;另一方面是可以对所有元素间的各种关系进行自动计算处理,用于数据的转换或者把相同的数据再次用于其他场合。如双语辞书中语种顺序的置换、将辞书数据用于翻译软件或词汇数据库等。本标准的这部分内容将:
描述编制常见词条形式时所需要的数据元素,以及由这些元素组合形成的各种复合元素;对数据元素的描述最大限度地遵循了ISO12620:1999中的规定。一些不在ISO12620之列的“自由数据元素”用户可自行定义,这样允许了对本方法模式的扩展,以便进行有条件的数据交换。
-详细说明一种适用于辞书的形式模型。该形式模型将用“扩展巴克斯-诺尔范式(BNF:Backus-Naurform)”来表述。巴克斯-诺尔范式经常用作对给定语言的句法进行规范描述,且该措述与上下文无关。
给出通过使用XML、Xpointer、XSL和XHTML规范技术来实现该形式模型,并对之进行有效性验证的方法。
4.2.1数据元素
4.2.1.1词汇单位
表1给出了一个典型的辞书条目中应该使用的各种调汇单位类型。第一栏包括信息要素的名称。第二栏给出了该形式模型中所使用的通用标识符。第三栏给出了一个简要的说明;第四栏的内容(如果存在)指示的是附录A中第一个有关该信息元素的示例,其中第一个数字是示例编号,第二个数字是代码行号。
表1词汇单位类型
缩略形式
近义词
反义词
复合短语
类型标识符
AbbreviatedForm
Analogy
Antonym
CompositionalPhrase
Derivation
说明·
通过省略较长形式中的字、词或者字母得到的词汇单位。[根据ISO1087-1:2000,定义3.4.9改写有着与目前的词汇单位的意义有近似之处的词汇单位。[根据IS01087-1:2000,定义3.4,20改写]其概念与目前的词汇单位所代表的概念相反的词汇单位。[根据ISO12620;1999,A.10.18.6改写]经常重复出现并形成定式的任何词语并置形式,比如搭配、谚语、格言等等
调汇单位的形式变化,通常是对词根的修饰或增加词级,这些改变常意味着词性的变化
GB/T23829—2009/IS01951:2007名
假同义词
自由内容
完整形式
折变化
国际科学术语
多调单位
同义词
翻译对应词
类型标识符
Example
FalseFriend
FreeTopic
FullForm
Headword
Inflection
InternationalScientific-
MultiWordUnit
Symbol
Synonym
Translation
Variant
解释说明
表1(续)
代表词汇单位某一意义的用例
一种语言中的一个词汇单位,仅仅与另外一种语言中的每一个词
汇单位在形式或意义上有相似之处,但是并不代表同一念其类型在本标准中没有界定的调汇单位一个词汇单位的完整形式,它有一个缩略形式。[根据ISO12620:1999,A.2.1.7改写]引领调条的标题
调语形式的变化,以表达不同的语法意义和语法关系所采纳的符合国际科学命名法的术语。【根据ISO12620:1999.A.2.1.4改写]由两个或更多的字、词组成,且具有单一个含义的词汇单位用字母、数字、图酒文字或其任意组成指明一个概念的名称。【根据1S012620;1999.A.2,1,13改写]与词条的词目代表相同或非常相似概念的词汇单位。[根据ISO12620;1999,A.2.1.2改写】翻译对应词目的语中的相等的词汇单位变体词汇单位的可替换形式之一[根据ISO12620:1999,A.2.1.9改写]示例
表2给出了一个典型的辞书条目中应该使用的各种解释说明类型。第一栏包括信息要素的名称。第二栏给出了该形式模型中所使用的通用标识符。第三栏给出了一个简要的说明;第四栏的内容(如果存在)指示的是附录A中第一个有关该信息元素的示例其中第一个数字是示例编号,第二个数字是代码行号。
补足语
规范程度
应用范围
搜索形式
类型标识符
Attestation
Citation
Complement
NormativeStatus
PartOfSpeech
Person
Pronunciation
RangeOfApplication
Register
SearchForm
SeeAlso
解释说明类型
GB/T23829—2009/ISO1951:2007明
证明观察到一个词汇单位的年份或时期表明一个词汇单位与从句或句子中其他词语的语法关系的形式(名词、代词或修饰词)
引自书籍、文章或文件的词语
词汇单位的附属部分(比如英语动词后的介词\to\)[根据ISO16642;2003,C.4.10.2改写]具有管理职能的诺如标准机构或政府团体等权威机构所分配地位限定语。
[根据ISO12620;1999,A.2.9.1改写]与信息集里面的任何其他要素有关的补充信息。[根据ISO12620;1999,A.8改写]】在语法和语义特征基础上分配给词汇单位的类别。[根据ISO12620;1999,A.2.2.1改写]与特定的屈折变化的调汇单位有关的人称(第一人称、第二人称、第三人称)的标示。
一个词汇单位的发音方式的呈现。[根据ISO12620;1999,A.2.5改写]可以用音韵学或音系学的方式呈现出米某一意义的正确范围
分配给词汇单位的、表明其对语言水平的分类。[根据ISO126201999,A,2.33改写]为检索目的而登陆进词条的词汇单位。[根据ISO12620;1999,A.10.6.3改写】指向一个词目的符号,该词调目是当前词目的同义词指向相关词目的参见
GB/T23829—2009/IS01951:2007名
意义限定语
排序键
亚分类
学科领域
音节划分
目的语
类型标识符
SenseQualifier
SortKey
SourceLanguage
Subcategorisation
SubjectField
Syllabification
TargetLanguage
4.2.2层级结构:辞书和调条
表2(续)
任何关于意义的标示(比喻、文学,旧)当词条的顺序没有按字符集指定的顺序时,为了便于排序而加到词条中的词汇单位。
将被翻译成另外一种语言的词汇单位的语言。将词汇单位指派为其词性的小类,尤其是跟与其结合的句法要素有关。
注:这种元素仅出现于描述语法信息的容器元素中。人类知识的领域。
[根据ISO12620:1999,A.4改写]反映词语发音的按照音节的划分。[根据ISO12620;1999,A.2.6改写]词汇单位翻译成的语言。
动词的形式的区分,用来表达时间或动作持续或其所指代的状态的区别。
辞书内容是由词条或者嵌套的主副条结构词条所组成。表3高层结构
主副条结构
类型标识符
Dictionary
Dictionaryentry
NestEntry
调条或内词条的集合
见定义3.4
见定义3.10
辞书中的词条由一些独立的或者是结合在一些复合元素之中的数据元素组成。6
4.2.3复合元素
4.2.3.1容器元素
GB/T23829—2009/IS01951:2007按照ISO16642:2003AnnexC.4.5中给出的定义,容器元素是一种结构,当某个元素须用其他元素来进一步修饰时使用。如一个条头需要有词性、一段引语需要有作者信息、一个符号需要有来源信息等。
示例:
在某德-英对照辞书中有如下内容(选自附录A——例23)phyonlocopAParadn((F)DIN1301虽然其中\Farad”、“n”、“F\和\DIN1301”等内容在印刷形式上呈线性排列,但是他们之间存在着相互依存关系,即
-Farad是名词词性
Farad的符号是\F\
符号F的文献来源是“DIN1301”对这个内容进行编码的结果如下:(选自附录A-例23)
Farad《Symbo1>F
DIN1301

8.
示例中容器元素“....4.2.3.2块元素
印刷辞书通常使用标点符号(逗号或分号)来指明词条中信息元索之间的关系。示例:用于核心成分的块元素
在某辞书在dam\条下有如下内容(选自附录A一例1)[feelings]oul,raval
[words endiguer
“feelings(感情)\被方括号限定并且出现在两个由-个逗号分开的对应词之前,表示的是\dam\这两个对应词的“适用范围”。最后的分号标示了在“feelings”这个“适用范围”内对应词系列的终止。“[words]\表示了另一个“适用范围”描述的开始。块元素便是用来对这种逻辑关系进行编码的。这种关系使用有核心成分的块元素关系图形表示如下:
feelings
refoulen
对这个内容进行编码的结果如下:(选自附录A一例1)bZxz.net
endIguer
GB/T23829—2009/ISO1951:20071.

figurative
feelingravaler


wordsendiguer11.

12.

在上例中有三个同级的“特征的元素组合在一起。示例:含有容器元素的块元素
cleave[kliv (ptcleaved,lft[klefl],Litclove[ki.v;ppcleaved,clet,Litlovn[kL.v(.)n]上面是原始的辞书词条信息。“cleave”的过去式和过去分词各有三种衍变形式。每种形式都有其发音或语域信息进一步说明。
这种词条信息内容用含有容器元素的块元素关系图表示如下:Derlvatlon
Block1
preterit
slaaved
[register]
Eoron]
Blook 2
participle
用含有容器元素的块元素对这种词条信息内容进行编码的结果如下:1.
DerivationBlock>
eleaved
eleft
cleft

clove10.
[kl..vlcleavedcleft
Derivation>cloven\kl..v(.)n
23.
示例:用于主副条结构信息的块元素有如下内容;
[register]
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。