ICS35.040
中华人民共和国国家标准
GB/T21024—2007
中文语音合成系统通用技术规范General specification for Chinese speech synthesis system2007-06-29发布
中华人民共和国国家质量监督检验检疫总局中国国家标准化管理委员会
2007-11-01实施
GB/T21024-2007
规范性引用文件
术语和定义
中文语音合成系统的功能分类
从语言处理能力上分类
从所处区域或方言上分类
从合成的应用范围上分类
从韵律和音色调节能力上分类
从合成方法上分类
从应用平台上分类
5中文语音合成系统数据交换格式5.1
元素与属性
输人要求·
输出要求
音频数据格式要求,
5.6一致性
附录A(规范性附录)
参考文献
CSSML.V1.0Schema定义
TTKAoNiKAca
本标准的附录A是规范性附录。
本标准由中华人民共和国信息产业部提出。本标准由全国信息技术标准化技术委员会归口。GB/T21024—2007
本标准由安徽中科大讯飞信息科技有限公司、中国科学院自动化研究所、中国电子技术标准化研究所起草。
本标准主要起草人:尹波、严峻、吴晓如、陶建华、吴志刚。GB/T21024—2007
TKAoNiKAca-
本标准的发布机构提请注意如下事实,声明符合本标准时,可能涉及第5章中有关中文语音合成系统数据交换方法的相关专利。
本标准的发布机构对于专利的范围、有效性和验证资料不提出任何看法。专利持有人已向本标准的发布机构保证,他愿意同任何申请人在合理和非歧视的条款和条件下,就使用授权许可证进行谈判。在这方面,该专利持有人的声明已在本标准的发布机构备案。有关资料可从以下地址获得:
安徽中科大讯飞信息科技有限公司安徽省合肥市国家级高新技术产业开发区信息产业基地讯飞语音大厦230088请注意除上述已经识别出的专利外,本标准的某些内容有可能涉及专利。本标准的发布机构不承担识别这些专利的责任。
1范围
中文语音合成系统通用技术规范GB/T21024—2007
本标准规定了中文语音合成系统的术语定义、分类标准、数据交换格式标准和应用规范。本标准适用于各种计算机、网络和智能设备配置的中文语音合成系统。2规范性引用文件
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而鼓励根据本标准达成协议的各方,经过研究决定是否使用这些文件的最新版本。凡是不注日期的引用义件,其最新版本适用于本标准。GB2312—1980信息交换用汉字编码字符集基本集GB13000.1一1993信息技术通用多八位编码字符集(UCS)种平面(idtIS0/1EC10646-1:1993)GB18030-2005信息技术中文编码字符集RFC1766语言识别标签
SSML1.0(W3C)语音合成标记语言3术语和定义
下列术语和定义适用于本标准。3.1
语音合成speechsynthesis
通过机械的、电了的方法合成人类语言的过程第一部分:体系结构与基本多文注:该过程所产生的语音称为合成语音,和人的发音器官产生自然语音相区别有时也叫人工语音(artificialspeech)。
语音合成系统speechsynthesissystem中特定算法、模块和数据资源等构成、用来产生合成语音的软硬件系统注:由于目前语音合成最常用的实例是将智能设备中的文字信息转换为语音信号,以作为智能设备的语音输出形式,语音合成系统也常常称为文语转换系统(text-to-speechsystem),但作为语音合成系统的输人,实质上不限于文字,可以是概念、意图、思想等。在日前的技术水平下,文语转换是实现语音合成的主要方式,本技术规范中不另作特别说明时,文语转换将等同于语音合成的概念,3.3
单语种语音合成系统mono-lingual speechsynthesissystem针对某一语种设计的,功能限于单一、特定语种的语音合成系统。3.4
多语种语音合成系统multi-lingualspeechsynthesissystem可以实现两种及两种以上语言语音合成功能的语音合成系统。3.5
limited vocabulary speech synthesis system有限词汇语音合成系统
为某一特定任务设计的、只能完成有限词汇量语音合成功能的语音合成系统。1
GB/T21024-—2007
无限词汇语音合成系统un-limitedvocabularyspeechsynthesissystem可以完成任意词汇语音合成功能的语音合成系统。3.7
中文语音合成系统
Chinese speech synthesis system可以完成中文普通话或者汉语方言语音合成功能的语音合成系统,TKAoNTKAca
注:如果系统的功能只是将汉字转换为粤语、吴语、湘语、闽语等汉语方言的系统,分别称其为粤语语音合成系统(Yue-DialectSpeechSynthesisSystem),吴语语音合成系统(Wu-DialectSpeechSynthesisSystem)、湘语语音合成系统(Xiang-DialectSpeechSynthesisSystem)、闽语语音合成系统(Min-DialectSpeechSynthesisSystem)等。3.8
韵律标记符号prosodiclabel
以可读形式插人到文本中的特殊字符序列,它可以被语音合成系统检出并解释,从而控制语音合成系统输出语音的韵律特征;也可以用来描述文本所对应自然语音中的韵律特征。3.9
口语spokenlanguage
语言的口头变体。
[GB/T12200.2—1994,4.1.1.3]
注:语音有不同的风格,常见的有朗读风格(readingstylespeech)和即席发言风格(spontaneousspeech),后者是无发言脚本的,也称为自然口语。3.10
口音标注
accentlabel
标出发音人的口音特征。
音段segment
发音器官被处于相对稳定不变的状态下发出的单个语音。在语音或是音系层次上,将话语当作线性串列时,音段是串列中的最小单位。广义上说,音段被看作语音中发音器官或多或少地保持不运动的一个时段。
音段特征
segmental feature
现代语音学中跟音色相关的语音特征,在声学层面表现为频谱:3.13
segmental labeling
音段标注
把话语中的每个语音单元(包括音节、声韵或其他更小的语音单元)逐一进行切分,然后对它们的音色特征分别给予细致如实的描写。3.14
Esandhi
语流音变
连续音变
连续发音中的语音变化。
GB/T12200.2--1994.4.1.3.14
注:如同化、异化等。
辅音consonant
发音时气流受阻,发音器官肌肉紧张程度不均衡的一类音素。2
[GB/T12200.2—1994,4.1.3.11]3.16
元音vowel
发音时气流不受阻,声带振动、发音器官肌肉均衡紧张的一类音素。[GB/T12200.2—1994,4.1.3.10]3.17
国际音标InternationalPhonetic AlphabetIPA
由国际语音协会制定的、国际统一的语音的标记方式。注:IPA国际音标是由国际音标语音协会提出的发音规范。3.18
韵律prosody
GB/T21024—2007
一般也称为超音段特征(suprasegmentalfeature),是将各种语言学单位组织成话语或话语中关联组块的系统组织。从物理角度,指基频、时长和强度等声学参数;从语言学的角度,指音段层次以上的音系组织。
注:韵律的实现涉及语音的音段和超音段特征,它不但能够传递语言学信息,而且能够传递副语音学和非语言学信息。
音高范围pitchrange
个人说话时音高变化范围。
音区register
通过声带张力的调节,人能够说话或唱歌的不同音高范围。注:如高音区与低音区,正常声音区与假声音区等。3.21
汉语Chinese
汉民族使用的语言。属于汉藏语系,是一种孤立语,有声调。汉语的书写基础汉字是一种表意文字,又称中文。
注:至于统称中国境内的所有语言(包括汉语和少数民族语言)为“中国的语言(ChineseLanguages)”。3.22
汉语方言Chinesedialects
特定地理区域中汉语的变体,
声母initial
汉语音节起始的辅音性成分,根据辅音的清浊不同可以将声母分为清声母和浊声母。3.23.1
清声母
unvoiced initial
由清辅音作的声母。
浊声母voicedinitial
由浊辅音作的声母。
零声母
zero initial
音节起始没有辅音性成分,而直接以元音开始。3
GB/T21024—2007
TTIKAONiKAca
注:普通话声母参见GF3006—2001的定义4.2.其他汉语方言声母可参见IPA组织1999年编著的《国际语音学会关于使用国际音标的指导手册》。3.24
韵母final
汉语音节中除了声母以外的音段部分。韵母可以从组成结构上进一步分析为韵头、韵腹和韵尾,单元音组成单韵母,复元音或带鼻音韵尾的鼻韵母组成复韵母,带有鼻音韵尾组成鼻韵母。注:善通话韵母参见GF3006一2001的定义4.3.其他汉语方言韵母可参见IPA组织1999年编著的国际语音学会关于使用国际音标的指导手册》。3.25
声调tone
作用于音节或词语层面上具有区别词汇意义功能的音高模式。由于声调具有区别词汇意义的功能,因此一些学者把声调也看成是一种音位,并称之为“调位(toneme)”。注:普通话声调参见GF3006---2001的定义4.4,其他汉语方言声调可参见IPA组织1999年编著的《国际语音学会关于使用国际音标的指导手册》。4中文语音合成系统的功能分类
4.1概述
符合本标准的中义语音合成系统应在规格中明确注明其系统分类,并满足相应系统分类的技术要求。
4.2从语言处理能力上分类
语音合成系统从处理语言能力上可以分为:单语种语音合成系统和多语种语音合成系统:语音合成系统应注明其处理语言种类,及同时处理不同语言的能力。4.3从所处区域或方言上分类
普通话语音合成系统足指可以完成中文普通话语音合成功能的语音合成系统。方言语音合成系统是指可以完成特定中文方言语音合成功能的语音合成系统:一般来说,方言语音合成可以按照区域划分为:广东话语音合成系统、吴语语音合成系统等。中文方言语音合成系统应注明其应用区域和方言类型。4.4从合成的应用范围上分类
语音合成系统从合成的应用范围上可以分为:有限词汇语音合成系统和无限词汇语音合成系统。语音合成系统应注明应用的范围。4.5从韵律和音色调节能力上分类语音合成系统从韵律和音色调节能力上可以分为:基于参数的语音合成系统和基于波形的语音合成系统。
基手参数的语音合成系统是指采用失量参数运算作为声学模型的语音合成系统。例如:基手工PC(线性预测编码)语音合成系统、基于共振峰语音合成系统、基于LSP(线谱对)语音合成系统等。基于波形的语音合成系统是指采用波形拼接算法作为声学模型的语音合成系统。4.6从合成方法上分类
语音合成系统从实现方法上可以分为:基于规则的语音合成系统和基于数据驱动的语音合成系统。基于规则的语音合成系统通常是指语音合成系统中各模块使用的算法是通过专家规则的形式实现的语音合成系统。
基于数据驱动的语音合成系统是指系统所需的模型,是通过数据驱动的方法建立的,其最大的特征就是可训练性。
基于这两种方法的语音合成系统,在适应不同数据集和不同发音人的性能上有着一定区别。这两4
种方法可以混合应用以提高系统的效果及减小对训练数据容量的要求。4.7从应用平台上分类
GB/T21024—2007
语音合成系统从应用平台上可以分为:用于芯片的语音合成系统、用于嵌入式操作系统的语音合成系统、用于独立主机的语音合成系统、用于分布式计算的语音合成系统等语音合成系统应注明该系统适用的应用平台,如果是工作于特定的操作系统之上,也需同时注明支持的操作系统和语音合成系统的资源需求。5中文语音合成系统数据交换格式5.1概述
“中文语音合成标记语言(CSSML)”定义了一套基于XML文档结构的标记语言体系。它可被用于资源共享、模块互换,以及在分布式应用中的中间数据格式,或者独立系统的输入控制。CSSMIL基于W3C制定的SSML(SpeechSynthesisMarkupLanguage)标准,在SSML的基础上针对汉语语音合成的情况进行了扩展和修改。
本标准规定了在语音合成系统中的数据交换应使用基丁“中文语音合成标记语言规范所定义文档结构的数据内容。
5.1.1文档结构
基于XML的文档格式,各类型标记以XMI元素的形式给出。附录A给出了CSSML定义。5.1.2特性
中文语音合成标记语言应具有以下特性:支持多种格式文档的输入,即能指明当前文档格式:a)
与现有各标记体系保持一致,尽量兼容或易于被自动转化:能对合成文本的结构加以描述:支持不同语言和方言的定义;
支持特殊发音指定(宏发音),包括强制改变发音以及引用外部声音元素;支持对诸如速度、音高、音强等参数的控制;支持对音色的指定,如发音人姓名、性别、年龄等;h)
对特定格式文字发音的支持,如地址、电话、网址等;支持重读/强调控制;
支持某段文字语调控制。
CSSML元素表
CSSML.元素见表1。
表1CSSML元素表
emphasis
environment
lexicon
paragraph/p
phoneme
指明插入一个已有声音样本
指明-个停顿
指明轻重读/强调程度
指明发音的音场环境
指明作用域内附加使用的用户词典指明事件响应
语音层次结构的单位
指明发音音索序列方案
定义集
基本集
基本集
扩展集
扩展集
扩展集
扩展集
扩展集
基本集
GB/T21024--2007
phrase
prosody
punctuation
sayas/say-as
sentence/s
表1(续)
语音层次结构的单位
指明发音的韵律
指明标点的处理方式
指明文本性质
语音层次结构的单位
CSSML文档的根元素
替换文本内容
指明插人个系统变量
指明发音人的音质特征
语音层次结构的最小单位
保留未来使用
注:凡是以A/B形式出现的元素表示A与B的写法等价。5.2元素与属性
5.2.1文档结构类元素
5.2. 1. 1
元素名:speak
属于基本集
描述:
由于此标注体系采用XML文档格式给出,因此根元素即为“speak”允许的父元素:
允许的子元素:
TTIKAONiKAca
定义集
扩展集
基本集
基本集
基本集
基本集
基本集
基本集
基本集
扩展集
基本集
paragraph,sentence.phrase,word,say-asphoneme,sub,lexicon,punctuation.prosody,emphasis,voice,environment,audio,value,break,mark,rdm.属性表:
\version\
属性描述:指定使用的规范的版本。属性值:应为\1.0”。
\xml.lang\:
属性描述:指定作用域内文档内容使用语言。属性值:可用值请参照Internet公文RFC1766。\xml.base\:
属性描述:指定文档的根URI位置。示例:
www.bzxz.net<?xmlversion=“1.0”encoding=\gb2312\?》
..合成内容.
5.2.1.2paragraph/p.sentence/s.phraseword描述:
指定语音层次结构,以使合成语音更加符合使用要求。示例:
GB/T21024—2007
我们的最高目标是
得到高自然的语音
5.2.1.2.1paragraph/p
元素名:paragraph
别名:p
属于:基本集
描述:
指定作用域内文字为一段落。
允许的父元素:
speak,lexicon,punctuation,voice,environment.充许的子元素:
sentence,phrase,word,say-as.phoneme,sub,lexicon,punctuation,prosodyemphasis,voice,environment,audio,value,break,mark,rdm.属性表:
“xml.lang\:
属性描述:指明作用域内的发音语种。属性值:可用值请参照Internet公文RFC1766。5.2.1.2.2sentence/s
元素名:sentence
别名:s
属于:基本集
描述:
指明作用域内文字为一句子。
允许的父元素:
speak,paragraph,lexicon,punctuation,voice,environment.允许的子元素:
phrase,word,say-as,phoneme,sub,lexicon,punctuation,prosody,emphasis,voice,environment,audio,value,break,mark,rdm.
属性表:
“xml.lang\
属性描述:指明作用域内的发音语种。属性值:可用值请参照Internet公文RFC1766。5.2.1.2.3phrase
元素名:phrase
GB/T21024—2007
属于:基本集
描述:
指明作用域内文字为一短语。
允许的父元素:
speak,paragraph,sentence,phrase,lexicon,punctuation,voice,environment.允许的子元素:
TKAoNiKAca
phrase,word,say-as.phoneme,sub.lexicon,punctuation,prosody,emphasis,voice,environment.audio.value,break,mark,rdm.
属性表:
\xml:lang\:
属性描述:指明作用域内的发音语种。属性值:可用值请参照Internet公文RFC1766。5.2.1.2.4word
元素名:word
属于:基本集
描述:
指明作用域内文字为一词组。
允许的父元素:
speak,paragraph,sentence,phrase,lexicon,punctuation,voice,environment.允许的子元素:
say-as,phoneme,suh,lexicon,punctuation,prosody,emphasis,voice,environment,audio,value,break,mark,rdm.
属性表:
\xml:lang\:
属性描述:指明作用域内的发音语种。属性值:可用值请参照Internet公文RFC1766。5.2.2文本控制类元素
5.2.2.1 sayas/say-as
元素名:sayas
别名:say-as
属于:基本集
描述:
指明文本的性质,即如何决定其发音方式。允许的父元素:
speak.paragraph,sentence,phrase,word.lexicon,punctuation,prosody,emphasis,voice,environment.
允许的子元素:
属性表:
\interpret-as\:
属性描述:文本的发音方式。
属性值:
“acronym:英语缩写.字母发音间隔较小;8
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。