ICS33.030
中华人民共和国通信行业标准
YD/T2098-2010
信息无障碍
语音上网技术要求
Information accessibility technical reguirement ofvoice-enabled web service
2010-12-29发布
2011-01-01实施
中华人民共和国工业和信息化部发布前
规范性引用文件
术语、定义及缩略语…
概述·
语音上网服务系统结构
设备功能要求·
VoiceXML系统架构
语音标记语言格式
语音浏览器与语音服务器信息交互格式-10语音服务系统安全性要求……目
附录A(资料性附录)VoiceXML应用示例次
YKAONYKAC
YD/T 2098-2010
YD/T2098-2010
本标准为“信息无障碍”系列标准之一,该系列标准预计的结构及名称如下。-基础类:
借息无障碍术语、符号和命令
对现有服务系统的补充:
YD/T1761-2008信息无障碍身体机能差异人群网站设计无障碍技术要求YD/T1822-2008信息无障碍身体机能差异人群网站设计无障碍评级测试方法YD/T2065-2009信息无障碍用于身体机能差异人群的通信终端设备设计导则YD/T1890-2009信息终端设备信息无障碍辅助技术的要求和评测方法信息无障碍呼叫中心服务系统技术要求一专用服务系统:
信息无障碍公众场所内听力障碍人群辅助系统技术要求—专用设备:
YD/T1889-2009手柄电话助听器耦合技术要求和测量方法移动电话助听器耦合要求和测量方法骨导电话机传输性能的研究
—专用技术
用于手语和唇读的低比特视频通信应用信息无障碍语音上网技术要求
本标准规定的网英设计的主要技术原则与方维网联盟(W3C)制定VoiceXML2.0及VoiceXML2.1保持了…-致。
本标准的附录A是资料性附录。
本标准史中国通信标准化协会提出并归口。本标准起草单位:工业和信息化部电信研究院、中国残疾人联合会信息中心、中国互联网协会、全国老龄工作委员会办公室、中国百文出版社、华为技术有限公司。本标准主要起草人:吴英桦、崔慧萍、刘盈、孙永革、吴玉韶、沈静、杨昆、赏庆平、何川、黄畅。
1范围
信息无障碍,语音上网技术要求YD/T 2098-2010
本标证规定了利用语音方式访问互联网的技术要求,包括语音上网服务系统结构、设备功能要求、VoiceXML系统架构、语音标记语音式、语育浏览器.与语音服务器信息交互格式、语音服务系统安全性要求等。
本标推适用于语音上网服务系统及相关设备。2规范性引用文件
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准。然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。IETF RFC 2046
1ETF RFC 2392
TETF RFC 2396
ETF RFC 2616
IETF RFC 2822
IETF RFC 3550
IETF RFC 4463
W3CCSS
W3C SRGS
3术语、定义及缩略语
3.1术语和定义
下列术语和定义适用于本标难。3.1.1
多用途互联网邮件扩展第二部分:媒体类型内容标识和消息标识统一瓷源定位符统一资源定位符:通用句法
超文本传送协议
互联网消息格式
实时传送协议
媒体资源控制协议
层叠样式表
语音识别语法规范
语音扩展标记语言VoiceExtensibleMarkupLanguage(VoiceXMLVXML)VoiceXML是一种标记语言,用来创建音频对话,主要包括语音合成,数字化音频、语音识别、DTMF按键输入识别、录音等互动式会话。它的主要作用是把基丁网络的开发和信息这两者的优势引入语音应答系统。
VoicexML有以下优点。
,通过在每个文档中指定多个交互式对话,最大限度地减少客户机和服务器之间的交互。鲁使得程序不用理会底层的和平台特布的细节。使得用户交互的代码(在VoiceXML中)和业务遗辑(例如CGI脚本)分离。提高业务在不同平台的可移植性。VoiceXML对内容提供商,丁息提供商和·平台提供商来说是一1
TYKAONYKACA
YD/T 2098-2010
种通用的语言。
。它可以很容易地应用到简单的交互中,也可通过提供一些语答特性来支持复杂的对话,VoiceXML描述的是归语音应答索统提供的人机交互,包括以下儿个方面。语音合成(Text-to-Speech):·声音文的输出;
语音输入的识别:
* DTMF 输入的识别;
。对话流的控制
电话的一些特性,如呼叫转移和挂机。鉴于语音上网的特殊要求,对电话特性的支持不在本标准涉及范围内。3.1.2
VXML标记语言中的术语和定义
文档Document
一个VoicexML文档构成了个描述会话的有限状态机。用户每次只能处于一个会话状态或Dialog中。每个Dialog都会确定要跳转的下一个Dialog。跳转通过URI指定,URI规定了下一个要用到的文档和Dialog如果URI没有指向一个文档,则认为它指向当前文档。如果URI没有指向一个Dialo:则认为它指间那个文档的第一个Dialog。如果一个Dialog没有指定它的下一个Dialog,耻者它有一个明确地追出会话的元素,则执行中断。3.1.2.2
对话Dialogs
VoiceXML有两种Dialog,即Form和Menu。Form定义了一个收集用户输入,并给相应的Field变量赋值的交互过程。每个Field可以指定个语法,这个语法规定了Field允许的输入,如果有Form级的语法存在,一个输入语句可能同时填充几个Field变量。Menu给用户提供了一些可选的选项,并根据用户的选择跳转到另外一个Dialog。3.1.2.3
子对话SubDialog
Subdialog就像函数调用一样,它提供了一种机制来调用一个新的交互,并返回到调用它的Form。调用前的变量实例、语法和状态信息都被保存起来,在返回到发起调用的文档后仍然可用,例如,Subdialog可以用在创建一个由数据库查询得到的确定序列;或者创建在单个应用的文档中共享的组件:或者在多个应用中可重用的Dialo库。
会话Sessian
会话从用户开始和VoiceXML解释器环境交互时开始,寒括了加载和执行文档的过程,并随着用户或文挡或释器环境请求结束而结巢。3.1.2.5
应用 Application
YD/T2098-2010
应用是由共享同一应用根文档的一系列文档组成的。无论如何,只要用户在跟应用里的文档交互,它的根文档都会被加载。当用户在同一应用的其他文档中跳转时,应用根文档一直都被加裁,直到用户跳转到一个不在这个应用里的文档。当应用根文档被加载的时候,它的变量就像这个应用的变量一样对这个应用里所有的文挡都是可用的,它的语法在这个应用的生命期内都是滋活的,3.1.2.6
语法Grammar
由丁语音识别技术的现状,非特定人领域自由无限制的语音输入无法得到令人满意的识别猜度,固此人机语音交互系统中,一般采用有限制的语法规则对语音输入进行一定限制。惩个Dialog都有一个或多个语音和(或)DTMF语法。在机器主导的应用中,每个Dialog的语法只有当用户在那个Dialog中的时恢才激活。而在混合主动式(MixedInitiative)的应用中,相关的几个Dialog的语法同时都是活的(也就是正在监听),即使用户在同一个文档的另外一个Dialog,或者在同一个应用的另一个加载的文档。滬合主动式是指,用户和机器交替地决定下一步要做的。在这种情况下,如果用户说的话匹配了另一个Dialog中激活的语法,执行平台会跳转到那个Dialog,用户刚才·所说的话就像它在那个Dialog中说的一样。混合主动式增强了语音应用程序的灵活性和性能。3.1.2.7
事件Event
平台能在多种环境下抛出事件,例如当用户没有响应的时候,或者没有清梵地响应的时候,或者要求帮助的时候等。如果发现VoiceXvL文档有语义错误的时候,也会抛出事件。事件由Cateh元素捕捉3.1.2.8
链接Link
链接支持混合主动式交互。它可以指定个语法,无论何时,只要川户在这个Lnk的作用域内,这个语法都是激活的。如果用户的输入匹配了这个Link的语法,控制就跳转到该Link指定的URI。3.1.3
媒体资源控制协议MediaResourceControlProtocol(MRCP)MRCP用丁管理和访问分布式系统架构上的语音资源服务器,采用MRCP协议后,独立软件商和应用开发商仅需面向MRCP接口携写程序,而无需顾及语音识别和其电话应用方面的差异,不必为不同语音提供商的语音引擎分别撰写程序,任何支持MRCP标准的语音引擎都可以被无缝集成和调用。3.1.4
MRCP中的术语和定义
请求Request
指代MRCP客户端发送给MRCP服务器端的控制请求。3.1.4.2
响应Response
指代MRCP服务器端返回给MRCP户端的响应3.1.4.3
事件 Event
TYKAONYKAA
YD/T2098-2010
指代MRCP服务器端返回给MRCP客户端的异步事件,用于通知关键事件的发生。3.1.4.4
方法Mathod
指代MRCP方法,包含语音合成方法,语音识别方法等。不同的方法,对应于不同的语音合成/识别功能的调用。
消息头 Message Header
指代MRCP消息(包括请求、呵应、事件)的头部,通常包含一个或者多个参数。3.1.4.6
消息体MessageBady
指代MRCP消息(包括请求、响应、事件)的内窄。3.1.4.7
返回码 Status Code
指代MRCP响应包含的返向码,用于确定MRCP请求是否成功完成。3.2缩略语
下列缩略语适用下本标雄。
4概述
Automatic Speech RecognitiouDual Tone Multi-Frequetcy
Interactive Voice Response
Internet Content Provider
Media Resource Control ProtocolPersonal Digital Assistant
Public Lanid Mobile Network
PublicSwitchedTelephoneNetworkTransport Protocal for Real-Time ApplicationsSpeech Recognition Grammar SpecificatiotText to Speech
Voice Over Internet ProtocolExtensible Murkup Language
自动语者识别
双音多频
交互武语音应答
五联网内容提供商
媒体资源控制协议
个人数字助理
公共陆地移动网
公共块话交换网
实时传送协议
语意识别语法规范
音合成
互联网协议电话
可扩展标记语言
语音上网技术是指通过语音控制的方式访问联网,和用语音操控网页的浏览,收听网络信息。语音上网技术可解决残疾人,老年人面临的上网困难。传统的上网方式离不开键盘、鼠标和屏幕,输出的信息显示在屏幕上,首人,弱规若、肢残者等特殊人群使用这种上网方比较困难。在使用手机上网的情况下,狭小的显示屏也会影响老年人阅读。语音上网可以解快这些问题,利用语音识别技术将信息输入终端,利用语音合成或其他音频输山方武播放信息,避免了视觉障碍带来的信息交流困难。语音上网技术可解决低收入人口上网缺恶计算机终端的问题。目前人们从互联网我取各种资源时,士要是借助PC机,而实际上,PC机的普及率远远低于电话。语音上网技术的实现,使更多的人能够有机会4
YD/T2098-2010
访问互联网,以电话拨号方式接入,通过电话按键或语音输入来访问互联网上的各种资源并存取数据。语音上网技术不仅可以方便特殊人群上网,还可应用到车载系统、手机、PDA等产品中,使得普通人在不方便用眼的时候也可以上网,例如在驾驶车辆的同时,通过车载系统访间网站,或利用手机、各种随身的微型通信设备实现无键盘上网。语音浏览器和语音服务器是构成语音上网服务系统的基本要素,语音浏览器可以实现连接电话网与互联网的语音网关上,也可以实现在于机、车载设备、PDA等各类用户终端上:语音服务器由服务提供商支持。用户访问语音上网服务系统时,可以通过两种方式,一是通过电话网访间,二是通过支持语音上网功能的手机、车载设备等访问网站,如图1所示。通过电话网访问语音网站时,需要在电话网和IP网之间设置语音网关,语音网关支持语音浏览器、语音识别、语音合成功能,可以根据用户的声音或者DTMF按键命令识别用户请求,浏览器将其转化为语音标记语言,发往服务器并获取服务器提供的音频文件或文字信息,音频文件被直接播放,文字信息被转化为语音播放。通过手机、车裁设备访问网站时,终端除了要支持浏览器功能外,还要支持语音识别功能,通过声音命令控制网页的浏览,并把从服务器下载的音频文件播放给用户听,或者利用语音合成技术把下载的文字转化成声音播放。PSIN
语音网关
Intemet
车载设备
图1语音上网服务系统构成示意
5语音上网服务系统结构
语音上网的系统包括语音门户、ASR,TTS、IVR服务、语音网关、运营管理等模块,如图2所示。语育门户导航流程
管理员
语督网关服务器
网站2
图2语音上网服务系统结构
TYKAONYKACa
网站3
YD/T2098-2010
1)语音门户
语音门户提供了语音上网的门户和通道,用户语音上网时,可以听到语音门户生成的语音导航单。用户只需记住该某个号码就可以通过导航菜单进入后续的上网。语音门户还可以用来完成个性化收来管理,即用户将几个语音门户中的目设置为收藏类,下次使用时,系统将根据其收藏夹生成菜单,这样用户就可以快速进入自已喜欢的网站了。2)TTS
语音合成指的是计算机自动地把给定的文本信息转换成语音的过程,它赋予了计算机系统“嘴巴”功能一一按照文本发音。可以将网站的内容播报给用户收听。语音合成是复系的语音处理技术,是涉及语音学、语吉学,数字借号处理和计算机科学等领域的多学科综合性技术。语音合成技术把可视的文本信息转换为可闻的声音信息,其应用范围非带广,如文本的有声校对、中脑话务员系统,信息白动广播系统、语音应餐索统、信息库查询系统、立本校对系统以及残疾人辅助发音系统等。3)ASR
语音识别是一个通过模式识别匹配方法将人的语音转换为文本的过程。用户可以通过语音方式来进行上网的操作,比如选某个网站等。ASR技术提供了讨算机“耳朵”功能,计算机可以通过语音的感知接收命令。在这个过程中,计算机首光要根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的整体模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的瘦索和匹配策略,找出一系列最优的与输入的语音匹配的模板,然后,据此模板号的定义,通过查表就可以给出计靠机的识别结果。
4)IVR服务器
提供对有动流程的控制,在白动流程的运行过程中,将会调用收号资源、语音资源和TTS/ASR资源。完成上网服务的基本业务流程。5)语音网装服务
与互联网的接口服务器,IVR服务器与语音网关配合,完成用上网浏览过程。语音网关采用VXMI脚本方式,用于存放各个网站的服务地址,并可以向某网站发送浏览请求。6)运维管理系统
配置了系统、蓝控子系统、报表子统等,随过管理系统可以以配置平台的资源、进行日常继护,动态加载或仰载网站业务。通过监控子系统可以实时动态地监视到系统的各种设备的运行数据利状态。通过报表子系统可以得到系统的话务量、服务质量以及业务代表工作情况的统计报表。通过告警子系统可以查君系统的告警信息。
6设备功能要求
6.1语音网关功能要求
通过电话网提供语音上网服务时,语音网关作为前端接入设备,通过数学中继/光纤P接入承裁通道,采用7号信令方式与传统PSTN网络连接:或采用SIP信令方式与NGN网络连接,为用户提供语音服务。IVR主要负责完成业务流程解释,管理、业务呼叫的处理,提供语音播放、TTS合成、ASR、DTMF的接收和发送,音网关的访闻和业务话革的产生等。语音网关把PSTN线路承载的语音信息,转化为数据,并在互联网上传播。语音网关与五联网上的语6
YD/T2098-2010
育网站对接,向互联网上的语音网站发送HTTP请求,获取语育网站的内容,并支持网站的切换等功能。互联网的语告网站为特殊的网站,需要用语音标记语育缩写语音网页文件。语音网关的一次服务的过程有以下4个步骤。
www.bzxz.net1)语音门户等待电话用户的接入,如果有电话连接到语音门户中,IVR乎台就会逆知语音网关,并将相关信息通知语音网关:
2)语音网关向语音网站发起请求,网站的文档服务器狱收语标记语言文档:3)语音网关核心解释文档语义,根据语义和用户发生交互,其中包插过平台向用户播微语音文件或者播放文本合成语音,获得用户的按键输入或者语音翰入:4)文档结束,解释器核心结束工作。6.2语音服务器功能要求
语音服务器是实现语音上网的关键要素,其功能要求分为3个等级:1)等级1
提供基本的谢音识邪、语音合成功能,语音识别用于把上网用产的语音指令识别成文本内容:而语音上网站点可以根据识别出的文本,逝行业务逻辑的控制。
语音合成用于把语音上网站点提供的文本内容合成为声音文件输出,使得上网用户可以通过电话,手机/PDA/车载系统等设备进行网页浏览2)等级2
支持媒体资源控制协议<见IETFRFC4463),支持媒体资源控制方式,可发起语音识别/语音合战请求,控制语音识别/语音合成操作,获取语音识别语音合成结果。语音服务器可同时支拆多个并发的语音识别/语音合成清求,并通过实时传翰协议(RTP,见IETFRFC3550)进行输入/输出语音的传送,适用于语音上网环境。3等级3
提供说话人身份认证功能,
语音服务器可额外提供说话人认证功能满足语音上网站点的安全性需求。说话人身份认证功能根据说话人声音征的差异性,对上网用户进行身份确认,从而提供信息安企保障。
6.3语音浏览器功能要求
菌测览露也是实现语音上网的率小要亲一,实动能要求分为3个等裂。1等级1
支持VnIP,接收上网用户的输入语音,并输山语音合成的声音。语音上网有多种接入乎感,们最终语音数据筛要在网络进行高速,高版量传播,以保证实时的馈音识别/话音合成服务。
语音浏览器是整个语音上网系统的对外接,负责声音的输入与输出。会话初始协议(SIP)可以帮助语音浏览器对并发的语音输入/输出请求进行有效的控制和处理,从而提供对VoIP的支持,2)等级2
支持解桁并执行语音标记语言的功能。语音标记语言用于定义语音上网站点的业务逻辑,语音浏览7
TYKAONYKAa
YD/T 2098-2010
器负责对语音标记语言进行解析并执行。3)等级
支持媒体资源控制协议(MRCP),语音测览器与语音服务器的交互通过MIRCP完成。语音浏览器解析语音标记语言时,如果遇到请求语音输入或者请求语音输出的语句时,浏览器负责把该请求转化弦MRCP指令,发送给语音服务器,并接受语音服务器递交的结果。了VoiceXML系统架构
VoiceXML服务系统出文档服务器、VoiceXML解释器环境和实现平台三个功能模块构成:其架构如图3所示。
文档压务器
解解器坏环境
Voice XML 环释船
实现平台
图3VoiceXML系统架构
文档服务器(例如Web服务器)通过VoiceXML解释器环境(Context)处理来自客户端应用程序即VoiceXML解释器【语音浏览器】的请求,并把相应的VoiceXML文档返回给VoiceXML解释器处理,通过VoiceXML解释器环境,VoiceXML解释器会同时监听多个用户的行为。例如,在一个用户教程中,VoiceXML解释器可能会一古监听一段特别的提示输出,以便更好的引导用户,而同时另一个被监听用卢则正在避行参数的改变,如音最或者语音合成的特性。执行平台由VoiceXML解释器环境和VoiceXML解释器控制。例如,在交互式语音应答系统中,VoiceXML解释器环境负拉测电话呼入,若有则把电话接起米并把这次呼叫引导到程序的第---个文档;而 VoiceXML 解释器在电话接起来后负责控制对话框。执行逆台则产生一些事件来响应用户相应的操作(如接收到的语音或字符翰入,或茗挂机)和和应的系统事件(如定时器到期)。8语音标记语言格式
8.1Voice XML 元案
支持语音上网的网页应符合VoiceXML标记语音的恪式,VoiceXML是用米创建音频对话的,支持人机交互的语音合成、数学化音频、语音识别、DTMF按键输入识别、录音等互动式会话功能。VoiceXML是基于XML的标记语言,遵循XML的基本语法规定,在语音上网应用中,需要使用的VoiceXML元素见表1。