GA/T 1591-2019
基本信息
标准号:
GA/T 1591-2019
中文名称:警务智能语音服务平台接口规范
标准类别:公共安全行业标准(GA)
标准状态:现行
出版语种:简体中文
下载格式:.zip .pdf
下载大小:2197153
相关标签:
警务
智能
语音
服务平台
接口
规范
标准分类号
关联标准
出版信息
相关单位信息
标准简介
GA/T 1591-2019.Specifications for interface of intelligent voice service platform for the police.
1范围
GA/T 1591规定了警务智能语音服务平台提供服务的数据对象、语音识别服务接口、语音合成服务接口、文本处理服务接口等。
GA/T 1591适用于警务智能语音服务平台接口设计、开发和应用。
2规范性引用文件
下列文件对于本要求的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件.其最新版本(包括所有的修改单)适用于本文件。
GB/T 21023- 2007中文语音识别系统通用技术规范
GB/T 34083- -2017 中文语音识别互联网服务接口规范
GB/T 34145- 2017 中文语音 合成互联网服务接口规范
GA/T 1590- 2019 警务 智能语音服务平台技术要求
3术语和定 义
GB/T 34083-2017 .GB/T 34145- 2017 和GA/T 1590- 2019 界定的术语和定义适用于本文件。
4数据对象
4.1基本数 据类型
平台数据对象采用的基本数据类型见表1。
4.2 JSON 数据交换格式
平台采用JSON数据交换格式来存储和表示数据对象。
5语音识别服务接口
5.1 接口请求调用关系
接口请求调用关系见图1。
5.2连续语音 识别接口
5.2.1初始化连续语音识别服务
行为描述:初始化连续语音识别服务客户端组件。本接口应和逆初始化连续语音识别服务(见5.2.6)配对使用。 如果连续语音识别服务系统不是通过客户端组件提供服务,则本接口可省略。
输人参数:不做定义。
输出参数:返回值等。
标准内容
ICS35.240.99
中华人民共和国公共安全行业标准GA/T1591—2019
警务智能语音服务平台接口规范Specifications for interface of intelligent voice serviceplatform for the police2019-10-11发布
中华人民共和国公安部
2019-12-01实施
GA/T1591—2019
规范性引用文件
术语和定义
4数据对象
5语音识别服务接口
6语音合成服务接口
7文本处理服务接口.
附录A(资料性附录)语音消息结果示例参考文献
本标准按照GB/T1.1一20C9给出的规则起草。本标准由安徽省公安厅提出。
本标准由公安部计算机与信息处理标准化技术委员会归口。GA/T1591—2019
本标准起草单位:智能语音技术公安部重点实验室、安徽省公安厅、讯飞智元信息科技有限公司、合肥市公安局、公安部第三研究所、公安部第一研究所、苏州思必驰信息科技有限公司。本标准主要起草人:祝占魁、冯祥、刘琼、胡先锋、刘磊、查飞、戎玲、孔耀晖、周伟达、李伟、李磊吴波、王伟、储明丽、吴鹏、程彪、刘锰韬、余洪祥、游寒旭。I
1范围
警务智能语音服务平台接口规范GA/T1591—2019
本标准规定了警务智能语音服务平台提供服务的数据对象、语音识别服务接口、语音合成服务接口、文本处理服务接口等
本标准适用于警务智能语音服务平台接口设计、开发和应用。2
规范性引用文件
下列文件对于本要求的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T210232007中文语音识别系统通用技术规范GB/T34C83—2017中文语音识别互联网服务接口规范GB/T341452017
中文语音合成互联网服务接口规范GA/T1590-2019警务智能语音服务平台技术要求3术语和定义
GB/T34083—2017、GB/T34145—2017和GA/T1590-—2019界定的术语和定义适用于本文件。数据对象
基本数据类型
平台数据对象采用的基本数据类型见表1。表1
基本数据类型
类型名称
String
长整型
字符串
浮点数
布尔型
4.2JSON数据交换格式
128--127
-2147483648~2147483647
9223372036854774808--9223372036854774807任意可变长度
3.402823e十38~1.401298e-45(e十38表示是乘以10的38次方,同样,e-45表示乘以10的负45次方)
true或Talse
平台采用JSON数据交换格式来存储和表示数据对象。1
GA/T 1591—2019
5语音识别服务接口
接口请求调用关系
接口请求调用关系见图1。
Foro,N,1
Foro,N,1
成用系统
初始化O
建立识别会话0
返回结果0
定义热词0
返回结果0
写入音频数据
返回识别结果0
绪束会话0
返回结果0
逆初始化()
注1:虚线椎内定义的热词流程,为非必要流程。智能语音服务平台
注2:“For0,N,1\表示起始值为0、上限值为N,步长为1的循环。图1语音识别服务接口请求调用关系5.2连续语音识别接口
5.2.1初始化连续语音识别服务
行为描述:初始化连续语音识别服务客户端组件。本接口应和逆初始化连续语音识别服务(见5.2.6)配对使用。如果连续语音识别服务系统不是通过客户端组件提供服务,则本接口可省略输入参数:不做定义。
输出参数:返回值等。
5.2.2创建连续语音识别会话
行为描述:创建一路连续语音识别会话,可设置会话参数,参数有效范围应为设置成功时起至本路2
会话结束。
输人参数:参数见表2。
输出参数:返回值等。
5.2.3设置连续语音识别会话参数GA/T15912019
行为描述:设置一路连续语音识别会话参数,参数有效范围应为设置成功时起至本路会话结束。输入参数:参数见表2。
输出参数:返回值等。
表2设置连续语音识别会话输入参数序号
sessiontype/sst
net-timceut/ntt
apeck-timeout/st
confidence
threshold/efd
result-format
result-encode/rse
vad-enable
audio-format/auf
audic-encode/aue
字特串,取佳包括continuots和ccmmandcontinunus表示连续语音识别,command表示命会字识别
蓝数,单位毫秒(ma)。取值范围为一1和1~30000的整数,一1表示无超时限制蓝数,单位毫秒(m。取值范围为一1和1~30000的整数,—1表示无超时限制浮点数,取值范用为0.0~100.0字特串,取值包括plain和json,应支持plain和json
字特串:政值包括GB18030、GB/T13000等,应支持GB18030.宜支持GB/T13000布尔值,取值包括true和false
true表示开启,lalse表示关闭
字符串取值包括audio/E16:rate=80o0audio/1.15;rate=16000等。
应支持andio/116:rate=8000和andio/116:rate=16 000
字符串,取值格式规范同RFC2045的ContentType参数,其中的type取值为audio.suhtype取值包括rew.pemapemuamr.amr-wb.spcex.specx-wb.mp3等,其中rW表示不压缩。对于支持可变码率编码的压缩算法,使用子参数level(或简写为lvD指定压缩等级。如取值为\audio/amr-wb:l>l=7\时语音识别服务系统在网络传输中使用amr-wb算法的等级7压缩识别音频。subtype的取值除raw外.宜支持以工音赖压缩算法中的一种或多种
默认值
continuous
10:000
10:000
GB18030
audio/L16
rate=16000
audio/raw
指明会话类型
指明网络交互超时
指明语音写入超时
指明置信度阅值
指明识别结果格式
指明识别结果字符编
码格式
开启音频端点检测
指明识别音频数据
指明识别音频压缩
GA/T1591—2019
language/lang
dialect
vad-timeout
vad-incomplete-timeout
denoise-enable
result-type/rst
progressive-mode
punctuation
result-info
vendor-x
表2(续)
字符串,取值规范符合RFC5646.应支持中文zh-CN、宜支持en-US.缺省值为zh-CN字符串,取值规则符合RFC5846.应支持zh_cmn,宜支持zh_yue等方言
整数,单位毫秒(ms)。
取值范围为-1和1~60000的整数,一1表示无超时限制
整数,单位室秒(ms)。
取值范围为-1和1~60000的整数:1表示无超时限制
布尔值,取值包括true和false,true表示开启,false表示关闭
字符串,取值包括wurd(字或词),sentence(整句)和paragraph(段落)
应支持word和sentence
布尔值,取值包括true和False,true表示进阶模式,alse表示非进阶模式
布尔值,取值包括true和lalsetrue表示自动添加标点符号,false表示小添加字符串,取值为表3中所列参数或其组合,参数之间用””表示分制参数取值见表3字符串,json格式
confidenc-threshold/efd
language/lang
dialect
gender
error-reason
pinyin
user-word
result-info参数集合
跌认值
zh_cmn
10:000
获取完整的
识别结果
参数描述
置信度阅值
信噪比
错误原因
指明识别音频所属
指明识别音频所属
指明语音等待超时
指明语音尾部静音
启用噪声抑制
指明识别结果类型
指明会话是否为进阶
指明是否自动漆加标
点符号
指明识别结果中的信
息种类
自定义参数
5.2.4写入连续语音识别音频数据GA/T1591—2019
行为描述:写人一路连续语音识别会话所用识别音频。本接口可以被反复调用,待识别音频流为空时表示音频写人结束
输人参数:语音数据。
输出参数:见表4。
表4连续语音识别输出参数
version/ser
sentence-number/sn
last-sentence/ls
result-type/rst
error-code
instance
user-input
error-reason
confidence
threshold/cfd
language/lang
dialect
Render
字符串,当前值为0.1
整数,从1开始,递增加1
布尔值,取值为true或false
正整数,单位毫秒(ms)
正整数.单位毫秒(ms)
字特串,取值包ward(字或词)sentence(整句)和paragraph(段落)
整数,0表示成功,非0表示失败,不同非0值对应不向的错误原因
字符串
浮点数,取值范围为0.0-100.0
字符串
字符串
浮点数,取值范围为0.0100.0
字符串,取值规则符合RFC5546.应支持zh_CN.宜支持en_US等
字特串,取值规则符合RFC5546,应支持zh_cmn,宜支持zh_yue等方言
字符串,取值包括male(男)或female(女)字符串,取值包括child(少年),youth(青年)edult(成年)、elder(老人)默认值
zh_cmn
协议版本号
句子序号
是否为最后一句
开始识别时间
结束识别时间
结果类型
错误码
段音颖识别结果的文字
识别结果内容对应的匹配
得分,得分越高越可信
匹配到的语法中的词条,
用于命令字识别中
用户说话内容,用于命令
字识别中
在error-tode为非o值
时,error-reason猫述发生
错误的原因
识别的置信度阅值,用于
命今字识别中
识别音频所属语种
识别音频所属方言
说话者性别
说话者年龄
GA/T1591—2019
progressive type
progressive range
pinyin
user-word
vendor-x
表4(续)
整数,取值范围大于等于I.序数含义字符中,取值包括append附加)、overwrite(盖写)、insert(插人)和delere(删除)对象,两个整数组成的范围,单位均为字节(B),第一个整数表示起点,第二个盤数表示从起点算起的长度,例如:[0,6浮点数.单位分贝(dB)最值规则符合GB/T21023—2007中4.6的规定
字符串,插述的文本为中文字符时,取值为每一个字符对应的汉语拼音按字符先后顺序拼接起来的字符串,中间不加分隔符。每一个字符对应的汉语拼音声韵组合规律符合多汉语拼音方案》,声调中的阴平、阳平、上声、去声和轻声分别用1、2、3、4和0表示,如“北京”的普通话汉语拼音表示为\bei3jingl\
布尔值,取值包括truc或falsc
字符串,ison格式
结束连续语音识别会话
行为描述:结束一路连续语音识别会话。输人参数:会话句柄。
输出参数:返回值等。
5.2.6初始化连续语音识别服务
默认值
append
指明在多人说话的场景
中,当前识别结果是娜个
人说的内容
进阶类型
进阶范围
信噪比
识别结果拼音
是否为用户自定义热词
厂商自定义参数
行为描述:释放资源。如果连续语音识别服务系统不是通过客户端组件提供服务,则本接口可省略。
输入参数:不做定义。
输出参数:返回值等。
5.3语音识别服务接口
5.3.1初始化语音识别服务
行为描述:初始化语音识别服务客户端组件,木接口应和逆初始化语音识别服务(见5.3.6)配对使用。如果语音识别服务系统不是通过客户端组件提供服务,则本接口可省略。6
输入参数:不做定义。
输出参数:返回值等。
5.3.2创建语音识别会话
GA/T1591—2019
行为描述:创建一路语音识别会话,可以同时设置会话参教,参数有效范围应为设置成功时起至本路会话结束。
输人参数:可一次设置多个会话参数。输出参数:返回值等。
5.3.3设置语音识别会话参数
行为描述:设置一路语音识别会话参数,参数有效范围应为设置成功时起至本路会话结束。输入参数:参数见表5.示例参见附录A.1。输出参数:返回值等。
表5设置语音识别会话输入参数
session-id/ssid
business id/hizid
business-name/biznm
audio-format/auf
result-format
result-encode/rse
audic-eneude/aue
dialect
字符串,必,建议取值uuia
字符串,必薄,如未设置,将默认与sessionid相同
学特串
字特申,取值包括audio/L16;rate=8000audio/L15;rate=16000等
应支持audio/L16:rate=8000和audio/L16;rate=16000
字特串,取值包括plain、json,应支持plain和json
字符串:取值包括GB18030,GB/T13000等,应支持GB18030.宜支持GB/T13000字符串,取值格式规范同RFC2045的Content-Type参数,其中的type取值为audio,gubtype取值包括raw、pema、pemu、amr、amr-wb.speex.speex-wb.mp3等,其中raw表示不压缩。对于支持可变码率编码的压缩算法,使用子参数level(或简写为Ivl)指定压缩等级,如取值为\audio/amr-wb:vl=7”时,语音识别服务系统在网络传输中使用amrws算法的等级7压缩识别音频subtype的取值除raw外,宜支持以上音压缩算法中的一种或多种
字符串,值规则符合RFC5846,应支持zh_cmn,宜支持zh_yue等方言
默认值
audio/L16:
rate=16000
GB18030
audio/raw
zh_cmn
会话id应一
业务id
业务名称
指明识别音频数据
指明识别结果格式
指明识别结果字行编
码格式
指明识别音频压缩
指明识别音频所属
GA/T 1591—2019
language/lang
vendorx
5.3.4写入识别音频数据
表5(续)
字符申,取值范符合RFC3646.应支持中文CN,宜支持enUS,缺省值为hCN字符串json格式
默认值
行为描述:写人一路语音识别会话所用识别音频。本接口可被反复调用。输人参数:参数见表6。
指明识别音频所属
自定义参数
输出参数:通过回调接口返回语音识别结果或实时返回语音识别结果,见表?,示例参见附录A.1。表6写入识别音频数据输入参数
session-id/ssid
business-id/bizid
audio-file-uri/afu
audio-encoding/aed
call back
session-id/ssid
business-id/bizid
result-type/rs1
error-ccde
字符串,必填,建议取值uuid
字符串,必填。如未设置,将默认与sessicn-d相同字符申,必填
布尔类型true是,lalse否
字符串,取值包括PCM、ALAW、G729、AMR_NB、GSMHR.GSMEFR.SILK等
可选,有值通过回调方式返回结,空实时返回结果表7
语音识别输出参数
默认值
默认值
字符串,必填,与输入的会话id一致字符串,必填,与输入的业务id一致正整数,单位毫秒(ms)
正整数,单位毫秒(ms)
字符串,取值包括word(字或间),sentence(整句)和paragraph(段落)
整数,0表示成功,非0表示失败,不同非0值对应不同的错误原因
字符串
浮点数,取值范围为0.0~100.0
输入的会话id此内容来自标准下载网
输人的业务
业务id
待识别的音颠文件链
接地址
是否景分离
语音的编码格式
回调地址
会话id
业务d
开始识别时间
结束识别时间
结果类型
错误码
段音频识别结果的文字
识别结果内容对应的匹配
得分,得分越高越可信
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。