首页 > 国家标准(GB) > GB/T 36464.1-2020 信息技术 智能语音交互系统 第1部分:通用规范
GB/T 36464.1-2020

基本信息

标准号: GB/T 36464.1-2020

中文名称:信息技术 智能语音交互系统 第1部分:通用规范

标准类别:国家标准(GB)

标准状态:现行

出版语种:简体中文

下载格式:.zip .pdf

相关标签: 信息技术 智能 语音 交互 系统 通用 规范

标准分类号

关联标准

出版信息

相关单位信息

标准简介

GB/T 36464.1-2020.Information technology-Intelligent speech interaction system-Part 1 : General specifications.
1范围
GB/T 36464的本部分给出了智能语音交互系统通用功能框架,规定了语音交互界面、数据资源、前端处理、语音处理、服务接口、应用业务处理等功能单元要求。
GB/T 36464.1适用于智能语音交互系统的通用设计、开发、应用和维护。
2规范性引用文件
下列文件对于本 文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 11460信息技术汉字字 型要求和检测方法
GB 18030信息技术中 文编码字符集
GB/T 21024-2007中 文语音合成系统通用技术规范
GB/T 34083-2017中 文语音识别互联网服务接口规范
GB/T 34145-2017中文语音 合成互联网服务接口规范
SJ/T 11380-2008自动声纹识别(说话人识别)技术规范
3术语和定义
下列术语和定义适用于本文件。
3.1
语音交互 speech interaction
人类和功能单元之间通过语音进行的信息传递和交流活动。
[GB/T 36464.2-2018,定义3.1]
3.2
语音交互系统 speech interaction system
由功能单元(或其组合)、数据资源等组成的能够实现与人类之间进行语音交互的系统。
[GB/T 36464.2-2018,定 义3.2]
3.3
智能语音交互系统 smart speech interaction system
以语音识别、语义理解、语音合成等全部或部分人工智能技术为基础,由智能软硬件组成,具备智能人机交互能力的语音交互系统。
3.4
人机交互 human machine interaction
人类和功能单元之间,为完成确定任务,以一定的交互方式进行的信息传递和交流活动。

标准图片预览






标准内容

ICS35.240.01
中华人民共和国国家标准
GB/T36464.1—2020
信息技术
智能语音交互系统
第1部分:通用规范
Information technology-Intelligent speech interaction system-Part1:General specifications2020-04-28发布
国家市场监督管理总局
国家标准化管理委员会
2020-11-01实施
规范性引用文件
术语和定义
系统通用功能框架
语音交互界面要求
语音采集
语音播报
输人输出
环境噪声适应能力
数据资源要求
音频数据
文本数据
前端处理要求
语音唤醒
声源定位
声纹识别
语音增强
格式转换
重采样
语音处理要求
语音识别
语义理解
语音合成
端点检测
语音编解码
全双工交互
情感计算
服务接口要求
应用业务处理要求
附录A(资料性附录)
A.1概述
拾音距离
部分参数及其计算方法
语音交互成功率
语音唤醒
GB/T36464.1—2020
GB/T36464.1—2020
语音识别
语义理解
语音合成
语音质量
声纹识别率
语音编解压缩率
语音增强
声源定位
语音打断成功率
参考文献
GB/T36464《信息技术智能语音交互系统》拟分为以下儿个部分:第1部分:通用规范;
一第2部分智能家居;
—第3部分:智能客服;
第4部分:移动终端;www.bzxz.net
一第5部分:车载终端;
本部分为GB/T36464的第1部分
本部分按照GB/T1.1-2009给出的规则起草。GB/T36464.1—2020
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本部分由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。本部分起草单位:中国电子技术标准化研究院、科大讯飞股份有限公司、沈阳新松机器人自动化股份有限公司、深圳市优必选科技股份有限公司、中国科学院自动化研究所、上海智臻智能网络科技股份有限公司、中国盲人协会、中国电信集团有限公司、百度在线网络技术(北京)有限公司、中科讯飞互联(北京)信息科技有限公司、上海计算机软件技术开发中心、北京小米移动软件有限公司、西宁市大数据服务管理局、中汽研(天津)汽车工程研究院有限公司西宁大数据有限公司、极限元(杭州)智能科技股份有限公司、中国移动通信有限公司研究院、厦门盈趣科技股份有限公司、深圳市腾讯计算机系统有限公司、重庆中科云从科技有限公司、中国医学科学院生物医学工程研究所、广东省标准化研究院、苏州思必驰信息科技有限公司、出门问问信息科技有限公司、哈尔滨亿时代数码科技开发有限公司、四川赛闯检测股份有限公司。
本部分主要起草人:董建、马万钟、徐洋、张锋、袁杰、陶建华、王海坤、叶雷鸣、李洪亮、李庆忠、杨震、吕彦锋、宋文林、穆亚敏、潘榕、蔡立志、朱亚军、周伟、孟宪明、孙巍、温正棋、鲍薇、杨本植、陈建成、戴小兰、翟尤、李军、蒲江波、王佳胜、龙梦竹、陈威钢、赵婕、冯丽。m
1范围
信息技术
智能语音交互系统
第1部分:通用规范
GB/T36464.1—2020
GB/T36464的本部分给出了智能语音交互系统通用功能框架,规定了语音交互界面、数据资源、前端处理、语音处理、服务接口、应用业务处理等功能单元要求。本部分适用于智能语音交互系统的通用设计、开发、应用和维护。规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件GB/T11460信息技术汉字字型要求和检测方法GB18030信息技术中文编码字符集GB/T21024—2007中文语音合成系统通用技术规范GB/T34083—2017中文语音识别互联网服务接日规范GB/T34145—2017中文语音合成互联网服务接口规范SJ/T11380—2008自动声纹识别(说话人识别)技术规范3
术语和定义
下列术语和定义适用于本文件。3.1
speechinteraction
语音交互
人类和功能单元之间通过语音进行的信息传递和交流活动。『GB/T36464.22018.定义3.1
speech interaction system
语音交互系统
由功能单元(或其组合)、数据资源等组成的能够实现与人类之间进行语音交互的系统[GB/T36464.2—2018.定义3.2]3.3
智能语音交互系统
smartspeechinteractionsystem以语音识别、语义理解、语音合成等全部或部分人工智能技术为基础,由智能软硬件组成,具备智能人机交互能力的语音交互系统
humanmachineinteraction
人机交互
人类和功能单元之间,为完成确定任务,以一定的交互方式进行的信息传递和交流活动。1
GB/T36464.1—2020
功能单元functionalunit
能够完成特定任务的硬件实体,或软件实体,或硬件实体和软件实体。[GB/T5271.1—2000,定义01.01.40]3.6
speech synthesis
语音合成
通过机械的、电子的方法合成人类语言的过程。[[GB/T21024—2007.定义3.1]
speechrecognition
语音识别
将人类的声音信号转化为文字或者指令的过程。[GB/T21023—2007.定义3.1]
关键字识别keywordspotting
针对连续语音流中的特定关键字进行识别和检出的过程。注:关键字识别不需要识别全部文字,只需要识别和检测出关注的关键字及其出现位置。3.9
命令字识别commandwordrecognitionC
一种基于语音识别语法的语音识别方式,是在语音识别语法规则限定的范围内,对于给定的语音输人,语音识别引擎给出语音识别语法覆盖范围内的文本或拒识作为识别结果。[GB/T34083—2017.定义3.3]
continuous speech recognition连续语音识别
识别任意的连续语音,并给出相对应的文本。注:连续语音识别不限制用户说话的词汇、内容和方式,用户可以以任意说的形式输人语音。[GB/T34083—2017,定义3.4]3.11
semantic understanding
语义理解
使功能单元理解人说话的意图
semanticdictionary
语义词典
用于语义理解的词汇工具。
semanticlibrary
语义库
以语义网络表示的结构化知识的集合。注:语义库包含具有语义信息的字、词、句等说法。3.14
voiceprint
对语音中所蕴含的、能表征和标识说话人的语音特征,以及基于这些特征(参数)建立的数学模型的总称。
[SJ/T11380—2008.定义3.1.1]
声纹识别
voiceprintrecognition;VPR
说话人识别speakerrecognition2
根据待识别语音的声纹特征识别该段语音所对应的说话人的过程。[SJ/T11380—2008.定义3.1.6]声纹模型voiceprintmodel
对声纹特征进行描述的数学模型。[SJ/T11380—2008.定义3.1.3]speech wakeup;voice trigger
语音唤醒
GB/T36464.1—2020
处于音频流监听状态的语音交互系统,在检测到特定的特征或事件出现后,切换到命令字识别、连续语音识别等其他处理状态的过程。3.18
唤醒命令字wakeupcommandword
用于唤醒处于关键字识别状态的语音交互系统所用的结构化关键字。3.19
误唤醒falsewakeup
语音唤醒过程中出现的,无音频流或音频流中没有出现唤醒所需的特征或事件时,语音唤醒系统被唤醒的现象。
语音压缩speechcompression
用于在较窄的频带上传输或存储语音信号,或者采用比正常情况下所必需的比特量少的一种语音Kaeen
处理技术。
[GB/T5271.29—2006.定义29.01.27]3.21
compressionlevel
压缩等级
对语音压缩算法输出的压缩语音码流率的档次划分。注:不同的档次划分决定了编解码算法的复杂程度,决定了解码后的语音质量。3.22
Jvoice activitydetection
端点检测
一种用于分析、判断连续音频流中有效语音起始点和结束点的语音处理技术。3.23
microphonearray
麦克风阵列
由具有确定空间拓扑结构的多个麦克风组成的,对信号的空间特性进行采样并滤波的系统。3.24
语音增强speechenhancement
当有效语音信号被各种噪声干扰,甚至淹没后,从含有噪声背景的声音信号中提取有效语音信号。抑制、降低噪声干扰的技术。
reverberation
语音信号在室内传播时,由于反射、衍射等原因,使得语音信号到达语音采集设备的传播路径除了直达路径外还存在着其他路径,从而产生接收信号幅度衰减、音质变差等降低语音信号质量的现象3.26
有效语音信号
validspeechsignal
有效语音valid speech
GB/T36464.1—2020
语音采集过程中所关注、期望的语音信号。3.27
语音采集过程中,采集到的由非有效语音信号源发出的,能于扰、影响对有效语音信号的理解或处理的声音信号。
acousticsourcelocalization
声源定位
对发声物体位置的判断过程。
语音打断:speechinterruption语音交互系统在播放声音的过程中,当语音采集设备检测到有效语音输人时,中断播放声音,转到语音识别等其他处理过程。
[GB/T36464.2—2018,定义3.18]3.30
affectivecomputing
情感计算
在人机交互过程中对特定情感的收集、识别、决策和表示。4系统通用功能框架
智能语音交互系统(以下简称系统)包括语音交互界面前端处理、语音处理、服务接口、应用业务处理和数据资源等功能单元,其中:语音交互界面提供系统与人直接进行语音交互的人机界面,包括语音信号输入、输出以及由前a)
端处理、语音处理支撑的语音能力:b)
数据资源包括系统处理的音频数据和文本数据;前端处理提供语音唤醒、声源定位、声纹识别、语音增强、格式转换、重采样等功能;c
d)语音处理提供语音识别、语义理解、语音合成、端点检测、语音编解码、全双工交互、情感计算等功能;
服务接口提供外部设备/设施调用系统语音服务的接口;e)
应用业务处理对语音处理的结果转换为对应的应用指令并反馈业务响应结果系统的通用功能框架见图1:部分参数定义及其计算方法参见附录A。4
5语音交互界面要求
语音采集
前端处理
务接口
语音交界而
语音处所
数指深院
应用业务处
图1智能语音交互系统的通用功能框架GB/T36464.1—2020
系统应通过传声器或麦克风阵列等具备语音采集能力的拾音设备对语音进行采集;应根据不同的拾音距离,提供近场拾音和/或远场拾音中的一种。5.2语音播报
系统应通过音频播放设备对语音进行播报;应支持播放语音所需的性能要求,例如音频格式、带宽等。
5.3输入输出
系统应支持中文普通话输人输出;除中文普通话之外,对有方言和其他语种输入输出需求的,系统应支持地方方言、民族语言以及其他语种输人输出。5.4环境噪声适应能力
系统应在不同场景的典型环境噪声下能成功进行语音交互,确保人机交互可用。注:不同场景的典型环境噪声参见GB/T36464的第2~5部分。6数据资源要求
6.1音频数据
系统的音频数据主要用于语音识别和语音合成,要求如下:a)语音识别的输人音频数据格式应符合GB/T34083—2017中表1的要求;b)语音合成的输出音频数据格式应符合GB/T34145一2017中表2的要求。6.2文本数据
系统的文本数据主要用于各功能单元之间的信息传输、交换和共享,要求如下:5
GB/T36464.1—2020
应与具体操作系统和平台无关,并且可扩展;a)
宜是结构化数据,便于系统处理;b)
中文编码字符应符合GB18030的规定,并依据GB/T11460进行检测;d)
中文语音合成数据交换格式应符合GB/T21024一2007中第5章的要求7
前端处理要求
语音唤醒
7.1.1命令字唤醒
系统应支持使用预先定义的命令字来对系统进行语音唤醒。7.1.2命令字声纹唤醒
系统在语音唤醒过程中,宜支持使用文本相关声纹识别和命令字匹配,且在声纹确认成功后能唤醒系统。
7.1.3自定义唤醒命令字
系统应支持对用于语音唤醒的命令字进行自定义,7.1.4多唤醒命令字
系统应支持使用不同的命令字进行语音唤醒:可根据指定的唤醒命令字进人对应的状态或模式7.1.5多音频流监听
系统在进行语音唤醒时,应支持同时监听多个音频流。7.2
声源定位
系统应支持通过对声源的平面角、方位角和声源距离的计算,来对发声源进行定位3声纹识别
一般要求
系统应支持下列声纹识别功能:a)
文本相关的声纹识别;
文本无关的声纹识别;
指定文本的声纹识别;
声纹模型训练;
声纹模型自适应;
声纹确认;
声纹辨认;
声纹检出:
声纹追踪;
语言相关的声纹识别;
k)语言无关的声纹识别。
上述功能描述和要求应符合SJ/T11380—2008第3章的要求。7.3.2声纹文本获取
GB/T36464.1—2020
系统应支持获取指定文本或自定义文本,用于声纹模型训练、声纹模型自适应、声纹确认和声纹辨认。
7.4语音增强
7.4.1噪声抑制
系统应支持对输入语音中的背景噪声进行抑制,提高语音的信噪比7.4.2混响消除
系统应支持对输入语音中的晚期混响进行抑制,提升语音信号的清晰度和可懂度7.5
格式转换
系统应支持将音频的格式转换到另外一种格式,以满足语音处理的要求7.6重采样
系统应支持改变数字语音信号的采样率,以满足语音处理的要求。8
语音处理要求
语音识别
8.1.1一般要求
系统应支持下列全部或大部分语音识别功能:a)
中文语音识别服务;
多语种识别;
多方言识别;
多语种混读识别;
自定义语法;
个性化识别;
识别结果多候选;
自定义热词;
识别结果进阶;
语言信息识别;
k)说话者信息识别。
上述功能描述和要求应符合GB/T34083一2017中4.2和4.3的要求8.1.2语音识别方式
系统应支持近场音频处理和/或远场音频处理中的一种;应至少支持关键字识别、命令字识别、连续7
GB/T36464.1—2020
语音识别中的一种。
语义理解
自定义语义词典
系统能支持应用程序自定义语义词典和用户自定义语义词典。8.2.2自定义语义库
系统能支持应用程序自定义语义库和用户自定义语义库。8.2.3模糊识别
系统应正确处理错别字、同义词、多字少字问题8.2.4语义抽取
系统在交互过程中,应抽取语义要素和用户的关键意图。8.2.5语义排序
系统能在语义理解结果中给出多个排序后的理解结果,供用户进行选择或二次确认。语音合成
系统应支持下列全部或大部分语音合成功能:a)
中文语音合成;
流式语音合成;
多种合成文本编码;
个性化合成;
多语种合成;
多方言合成;
多语种混读合成;
合成音频多音色;
用户自定义分词;
用户自定义读音;
合成文本位置信息;
文本分词和拼音信息;
音频时间信息。
上述功能描述和要求应符合GB/T34145—2017中4.2和4.3的要求8.4
端点检测
单端点检测
系统应支持从一段连续的音频流中检测出第一个语音段的起始点和结束点。8.4.2多端点检测
系统应支持从一段连续的音频流中检测出多个语音段的起始点和结束点。
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。