GB/T 44089-2024

基本信息

标准号： GB/T 44089-2024

中文名称：信息技术全双工语音交互系统通用技术要求

标准类别：国家标准(GB)

英文名称：Information technology—General technical requirements of full duplex speech interaction system

标准状态：现行

发布日期：2024-05-28

实施日期：2024-05-28

出版语种：简体中文

下载格式：.pdf .zip

下载大小：4928855

相关标签：信息技术语音交互系统通用技术

标准分类号

标准ICS号：信息技术、办公机械设备>>信息技术应用>>35.240.01信息技术应用综合

中标分类号：电子元器件与信息技术>>信息处理技术>>L77软件工程

关联标准

出版信息

出版社：中国标准出版社

页数：20页

标准价格：38.0

标准简介

本文件规定了全双工语音交互系统的参考功能框架、交互过程，以及功能要求、性能要求。本文件适用于全双工语音交互系统的设计、开发、应用、测试和维护。

标准图片预览

标准内容

ICS35.240.01
CCS L77
中华人民共和国国家标准
GB/T44089—2024
信息技术
全双工语音交互系统
通用技术要求
Information technologyGeneral technical requirements offull duplex speech interaction system2024-05-28发布
国家市场监督管理总局
国家标准化管理委员会
2024-05-28实施
规范性引用文件
术语和定义
缩略语
系统参考功能框架及交互过程
系统参考功能框架
系统交互过程
功能要求bzxZ.net
核心要求
声学处理层
语音识别层
对话处理层
语音合成层
性能要求
语音识别层
对话处理层
语音合成层
交互响应时间
附录A（资料性）
FDX语音交互过程案例·
车载终端场景
智能客服场景·
智慧办公场景
智能家居场景
参考文献
GB/T44089—2024
GB/T44089—2024
本文件按照GB/T1.1一2020《标准化工作导则第1部分：标准化文件的结构和起草规则》的规定起草。
本文件由全国信息技术标准化技术委员会（SAC/TC28)提出并归口。本文件起草单位：中国电子技术标准化研究院、科大讯飞股份有限公司、美的集团（上海)有限公司、深圳市腾讯计算机系统有限公司、北京百度网讯科技有限公司、中国电信集团有限公司、小米通讯技术有限公司、中移（杭州)信息技术有限公司、青岛海尔科技有限公司、福州数据技术研究院有限公司、深圳云天励飞技术股份有限公司、北京电信规划设计院有限公司、思必驰科技股份有限公司、杭州方得智能科技有限公司、羚羊工业互联网股份有限公司、合肥智能语音创新发展有限公司、深圳市矽赫科技有限公司、上海智能制造功能平台有限公司、北京捷通华声科技股份有限公司、马上消费金融股份有限公司。本文件主要起草人：董建、徐洋、贾一君、刘颖、宋文林、何永春、于磊、苏丹、袁杰、鄂磊、蔡亚森、梅林海、赵培、刘聪、杨震、雷宗、龚晟、樊帅、洪鹏达、黄超、李林璐、方斌、陈明、胡国平、杨一帆、刘志强、毕盛楠、丁强、高羽、李旭，
1范围
信息技术
全双工语音交互系统
通用技术要求
GB/T44089—2024
本文件规定了全双工语音交互系统的参考功能框架、交互过程，以及功能要求、性能要求。本文件适用于全双工语音交互系统的设计、开发、应用、测试和维护。规范性引用文件
本文件没有规范性引用文件。
3术语和定义
下列术语和定义适用于本文件。3.1
全双工fullduplex
能够同时双向传递数据的通信方法。3.2
功能单元
functionalunit
能够完成特定目标的硬件或软件实体。3.3
语音识别
speech recognition
将人类的声音信号转化为文字或者指令的过程。［来源：GB/T21023—2007,3.1]3.4
语义理解
semantic understanding
使功能单元理解人说话的意图
［来源：GB/T36464.1—2020，3.113.5
语音合成
speech synthesis
通过机械的、电子的方法合成人类语言的过程。［来源：GB/T21024—2007,3.1]3.6
telephony
交互过程中使用的具有一定逻辑的对话文本内容。3.7
dialoguemanagement
对话管理
跟进当前的对话状态和上下文输人，对对话的状态进行更新，同时依据对话处理逻辑生成需要实施的对话动作。
GB/T44089—2024
4缩略语
下列缩略语适用于本文件。
Al：人工智能（ArtificialIntelligence）FDX：全双工（FullDuplex)
MOS：平均意见得分（MeanOpinionScore）VAD：声音活动检测（VoiceActivityDetection）5系统参考功能框架及交互过程
5.1系统参考功能框架
5.1.1概述
图1所示的FDX语音交互系统的参考功能框架包括交互层、知识和数据资源层、AI和机器学习层和基础层。
交互层包括声学处理层、语音识别层、对话处理层、语音合成层。交互层的主要功能是将输入信号通过声学处理层以及语音识别层识别为纯文本，通过对话处理层理解输人信号的真实意图，并生成交互回复语，最后通过语音合成层将交互回复语合成语音音频作为输出信号，b）
知识和数据资源层主要为交互层提供必备的数据资源和知识库。c）
AI和机器学习层主要为交互层提供模型推理、在线数据挖掘、数据分析等能力：基础层包括云服务、终端和边缘计算，提供硬件计算资源，是AI和机器学习算法的运行载体，同时负责保障FDX语音交互过程中每个模块的能力调用、系统稳定层是指完成一大类功能能力的单元集合体。这些层可以根据其输入、输出及其意图或功能来描述。每层及其组件都可以单独使用和测试。所有层可以集成在一起，使用户能够与功能单元进行对话，帮助用户满足自己的需求。
交互层
声学处理层
语音信号
语音合成层
语音合成模块
语音预
自然语
音生成
数据处理
云服务
连续语音
语音识别层
语义VAD
对话处理层
语义后
AI和机器学习层
模型训练
基础层
FDX语音交互系统的参考功能框架图1
无关内容
自然语
言理解
持续优化
边缘计算
知识和数据
资源层
知识库
场景数据
历史数据
用户数据
5.1.2交互层
5.1.2.1声学处理层
声学处理层包括语音信号获取和语音预处理。语音信号获取是指使用麦克风或麦克风阵列提供连续音频采集a
GB/T44089—2024
语音预处理是指对采集的语音信号进行以下预处理中的一项或多项：语音增强、声源定位、去6
混响、去噪、回声消除和语音源信号提取。5.1.2.2语音识别层
语音识别层包括连续语音识别、语义VAD、无关内容过滤。a）
连续语音识别是指将用户连续的语音信号转化为文字或者指令的过程b）语义VAD是指通过对语音蕴含的语义进行理解，得到语音活动顿的判别结果，比如用户说“我想听（停顿1s)XX的歌曲”，通过对语音片段“我想听”的语义进行理解（此句话还未表达完整，缺少宾语信息），以此判别后续仍有语音活动顿c）无关内容过滤是指通过对语音信号进行分析与决策，过滤无效的语音输入，比如，场景噪声、回声等。
5.1.2.3对话处理层
对话处理层包括自然语言理解、语义拒识、语义后处理、对话管理和自然语言生成。a）
自然语言理解将文本或语音转换为内部描述，该内部描述为输人的结构化语义的表达。语义拒识是指系统通过自然语言理解技术，能够区分系统当前状态下不应处理的输入信息，不b）
应处理的输入信息包括与交互任务以及对话主题或上下文无关的内容。语义后处理是指系统对输人信号进行自然语言理解之后，对理解的结果进行后续再处理，比c)
如：在对输入语音“明天的天气”进行自然语言理解之后，还需要计算出“明天”对应的具体日期值。
对话管理是指系统跟进当前的对话状态和上下文输入，对对话的状态进行更新，同时依据对话d)
处理逻辑生成需要实施的对话动作。e）
自然语言生成是指系统根据对话管理得到的对话动作，生成合适的自然语言文本，5.1.2.4
语音合成层
通过语音合成将文本合成语音。5.1.3知识和数据资源层
知识和数据资源层包括场景和语境理解所需的相关知识和数据，场景和语境是指不同的场景或语言上下文信息。知识和数据资源层包括知识库、场景数据、历史数据、用户数据。5.1.4AI和机器学习层
AI和机器学习层使用基于机器学习的AI方法进行数据处理、模型训练和持续优化。5.1.5基础层
基础层使用云服务和/或终端和/或边缘计算的方式来提供FDX语音交互能力，其中语音识别、对话管理、文本合成等组件可使用云服务进行处理GB/T44089—2024
5.2系统交互过程
FDX语音交互系统的交互过程示例如图2所示，交互过程用于表示用户与FDX语音交互系统之间的语音流传输。FDX语音交互系统与一般的半双工语音交互系统的交互过程至少存在以下区别。a）一次唤醒多次交互：FDX语音交互系统只需在对话开始时唤醒一次，用户能连续对话（语音采集设备在预设的时长内没有有效人声输人，则停止采集，进人休眠状态）。如图2所示，用户通过输入语音信号“XXX”唤醒机器，然后进行了三次连续对话。一次完整对话过程会依次执行语音识别、语义理解、对话管理、自然语言生成和语音合成等功能单元，整个处理链路还依赖场景和语境，知识和数据，以及各模块的实现计算方法。FDX语音交互系统通过对输入的语音信号或其他输人信息进行处理，最终输出合成的语音或者其他信息与指令动作。FDX语音交互系统可持续接收输入的各类信号，包括但不限于语音信号、信息和请求等，将有用的信号转录为文本，从转录文本中提取语义信息，根据语义信息对交互任务进行预测和决策，根据预测和决策向用户提供输出信号，输出信号包括但不限于合成语音、回答、信息和行为等。b）用户语音动态结束判别：在用户与FDX语音交互系统交互过程中，针对用户输入停顿，FDX语音交互系统应能够实现智能等待，从而实现连续对话，其中，语义VAD是指通过对声音蕴含的语义进行理解，得到语音活动顿的判别结果。如图2所示，比如用户说“我想听（停顿1s）XX的歌曲”，通过对语音片段“我想听”的语义进行理解（此句话还未表达完整，缺少宾语信息），以此判别后续仍有语音活动顿。即FDX语音交互系统忽略中间的1s停顿，持续收音，并根据对话上下文进行语义理解。c）上行/下行信道并行处理：FDX语音交互系统中用户和机器应能够同时相互通信，即上行信道（输入自然语音）和下行信道（输出人工语音）应能够在相同的时间间隔内接收和发送语音信号。用户应能够随时自由打断功能单元的讲话，机器可以在用户说话或保持沉默时管理节奏或给出提示。使得在任一时刻，FDX语音交互系统可以同时处理输入输出信号，实现双工通信交互。如图2所示，比如用户说“合肥今天的关气”，FDX语音交互系统会依次对“合肥今天的天气”执行语音识别、语义理解、对话管理和自然语言生成，在生成交互回复语“合肥今天..”被打断暂停播放的同时，可持续监听接下来用户输入的语音信号“上海呢”。系统此时可在不影响上一轮交互回复语经过语音合成模块，生成合成后音频的同时，对本轮输入信号“上海呢”进行语音识别、语义理解、对话管理、自然语言生成和语音合成等处理，实现了同时处理上下行通道
FDX语音交互系统应能够根据用户的状态和场景，对用户的意图进行一定程度的预测，控制对话的节奏，并主动给出反馈和信息，引导用户下一步的行动。不同应用场景下FDX语音交互过程案例见附录A。
功能要求
核心要求
系统支持以下功能：
(我想听(停顿1s)××的欧曲）
语音唤醒
(在呢)
语音识别
语义理解
对话管理
自然语言生成
语音合成
(为你播放××的欧曲×x××x)（合肥今天的天气）
打断(上海呢）
没有输入信号(预设时长后)
被打断暂停播放
（合肥今天
语音识别
语义理解
对话管理
自然语言生成
语音合成
语音识别
语义理解
对话管理
自然语言生成
语音合成
(上海今天10℃，有雨）
FDX语音交互系统的交互过程示例GB/T44089—2024
用户进行一次唤醒（即触发用户界面的语音控制操作）可完成整个对话流程，即系统应只需要在通话开始时触发，对话过程中不必触发；在整个交互过程中可根据需要随时打断，即系统应能在广播或讲话过程中的任何时刻被用户中断干预，并能在被用户中断后继续进行对话；应对连续音频流进行VAD，能实现连续语音识别，并根据对话上下文的语义理解进行用户意5
小提示：此标准内容仅展示完整标准里的部分截取内容，若需要完整标准请到上方自行免费下载完整标准文档。