首页 > 国家标准(GB) > GB/T 41813.2-2022信息技术 智能语音交互测试方法 第2部分:语义理解
GB/T 41813.2-2022

基本信息

标准号: GB/T 41813.2-2022

中文名称:信息技术 智能语音交互测试方法 第2部分:语义理解

标准类别:国家标准(GB)

英文名称:Information technology—Intelligent speech interaction testing method—Part 2:Semantic understanding

标准状态:现行

发布日期:2022-10-12

实施日期:2023-05-01

出版语种:简体中文

下载格式:.pdf .zip

下载大小:6502540

相关标签: 信息技术 智能 语音 交互 测试方法 语义

标准分类号

标准ICS号:信息技术、办公机械设备>>信息技术应用>>35.240.01信息技术应用综合

中标分类号:电子元器件与信息技术>>信息处理技术>>L77软件工程

关联标准

出版信息

出版社:中国标准出版社

页数:20页

标准价格:38.0

相关单位信息

起草人:徐洋、马万钟、吴国纲、朱亚军、贾一君、周立君、宋文林、袁杰、杨震、田定书、钱彦旻、陶建华、花云飞、蒲江波、李海峰、王峰、杨春勇、苏丹、张锋、冯海洪、刘国涛、任军民、陈楠、刑启洲、李笑如、黄石磊、汪淼淼、蔡立志、李军、胡光龙、杨萌、鹿飞、方斌、王岳、井焜等

起草单位:中国电子技术标准化研究院、科大讯飞股份有限公司、小米通讯技术有限公司、华为终端有限公司、深圳市优必选科技股份有限公司、中国电信集团有限公司、思必驰科技股份有限公司、中国科学院自动化研究所、中国医学科学院生物医学工程研究所、哈尔滨工业大学等

归口单位:全国信息技术标准化技术委员会(SAC/TC 28)

提出单位:全国信息技术标准化技术委员会(SAC/TC 28)

发布部门:国家市场监督管理总局 国家标准化管理委员会

标准简介

本文件描述了智能语音交互测试中语义理解系统的通用测试项和通用测试方法。本文件适用于智能语音服务提供商、用户和第三方检测机构对智能语音交互应用的语义理解系统测试的设计和实施。


标准图片预览






标准内容

ICS35.240.01
CCS L 77
中华人民共和国国家标准
GB/T41813.2—2022
信息技术
智能语音交互测试方法
第2部分:语义理解
Information technologyIntelligent speech interaction testing method-Part2:Semanticunderstanding2022-10-12发布
国家市场监督管理总局
国家标准化管理委员会
2023-05-01实施
规范性引用文件
术语和定义
测试准备和执行
测试数据集
测试工具
测试环境
测试执行
结果判定
功能测试方法
意图理解
命名实体识别
敏感信息辨别
语义拒识
信息检索
文本相似度计算
文本修改
语义修正
自然语言生成
逻辑推理
对话引导
上下文相关的多轮会话
性能测试方法
语义理解效果
语义理解效率
系统稳定性
附录A(规范性)
测试项
测试方法
参考文献
主观体验测试,
GB/T41813.2—2022
本文件按照GB/T1.1—2020《标准化工作导则起草。
GB/T41813.2—2022
第1部分:标准化文件的结构和起草规则》的规定本文件是GB/T41813《信息技术智能语音交互测试方法》的第2部分。GB/T41813已经发布了以下部分:
第1部分:语音识别;
第2部分:语义理解。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。本文件起草单位:中国电子技术标准化研究院、科大讯飞股份有限公司、小米通讯技术有限公司、华为终端有限公司、深圳市优必选科技股份有限公司、中国电信集团有限公司、思必驰科技股份有限公司、中国科学院自动化研究所、中国医学科学院生物医学工程研究所、哈尔滨工业大学、海信视像科技股份有限公司、马上消费金融股份有限公司、腾讯科技(北京)有限公司、沈阳新松机器人自动化股份有限公司、深圳市人马互动科技有限公司、平安科技(深圳)有限公司、安徽咪鼠科技有限公司、泾丰科技(深圳)有限公司、北京捷通华声科技股份有限公司、北京百度网讯科技有限公司、深圳市北科瑞声科技股份有限公司、阿里云计算有限公司、云从科技集团股份有限公司、上海计算机软件技术开发中心、网易(杭州)网络有限公司、南京云问网络技术有限公司、联想(北京)有限公司、福州数据技术研究院有限公司、国家网络软件产品质量监督检验中心(济南)、华南理工大学、山东省计算中心(国家超级计算济南中心)、神思电子技术股份有限公司、郑州中业科技股份有限公司、中汽数据(天津)有限公司、中国电器科学研究院有限公司、中汽研(天津)汽车工程研究院有限公司、中科极限元(杭州)智能科技股份有限公司、北京爱数智慧科技有限公司。
本文件主要起草人:徐洋、马万钟、吴国纲、朱亚军、贾一君、周立君、宋文林、袁杰、杨震、田定书、钱彦曼、陶建华、花云飞、蒲江波、李海峰、王峰、杨春勇、苏丹、张锋、冯海洪、刘国涛、任军民、陈楠、刑启洲、李笑如、黄石磊、汪森淼、蔡立志、李军、胡光龙、杨萌、鹿飞、方斌、王岳、井煜、温正棋、李介、张莹、徐向民、孟宪明、高永超、张晴晴。GB/T41813.2—2022
智能语音交互在智能家居、智能客服、移动终端、车载终端以及智慧教育、智慧医疗、智能办公、服务机器人等诸多领域应用广泛,已成为当前人机交互的重要方式之一。随着智能语音交互的深人,需要对智能语音交互的系统参考框架、基础技术要求、互联网接口要求等进行统一规范,在这方面,国家已制定了支撑智能语音交互系统的基础性国家标准。在此基础上,也需要用统一的测试方法和评价标准来对智能语音交互系统的能力进行评测,为智能语音交互相关的产品和服务提供评测的基础方法和依据。GB/T41813《信息技术智能语音交互测试方法》为GB/T36464(所有部分)《信息技术智能语音交互系统》提供基础通用的测试方法。智能语音交互包括语音识别、语义理解和语音合成三个基本环节,各环节所涉及的测试对象、测试项目、测试环境和测试方法均有所不同。GB/T41813《信息技术智能语音交互测试方法》旨在确立和描述适用于智能语音交互各环节的通用测试项和通用测试方法,拟由三个部分构成
一第1部分:语音识别。目的在于为智能语音交互应用中的语音识别环节提供通用测试项和通用测试方法。
一第2部分:语义理解。目的在于为智能语音交互应用中的语义理解环节提供通用测试项和通用测试方法。
—一第3部分:语音合成。目的在于为智能语音交互应用中的语音合成环节提供通用测试项和通用测试方法。
1范围
信息技术智能语音交互测试方法第2部分:语义理解
GB/T41813.2—2022
本文件描述了智能语音交互测试中语义理解系统的通用测试项和通用测试方法本文件适用于智能语音服务提供商、用户和第三方检测机构对智能语音交互应用的语义理解系统测试的设计和实施。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T36464(所有部分)信息技术智能语音交互系统3术语和定义
GB/T36464(所有部分)界定的以及下列术语和定义适用于本文件。3.1
semanticunderstanding
语义理解
使功能单元理解人说话的意图
[来源:GB/T36464.1—2020,3.11]3.2
本namedentity
命名实体
具有特指或唯一含义的指称名字的实体3.3
intention
语音交互过程中需要系统执行的任务或达成目标。4概述
智能语音交互测试中的语义理解测试主要包括功能测试与性能测试,具体如下功能测试用于检查被测系统是否提供了语义理解相关的各项功能,包括:意图理解、命名实体识别、敏感信息识别、语义拒识、信息检索、文本相似度计算、文本修改、语义修正、自然语言生成、逻辑推理、对话引导和上下文相关的多轮对话;性能测试用于检查被测系统中语义理解相关的各项性能,包括:语义理解效果、语义理解效率和系统稳定性。
测试过程中,应依据被测系统技术规范进行在线/离线的功能和性能测试。可使用主观体验的方法进行测试,主观体验测试应按照附录A描述的测试项和测试方法执行。本文件所列测试项可用于对1
GB/T41813.2—2022
GB/T36464(所有部分)中语义理解相关的功能和性能要求进行测试。注:本文件对所列出的功能测试项选择不做要求,实际测试时根据被测系统的功能要求和测试需求进行选择5测试准备和执行
测试数据集
在测试开始前,应通过人工编写或采集的方式制作测试数据集。可根据不同测试项划分出多个测试数据集,在实际测试时可根据需要选择测试数据集。测试数据集类型和要求应符合表1和表2的要求。
表1测试文本类型和要求
常用文本
特殊文本
异常文本
文本分类
具有意图表示的单字、词语文本短语文本
单句文本
对话文本
段落文本
文章文本
敏感信息文本
命名实体文本,如:人名、地名等,覆盖已定义业务相关命名实体特殊格式文本,如:数字、日期时间、英文大小写等特定语种文本,如:中文、英文、韩文等特殊字符集编码文本
特殊符号文本,如:逗号、句号、问号等乱码文本
不支持语种文本
表2测试数据集类型和要求
测试数据分类
已定义
场景或
业务文
本数据
未定义
场景或
业务文
本数据
已定义场景或业务的文
本数据
已定义场景或业务的常
用文本数据
同领域,未定义场景或业
务的一般文本数据
同领域,未定义场景或业
务的常用文本数据
异常文本数据
文本要求
应在数据较多情况下,统计文本长度分布,根据此分布来控制文本长度数量分布:否则应根据常用文本长度平均值的正态分布,控制不同文本长度数量分布
文本类型应符合表1的要求
文本内容宜为语音识别的输出结果平均不少于5个字符
每一条均不少于5个字符
每类不少于5条
每类不少于1000条
每类不少于5条
每类不少于5条
每个业务不少于200条人工编写
数据,可直接使用已有真实数据每个业务至少覆盖3条已有真实
数据,可持续收集
每个业务至少覆盖3条真实数
据,可持续收集
每个业务至少覆盖3条真实数
据,可持续收集
不少于1000条人工编写数据
不少于100条人工编写数据
5.2测试工具
GB/T41813.2—2022
语义理解测试工具包括可编程测试工具、测试统计工具和资源监测工具,应符合下列要求。a)
可编程测试工具要求如下:
应能调用被测系统开放接口;
应能对工具配置文件进行定制;应能接收文本数据并将其输入至被测系统;·
应能进行功能测试及其相应的性能测试;.
应能以文本形式获取被测系统运行结果b)
测试统计工具要求如下:
·应能自动对不同测试项的系统运行结果进行统计和分析;。应能自动对系统运行结果和标准结果对比文件进行比对。c)
资源监测工具应能监测内存、中央处理单元(CPU)、图形处理单元(GPU)、句柄数等系统资源参数。
5.3测试环境
应根据被测系统的功能和性能要求,以及应用场景配置相应的软硬件环境。5.4
4测试执行
应使用可编程测试工具和测试统计工具将测试数据集输人到在线/离线状态的被测系统中并获取运行结果。
5.5结果判定
应根据被测系统技术要求对系统在各测试项上的运行结果进行记录、分析和判定,形成测试结果6功能测试方法
6.1意图理解
测试内容:检查被测系统是否提供理解说话人的意图的功能,包括但不限于以下具体功能。a
模糊识别:能正确处理错别字、同义词、多字和少字等问题。语义抽取:能抽取语义要素和说话人关键意图,包括:b
。命名实体抽取,被测系统能自动对文本中表达关键意图的命名实体进行抽取;·关键词抽取,被测系统能自动对文本中表达意图的关键词进行抽取;。语义关系抽取,被测系统能自动对文本中表达语义关系的三元组进行抽取语义排序:被测系统能在语义理解结果中给出多个排序后的理解结果,供说话人进行选择或二c)
次确认。
意图分类:被测系统能对说话人的关键意图进行预测,将输入的文本数据对应到一个或多个预d)
定的意图上,并标记文本数据所属意图类别。测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。6.2命名实体识别
测试内容:检查被测系统是否提供在文本中找出并准确标注命名实体的功能,3
GB/T41813.2—2022
测试方法:按照表1中的中命名实体文本的要求制作测试数据集,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。6.3敏感信息辨别
测试内容:检查被测系统是否提供根据上下文对输入文本中的敏感内容进行分辨的功能。注:敏感内容包括涉及黄色、暴力、恐怖和国家安全等信息的内容测试方法:按照表1中的敏感信息文本的要求制作测试数据集,使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。6.4语义拒识
测试内容:检查被测系统是否提供对无法处理或不应当处理的无效文本输人内容进行分辨和拒识的功能。
注:无法处理的内容包括被测系统不支持的或与业务无关的内容;不应当处理的内容包括完全无意义的内容。测试方法:按照表2中的未定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。6.5信息检索
测试内容:检查被测系统是否提供信息检索的功能,包括但不限于以下具体功能。a)个性化词典检索:如联系人列表、歌曲列表和兴趣点(POI)等。b)第三方信源检索:如天气、航班、酒店和股票等。c)自定义知识库检索,
测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。6.6文本相似度计算
测试内容:检查被测系统是否提供根据输人的文本数据,计算其与已有文本的语义信息一致性程度的功能。语义信息一致性类型包括但不限于以下具体方面。a)句子用词发生了变化,但语义信息相似。b)句子结构发生了变化,但语义信息相似。c)句子用词和结构相似,但语义信息不相似。测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。6.7文本修改
测试内容:检查被测系统是否提供对对话中的前一句文本进行修改的功能。测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。6.8语义修正
测试内容:检查被测系统是否提供对语义理解错误的结果进行自动校正的功能。注:语义理解错误包括句法错误、中文分词错误、指代消歧错误等。测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,按照测试内容的描述对结果进行判定4
6.9自然语言生成
GB/T41813.2—2022
测试内容:检查被测系统是否提供根据语义理解结果生成自然语言文本,符合说话人的意图、满足语音交互响应的功能。
注:自然语言文本内容包括:
a)简单答复文本;
b)根据预定义模板的答复文本;c)理解和符合说话人的意图的答复文本;d)说话人的意图不明确时给出的合理的引导或推荐的答复文本。测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。6.10逻辑推理
测试内容:检查被测系统是否提供对文本内容的逻辑计算和推导的功能。示例:2020年是闫年;爸爸的妈妈叫奶奶。测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。6.11对话引导
测试内容:检查被测系统是否提供根据说话人的意图和场景需求动态生成引导提示用语,引导用户对其最终目的进行陈述的功能。引导提示用语包含但不限于以下具体内容:a)个性化词典;
根据用户行为习惯挖掘归类的信息;c)
已定义知识库内的知识;
第三方信源信息;
海量数据的检索得到的关联信息;e)
拒识提示。
测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。6.12
上下文相关的多轮会话
测试内容:检查被测系统是否提供上下文相关的多轮会话处理能力,包含但不限于以下具体功能:对话状态跟踪;
对话策略管理;
对话意图切换、跳转;
历史信息继承
测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具和测试统计工具将测试数据集输入到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。性能测试方法
7.1语义理解效果
测试内容:语义理解效果测试项用精确率、召回率、拒识率、准确率、F值、平均排序倒数和归一化5
GB/T41813.2—2022
折损累计增益等参数表征,具体参数描述和计算方法如下。精确率:检测被测系统的语义理解能力,即被测系统对有效文本实际响应正确的次数占所有文a
本响应正确的总次数的比率。参数值计算方法见公式(1):Pss
式中:
语义理解精确率;
有效文本实际响应正确的次数;所有文本响应正确的总次数
召回率:检测被测系统的语义理解能力,即被测系统对有效文本实际响应正确的次数占应响应正确的总次数的比率。参数值计算方法见公式(2):Nss
式中:
语义理解召回率;
有效文本实际响应正确的次数;有效文本应响应正确的总次数。(2)
拒识率:检测被测系统的语义拒识能力,即被测系统对无效文本实际响应正确的次数占无效文本输入的总次数的比率。其中,无效文本包括被测系统不支持的或业务无关的文本数据和完全无意义的噪音数据。参数值计算方法见公式(3):NsR
式中:
语义拒识率:
无效文本实际响应正确的次数;无效文本输入的总次数
·(3)
准确率:检测被测系统的语义理解能力,即被测系统对所有文本实际响应正确次数占所有文d)
本响应的总次数的比率。参数值计算方法见公式(4):N+N×100%
式中:
语义理解准确率;
有效文本实际响应正确的次数;无效文本实际响应正确的次数;所有文本响应的总次数
.(4)
F,值:检测被测系统的语义理解能力,即被测系统的语义理解精确率和语义理解召回率的加权调和平均值。参数值计算方法见公式(5):2×Ps×Rs×100%
式中:下载标准就来标准下载网
语义理解F,值;
语义理解精确率;
语义理解召回率。
Pss+Rss
..(5)
平均排序倒数:检测被测系统的信息检索能力,即正确结果在被测系统给出结果中的排序位置g)
倒数的平均值。参数值计算方法见公式(6):MRR
式中:
平均排序倒数;
信息检索的总次数;
一第i次信息检索;
台rank
在第次信息检索中正确结果出现的排序位置。GB/T41813.2—2022
(6)
归一化折损累计增益:检测被测系统的信息检索能力,即被测系统给出结果的排序相关性评分与理想结果的排序相关性评分的比值。参数值计算方法见公式(7)、公式(8)和公式(9):DCG
式中:
式中:
式中:
折损累计增益;
信息检索结果个数;
第i个检索结果;
log2G+1)
第;个检索结果的相关性评分。IDCG=
理想结果折损累计增益;
log2G+1)
信息检索结果个数按照相关性评分从大到小排序;第;个检索结果;
第个检索结果的相关性评分。
NDCG=DCG/IDCG
归一化折损累计增益;
折损累计增益;
理想结果折损累计增益
....(7)
.....(8)
...(9)
测试方法:语义理解效果测试可根据不同功能选择适用测试指标进行测试,不同功能及其适用的效果测试指标对应情况见表3。
意图理解
命名实体识别
敏感信息辨别
语义拒识
信息检索
文本修改
语义修正
精确率
不同功能及其适用的效果测试指标召回率
拒识率
准确率
平均排序倒数
归一化折损累计增益
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。