基本信息

标准号： SJ/T 11380-2008
中文名称：自动声纹识别(说话人识别)技术规范
标准类别：电子行业标准(SJ)
标准状态：现行
出版语种：简体中文
下载格式：.rar.pdf
下载大小：14.41 MB
标准分类号

标准ICS号：信息技术、办公机械设备>>35.040字符集和信息编码
中标分类号：电子元器件与信息技术>>信息处理技术>>L71编码、字符集、字符识别
关联标准

出版信息

页数：33
标准价格：53.0 元
标准简介

SJ/T 11380-2008 自动声纹识别(说话人识别)技术规范 SJ/T11380-2008
标准内容

ICS35.040
备案号：23323-2008
中华人民共和国电子行业标准
SJ/T113802008
自动声纹识别（说话人识别）技术规范Technology specification for automatic voiceprint recognition (speakerrecognition)
2008-03-10发布
2008-03-10实施
中华人民共和国信息产业部发布前言
1范围
2规范性引用文件
3术语与定义
4数据交换格式.
4.1概述.
4.2通用操作..
4.3语音操作
4.4模型与模型集操作
4.5声纹模型训练.
4.6声纹确认
4.7声纹辨认.
4.8声纹检出..
4.9声纹追踪.
附录A（规范性附录）
VPR-APIv1.0函数定义
SJ/T11380—2008
SJ/T11380—2008
请注意本标准的某些内容有可能涉及专利。本标准的发布机构不应承担识别这些专利的责任。本标准的附录A是规范性附录。
本标准由全国信息技术标准化技术委员会归口。本标准由北京得意音通技术有限责任公司、清华大学智能技术与系统国家重点实验室（语音技术中心）、中国电子技术标准化研究所负责起草。本标准主要起草人：郑方、宋战江、徐明星、吴畏、邓菁、吴志刚。1范围
自动声纹识别（说话人识别）技术规范SJ/T11380—2008
本标准规定了声纹识别（系统）的术语与定义、数据交换格式与应用编程接口（VPR-API1.0)。本标准适用于各种计算机、网络和智能设备配置的声纹识别系统。2规范性引用文件
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件，其随后所有的修改单（不包括勘误的内容）或修订版均不适用于本标准，然而，鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件，其最新版本适用于本标准。GB12200.1-1990汉语信息处理词汇01部分：基本术语GF3006-2001语言文字规范-汉语拼音方案的通用键盘表示规范3术语与定义
下列术语和定义适用于本标准。3.1声纹识别的基本概念
声纹voiceprint
对语音中所蕴含的、能表征和标识说话人的语音特征，以及基于这些特征（参数）所建立的语音模型的总称。
声纹特征 voiceprint feature
说话人特征speakerfeature
从说话人的语音中所提取出来的、可以表征该说话人语音的个性特征的参数。注：常用的特征参数包括频谱（spectrum）、倒频谱（cepstrum）、线性预测系数(LPC)、音高（pitch）、声调（tone）共振峰（formant）、音质（voicequality）、声韵（prosody）、习语（phoneme/wordidiolect）等各种层次的信息。
声纹模型voiceprintmodel
说话人模型speakermodel
对声纹特征进行描述的数学模型。注：常用的数学模型有：高斯混合模型（Gaussianmixturemodel)，基于通用背录模型的高斯混合模型（Gaussianmixturemodel-universalbackgroundmodel)，隐马尔可夫模型（hiddenMarkovmodel)，人工神经网络(artificialneuralnetwork），支持向量机（supportvectormachine)等。通常，一个声纹模型对应一名说话人，但一名说话人可以有多个声纹模型，以对应各种不同的应用环境或声纹信息层次，如一名说话人可以在不同的信道条件下有不同的声纹模型。3.1.4
声纹模型训练voiceprintmodeltraining说话人模型训练speakermodeltraining1
SJ/T11380-2008
说话人注册speakerenrollment
从说话人的语音提取声纹特征并根据声纹特征估计其声纹模型的参数的过程。注：说话人一旦经过声纹训练并把其声纹模型的模型参数记录下来，即可在将来用于与未知说话人的语音进行声纹比对，从而辨认或确认该段语音所对应的说话人的身份。在不致混淆的情况下，该术语可简称为“声纹训练”或“说话人训练“。
声纹模型自适应voiceprintmodeladaptation说话人模型自适应speakermodeladaptation利用新采集到的语音数据对其已有声纹模型的参数进行重新估计的过程。注：对已经建立声纹模型的说话人，当其年龄、情绪、说话环境等发生变化时原声纹模型的参数可能无法很好地表征其声纹的变化，声纹自适应就是利用新采集的该说话人的语音对原有模型的参数进行校正的过程。声纹自适应可以是在线的(on-line)，也可以是离线的（off-1ine)；可以是有监督的（supervised)，也可以是无监督的(unsupervised)。
声纹识别voiceprint recognitionVPR
说话人识别speakerrecognition根据待识别语音的声纹特征识别该段语音所对应的说话人的过程。3.1.7
voiceprint recognition system声纹识别系统
声纹识别器voiceprintrecognizer说话人识别系统speakerrecognitionsystem说话人识别器speaker recognizer用以进行声纹识别的程序、设备、仪器或系统等。3.1.8
rejection
<声纹确认>声纹识别系统判定待识别语音不是宣称说话人所说《开集的声纹辨认>声纹识别系统判定待识别语音不是候选说话人集合内的说话人所说。<声纹检出和声纹追踪>声纹识别系统判定待识别语音不是目标说话人所说。3.1.9
acceptance
<声纹确认>声纹识别系统判定待识别语音是宣称说话人所说。《开集的声纹辨认>声纹识别系统判定待识别语音是候选说话人集合内的说话人所说。<声纹检出和声纹追踪>声纹识别系统判定待识别语音是目标说话人所说。又称告警(alarm)。3.2声纹识别的分类
3.2.1按声纹识别系统的应用方式分类从声纹识别系统的应用方式上可分为声纹确认、声纹辨认、声纹检出与声纹追踪等。3.2.1.1
声纹确认voiceprintverification说话人确认speakerverification给定一段只含一名说话人的语音和一个说话人的声纹模型，判断该段语音是否是该说话人所说的声纹识别方式。
注：该段语音通常也称为“待识别”语音，该说话人通常也称为“宣称的说话人”。声纹确认系统的输出是一个2
“二值判别”，它的结果只有两种：接受（见3.1.9)或拒识（见3.1.8)。声纹辨辩认 voiceprint identification说话人辨认speakeridentificationSJ/T113802008
给定一段语音和一组候选说话人的声纹模型，判断该段语音是哪个说话人所说的声纹识别方式。注：声纹辩认是一个“多选一”的问题。声纹辨认可分为闭集辨认（见3.2.1.3)或开集辨认（见3.2.1.4)。3.2.1.3
闭集（声纹）辨认close-set（voiceprint）identification闭集（说话人）辨认close-set（speaker）identification假定待识别的语音是由候选说话人集合中某个说话人所说的声纹辨认方式。注：闭集声纹辨认的任务为从候选说话人的声纹模型中挑出最可能的一个作为识别结果。3.2.1.4
开集（声纹）辨认open-set（voiceprint）identification开集（说话人）辨认open-set（speaker）identification假定待识别的语音既可能由候选说话人集合中某个说话人所说，也可能由该集合以外的某个说话人所说的声纹辨认方式。
注：其结果有两种可能：1）指出该段语音由候选说话人集合中某个说话人所说：2）指出该语音波形由候选说话人集合以外的未知说话人所说。相对于闭集辨认，开集辨认增加了对说话人是否在候选说话人集合内的判断，即接受(见3.1.9)或拒识(见3.1.8)判别。3.2.1.5
声纹检出voiceprintdetection
说话人检出speakerdetection
给定一个说话人（目标说话人，targetspeaker）的声纹模型和一段（或多段）语音，判断目标说话人的语音是否在给定的语音中出现的声纹识别方式。注：给定的语音可能是只含有一名说话人的语音，也可能是含有多名说话人的对话语音。3.2.1.6
声纹追踪voiceprinttracking
说话人追踪speakertracking
给定一个说话人（目标说话人，targetspeaker）的声纹模型和一段（或多段）语音，判断目标说话人的语音是否在给定的语音中出现，若出现则标示出对话语音中目标说话人所说的语音段的声纹识别方式。
注：声纹追踪是声纹检出的扩展，其与开集的声纹辨认与声纹检出是刑事侦查和情报分析中常用的声纹识别模式。3.2.2按声纹识别与语音文本的关系分类从声纹识别与语音文本的关系上可以分为文本相关的声纹识别，文本无关的声纹识别，以及指定文本的声纹识别。
文本相关的声纹识别text-dependentvoiceprintrecognition文本相关的说话人识别text-dependentspeakerrecognition要求用于声纹训练和声纹识别的语音所对应的文本完全一致的声纹识别。3.2.2.2
文本无关的声纹识别text-independentvoiceprintrecognition文本无关的说话人识别text-independentspeakerrecognition不要求用于声纹识别和声纹训练的语音所对应的文本一致的声纹识别。3
SJ/T11380--2008
注：声纹识别的文本与声纹训练的文本不但内容可以不同，长度也可以不同。3.2.2.3
指定文本的声纹识别text-promptvoiceprint recognition指定文本的说话人识别text-promptspeakerrecognition要求用于声纹识别的语音所对应的文本为声纹识别系统所指定文本的声纹识别。注：指定文本的声纹识别可以防止通过预先盗取或录制说话人的语音等方式非法闯入系统的情形发生。指定文本的声纹识别可以为以下的两种方式：1）在进行识别时，系统会随机地指定说话人说出某段或某些段文本，只有说话人说出的文本与指定的文本一致且声纹识别结果为接受时该说话人才可以被系统接受；2）在进行识别时，系统随机提问说话人某个或某些预先设定的问题，只有说话人回答的文本与预先设定的文本一致且声纹识别结果为接受时该说话人才可以被系统接受。指定文本的声纹识别一般要与语音识别结合使用。3.2.3按声纹识别与语言的关系分类从声纹识别与语言的关系上可分为语言相关的声纹识别和语言无关的声纹识别。3.2.3.1
语言相关的声纹识别language-dependentvoiceprintrecognition语言相关的说话人识别language-dependent speakerrecognition要求在声纹训练和声纹识别时使用相同语言（即语种）的声纹识别。3.2.3.2
语言无关的声纹识别 language-independent voiceprint recognition语言无关的说话人识别language-independentspeakerrecognition不要求在声纹训练和声纹识别时使用相同语言（即语种）的声纹识别。注：用于识别的语言和用于训练的语言可以不同，甚至用于训练和用于识别的语音可以是混合语言的。3.2.4按声纹识别处理多人语音的能力分类从声纹识别处理多人语音的能力上分类，在训练模式上可分为单说话人语音训练与多说话人语音训练；在识别模式上可分为单说话人语音的声纹识别与多说话人语音的声纹识别。3.2.4.1Www.bzxZ.net
单说话人声纹模型训练single-speakervoiceprintmodeltraining要求用于声纹模型训练的语音中只含有一名说话人的语音的声纹训练方式。3.2.4.2
多说话人声纹模型训练multi-speakervoiceprintmodeltraining用于声纹模型训练的语音中可以含有多名说话人的语音的声纹训练方式。注：在这种训练模式下，训练声纹模型的语音有NΛ≥2)段对话语音，每段对话含有两名说话人的语音，其中有一名说话人的语音在这入段对话中均出现，称目标说话人，每段对话语音中的另一名说话人各不相同。多人语音的声纹训练的任务是从这N段对话中分离出目标说话人的语音，并训练出目标说话人的声纹模型。3.2.4.3
单说话人声纹识别single-speakervoiceprintrecognition要求进行声纹识别时的语音中只含有一名说话人的语音的声纹识别方式。3.2.4.4
多说话人声纹识别multi-speakervoiceprintrecognition声纹识别的语音中可以含有多名说话人的语音的声纹识别方式。3.3与声纹识别系统评测相关的定义3.3.1声纹识别系统评测环境的技术指标3.3.1.1
SJ/T11380-2008
声纹模型训练（或声纹模型自适应、声纹识别）的有效语音validspeechforvoiceprintmodeltraining (voiceprint model adaptation, or voiceprint recognition)说话人模型训练（或说话人模型自适应、说话人识别）的有效语音validspeechforspeakermodeltraining (speaker model adaptation, or speaker recognition)进行声纹训练（或自适应、识别）的语音中，抛除静音、背景噪音等不含有说话人信息的无效语音后说话人的实际语音。
注：用于声纹训练（或自适应、识别）的有效语音的长度用时间（如毫秒）或语音分析窗宽（如顿）等方式度最。用于声纹训练或自适应的有效语音长度会影响声纹模型的精度或准确度，通常有效语音越长，训练或自适应出来的声纹模型越准确，精度越高，也越能代表说话人的特征；用于声纹识别的有效语音同样会影响声纹识别结果的稳定性，有效语音越长，声纹识别的结果也将越稳定。3.3.1.2
背景噪声background noise
用于声纹训练（或自适应、识别）的语音中所含有的噪声。注：背景噪声会对声纹识别系统的性能产生负面影响，噪音越强该负面影响越大。用于衡量噪声强度的是信噪比。
信噪比signal-to-noiseratio
音源产生最大不失真的声音信号强度与同时发出的噪音强度之间的比率。3.3.1.4
训练语音与识别语音的信道差异channemismatch between training andrecognition speech当用于声纹识别的语音与用于声纹训练的语音通过不同的信道传输或通过不同的设备采集时，因不同的传输信道或采集设备对语音产生的不同畸变而导致的识别语音与声纹模型的不匹配。注：信道差异会对声纹识别系统的性能产生负面影响。常用的传输信道包括固定电话信道、GSM移动电话信道、CDMA移动电话信道、无绳电话信道、麦克风信道等。其中麦克风信道根据不同种类的麦克风，又可分为PC标准凌克风、头戴式麦克风、会议用麦克风等等。同一类信道传输的语音采用不同的设备采集时，由于设备本身的硬件特性也会产生信道差异，例如当说话人使用不同的型号座机在固定电话网中通话时，采集到的语也会存在一定的信道差异。
跨信道cross-channel
用于声纹识别的语音与用于声纹训练的语音通过不同的信道进行传输或通过不同的设备进行采集的情形。
3.3.2声纹识别系统的评测标准的定义3.3.2.1
错误拒绝false rejection
<声纹确认>声纹识别系统将宜称说话人的语音错误地判断为非宣称说话人的语音。<声纹辨认>声纹识别系统将候选说话人集合内的某个说话人的语音错误地判断为候选说话人集合外的说话人的语音。
《声纹检出或声纹追踪>声纹识别系统将目标说话人的语音错误地判断为非目标说话人的语音。3.3.2.2
错误拒绝率falserejectionrateFRR
声纹识别(测试)过程中错误拒绝的数目占测试集合中应被接受的测试数目的百分率。3.3.2.3
SJ/T11380—2008
漏识miss
声纹检出或声纹追踪的错误拒绝（见3.3.2.1)。3.3.2.4
漏识率missrate
声纹检出或声纹追踪的错误拒绝率（见3.3.2.2)。3.3.2.5
错误接受falseacceptance
《声纹确认>声纹识别系统将非宣称说话人的语音判断为宣称说话人的语音。《声纹辨认>声纹识别系统将候选说话人集合外的说话人的语音错误地判断为候选说话人集合内的某个说话人的语音。
<声纹检出或声纹追踪>声纹识别系统将非目标说话人的语音错误地判断为目标说话人的语音。3.3.2.6
错误接受率false acceptancerateFAR
声纹识别(测试)过程中错误接受的数目占测试集合中应被拒绝的测试数目的百分比。3.3.2.7
误警falsealarm
声纹检出或声纹追踪的错误接受（见3.3.2.5)。3.3.2.8
误警率 falsealarm rate
声纹检出或声纹追踪的错误接受率（见3.3.2.6)。注：通常错误拒绝率(FRR)反映了声纹识别器对集合外说话人（或称冒名顶替者）企图阅入声纹识别系统的拦截能力，FRR越小，拦截能力越强；错误接受率(FAR)则反映了声纹识别系统对集合内说话人（或称合法注册者）顺利通过声纹识别系统的能力，FAR越小，则顺利通过率越高。3.3.2.9
检测错误权衡曲线detectionerrortrade-offcurveDET曲线DETcurve
对一个特定的声纹识别系统，以FAR为横坐标轴，以FRR为纵坐标轴，通过调整其参数得到的FAR与FRR之间关系的曲线图（参见图1）。司
FAR(%)
2030150
图1检测错误权衡曲线示例
SJ/T113802008
注：FAR比较小时，FRR一般比较大：反之，当FRR比较小时，FAR一般比较大，如图1示例。DET曲线是综合评价一个声纹识别系统性能的指标。-般地讲，DET曲线与原点的距离越近，系统性能越好。3.3.2.10
等错误率equalerrorrate
调整声纹识别系统的参数，使FAR与FRR相等时的错误率。注：在DET曲线上，DET曲线与第一象限角平分线的交点对应的错误率就是等错误率，如图1示例。3.3.2.11
检测损失函数detectioncostfunctionDCF
C=Cfa×Pfa×(1-Prarget)+C,×Pf,×Prarge式中Cfa为错误接受的损失，Pfa为错误接受率(FAR)：Cfr为错误拒绝的损失，Pf为错误拒绝率(FRR)，Prarger为目标说话人出现的概率。注：在某些特定的应用场合，错误接受与错误拒绝产生的损失是不同的、为了更好地衡量声纹识别系统在这类应用中的性能，定义检测损失函数。3.3.2.12
最小检测损失minimumdetectioncost通过调整声纹识别器的参数使检测损失函数（见3.3.2.11）所能达到的最小值。注：通常小检测损失可以简记为minDCF。4数据交换格式
4.1概述
本章定义了关于声纹识别应用的数据交换格式，从功能上分为五个部分：负责通用操作的数据交换格式，负责语音操作的数据交换格式，负声纹模型与模型集操作的数据交换格式，负资声纹模型训练的数据交换格式，以及负资各种类型的声纹识别的数据交换格式。声纹模型训练在训练方式上分为单人语音的声纹模型训练与多人语音的声纹模型训练两类，单人语音的声纹模型训练方式还支持对已存在的模型进行自适应。声纹识别部分根据应用方式分为声纹确认、声纹辨认、声纹检出、声纹追踪四类，其中声纹确认为单人语音的声纹识别，声纹辨认与声纹检出支持单人语音与多人语音两种方式的声纹识别，声纹追踪为多人语音的声纹识别。
在下文中，采用标准C/C++的语言风格对数据交换格式进行描述。针对该数据交换格式制定了应用编程接口(API)函数，详见附录AVPR-APIv1.0函数定义。4.2通用操作
4.2.1基本数据定义
本条中的基本数据采用如下定义：int
unsigned
各类指针
32位有符号整型数；
32位无符号整型数；
32位浮点数；
32位整型数：
SJ/T11380—2008
数据存储形式为高位高字节，低位低字节。4.2.2VPR_HANDLE
Void*VPR_HANDLE;
typedef
声纹识别应用系统中的通用操作句柄。用于操作语音句柄、模型句柄与识别引擎句柄，其中：语音句柄用于控制说话人的语音流：模型句柄用于控制说话人模型。4.2.3CHANNELSELECT
typedef enum f
CS_SPECIFIED
CS_AUTOSELECT
)CHANNEL_SELECT;
//指定的传输信道或采集设备
//自动选择传输信道或采集设备声纹识别应用系统中的信道选择模式定义。在进行声纹识别时，如果声纹识别应用系统中含有跨信道鲁棒性算法模块，在进行识别时需要对识别语音的传输信道或采集设备进行判断：如果已知，可以指定识别语音的传输信道或采集设备，设为CS_SPECIFIED；否则可以采用自动识别的方式选择一个已知的传输信道或采集设备，设为CSAUTOSELECT。4.2.4SEGMENT
typedef struct (
）SEGMENT;
fsegstart;
fsegEnd;
//语音段的开始时间（单位：秒）//语音段的结束时间（单位：秒）语音段时间边界点描述格式。记录语音段的开始时间和结束时间信息。4.2.5SPK_SEGS
typedef struct (
SEGMENT
)SPK_SEGS;
nNumofsegs;
pspksegs;
//属于该说话人的语音分段的数目//属于该说话人的语音分段的记录在多说话人语音段中用以记录属于某一特定说话人的语音段时间边界点的描述格式。4.3语音操作
语音操作主要针对语音文件及语音数据流进行操作，包括读取语音文件、去噪、提取有效语音、提取声纹特征参数、递增式操作等等，是声纹识别的前端处理。定义VoiceHandle为语音句柄，用于标识与存储语音数据，每个语音句柄对应一段语音数据；这段语音可以是从语音文件中读取的，也可以是从其它形式的数据流中导入的。4.3.1RAW_WAVEFMT
typedef enum {
RAW_PCM = 0,
RAW_ALAW=1,
RAW_MLAW=2
)RAW_WAVEFMT;
定义语音的压缩存储方式。
4.3.2VOCBLK_INFO
typedef struct f
RAW_WAVEFMT
nSampleRate;
nSampleType;
nNumChannels;
//未压缩的语音数据格式
//A-Law压缩格式
//μ-Law压缩格式
//语音数据的采样率
//语音数据的格式
//语音通道数
小提示：此标准内容仅展示完整标准里的部分截取内容，若需要完整标准请到上方自行免费下载完整标准文档。
标准图片预览