首页 > 广播电影电视行业标准(GY) > GY/T 349-2021 感知音频质量的客观测量方法
GY/T 349-2021

基本信息

标准号: GY/T 349-2021

中文名称:感知音频质量的客观测量方法

标准类别:广播电影电视行业标准(GY)

标准状态:现行

出版语种:简体中文

下载格式:.zip .pdf

下载大小:1393238

相关标签: 感知 音频 质量 客观 测量方法

标准分类号

关联标准

出版信息

相关单位信息

标准简介

GY/T 349-2021.Method for objective measurements of perceived audio quality.
10.5.2.5. 1延迟的平均算法
计算MOV时,在进行时域平均计算过程中应剔除测量开始后的初始0.5s的值。延迟的平均法用于的MOV包括WinModDi ff1、AvgModDiff1、AvgModDiff2. RmsNoi seLoudness、RmsNoiseLoudAsym.RmsModDiff、AvgLinDist.
10.5.2.5.2响度阈值
计算MOV时,当任一对应音频声道(测试信号和参考信号)的整体响度达到NThres 50ms后才开始计算,这之前所测得的所有瞬时值都不计入时间平均值中。响度阈值仅适用于10.4. 3描述的MOV。
10.5.2.5.3能量阈值
在单声道,或在参考和测试信号的左或右信道中,若某个具有2048个采样的帧的最近- -半的能量小于8000',则忽略该帧。帧与帧之间有50%的重叠,仅对含有新数据的半帧进行评价。本条的应用排除了对很小能量的帧的处理。
本条仅适用于10.4.7描述的MOV值。
10.5.2.5.4数据边界
相对于正式参考文件,如果处理后的文件在参考文件的头或者尾含有噪音,那么相关误差可能会很大,因为参考电平接近∞。若该误差被认定是损伤,则通过应用数据边界拒绝准则可以忽略该误差。当首次打开文件时,要识别参考信号中真实数据的开始和结尾位置。将原始数据的开始作为起点,对音频中的一个声道从头到尾进行扫描,直至5个连续采样的绝对值总和超过200的地方作为真实数据的开始位置,同理,也可以将原始数据的结尾作为起点从尾向前进行扫描。完全处于该范围以外的帧将会被忽略。
本条适用于所有MOV的计算。
10.5.3音频声道上的平均
若无特殊说明,立体声信号的MOV等于时域平均后的左右声道MOV的线性平均。
10.6感知基 本音频质量的估算
10.6.1 概述
感知基本音频质量的估算,主要是采用具有隐藏层的人工神经网络将多个MOV映射成-一个数值的方法。
10.6.2人工神经网络

标准图片预览






标准内容

中华人民共和国广播电视和网络视听行业标准GY/T349—2021
感知音频质量的客观测量方法
Method for objective measurements of perceived audio quality(ITU-RBS.1387-1,MOD)
2021-03-29发布
国家广播电视总局
2021-03-29实施
-nrKaeerKAca-
1范围
2规范性引用文件
3术语、定义和缩略语
3.1术语和定义
3.2缩略语
4概述
应用,
主观领域
分辨率和精准度
要求及限制
模型的描述
耳朵周边模型
激励模式的预处理此内容来自标准下载网
模型输出变量(MOV)的计算
平均法
感知基本音频质量的估算
实现方案的一致性
附录A(资料性)
附录B(规范性)
附录C(规范性)
附录D(规范性)
附录E(规范性)
参考文献
本文件与ITU-RBS.1387-1相比的结构变化情况感知音频质量的客观测量方法的原则和特点应用,
输出变量
模型补充说明,
rKaeerKAca-
GY/T349—2021
GY/T3492021
本文件按照GB/T1.1一2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。
本文件使用重新起草法修改采用ITU-RBS.1387-1《感知音频质量的客观测量方法》。本文件与ITU-RBS.1387-1相比,在结构上有较多的调整,附录A中列出了本文件与ITU-RBS.1387-1章条编号变化对照一览表。本文件与ITU-RBS.1387-1的技术性差异及其原因如下:为符合GB/T1.1一2020的要求,增加了第1章“范围”、第2章“规范性引用文件”、第3章“术语、定义和缩略语”。
本文件对以下内容进行了编辑性修改:删除了附件1“概述”中过去相关研究情况的叙述内容;删除了附件1主观领域中的对主观评价的叙述内容;删除了附件2第7章中的关于测试条目从数据库3中选择的描述性内容;删除了附件1的附录3中关于PAQM的部分论述性语句:删除了附件1的附录1中的版权部分的描述;删除了附件1的附录4中的介绍与历史部分的描述;-删除了附件2的附录1验证过程;删除了附件2的附录2参考数据库描述,请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任本文件由全国广播电影电视标准化技术委员会(SAC/TC239)归口。本文件起草单位:国家广播电视总局广播电视规划院。本文件主要起草人:覃毅力、邓向冬、韦安明、董文辉、郏涛、汪芮、王倩男。I
rrKaerKAca-
考虑到:
GY/T3492021
对采用低比特率编码算法,以及采用模拟或数字信号处理的系统,传统的客观测量方法(如信噪比和失真的测量)不适用于感知音频质量的测量;低比特率编码算法已得到迅速应用:并非所有符合某种规范或标准的系统/设备都可以保证达到规范或标准所规定的最高质量:通常的主观评价方法不适用于音频质量的连续监测,例如在系统运行的情况下:在整个测量领域中,感知音频质量的客观测量方法将补充或替代传统的客观测量方法:感知音频质量的客观测量方法可以有效地对主观评价方法进行补充:对一些应用,需要可实时测量的方法。建议对于本文件所列的应用,使用本文件规定的方法进行感知音频质量的客观测量,I
rrkaerkAca
-nrKaeerKAca-
1范围
感知音频质量的客观测量方法
本文件规定了感知音频质量的客观测量方法。GY/T3492021
本文件适用于在电视节目或广播节目的收录、分配、传送和监测等环节,也适用于编解码器等音频处理设备的研究、开发、测试和维护。规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件:不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GY/T298一2016音频系统小损伤主观评价方法(ITU-RBS.1116-3MOD)ITU-RBS.1284-1:2003声音质量主观评价通用方法(Generalmethodsforthesubjectiveassessment of soundquality)
3术语、定义和缩略语
3.1术语和定义
下列术语和定义适用于本文件。3.1.1
绝对误差值absoluteerror score;AEs反映SDG置信区间大小与SDG和ODG之差的关联平均值,其计算公式见公式(1)。AES=2
式中:
Z((ODG-SDG)/CI)
CI一—置信区间大小,若CI<0.25,则CI=0.25;N
被评价音频素材的数量。
基本音频质量basicaudio quality个通用主观属性,该属性包含了任意及所有可检测到的参考信号及其处理版本之间的差异。3.1.3
编码余量codingmargin
个质量参数,表示编码损伤从不可感知到可感知的值余量。3.1.4
模型输出变量modeloutputvariables;Mov(1)
感知测量方法的中间输出值。这些变量以基本心理声学研究为基础,用于进一步描述编码损伤特性。3.1.5
-rrKaeerKAca-
GY/T3492021
主观差异等级subjective difference grade;SDG根据GY/T298一2016开展的音频主观评价,采用5级损伤标度对隐藏参考和被测信号的基本音频质量进行打分得到相应的评分等级,由被测信号评分等级减去隐藏参考信号评分等级所得的差值,见公式(2)。
SDG=Gupr-GRer
式中:
GuT—被测信号评分等级:
GRf—一隐藏参考信号评分等级。3.1.6
客观差异等级objective difference grade;ODG(2)
感知测量方法的主要输出参数,相应于主观差异等级,为通用基本音频质量的测量参数。23.1.7
off-line measurement
离线测量
一种测量程序,其测量过程不会影响正在进行节目传输的系统。3.1.8
在线测量on-linemeasurement
一种测量程序,测试过程需依赖于正在进行传输的系统或是节目传输的一部分。3.2缩略语
下列缩略语适用于本文件。
ADB平均失真块(AverageDistortedBlock)ASD听觉频谱差异(AuditorySpectralDifference)BAQ基本音频质量(BasicAudioQuality)CI
置信区间(ConfidenceInterval)直流(DirectCurrent)
离散傅里叶变换(DiscreteFourierTransform)DFT
干扰指数(DisturbanceIndex)谐波失真结构(ErrorHarmonicStructure)EHS
等效矩形带宽(EquivalentRectangularBandwidth)快速傅里叶变换(FastFourierTransform)有限脉冲响应(FiniteImpulseResponse)无限脉冲响应(InfiniteImpulseResponse)国际电信联盟(InternationalTelecommunicationUnion)国际标准化组织(InternationalStandardsOrganization)临界可察觉电平差(JustNoticeableLevelDifference)JNLD
MFPD最大过滤检测概率(MaximumFilteredProbabilityofDetection)NL噪音响度(NoiseLoudness)
NMR噪声掩蔽比(Noise-To-MaskRatio)PAQM感知音频质量测量(PerceptualAudioQualityMeasure)感知评价(PerceptualEvaluation)PERCEVAL
1)理想情况下,SDG数值范围为0~4。如果参考信号没有被正确识别,则数值为正数。2)ODG数值范围为0~-4。
-rrKaeerKAca-
POM感知客观测量(PerceptualObjectiveMeasure)Ref参考信号(ReferenceSignal)ROEXROEX函数(RoundedExponential)Rov输出值比率(RateofOutputValues)SCM主观编码余量(SubjectiveCodingMargin)SPL
声压级(SoundPressureLevel)Win
窗口平均值(WindowedAverage)4概述
GY/T349—2021
在数字广播电视系统中,音频质量是一个非常关键的因素。判定音频质量的主要方法包括音频质量主观评价和客观测量。由于音频主观评价既费时又昂贵,而传统音频客观指标如信噪比或总谐波失真与感知音频质量没有可靠的关联性,因此需提出一种客观测量方法用于音频质量测量。本文件所规定的感知音频质量客观测量方法是在对已有测量方法如于扰指数(DIX)、噪声掩蔽比(NMR)、感知音频质量测量(PAQM)、感知评价(PERCEVAL)、感知客观测量(POM)以及工具箱法(TOO1bOXApproach)进行研究的基础上形成的,输出可靠有用的信息,用于多种应用场景。通过对上述六种方法的性能进行研究,提取其中最有用的工具,并将这些工具融合形成一个新的测量方法,即本标准规定的测量方法。本文件规定的测量方法已经在许多测试场所经过了仔细验证,且已证明能够为许多应用生成既可靠又有用的信息。不过本文件中的客观测量方法无法取代正式听音测试。附录B规定了客观感知音频质量的测量方法的原则和特点。5应用
感知音频质量客观测量的基本示意图见图1。参考信号
被测设备
被测信号
图1客观测量的基本示意图
客观测试
音频质量评价
本文件规定的测量方法适用于大部分模拟或数字音频信号处理设备,可着重用于音频编解码方面的应用。
该测量方法适用于实时在线测量的应用场景,也适用于非实时离线测量的应用场景。在实时在线测量时,被测设备适宜的最大延时宜小于等于200mS,最大不应大于1s。本文件规定的测量方法可用于以下八类应用场景,应与表1相符合表1应用范围
应用名称
系统/设备的评价
感知质量的排序
对音频处理设备(多数情况指编解码器)的不同实现方案进行评价针对某个设备或线路在投入运行前的快速测量过程-rrKaeerKAca-
基础/高级
GY/T3492021
应用名称
在线监测
设备或连接状态
编解码器识别
编解码器开发
网络规划
主观评价辅助
表1(续)
对工作中的音频传输进行连续监测简介
对某个设备或某个线路进行详细分析识别特定编解码器的类型或实现方案对编解码器性能特性进行尽可能地分析对特定条件下的传输网络在性能和成本方面进行优化作为筛选听音测试中关键素材的工具八类应用场景详细的说明见附录C。6版本
基础/高级
基础/高级
基础/高级
考虑到不同的经济成本和性能要求,本文件规定的客观测量方法提供了两个版本。基础版本适用于低成本实时实现方案,高级版本侧重于最高的准确度。由于高级版本增加了额外准确度,它的复杂度比基础版本增加了约四倍。
每种应用所适用的版本应符合附录C的要求。7主观领域
主观评价与客观测量之间需要相互补充,示意图见图2。通常的音频主观评价,例如基于GY/T298-2016的评价,是经过精心设计的,用以得出尽可能准确表征音频质量的可靠评价结果。不过主观评价的结果也不一定能完全反映出真实的感觉。客观测量方法可通过音频质量主观评价进行验证。实际听感
主观评价
图2验证示意图
客观测量
本文件中的测量方法主要关注那些在主观领域中可采用GY/T298一2016进行评价的应用。GY/T298-2016中测量方法的基本原则可以简要描述为:听音者在A、B、C三个音源中切换并评价,其中音源A为已知的参考信号,音源B和C为隐藏的参考信号和被测信号的随机排列。按照连续5级损伤等级,听音者通过对比B与A,C与A,对B和C的损伤进行评价。B和C中的其中一个为隐藏源,难以将其与A区分开,另一个则可能会反映出一些损伤。参考源和另一个音源之间的任何感知上的差异均应视为损伤。通常来说,只考虑“基本音频质量”这一属性,它是一个总体属性,涵盖了参考信号与被测信号之间可感知到的所有差异。4
-rrKaeerKAca-
GY/T349-2021
损伤等级标度采用ITU-RBS.1284-1:2003中给定的连续且带锚点的ITU-R5级损伤等级标度,应与图3相符合。
损伤不可觉察
损伤可察觉,但不令人不悦
损伤稍令人不悦
损伤令人不悦
损伤令人非常不悦
图3ITU五级损伤标度
主观评价结果的分析通常以主观差异等级(SDG)为基础。SDG值的理想范围应是0~-4。0表示损伤不可察觉,-4表示损伤令人非常不悦。3分辨率和精准度
客观差异等级(ODG)是客观测量方法的输出变量,相当于主观领域中的SDG。ODG的精度精确到小数点后一位。当任意两个0DG之差超过10%时则表明差异显著,在测试过程需要注意,避免出现这类情况鉴于缺少独立的参数对客观测量方法的准确度进行完整描述,因此在验证过程中需要考察多个参数。性能参数一是SDG与ODG之间的关联性。客观测量方法的性能可能随着引入损伤的类型和程度等参数变化而变化。性能参数二是异常值的数量。异常值是指测量出来不符合预定容差的值。根据用户要求,评分等级表靠上部分即高质量音频,测量方法的准确性应最高,评分等级表中下部分即中等及较差质量音频,测量的准确度可以稍降低。关联性可较好地评价客观测量方法的准确性,但还需考察异常值:从异常值的角度来看,即便测量方法具有相当高的关联性,测量方法仍然有可能隐藏无法接受的特性。性能参数三是绝对误差值,它反映了SDG置信区间的大小与SDG和ODG之差的关联平均值。要求及限制
整个测量期间,应将被测设备的信号和参考信号的时间准确度校正到24个采样值内。本文件中不涉及同步机制,不同测量方法的实现方案可有不同的同步机制。10
模型的描述
10.1概述
10.1.1客观测量方法概述
本文件规定的感知音频质量的客观测量方法包括一个耳朵周边模型、多个中间处理环节(即激励模式的预处理)、基于心理声学的MOV计算方法和将MOV集合映射到代表被测信号基本质量的映射算法,应5
-rrKaeerKAca-
GY/T3492021
与图4相符合。耳朵周边模型有两种模型,一种以FFT为基础(简称FFT耳朵模型),一种以滤波器组为基础(简称滤波器组耳朵模型)。除了计算误差信号时有所不同(仅使用FFT耳朵模型部分),其他情况下,两种耳朵周边模型的总体结构一样输入信号(参考信号和被测信号)回放电平
耳朵模型(基于FFT)
激励模式的预处理
激励模式,特定响度
模式,调制模式,误
差信号
计算模型输出值
回放电平
耳朵模型(基于滤波器组)
激励模式的预处理
激励模式,特定响度
模式,调制模式
计算音质测量(人工神经网络)★
失真指数
图4测试方案的常用模块结构图
用于计算模型输出变量值(MOV)的输入包括:用于测试和参考信号的激励模式:用于测试和参考信号的频谱自适应的激励模式:-用于测试和参考信号的指定响度模式:用于测试和参考信号的调制模式。+
客观差异等级
误差信号,即测试信号和参考信号间差异的频谱(仅适用于FFT耳朵模型)。如果没有其他说明,立体声信号左右声道的所有计算都独立执行,左右声道采用的方式一样。本文件给出了两种实现方式,即基础版本和高级版本。在所有给出的公式中,“Ref”表示所有根据参考信号计算得到的模式,“Test”表示所有根据被测信号计算得到的模式,“k”表示离散频率变量(如频率频带),“n”表示离散时间变量(如帧计数器或样本计数器)。如果k和n的值没有明确定义,计算时就会计算所有可能的k和n值。其他缩写在其出现的地方会有说明。
rKaeerKAca-
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。