YD/T 2647-2013

基本信息

标准号： YD/T 2647-2013

中文名称：IP 网络高清视频客观全参考质量评价方法

标准类别：通信行业标准(YD)

标准状态：现行

出版语种：简体中文

下载格式：.zip .pdf

下载大小：6096103

相关标签：网络高清视频客观参考质量评价方法

标准分类号

关联标准

出版信息

标准简介

YD/T 2647-2013.Objective perceptual HD video quality measurement for IP video in the presence of a full reference.
1范围
YD/T 2647提出了一种非交互的IP网络高清视频感官质量全参考(FR) 测量的方法，规定了有源信号可以参考的情况下，对IP网络高清视频的感官质量进行客观评价的方法。
YD/T 2647适用于但不限于以下场景:
一源端的实时在线质量监测;
一远程接收端，源端视频拷贝可用于质量测量的情况下，对此点的质量监测;
一个或多个利用视频解压缩技术的存储或传输系统的质量测量;
一实验室视频系统的测试。
YD/T 2647不适用于视频会议的场景。
注1;此标准的视频质量测量模型不能替代主观测试。两个不同的实验室执行的主观测试相关度一般在0.95到0.98之间。如果用这个客观标准比较两个视频系统(比如两个编码器) ,建议用同一量化的方法(比如ITU-T J.149)来确定模型的准确率。
注2:当出现视频停帧，测试条件允许视频停帧不超过2s。此标准的模型不适用于测量重新缓冲的视频(这样会增加延迟或者停帧)。模型不用于其他帧率视频，只用于测试TV的帧率(一般TV的帧率为29.97fps和25fps,逐行或隔行扫描)。
注3:需要注意的是对于新的编码和传输技术,会产生此评价方法中没有考虑到的新的损伤，客观模型可能会出现错误的结果。这时需要主观评价方法。
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件，仅所注日期的版本适用于本文件。凡是不注日期的引用文件，其最新版本(包括所有的修改单)适用于本文件。

标准图片预览

标准内容

ICS33.160
中华人民共和国通信行业标准
YD/T2647-2013
IP网络高清视频客观全参考质量评价方法ObjectiveperceptualHDvideoqualitymeasurementforIPvideointhepresenceofafullreference2013-10-17发布
2014-01-01实施
中华人民共和国工业和信息化部发布前
1范围·
2规范性引用文件
3术语、定义和缩略语
3.1术语和定义*
3.2缩略语
应用场景
全参考方法描述·
模型描述·
概述·
预处理过程
时间校准·
空间信息校准
局部相似度和局部差异特征参数的计算局部特征的分布分析
块效应参数
6.8抖动特征参数的计算
6.9MOS值的映射
6.10处理空间校正严重错的视频序列·源视频代码的执行·
附录A（资料性附录）视频质量专家组的结论次
YD/T2647-2013
YD/T2647-2013
本标准用翻译法修改采用ITU-TJ.341:2011《ObjectiveperceptualmultimediavideoqualitymeasurementofHD'TVfordigital cabletelevisioninthepresenceofafullreference。本标准做了下列编辑性修改：
一本标准将ITU-TJ.341:2011中前言部分编辑到范围中，并按GB/T1.1-2009补充前言：一本标准范围简化ITU-TJ.341:2011中范围部分：一本标准第4章修改ITU-TJ.341:2011中范围部分：一本标准附录A修改ITU-TJ.341:2011中第7章部分：一本标准第6章为ITU-TJ.341:2011中规范性附录A的内容：一将ITU-TJ.341:2011所有章节中的程序改为链接引用。本标准按照GB/T1.1-2009给出的规则起草。本标准由中国通信标准化协会提出并归口。本标准起草单位：工业和信息化部电信研究院、华为技术有限公司、中兴通讯股份有限公司、中国移动通信集团公司。
本标准主要起草人：栗蔚、罗忠、聂秀英、杨黎波、黎家力。H
1范围
IP网络高清视频客观全参考质量评价方法YD/T2647-2013
本标准提出了一种非交互的IP网络高清视频感官质量全参考（FR）测量的方法，规定了有源信号可以参考的情况下，对P网络高清视频的感官质量进行客观评价的方法。本标准适用于但不限于以下场景：源端的实时在线质量监测；
一远程接收端，源端视频拷贝可用于质量测量的情况下，对此点的质量监测：一个或多个利用视频解压缩技术的存储或传输系统的质量测量：实验室视频系统的测试。
本标准不适用于视频会议的场景。注1：此标准的视频质量测量模型不能替代主观测试。两个不同的实验室执行的主观测试相关度一般在0.95到0.98之间。如果用这个客观标准比较两个视频系统（比如两个编码器），建议用同一量化的方法（比如ITU-TJ.149）来确定模型的准确率。
注2：当出现视频停顿，测试条件允许视频停顿不超过28。此标准的模型不适用于测量重新缓冲的视频（这样会增加延迟或者停慎）。模型不用于其他顿率视频，只用于测试TV的顿率（一般TV的顿率为29.97fps和25fps，逐行或隔行扫描）。
注3：需要注意的是对于新的编码和传输技术，会产生此评价方法中没有考虑到的新的损伤，客观模型可能会出现错误的结果。这时需要主观评价方法。2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件，仅所注日期的版本适用于本文件。凡是不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。ITU-TJ.144：2004数字电视全参考客观质量评价（Objectiveperceptualvideoqualitymeasurementtechniques for digital cable television in the presence of a full reference)ITU-TJ.149:2004视频质量度量准则统一准确率和方法（Methodforspecifyingaccuracyandcross-calibration of VideoQualityMetrics)ITU-TP.910:2008多媒体应用主管视频质量评价方法(Subjectivevideoqualityassessmentmethodsformultimedia applications)
3术语、定义和缩略语
3.1术语和定义
下列术语和定义适用于本文件。3.1.1
主观评价（图像）www.bzxz.net
Subjective Assessment (Picture)YD/T2647-2013
一组评论人员在各自观看场景中对事先制作的图像的质量或损伤程度的意见。[ITU-TJ.144]
ObjectivePerceptualMeasurement(Picture）客观感官评价（图像）
对事先制作的图像的客观（仪器）方法的评价，其测量性能指标是要接近主观评价的评分。[ITU-T J.144]
提交评价模型者Proponent
在ITU标准中，提交视频质量评价模型的一个组织或公司。3.1.4
恢率FrameRate
每秒播放的顿数。
仿真传输损伤SimulatedTransmissionErrors在一个高可控环境中对数字视频比特流中增加错误。比如仿真丢包和误码。仿真传输损伤的参数已经有很好的定义。
传输损伤TransmissionErors
视频传输中的各种损伤。损伤种类包括了实时网络状态的和仿真的传输损伤。3.2缩略语
下列缩略语适用于本文件。
ACR-HR
Absolute Category Rating
Absolute Category Rating with Hidden ReferenceAudio Video Interleave
Difference Mean Opinion ScoreFullReference
Full Reference Television
Hypothetical Reference CircuitVQEG's Independent Laboratory GroupMean Opinion Score
Mean Opinion Score, predictedNo (or zero) Reference
Peak Signal-to-Noise Ratio
Processed Video Sequence
Root Mean Square Error
Reduced Reference
Source Frame Rate
绝对种类定级
带隐藏参考信息的绝对种类定级音频视频交织
平均主观评分之差
全参考
全参考电视评价
假设参考电路
视频质量专家组的独立实验室组织平均主观评分
预测的平均主观评分
无参考
峰值信噪比
处理过的视频序列
平均根方差
部分参考
源帧率
4应用场景
Source Reference Channel or CircuitVideo QualityExperts Group
源参考信道或电路
视频质量专家组
YD/T2647-2013
全参考测量方法使用时需要无损的原始视频信号在测量点可用，所以这种测量方法可以用于实验室或一个封闭环境（例如cable电视的发送和接收端）的单个或系列设备系统。预测方法的步骤包括矫正和客观视频质量预测。
测试的视频序列包含了H.264和MPEG-2两种编码损伤，以及传输误差（比如，误码，丢包等）。此标准的模型可以监控部署网络的质量以保证其战备完好性。视觉感官损伤包括空域和时域的损伤。此标准的模型也可以用于视频系统的实验室测试。当用于比较不同的视频系统时，建议用同一种量化的方法（比如ITU-TJ.149）来确定模型的准确率。标准适用于码率为1Mbit/s到30Mbit/s的通信业务。测试包括以下分辨率：-1080i60Hz(29.97fps)
-1080p(25fps)
1080i50Hz(25fps)
-1080p(29.97fps)
测试条件如下：
测试条件
视频分辨率：1920x1080逐行扫描和隔行扫描视频顿率：29.97fps和25fps
视频码率：1~30Mbit/s
时域停顿（暂停或跳过）最大2秒有丢包的传输损伤
原始视频SRC由1080p转换为720p，压缩，传输，解压，然后再转回1080p编码技术
ITU-TH.264/AVC(MPEG-4Part10)MPEG-2
注：720p的视频作为测试方案中测试序列HRC的一部分。因为目前720p一般可以放大作为显示的一部分，所以720pHRC能更好的匹配这种格式。5全参考方法描述
全参考的评价方法，是视频感官质量评价方法的一种，通过比较系统输入端的源无损视频信号和系统输出端的损伤信号评价系统的性能。评价系统性能的示例如图1所示。输入信号和输出信号的比较，事先可能需要对图像时域或空域信息校正，然后再对图像水平或竖直方向的平移或切割做出补偿。有时也可能需要对亮度和色度信号的偏移或增益进行校正。然后用基于人类视觉的感官模型对图像的质量进行客观评分。3
YD/T2647-2013
源视频
编码器
输出视频
解码器
测量系统
图1实验室中全参考方法测试编码器性能的示例客观视频质量分数
校正和增益的调整被称为图像配准。这个过程是必需的，因为全参考方法，要对原始图像和损伤图像一个像素一个像素的比较。本标准中的视频质量评价模型包括了图像配准方法。因为视频质量客观评价方法是要尽量逼近人类视觉感官的反应，而不是单纯计算编码的量化损伤，所以此类方法同时适用于数字和模拟的视频系统。此类方法可以应用于模拟和数字的混合系统，或者多个视频压缩系统的。
全参考方法测试传输信道应用的示例如图2所示。传输损伤
源规频
编码器
IP网络
解码器
输出规频
客观视频质量分数
测量系统
J.247(08)_F02
图2全参考方法测试传输信道应用的示例所以，解码器可以放在传输系统的不同的测试点，比如，解码器可以放在网络中的一个点，如图2所示，或者直接放在编码器的输出端，如图1所示。如果数字传输系统是透明的无损的，那么对于源端图像的客观评价和对之后系统任何一点图像的评价效果一致。之前的研究显示，全参考方法能够获得与图像主观评价较高的相关度。此标准中的全参考方法与主观评价有较高的相关度，其中主观评价参照ACR-HR方法获得[b-ITU-TJ.910]。本标准的全参考模型性能结果参见附录A。
6模型描述
6.1概述
此模型的方法可以估计主观评价视频质量的结果。此客观评价方法利用视觉心理和自我学习的模型来达到仿真主观感受的效果。因为是全参考方法，所以此方法的模型比较输入的高质量源视频和输出的损伤视频序列，损伤视频序列通过实验处理获得，其过程参如图3所示。模型估计视频质量通过以下步骤：第一步，视频序列预处理。包括降噪和像素的下采样。第二步，源视频和处理后视频序列的时域校正。第三步，源视频和处理后视频序列的空域校正。第四步，局部空域特征参数计算：利用视觉效应模型计算局部相似度和局部差异。4
第五步，局部相似度和差异度参数的分布分析。第六步，计算图像全局的块效应参数。YD/T2647-2013
第七步，图像全局时域损伤特征抖动参数的计算。此参数由计算局部和全局运动的剧烈程度，以及顿的显示时间得出。
源视频
下采样
全局空域损伤-块效应
全局时域损伤-抖动
时间校正
空间校正
局部相似度和差异度特征参数
特征参数分布分析
感官因素结合
预测分数
图3模型评价过程的流程图
基于以上的特征参数，质量分数由非线性的函数得出。损伤视频
下采样
全局空域损伤-块效应
全局时域损伤-抖动
为避免由于源视频和损伤视频序列的错误校正而获得错误的预测分数，以上步骤计算3个不同的视频序列竖直和水平方向的校正结果，最大的预测分数为最后的质量分数。注：顶端输入的分别是源视频序列和损伤视频序列。模型通过一系列不同的处理过程输出质量分数，是流程图的最后个图框。
6.2预处理过程
源视频和损伤视频的每一图像通过低通滤波器和下采样到以下R1、R2和R3等3个不同分辨率的图像。
original frame
height X width
1080X1920
540×960
270×480
96×128
YD/T2647-2013
R3图像的获得参见6.1l，程序方法：CFrameAnalysisFullRef:ContentTimeAlignment。图像R1和R2的获得参见方法：CFrameSeq：ReadFrame。图像下采样的过程如图4所示。
源无损视频慎
有损视频顿
源规频
R1(540X960)
损伤规频
R1(540X960)
源视频
R2(270X480)
顿对匹配
损伤规频
R2(270X480)
源视频
R3(96X128)
时域校正
损伤视频
R3(96X128)
注：源视频和损伤视频的每一图像通过低通滤波器和下采样到以下3个不同分辨率的图像。R3用于帧的时间校准。匹配图像的结果列表可以匹配其他任何一个分辨率的顿。图4图像下采样的过程
6.3时间校准
时间校准用于源视频和损伤视频的最低分辨率的子图像R3。校准过程采用递归的方式，如下：a）在源视频中确定一个顿，记为“anchor”（Ref_anchor）：b）在损伤视频中找到与anchor\最匹配的一帧（Deg_best_match）。把损伤视频中的\Deg_best_match\放到源视频中，与源视频中\anchor\顿附近的顿进行匹配。根据相似度，在Ref_anchor周围试图找到一个与Deg_best_match更匹配的顿，存为最匹配的顿对。相似度计算公式如下，损伤视频顿为x，源视频顿为y：sim=exp(-mean_square_diff(aXx+by))参数a和b使均方差最小。参见6.11，程序FrameSimilaritysimilarity。(1)
a）如果以上找到的最匹配顿对符合要求，即相似度大于一定的阅值，那么分别将源视频和损伤视频中对应的最匹配顿的左右两侧分成两部分视频子序列。然后对于这两部分的子序列，继续从第a）步的方法开始处理。
b）如果最匹配顿不令人满意，即相似度小于一定的阀值。那么从第a）步重新开始，选择一个不同的\anchor\顿。最匹配顿对的相似度的阀值没有一个先验的值，一般随着递归的次数，阅值是逐渐降低的。根据大量的数据实验，我们得出以下阅值：第一次确定最匹配对的公式（1）阀值设为0.98。10个\anchor\顿都失败后，阅值比0.98降低，按依次类推，10次anchor\恢再失败后，阅值再次降低。这个过程一直到值最小值0.1.细节参见6.11，程序SQTimeAlignement：findAncorAndDescend。采用递归方法处理时间校准如图5所示。时间校准的结果是一个匹配序列，列出了损伤视频中的每一帧在源视频中最匹配的帧对。而对于损伤视频中某些顿，按时间校准没有在源视频中找到最匹配顿，在后续处理中，这些顿与源视频中的两个帧进行比较，分别是与此顿前后两顿最匹配的顿。需要注意的是，之前时间校准中的相似度阀值已经设得非常低了，所以只有损伤非常严重的视频序列才会存在找不到匹配的。具体方法参见6.11，程序：CFrameAnalysisFullRef:sqVTA_ContentFrameTimeAlignement_M。6
源规频
损伤视频
YD/T2647-2013
注：如图，源视频中的\anchor\顿与损伤视频中的最匹配顿。然后这两顿左右两侧再分成两个视频子序列，源视频每个视频子序列再选择一个\anchor\顿，然后在对应的损伤视频子序列中寻找最匹配顿。图5递归方法处理时间校准
6.4空间信息校准
空间信息校准的方法是对损伤视频的所有顿采用递归的方法，具体操作如下：a）如果此恢没有匹配顿，用前一顿的空间校准。如果此顿有匹配顿，那么根据时间校准的结果，在此顿和源视频中对应的匹配顿之间进行空间校准。1）对于第一顿，初始空间偏移量为0（水平和竖直方向皆是）。对于后续的帧，使用事先以前的匹配帧的空间对齐。
2）在第b）步规定的范围内，竖直方向和水平方向寻找可能的空间偏移量。根据cost函数，在损伤帧和源顿中找到一个使cost函数最小值的空间偏移量。Cost函数如下：rmse(Y(av,dh),Y_ref)+abs(av)+abs(dh)Y是R1分辨辩率子图像的损伤顿，Yref是R1的源视频的匹配顿，Y(dv,dh)是Y的偏移量，dv是水平偏移量，dh是竖直偏移量。对于较小空间偏移量，abs(dv)和abs(dh)项是有必要在cost函数里的。需要注意的是如果一顿的边界非常小，那么可以跳过RMSE计算，以避免更复杂的边界处理。3）这样，各个时间点的空间偏移量能够得到补偿。一帧中的错误校准可以在下一顿的校准中得到修正。
b）第一步中空间偏移校准的区间为士4个像素。对于更大的空间偏移，参见6.9。c）空间校准之后，根据时间校准和空间偏移量的校准，损伤视频中的每一顿都有一个对应的源视频顿。所以，损伤视频能准确的和源视频的帧进行比较。这是接下来的特征参数提取的基础。所有此步骤的细节参见6.11，程序CFrameAnalysisFullRef:DetermineSpatialAlignment。第b）步中的+4个像素值可以根据更大的空间偏移需求而增大。6.5局部相似度和局部差异特征参数的计算每一对已经校准过的视频匹配对，一组像素间质量特征参数通过以下步骤计算：第一步，计算局部相似度和差异度。此特征用R2子图像进行计算，R2的损伤视频帧和源视频顿中，以13×13像素块为单位计算。因为R2所有的像素个数不能被13整除，所以有小部分边界像素忽略。局部的13×13像素块被记做sprc和s_ref，相似度S和差异度D计算公式为：S=(cor(s_prc,s_ref)+25)/(var(s_ref)+25)D=sqrt(avg(Sx(s_prc-mean(s_pre))-(s_ref-mean(s_ref)^2))(2)
YD/T2647-2013
其中cor是相关度，var是两个像素块对应像素之间的差值，函数avg计算像素块区域所有像素的平均值，sqrt是均方差。相似度S和差异度D是空间特征的主要参数。这样，每帧的相似度S和差异度D是一个矩阵，矩阵的每一个数值对应相应的像素块。对于感官质量来说，不仅相似度S和差异度D的均值很重要，相似度S和差异度D的分布特征也很重要。6.6局部特征的分布分析
首先介绍几个公式。分位数quantile（X,c）表示，一个矩阵x所服从的概率分布的分位点为c，对一个矩阵X和一个常数c，0≤c≤1,它们的分位数记为q=quantile(X,c)，以c点为分界，X的所有值小于或等于q。函数trimmedmean定义如下：trimmedMean(X,c)表示X概率分布分位点c和（1-c）之间的所有项的平均值。比如，trimmedMean(X,0.1)是去掉X的10%最小的数和10%最大的数后，剩下的X的所有项的平均值。
X(X>c)表示X中所有大于c的值。比如trimmedMean(X,e)=mean(X(X>quantile(X,e)andX利用这些公式，以下特征参数的值基于6.5节中的S和D：s_m = trimmedMean(S,c)
d_m=trimmedMean(D,c)
s_delta = s m -mean(S(Squantile(D,1-c) -d_m其中c-0.2，dm和ddelta如图6所示。d_delta
误差分布
局部误差
注1：trimmedMeandm是图中浅灰色区域的平均值（黑色竖直线）0.8
注2：d_delta的值是深色灰色区域平均值和浅色灰色区域平均值的差（水平方向的黑色线）。图6局部差异度D的概率分布
相似度S和差异度D的具体计算方法参见6.1l，程序CFrameAnalysisFullRef:ComputeSimilarity。8
小提示：此标准内容仅展示完整标准里的部分截取内容，若需要完整标准请到上方自行免费下载完整标准文档。