标准内容
ICS 03. 120.30
中华人民共和国国家标准
GB/T 80562008
代GB/T8056—1987
数据的统计处理和解释
指数分布样本离群值的判断和处理Statistical interpretation of data-Detection and treatment of outliersin the sample from exponential distribution2008-07-16发布
中华人民共和国国家质量监督检验检疫总局中国国家标准化管理委员会
2009-01-0.1实施
GB/T8056—2008
1范围
2规范性引用文件
3术语、定义和符号·
3. 1 术语和定义
3.2符号和缩略语
4离群值判断
离群值的来源与判定
离群值的三种情形
检出离样值个数的上限
单个离群值情形
多个离群值情形
离群值处理
处理方式
处理规则
6单个离群值的判断规则
检验统计量的选择
6.2上侧情形的检验规则
6.3下侧情形的检验规则
6.4双侧情形的检验规则
7多个离群值的判断规则
7.1检验步骤
7.2多个离群值检验示例
8定数截尾样本离群值的判断规则8.1定数截尾样本
8.2离群值的检验规则
8.3定数裁尾样本离群值检验示例附录A(规范性附录)
参考文献
临界值表
GB/T8056—2008
本标准代替GB/T8056--1987《数据的统计处理利和解释指数样本异常值的判断和处理》。本标推与GB/T80561987相比较,技术内穿的变化主要包括:增加广术语、定义和符号;
将“指数样本异常值的判断和处\改为“指数样本离群值的判断和处理”;将术语“检出异常值”和“高度异常值”分别改为“歧离值”和“统计离群值”,并进一步明确了二者的含义及相互差异;
增加了检出水平和剔除水平的定义:检出水由原标准中“检出水平一般取为1%,5%或10%”改为“除非根据本标准达成协议的各方另有约定,检出水平应为0.05”明确规定剔除水平的值除非根据本标准达成协议的各方另有约定,影除水平应为0.0I;增加了各种情形“统计离群值”的检验步骤;将“没有异常值”和“没有高度兄需的异常值”分别改为“未发现离群值”和“未发现统计离群值”,
增加了双侧离群值检验,多个离群值检验,定数截展样本离群值检验的示例。本标准的附录 A是规范性附录。本标准由全国统计方法应用标准化技术委员会提出并归口。本标准起草单位:宁波工程学院、中国标雅化研究院、北京大学、上海师范大学、福州春伦茶业有限公司。
本标准主要起草人:荆广珠、丁文兴、于振凡、梁方楚、孙山泽、费良、傅天龙。本标准所代替标准的历次版本发布情况为:GB/T8056-1987.
GB/T 8056--2008
从事科学研究、工农业制造以及管理工作都离不开数据,而对这些数据的整理.分析和解释都离不开统计方法。统计学是研究数字资料的整理、分析利正确解释的一门学科:人们各自从不向的来源取得各种数字资料,这些数字资料通常都是杂乱无章的,必须经过整理和简缩才能利用,使用完善的统计方法就可使数据整理,排列的有条有理,用图形或少量的几个重要参数,就可将大数据的特征表达出来,这样既可避免不正确的解释,又可将获得满意数据的成本降到最低限度,提商了经济效益。《数据的统计处理和解释》含有多项国家标准,它们是:统计容忍区间的确定(GB/T3359)均值的估计和置信区间(GB/T3360)在成对观测值情形下两个均值的比较(GB/T3361)二项分布参数的估计与检验(GB/T4088)泊松分布参数的估计与检验(GB/T4089)正态性检验(GB/T4882)
正态样本离群值的判断和处理(GB/T1883)正态分布均值和方差的估计与检验(GB/T4889)正态分布均值和方差检验的功效(GB/T4890)I型极值分布样本离群值的判断和处理(GB/T6380)伽玛分布(皮尔逊Ⅲ型分布)的参数估计(GB/T8055)指数分布样本离群值的判断和处理(GB/T8056)本标准尚无相应的国际标准。
用伙伴网
1范围
数据的统计处理和解释,
指数分布样本离群值的判断和处理GB/T 8056--2008
本标准规定了判断和处现米自指数分布的样本中离群值的一般原则和实施步骤。本标准适用于来白指数总体的样本。2规范性引用文件
下列文件中的条款通过本标准引用成为本标准的条款。凡是注日期的引用义件,其随后所有的修改单(不包括勘误的内容)或修订版本均不适于本标推。然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准,GB/T4086.4统计分布数值表F分布分位数表ISO3534-1统计学词汇及符号第1部分:一般统计术语与用于概率的术讲1SO3531-2统计学词汇及符号第2部分:应用统计3术语、定义和符号
IS0 3534-1,IS0 3534-2 确立的术语、定义和符号以及下列术语、定义和符号适用于本标准。为便于参考,某些术语直接引自上述标准。3.1术语和定义
指数分布exponential distrihution具有下述分布函数的连续型分布,F()
其中β>0.
离群值atlier
[-, 2 0
样本中的-个或儿个观测值,它们离开其他观测值较远,示它们可能来自不同的总体。注:离群值按显著性的程度分为歧离值和统计离群值。3.1.3
I statistical outlicr
统离群值
在剿除水平(3.1.6)下统计检验为显著的离群值:3.1.4
歧离值straggler
在检出水平(3.1.5)下统计检验为显著,在除水平(3.1.6)下不显著的离群值。3.1.5
检出水平detection leve
为检出离群值而指定的统计检验的显著性水平。注:除非根据本标准达成协议的各方另有约楚,检出水平应为口.05。1
合伙伴网
GB/T8056—2008
剔除水平deletionlevel
为检出离群值是否高度离群而指定的统计检验的显著性水平,注;剔除水平的值应不超过检出水平的值。除非根据本标准达成协议的各方另有约定,剧除水平成为0,01。3.1.7
P分位数Pquantile
使得分布两数F()的值不小于(01)的的最小值。3.2符号和缩略语
F,(Ut:a)
Ti-.(n,n)
4离群值判断
样本量(观测值个数)
样本均值
检验离群值所使用的显著性水平,简称检出水平检验统计离群值所使用的显著性水平,简称剔除水平(α”α)观测值自小到大排序后的策;个值样本量n>100时,检验最大的观测值m是否为离群值时所用的统计量样本最孔>100时,检验最小的观测值无1是否为离群值时所用的统计鼠定数截尾样本中,判断无()是否为离群值时所用的统计量自由度为和的F分布的分位数
样本量n≤100时,检验最大的观测值是否为离群值时所用的统计量样本量n100时,检验最小的观测值无是否为离群值时所用的统计量检出水平为 α时,用统计量 T,,作检验时的临界值检出水平均α时,用统计量T作检验时的界值4.1离群值的来源与判定
4.1.1来源
离群值按产牛原因分为两类:第一类离群值是总体固有变异性的极端表现,这类离群值与样本中其余观测值属于尚一总体;第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果,或产生于观测、记录、计算中的失误,这类离群值与样本中其余观测值不属于同一总体。4. 1. 2 判定
对离群值的判定通常可根据技术上或物理的理由直接逃行,例如当试验者已经知道试验偏离规定的试验方法,或测试仪器发生问题等。当1述理由不明确时,可用本标准规定的方法。4.2离群值的三种情形
本标准在下述不同情形下判断样本中的离群值:a)上侧情形:根据实际情况或以往经验,离群值都为高端值;h)“下侧情形:根据实际情况或以往经验,离群值都为低端值:)双侧情形:根据实际情况或以往经验,离群值可为高端值,也可为低端值。逆:1)上侧情形和下侧情形统称单侧情;2)若无法认楚单侧情形,按双侧情形处理。检出离群值个数的上限
应规定在样本中检出离群值个数的上限(与样本量相比应较小),当检出离群值个数达到了这个1限时,对此样本应作慎重的研究和处理。4.4单个离群值形
检验规则如下:
GB/T 8056-2008
a)原假设为所有观测值来白同总体,依实际情况或以往经验选定4.2中的-种情形作为备择假设,根据统计学原理选用判断离群值的统计量(见6.1、8.2);b)确定适当的显著性水平;
c)根据显著性水平及样本量,确定检验的临界值;d)由观测值计算相应统计最的值,根据所得值与临界值的比较结果作出判断,4.5多个离群值情形
在允许检出离群值的个数人于1的情况下,重复使用1.4规定的检验规则进行检验,并按下述规则决定检验停止的时机:
a)若没有检出离群值,则整个检验停止。b)若检出离群值,当检出的离群值总数达到上限(4.3)时,检验停止:否则,采用相同的检出水平和相向的规则,对除去已检出的离群值后余下的观测值继续检验。5离群值处理
5.1处理方式
处理离群值的防式有:
a)保留离群值并用于后续数据处理;b)在找到实际原因时修正离群值,否则予以保留;c)剔除离群值,不追加观测值;d)剥除离群值,并追加新的观测值或用适宜的插补值代替。5.2处理规则
对检出的离群值,应尽可能寻找其技术上和物理上的原因,作为处理离群值的依据。应根据实际间题的性质,权衡寻找和判定产生离群值的原因所需代价,正确判定离群值的得益及错误除正常观测值的风险,以确定实施下述三个规则之一a)若在技本上或物理上找到产生离群值的源因,则应除或修正;否则,不得别除或修正,b)若在技术上或物理上找到产生离群值的原因,则应剔除或修正;否则,保留歧离值,剔除或修止统计离群值。在重复使用同一检验规则检验多个离群值的情形,每次检出离群值后,都要再检验它是否为统计离群值。若某次检出的离群值为统计离群值,则此离群值及在它前面检出的离群值(含歧离值)都应被别除或修正。c)检出的离群值(含歧离值)都应被除或修正:5.3备案
被除或修正的观测值及其理由应予记录,以裔查询。6单个离群值的判断规则
6.1检验统计量的选择
当样本量nS100时,使用统计量T..(或T.1)进行检验,当样本量n>100时,使用统计量E..(或E1)进行检验。
6.2上侧情形的检验规则
6. 2. 1 样本量 n≤100 时的检验当样本量≤100时,实施步骤如下:a)计算统计量T,的值:
T... = 2(n)
GB/T 8056—2008
确定检出水平α,在附录A的表A.1中查出临界值T1-(n,n),b)
当TT,(,n)时,判定为离群值,否则判未发现<是离群值;d)对于检出的离群值r(确定割除水平a\,在表A.1中查出临界值Ti。(n,n)。当T.>T,(,n)时,判定工为统计离群值,否则判未发现(是统计离群值(即为歧离值)。6. 2. 2样本量 n >100 时的检验当样本量n>100时,实施步骤如下:a)计算统计最量 E,的值:
(n-1)[αn-n)
[) (n n]
h)确定检出水平,在 F分布的分位数表(见 GB/T 1086.1)中查出 F,(2.2n一2);c)当E,>F,…(2,2n一2)时,判定s为离群值,否则判末发现(m是离群值;.-(2)
d)对于检出的离群值 zt),确定剔除水平 α,在 F 分布的分位数表(见GB/T 4086.4)中查出F-(2,2n一2)。当EF,-(2,2n一2)时,判能m为统计离群值,否则判未发现r1是统计离群值(即为歧离值)。
6.2.3上侧情形的检验示例
从种电了产品中随机地取出15个样品,在一定条件下进行寿命试验,其失效时间分别为(单位:kh):
经验表明这种电子产品的寿命工服从指数分布,并且此处使用者关心的是数据中是否存在上侧离群值,据此,可采用6.2.1中的检验方法,13
本例中,样本最n=15,无)=5.1020,2工16.78,按式(1)算得Ti5.15
确定检出水平α=0.05,在表A.1中查出临界值To.95(15,15)=0.3346,因为T1s.1s6. 3. 1 样本量 n≤100 时的检验当样本量n≤100时,实施步骤如下:a)计算统计量T.的值:
T.. = . (1
b)确定检出水平α,在表A.2中查出临界值T,(n,1);c)当T,T.(n,1)时,判定为离群值,否则判未发现()是离群值;(3)
d)对于检出的离群值1>,确定除水平a\,在表A.2中套出临界值T(n,1)。当T100 时的检验
当样本量n>100时,实施步骤如下:a)计算统计量E.的值;免费标准bzxz.net
全品球伴网h
n(n-1)a
b)确定检出水平a,在F分布的分位数表中,查出F。(2,2n一2);c)当E,1为离群值,否则判术发现2()是离群值;GB/T8056—2008
(4)
d)对于检出的离群值,确定剔除水平α\,在F分布的分位数表(见GB/T4086.4)中查出F(2,2n2)。当E1为统计离群值.否则判未发现z<1>是统计离群值(即()为歧离值)。
6.3.3下侧情形的检验示例
随机抽取某厂生产的多功能继电器110个样品,从剔除了期故障后直到发生元器件或材料的老化变质之前的随机失效阶段,在使用过程中记录寿命失效时问,得到的记录数据为(单位:kh):0.111 8
10. 893 2
10,674 0
1,891 2
大量统计资料表明这种多功能继电器在式验阶段的寿命T服从指数分布,并且此处使用者关1
心的是数据中是否存在下侧离群值,据此,可采用6.3.2中的检验方法。本例中,样本量2=100,元0.0012,Ei.1
319.9297.按式(4)计算得
110×109×z0.0450
110元(1)
确定检出水平-α-0. 05,在F分布的分位数表(见 G/T 4086,4)中查出 Fa.as(2,218)=0.05。因为E,6.4双侧情形的检验规则
6. 4. 1 样本量 n≤ 100 时的检验当样本最≤100时,实施步骤如下a)计算
M = exp(--(n/) - Exp(—x(n/)5
b)若 Ms_1,按式(1)计算统计量 T,的值,并确定检出水平 a,在表 A,1 中查出临界值 T1./z(n,n)。当T>Ta/(,n)时,判定为离群值,否则判未发现(是离群值;对于捡出的离群值 ,确定剔除水平α,在表 A.1中查出临界值 i-2(n,n)。当 T>T,-。2(n,n)时,判定()为统计离群值,否则判未发现()是统计离群值(即(n为歧离值);d)) 着M>1,接式(3)计算统计量 T.,1的值,并确定检出水平 α,在表 A. 2 中查山临界值 T/2(n,1)。当T合品伙伴网ht:
GB/T 80562008
e)对于检出的离群值工(1,确定别除水平α,在表A,2中查出临界值T。2(.11。当T.T/(n,1)时,判定<1)为统计离群值,否则判未发现()是统计离群值(即1)为歧离值)。6. 4. 2样本量 n>100 时的检验当样本量n>100时,实施步骤如下:a)按式(5)计算M;
b)若M≤1,按式(2)计算统计最E的值,并确定检出水平,在F分布的分位数表(见GB/T 4086.4)中查出Fi-a/2(2.2n—一2)。当E.≥F-a/2(22n—2)时,判定2为离群值,否则判未发现 I:(\)是离群值;
c)对于检出的离群值,确定剔除水平α*,在F分布的分位数表(见GB/T4086.1)中查出F1。72(2,2n—2)。当E,>F,。/2(2,2n-2)时判定z为统计离群值,否则判末发现2是统计离群值(即()为歧离值);d)若M>1,按式(4)计算统计量E.1的值,并确定检出水平α,在F分布的分位数表(见GB/T 4086.4)中查出 F/z(2,2一2)。当E,1为离群值,否则判未发现)是离群值:
e)对于检出的离群值(1),确定剔除水平α,在F分布的分位数表(见GB/T4086.4)中查出F。2(2.2n—2)。当E,6.4.3双侧情形的检验示例
随机抽取某厂生产太阳能光伏组件接线盒20个样品,对其外部绝缘材料进行75灼热丝试验,当样品出现裂痕、龟裂或者其他质量瑕疵时判定该接线盒的外部绝缘材料寿命失效。得到寿命失效时问数据为(单位:h):
1.36910.56301.83720.520 31.10530.41760.146 60.56630.01970.23341.880 06.602 00.182 71. 651 00.447 9 0. 402 0 0.258 70.968 10.817 40.727 6实际经验表明此类环境试验中接线盒的外部绝缘材料寿命T服从指数分布,试验的结果沙及到产品居否通过阻燃性能检测和外部绝缘材料的阻燃极限寿命,使用者同时关注数据中是否存在上侧、下侧离群值。据此,可采用6.4.1中的检验方法。本例中,样本量n=20,()=0. 019 7,2(20)=6. 602 0,艺-
计算:
—20.7161,元=1.035 8,首先按式(5)M = exp(—rau/) — exp(-x(>/x) = 0. 982 9因为 M=0. 982 91,按式(1)计算:T 2o,20 = (20) = 是
20. 716 1
确定检出水平a=0.05,在表A.1中查出临界值T.75(20,20)=0.2966。因为Tzr.2n≥Tc.975(20,20),故判定±(8)=6. 602 0为离群值。对于检出的离群值Z(2e;=6.6020,确定别除水平α\—0.01,在表A.1中查出临界值Ta.9(20,20)=0.3533。因为T24.23Ts(2020),故判末发现25)=6.6020是统计离群值(即(2a)=66020为歧离道)。
7多个离群值的判断规则
7.1检验步骤
当样本中可能有多个有离群值需要检验时,按照4.5的规则执行。其体判断离群值的方法,可根据6
单侧情形和双侧情形分别按6.2,6.3和6.4的步骤实施。7.2多个离群值检验示例
GB/T 8056—2008
从某种耐磨材料中随机地取出36个样品,在一定条件下进行寿命试验,其尖效时间分别为(单位:kh):
13. 456 0
41. 021 7
经验表明这种耐磨材料的试验寿命T服从指数分布,使用者关心数据中是否存在多个下侧离群值。若规定检出离群值个数上限为2,据此,可采用7.1中的检验方法。首先,对元=0.0001是否是离群值进行判断,本例中,样本最几=36,(3)计算:
Tae,t =
4. 993 8 X 10-7
:=200.2471,按式
确定检出水平α=0.05,在表A,2中查出临界值T(36,1)=4,0679×10,因为Ts1≤Tc.5(36,1),放判定(1:=0.0001为离群值。
对于检出的离群值c1=U.0001,确定剔除水平=0.01,在表A.2中查出临界值T。1(36,1)=7.9753×10\5。因为Ts6,1To.o1(36,1),故判定(l--0.0001为统计离群值。再对余下的35个数据继续检验,此时样本量变为35,最小观测值为工(2)一0.0021,按式(3)计算:Tu5,1
200.247 0
1. 048 7 X 10-5
仍取检出水平 a=0,05,在表 A,2 中查出临界值 Tn.n(35,1)=4. 370 1× 10-5,因为 Ts5,t因为检出离群值个数已经达到规定的1限2,检验停止。8定数截尾样本离群值的判断规则8.1定数裁尾样本
在产品寿命试验中,经常会采用定数截尾寿命试验:取n个产品同时投人试验至第r(r二n)个产品失效试验止,得到前一个产品的寿命观测值为:( )
针对诸如此类的定数截尾样本,有时需要考察是否存在下侧离群值。B.2离群值的检验规则
判断定数截尾样本中最小的观测值工(1,是否为离群值时,实施步骤如下:a)计算统计置E.的值:
n(r1)()
Eru +(n-r)z -nra)
b)确定检出水平 α,在 F分布的分位数表(见 GB/T 4086.4)中查出 F.(2,2r—2)。品伴网h
GB/T 8056-—2008
c)当E,8.3定数截样本离群值检验示例
在某产品中取18个样品同时投入试验至第6个产品失效试验停止,得到前6个产品的寿命观测值为(单位:h):
0.46480.92701.29121.60303.52670.008 1
经验表明该产品失效时间T服从指数分布,本试验关注数据中是否存在下侧离群值,据此,可采用8.2中的检验方法,
此时样本量—18,r=6,最小观测值为2(1)=0.0081,最大观测值为1(:\—3.5267,7.8208,按式6)计算:
2)+12(6) —18(1)
= 0. 014 6
确定检出水半 a,在 F 分布的分位数表(见 GB/T 4086.4)中查出 F0.0s(2,10)0.051 5。因为EB,5≤F.c5(2,10),故判定 (1)=0,008 1是离群值。对于检出的离群值z{1)=0.0081,确定期除水平α\=:0.01,在F分布的分位数表(见GB/T4086.4)中查出 F.s1(2,10)=0,01u 1。因为 E,sFoc(2,10),故判末发现 (I) =0. 008 1是统计离群值(即 tr0.0081为歧离值)。
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。