GB 4883-1985
标准分类号
标准ICS号:数学、自然科学>>07.020数学
中标分类号:综合>>基础学科>>A41数学
出版信息
出版社:中国标准出版社
页数:15页
标准价格:13.0 元
出版日期:1985-10-01
相关单位信息
首发日期:1985-01-29
复审日期:2004-10-14
起草人:吴传义
起草单位:全国统计方法应用标技委
归口单位:全国统计方法应用标准化技术委员会
提出单位:全国统计方法应用标准化技术委员会
发布部门:国家标准局
主管部门:国家标准化管理委员会
标准简介
本标准规定了判断和处理在正态样本中出现的异常值的一般原则和实施方法。 GB 4883-1985 数据的统计处理和解释 正态样本异常值的判断和处理 GB4883-1985 标准下载解压密码:www.bzxz.net
本标准规定了判断和处理在正态样本中出现的异常值的一般原则和实施方法。
标准内容
中华人民共和国国家标准
数据的统计处理和解释
正态样本异常值的判断和处理
S tatistical interpretation of data--Detection and handlingof outlying observations in normal sample1引
UDC519.28
GB 4883-85
1.1本标准规定了判断和处理在正态样本中出现的异常值的一般原则和实施方法。1.2异常值(或异常观测值)是指样本中的个别值,其数值明显偏离它(或它们)所属样本的其余观测值。
异常值可能是总体固有的随机变异性的极端表现。这种异常值和样本中其余观测值属于同总体。异常值也可能是由于试验条件和试验方法的偶然偏离所产生的后果,或产生于观测、计算,记录中的失误。这种异常值和样本中其余观测值不属于同一总体。1.3本标准使用的其它统计学名词,见国家标准GB3358一82《统计学名词及符号》。1.4应用条件:所考查样本中诸观测值(或经过-定的函数变换后得到的值),除了个别异常值外,其余大部分值(样本主体)来自同一-正态总体或近似正态总体。关于样本来自正态总体或近似正态总体的判断,可以根据物理上的、技术上的知识;也可通过与考查对象有同样性质的以往数据,进行正态性检验,其原理和方法见国家标准GB4882-85《数据的统计处理和解释一正态性检验》。2判断异常值的统计学原则
2.1本标准在下述不同情形下判断样本中的异常值:上侧情形:根据以往经验,异常值都为高端值,下侧情形:根据以往经验,异常值都为低端值;双侧情形:异常值是在两端都可能出现的极端值。注:I:侧情形和下侧情形统称单侧情形。2.2执行本标准时,应规定在样本中检出异常值的个数的上限(占样本观测值个数的较小比例),当超过了这个上限,对此样本的代表性,应作慎重的研究和处理。2.3判断单个异常值的检验规则
根据实际情况,选定适宜的异常值检验规则(见4、5、6章),指定为检出异常值的统计检验的显著性水平α,简称检出水平,根据α和观测值个数n确定统计量的临界值;将各观测值代人检验规则中给出的统计量,所得值若超过临界值,则判断事先确定待查的极端观测值为异常值,否则就判断“没有异常值”。检出水半α的宜取值是5%,1%(或10%)。2.4判断多个异常值的检验规则
在充许检出异常值个数可大下1的情形,本标准规定的方法是重复使用同一种判断单个异常值的检验规则,即用指定的检出水平和符合2.3规定的规则首先检验全体观测值,著不能检出异常值,则整个检验停止:若检出厂一个异常值,就再用相同的检出水平和相同的规则,对除去已检出的异常值后余下的观测值继续检验直到不能检出异常值,或检出的异常值个数超过上限为止。国家标准局1985-01-29发布
1985-10-01实施
3处理异常值的-一般规则
GB4883-85
3.1对检出的异常值,应尽可能寻找产生异常值的技术上的、物理上的原因,作为处理异常值的依据。
处理异常值的方式有:
异常值保留在样本中参加其后的数据分析,允许剔除异常值,即把异常值从样本中排除,允许剔除异常值,并追加适宜的观测值计人样本,在找到实际原因时修正异常值。3.3标准使用者应根据实际问题的性质,权衡寻我产生异常值原因的花费,正确判断异常值的得益及错误剔除正常观测值的风险,确定实施下述三个规则中的一个。a。对任何异常值,若无充分的技术上的、物理上的说明其异常的理由,则不得剔除或进行修正。b.异常值中除有充分的技术上的、物理上的说明其异常的理由者外,表现统计上高度异常的,也允许剔除或进行修正,其意义是:指定为判断异常值是否高度异常的统计检验的显著性水平α*,简称剔除水平,其值小于检出水半a
实施时,按2.3规定进行检验后,立即对检出的异常值,再按2.3规定以剔除水平α*代替检出水平α进行检验,若在剔除水平下此捡验是显著的,则判此异常值表现高度异常。在重复使用同一一检验规则的情况下,每次检出了异常值后都要再检验它在剔除水平下是否高度异常。若某次检验中检出的异常值为高度异常,则这个异常值及在它前面检出的异常值都可被剔除或进行修正。
除特殊情况外,剔除水平一般采用1%或更小,而不宜采用大于5%的值。在选用剔除水平的情况下,检出水平可取5%或再大些。c.检出的异常值都可被剔除或进行修正。3.4被检出的异常值,被剔除或修正的观测值及其理由,应予记录以备查询。4已知标准差情形下判断和处理异常值的规则4.1本章规定使用奈尔(Nair)检验法或奈尔检验法的重复使用。4.1.1上侧情形的检验法
a.对于按大小排列的观测值1)<α2)·(),计算统计量Rn=((m)-)/
这里α是已知的总体标准差,是样本均值。b.确定检出水平α,在表A1查出对应n、α的临界值R1-α(n)。c,当Rn>Rl-α(n),判断最大值α(n)为异常值,否则,判断“没有异常值”。d.在给出剔除水平α*的情况下,在表A1 查出对应n,α*的临界值R1-α*(n)。当Rn>R1~α*(n),判断α(n)为高度异常,否则,判断“没有高度异常的异常值”。4.1.2下侧情形的检验法
与4.2.1规则相同,但要使用统计量Rn=(-u))/g
代替Rn,要判断的是最小值α(1)。4.1.3双侧情形的检验法
a.计算Rn与Ra的值;
b.确定检出水平α,在表A1查出对应n,α/2的临界值R-a/2(n)162
GB 4883--85
c.当Rn>R,且Rn>R1-a/2(n),判断最大值α(n)为异常值,当R>Rn,且R>Rl~α/2(n),判断最小值1)为异常值,否则,判断“没有异常值”。d.在给出剔除水平α*的情况下,在表A1查出对应n,α*/2的临界值R1-α*/2(n)。当Rn>R,且R>R-α*/2(n),判断最大值(n)为高度异常:当R>RnHR>R-a/2(n),判断最小值(1)为高度异常;否则,判断“没有高度异常的异常值”。4.2使用奈尔检验法的示例:
考查某种化纤纤维干收缩率,得25个独立观测值:3.13,3.49,4.01,4.48,4.61,4.76,4.98,5.25,5.32,5.39,5.42,5.57,5.59,5.59,5.63,5.63,5.65,5.66,5.67,5.69,5.71,6.00,6.03,6.12,6.76,(单位%)。已知在正常条件下,测试量服从正态分布,=0.65,现考查下侧的异常值。规定至多检出三个异常值,采用3.3中b的处理方式。取检出水平α=5%,剔除水平α*=1%。对n=25,得=5.2856,R25=(-x1))/α=(5.2856-3.13)/0.65=3.316。而Ro.95(25)==2.815,Ro.99(25)=3.282,Rm>Ra.99(25),故判断3.13是高度异常的异常值。取出3.13后在余下的24个观测值中计算均值交=5.375,这时最小值为3.49,R24=(5.375-3.49)/0.65=2.90。对n=24,Ro.95(24)=2.800,Ro.99(24)=3.269,因R24>Ro.95(24),判断3.49是异常值。取出3.13、3.49后,余下23个观测值的样本均值为5.457,这时最小值为4.01,R23=(5.4574.01)/0.65=2.227。对n=23,Ro.95(23)=2.784,因R23R0.95(23),故判断“没有异常值\。检出3.13和3.49是异常值,其中3.13高度异常,可考虑剔除。5未知标准差情形下判断和处理异常值的规则(I)一检出异常值的个数不超过1
5.1本章给出格拉布斯(Grubbs)检验法和狄克逊(Dixon)检验法,标准使用者可根据实际要求选定实施其中-一种检验法(参考附录B)。5.2格拉布斯检验法
5.2.1上侧情形的检验法
a.对于观测值αi,·an,计算统计量G=(n)-)/s
的值,这里α(n)是最大观测值,和s是样本均值和样本标准差,即=(α:++an)/n,s=
-(-n\
确定检出水平α,在表A2查出对应n,α的临界值G1-α(n),b.
c.当Gn>G1-α(n),判最大值(n)为异常值,否则,判断“没有异常值”;d在给出剔除水乎α*的情况下,在表A2查出对应n,α*的临界值Gl-α*(n),当Gn>G-α*(n),判(n)高度异常,否则,判断“没有高度异常的异常值”。5.2.2下侧情形的检验法
与5.2.1规则相同,但要使用统计量G=(-()/s
代替G,要判断的是最小观测值(1)。5.2.3双侧情形的检验法
a:计算G.和G的值;
b确定检出水平α,在表A2查出对应n,α/2的临界值G1α/2(n),当Gn>G%,且Gn>Gi-α/2(n),判断(m)为异常值,当Gn>Gn,且G>G1-u/2(n),判c.
断(!)为异常值,否则,判断“没有异常值”,d。在给出剔除水α*的情况下,在表A2查出对应n,α*/2的临界值G1-α*/2(n)。163
GB 4883—85
当Gn>Gn,且G>G1-α*/2(n),判断α(n)为高度异常,当G≥Gn,且G>G1-α*/2(n),判断)为高度异常;否则,判断“没有高度异常的异常值”。5.2.4使用格拉布斯检验法的示例检验某种砖的-·个交付批的10个样品的抗压强度数据(自小而大排列)4.7,5.4,6.0,6.5,7.3,7.7,8.2,9.0,10.1,14.0 (单位:MPa)。检验最大值是否异常值,取检出水平α=5%。计算±=(4.7+5.4+6.0+6.5+7.3+7.7+8.2+9.0+10.1+14.0)/10=7.89s2 = [(4.7 - 8)2 + (5.4 - 8)2 +(6.0 -8)2+(6.5 - 8)2+(7.3 - 8)2+ (7.7 - 8 )2+ (8.2 - 8 )2+ (9.0 - 8)2 + (10.1 -- 8 )2 + (14.0- 8)2- 10(8 7.89)21/9 = 7.312s = 2.704
(计算s时把各观测值减8是为了简化计算)。G 10 = (&(10)- )/ s = (14 - 7.89) /2. 704 =2.260对n=10,G0.95(10)=2.176,因G1o>Go.95(10),判断x(10)=14为异常值。5.3狄克逊检验法
5.3.1单侧情形的检验法
a。对于按大小排列的观测值z(1)<α(2)<α(n,计算统计量样本大小
n3~7
n:8~10
n:11 ~13
n:14-30
检验高端异常值
r(n)- F(n-1)
X(n y x()
E(m-I(n 1)
xm (2)
x(n)- F(n-2)
r(n)- (2)
x(n) r(n-2)
(n)- (3)
b.确定检出水平α,在表A3查出对应n,α的临界值Di-α(n):检验低端异常值
DY=rio=
D=r22=
x(2- a)
(n) 1)
r(2)- (1)
r(n-1)- xa)
x(-1)- r()
α(n 2 r(1)www.bzxz.net
c.检验高端值时,当D>D1-a(n),判断α(m)为异常值;检验低端值时,当D'>D1-α(n),判断α1)为异常值;否则,判断“没有异常值”;d.在给出剔除水平α*的情况下,在表A3查出对应n,α*的临界值D,-α*(n)。检验高端值时,当DD-α*(n),判断(n)为高度异常,检验低端值时,当D'>Da*(n),判断1>为高度异常,否则,判断“没有高度异常的异常值”。5.3.2双侧情形的检验法
a.计算D与D的值,这里D与D由5.3.1的a给出;b.确定检出水平α,在表A3’查出对应n,α的临界值D-α(n),c。当D>D',D>D,-α(n),判断(m)为异常值,当D'>D,D'>Dl-α(n),判断α1)异常值,否则,判断“没有异常值”。d.在给出剔除水平α*的情况下,在表A3'查出对应n,a*的临界值Di-α*(n)。164
GB 4883—85
1-α*(n),判断α(n)为高度异常;当D'>D,D'>t-α*(n),判断α(1)为高度4D>D,D>D
异常,否则,判断“没有高度异常的异常值”。5.3.3使用狄克逊检验法的示例
射击16发子弹,射程(自小而大排列)分别为1125,1248,1250,1259,1273,1279,1285,1285,1293,1300,1305,1312,1315,1324,1325,1350(单位:m)。a.检验低端值是否异常值。指定α=1%对n=16,使用
D'=r'22
x(3) - x()
1250-1125
2(14)- 2(1)
1324-1125
因D0.99(16)=0.595,D>Do.99(16),故判断最小值1125为异常值;b.双侧情形
对m=16,计算D'=0.6614和
D= r22 =
查表A3得Do.99(16)=0.627。
(16)- (14) -
1350-1324
(16) x(3)
1350-1250
因r2>r22,r22>Do.99(16),故判断最小值1125为异常值。6未知标准差情形下判断和处理异常值的规则(Ⅱ)一检出异常值的个数上限大于1。26
6.1本章给出偏度一峰度检验法和狄克逊检验法的重复使用方法,标准使用者可根据实际要求选定实施其中一种检验法(参考附录B)。6.2偏度一峰度检验法
6.2.1使用条件:考查样本诸观测值,确认它们的样本主体来自正态总体,而极端值应较明显的偏离样本主体。
6.2.2单侧情形
偏度检验法
a.对于观测值,a2,
S,计算偏度统计量
x; +2n(±)3
[ a/-n3 27 3/2
b,确定检出水平aα,在表A4查出对应n,α的临界值bi~α(n),c.对上侧情形,当bs>b-α(n),判断最大值n)为异常值,否则,判断“没有异常值”。对卜侧情形,当-bs>b -α(n),判断最小值(1)为异常值;否则,判断“没有异常值”。d.在给出剔除水平α*的情况下,在表A4 查出对应n,α*的临界值b1-α*(n);对上侧情形,当bs>bi-a*(n),判断α(n)为高度异常,对下侧情形,当-bs>b'l-α*(n),判断(1)为高度异常;否则,判断“没有高度异常的异常值”。6.2.3双侧情形—--峰度检验法
a。对于观测值t,2,…。计算峰度统计量b
n(zi-)
≥r-4x
GB4883-85
确定检出水平α,在表5查出对应n,α的临界值6-α(n)b.
当b>bl-α(n),判断离均值最远的观测值为异常值,当bkd.在给出剔除水平α*的情况下,在表 A5查出对应n,α*的临界值bl-α*(n),当b>6-α*(n),判断离均值至最远的观测值为高度异常,否则,判断“没有高度异常的异常值”。
6.2.4重复使用峰度检验法的示例。异常值问题早期研究中的著名实例(1883年),对观测金星垂直半径的15个观测数据的残差:(单位:秒)。
-1.40.-0.44,-0.30,-0.24,-0.22,-0.13,0.05,0.06,0.10,0.18,0.20,0.39,0.48,0.63,1.01。
要判断-1.40和1.01是否异常。
首先考查使用条件,用正态概率纸(用法见国家标准GB4882-85《正态性检验》)99.99
正态概率纸
点在正态概率纸上的诸点,样本主体在图上近似在一条直线近旁,当面出适宜的直线后,样本端或两端的个别点明显向外偏离,故可用偏度一峰度检验法。计算得
至=0.27/15=0.018
-1.417671
GB 488385
5.17024805
bk=15 [5.17024805+4×0.018×1.417671+6×(0.018)2×4.2545-45(0.018)13 / [4.2545-15(0.018)*] 2=79.20879579/18.05944013 = 4.3860取α=5%,对应临界值为4.13,因bk=4.3860>4.13,判断距离均值0.018最远的一1.40为异常值。去除了-1.40之后,对余下14个值14
至=1.67/14=0.1193,再计算
-1.417671
5.17024805
+2.744000-3.84160000
1.32864805
bk=141.32864805-4×0.1193×1.326329+6×(0.1193)2×2.2945-3×14(0.1193)\ /[2.2945 -14× (0.1193)2 2
=12.36462926/4.39025216 =2.8164对α=5%,n=14。对应临界值约为4.11,而bk<4.11,故不能再检出异常值。只检出一1.40为异常值。
6.3狄兑逊检验法
6.3.1秋克逊检验法的规则见5.3。6.3.2重复使用狄克逊检验法的示例。数据同于6.2.4对n=15,计算
(15) — 2(13)
α(15) - α(3)
(a)- α(1)
x(13)-(1)
1.01-0.48
1.01+0.30
~0.30+1.40
0.48+1.40
取α=5%,对双侧问题,查出临界值Do.95(15)=0.565,由于r22>r22,且r22>Do.95(15),故判断最小值-1.40为异常值。除去这个观测值以外的14个值(n=14),使用r22=
a(14)~ α(12)
(14)— α(3 )
(3 ) 2(1 )
(12)- α(1)
1.01-0.48
1.01+0.24
0.24 +0.44
0.48 +0.44
对α=5%,临界值为Do.95(14)=0.586,故不能继续检出异常值,只检出-1.40为异常值。167
GB 4883-85
附录A
统计数值表
(参考件)
奈尔检验法的临界值表
GB4883--85
续表AI
格拉布斯检验法的临界值表
GB 4883
续表A2
(n)- r(1)
X(n)- x(n-t)
r(n)- r(2)
r 21 =
r(n)-x(n-2)
a(n)-(2)
2(n)- a(n-2)
r 22 =
(n)(3)
统计量
「和中较大者
rn和ri中较大者
r2和r2中较大者
和r2中较大者
GB488385
狄克逊检验法的临界值表
(2)- 1)
或r10
-或r=
或r21=
或r22—
a()- (t)
xen)-xa)
αtn-1) (1)
(3)- (1)
r(n-)- r(1)
(3)- r(1)
(n-2)- x(1)
双侧狄克逊检验祛的临界值表
统计凰
r22和r2中较大者
GB4883--85
偏度检验祛的临界值表
5峰度检验法的临界值表
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。