标准内容
ICS 03.120. 30
中华人民共和国国家准
GB/T4883—-2008
代替GB/T4883--1985
数据的统计处理和解释
正态样本离群值的判断和处理
Statistical interpretation of data-Detection and treatment of outliers in the normal sample2008-07-16发布
中华人民共和国国家质量监督检验检疫总局数码防伪
中国国家标准化管理委员会
2009-01-01实施
2规范性引用文件
3术语、定义和符号-
3.1术语和定义
3.2符号和缩略语
4离群值判断
1. 1 来源与判断
4.2离群值的三种情形
4.3检出离群值个数的上限
4.4单个离群值悄形
4.5判定多个离群值的检验规则
5离群值处理
5.1处理方式
处理规则
5.3备案
6已知标准差情形离群值的判断规则6.1 一般原
6.2离群值的判断规则
6.2.1上侧情形
下侧情形
双侧情形
6.3使用奈尔(Naitr)检验法的示例目
7未知标准差偕形离群值的判断规(限定检出离群值的个数不超过1时)7.1一般原则
7.2格拉布斯(Grubbs)检验法
7.2.1上侧情形
下侧情形
双測情形
使用格拉布斯(Grubhs)检验法的示例7.3秋克逊(Dixon)检验法
7.3,1单侧情形
7.3.2双侧情形
7.3.3使用狄克逊(Dixon)检验法的示例8未知标难差情形离群值的判断规则(限定检出离群值的个数大于1时)8.1
一般原划
偏度一峰度检验法
GB/T 4883—2008
GB/T 4883—2008
8.2.1使用条件
8.2.2单侧情形-
8.2.3双侧情形-
偏度检验法
峰度检验法
8.2.4重复使用峰度检验法的示例8.3狄克逊(Dixon)检验法
8.3.1狄克逊(Dixon)检验法的规则8.3.2重复使用狄克逊(Dixon)检验法的示例附录A(规范性附录)统计数值表·*附录B(资料性附录)选择离群值断方法和处理规则的指南B.1判定和处理离群值的目的
B.2对各种检验法的选择
B.3重视检出的离群值给出的信息附录C(资料性附录)当n>30时的狄克逊(Dixon)检验参考文献
++.+.+....
GB/T4883—2008
本标雅代替GB/T4883—1985。本标准与GB/T4883—1985相比较,技术内容的变化主要包括:--增加了术语、定义和符号--竞;一将“正态样本异常值的判断和处理”改为“正态样本离群值的判断和处理”;将术语“检出异常值”和高度异常值”分别改为“歧离值”和“统计离群值”,并进一步明确了二者的含义及相互差异,
一增加了检出水平和别除永平的定义:\一检出水平由原标推中“检出水平α一般取为1%,5%或10%”改为“除非根据本标准达成协议的各方另有约定外,α值应为0.05\;明确规定副除水平为\除非根据本标准达成协议的各方另有约定外,α值应为0.01”:—-增加了各种情形“统计离群值”的检验步骤;将“没有异常值”和”没有高度异常的离群值”分别改为“未发现离群值”和“末发现统计离群值”;
增加了奈尔(Nair)统计量、格拉布斯(Grubbs)统计量,秋克逊(Dixon)统计量、偏度统计量、峰度统计量的符号:wwW.bzxz.Net
一作获克逊(Dixon)检验时,将样本量由30扩充到100,此内容作为附录C。本标准的附录A为规范性附录,附录B和附录C为资料性附录。本标准由中国标难化研究院提出。本标准由全国统计方法应用标准化技术委员会归口。本标准起草单位:中国标准化研究院、中国科学院数学与系统科学研究院、宁波工程学院、北京大学、无锡市产品质量监督检验所、北京师范大学。本标准主要起草人:于振凡、丁文兴、陈敏、荆广珠、房祥忠、吴建国、崔恒建、陈玉忠。本标准所代替标准的历次版本的发布情况为:-GB/T4883—1585
GB/T4883—2008
从事科学研究、工农业制造以及管理工作都离不开数据,而对这些数据的整理、分析和解释都离不开统计方法。统计学是研究数字资料的整理、分析和正确解释的一门学科。人们各自从不同的来源取得各种数字资料,这些数字资料通常都是杂乱无章的,必须经过整理和简缩才能利用,使用完善的统计方法就可使据整理、排列的有条有理,用图形或少最的几个重要参数,就可把一大堆数据的特征表达出来,这样既可避免不正确的解释,又可将获得满意数据的成本降到最低限度,提高了经济效益。《数据的统计处理和解释含有多项国家标推,它们是:统计容恐区间的确定(GR/T3359)均值的估计和置信区间(GB/T3360)在成对观测值情形下两个均值的比较(GB/T3361)--二项分布参数的估计与检验(GB/T4088)泊松分布参数的估计与检验(GB/T4089)正态性检验(GB/T1882)
-正态样本离群值的判断和处理(GB/T4883)正态分布均值和方差的估计与检验(GB/T4889)正态分布均值和方差检验的功效(GB/T4890)I型极值分布样本离群值的判断和处理(GB/T6380)玛分布(皮尔逊皿型分布)的参数估计(GB/T8055)指数分布样本离群值的判断和处理(GB/T8056)对于《数据的统计处理和解释正态样本离群值的判断和处理尚无相应的国际标准,但在一些关于测量的国际标准和技术文件中(例如ISO5725测量方法与结果的推确度》、ISO导则98用蒙特卡罗方法评定不确定度\都采用了本标中规定的一些正态样本离群值的判断和处理的方法。I
1范围
数据的统计处理和解释
正态样本离群值的判断和处理
本标璀适眉于来自正态分布的样本中离群值的判断和处理。2规范性引用文件
GB/T 4883—2008
下列刻文存中的条款通过本标准的引用而成为本标推的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标推。GB/T4882—2001数据的统计处理和解释正态性检验GB/T19000-2000质量管理体系基础和术语ISO3534-1:2006统计学词汇及符号第1部分:-般统计术语与用于概率的术语IS03534-22006统计学词汇及符号第2部分:应用统计
3术语、定义和符号
ISO3534-1:2006.ISO3534-2:2006和GB/T19000—2000确定的术语和定义以及下列术语、定义和符号适用于本标准。为便于参考·某些术语直接引自上述标推。3. 1术语和定义
离群值outlier
样本中的-一个或几个观测值,它们离开其他观测值较远,暗示它们可能来自不同的总体。注:离群值按显著性的程度分为歧离值和统计离群值。3. 1. 2
统计离群值statistical outlier在剥除水平下统计检验为显著的离群值,3. 1. 3
歧离值straggler
在检出水平(3.1.4)下显著,但在剔除水平(3.1.5)下不显著的离群值。3. 1. 4
检出水平detection leyel
为检出离群值而指定的统计检验的显著性水平。注:除非板据本标准达成协议的各方另有约定,值应为0.053.1.5
影除水平deletionlevel
为检出离群值是否高度离群而指定的统计检验的显著性水平。注:剔除水平。的值应不超过检出水平α的值。除非根据本标准达成协议的各方另有约定,值应为0.01。3.2符号和缩略语
样本量(观测值个数)
元样本均值
检验离群值所使用的显署性水平,简称检出水平1
GB/T 4883--2008
检验统计离群值所使用的显著性水平,简称别除水平(a,α)观测值自小到大排序后的第1个值工
总体标准差
样本标准差
R,奈尔(Nair)上统计量
R奈尔(Nair)下统计量
格拉布斯(Grubbs)上统计量
格拉布斯(Grubbs)下统计量
狄克逊(Dixon)上统计量
狄克避逊(Dixon)下统计量
偏虚统计量
峰度统计量
4离群值判断
4.1来源与判断
离群值按产生原因分为两类:
a第类离群值是总体固有变异性的极端表现,这奖离群值与祥本中其余观翘值属于面一总体:b)第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果,或产生于观测、记录、计算中的失误,这类离群值与样本中其余观测值不唇于同一-总体。对离群值的判定通常可根据技术上或物理上的理由直接进行,例如当试验者已经知道试验偏离了规定的试验方法,或测试仪器发生间题等。当上述理由不明确时,可用本标推规定的方法。4.2离群值的三种情形
本标准在下述不同形下判断样本中的离群值:a)上侧情形:根据实际情说或以往经验,离群值都为高端值;b)下侧情形:根据实际情况或以往经验,离群值都为低端值;c)双侧情形:根据实际情况或以往经验,离群值可为高端值,也可为低端值。注:1)上谢惜形和下阅情形统称单侧情形;2)若无法认定单侧情形,按双衡情形处理。4.3检出离群值个数的上限
应规定在样本中检出离群值个数的上限(与样本最相比应较小),当检出离群值个数超过了这个上限时,对此样本应作慎重的研究和处理。4.4单个离群值情形
a)依实际情况或以往经验选定,选定适宜的离群值检验规则(见第6章、第7章、第8);确定透当的显著性求平!
c)根据显著性永平及样本置,确定检验的临界值,t)由观测值计算相应统计最的值,根据所得值与临界值的比较结果作出判断。4.5判定多个离群值的检验规则
在允许检出离群值的个数大于1的情况下,重复使用4.4规定的检验规则进行检验。若没有检出离群值,则整个检验停止荐检出离群值,当检出的离群值总数超过上限(4.3)时,检验停止,对此样本成慎重处理,否如,采用相同的检出求平和相同的规则,对除去已检出的离群值后余下的观测值继续检验。5离群值处理
5.1处理方式
处理离群值的方式有:
a)保留离群值并用子后续数据处理:2
b)在找到实际原因时修正离群值,否则予以保留:c)除离群值,不追加观测值;
d)剔除离群值,并追加新的观测值或用适宜的插补值代替。5.2处理规则
GB/T4883—2008
对检出的离群值,应尽可能寻找其技术上和物理上的原因,作为处理离群值的依据。应根据实际问题的性质,权衡寻找和判定产生离群值的原因所需代价、正确判定离群值的得益及错误别除正常观测值的风险,以确定实施下述三个规则之一!a)若在技术上或物理上找到了产生离群值的原因,则应剔除或修正;若未找到产生它的物理上和技术上的原因,则不得剔除或进行修正。b)若在技术上或物理上找到产生离群值的原因,则应慰除或修正:否,保留歧离值,剔除或修正统计离群值;在重复使用同一检验规则检验多个离群值的悄形,每次检出离群值后,都要再检验它是否为统计离群值。若某次检出的离群值为统计离群值,则此离群值及在它前面检出的离群值(贪岐离值)都应被剔除或修正。c)检出的离群值(含歧离值)都应被别除或进行修正。5.3备案
被剔除或修正的观测值及其理由应予记录,以备查询。6已知标准差情形离群值的判断规则6.1 一般原则
当已知标准差时,使用奈尔(Nair)检验法,奈尔检验法的样本量3≤n≤100。6.2离群值的判断规则
6. 2. 1上侧情形
a)计算出统计量R.的值:
R,=(( )/
其中是已知的总体标准差,是样本均值,(十十,)/nb)确定检出水平α,在表 A. 1 中查出临界值Ri-.(n)当R,>Ri-(n)时,判定(m为离群值,否则判末发现 (n是离群值;c)
对于检出的离群值工).确定除水平a,在表A1中查出临界值Rt-。(n)。当R.>Ri-(n)时,判定为统计离群值,否则判未发现工是统计离群值(即(为歧离值)。6.2.2下削情形
a)计算出统计量R,的值:
R,-(t-)/o
其中。是已知的总体标准差,无是样本均值;b) 确定检出水平 α,在表 A. 1 中查出临界值 Ri-.(n);当R>R1-(n)时,判定(1)为离群值,否则判未发现(1)是离群值:c
对于检出的离群值c),确定别除水平α,在表AI中查出临界值Ri-(n)。当R.>R-(n)d)
时,判定为统计离群值,否则判未发现>是统计离群值(即)为歧离值)。6.2.3双侧情形
a)计算出统计量R,与R,的值;
b)确定检出水平α,在表A.1中查出临界值R1-a2(n)当 R,>R,且 R,>R1-2(n)时,判最大值m为离群值;当R,>R,且 R,>R-(n)时,判c
定最小值工(1)为离群值;否则判未发现离群值;当R,=R时,同时对最大值和最小值进行检验;
CB/T 4883—2008
对于检出的离群值)或,确定剔除水平,在表A.1中查出临界值R-/2(n),当R,>d)
R,-(n)时,判定,为统计离群值,否则判未发现m是统计离群值(即为歧离值);当RRi-。12(n)时,判定cm为统计离群值,否则判未发现)是统计离群值(即n)为歧离值)。
6.3使用奈尔(Nair)检验法的示例对某种化纤的纤维干收缩率测试25个样品,其数据经排列后为(单位%):3.13
5.425.575.59
5.32 5.39
经验表明这种化纤的纤维干收缩率服从正态分布,已知二0.65,检查这些数据中是否存在下侧离群值。
规定至多检出三个离群值,采用5.2中b)的处理方式。1)确定检出水平α=0.05,对25个样品,经计算得5.2856,R25=(—21>)/g=(5.2856—3.13)/0.65=3.316。在表A.1中查出临界值Ra.ss(25)=2.815,因R>Re.05(25),故判定(1>=3.13是离群值
对于检出的离群值xc1=3.13,确定剔除水平=0.01,在表A.1中查出临界值R.g(25)=3.284,因R>R9%(25),故判定()=3.13是统计离群值。2)取出观测值为3.13的数据后,在余下的24个观测值中计算均值示一5.375,这时最小值为T(2 = 3. 49,计算得 R 24 =(5. 375 —3. 49)/0. 65 = 2. 90。 在表 A, 1 中查出临界值 R. (24) =2. 8,因R24>Rg.9s24),故判定(2)=3.19是离群值。对于检出的离群值z(2)=3,49,确定别除水平。*=0.01,在表A.1中查出临界值Ra.9g(24)-3.269,因R2=3.13和(2)=3.49是离群值,其中2()=3.13是统计离群值,元<2>=3.49是歧离值。应参照5.2中规定的规则考虑是否剔除。7未知标准差情形离群值的判断规则(限定检出离群值的个数不超过1时)7.1一般原则
在未知标准差的情形下可使用格拉布斯(Grubbs)检验法和狄克逊(Dixon)检验法。可根据实际要求选定其中一种检验法(见附录B)。7.2格拉布斯(Grubbs)检验法
7.2.1上侧情形
a)计算出统计盘G,的值:
G, = (x(n) -z)/s
[后(-2)
其中元和s是样本均值和样本标准差;确定检出水平a,在表A.2中查出临界值G-(n);b
c)当G,>G-(n)时,判定为离群值,否则判未发现)离群值(1)
d)对于检出的离群值rca),确定别除水平α\,在表A2中查出临界值G-·()。当G≥G-(n)时,判定m)为统计离群值,否则判未发现无<是统计离群值(即(n为歧离值)。7.2.2下侧情形
a)计算出统计量G.的值:
G.= (—)/s
其中元和3是样本均值和样本标准差,确定检出水平 α,在表 A. 2 中查出临界值 Gi-.(n);b)
当G>G1-(n)时,判定>为离群值,否则判未发现工)是离群值;GB/T 4883—2008
对于检出的离群值u,确定剔除水平,在表 A 2中查出临界值 G-(n)。当 G,>G-α(n)d)
时,判定)为统计离群值,否则判未发现工(1)是统计离群值(即工)为歧离值)。7.2. 3
双侧情形
a)计算出统计量G,和G,的值。
确定检出水平 a,在表 A.2 中查出临界值Gt-2(n)。c)
当 G,≥>G,且 G,≥GI-/2(n),判定 ta为离群值;当 G,≥G,且 G,≥G-/z(n),判定 (I为离群值;否则判未发现离群值。当G,一G,时,应重新考患限定检出离群值的个数。对于检出的离群值 za,或 (m确定剔除水平α,在表 A,2中查出临界值 G-。2(n),当G,d)
Gi-(n)时,判定(1)为统计离群值,否则判未发现<1是统计离群值(即(1)为歧离值);当G,>G-n(n)时,判定为统计离群值,否则判未发现(是统计离群值(即为歧离值)。
7.2.4使用格拉布斯(Grubbs)检验法的示例对某种砖的抗压强度测试10个样品,其数据经排列后为(单位MPa):4.7,5, 4,6. 0,6. 5,7. 3,7. 7,8. 2,9.0,10. 1,14. 0经验表明这种砖的抗压强度服从正态分布,检查这些数据中是否存在上侧离群值,本例中,样本量 π=10,正=7.89,s 7.312,5=2.704。计算得:G =(x10) —元)/s =(14—7. 89)/2. 704=2. 260确定检出水平α=0.05,在表A.2中查出临界值G(10)=2.176,因G≥Ga.s(10),判定(10)=14.0为离群值:
对于检出的离群值 工(1i =14. 0,确定剔除水平 a* = 0. 01,在表 A, 2 中查出临界值 Gs. (10) =2.410,因Gi当使用狄克逊检验法时,若样本量3≤n≤30,其临界值见表A.3若样本量307.3.1单侧情形
a)计算出下述统计量的值:
样本岳
:3~7
n:8~10
充:11~13
n:14~30
检验高端商群慎
() —(-
x( —rn
D, =ri= -4u-
Fn—E
D, = T21 -
r() —2(a-?)
Ztn—a
D, = r2 - (0 -a-2)
b)确定检出水平a,在表A.3中查出临界值D1-(n)。检验低端离群值
D, -r。 a)n
T(a — )
Fn-th —E[1>
2() 2)
D,-ra-
(—(1)
T(--) —(1)
c)检验高端值,当 D,>D,-(n)时,判定(m为离群值;检验低端值,当 D,≥D1-(n)时,判定1)为离群值:否则判术发现离群值。5
GB/T 4883--2008
d)对于检出的离群值r1)或(m),确定剔除水平,在表 A,3中查出临界值 Di。(n)。检验高端值,当D,>DI-(n)时,判定工(m为统计离群值,否则判未发现工是统计离群值即工(为歧离值):检验低端值,当D,>Di-a(n)时,判定3u为统计离群值,否则判未发现(1)是统计离群值(即m为歧离值)。
7.3.2双侧情形
a)计算出统计量 D,与D的值,这里 D,与 D,由 7. 3. 1 的a)给出;b)确定检出水平α.在表 A. 3 中查出临界值D,-.(n);当 D,>D%,D,>D,-4(n)时,判定 为离群值;当 D,>D,,D′>DI-。(n)时,判定 2(I 为离群c)
值;否则判未发现离群值
d)对于检出的离群值 <1>或tn),确定剔除水平 α*,在表 A. 3'中查出临界值 Di-·(n)。当 D,>D,且 D,>D,-* (n)时,判定 ()为统计离群值,否则判未发现 7.3.3使用狄克逊(Dixon)检验法的示例射击16 发子弹,射程数据经排列后为(单位:m):1125
经验表明子弹射程服从正态分布,根据实际中的关注不同,分别对低端值和高端值进行检验。)检验低端值(1)1125是否为离群值本例中,样本量π=16,计算
(8)—(11250——1125—125
Da=ra-多
(4)—z(1)1324-1125189
确定检出水平2=0.05,在表A.3中查出临界值Ds.(16)=0.505,因D1.>Da.95(16),故判定最小值(1)~1125为离群值。
对于检出的离群值 z 1 125,确定别除水平 α=0. 01,在表 A. 3 中查出临界值 D.9y(16)=0.597,因D>Da.99s(16),故判定最小值工计算 D =0. 661 4 和
De =Tz - T00 =x00 =1 350-1 324= 26=0.26
(1-(3)1350-1250-100
确定检出水平α=0. 05,在表 A. 3'查出临界值 Da.(16)=0. 547。因 D>D且 D>Dg.(16),故判定最小值(1)一1125为离值。对于检出的离群值 (1)=1 125,确定别除水平 α=0. 01,在表 A. 3'查出临界值 D.(16)=0. 627。因D%>D1e月D%≥D.9g(16),故判定最小值>=1125为统计离群值。8未知标准差情形离群值的判断规则(限定检出离群值的个数大于1时)8,1一般原则
当限定检出离群值的个数大于1时,可使用偏度一峰度检验法或狄克逊(Dixon)检验法的重复使用方法,可根据实际要求选定其中一种检验法(见附录B),8.2偏度一峰度检验法
8.2.1使用条件
考查样本诸观谢值,确认它们的样本主体来自正态总体,而极端值应较明显的偏离样本主体。6
8.2.2单侧情形—偏度检验法
a)计算偏度统计量b,的值
( —)
[(: ) 32
确定检出水平a,在表A.1中查出临界值b1-.(n)。b)
I +2n()
GB/T 4883—2008
对上侧情形,当b,>bi-(n)时,判定最大值 为离群值;否则判未发现<)是离群值;对下侧情形,当一b,>b-.(n)时,判定最小值工(为离群值;否则判未发现(是离群值,d)对于检出的离群值)或确定剔除水,在表A.4中查出临界值b1..(n)。对上侧情形,当>1-(n)时,判定(为统计离群值,否则判未发现是统计离群值(即无(为歧离值),对下侧情形,当一b,≥61-。(n)时,判定工,为统计离群值,否则判未发现1,是统计离群值(即工为歧离值)。
8.2.3双侧情形—
一峰度检验法
a)计算峰度统计盘b,的值
— 3元
b)确定检出水平 a,在表 A. 5 中查出临界值6,-,(n)。c)当b≥6i-(n)时,判定离均值元最远的观测值为离群值:否则判未发现离群值。 6)
d)对于检出的离群值,确定剔除水乎α,在表A.5中查出临界值-·(n)。当b>1-(n)时,判定窗均值主最远的观值为统计离群值,否则判未发现该离群值是统计离群值(即该离群值为歧离值)。
8.2.4重复使用峰度检验法的示例本例为离群值问题早期研究中的著名实例(1883年。观测金星垂直半径的15个观测数据的离差经排列后为(单位:s):
由问题的背景需要判断 <>一一1. 40 和 (15>=1. 01 是否离群。根据GB/T4882—2001,使用正态概率纸进行正态性检验。0. 13
将上述数据点在正态概率纸上(见图1),此时,样本的谐点近似在一条直线近旁两侧,当画出适宜的直线后,样本的低端向上而高端向下偏离,故可用偏度一峰度检验法。计算得:
-1. 417 671
元=0.27/15-0.018,54,386
5.170 248.05
确定检出水平=0.05,在表A.5中查出临界值6%s(15)±4.13,因b=4.3860%.折(15)=4.13,判定距离均值0.018最远的)=—1.40为离群值。对于检出的离群值一—1.40,确定剔除水平α\=0.01,在表A.5中查出临界值bg(15)=5.30因64.3860≤6%.g(15)=5.30,故判未发现该离群值1)=—1.40是统计离群值(即)=一1.40为歧离值)。
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。