首页 > 国家标准(GB) > GB/T 6380-2008 数据的统计处理和解释 Ⅰ型极值分布样本离群值的判断和处理
GB/T 6380-2008

基本信息

标准号: GB/T 6380-2008

中文名称:数据的统计处理和解释 Ⅰ型极值分布样本离群值的判断和处理

标准类别:国家标准(GB)

英文名称:Statistical interpretation of data - Detection and treatment of outliers in the sample from typeⅠextreme value distribution

标准状态:已作废

发布日期:2008-07-28

实施日期:2009-01-01

作废日期:2020-07-01

出版语种:简体中文

下载格式:.rar.pdf

下载大小:362829

标准分类号

标准ICS号:社会学、 服务、公司(企业)的组织和管理、行政、运输>>质量>>03.120.30统计方法的应用

中标分类号:综合>>基础学科>>A41数学

关联标准

替代情况:替代GB 6380-1986

出版信息

出版社:中国标准出版社

页数:16页

标准价格:16.0 元

计划单号:20061234-T-469

出版日期:2009-01-01

相关单位信息

首发日期:1986-05-13

起草人:荆广珠、丁文兴、于振凡、蔡军伟、孙山泽、马逢时、黄艳等

起草单位:中国标准化研究院、北京大学等

归口单位:全国统计方法应用标准化技术委员会

提出单位:全国统计方法应用标准化技术委员会

发布部门:国家标准化管理委员会

主管部门:国家标准化管理委员会

标准简介

本标准规定了判断和处理Ⅰ型极值分布的样本中上侧离群值和Ⅰ型极小值分布的样本中下侧离群值的一般原则和实施方法。本标准适用于来自Ⅰ型极值分布或Ⅰ型极小值分布总体的样本。本标准适用于样本量为5至50的情形。 本标准代替GB/T6380—1986《数据的统计处理和解释 Ⅰ 型极值分布样本异常值的判断和处理》。本标准与GB/T6380—1986相比较,技术内容的变化主要包括:———按GB/T1.1—2000《标准化工作导则 第1部分:标准的结构和编写规则》的要求对标准格式进行了修改;———增加了术语、定义和符号;———将标准名称中“Ⅰ型极值分布样本异常值的判断和处理”改为“Ⅰ型极值分布样本离群值的判断和处理”———将术语“检出异常值”和“高度异常值”分别改为“歧离值”和“统计离群值”,并进一步明确了二者的含义及相互差异;———增加了检出水平和剔除水平的定义;———检出水平由原标准中“检出水平一般取为1%,5%或10%”改为“除非根据本标准达成协议的各方另有约定,检出水平应为0.05”;———明确规定剔除水平的值,除非根据本标准达成协议的各方另有约定,剔除水平应为0.01;———增加了各种情形“统计离群值”的检验步骤;———增加了“多个离群值的判断规则”;———将“没有异常值”和“没有高度异常的异常值”分别改为“未发现离群值”和“未发现统计离群值”。 GB/T 6380-2008 数据的统计处理和解释 Ⅰ型极值分布样本离群值的判断和处理 GB/T6380-2008 标准下载解压密码:www.bzxz.net
本标准规定了判断和处理Ⅰ型极值分布的样本中上侧离群值和Ⅰ型极小值分布的样本中下侧离群值的一般原则和实施方法。本标准适用于来自Ⅰ型极值分布或Ⅰ型极小值分布总体的样本。本标准适用于样本量为5至50的情形。
本标准代替GB/T6380-1986《数据的统计处理和解释 Ⅰ 型极值分布样本异常值的判断和处理》。本标准与GB/T6380-1986相比较,技术内容的变化主要包括:
---按GB/T1.1-2000《标准化工作导则 第1部分:标准的结构和编写规则》的要求对标准格式进行了修改;
---增加了术语、定义和符号;
---将标准名称中Ⅰ型极值分布样本异常值的判断和处理改为Ⅰ型极值分布样本离群值的判断和处理;
---将术语检出异常值和高度异常值分别改为歧离值和统计离群值,并进一步明确了二者的含义及相互差异;
---增加了检出水平和剔除水平的定义;
---检出水平由原标准中检出水平一般取为1%,5%或10%改为除非根据本标准达成协议的各方另有约定,检出水平应为0.05;
---明确规定剔除水平的值,除非根据本标准达成协议的各方另有约定,剔除水平应为0.01;
---增加了各种情形统计离群值的检验步骤;
---增加了多个离群值的判断规则;
---将没有异常值和没有高度异常的异常值分别改为未发现离群值和未发现统计离群值。
本标准的附录A 是规范性附录。
本标准由全国统计方法应用标准化技术委员会提出并归口。
本标准起草单位:宁波工程学院、中国标准化研究院、北京大学、天津大学、海南省产品质量监督检验所。
本标准主要起草人:荆广珠、丁文兴、于振凡、蔡军伟、孙山泽、马逢时、黄艳等。
本标准所代替标准的历次版本发布情况为:
---GB/T6380-1986。
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版本均不适于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。
ISO3534-1:2006 统计学词汇及符号 第1部分:一般统计术语与用于概率的术语
ISO3534-2:2006 统计学词汇及符号 第2部分:应用统计
前言Ⅲ
引言Ⅳ
1 范围1
2 规范性引用文件1
3 术语、定义和符号1
3.1 术语和定义1
3.2 符号和缩略语2
4 离群值判断2
4.1 离群值的来源与判定2
4.2 检出离群值个数的上限2
4.3 单个离群值情形2
4.4 多个离群值情形2
5 离群值处理3
5.1 处理方式3
5.2 处理规则3
5.3 备案3
6 单个离群值的判断规则3
6.1 检验方法的选择3
6.2 狄克逊(Dixon)检验法3
6.3 欧文(Irwin)检验法4
7 多个离群值的判断规则5
7.1 检验步骤5
7.2 多个离群值检验示例5
附录A (规范性附录) 临界值表6
参考文献8

标准图片预览






标准内容

ICS03.120.30
中华人民共和国国家标准
GB/T6380-2008
代替 GB/T 6380—198G
数据的统计处理和解释
工型极值分布样本离群值的判断和处理Statistical interpretation of data-Detection and treatment ofoutliers in the sanple fron lype I exiremc value distribution2008-07-28发布
中华人民共和国国家质量监督检验检疫总局中国国家标准化管理委员会
2009-01-01实施
规范性引用文件
3术语、定义和符号
3.1术语和定义
3.2符号和缩略语
4离群值判断
离群值的来源与判定
1.2捡出离群值个数的上限
4.3单个离群值情形
4.4多个离群值情形
5离群值处理
5, 1 处理方式
处理规则
6单个离群值的判断规则
6.1检验方法的选择
6.2狄克逊(Iixon)检验法
6.3欧文(Irwin)检验法
7多个离群值的判断规则
7.1检验步骤
7.2多个离群值检验示例
附录A(规范性附录)临界值表
参考文献
GB/T 6380—2008
GB/T 6380—2008
本标准代替GB/T6380-1986《数据的统计处理和解释1型极值分布样本异常值的判断和处理》。本标准与GB/T6380—1986相比较,技术内容的变化主要包括:按GB/I1.12000《标准化工作导则第1部分:标准的结构和编写规则》的要求对标准格式进行了修改;
增加了术语、定义和符号,
一将标准名称中“工型极值分布样本异常值的判断和处理”改为I型极值分布样本离群值的判断和处理\;
将术语“检出异常值”和“高度异常值”分别改为“歧离值”和“统让离群值”,并进一步明确了二者的含义及相互差异;
增加了检出水平和除水平的定义!检出水平由原标准中“检出水半般取为1%,5%或10%”改为“除非根据术标准达成协议的各方另有约定,检出水平应为0,05\;明确规定别除水平的值,除非根据本标准达成协议的各方另有约定,剔除水平应为0.01;增加了各种情形“统计离群值”的验步骤;增加了“多个离群值的判断规则”;将“没有异常值\和“没有高度异常的异带值\分别改为“未发现离群值”和“未发现统计离群”。
本标雅的附录A是规范性附录。
本标准由全国统计方法应用标准化技术委员会提出并叶口。本标准起草单位:宁波工程学院、中国标准化研究院、北京大学、天津大学、海南省产品质量监督检验所
本标准主要起草人:荆广珠、丁文兴、于振凡、蔡军伟、孙山泽、马瑾时、黄艳等。本标准所代替标准的历饮版本发布情况为:GB/T 63801986。
GB/T6380—2008
从事科学研究、工农业制造以及管理工作都离不开数据,而对这些数据的整理、分析和解释都离不开统计方法。统计学是研究数字资料的整理、分析和正确解释的一门学科。人们齐白从不同的来源取得各种数字资料,这些数资料通带都是杂乱无章的,必须经过整理和简缩才能利用,使用完善的统讨方法就可使数据整理,排列的有条有理,用图形或少量的儿个重要参数,就可将大量数据的特征表达出来,这样既可避免不正确的解释,义可将获得满意数据的成本降到最低限度,提高了经济效益。国家标准数据的统计处理和解释》包含以下各项:统计容恐区间的确定(GB/T3359)均值的估计和置信区间(GB/T3360)在成对观测值情形下两个均值的比较(GB/T3361)二项分布参数的估计与检验(G/T4088)泊松分布参数的估计和检验(GB/T4089)-正态性检验(GB/T4882)
正态样本离群值的判断和处理(GB/T4883)正慈分布均值和方差的估计与检验(CB/T1889)-正态分布均值和方差检验的功效(GB/T4890)“I型极值分布样本离群值的判断租处理(GB/T6380)伽玛分布(皮尔避Ⅲ型分布)的参数估计(GB/T8055)指数分布样本离群值的判断和处理(GB/T8056)本标准尚无相应的国际标准。
1范围
数据的统计处理和解释
1型极值分布样本离群值的判断和处理GB/T 6380-2008
本标准规定了判断和处理工型极值分布的样本中上侧离群值和I型极小值分布的样本中下侧离群值的---般原则和实施方法。
本标准适用于来自丁型极值分布或I型极小值分布总体的样本。本标适用于样本量为5至50的情形。注:由于经过变换乙=X后,I型极小值分布的随机变量将服从I型极值分布,所以只对I型极值分布给出检出上侧离群莅的方法。
2规范性引用文件
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注月期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版本均不适于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。ISO 3534-1:2006统计学词汇及符号第1部分:一般统计术语与用于概率的术讲ISO3531-2:2006统计学词汇及符号第2部分:应用统计3术语、定义和符号
ISO3534-1:2006、ISO3534-2:2006确立的术语、定义和符号以及下列术语、定义和符号适用于本标准。
3.1术语和定文
I 型极值分布type I extreme value distribution(Gumbel dislribution)其有下述分布函数的连续型分布。F(a) - exp( e--ab)
其中,一r十α
I 型极小值分布type I minimum vale distribution具有下述分布函数的连续型分布。F(α) = 1 exp(-e-(-b)
其中:>0,-<+x
3, 1,3
离群值outlier
样本中的一个或几个观测值,它们离开其他观测值较远,暗示它们可能米自不同的总体。注:离群值按显著性的程度分为肢离值和统计离群值。3. 1. 4
统计离群值statistical outller在剔除水半(3.1.7)下统计检验为显著的离群值。1
GB/T6380—2008
歧离值stragglc
在检出水平(3.1.6)下显著,但在别除水平(3.1.7)下不显著的离群值3.1.6
检出水平delection level
为检出离群值而指定的统计检验的显著性水平。注:除非根据本标准达成协议的各方另有约定,检出水平应为0.05。3. 1.7
剔除水平dcletion level
为检出离群值是否高度离群而指定的统计捡验的显著性水平,注:剔除水半的值应不超过检出水平的值。除非根据本标雅达成协议的各方另有约定,除水应为0.01。3.2符号和缩略语
样本量(观测值个数)
4离群值判断
检验离群值所使用的显著性水半,简称检出水平检验统计离群值所使用的显著性水平,简称别除水半(<)观测值白小到大排序后的第个值样本量5≤≤30)时,检验最大的观测值3是否为离群值时所用的统计量检出水平为时,用统计量D,作检验时的临界值样本量30<,n≤50时,检验最大的观测值是否为离群值时所用的统计量检出水平为口时,用统计量1,作检验时的临界值4.1离群值的来源与判定
4.1.1来源
离群值按产生原因分为两类:第一类离群值是总体商有变异性的极端表现,这类离群值与样本中其余观测值属于一总体:第二类离群值是由于试验条件和试验方法的偶然偏离所产牛的结果,或产生于观测、记录、计算中的失误,这类离群值与样本中其余观测值不属于同一总体。4.1.2判定
对离群值的判定通常可根据技术或物理上的理由直接进行,例如当试验者已经知道试验偏离规定的试验方法,或测试仪器发生间题等。与上述理由不明确时,可用本标准规定的方法。4.2检出离群值个数的上限
应规定在样本中检出离群值个数的上限(与样本量相比应较小),当检出离群值个数达到了这个上限时,对此样本应作慎重的研究和处理。4.3单个离群值情形
检验规则如下:
)原假设为所有观测值来自同一总体,备择假设为观测数据有下侧离群值,根据统计学原理选用判断离群值的统计量(见6.1):b)确定适当的显著性水平;
根据显著性水平及样本,确定检验的临界值;d)由观测值计算相应统计量的值,根据所得值与临界值的比较结果作出判断。4.4多个离群值情形
在允许检出离样值的个数大于1的情况下,重复使用4.3规定的检验规则进行检验,并按下述规则决定检验停止的时机:
a)若没有检出离群值,则整个检验停止;GB/T 6380--2008
b)若检出离群值,当检出的离群值总数达到上限(见4.2)时,检验停止,否则,采用相同的检出水平和相同的规则,对除去已检出的离群值后余下的观测值继续检验。5离群值处理
5.1处理方式
处理离群值的方式有:
a)保留离群值并用于后续数据处现;b)在找到实际原因时修正离群值,否则予以保留;c)剔除离群值,不追加观测值;d)剔除离群值,并追加新的观测值或用适宜的插补值代替。5.2处理规则
对检出的离群值,应尽可能寻找其技术上和物理上的原因,作为处理离群值的依据,应根据实际问题的性质,权衡寻找和判定产生离群值的原因所需代价、正确判定离群值的得益及错误剔除止常观测值的风险,以确定实施下述三个规则之一:a)若在技术上或物理上找到产生离群值的原因,则应剔除或修正;否则,不得剔除或修正:b)若在技术1或物理上找到产生离群值的原凶,则应别除或修正,否则,保留歧离值,剔除或修正统计离群值。在重复使用同-检验规则检验多个离群值的情形,每次检出离群值后,都要再检验它是否为统计离群值。若某次检出的离群值为统计离群值,则此离群值及在它前面检山的离群值含歧值)都应被剔除或修正:检出的离群值(含歧离值)都应被剔除或修正。5.3备案
被剧除或修正的观测值及其理由应予记录,以备查询。6单个离群值的判断规则
6.1检验方法的选择
当样本量 5≤n≤30时,使用狄克逊(Dixon)检验法;当样本量 30≤n≤50 时,使用欧文(Irwin)检法。
6.2狄克逊(Dixon)检验法
6. 2, 1检验步骤
当样本最5≤≤30时实施步骤如下:a)根据样本观测值中的最小观测值工(1)、最大观测值(m)、次大观测值-1:以及第二大观测值Ta-2),计算统计量D,的值:
,5≤≤8
rt—re
2,9xn30
(m(I)
b)确定检出水平 ,在附录 A表 A, 1 中查出临界值 Di-(n)。c)当D.>D,-.n)时,判定m为离群值,否则判末发现是离群值。(1)
d)对于检出的离群值x(n确定剔除水乎-α\,在附录A表A.1中查出临界值D\(n)。当D,>Di-(n)时,判定(n)为统计离群值,否则判未发现(>是统计离群值(即Z(n为歧离值)。
6.2.2狄克逊(Dixon)检验法示例3
GB/T 6380—2008
自动剪床切断钢料,每日记录最初剪下的100根钢料的长度,作为·批数据,…-周内记录了6批,得到每月最大值数据如下(单位:mm):321.46319.62320.44319.51329.73320.41根据经验,可以认为总体为「型极值分布。假如使用者关心的是数据中是否有上侧离群值,可采用本条中的方法。
本例中,n6,最小观测值为cm=319.51,最大观测值为z>329.73,次大规测值为xb)—321.46,按式(1)计算统计量 D,的值。
De = () (52 - 3
329.73—321.46
(5)—2()—329.73319.51
确定检出水平α=0.05,在附录 A表 A1中查出PD,的临界值 D,n(6)=0.681。由于 D—0.8092>0.681D(6),故判定=329.73 为离群值,对于检出离群值 2ts) =329. 73,进一步给出剔除水半 =0. 01,在附录 A表 A. 1 中查出 D,的临界值D.(6)-0.796,由于D0.8090.796=D3(6),故判断元)-329.73为统计离群值经复核查实,此数据系误记,实际值为319.73。6.3欧文(Irwin)检验法
6.3.1检验步骤
当样本最30<≤50时实施步骤如下:)根据样本观测值中的最小观测值(1)、最大观测值以及次人观测值工(1),计算统计量1的值:
其中:
n—2台
---(2)
·(3)
(4)
这里无中的求和尼对除去最小观测值于,最大观测值无后的所有样本观测值进行的。b)
确定检出水平,在附录 A表 A, 2 中查出临界值 I,-。(n)当I-。(n)时,判定为离群值,否则判未发现工(a是离群值。对于检出的离群值 &cn) ·确定除水平 a,在附录 A表 A. 2 中查出临界值 I.。(n)。当 I,1..(n)时,判定()为统计离群值,否则判未发现是统计离群值(即工()为歧离值)。6. 3. 2欧文(Irwin)检验法示例某地某河流年最大经流量的逐年观测数据如下(单位;km' /s);1.691.220.751.261.731.74
3.091.571.972.23bZxz.net
1.18 2.12 1.380.90
2.102.021.74
经验表明年最大经流鼠的逐年观测数据近似地服从工型极值分布,需要判断最大值z(41=4.31是否为离群值,
对上述观测数据稍加整理订以看出,其最小观测值为2(1:=0.75,最大观测值为±<4)=4.31.次大观测值为20)3.09。对除去最小观测值无1>、最大观测值2(后的所有观测值,先按式(3)计算:的值,再按式(2)计算统计 I, 的值。4.31 -3. 09 2. 43
4 = 2(0) - r(39)
GB/T6380—2008
确定检出水平α=0.05,在附录A表A.2中查山临界值1a.95(40)=2.88。由于14a=2.432,88=Io.9(40),故判未发现(43二=4.31是离群值。7多个离群值的判断规则
7.1检验步骤
当样本中可能有多个离群值需要检验时,按照4.4的规则执行。具体判断离群值的方法,可根据样本量的大小分别按6.2,6.3的步骤实施。7.2多个离群值检验示例
从某种绝缘材料中随机地取出11个样品,在一定条件下进行寿命试验,其失效时间分别为(单位:h):4.09,17.31,60.78,62.16,64.15,70.67.71.85,75.50,79.35,80.00,88.01经验表明这种绝缘材料的寿命T服从I型极小值分布,因此,X一一T服从I型极值分布。此处 x(19 —88. 01, <2) — —80, 00, -*,( - —62. 16, ) - —60. 78, x —17. 31,2() -一4.09,若规定检出离群值个数.上限为2,可采用本条的方法。首先,对r(11)是否是离群值逆行判断,因为n=11,按式(1)计算统计量D1的值:D = (4 - 2(0) (1: 09) - ( 60. 78)(—4.09)—(—88.01)
确定检出水平α=0.05,在附录A表A.1中查出临界值D.(11)=0.656,由于D1~0.6750.656=De.9s(11),故判定z(:1)=一4.09为离群值,即判定原数据中4.09为离群值。对于检出的离群值r(1=4.09,确定剔除水平α=0.01,在附录A表A.1中查出临界值Dssg(11)=0.748,用于D:1—0.6750.748=Da.=(11),故判未发现(11=—4.09是统计离群值(即工(11)=4. 09 为歧离值,也即判定原数据中4.09 为歧离值)。再对余下的10个数据继续检验,此时样本量变为10,按式(1)计算统计量D)的值:Dig ) - (a2
(—17. 31) -(—62. 16)
2(10) -x(1>—(— 17. 31) — (88. 01)0.634
仍取检出水平 α= 0. 05,在附录 A 表 A. 1 中查出临界值 Ds, 5 (10)= 0. 676,由于 D。 U. 634 <0.676-D.%(10),故判末发现工<15)=—17.31为离群值(即未发现原数据中17.31是离群值)。至此整个检验停止。
GB/T 6380—2008
附录A
(规范性附录)
临界值表
狄克逊检验的临界值表见表A.1,欧文检验的临界值表见表A.2。表A.1狄克逊检验的临界值表
统计最
r(a) -Ie
D, a) - Z(t-2)
atn, —z)
统计量
欧文检验的临界值表
— () — 2(1)
GB/T 6380—-2008
GB/T 6380—2008
参考文献
[1马逢时,许其洲。极值分布的异常值检验[J].数理统计与应用概率,1986,1(1).81-91[2]费鹤良,极分布和威布尔分布异常数据的检验方法LJ].应用数学学报,1998,21(4.549-561.
L3] F E Grubbs. Sample criterion lor testing ohservation. Statistics. Annals of MathetnaticalStatisticstJl,1950,21.27-58.[4] J O Irwin. On a critcrion for the rejection of Outlying ubservalions[J_. IBiomctrics, 1925,17.238-250
W J Dixon.Analysis of extrcmc value, Annals of Mathematical Statistics,1950,21.[5]
[6] W J Dixon. Processing data for outliers, Biometrics, 1953, 5(1). 74-89.
小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。