首页 > 国家标准(GB) > GB/T 3358.1-2009 统计学词汇及符号 第1部分:一般统计术语与用于概率的术语
GB/T 3358.1-2009

基本信息

标准号: GB/T 3358.1-2009

中文名称:统计学词汇及符号 第1部分:一般统计术语与用于概率的术语

标准类别:国家标准(GB)

英文名称:Statistics—Vocabulary and symbols—Part 1:General statistical terms and terms used in probability

标准状态:现行

发布日期:2009-10-15

实施日期:2010-02-01

出版语种:简体中文

下载格式:.rar .pdf

下载大小:17055891

相关标签: 统计学 词汇 符号 统计 术语 用于 概率

标准分类号

标准ICS号: 社会学、 服务、公司(企业)的组织和管理、行政、运输>>质量>>03.120.30统计方法的应用

中标分类号:综合>>基础学科>>A41数学

关联标准

替代情况:替代GB/T 3358.1-1993

采标情况:IDT ISO 3534-1:2006

出版信息

出版社:中国标准出版社

页数:64页

标准价格:0.0 元

出版日期:2010-02-01

相关单位信息

首发日期:1982-12-30

起草人:冯士雍、陈敏、于丹、崔恒建、吴耀华、丁文兴、汪仁官、于振凡

起草单位:中国科学院数学与系统科学研究院、中国标准化研究院、北京师范大学、中国科学技术大学、苏州大学

归口单位:全国统计方法应用标准化技术委员会

提出单位:全国统计方法应用标准化技术委员会

发布部门:中华人民共和国国家质量监督检验检疫总局 中国国家标准化管理委员会

主管部门:全国统计方法应用标准化技术委员会

标准简介

GB/T 3358.1-2009 统计学词汇及符号 第1部分:一般统计术语与用于概率的术语 GB/T3358.1-2009 标准下载解压密码:www.bzxz.net
GB/T3358的本部分规定了用于标准起草的一般统计术语、用于概率的术语的定义及部分术语的 符号。 本部分中的术语分为: a) 一般统计术语(第1章); b) 用于概率的术语(第2章)。
本部分代替GB/T3358.1-1993《统计学术语 第一部分 一般统计术语》,与GB/T3358.1-1993相比,主要变化如下:
---名称改为《统计学词汇及符号 第1部分:一般统计术语与用于概率的术语》;
---对术语条目作了较大的调整:增加了一般统计术语及用于概率的术语;将GB/T3358.1-1993中第4章观测和测试结果的一般术语及第5章抽样方法的一般术语中的内容移至GB/T3358的第2部分;
---增加了大量的示例及注释;
---增加了术语概念图(附录B、附录C)及定义标准中的术语所使用的方法的附录D,并将关于符号的附录A 改为资料性附录。
本部分的附录A、附录B、附录C 和附录D 均为资料性附录。
本部分由全国统计方法应用标准化技术委员会提出并归口。
本部分主要起草单位:中国科学院数学与系统科学研究院、中国标准化研究院、北京师范大学、中国科学技术大学、苏州大学。
本部分主要起草人:冯士雍、陈敏、于丹、崔恒建、吴耀华、丁文兴、汪仁官、于振凡。
本部分于1993年首次发布,本次为第一次修订。


前言Ⅲ
引言Ⅳ
范围1
1 一般统计术语1
2 用于概率的术语14
附录A (资料性附录) 符号33
附录B (资料性附录) 统计概念图35
附录C (资料性附录) 概率概念图41
附录D (资料性附录) 定义标准中的术语所使用的方法45
参考文献48
索引49
汉语拼音索引49
英文对应词索引52

标准图片预览






标准内容

ICS 03.120.30
中华人民共和国国家标准
GB/T 3358.1—2009/IS0 3534-1:2006代替GB/T3358.1-1993
统计学词汇及符号
第1部分:一般统计术语与
用于概率的术语
Statistics-Vocabularyandsymbols-Part 1:General statistical terms and terms used in probability(ISO3534-1:2006,IDT)
2009-10-15发布
中华人民共和国国家质量监督检验检疫总局中国国家标准化管理委员会
2010-02-01实施
一般统计术语
2用于概率的术语
附录A(资料性附录)
附录B(资料性附录)
附录C(资料性附录)
附录D(资料性附录)
参考文献
汉语拼音索引
英文对应词索引
统计概念图
概率概念图
定义标准中的术语所使用的方法GB/T3358.1—2009/ISO3534-1:2006川
GB/T3358《统计学词汇及符号》分为以下部分:第1部分:一般统计术语与用于概率的术语;——第2部分:应用统计;
—一第3部分:实验设计。
GB/T3358.1—2009/IS03534-1:2006本部分为GB/T3358的第1部分,等同采用ISO3534-1:2006《统计学词汇及符号第1部分:一般统计术语与用于概率的术语》。与IS03534-1:2006相比,订正了原文的错误,修正原文中概念表述不够准确的部分,主要变化如下:删去了1.24原文中的注1;
一2.38示例中变异系数的计算式“0.99/0.995=0.99497”更正为“0.995/0.91.10556”;—2.69中“[事件]代数”中,要求满足的性质a)“属于”修订为“α属于”。为便于使用,本部分作了下列编辑性修改:删去了ISO前言;
一为术语的简练起见,在少数术语中,使用中括号表示其中可省略部分。例如:2.5中,[事件A的]概率(probability[ofaneventA]),表示此术语实际定义的是“概率(probability)”,其中“事件A的”在许多场合可省略。又如2.34r阶[原点]矩(momentoforderr)”表示原文的“r阶矩(momentoforderr)”也称为“r阶原点矩”。本部分代替GB/T3358.1一1993《统计学术语第一部分一般统计术语》,与GB/T3358.1--1993相比,主要变化如下:
名称改为《统计学词汇及符号第1部分:一般统计术语与用于概率的术语》;对术语条目作了较大的调整:增加了一般统计术语及用于概率的术语;将GB/T3358.1-1993中第4章“观测和测试结果的一般术语”及第5章“抽样方法的一般术语”中的内容移至GB/T3358的第2部分;
一一增加了大量的示例及注释;增加了术语概念图(附录B、附录C)及定义标准中的术语所使用的方法的附录D,并将关于符号的附录A改为资料性附录。
本部分的附录A、附录B、附录C和附录D均为资料性附录。本部分由全国统计方法应用标准化技术委员会提出并归口。本部分主要起草单位:中国科学院数学与系统科学研究院、中国标准化研究院、北京师范大学、中国科学技术大学、苏州大学。
本部分主要起草人:冯士雍、陈敏、于丹、崔恒建、吴耀华、丁文兴、汪仁官、于振凡。本部分于1993年首次发布,本次为第一次修订。GB/T3358.1-—2009/IS03534-1:2006引言
目前版本的GB/T3358.1和GB/T3358.2是兼容的,其共同目标是在一致、准确而简洁的前提下,将定义所需的数学程度限制在最低水平。由于GB/T3358.1是概率和统计的基础术语,所以有必要用相对严格而复杂的数学语言来表述。考虑到GB/T3358.2及其他统计方法应用标准的使用者有时需要查询GB/T3358.1中术语的定义,因此本部分的术语尽可能用通俗的方式来描述,并辅以注释及示例。尽管这些非正式的描述并不能取代正式的定义,但为统计专业以外的人员提供了有效的概念性的定义,能满足这些术语标准的大多数用户的需要。为了进一步适应经常使用GB/T3358.2或GB/T6379等标准的用户,通过注释和示例使GB/T3358.1更易于理解。一套明确定义的,且相对完整的概率统计术语对统计标准的编制及有效使用是必需的。定义必须足够准确、且具备数学意义上的严格性,使在编制其他统计标准时避免出现概念模糊。当然,对概念的更详细的解释、背景和应用领域可在初等概率统计教材中找到。资料性附录B与附录C分别为-般统计术语与用于概率的术语提供了系列概念框图。其中般统计术语包含六个概念图;用于概率的术语包含四个概念图。某些术语同时出现在几个不同的框图中,从而起到一组概念与另一组概念的联系作用。附录D提供了关于概念图的简要介绍及其解释。这些框图有助于本次修订,因为它们有助于描述不同术语之间的相互联系。这些框图也有助于标准文本的翻译。
除非另有说明,本标准中大部分术语均在一维(单变量)场合下定义。这避免了许多术语在类似条件下进行重复定义
GB/T3358.1—2009/IS03534-1:2006统计学词汇及符号
第1部分:一般统计术语与
用于概率的术语
GB/T3358的本部分规定了用于标准起草的一般统计术语、用于概率的术语的定义及部分术语的符号。
本部分中的术语分为:
a)一般统计术语(第1章);
b)用于概率的术语(第2章)。附录A列出了本部分推荐使用的符号。附录B和附录C是本部分所有术语条目的概念框图。1一般统计术语
population
所考虑对象的全体。
注1:总体可是真实有限或无限的,也可是完全虚构的。有时,特别是在调查抽样中也使用“有限总体”;在一些流程性物质抽样中也使用“无限总体”。在第2章中,从概率的角度,总体在一定意义上可看作是样本空间(2.1)。注2:对于虚构的总体,允许人们想象在不同假定条件下的数据所具有的属性。因此,虚构总体在统计研究的设计阶段,特别是确定适宜样本量时非常有用。虚构总体所含对象数目可以是有限的也可以是无限的。在统计推断中,这是一个对评价统计研究证据强度特别有用的概念。注3:下面的例子能帮助理解总体这一概念:若有三个村庄被选中作人口统计或健康研究,总体即由这三个村庄的全体居民构成;若这三个村庄是从某个特定区域中的所有村庄中随机抽选出来的,则总体由该区域中的所有居民构成。
抽样单元samplingunit
总体(1.1)划分成若干部分中的每一部分。注:抽样单元依赖于具体问题中所感兴趣的最小部分。抽样单元可以是一个人、一个家庭、一个学校或一个行政单位等。
样本sample
由一个或者多个抽样单元(1.2)组成的总体(1.1)的子集。注1:根据所研究总体的情况,样本中的每个单元可是真实或抽象的个体,也可是具体的数值。注2:在GB/T3358.2关于样本的定义中,包括一个抽样框的示例。抽样框在从有限总体中抽取随机样本时是必须的。
观测值observedvalue
由样本(1.3)中每个单元获得的相关特性的值。注1:常用的同义词是“实现”和“数据”。1
GB/T3358.12009/IS03534-1:2006注2:本定义并没有指明值的来源或如何被获得。观测值可表示某随机变量(2.10)的一次实现,但并不一定如此,它可以是相继用于统计分析的若干值中的一个。正确的推断需要一定的统计假定,但首先要做的是对观测值的计算概括或图形描述。仅当需要解决进一步的问题,如确定观测值落人某一指定集合的概率,统计机制才是重要而本质的。观测值分析的初始阶段通常称为数据分析。1.5
描述性统计量descriptivestatistics观测值(1.4)的图形、数值或其他概括性描述示例1:数值描述包括样本均值(1.15)、样本极差(1.10)、样本标准差(1.17)等。示例2:图形描述包括箱线图、示意图、Q-Q图、正态分位图、散点图、多元散点图和直方图等。1.6
randomsample
随机样本
由随机抽取的方法获得的样本(1.3)。注1:本定义比GB/T3358.2给出的定义限制要少,样本允许来自无限总体。注2:当从有限样本空间(2.1)中抽取n个抽样单元组成样本时,n个抽样单元的任意一种组合都会以特定的概率(2.5)被抽中。对于调查抽样方案而言,每一种可能组合被抽中的概率可事先计算。注3:对有限样本空间的调查抽样,随机样本可以通过不同的抽样方法得到,如分层随机抽样、随机起点的系统抽样、整群抽样、与辅助变量的大小成比例的概率抽样以及其他可能的抽样。注4:本定义般是指实际观测值(1.4)。这些观测值被认为是随机变量(2.10)的实现,其中每个观测值都对应于一个随机变量。当由随机样本构造估计量(1.12)、统计检验(1.48)的检验统计量或置信区间(1.28)时,本定义是指从样本中的抽象个体得到的随机变量而不是这些随机变量的实际观测值。注5:无限总体中的随机样本一般是从样本空间中重复抽取产生的。根据注4的解释,此时样本由独立同分布的随机变量组成。
简单随机样本simplerandomsample(有限总体》给定样本量的每个子集都有相等的被抽选概率的随机样本(1.6)。注:此处的定义与GB/T3358.2中的定义是一致的,仅在措辞上稍有不同。1.8
统计量statistic
由随机变量(2.10)完全确定的函数。注1:在1.6注4的意义下,统计量是随机样本(1.6)中随机变量的函数。注2:按注1,若(X1,X2,,X.)是来自未知均值(2.35)μ和未知标准差(2.37)α的正态分布(2.50)的随机样本,则样本均值(1.15)(X,十Xz十十X,/n是一个统计量;而[(X,十X2十十X,)/n]一μ不是统计量,因为它包含了未知参数(2.9)μ。
注3:相应于数理统计中的表述,此处给出的是统计量的一种技术性定义。英语中,统计量(statistic)的复数形式就是统计学(statistics),它是一门包括了统计方法应用标准中所叙述的分析方法的技术学科。1.9
次序统计量orderstatistic
由随机样本(1.6)中的随机变量(2.10)的值,依非降次序排列所确定的统计量(1.8)。示例:假设样本观测值为9,13,7,6,13,7,19,6,10,7,则次序统计量的观测值为:6,6,7,7,7,9,10,13,13,19。这些值是Xa),,X(10)的一次实现。注1:假设随机样本(1.6)的观测值(1.4)为《,,z,,,),按非降的次序排列为工u)≤≤工()≤≤工(m),则(工(),,工(),\\,工))是次序统计量(X(\),\,X(),\,X())的观测值,工()为第k个次序统计量的观测值。注2:在实际应用中,为获得一组数据的次序统计量,即是将数据按照注1中所述方式进行排序。将一组数据按上述方法排序后,还可获得其他几个术语定义的有用的统计量,如1.10、1.11等。注3:次序统计量涉及按照非降次序排列后的位置来识别的样本值。正如示例所示,将样本值(随机变量的实现)排序比将未观测的随机变量排序更容易理解。它可以通过按照非降次序排列的随机样本(1.6)来理解随机变2
量。比如,n个随机变量的最大值可以先于它的实现值来研究。GB/T3358.1—2009/ISO3534-1:2006注4:单个次序统计量是随机变量的一个特定函数。这个函数可以简单地由其在随机变量排序集合中的位置或序次(称为秩)来确定
注5:结点值会引起一些潜在的问题,特别是对于离散随机变量或者是低分辨的实现。用“非降”而不是“递增”的说法可解决这个问题。需要强调的是结点值都要保留而不能合并成一个。在上面的示例中,“6”有两个实现,所以“6”是结点值,
注6:排序按照随机变量的实数值进行,而不是按照其绝对值进行。注7:次序统计量(X(n),,X(),,X(\))组成n维随机变量,n是样本中观测值的个数。注8:次序统计量的分量也是次序统计量,而且保持其在原样本排序中的位置标识。注9:最小值,最大值以及样本量为奇数时的样本中位数(1.13)都是特殊的次序统计量。比如样本量为11,那么X(1)是最小值,X(1)是最大值,X(s)是样本中位数。1.10
样本极差samplerange
最大次序统计量(1.9)与最小次序统计量的差。示例:在1.9中的示例中,样本极差的观测值为19一6=13。注:在统计过程控制中,尤其当样本量相对比较小时,样本极差通常用来监测过程的离散程度随时间的变化。1.11
中程数mid-range
最大和最小次序统计量(1.9)的平均值(1.15)。示例:1.9的示例中,中程数的观测值为(6十19)/2=12.5。注:中程数能够对较小数据集的中心提供一种快捷而简单的估计。1.12
估计量estimator
用于对参数0估计(1.36)的统计量(1.8)。注1:样本均值(1.15)是总体均值(2.35)μ的一个估计量。例如,对于正态分布(2.50),样本均值是总体均值μ的估计量。
注2:要估计总体的特征(如一维(元)分布(2.16)的众数(2.27)),个合适的估计量可以是分布参数估计量的函数,也可以是随机样本(1.6)的复杂函数。注3:此处所讲的“估计量”是一个宽泛的概念。它包括某参数的点估计,也包括用于预测的区间估计。估计量也包括该估计量和其他特殊形式的统计量。另见1.36注的讨论。1.13
samplemedian
样本中位数
若样本量(见GB/T3358.2—2009,1.2.26)n为奇数,则是第(n十1)/2个次序统计量(1.9);若样本量n是偶数,则是第n/2与第(n/2)十1个次序统计量之和除以2。示例:续1.9的示例,8为样本中位数的一个实现,此时样本量为10(偶数),第5和第6个次序统计量分别为7和9,其平均值为8。尽管严格来说样本中位数是作为一个随机变量来定义的,但在实际中也说“样本中位数为8”。注1:对于样本量为n的随机样本(1.6),其随机变量(2.10)按照非降顺序从1到n排列,如果样本量为奇数,则样本中位数为第(n十1)/2个随机变量,如果样本量为偶数,则样本中位数为第(n/2)个与第(n+十1)/2个随机变量的平均值。
注2:从概念上讲,对一个没有观测到的随机变量进行排序似乎是不可能的。但不经观测也可理解次序统计量的结构。在实际中,通过获得观测值并对其进行排序,从而得到次序统计量的实现。这些实现值可用于解释次序统计量的结构。
注3:样本中位数是分布中间位置的一个估计,各有一半的样本单元大于等于或小于等于它。注4:样本中位数在实际问题中是有用的,它提供了一个对数据极端值不敏感的估计量。例如,中位收入和中位房价都是常用的统计指标。
GB/T3358.1—2009/ISO3534-1:20061.14
samplemomentof orderk
k阶样本矩
随机样本(1.6)中随机变量(2.10)的k次幂的和除以和中的项数。注1:对于样本量为n的随机样本《X,X2,\,X.),k阶样本矩为:1
注2:本术语也称为k阶样本原点矩。注3:一阶样本矩即为样本均值(1.15)注4:虽然本定义中k可取任意值,但在实际中常用的是k1[样本均值(1.15)],k二2[与样本方差(1.16)和样本标准差(1.17)有关],k=3[与样本偏度系数(1.20)有关]和k=4[与样本峰度系数(1.21)有关]的情形。1.15
样本均值samplemean
平均数average
算术平均值arithmeticmean
随机样本(1.6)中随机变量(2.10)的和除以和中的项数。示例:续1.9中的示例,观测值的和为97,样本量为10,样本均值的实现为9.7。注1:在1.8中注3的意义下,样本均值作为统计量是随机样本中随机变量的函数。必须区分统计量与由随机样本中观测值(1.4)计算得出的样本均值的数值。注2:样本均值作为统计量,常用作总体均值(2.35)的估计量。算术平均值是它的同义词。注3:对样本量为n的随机样本(Xi,Xz,X.),样本均值为:X=X
注4:样本均值就是一阶样本矩。注5:样本量为2时,样本均值、样本中位数(1.13)和中程数(1.11)皆相同。1.16
样本方差samplevariance
随机样本(1.6)中随机变量(2.10)与样本均值(1.15)差的平方和用和中项数减1除。示例:续1.9中的示例,样本观测值与样本均值差的平方和为158.10,样本量10减1为9,计算得样本方差为17.57。
注1:样本方差S作为统计量(1.8),是随机样本中随机变量的函数。必须区分这个统计量与根据随机样本观测值(1.4)计算得出的样本方差的数值,该值称为经验样本方差或观测样本方差,通常记作s2。注2:对样本量为n的随机样本(X,X2,,X.),样本均值为x,则s=
(X;-X)2。
n-1台
注3:样本方差作为一个统计量“差不多”等于该随机变量(2.10)与样本均值(1.15)差的平方的平均数(其中“差不多”是指这里平均用n一1而不是用n作分母),用n一1作分母是为总体方差(2.36)提供一个无偏估计量(1.34)。
注4:n一1称为自由度(2.54)。
注5:样本方差可以近似认为是中心化样本随机变量(2.31)的二阶样本矩(仅以n一1代替n)。1.17
样本标准差samplestandarddeviationS
样本方差(1.16)的非负平方根。示例:续1.9中的示例,观测样本方差为17.57,观测样本标准差为4.192。注1:实际中样本标准差用来估计总体标准差(2.37)。再次强调S也是一个随机变量(2.10),而并不是随机样本(1.6)的实现。
注2:样本标准差是分布(2.11)离散程度的一个度量。4
样本变异系数
samplecoefficientof variation样本标准差(1.17)除以非零样本均值(1.15)的绝对值。注:变异系数通常表示成百分数。1.19
GB/T3358.1—2009/IS03534-1:2006标准化样本随机变量
standardizedsamplerandomvariable随机变量(2.10)与其样本均值(1.15)的差除以样本标准差(1.17)。示例:续1.9中的示例,观测样本均值为9.7,观测样本标准差为4.192,观测标准化随机变量(表示为两位小数)为:0.17;0.79;0.64;0.88;0.790.64;2.22,0.88;0.07;—0.62。注1:标准化样本随机变量应区别于理论上的标准化随机变量(2.33)。将随机变量标准化的目的在于使得其均值为0、标准差为1,便于解释和比较注2:标准化样本观测值的观测样本均值为0,观测样本标准差为1。1.20
样本偏度系数
samplecoefficientofskewnessbZxz.net
随机样本((1.6)的标准化样本随机变量(1.19)三次幂的算术平均值。示例:续1.9中的示例,观测样本偏度系数的计算结果为0.97188。如本例中的样本量为10的情形,样本偏度系数不够稳定,因此应谨慎使用。根据注1给出的另一公式计算出的值为1.34983。注1:对应于定义中公式为:
1(XX)3
n台(s)
有些统计软件里使用下面的公式修正样本偏度系数的偏倚(1.33):(n-1)(n- 2)台
其中:
当样本量很大时,两个公式的差别可以忽略。当n=10,100,1000时,修偏估计值与定义中的估计值之比分别为1.389,1.031,1.003。
注2:偏度系数是对分布不对称性的度量,如果偏度系数接近0意味着真实分布近似对称。偏度系数不为零时意味着在某一侧尾部可能有极端值。有偏的数据也会在样本均值(1.15)与样本中位数(1.13)的差异上体现出来。正偏(右偏)数据表明可能有少数大的极端值。同样,负偏(左偏)数据表明可能有少数小的极端值。注3:样本偏度系数也是标准化样本随机变量(1.19)的三阶样本矩。1.21
samplecoefficientof kurtosis样本峰度系数
随机样本(1.6)的标准化样本随机变量(1.19)四次幂的算术平均值。示例:续1.9中的示例,观测样本峰度系数的计算结果为2.67419。如本例中的样本量为10的情形,样本峰度系数极不稳定,因此应谨慎使用。统计软件包在计算样本峰度系数时常进行了各种修正(参见2.40中的注3)。应用注1中的另一公式计算的值为0.43605。不能直接比较2.67419和0.43605这两个数值。为此,应将2.67419减去3(正态分布的峰度系数为3),其差为--0.32581,这个数值可与0.43605进行比较。注1:与定义对应的公式是:
n台(s)
一些统计软件包使用下面公式来修正样本峰度系数的偏倚(1.33),它表示对正态分布峰度系数(等于3)的偏离:
n(n+1)
(n-1)(n-2)(n -3)台
3(n-1)2
(n-2)(n-3)
GB/T3358.1—2009/IS03534-1:2006其中:
当n充分大时,上式第二项近似为3。有时为了强调与正态分布的比较,峰度表示为如2.40中定义的值减去3。显然,实际应用者需要注意到统计软件包中是否包含任何修正注2:峰度描述了(单峰)分布的重尾程度。对正态分布(2.50),由于抽样随机性,样本峰度系数一般只近似,而不是恰好为3。在实际应用中正态的峰度提供了一个基准值:峰度值小于3的分布(2.11)有比正态轻的尾部;峰度值大于3的分布有比正态重的尾部。注3:对于峰度观测值大于3很多的情形,一种可能是因为真实分布的尾部比正态尾部重,另一可能是分布中存在潜在的离群值
注4:样本峰度系数可认为是标准化随机变量的四阶样本矩。1.22
样本协方差
samplecovariance
随机样本(1.6)中两个随机变量(2.10)对各自样本均值(1.15)的离差的乘积之和被求和项数减1除。
示例1:考虑下列三个变量的10组观测值。在这个示例中,只考虑工和y。表1
示例1的观测结果
X的观测样本均值是46.1,Y的观测样本均值是75.4,X与Y的样本协方差等于:[(3846.1)×(73-75.4)+(4146.1)×(74—75.4)+..+(33—46.1)×(48-75.4)J/9=257.1788
示例2:在上例的表中,考虑和z,Z的观测样本均值是31.3,Y与Z的样本协方差等于:[(73—75.4)×(34-31.3)+(7475.4)×(7431.3)++(4875.4)×(3131.3)/9=-54.356
注1:作为统计量(1.8),样本协方差是样本量为n的随机变量对:(X,Y,),(X2,Y,),,(X。,Y,)在(1.6)注3意义下的函数。这个统计量需要与随机样本中由抽样单元(1.2)(,,y),(工z,y2),\,(,y)的观测值计算得到样本协方差的数值相区别。后者称为经验样本协方差或观测样本协方差。注2:样本协方差Sxr由下式给出:(X: -X)(Y,-)
注3:用n一1除是为总体协方差(2.43)提供一个无偏估计量(1.34)。注4:表1的示例包含3个变量,而协方差定义中只涉及2个变量。在实际应用中经常会遇到多个变量的情况。1.23
样本相关系数
samplecorrelationcoefficientry
样本协方差(1.22)用相应样本标准差(1.17)的乘积来除。示例1:续1.22中的示例1。X的观测标准差为12.945,Y的观测标准差为21.329。从而X和Y的观测样本相关系数为:
12.948×21.329
示例2:继续1.22的示例2,Y的观测标准差为21.329,Z的观测标准差为4.165。从而Y和Z的观测样本相关系数为:
21.329×4.165
注1:样本相关系数的计算公式如下:Z(X: -X)(Y: -Y)
(X-X)(Y:-)
GB/T3358.1—2009/IS03534-1:2006这个表达式等价于样本协方差与两方差乘积的平方根的比。有时用r表示样本相关系数。观测样本相关系数是基于实现值(y),(y),,(y)的。注2:观测样本相关系数取值在[一1,1]之间。取值接近于1表示强的正相关;取值接近于一1表示强的负相关。取值接近于1或一1表明数据点近似在一条直线上。1.24
标准误差
standarderror
估计量(1.12)θ的标准差(2.37)。示例:如果以样本均值(1.15)作为总体均值(2.35)的一个估计,且随机变量(2.10)的标准差为,则样本均值的标准误差为//n,其中n是样本中观测值的个数。标准误差的一个估计是S//n,其中S是样本标准差(1.17)。注:不存在反义词“非标准”误差。通常在应用中,标准误差特指样本均值的标准差,记为,此时也常简称为“标准误”。
区间估计intervalestimator
由一个上限统计量和一个下限统计量(1.8)所界定的区间。注1:区间的一个端点可以是十,或是参数值的一个自然界限。如“0”是总体方差(2.36)区间估计的一个自然下限。在此情形,区间称为是单侧的。注2:区间估计可结合参数(2.9)估计(1.36)给出。区间估计通常是以假定在重复抽样下,区间包含所估计的参数确定比例或其他某种概率意义下给出的。注3:区间估计通常有三种:参数的置信区间(1.28),对未来观测的预测区间(1.30)和分布(2.11)被包含一个确定比例的统计容忍区间(1.26)。
statisticaltoleranceinterval统计容忍区间
在规定置信水平下,由随机样本(1.6)确定的至少覆盖抽样总体(1.1)的指定比例的区间。注:这里“置信”一词是指在大量重复意义下,所构造区间应至少包含抽样总体的指定比例。1.27
统计容忍限statisticaltolerancelimit表示统计容忍区间(1.26)端点的统计量(1.8)。注:统计容忍限可为以下两种情况的一种:-…单侧容忍限,即单侧的统计容忍上限或单侧的统计容忍下限,此时另一个容忍限为随机变量的自然界限;———双侧容忍限,此时有两个统计容忍限。1.28
置信区间confidenceinterval
参数(2.9)0的区间估计(1.25)(T。,T,),其中作为区间限的统计量(1.8)T。,T,,满足P[T。<注1:置信度反映了在同一条件下大量重复随机抽样(1.6)中,置信区间包含参数真值的比例。置信区间并不能反映观测到的区间包含参数真值的概率(2.5)(观测到的区间只能是要么包含要么不包含参数真值)。注2:一个与置信区间相关的量是100(1一α)%,称为置信系数或置信水平,其中α是一个小的数。对任意确定但未知的总体0值,P[T。<θ小提示:此标准内容仅展示完整标准里的部分截取内容,若需要完整标准请到上方自行免费下载完整标准文档。