偏度(Skewness)又称偏态、偏斜度、偏态系数,是对统计数据分布偏斜程度的度量,是描述分布非对称程度的数字特征。分布数列中,如果次数分布是完全对称的,则称对称分布;如果次数分布不完全对称,则称非对称分布或偏态分布,偏度有左偏和右偏之分。
偏度最初由卡尔·皮尔逊(Karl Pearson)在1895年提出,皮尔逊在论文中将偏度定义为众数与均值之间的距离与标准差的比率。1896年,尤尔(Yule G U)进一步提出偏斜曲线常数的分布通常可以被视为非常接近正态。其他统计学研究者如格鲁内费尔德(Groeneveld R A)及米登(Meeden G)、西格伦(Seglen P O)、阿诺德(Arnold B C)等人在不同程度上丰富了对偏度的研究。随着统计学的发展,偏度的研究逐渐与其他统计概念和方法相结合,形成了更加丰富和完善的统计分析体系。
偏度的计算方法有很多,比较常用的是“算术平均数与众数比较法”及动差法。两种方法的主要区别在于,前者使用算术平均数、中位数、众数来测定偏度,后者则使用三阶中心动差进行计算。偏度和峰度主要用于检查样本的分布是否为正态分布,由此来判断总体的分布是否接近于正态分布。在实际中一个分布的偏度与峰度皆为0或近似为0时,常认为该分布为正态分布或近似为正态分布。
定义
偏度又称偏态、偏斜度、偏态系数,是对统计数据分布偏斜程度的度量,是描述分布非对称程度的数字特征。设随机变量的前三阶矩存在,则如下比值:
称为的偏度系数,简称偏度。当时,称该分布正偏,又称右偏;当时,称该分布为负偏,又称左偏;偏度系数意味着分布具有一定的对称性,任意正态分布的偏度皆为0。
简史
偏度(Skewness)这一概念最初由统计学家卡尔·皮尔逊(Karl Pearson)在1895年提出,皮尔逊在论文中将偏度定义为众数与均值之间的距离与标准差的比率。1896年,尤尔(Yule G U)在皮尔逊的研究基础上,采用频率曲线的处理方法进一步丰富了皮尔逊提出的偏度理论,提出偏斜曲线常数的分布通常可以被视为非常接近正态,或者需要采用一些更复杂的测量方法并给出可能误差。
此外,其他统计学研究者在不同程度上进一步丰富了对偏度的研究。例如,1984年,格鲁内费尔德(Groeneveld R A)及米登(Meeden G)等解决了如何测量连续随机变量的偏斜程度的问题。1992年,西格伦(Seglen P O)发现,出版的文章被引用度的分布非常偏斜,接近半对数图中的线性。1996年,阿诺德(Arnold B C)发现了几种可以用来量化分布的偏斜程度的方法,这些方法基于分布的期望或中位数。随着统计学的发展,偏度的研究逐渐与其他统计概念和方法相结合,形成了更加丰富和完善的统计分析体系。例如,与偏度与峰度、正态分布的联系相关的研究,为数据分布的全面描述提供了更多工具。
性质
偏度可能存在无穷大或者无法定义的情况。当时,该分布中二阶和三阶累积量趋于无穷大,无法定义偏度;或者当或时,三阶累积量无法定义,故而偏度也无法定义。
计算方法
算术平均数与众数比较法
算术平均数与众数比较法是利用算术平均数、中位数与众数三者之间的关系来测定偏度的方法。对称分布中,算术平均数、中位数、众数三者合而为一,所以偏度为零。非对称分布中,三者分离,算术平均数与众数分居两边,中位数介于二者之间。这时,算术平均数与众数之间的距离可以作为测定偏态的一个尺度。即为:,这是偏度的绝对量。这个绝对量为正值,则总体为右偏分布,若为负值,则总体为左偏分布。同时算术平均数与众数之间的距离越大,说明总体次数分布的偏斜程度越大;反之,则说明分布的偏斜程度越小。但是对于不同的分布数列,其偏度绝对量不便于直接对比。为了比较不同的分布数列的偏斜程度,还需要计算偏度的相对数指标,这就是偏态系数。偏态系数是偏度与总体标准差之比,反映分布数列的相对偏斜程度。通常以表示。计算公式为:。
动差法
动差又称矩,原是物理学中的术语。指的是力与力臂对重心的关系。这与统计学中权数和变量值对平均数的关系很相似。如下图,这里是将各组标志值视为力臂,各组次数所占比重视为作用于各点的力,则所有的力对原点的一阶动差为:上式可称为原点的一阶动差。
统计分析中,多用中心动差来测定次数分布的偏斜程度。由于任何分布的一阶中心动差都为零,故不能用来测定偏度。任何离差,经过偶次方后,皆为正值,汇总后不再互相抵消,无法说明左偏或右偏。因此,只可用除一阶动差外的奇次方离差计算的动差。对称分布时,变量值的次数分布围绕着平均数完全对称,其中心动差为零;非对称分布时,等中心动差都不为零,且有正负之值,可以用来测定非对称分布的偏斜程度。为简便计算,通常采用三阶中心动差作为测定偏态的依据。若以表示偏态系数,则:,又因为,即,故也可以表示为,当时,表明分布数列是对称分布;当时,表明分布数列是正向偏态(右偏);这时大于算术平均数的标志值分布离散程度大,致使分布曲线尾端拖向右边,峰部偏向左边;当时,表明分布数列是负向偏态(左偏);这时小于算术平均数的标志值分布离散程度大,致使分布曲线的尾端拖向左边,峰部偏向右边。
计算举例
甲车间300工人,日产量资料如下表。以该表数据为例,分别用算术平均数与众数比较法、动差法进行偏度计算。
算术平均数与众数比较法
根据表中资料计算,计算具体过程如下。计算结果表明甲车间日产量的分布是右偏分布,偏斜程度为0.07。其偏态系数较小,说明工人日产量的众数接近平均数水平。
在计算偏态系数时,如果公式中的众数不易求得,可以用平均数和中位数推算。如前所述,分布数列在微偏的情况下,采用如下计算过程:
计算结果与用众数计算的结果非常接近,即工人日产量的分布是右偏分布且偏斜程度较小。
动差法
仍以车间日产量资料表为例,用动差法计算其偏态系数,计算过程如下。
计算结果表明,该分布数列的偏斜程度为0.032,是轻微的右偏分布,与第一种计算方法得到的结论相同。
相关概念
皮尔逊偏度
对于只有一个众数的情形,常用或做数据偏斜程度的度量,并称之为卡尔·皮尔逊偏度(Pearson skewness)。皮尔逊偏度具有与偏度类似的性质,有如下经验结果:数据分布左偏,则<0,并且值越小说明其左偏程度越高;数据分布右偏,则>0,并且值越大,说明其右偏程度越高,数据分布对称时,显然=0。
对于斜分布,均值和众数都落在尾部较长的一边,因此,均值和众数的差就可用来度量不对称性,如果再除以离差,比如标准差,就可得到偏度的无量纲形式:,该式称为卡尔·皮尔逊第一偏度系数。
如果不用众数,可以用实验式,得到:,该式称为皮尔逊第二偏度系数。
格鲁内费尔德和米德恩系数
格鲁内费尔德(Groeneveld) 和 米德恩(Meeden) 提出可以作为偏度的替代度量,其中为平均值,为众数。该表达式在形式上与卡尔·皮尔逊第二偏度系数密切相关。
L矩
霍斯金(Hosking)提出基于矩的偏度和峰度的替代度量,,其中 ,矩能够以更符合正态性拟合优度检验的方式量化与正态分布的偏差。
距离偏度
偏度值为零并不意味着概率分布是对称的。因此,需要另一种具有此属性的不对称度量作为辅助,这种度量称为距离偏度,用 表示。如果是在维欧几里德空间中取值的随机变量,具有有限期望,是X的独立同分布副本,并且表示欧几里德空间中的范数,则关于不对称性的简单度量位置参数 θ 为,距离偏度表达式如下:
样本分位数偏度
样本分位数偏度(Sample quantile kurtosis)指的是把分位数峰度中分位数换成样本分位数后所得统计量。如样本四分位偏度、样本十分位偏度等。以样本四分位偏度为例,把四分位偏度中的四分位数换成相应样本四分位数,即得样本四分位偏度。更一般地,可以推广至10~90百分位偏度系数。其表达式如下:
峰度
峰度(Kurtosis)亦称峭度、峰态、峰态系数等,是对统计数据分布陡峭程度的度量。峰度是用四阶矩定义的,对于任意一组单峰分布的数据称为其峰度。其中和分别是数据的四阶中心矩和二阶中心矩。峰度分为正态峰度、尖顶峰度和平顶峰度,可以证明,对服从正态分布律的数据,峰度等于或接近0。对绝大多数不服从正态分布律的数据,有这样的经验结果:当分布曲线较正态分布更加“陡峭”时,>0,并称为尖顶峰度;当分布曲线较正态分布“平坦”时,<0,并称为平顶峰度。一般来说,的值越大,则图形越陡峭;的值越小,则图形越平坦。
作用
偏度和峰度主要用于检查样本的分布是否为正态分布,由此来判断总体的分布是否接近于正态分布。在实际中一个分布的偏度与峰度皆为0或近似为0时,常认为该分布为正态分布或近似为正态分布。通常假设样本的分布属于正态分布,因此需要用偏度和峰度来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度,而峰度衡量的是样本分布曲线的尖峰程度。由偏度检验的正态分布常用于近似描述一些生产与科学实验中随机变量的概率分布,还有一些常用的概率分布是直接由正态分布导出的,例如对数正态分布,分布、分布和分布。偏度也适用于假设检验,例如检验就是基于样本偏度和样本峰度的拟合优度正态性检验。此外,偏度是一种描述性统计量,可以与直方图和正态分位数图结合使用来表征数据或分布,表示分布偏离正态分布的方向和相对大小。偏度还可用于通过柯尼希-费舍尔展开(Cornish-Fisher)获得分布的近似概率和分位数(例如金融中的风险价值)。
根据中心极限定理,当变量之和接近高斯分布时,其偏度会随着样本量的增加而减小,这是因为随着样本量的增加,独立同分布的随机变量之和的三阶累积量与二阶累积量的比率会下降。
参考资料偏态.中国大百科全书.2024-02-26
样本偏度系数.中国大百科全书.2024-02-26
描述统计量分析.中国大百科全书.2024-02-26
正态分布.中国大百科全书.2024-02-26