一、随机事件和概率
(一)概率的定义和性质
- 概率的公理化定义
设Ω为样本空间,A为事件,对每一个事件A都有一个实数P(A),若满足下列三个条件:
(1)0≤P(A)≤1.
(2)P(Ω)=1.
(3)对于两辆互不相容的事件A1,A2,⋯有P(i=1⋃∞Ai)=∑i=1∞P(Ai).(该性质通常称为可列(完全)可加性)
则称P(A)为事件A的概率。
- 古典概型(等可能概型)
Ω={ω1,ω2,⋯,ωn},P(ω1)=P(ω2)=⋯=P(ωn)=n1
设任一事件A,它是由ω1、ω2、⋯、ωm组成的,则有P(A)={ω1⋃ω2⋃⋯⋃ωm}=P(ω1)+P(ω2)+⋯+P(ωm)=nm=基本事件总数A所包含的基本事件数
排列组合公式:Amn=(m−n)!m!,Cmn=(m−n)!n!m!,(mn)=Cmn=AnnAmn=n!Amn
要排序用A,不用排序用C
比如:C212=2!12×11=66
(二)概率的五大公式
- 加法公式
P(A+B)=P(A)+P(B)−P(AB).(当P(AB)=0时,P(A+B)=P(A)+P(B))
P(A+B+C)=P(A)+P(B)+P(C)−P(AB)−P(AC)−P(BC)+P(ABC).
随机事件和概率-加法公式-01
- 减法公式
P(A−B)=P(A)−P(AB)(=P(A(1−B))=P(AB))
当B⊂A时,P(A−B)=P(A)−P(B)
当A=Ω时,P(B)=1−P(B)
- 条件概率和乘法公式
条件概率:设A、B是两个事件,且P(A)>0,则称P(A)P(AB)为事件A发生条件下,事件B发生的条件概率,记为P(B∣A)=P(A)P(AB).
(条件概率时概率的一种,所有概率的性质都适合于条件概率。)
概率的乘法公式:P(A1A2⋯An)=P(A1)P(A2∣A1)P(A3∣A1A2)⋯P(An∣A1A2⋯An−1).
- 全概率公式
设事件B1,B2,⋯,Bn满足:
(1)B1,B2,⋯,Bn两两互不相容,P(Bi)>0(i=1,2,⋯,n)
(2)A⊂i=1⋃nBi
则有
P(A)=P(B1)P(A∣B1)+P(B2)P(∣A∣B2)+⋯+P(Bn)P(A∣Bn)=i=1∑nP(Bi)P(A∣Bi)
此公式即为全概率公式。
随机事件和概率-全概率公式-01
- 贝叶斯公式
若事件B1,B2,⋯,Bn及A满足:
(1)B1,B2,⋯,Bn两两互不相容,P(Bi)>0(i=1,2,⋯,n)
(2)A⊂i=1⋃nBi,P(A)>0
则
P(Bi∣A)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)=P(A)P(ABi)
此公式即为贝叶斯公式。
随机事件和概率-贝叶斯公式-01
P(Bi)(i=1,2,⋯,n)通常叫先验概率。P(Bi∣A)(i=1,2,⋯,n)通常称为后验概率。如果我们把A当作观察的“结果”,而B1,B2,⋯,Bn理解为“原因”,则贝叶斯公式反映了“因果”的概率规律,并作出了“由果溯因”的推断。
(三)事件的独立性和伯努利试验
- 两个事件的独立性
设事件A、B满足P(AB)=P(A)P(B),则称事件A、B是相互独立的。
若事件A、B相互独立,且P(A)>0,则有P(B∣A)=P(A)P(AB)=P(A)P(A)P(B)=P(B).
若事件A、B相互独立,则可得到A与B、A与B、A与B也都相互独立。
由定义,我们可知必然事件Ω和不可能事件∅与任何事件都相互独立,同时∅与任何事件都互斥。
区分:互不相容和独立
互不相容指AB=∅,即A、B不会同时发生。
独立指两件事发生的概率不相互影响,此时A、B仍有可能同时发生。
- 多个事件的独立性
设A、B、C是三个事件,如果满足两两独立的条件(即P(AB)=P(A)P(B),P(BC)=P(B)P(C),P(AC)=P(A)P(C)),并且同时满足P(ABC)=P(A)P(B)P(C),那么A、B、C相互独立。对于n个事件独立的条件类似。
- 伯努利试验
定义:我们做了n次试验,且满足
- 每次试验只有两种可能结果,A发生或A不发生.
- n次试验是重复进行的,即A发生的概率每次均一样.
- 每次试验是独立的,即每次试验A发生与否与其他次试验A发生与否是互不影响的.
则这种试验称为伯努利概型,或称为n重伯努利试验。
用p表示每次试验A发生的概率,则A发生的概率为1−p=q,用Pn(k)表示n重伯努利试验中A出现k(0≤k≤n)次的概率,Pn(k)=Cnkpk(1−p)n−k。
二、随机变量及其分布
(一)随机变量的分布函数
- 离散型随机变量的分布率
设离散型随机变量X的可能取值为xk(k=1,2,⋯),且取各个值的概率为pk,即事件(X=xk)的概率为P(X=xk)=pk(k=1,2,⋯),则称上式为离散型随机变量X的概率分布或分布律。有时也用分布列的形式给出:
X |
x1 |
x2 |
⋯ |
xk |
⋯ |
P(X=xk) |
p1 |
p2 |
⋯ |
pk |
⋯ |
显然分布律应满足下列条件:
(1)pk≥0,k=1,2,⋯.
(2)∑k=1∞pk=1.
- 分布函数
对于非离散型随机变量,通常有P(X=x)=0,不可能用分布律表达,例如日光灯管的寿命X,P(X=x0)=0,所以我们考虑用X落在某个区间(a,b]内的概率表示。
定义:设X为随机变量,x是任意实数,则函数F(x)=P(X≤x)称为随机变量X的分布函数。
P(a<X≤b)=F(b)−F(a)可以得到X落入区间(a,b]的概率。也就是说,分布函数完整地描述了随机变量X随机取值的统计规律性。
分布函数F(x)是一个普通的函数,它表示随机变量落入区间(−∞,x]内的概率。
F(x)的图形是阶梯图形,x1,x2,⋯是第一类间断点,随机变量X在xk处的概率就是F(x)在xk处的跃度。
分布函数具有如下性质(对连续型和离散型都适用):
(1)0≤F(x)≤1,−∞<x<+∞.
(2)F(x)是单调不减的函数,即x1<x2,有F(x1)≤F(x2).
(3)F(−∞)=x→−∞limF(x)=0,F(+∞)=x→+∞limF(x)=1.
(4)F(x+0)=F(x),即F(x)是右连续的.
(5)P(X=x)=P(X≤x)−P(X<x)=F(x)−F(x−0).
随机变量及其分布-分布函数-01
离散型一般是右连续的分段函数,而连续型是变上限积分,整个函数都连续(如果被积函数是分段函数,那么在分段处不可导)
- 连续型随机变量的密度函数
定义:设F(x)是随机变量X的分布函数,若存在非负函数f(x),对任意实数x,有F(x)=∫−∞xf(x)dx,则称X为连续性随机变量,f(x)称为X的概率密度函数(或密度函数),简称概率密度。f(x)的图形是一条曲线,称为密度(分布)曲线。
由上式可知,连续型随机变量的分布函数F(x)是连续函数,所以P(x1≤X≤x2)=P(x1<X≤x2)=P(x1≤X<x2)=P(x1<X<x2)=F(x2)−F(x1),即端点处的值取不取不影响概率。
密度函数具有以下性质:
(1)f(x)≥0.
(2)F(+∞)=∫−∞+∞f(x)dx=1,几何意义:在横轴上面、密度曲线下面的全部面积等于1.
如果一个函数f(x)满足性质1、2,则它一定是某个随机变量的密度函数。
(3)P(x1<X≤x2)=F(x2)−F(x1)=∫x1x2f(x)dx.
(4)若f(x)在x处连续,则有F′(x)=f(x),P(x<X≤x+dx)≈f(x)dx,它在连续型随机变量理论中所起的作用与P(X=xk)=pk在离散型随机变量理论中所起的作用类似。
对于连续型随机变量X,虽然有P(X=x)=0,但事件(X=x)并非是不可能事件∅。
P(X=x)≤P(x<X≤x+h)=∫xx+hf(x)dx,令h→0,则右端为零,而概率P(X=x)≥0,故得P(X=x)=0。
连续型在任意一点处的概率都为0,概率密度函数反映的时在该点附近的概率是多少。
不可能事件(∅)的概率为零,而概率为零的事件不一定是不可能事件。同理,必然事件(Ω)的概率为1,而概率为1的事件也不一定是必然事件。
例:已知密度函数f(x)=π(1+x2)1,求在x>1的条件下的条件分布
解:x≤1时,F(x∣X>1)=0
x>1时,F(x∣x>1)=P{X≤x∣X>1}=P{X>1}P{X≤x,X>1}
P{1<X≤x}=∫1xπ(1+t2)1dt=π1arctant∣1x=π1arctanx−41
P{X>1}=∫1+∞π(1+t2)1dt=41
∴F(x∣X>1)={0π4arctanx−1, x≤1, x>1
(二)常见分布
0-1分布
P(X=1)=p,P(X=0)=q
或写成P(X=k)=pk(1−p)1−k,k=0,1,即看作是只做一次的伯努利试验,这是n=1时的二项分布。
二项分布
在n重伯努利试验中,设事件A发生的概率为p。事件A发生的次数是随机变量,设为X,则X可能取值为0,1,2,⋯,n,那么在n次伯努利试验中恰有k次发生A事件的概率为:
P(X=k)=Pn(k)=Cnkpkqn−k
其中q=1−p,0<p<1,k=0,1,2,⋯,n,则称随机变量X服从参数为n、p的二项分布,记为X∼B(n,p)
容易验证,二项分布满足离散型分布律的条件。
当(n+1)p不是整数时,k=[(n+1)p]时取得最大值(其中”[
]“是取整符号)
当(n+1)p是整数时,k=(n+1)p或k=(n+1)p−1时取得最大值
(二项分布在满足一定条件时可以用泊松分布或正态分布近似)
泊松分布
设随机变量X的分布律为
P(X=k)=k!λke−λ, λ>0, k=0,1,2,⋯
则称随机变量X服从参数为λ的泊松分布,记为X∼π(λ)或者P(λ)或Poi(λ)。
泊松分布其实时e−λ乘以eλ的泰勒展开的第n项,因此分布函数F(+∞)(即∑k!λke−λ)等于1,而且此时k只能取正整数。
泊松分布为二项分布的极限分布,即当二项分布的n很大,而np是一个常数时,二项分布可以用泊松分布近似,此时np=λ。(一般是n≥100,而0<np≤10时可以近似;如果不满足条件,那么当n很大时,根据后面的中心极限定理,二项分布也可以用正态分布近似,但是要先进行标准化)
证明泊松分布为二项分布的极限分布:
B(n,nλ)=Cnk(nλ)k(1−nλ)n−k=k!n(n−1)⋯(n−k+1)(nλ)k(1−nλ)n(1−nλ)−k=k!λknkn(n−1)⋯(n−k+1)(1−nλ)n(1−nλ)−k
当n→∞时,nkn(n−1)⋯(n−k+1)=1,(1−nλ)−k=1,(1−nλ)n=重要极限e−λ
∴n→∞limB(n,nλ)=k!λke−λ=Poi(λ)
泊松分布的和仍是泊松分布(相减为Skellam分布)。
X服从参数为λ1的泊松分布,Y服从参数为λ2的泊松分布,X与Y相互独立,Z=X+Y,求证Z服从参数为λ1+λ2的泊松分布:
(和卷积公式类似)
P(Z=z)=∑n=0zP(X=n,Y=z−n)=独立∑n=0zP(X=n)P(Y=z−n)=∑n=0zn!λ1ne−λ1(z−n)!λ2z−ne−λ2=z!e−(λ1+λ2)∑n=0zn!(z−n)!z!λ1nλ2z−n=二项定理z!e−(λ1+λ2)(λ1+λ2)z
即X+Y∼Poi(λ1+λ2)
若在任意两个长度的区间上,事件发生的概率相等,且两段区间事件的发生是相互独立的,则可以用泊松分布计算概率。
比如,假设一个收费站,每隔15分钟平均通过10辆车,那么问15分钟内恰好通过5辆车的概率是多少
这里λ等于10,指在一个区间内事件发生次数的期望;k等于5,指事件在一个区间内发生的次数。
超几何分布
P(X=k)=CNnCMk⋅CN−Mn−k, k=0,1,2,⋯,l, l=min(M,n)
则称随机变量X服从参数为n、N、M的超几何分布。
超几何分布和二项分布联系密切,它们的不同之处是:超几何概率分布中,各次试验不是独立的,并且各次试验中成功的概率不等;或者说二项分布是放回的,而超几何分布是不放回的。
举个例子,有N个球,其中M个白球,N−M个黑球,采用不放回抽样,抽取n个球,那么问抽取的n个球中恰好有k个白球,n−k个黑球的概率是多少,这时的概率就服从超几何分布。
当N很大,n很小(即样本很大,抽取的数量很小),这时虽然要求不放回,但是即使放回了对结果影响也不大,这时超几何分布可以用二项分布近似。
几何分布
P(X=k)=qk−1p, k=1,2,3,⋯
其中p≥0,q=1−p,则称随机变量X服从参数为p的几何分布。
几何分布用于求解概率p对应的事件在第k次才首次发生的概率。
均匀分布
设随机变量X的值只落在[a,b]内,其密度函数f(x)在[a,b]上为常数k,即
f(x)={b−a10, a≤x≤b, 其他
则称随机变量X在[a,b]上服从均匀分布,记为X∼U(a,b)。
均匀分布为连续型概型,其分布函数为
F(x)=⎩⎨⎧0b−ax−a1, x<a, a≤x≤b, x>b
当a≤x1<x2≤b,X落在区间(x1,x2)内的概率为P(x1<X<x2)=∫x1x2f(x)dx=∫x1x2b−a1dx=b−ax2−x1。
指数分布
设随机变量X的密度函数为
f(x)={λe−λx0, x≥0, x<0
其中λ>0,则称随机变量X服从参数为λ的指数分布,记为X∼ϵ(λ)。
X的分布函数为
F(x)={1−e−λx0, x≥0, x<0
指数分布具有无记忆性:若X∼ϵ(λ),取s>0,t>0,则P{X>s+t∣X>s}=P{X>t}。
无记忆性的证明:
P{X>s+t∣X>s}=P{X>s}P{{X>s+t}⋂{X>s}}=∫s+∞λe−λxdx∫s+t+∞λe−λxdx=−eλx∣s+∞−eλx∣s+t+∞=e−λse−λ(s+t)=e−λt。
比如,若灯泡寿命满足指数分布,那么灯泡在使用了s年的基础上可以再t年的概率,和直接可以使用t年的概率是一样的。
指数分布的最小顺序统计量:
若有一系列Ti∼ϵ(λi),且Ti之间相互独立,令X=min(T1,T2,⋯,Tn),则P(X>t)=P(T1>t,T2>t,⋯,Tn>t)=独立∏i=1nP(Ti>t)=∏i=1ne−λit=Exp(−t∑i=1nλi),即X∼ϵ(λ1+λ2+⋯+λn),期望E(x)=λ1+λ2+⋯+λn1。
指数分布常用的几个积分:
∫0+∞xe−xdx=1,∫0+∞x2e−xdx=2,∫0+∞xn−1e−xdx=(n−1)!
伽马函数Γ(α)=∫0+∞xα−1e−xdx,Γ(α+1)=αΓ(α)
∫−∞+∞e−x2dx=π
∫−∞+∞e−x2dx=π是通过二重积分得出的:
求D∬e−x2−y2dxdy,其中D是x从0到R、y从0到R的方形区域
解:对区域进行更改,D1是小41圆的面积,D是矩形的面积,D2是大41圆的面积
随机变量及其分布-指数函数-常用积分-01
由于被积函数大于等于0,于是,D1∬e−x2−y2dxdy≤D∬e−x2−y2dxdy≤D2∬e−x2−y2dxdy
对于D1,换成极坐标∫02πdθ∫0Re−r2rdr=4π(1−e−R2),D2同理,得D2∬e−x2−y2dxdy=4π(1−e−2R2)
当R→+∞时,左右两边都等于4π,根据夹逼定理,D∬e−x2−y2dxdy=4π
即当R→+∞时,D∬e−x2−y2dxdy=∫0Re−x2dx∫0Re−y2dy=(∫0Re−x2dx)2=4π,于是∫0Re−x2dx=2π
由于被积函数是偶函数,∫−RRe−x2dx=2∫0Re−x2dx=π,把R=+∞代进去,可得上面结论。
正态分布
设随机变量X的密度函数为
f(x)=2πσ1e−2σ2(x−μ)2, −∞<x<+∞
其中μ、σ>0为常数,则称随机变量X服从参数为μ、σ的正态分布(或叫高斯(Gauss)分布),记为X∼N(μ,σ2).
f(x)具有如下性质:
(1)f(x)的图形是关于x=μ对称的.
(2)当x=μ时,f(μ)=2πσ1为最大值.
(3)f(x)以ox轴为渐近线.
特别地,当σ固定、改变μ时,f(x)的图形形状不变,只是集体沿ox轴平行移动,所以μ又称为位置参数。
当μ固定、改变σ时,f(x)的图形形状要发生变化。随σ变大,f(x)图形的形状变得平坦,所以又称σ为形状参数。
正态分布的分布函数为
F(x)=2πσ1∫−∞xe−2σ2(t−μ)2dt
参数μ=0、σ=1时的正态分布称为标准正态分布,记为X∼N(0,1),其密度函数为
φ0(x)=2π1e−2x2, −∞<x<+∞
分布函数为
Φ0(x)=2π1∫−∞xe−2t2dt
由于Φ(x)是不可求积函数,其函数值已编制成表可供查用。
如果X∼N(μ,σ2),则σX−μ∼N(0,1),此时P(x1<X<x2)=Φ0(σx2−μ)−Φ(σx1−μ)。
如果一个函数是正态分布,但不是标准状态分布,需要先转换称标准正态分布才能查表,转换公式如下(若其密度函数为φ(x),分布函数为Φ(x)):
φ(x)=σ1φ0(σx−μ),Φ(x)=Φ0(σx−μ)
证明:φ(x)=σ1[2π1Exp(−2(σx−μ)2)],Φ(x)=2π1∫−∞xExp(−2(σt−μ)2)d(σt−μ),即写成标准正态分布的形式直接看出。
φ0(x)和Φ0(x)有如下性质:
(1)φ0(x)是偶函数,φ0(x)=φ0(−x).
(2)当x=0时,φ0(x)=2π1为最大值.
(3)Φ0(−x)=1−Φ0(x),且Φ0(0)=21.
(三)随机变量函数的分布
随机变量Y时随机变量X的函数,Y=g(X),若X的分布函数FX(x)或密度函数fX(x)已知,如何求出Y=g(X)的分布函数FY(y)或密度函数fY(y)
- X是离散型随机变量
已知X的分布列为
X |
x1 |
x2 |
⋯ |
xn |
⋯ |
P(X=xi) |
p1 |
p2 |
⋯ |
pn |
⋯ |
显然,Y=g(X)的取值只可能是g(x1)、g(x2)、⋯、g(xn)、⋯,若g(xi)互不相等,则Y的分布列如下:
Y |
g(x1) |
g(x2) |
⋯ |
g(xn) |
⋯ |
P(Y=yi) |
p1 |
p2 |
⋯ |
pn |
⋯ |
若有某些g(xi)相等,则应将对应的Pi相加作为g(xi)的概率。
- X是连续型随机变量
先利用X的概率密度fX(x)写出Y的分布函数FY(y),再利用变上下限积分的求导公式求出fY(y)。
例1:若已知X的密度函数fX(x),而Y=3X+2,求Y的密度函数fY(x)
解:FY(y)=P{Y≤y}=P{3X+2≤y}=P{X≤3y−2}=FX(3y−2)
(因为FX(x)=P{X≤x},x的地方变成了3y−2)
然后两边同时求导(注意右边是复合函数求导)
∴fY(y)=31fX(3y−2)
例2:若X∼N(μ,σ2),Y=aX+b,a=0
解:a>0时,FY(y)=P{Y≤y}=P{aX+b≤y}=P{X≤ay−b}=Φ(ay−b)
fY(y)=a1Φ(ay−b)=2πaσ1Exp(−2a2σ2(y−(b+aμ))2),即Y∼N(aμ+b,a2σ2)
当a<0时,同理可得fY(y)=2π(−aσ)1Exp(−2a2σ2(y−(b+aμ))2)
三、二维随机变量及其分布
(一)二维随机变量的基本概念
f(x,y) -
(联合)分布密度
对于二维随机变量ξ∈(X,Y),如果存在非负函数f(x,y)(−∞<x<+∞,−∞<y<+∞),使对任意一个其邻边分别平行于坐标轴的矩形区域D,即D={(X,Y)∣a<x<b,c<y<c},有
P{(X,Y)∈D}=D∬f(x,y)dxdy
则称ξ为连续型随机变量,并称f(x,y)为ξ∈(X,Y)的分布密度,或称为X和Y的联合分布密度。
这时P{x1<x<x2,y1<y<y2}=F(x2,y2)−F(x2,y1)−F(x1,y2)+F(x1,y1)
二维随机变量及其分布-二维随机变量的基本概念-联合分布密度-01
分布密度f(x,y)具有下面的性质:
(1)f(x,y)≥0.
(2)∫−∞+∞∫−∞+∞f(x,y)dxdy=1.
fX(x)或fY(y) - 边缘分布密度
一般来说,当(X,Y)为连续型随机变量,并且其联合分布密度为f(x,y),则X和Y的边缘分布密度为
fX(x)=∫−∞+∞f(x,y)dyfY(y)=∫−∞+∞f(x,y)dx
简单地说,X的边缘分布密度就是对y积分(连续型)或求和(离散型);Y的边缘分布密度就是对x积分(连续型)或求和(离散型)。X的边缘分布指在不考虑Y的情况下,X发生的概率(Y同理)。
从图像上看:
二维随机变量及其分布-二维随机变量的基本概念-边缘分布密度-01
比如离散型,先求出行和、列和:
X\Y12108181221818538181418583
因此X的边缘分布为:
XP185283
(边缘分布中X=1的概率就是对前面表格中,当X=1时对应Y的所有可能进行求和,也就是前面表格中第一行的行和,其他同理)
Y的边缘分布为:
YP181285341
F(x∣y)或F(y∣x) - 条件分布
当(X,Y)为离散型,并且联合分布律为P{(X,Y)=(xi,yj)}=pij(i,j=1,2,⋯),在已知X=xi的条件下,Y取值的条件分布为:
P(Y=yj∣X=xi)=Pi∙Pij
X的条件分布同理。其中pi∙、p∙j分别为X、Y的边缘分布
当(X,Y)为连续型随机变量,并且其联合分布密度为f(x,y),则在已知Y=y的条件下,X的条件分布密度和分布函数为:
f(x∣y)=fY(y)f(x,y)P{X≤x∣Y=y}=F(x∣y)=∫−∞xfY(y)f(u,y)du
在已知X=x的条件下,Y的条件分布密度为:
f(y∣x)=fX(x)f(x,y)
其中fX(x)>0、fY(y)>0分别为X、Y的边缘分布密度。
F(x,y) -
(联合)分布函数
设(X,Y)为二维随机变量,对于任意实数x、y,二元函数
F(x,y)=P{X≤x,Y≤y}
称为二维随机变量(X,Y)的分布函数,或称为随机变量X和Y的联合分布函数。
分布函数是一个以全平面为定义域、以事件{(ω1,ω2)∣−∞<X(ω1)≤x, −∞<Y(ω2)≤y}的概率为函数值的一个实值函数。
分布函数具有以下性质:
(1)0≤F(x,y)≤1.
(2)F(x,y)分别对x、y是非减的,即,当x2>x1时,由F(x2,y)≥F(x1,y);当y2>y1时,有F(x,y2)≥F(x,y1).
(3)F(x,y)分别对x和y是右连续的,即F(x,y)=F(x+0,y),F(x,y)=F(x,y+0).
(4)F(−∞,+∞)=F(−∞,y)=F(x,−∞)=0,F(+∞,+∞)=1.
在已知(X,Y)联合分布密度f(x,y)的情况下,如果Z是关于X、Y的函数,Z=g(X,Y),那么如何求解Z的分布:
FZ(z)=P{Z≤z}=P{g(X,Y)≤z}=Dz∬f(x,y)dxdy,其中Dz={(x,y)∣g(x,y)≤z}
例:已知f(x,y)=2π1e−2x2+y2,Z=X2+Y2,求FZ(z)
解:当z<0时,FZ(z)=P{Z≤z}=P{X2+Y2≤z}=0.
当z≥0时,Dz是x2+y2≤z2的一个圆的内部,
FZ(z)=P{X2+Y2≤z}=Dz∬2π1e−2x2+y2dxdy=∫02πdθ∫0z2π1e−2r2rdr=1−e−z2
(二)随机变量的独立性
- 连续型随机变量
若X与Y独立,则密度函数与边缘分布之间的关系,以及分布函数的关系分别为:
f(x,y)=fX(x)fY(y)F(x,y)=FX(x)FY(y)
即独立意味着联合分布密度等于边缘分布密度相乘(联合分布密度就是两件事同时发生的概率函数,对于独立事件,同时发生就是概率相乘)
此时f(x∣y)=fX(x).
直接判断是否独立,充要条件:
(1)可分离变量.
(2)正概率密度区间为矩形.
如果X和Y独立,Z=X+Y,那么可以得到卷积公式:
二维随机变量及其分布-随机变量的独立性-卷积公式-01
FZ(z)=P{Z≤z}=P{X+Y≤z}=X+Y≤z∬f(x,y)dxdy=∫−∞+∞dx∫−∞z−xf(x,y)dy
令t=x+y,则y=t−x,FZ(z)=∫−∞+∞dx∫−∞zf(x,t−x)dt,这是一个X型的积分,画出积分区域后,把它改写成Y型的积分
FZ(z)=∫−∞zdt∫−∞+∞f(x,t−x)dx
∴fZ(z)=FZ′(z)=∫−∞+∞f(x,z−x)dx=X与Y独立∫−∞+∞fX(x)fY(z−x)dx,fZ(z)=∫−∞+∞f(z−y,y)dy=∫−∞+∞fX(z−y)fY(y)dy
- 随机变量函数的独立性
若X与Y独立,h、g为连续函数,则h(X)与g(Y)独立。
(三)常见的二维分布
- 均匀分布
设随机变量(X,Y)的分布密度函数为
f(x,y)={SD10, (x,y)∈D, 其他
其中SD为区域D的面积,则称(X,Y)服从D上的均匀分布,记为(X,Y)∼U(D).
- 正态分布
设随机变量(X,Y)的分布密度函数为
f(x,y)=2πσ1σ21−ρ21e−2(1−ρ2)1[(σ1x−μ1)2−σ1σ22ρ(x−μ1)(y−μ2)+(σ2y−μ2)2]
其中μ1、μ2、σ1>0、σ2>0、∣ρ∣<1,是5个参数,称为(X,Y)服从二维正态分布,记为(X,Y)∼N(μ1,μ2,σ12,σ22,ρ).
由边缘密度的计算公式,可以推出二维正态分布的两个边缘分布仍为正态分布,即X∼N(μ1,σ12),Y∼N(μ2,σ22)。(但是反过来不一定成立,即,即使X和Y都是正态分布,但他们的联合分布密度不确定)
只有当X和Y是相互独立的正态分布,且Z=X+Y的时候,X与Y的联合分布Z才是正态分布。
证明:
设X∼N(0,1),Y∼N(0,1),X与Y独立,Z=X+Y
由卷积公式,得
ΦZ(z)=∫−∞+∞φX(x)φY(z−x)dx=∫−∞+∞2π1e−2x22π1e−x(z−x)2dx=∫−∞+∞2π1e−4z2e−(x−2z)2dx=2π1e−4z2∫−∞+∞e−(x−2z)2d(x−2z)=2π⋅21e−2(2)2z2
即Z∼N(0,2)
同理,若X、Y不是标准的正态分布,而是普通的正态分布时:X∼N(μ,σ12),X∼N(μ2,σ22),X+Y∼N(μ1+μ2,σ12+σ22).
ρ=0时,二维状态分布是独立的,此时f(x,y)=fX(x)fY(y),而且,对于二维正态分布来说,不相关等价于独立。
四、随机变量的数字特征
(一)期望
期望的定义与性质
离散型
设X是离散型随机变量,其分布律为P(X=xk)=pk(k=1,2,⋯,n),则其期望为
E(X)=k=1∑nxkpk
期望也称作均值。
连续型
设X是连续型随机变量,其概率密度为f(x),则
E(X)=∫−∞+∞xf(x)dx
(二维的形式:如果已知f(x,y),那么先算出fX(x),E(X)=∫−∞+∞xfX(x)dx)
期望的性质
(1)E(C)=C,E(X+C)=E(X)+C(C是常数).
(2)E(CX)=CE(X).
(3)E(X±Y)=E(X)±E(Y),E(∑i=1nCiXi)=∑i=1nCiE(Xi).
(4)若X与Y独立(充分条件),或X与Y不相关(充要条件),则E(XY)=E(X)E(Y).
注意,X和X自身并不独立,因为一个X增加,另一个也必然会相应增加。像E(X2)只能用性质(5)求。
(5)若Y=g(X)
离散:若P(X=xk)=pk(k=1,2,⋯,n),则E(Y)=∑k=1ng(xk)pk
连续:若E(X)=∫−∞+∞xf(x)dx,则E(Y)=∫−∞+∞g(x)f(x)dx
二维的形式,若Z=g(X,Y)
离散:E(Z)=∑i=1n∑j=1mg(xi,yj)pij
连续:E(Z)=∫−∞+∞∫−∞+∞g(x,y)f(x,y)dxdy
(6)条件期望
离散:E(X∣y=yj)=∑i=1nxiP{X=xi∣Y=yj}
连续:E(X∣Y=y)=∫−∞+∞x(x∣y)dx
例1:已知某商品的需求量x满足在[2000,4000]上的均匀分布(单位:吨),若每卖出1吨可赚3万,卖不出10吨亏损1万,求收益最高为多少。
解:f(x)={200010, 2000≤x≤4000, else 设y为生产数量,Y为收益,则Y=g(x)={3y3x−(y−x), x≥y, x<y
E(Y)=∫−∞+∞g(x)f(x)dx=∫200040002000g(x)dx=20001[∫2000y(4x−y)dx+∫y40003ydx]=10001(−y2+7000y−4000000)
∴当生产数量y=3500时收益达到最高,Y=⋯
例2:假设某商品的进货量X与需求量Y独立,且X和Y都在[10,20]上满足均匀分布,若每卖一件赚1000元,如果不够可以从其他商店进货,但只赚500元,问平均利润是多少?
解:设利润Z=g(X,Y)={1000Y1000X+500(Y−X), Y≤X, Y>X
fX(x)={1010, 10≤x≤20, else,fY(y)={1010, 10≤x≤20, else
f(x,y)=fX(x)fY(y)={10010, 10≤x≤20, 10≤y≤20, else
E(Z)=∫−∞+∞∫−∞+∞g(x,y)f(x,y)dxdy=1001∫1020∫1020g(x,y)dxdy=1001∫1020dy∫1020g(x,y)dx=1001∫1020dy[∫10y500(x+y)dx+∫y201000ydx]≈14166.67
条件期望
离散型随机变量的条件期望
在已知Y=yj的情况下,X的条件期望为:
E(X∣Y=yj)=i=1∑∞xiP(X=xi∣Y=yj)=i=1∑∞P∙jxiPij
连续型随机变量的条件期望
在已知Y=y的情况下,X的条件期望为:
E(X∣Y=y)=∫−∞+∞xf(x∣y)dx=∫−∞+∞fY(y)xf(x,y)dx=∫−∞+∞f(x,y)dx∫−∞+∞xf(x,y)dx
同理,E(Y∣X=x)=∫−∞+∞yf(y∣x)dy.
条件期望的性质:
(1)全期望公式:E[ E(X∣Y) ]=E(x);
对原本进行分类,单独求每个分类的期望后,再求分类的总体期望,与直接求总体期望的结果一样。
证明:
离散时,
左边=∑j=1∞E(X∣Y=yj)×P(Y=yj)=∑j=1∞∑i=1∞P∙jxiPijP∙j=∑i=1∞xi∑j=1∞Pij=∑i=1∞xiPi∙=右边,
其中,如果Y是离散型随机变量,那么E(X∣Y)也是离散型随机变量,其分布列为E(X∣Y)PE[X∣Y=y1]P(Y=y1)⋯⋯E[X∣Y=yj]P(Y=yj)
连续时,
左边=∫−∞+∞E(X∣Y=y)fY(y)dy=∫−∞+∞∫−∞+∞f(x,y)dx∫−∞+∞xf(x,y)dxfY(y)dy=∫−∞+∞∫−∞+∞f(x,y)dx∫−∞+∞xf(x,y)dx[∫−∞+∞f(x,y)dx]dy=∫−∞+∞xdx∫−∞+∞f(x,y)dy=∫−∞+∞xfX(x)dx=右边
(2)X与Y独立时,E(X∣Y)=E(X);
证明:
离散时,E(X∣Y=yj)=∑i=1∞P∙jxiPij=∑i=1∞xiPi∙;
连续时,E(X∣Y=y)=∫−∞+∞fY(y)xf(x,y)dx=X与Y独立∫−∞+∞fY(y)xfX(x)fY(y)dx=∫−∞+∞xfX(x)dx.
(3)E(∑i=1nciXi∣Y)=∑i=1nciE(Xi∣Y) a.s.,比如:E[(c1X1+c2X2)∣Y]=c1E(X1∣Y)+c2E(X2∣Y) a.s.;
(4)对于任意实函数h(x),都有E[h(x)E(X∣Y)]=E[h(x)X];
证明:左边=∫h(x)E(X∣Y=y)fY(y)dy=∫h(x)∫f(x,y)dx∫xf(x,y)dxfY(y)dy=∬h(x)xf(x,y)dxdy=右边.
(5)对于任意实函数h(y),都有E[h(y)X∣Y]=h(y)E(X∣Y) a.s.;
证明:∀y∈R,E[h(y)X∣Y=y]=∫f(x,y)dx∫h(y)xf(x,y)dx=h(y)∫f(x,y)dx∫xf(x,y)dx=h(y)E(X∣Y=y).
特别地,E(X∣X)=X,因为对于E(X∣X=xj),只有P(X=xi=xj∣X=xj)才不为0.
(6)当Z与(X,Y)独立时,E(ZX∣Y)=E(Z)E(X∣Y) a.s.;
因为P(ZX∣Y)=P(Y)P(XYZ)=P(Z∣XY)P(X∣Y)=P(Z)P(X∣Y).
随机向量的条件期望
定义:随机变量X关于n维随机向量Y=(Y1,⋯,Yn)的条件期望E(X∣Y),是一个新的随机变量,是Y的函数。
性质:
(1)全期望公式:E[E(X∣Y)]=E(X);
(2)X与Y独立时,E(X∣Y)=E(X);
(3)E(∑i=1nciXi∣Y)=∑i=1nciE(Xi∣Y) a.s.;
(4)对于任意实值n元函数g(t1,⋯,tn),都有E[g(Y)E(X∣Y)]=E[g(Y)X];
(5)对于任意实值n元函数g(t1,⋯,tn),都有E[g(Y)X∣Y]=g(Y)E(X∣Y) a.s.。
(二)方差
方差与标准差
方差:
D(X)=E{[X−E(X)]2}
离散型:D(X)=∑k[xk−E(X)]2pk.
连续型:D(X)=∫−∞+∞[x−E(X)]2f(x)dx.
标准差:
σ(X)=D(X)
方差的性质
(1)D(C)=0(C是常数,常数的方差为0;对比期望E(C)=C;变量方差为0的充要条件是P{X=E(X)}=1)
(2)D(aX)=a2D(X)(对比期望E(aX)=aE(X))
(3)D(aX+b)=a2D(X)(对比期望E(aX+b)=aE(X)+b)
(4)D(X)=E(X2)−[E(X)]2
(5)D(X±Y)=D(X)+D(Y)±2E[(X−E(X))(Y−E(Y))]=D(X)+D(Y)±2cov(X,Y)。
特别地,如果X与Y独立(充分条件),或X与Y不相关(充要条件),则协方差cov(X,Y)=0,D(X±Y)=D(X)+D(Y)
性质4的证明:
D(X)=E{[X−E(X)]2}=E{X2−2XE(X)+[E(X)]2}=E(X2)−2[E(X)]2+[E(X)]2=E(X2)−[E(X)]2
性质5的证明:
D(X±Y)=E{[X±Y−E(X±Y)]2}=E{[X±Y−E(X)∓E(Y)]2}=E{[(X−E(X))±(Y−E(Y))]2}=E{[X−E(X)]2±2[X−E(X)][Y−E(Y)]+[Y−E(Y)]2}=E[X−E(X)]2+E[Y−E(Y)]2±2E{[X−E(X)][Y−E(Y)]}=D(X)+D(Y)±E[XY−XE(Y)−YE(X)+E(X)E(Y)]
条件方差
在已知Y=y的情况下,X的条件方差定义为(是关于y的函数):
D(X∣Y=y)=E[(X−E(X∣Y=y))2∣Y=y]=E(X2∣Y=y)−[E(X∣Y=y)]2 性质:D(X)=E[D(X∣Y)]+D[E(X∣Y)]
证明:
E[D(X∣Y)]=E[ E(X2∣Y)−(E(X∣Y))2 ]=E[E(X2∣Y)]−E[(E(X∣Y))2]=E(X2)−E[(E(X∣Y))2]
D[E(X∣Y)]=E[(E(X∣Y))2]−[E(E(X∣Y))]2=E[(E(X∣Y))2]−[E(X)]2
故E[D(X∣Y)]+D[E(X∣Y)]=E(X2)−E2(X)=D(X)
(三)常见分布的期望与方差
总结
分布名称 |
符号 |
期望 |
方差 |
0-1分布 |
B(1,p) |
p |
p(1−p) |
二项分布 |
B(n,p) |
np |
np(1−p) |
泊松分布 |
Poi(λ) |
λ |
λ |
几何分布 |
G(P) |
p1 |
p21−p |
超几何分布 |
H(n,M,N) |
NnM |
NnM(1−NM)(N−1N−n) |
均匀分布 |
U(a,b) |
2a+b |
12(b−a)2 |
指数分布 |
ϵ(λ) |
λ1 |
λ21 |
正态分布 |
N(μ.σ2) |
μ |
σ2 |
0-1分布
0-1分布:P(X=1)=p,P(X=0)=q,q=1−p
E(X)=p,D(X)=pq
E(X)=1⋅p+0⋅q=p
D(X)=E(X2)−[E(X)]2=p−p2=p(1−p)=pq
二项分布
二项分布:X∼B(n,p),Pn(k)=Cnkpkqn−k,q=1−p,k=0,1,2,⋯,n
E(X)=np,D(X)=npq
E(X)=∑k=0nkCnkpkqn−k=∑k=0nkk!(n−k)!n!pkqn−k=∑k=1n(k−1)!(n−k)!n!pkqn−k=np∑k=1n−1k!(n−k)!(n−1)!pk−1qn−k=np∑k−1=0n−1Cn−1k−1pk−1qn−k=np
(因为根据莱布尼兹公式(p+q)n=∑k=0nCnkpkqn−k,而∑k−1=0n−1Cn−1k−1pk−1qn−k=(p+q)n−1=1n−1)
泊松分布
泊松分布:X∼Poi(λ),P(X=k)=k!λke−λ, λ>0, k=0,1,2,⋯
E(X)=λ,D(X)=λ
E(X)=∑k=0∞kk!λke−λ=∑k=1∞(k−1)!λke−λ=λ∑k=1∞(k−1)!λk−1e−λ=λ∑m=0∞m!λme−λ=λ
(因为m!λme−λ是一个泊松分布,它的概率之和为1)
E(X2)=∑k=0∞k2k!λke−λ=∑k=1∞(k−1+1)(k−1)!λke−λ=∑k=1∞(k−1)!(k−1)λke−λ+λ∑k=1∞(k−1)!λk−1e−λ=λ2∑k=2∞(k−2)!λk−2e−λ+λ=λ2+λ
D(X)=E(X2)−[E(X)]2=λ
超几何分布
超几何分布:P(X=k)=CNnCMk⋅CN−Mn−k, k=0,1,2,⋯,l, l=min(M,n)
E(X)=NnM,D(X)=NnM(1−NM)(N−1N−n)
几何分布
几何分布:P(X=k)=qk−1p=(1−p)k−1p, k=1,2,3,⋯
E(X)=p1,D(X)=p2q=p21−p
先回顾级数求和:
∑k=1∞kxk−1=(∑k=1∞xk)′=(1−xx)′=(1−x)21,∣x∣<1
∑k=1∞k2xk−1=∑k=1∞k⋅kxk−1=(∑k=1∞kxk)′=(x∑k=1∞kxk−1)′=((1−x)2x)′=(1−x)31+x,∣x∣<1
由于概率p<1,所以可以用上面结论
E(X)=∑k=1∞k(1−p)k−1p=p∑k=1∞k(1−p)k−1=pp21=p1
E(X2)=∑k=1∞k2(1−p)k−1p=p∑k=1∞k2(1−p)k−1=pp32−p=p22−p
D(X)=E(X2)−[E(X)]2=p22−p−(p1)2=p21−p
均匀分布
均匀分布:X∼U[a,b],f(x)=b−a1,x∈[a,b]
E(X)=2a+b,D(X)=12(b−a)2
指数分布
X∼ϵ(λ),f(x)=λe−λx,x≥0
E(X)=λ1,D(X)=λ21
正态分布
X∼N(μ,σ2),f(x)=2πσ1e−2σ2(x−μ)2
E(X)=μ,D(X)=σ2
前面提到过,σX−μ∼N(0,1),即一般的正态分布减去期望再除以标准差后,可以转换成标准正态分布再查表。
(四)二维随机变量的数字特征
协方差
对于随机变量X与Y,称它们的二阶混合中心矩μ11为X与Y的协方差或相关矩,记为σXY或cov(X,Y),即
cov(X,Y)=σXY=μ11=E{[X−E(X)][Y−E(Y)]}
与记号σXY相对应,X与Y的方差D(X)与D(Y)也可分别记为σXX与σYY。
协方差有以下性质:
(1)cov(X,Y)=cov(Y,X).
(2)cov(aX,bY)=ab cov(X,Y).
(3)cov(X1+X2,Y)=cov(X1,Y)+cov(X2,Y).
(4)cov(X,Y)=E(XY)−E(X)E(Y).
相关系数
对于随机变量X与Y,如果D(X)>0,D(Y)>0,则称
D(X)D(Y)σXY
为X与Y的相关系数,记作ρXY,有时也简记为ρ,∣ρ∣≤1。
证明∣ρ∣≤1:
引理:柯西-施瓦茨不等式:[E(XY)]2≤E(X2)E(Y2)
如果令X1=X−E(X),Y1=Y−E(Y),则D(X)=E{[X−E(X)]2}=E(X12),D(Y)=E{[Y−E(Y)]2}=E(Y12)
ρ2=D(X)D(Y)E{[(X−E(X))(Y−E(Y))]2}=E(X12)E(Y12)[E(X1,Y1)]2≤1
根据ρ取值的不同,X与Y有不同的关系:
- 当∣ρ∣=1时,X与Y以P=1呈线性关系,即P(Y=aX+b)=1,此时称X与Y完全相关.
- 当ρ=1时,叫完全正相关.
- 当ρ=−1时,叫完全负相关.
- ρ越接近0,X与Y的线性关系越弱。而当ρ=0时,称X与Y不相关.
关于相关系数的几个重要结论:
(1)若随机变量X与Y独立,则ρXY=0,但反过来不一定成立。(相关系数只是用来描述线性相关程度的,ρ=0意味着不线性相关,但仍有可能有其他关系,不一定独立)
(2)若(X,Y)∼N(μ1,μ2,σ12,σ22,ρ),则X与Y相互独立的充要条件是ρ=0,即X与Y不相关。
(3)以下几个命题是等价的:
- ρXY=0.
- cov(X,Y)=0.
- E(XY)=E(X)E(Y).
- D(X+Y)=D(X)+D(Y).
- D(X−Y)=D(X)+D(Y).
不独立协方差也可以为0:
X\Y-101-18181818308108141181818183834183
边缘分布: XP−183041183, YP−183041183
此时E(X)=−1×83+0×41+1×83=0,E(Y)=0,E(XY)=81−81+81−81=0
cov(X,Y)=E(XY)−E(X)E(Y)=0
独立意味着联合分布密度等于边缘分布密度相乘,但是P(X=−1)P(Y=−1)=649,P(X=−1,Y=−1)=81,P(X=−1)P(Y=−1)=P(X=−1,Y=−1),显然这里X与Y并不独立。
原点矩和中心矩
原点矩
对于正整数k,称随机变量X的k次幂的数学期望为X的k阶原点矩,记为vk,即vk=E(Xk),k=,1,2,⋯,于是有:
vk={∑ixikpi∫−∞+∞xkp(x)dx, 当X为离散型, 当X为连续型
中心矩
对于正整数k,称随机变量X与E(X)差的k次幂的数学期望为X的k阶中心矩,记为μk,即μk=E{[X−E(X)]k},k=1,2,⋯,于是有:
μk={∑i[xi−E(X)]kpi∫−∞+∞[x−E(X)]kp(x)dx, 当X为离散型, 当X为连续型
混合原点矩
对于随机变量X与Y,如果有E(XkYl)存在,则称之为X与Y的k+l阶混合原点矩,记为vkl,即vkl=E{[X−E(X)]k[Y−E(Y)]l}.
五、大数定律和中心极限定理
(一)切比雪夫不等式
设随机变量X具有数学期望E(X)=μ,方差D(X)=σ2,则对于任意正数ϵ,有下列切比雪夫不等式
P(∣X−μ∣≥ϵ)≤ϵ2σ2
或写成
P(∣X−μ∣≤ϵ)≤1−ϵ2σ2
切比雪夫不等式给出了在未知X的分布的情况下,对变量X落在期望的某个邻域外面的概率估计。
证明:
对于连续型,设x的分布密度为f(x)
P(∣X−E(X)∣≥ϵ)=∣X−E(X)∣≥ϵ∫f(x)dx
由于在积分区域上,∣X−E(X)∣≥ϵ,两边平方去绝对值,得[X−E(X)]2≥ϵ2,即ϵ2[X−E(X)]2≥1;由于被积函数大于等于0,还可以对积分区域进行放大
∴∣X−E(X)∣≥ϵ∫f(x)dx≤∣X−E(X)∣≥ϵ∫ϵ2[X−E(X)]2f(x)dx≤∫−∞+∞ϵ2[X−E(X)]2f(x)dx=ϵ21∫−∞+∞[X−E(X)]2f(x)dx=ϵ2D(X).
(二)大数定律
切比雪夫大数定律
(要求方差有界)
设随机变量X1、X2、⋯相互独立(实际上不相关就行,而且不要求同分布),数学期望存在,均具有有限方差且被同一常数C所界(即方差有界,D(Xi)<C,i=1,2,⋯),则对于任意的正数ϵ,有:
n→∞limP(∣n1i=1∑nXi−n1i=1∑nE(Xi)∣<ϵ)=1
证明:
对于事件n1∑i=1nXi,先求出其期望和方差
E(n1∑i=1nXi)=n1∑i=1nE(Xi),∵不相关,∴D(n1∑i=1nXi)=n21∑i=1nD(Xi)≤n2nC=nC
根据切比雪夫不等式,P{∣n1∑i=1nXi−n1∑i=1nE(Xi)∣<ϵ}≥1−ϵ2D(n1∑i=1n)≥1−nϵ2C
当n→∞时,上式右边为1,再由于概率小于等于1,所以上式就等于1.
特别地,如果X1、X2、⋯具有相同的数学期望μ,则上式变为
n→∞limP(∣n1i=1∑nXi−μ∣<ϵ)=1
或简写成
n→∞limP(∣X−μ∣<ϵ)=1
切比雪夫大数定律指出,n个相互独立,且具有有限的相同的数学期望和方差的随机变量,当n很大时,它们的算术平均以很大的概率接近它们的数学期望。(即可以用均值逼近期望)
伯努利大数定律
设μ是n次独立试验中事件A发生的次数,p是事件A在每次试验中发生的概率,则对于任意的正数ϵ,有
n→∞limP(∣nμ−p∣<ϵ)=1
μ是事件发生的次数,那么nμ就是事件发生的频率,对于只有发生和不发生的事件,一般用的是二项分布。
证明:
若mn∼B(n,p),则E(nmn)=n1E(mn)=nnp=p,D(nmn)=n2np(1−p)=np(1−p)
根据切比雪夫不等式,P{∣nmn−p∣<ϵ}≥1−ϵ2np(1−p)=1−nϵ2p(1−p)
当n→∞时,上式右边为1,再由于概率小于等于1,所以上式就等于1.
我们一般把n→∞limP{∣Xn−a∣<ϵ}=1叫概率收敛。和收敛不同,概率收敛允许有少数点不落在a的大小为ϵ的对称邻域内。
伯努利大数定律还可以写成:
n→∞limP(∣nμ−p∣≥ϵ)=0
伯努利大数定律说明,当试验的次数n很大时,事件A发生的频率与概率有较大区别的可能性很小。(即可以用频率逼近概率)
频率:试验统计的值。概率:理论值。
若Xi=1代表发生,Xi=0代表不发生,那么∑Xi可以表示事件发生的次数,此时Xi是0-1分布,而0-1分布的期望是p,把上述变量代入伯努利大数定律,也可以得到切比雪夫大数定律。
辛钦大数定律
(不要求方差存在)
设随机变量X1、X2、⋯、Xn、⋯是相互独立同分布的随机变量序列,且E(X1)=⋯=E(Xn)=⋯=μ,则对于任意的正数ϵ,有
n→∞limP(∣n1i=1∑nXi−μ∣<ϵ)=1
辛钦大数定律看似与切比雪夫大数定律相同,但是它们的条件不同:
切比雪夫大数定律不要求同分布,但是要求变量独立,且期望、方差都存在且有界;
而辛钦大数定律要求独立、同分布,且期望存在并相等,但不要求方差存在。
(三)中心极限定理
- 列维-林德伯格定理
设随机变量X1、X2、⋯相互独立,服从同一分布,且具有相同的数学期望和方差,E(Xk)=μ,D(Xk)=σ2=0,则随机变量Yn=nσ∑k=1nXk−nμ的分布函数Fn(x)对任意的实数x,有
n→∞limFn(x)=n→∞limP(nσ∑k=1nXk−nμ≤x)=2π1∫−∞xe−2t2dt
或简写成σ/nX−μn→∞⟶N(0,1)
对于具有相同期望μ和相同方差σ的一系列事件Xk,它的和∑k=1nXk的期望E(∑k=1nXk)=nE(X)=nμ,方差D(∑k=1nXk)=nD(X)=nσ2
对于一个事件减去期望再除以标准差,其实这是一个对一般正态分布进行标准化的过程。换而言之,事件的和∑k=1nXk(n→∞)满足一般正态分布,而为了研究它的概率,一般先对其进行标准化之后,再查标准正态分布的表。
此定理也称为独立同分布的中心极限定理。
例:假设有100名顾客,每位顾客的消费金额相互独立且满足在[0,60]上的均匀分布,问日销售额超过3500元的概率是多少?
解:设Xi为第i位顾客的消费金额,则E(Xi)=2b−a=30,D(Xi)=12(b−a)2=300
根据独立同分布的中心极限定理,∑i=1100Xi满足一般的正态分布,要求出它超过3500的概率,先对其进行标准化,即10300∑i=1100Xi−3000∼N(0,1)
P(∑i=1100xi>3500)=1−P(∑i=1100xi≤3500)=1−P(10300∑i=1100xi−3000≤103003500−3000)=1−Φ0(2.887)
- 棣莫弗-拉普拉斯定理(DeMoivre-Laplace中心极限定理)
设随机变量X1、X2、⋯均为具有参数n、p的二项分布,则对于任意实数x,有
n→∞limP(np(1−p)Xn−np≤x)=2π1∫−∞xe−2t2dt
若Xi=1表示事件发生,Xi=0表示事件不发生,这时Xi是0-1分布,那么∑Xi可以表示事件发生的次数,而0-1分布的标准差为p(1−p),代入列维-林德伯格定理,就可以得到上式。
棣莫弗-拉普拉斯定理说明了,当n很大时,二项分布可以用正态分布近似(但是要先进行标准化才能查表)。
例:求二项分布的值P(X=88)=C10000880.005880.9959912
解:n=10000,p=0.005
由于定理只能求小于某个数的概率,是一个区间,所以X=88的概率可以用从X=77.5到88.5之间的概率近似
特别地,P(X=k)=P(k−21<X<k+21)=P(np(1−p)k−21−np<np(1−p)X−np<np(1−p)k+21−np)=Φ0(np(1−p)k+21−np)−Φ0(np(1−p)k−21−np).
(四)二项定理和泊松定理
- 二项定理
若当N→∞时,NM→p(n,k不变),则
CNnCMkCN−Mn−k→Cnkpk(1−p)n−k
证明:
CNnCMkCN−Mn−k=k!(M−k)!M!(N−k)!(N−M−n+k)!(N−M)!N!n!(N−n)!=N⋯NM(M−1)⋯(M−k+1)N⋯N(N−M)⋯[N−M−(n−k)+1]k!(n−k)!n!N(N−1)⋯(N−n+1)N⋯N
其中,limN→+∞N⋯NM(M−1)⋯(M−k+1)=pk,limN→+∞N⋯N(N−M)⋯[N−M−(n−k)+1]=(1−p)n−k,limN→+∞N(N−1)⋯(N−n+1)N⋯N=1
∴limN→+∞CNnCMkCN−MN−k=Cnkpk(1−p)n−k
即超几何分布的极限分布为二项分布。
- 泊松定理
若当n→∞时,np→λ>0,则
Cnkpk(1−p)n−k→k!λke−λ, k=0,1,2,⋯
证明在前面“常见分布”中。
六、数理统计
(一)总体、个体和样本
- 总体和样本
在数理统计中,常把被考察对象的某一个或多个指标的全体称为总体(或母体),而把总体总的每一个单元称为样本(或个体)。在以后的讨论中,我们总是把总体看成一个具有分布的随机变量(或随机向量)。
- 样本函数与统计量
设x1、x2、⋯、xn为总体的一个样本,称
φ=φ(x1,x2,⋯,xn)
为样本函数,其中φ为一个连续函数。
如果φ中不包含任何未知参数,则称φ(x1,x2,⋯,xn)为一个统计量。(统计量:不包含未知参数的函数)
(二)常用统计量
样本均值:X=n1∑i=1nXi.
样本方差:S2=n−11∑i=1n(Xi−X)2.(和概率论中方差的定义不同)
样本标准差:S=n−11∑i=1n(Xi−X)2.
样本k阶原点矩:Mk=n1∑i=1nXik,k=1,2,⋯.
样本k阶中心矩:Mk′=n1∑i=1n(Xi−X)k,k=1,2,⋯.
其中二阶中心矩:S∗2=n1∑i=1n(Xi−X)2(与概率论中方差定义相同)
统计量的期望和方差:E(X)=μ,D(X)=nσ2,E(S2)=σ,E(S∗2)=nn−1σ2.
(三)三个抽样分布
上α分位数
数理统计-上α分位数-01
比如χ0.052(10)=18.3,其中χ2表示卡方分布,10是它的自由度,而0.05指的是卡方分布图像在某一点右侧的面积是0.05,而这个点找出来后是18.3.
也可以写成P(χ2>χα2(n))=α,比如P(χ2>18.3)=0.05.
χ2分布(卡方分布)
(∑i=1n[N(0,1)]2∼χ2(n))
(卡方分布之和仍为卡方分布,且自由度等于原自由度相加)
设n个随机变量X1、X2、⋯、Xn相互独立,且服从标准正态分布,可以证明,它们的平方和W=∑i=1nXi2的分布密度为
f(u)={22nΓ(2n)1u2n−1e−2u0, u≥0, u<0
这是我们称随机变量W服从自由度为n的χ2分布,记为W∼χ2(n),其中Γ(2n)=∫0+∞x2n−1e−xdx.
所谓自由度是指独立正态随机变量的个数,它是随机变量分布中的一个重要参数。
χ2分布满足可加性:设Yi∼χ2(ni),则Z=∑i=1kYi∼χ2(n1+n2+⋯+nk).
χ2分布的期望和方差:E(χ2)=n,D(χ2)=2n
例:设X1、X2、⋯、X6∼N(0,22),求P(∑i=16Xi2>6.54)
解:先标准化,2Xi−0∼N(0,1),∴∑i=16(2Xi)2∼χ2(6)
P(4∑i=16Xi2>46.54)=P(χ2(6)>1.635),然后查表。
图像(n>2时,峰值在n−2处,n越大峰值越靠右):
卡方分布的图像
t分布
(χ2(n)/nN(0,1)∼t(n))
设X、Y是两个相互独立的随机变量。且X∼N(0,1),Y∼χ2(n),可以证明,函数T=Y/nX的概率密度为
f(t)=nπΓ(2n)Γ(2n+1)(1+nt2)−2n+1, −∞<t<+∞
我们称随机变量T服从自由度为n的t分布,记为T∼t(n).
t分布的期望和方差:E(T)=0,D(T)=n−2n(n>2)
t分布的图像是对称的,t1−α(n)=−tα(n).(这里是上α分位数的写法)
数理统计-t分布-02
数理统计-t分布-01
F分布
(χ2(n2)/n2χ2(n1)/n1∼F(n1,n2))
设X∼χ2(n1),Y∼χ2(n2),且X与Y独立,可以证明,F=Y/n2X/n1的概率密度函数为
f(y)={Γ(2n1)Γ(2n2)Γ(2n1+n2)(n2n1)2n1y2n1−1(1+n2n1y)−2n1+n20, x>0, x≤0
我们称随机变量F服从第一个自由度为n1,第二个自由度为n2的F分布,记为F∼f(n1,n2)
几个常用的公式
正态分布μ1−α=−μα.
t1−α(n)=−tα(n).
F1−α(n1,n2)=Fα(n2,n1)1.
1−α=P(F>F−α(n1,n2))=P(F1<F1−α(n1,n2)1)=1−P(F1≥F1−α(n1,n2)1)
P(F1>F1−α(n1,n2)1)=α,Fα(n2,n1)=F1−α(n1,n2)1
(四)正态总体下统计量的分布和性质
注意一个定理:X与S2独立
正态分布
设x1、x2、⋯、xn为来自正态分布总体N(μ,σ2)的一个样本,则样本函数
u=defσ/nX−μ∼N(0,1)
相互独立的正态分布相加减仍是正态分布(比如X∼N(a,b),Y∼N(c,d),则X−3Y∼N(a−3c,b+9d),加减后可以利用E和D的性质求参数),乘以常数n1后也还是正态分布,这时n1∑i=1nxi可以叫做样本均值
E(x)=E(n1∑i=1nxi)=n1∑i=1nE(xi)=n1nμ=μ
D(x)=D(n1∑i=1nxi)=n21∑i=1nD(xi)=n21nσ2=nσ,上面的过程其实就是将它标准化,使它满足标准正态分布。
χ2分布
设x1、x2、⋯、xn为来自正态分布总体N(μ,σ2)的一个样本,则样本函数
w=defσ2(n−1)S2=i=1∑nσ2(xi−X)2∼χ2(n−1)
其中χ2(n−1)表示自由度为n−1的χ2分布。
其中S2=n−11∑i=1n(xi−X)2
特别地,如果已知样本的期望,则
i=1∑nσ2(xi−μ)2∼χ2(n)
此时满足的是自由度为n的χ2分布。
这个式子可以用“标准正态分布之和是χ2分布”的定理直接得到。
如果令S2=n−11∑i=1n(xi−X)2中的X=μ,即添加μ=n1∑i=1nxi的约束条件,这时∑i=1n(xi−μ)2=(n−1)S2,代入可得前面的公式,而且也解释了为什么自由度会少1(因为添加了1个约束条件)。
t分布
设x1、x2、⋯、xn为来自正态分布总体N(μ,σ2)的一个样本,则样本函数
t=defS/nX−μ∼t(n−1)
其中t(n−1)表示自由度为n−1的t分布。
这个式子可以用前面样本均值的正态分布和χ2分布,通过t分布的构造公式χ2(n)/nN(0,1)∼t(n)得到:σ2(n−1)S2/(n−1)σ/nX−μ=SnσσX−μ=S/nX−μ.
F分布
设x1、x2、⋯、xn为来自正态分布总体N(μ,σ12)的一个样本,而y1、y2、⋯、yn为来自正态分布总体N(μ,σ22)的一个样本,则样本函数
F=defS22/σ22S12/σ12∼F(n1−1,n2−1)
其中S12=n1−11∑i=1n(xi−X)2,S22=n2−11∑i=1n(xi−X)2;F(n1−1,n2−1)表示第一个自由度为n1−1,第二个自由度为n2−1的F分布。
例:若X1、X2、⋯、Xn+1为X∼N(μ,σ2)的样本,Xn、Sn2是(X1,X2,⋯,Xn)的期望和方差,问SnXn+1−Xn+1n的分布
解:X∼N(μ,nσ2),Xn+1∼N(μ.σ2)
∴Xn+1−X∼N(0,(1+n1)σ2),将其标准化,即σnn+1Xn+1−X∼N(0,1)
观察上式和题目,差了一个Sn,而正态总体下的χ2分布(σ2(n−1)Sn2∼χ2(n−1))会出现Sn,要使Sn出现在分母,要让两式相除再分母开根号,这时用t分布的构造式χ2(n)/nN(0,1)∼t(n)比较合理
σ2(n−1)Sn2/(n−1)σnn+1Xn+1−X=SnXn+1−Xn+1n∼t(n−1).
七、参数估计
参数估计的意义是,如果知道样本值(也即试验值),而且知道服从什么分布,但是分布中的参数不知道,那么可以用样本值通过某些方法计算出这些参数。实际上不仅分布中的未知参数可以通过样本进行估计,总体的期望、方差等也可以通过样本进行估计。
(一)点估计
矩法
所谓矩法就是利用样本各阶原点矩与相应的总体矩,来立估计量应满足的方程,从而求得未知参数估计量的方法。
设总体X的分布中含有未知数θ1、θ2、⋯、θm,则其分布函数可以表示成F(x;θ1,θ2,⋯,θm),它的k阶原点矩vk=E(Xk)(k=1,2,⋯,m)中包含了未知参数θ1、θ2、⋯、θm,即vk=vk(θ1,θ2,⋯,θm)。又设x1、x2、⋯、xn为总体X的n个样本值,其样本的k阶原点矩为v^k=n1∑i=1nxik(k=1,2,⋯,m),这样,我们按照“当参数等于其估计量时,总体矩等于相应的样本矩”的原则建立方程,则有
⎩⎨⎧v1=(θ^1,θ^2,⋯,θ^m)=n1∑i=1nxiv2=(θ^1,θ^2,⋯,θ^m)=n1∑i=1nxi2⋯vm=(θ^1,θ^2,⋯,θ^m)=n1∑i=1nxim
由上面的m个方程,解出的m个未知参数(θ^1,θ^2,⋯,θ^m)即为(θ1,θ2,⋯,θm)的矩估计量。
例:对于正态分布X∼N(μ,σ2),(X1,X2⋯,Xn)是其样本,计算μ、σ2的矩估计。
解:
(先通过已知的公式得出总体各阶矩的形式,然后加个 ^ 变成估计量,这个估计量可以用样本的各阶矩来表示)
(符号说明:其中A2是样本的二阶原点矩,B2是样本的二阶中心矩)
总体的一阶矩E(X)=μ,样本的一阶矩X=n1∑i=1nXi
用样本的一阶矩估计出总体的一阶矩:μ^=X
总体的二阶矩(根据方差公式)E(X2)=D(X)+[E(X)]2=σ2+μ2,样本的二阶矩A2=n1∑i=1nXi2
用样本的二阶矩估计出总体的二阶矩:σ^2+μ^2=A2
∴σ^2=A2−μ^2=n1∑i=1nXi2−X2=n1∑i=1nXi2−2X2+X2=n1∑i=1nXi2−2X⋅n1∑i=1nXi+n1⋅nX2=n1∑i=1n(Xi2−2XiX+X2)=n1∑i=1n(Xi−X)2=B2
即对于正态分布,期望的估计量都等于样本的一阶原点矩,方差的估计量都等于样本的二阶中心矩。(实际上对于所有分布都成立)
对于泊松分布来说,E(X)=D(X)=λ,但是用矩估计出来的A1、B2不一样,这时要选用哪个估计,就要用后面的“估计量的评选标准”来确定。(实际上选A1会让计算更方便,所以一般都用A1)
最大似然法
所谓最大似然法就是当我们用样本的函数值估计总体参数时,应使得当参数取这些值时,所观测到的样本出现的概率为最大。
比如袋子里有黑白两种球共100个,一种是99个另一种是1个,随机抽出来1个如果是黑球,就说明黑球很可能是99个,即概率大的最有可能发生。
即,如果(相互独立的)事件已经发生了,那么它们同时发生的概率应当很大,也就是要让它们的密度函数相乘(即联合分布密度)取得最大值。
当总体X为连续型随机变量时,设其分布密度为f(x;θ1,θ2,⋯,θm),其中θ1、θ2、⋯、θm为未知参数。又设x1、x2、⋯、xn为总体X的一组样本,则称
Ln(θ1,θ2,⋯,θm)=i=1∏nf(xi;θ1,θ2,⋯,θm)
为样本的似然函数,简记为Ln.
当总体X为离散型随机变量时,设其分布律为P{X=x}=p(x;θ1,θ2,⋯,θm),则它的似然函数为
Ln(x1,x2,⋯,xn;θ1,θ2,⋯,θm)=i=1∏nf(xi;θ1,θ2,⋯,θm)
若似然函数Ln(x1,x2,⋯,xn;θ1,θ2,⋯,θm)在θ^1,θ^2,⋯,θ^m处取得最大值,则称θ^1,θ^2,⋯,θ^m分别为θ1,θ2,⋯,θm的最大似然估计值,相应的统计量统称为最大似然估计量。我们把这种方法叫做最大似然估计法。
连乘函数往往会很复杂,因此我们考虑对它取ln变成相加,由于ln是一个递增函数,所以Ln与lnLn同时达到最大值,我们称
∂θi∂lnLn∣θi=θ^i=0, 其中i=1,2,⋯,m
为似然方程,由多元微分学可知,可以通过该方程算出使得Ln取得最大值的一系列θ^i.
例:设X∼Poi(λ),(x1,⋯,xn)为它的一组样本,求λ的极大似然估计
解:X的概率函数为:P(X=k)=k!λke−λ(k=0,1,2,⋯)
则λ的似然函数为:L(λ)=i=1∏nxi!λxie−λ=∏xi!λx1+⋯+xne−nλ
则lnL(λ)=−lni=1∏nxi!+(x1+⋯+xn)lnλ−nλ
两边对λ求导,令导数为零求出极值点,得dλdlnL(λ)=λx1+⋯+xn−n=0
求出极值点为:λ=nx1+⋯+xn=x.
不是所有的情况都可以通过取ln求出极值点的,比如均匀分布就不行,只能得出b−a越小,ln越大的结论。
(二)估计量的评选标准
不同方法估计出来的参数不一样,要通过一些标准来选择用哪个估计量
- 无偏性
设θ^=θ^(x1,x2,⋯.xn)是未知参数θ的估计量,若E(θ^)=θ,则称θ^为θ的无偏估计量。
若总体X的均值E(X)和方差D(X)存在,则样本均值x和样本方差S2分别为E(X)和D(X)的无偏估计,即E(X)=E(X),E(S2)=D(X).
θ^是θ的无偏估计,但g(θ^)不一定是g(θ)的无偏估计。
- 有效性
设θ^1=θ^1(x1,x2,⋯.xn)和θ^2=θ^2(x1,x2,⋯.xn)是未知参数θ的两个无偏估计,若D(θ^1)<D(θ^2),则称θ^1比θ^2有效。
- 一致性(相合性)
设θ^n是θ的一串估计量,如果对于任意的正数ϵ,都有
n→∞limP(∣θ^n−θ∣>ϵ)=0
则称θ^n为θ的一致估计量(或相合估计量)。
(三)区间估计
置信区间和置信度
设总体X含有一个待估未知参数θ。如果我们从样本x1,x2,⋯,xn出发,找出两个统计量θ1=θ1(x1,x2,⋯,xn)与θ2=θ2(x1,x2,⋯,xn)(θ1<θ2),使得区间[θ1,θ2]以1−α(0<α<1)的概率包含这个待估参数θ,即
P{θ1≤θ≤θ2}=1−α
那么称区间[θ1,θ2]为θ的置信区间,1−α为该区间的置信度(或置信水平)。
即,θ是一个未知数,但它是一个固定的数,任选区间[θ1,θ2]能套住θ的概率是1−α。若θ1和θ2不好确定,但对θ作变换后可以查表得出,该变换叫枢轴变量。
单正态总体的期望和方差的区间估计
设x1,x2,⋯,xn为总体X∼N(μ,σ2)的一个样本,在置信度为1−α下,我们来确定μ和σ2的置信区间[θ1,θ2]。具体步骤如下:
(1)选取样本函数;
(2)由置信度1−α,查表找出分位数;
(3)导出置信区间[θ1,θ2]。
下面讨论不同情况下的求法
总结
估计 |
条件 |
选取函数 |
置信区间 |
μ |
σ2已知 |
σX−μn∼N(0,1) |
[X−nσu2α,X+nσu2α] |
μ |
σ2未知 |
SX−μn∼t(n−1) |
[X−nSt2α(n−1),X+nSt2α(n−1)] |
σ2 |
μ已知 |
σ21∑i=1n(Xi−μ)2∼χ2(n) |
[χ2α2(n)∑i=1n(Xi−μ)2,χ1−2α2(n)∑i=1n(Xi−μ)2] |
σ2 |
μ未知 |
σ2(n−1)S2∼χ2(n−1) |
[χ2α2(n−1)(n−1)S2,χ1−2α2(n−1)(n−1)S2] |
已知方差,估计均值
(1)选取样本函数
设方差σ2=σ02,其中σ02为已知数,我们知道X=n1∑i=1nxi是μ的一个点估计,并且知道包含未知参数μ的样本函数
u=σ0/nX−μ∼N(0,1)
(2)查表找分位数
对于给定的置信度1−α,查正态分布分位数表,找出分位数λ,使得P(∣u∣≤λ)=1−α,即
P(−λ≤σ0/nX−μ≤λ)=1−α
(3)导出置信区间
由−λ≤σ0(X−μ)n≤λ推得
X−λnσ0≤μ≤X+λnσ0
也就是说,随机区间[X−λnσ0,X+λnσ0]以1−α的概率包含μ.
如果把λ写成上α分位数的形式,随机区间还可以写成[X−nσ0u2α,X+nσ0u2α].
例:已知5个灯泡的使用寿命为1650、1700、1680、1820、1800,且满足X∼N(μ,9)的正态分布,要求置信区间中的α=0.005,求对μ的估计
解:X=51650+⋯+1800=1730,σ2=9即σ=3
此时对X作标准化后,就可以查标准正态分布的表,关键是怎么查。
参数估计-区间估计-01
因为要求以1−α的概率套住μ,即x=λ1、x=λ2、正态分布图像、x轴所围成的面积要为1−α,由于标准正态分布的图像对称,选取区间[λ1,λ2]的中心在x=0处,由于区间对称,那么两边的面积都是2α,且此时−λ1=λ2=λ,若λ>0,那么P(x<−λ)=2α,即查表查出Φ0(x)=2α对应的x值就是λ的值。(标准正态分布、t分布的图像都是对称的,可以用上面的方式查表,但是χ2分布并不是对称的,查分布函数的表只能找出左边的λ1,而λ2只能通过查上分位数的表得出)
查表后,写成上α分位数的形式就是U0.025=1.96
即−1.96≤σn(X−μ)≤1.96,代入前面算出来的X=1730、σ=3、n=5,最后得到1727.37≤μ≤1732.63.
未知方差,估计均值
(1)选取样本函数
设x1,x2,⋯,xn为总体N(μ,σ2)的一个样本,由于σ2是未知的,这里选取样本方差S2=n−11∑i=1n(xi−X)2来替代σ2,这时样本函数选取
t=S/nX−μ∼t(n−1)
(2)查表找分位数
对于给定的置信度1−α,查t分位数表,找出分位数λ,使得P(∣u∣≤λ)=1−α,即
P(−λ≤S/nX−μ≤λ)=1−α
(3)导出置信区间
由−λ≤S/nX−μ≤λ推得
X−λnS≤μ≤X+λnS
也就是说,随机区间[X−λnS,X+λnS]以1−α的概率包含μ.
如果把λ写成上α分位数的形式,随机区间还可以写成[X−nSt2α(n−1),X+nSt2α(n−1)].
未知均值,估计方差
(1)选取样本函数
设x1,x2,⋯,xn为总体N(μ,σ2)的一个样本,通过样本可以求得样本方差S2=n−11∑i=1n(xi−X)2,样本函数选取
ω=σ2(n−1)S2∼χ2(n−1)
(2)查表找分位数
对于给定的置信度1−α,查χ2分位数表,找出两个分位数λ1、λ2,由于χ2分布不具有对称性,因此通常采取使得概率对称的区间,即P(λ1≤ω≤λ2)=1−α,于是
P(λ1≤σ2(n−1)S2≤λ2)=1−α
(3)导出置信区间
由λ1≤σ2(n−1)S2≤λ2推得
λ2(n−1)S2≤σ2≤λ1(n−1)S2
也就是说,[λ2(n−1)S2,λ1(n−1)S2]以1−α的概率包含σ2,而[λ2n−1S,λ1n−1S]以1−α的概率包含σ.
如果把λ写成上α分位数的形式,随机区间还可以写成[χ2α2(n−1)(n−1)S2,χ1−2α2(n−1)(n−1)S2].