贝叶斯统计分析思维
-
f(X∣θ) is the conditional density of X=(X1,X2,...,Xn) given θ (likelihood);
-
τ(θ) is the prior density on θ
-
g(X) is the marginal density of X, i.e. g(X)=∫Θf(X∣θ)τ(θ)dθ
-
f(X,θ) is the joint density of X and θ
f(X,θ)=f(X∣θ)τ(θ)=h(θ∣X)g(X)
- h(θ∣X) is the posterior density of θ given X=(X1,X2,...,Xn)
h(θ∣X)=g(X)f(X,θ)=∫Θf(X∣θ)τ(θ)dθf(X∣θ)τ(θ)
极大似然估计的思想
- 小概率原理:(小概率事件的实际不可能发生原理),小概率事件在个别试验中几乎是不可能发生的。
- 重要结论:如果随机事件的概率非常接近1,则可以说明在个别试验中该事件几乎一定发生
- 直观解释:一个随机试验如果有若干个结果A,B,C...,如果在一次试验中结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率最大。
以离散型为例,若总体X属于离散型,其分布律为P(X=x)=p(x;θ1,θ2,...,θk),θ=(θ1,θ2,...,θk)∈Θ的形式为已知,θ为待估参数,属于参数空间Θ。
设(X1,X2,...,Xn)是来自总体X的样本,求(θ1,θ2,...,θk)的极大似然估计量。
- 建立似然函数 L(θ1,θ2,...,θk)=Πi=1np(xi;θ1,θ2,...,θk)
- 取对数 lnL=∑i=1nlnp(xi;θ1,θ2,...,θk)
- 令对θi的各个偏导数等于0,解方程组求得(θ1,θ2,...,θk)的极大似然估计值(得分函数)
费歇尔信息量
基于极大似然估计,X1,...,Xn是一组独立同分布于f的随机样本,x1,...,xn是一组观测。
- 似然函数(Likelihood Function):
似然函数描述了已知一组观测数据 x1,x2,...,xn 后,未知参数 θ 的可能取值。
对于独立同分布的随机样本,似然函数可以表示为:
L(θ∣x)=f(x∣θ)=i=1∏nf(xi∣θ)
其中,f(xi∣θ) 是给定参数 θ 下观测值 xi 的概率密度函数或概率质量函数。
- 对数似然函数(Log-Likelihood Function):
对数似然函数是似然函数的自然对数。
通常,我们取对数似然函数的负值,因此实际值越大越好。
对数似然函数的一般形式为:
lnL(θ∣x)=i=1∑nlnf(xi∣θ)
- 得分函数(Score Function):
得分函数是对数似然函数关于参数 θ 的一阶偏导数。
对于连续数据,得分函数可以表示为:
S(θ∣x)=∂θ∂lnL(θ∣x)
对于离散数据,得分函数可以表示为:
S(θ∣x)=i=1∑n∂θ∂lnf(xi∣θ)
CRLB
不是所有的参数和分布都能达成CRLB
最下限分散度估值,得分函数V(X,θ)一定表现为如下形式:
αθα=V(X,θ)=kn(θ)[W(X)−τ(θ)]
kn(θ)因子是一个概率系数,所以不包含数据,所要做的就是构造这个得分函数。
如果满足,则就是UMVUE
,否则就说明CRLB unattainable
L-S theorem
所以现在想要求得UMVUE
,则需要使用L-S
定理,不用知道每一个样本X1...Xn,对于比如说正态分布,μ^MLE=μ^UMVUE=Xˉ,仅要一个T(X)=Xˉ值对估计μ就够了,这样我们就称T(X) sufficient statistical for
μ
证明T是sufficient以及complete
想要证明T既是sufficient又是complete的,首先判断是否是exponential family
;
如果是:将原分布拆解成如下格式,其中,函数c需要单调
f(x;θ)=a(θ)b(x)c(θ)d(x)
如果不是:则使用L-S
或者Neyman-Fisher
先证明sufficient
L-S
:列出似然函数,附上Indicator-Function,形如
L(xi;θ)=Πi=1n[f(x;θ)⋅I{x,θ}]
T=t(x)是θ的充分统计量,当且仅当样本值的联合密度可以表示为如下格式,目标正是需要凑出这种格式
L(xi;θ)=g(T,θ)h(x)
比如对于以下概率密度函数,w=x(1),w的定义是最小样本
f(x;θ)=xα+1αθαx≥θ
即可以写出
L(xi;θ)=Πi=1n[f(xi;θ)⋅I{xi≥θ}]
拆解可得
L(xi;θ)=I{x≥θ}θnαΠi=1n[xiα+1α]=g(x(1),θ)h(x1,x2,...,xn)
想要证明T是minimal sufficient
的,如果样本只有一个维度,则可根据Neyman-Fisher
来说明w=x(1)是minimal sufficient
;
如果硬是要证明,由于L-S
:Consider a partition A of X by define for any x∈X, A(x)={y:L(x,θ)L(y,θ)}, the ratio is a function of the type h(y,x), the defined sets A(x),x∈X form a partition of X and this partition is minimal sufficient.
比如对于这道题,可以列如下式子:
L(x,θ)L(y,θ)=[Πi=1n[α/xiα+1]Ix(1)≥θ][Πi=1n[α/yiα+1]Iy(1)≥θ]
根据上述化简可得知仅需x(1)=y(1),不再依赖于θ,最小依赖为T(x)=x(1)得证
如何证明x(1)是complete的,需要用到completeness的定义,假设对于任意的θ>0,E[g(t)]=0
假设单个样本的概率密度函数为fx(1)x(1)=xnα+1nαθnα
E(g(t))=∫θ∞g(t)tnα+1nαθnαdt=0
αθαE(g(t))=0−g(θ)θnα+1nαθnα=0
因为θnα+1nαθnα>0,所以g(t)=0,当t≥θ>0,综上,P(g(T)=0)=1
找unbiased estimator
比如,现在有x1,x2,...,xn是一组泊松分布的样本,其中有8个样本值为1,4,1,0,2,1,3,2
Find unbiased estimator for h(θ)=21θ2e−θ which is p(x1=2)
此处不难看出所要求的参数表达式h(θ)是某个概率值,所以用indicator function
泊松分布的概率密度函数为x!e−θθx
题目这样出可以直接看出
w=I{x1=2}E(w)=E(I{x1=2})=p(x1=2)=21θ2e−θ
但如果题目问h(θ)=θ3e−θ
w=6I{x1=3}E(w)=E(6I{x1=3})=6p(x1=3)=h(θ)
或者h(θ)=41θ4e−2θ这样的
w=4Ix1=2,x2=2E(w)=E(4Ix1=2,x2=2)=4p(x1=2)p(x2=2)=h(θ)
再比如,题目问h(θ)=e−kθ,当k=1,2,...,n,p(x1=0)=e−θ
w=I{x1=0,...xk=0}E(w)=E(I{x1=0,...xk=0})=p(x1=0,...,xk=0)=p(x1=0)k=h(θ)
找biased estimator
取单样本(最小样本)的期望
比如,现在有x1,x2,...,xn是一组相互独立的随机变量,有概率密度函数f(x;θ)=e−(x−θ),当x>θ,T=min{x1,...,xn}=x(1),现在我们已知fT(t)=nen(θ−t),当t≥θ
Show that the MLE is a biased estimator. Hint: You might want to consider the transformation Y=T−θ when performing the integral and then utilize the density of an exponential distribution.
E[x(1)]=∫θ∞ne−n(t−θ)tdt
令y=t−θ,t∈[θ,∞)
E[x(1)]=n∫0∞e−ny(y+θ)dy=n∫0∞ye−nydy+nθ∫0∞e−nydy=θ+n1
不等于θ,所以这个的MLE
是一个biased estimator
注意,这里∫0∞ye−nydy不好求解,我们可以利用Gamma
函数性质,其pdf为f(x∣α,β)=Γ(α)βα1xα−1e−βx,我们不难得出β=n1,α=2,代入解得
Γ(2)(n1)2∫0∞Γ(2)(n1)21ye−nydy=(n1)2
求UMVUE
首先需要T是充分且必要对于θ,并且已经找到了关于h的无偏估计
比如已知w=I{x1=0,...,xk=0},满足泊松分布,h(θ)=e−kθ
E(w∣T=t)=E(I{x1=0,...,xk=0}∣i=1∑nxi=t)=p(x1=0,...,xk=0∣i=1∑nxi=t)=p(∑i=1nxi=t)p(x1=0,...,xk=0,∑i=k+1nxi=t)=p(∑i=1nxi=t)p(x1=0,...,xk=0)⋅p(∑i=k+1nxi=t)=e−nθ(nθ)x/x!e−kθ⋅e−(n−k)θ((n−k)θ)x/x!=(1−nk)nxˉ
这就是h(θ)=e−kθ的UMVUE
求MLE
要使用原样本的likelihood
先求得θMLE,再求出h(θ)MLE
求MLE
你首先得知道Score Function
,使用基于全样本求得的一阶导为Score Function
,求解过程在求CRLB中,V(x,θ)=−n+θ∑i=1nxi=0,解得θ=xˉ,h(θ)MLE^=h(θ^MLE)=e−kxˉ
再对Score Function
求一下导,αθαV(x,θ)=−θ2∑i=1nxi<0
还有一种情况,单独只问你求θ的MLE
,比如:对于L(xi;θ)=Πi=1nxi2θ⋅I{xi≥θ}
Πi=1n[xi2θ⋅I{xi≥θ}]=Πi=1nxi2θn⋅I{x1≥θ}
当x1<θ,L(xi;θ)=0,θn达到最大当θ=x(1),θMLE=x(1)
求CRLB
比如说对于f(x;θ)=x!e−θθx,calculate the CRLB for the minimal variance of an unbiased estimator of h(θ)=e−kθ
直接面向全样本
L(x;θ)=Πi=1nxie−θθxi=Πi=1nxi!e−neθ∑i=1nxi
lnL(x;θ)=−nθ+lnθi=1∑nxi+常数αθαlnL(x;θ)=−n+θ∑i=1nxiαθ2α2lnL(x;θ)=−θ2∑i=1nxi
一阶导等于0,解得θ=xˉ
Ix(θ)=−E[dθ2d2lnL]=θ2E(∑i=1nxi)=θ2E(nθ)=θn
代入CRLB公式解得
Ix(θ)(αθαh(θ))2=nθk2e−2kθ
UMVUE的方差
比如问:Show that there does not exist an integer k for which the variance of the UMVUE of h(θ) attains this bound.
使用基于全样本求得的一阶导为Score Function
,V(x,θ)=−n+θ∑i=1nxi=−n+θnxˉ
V(x,θ)=−n+θnxˉ=n(θxˉ−1)
如何构造出V(x,θ)=kn(θ)[w(x)−τ(θ)]这样的格式
首先τ(θ)=h(θ)=e−kθ
V(x,θ)=kn(θ)[w(x)−τ(θ)]=e−kθn[θxˉe−kθ−e−kθ]
所以,无论选择哪个整数,θxˉe−kθ都不能作为一个统计量,因为仍然需要依赖θ
求贝叶斯估值
题目问:The prior on θ∈(0,1) is Beta(30,3),determine the Bayesiam estimate
of θ,w.r.t. quadratic loss Beta(α,β)
f(x∣α,β)=Beta(α,β)1⋅xα−1(1−x)β−1
其中Beta(α,β)是常数,已经求得prior
τ(x;θ)为θ∑i=1nxi(1−θ)n,也就是似然函数,结果是θ136(1−θ)6
posterior
则正比于τ(x;θ)⋅f(x∣α,β)=θ165(1−θ)8 Beta(166,9)
θ^=E[θ∣x]=α+βα=175166=0.9486
以上求期望参考Beta分布
的期望公式
决策论
Consider testing H0:θ≥0.95 versus H1:θ<0.95 with a 0-1
loss in a Bayesiam setting with the above Beta(30,3) prior, what is your decision? You may use: ∫0.951⋅x165(1−x)8dx⋅174⋅173...⋅166=20428.19
使用求贝叶斯估值中求得的后验概率P(θ∣x) Beta(166,9)
p(θ≥0.95)=∫0.951Beta(166,9)1x165(1−x)8dx=8!20428.19=0.51>0.5
所以,满足H0