对于随机变量 X 的 N 个采样值 X1..XN,可得其均值与方差:
XˉVar(X)=N1i=1∑NXi=N1i=1∑N(Xi−μ)2若随机变量符合正态分布 N(μ,σ2),则可得:
E[X]E[Var(X)]=μ=σ2可得均值的方差的期望为:
E[Var(Xˉ)]=E[Xˉ2]−E[Xˉ]2=N21E[(i=1∑NXi)2]−μ2=N2NE[Xi2]+∑i=1,j=1,j=iNE(XiXj)−μ2=N2N(σ2+μ2)+N(N−1)μ2−μ2=Nσ2若使用 Xˉ 作为 μ 的近似计算方差,则:
E[N1i=1∑N(Xi−Xˉ)2]=E[N1i=1∑N(Xi−μ+μ−Xˉ)2]=E[N1i=1∑N(Xi−μ)2]+E[N2i=1∑N(Xi−μ)(μ−Xˉ)]+E[N1i=1∑N(μ−Xˉ)2]=E[Var(X)]+E[2(Xˉ−μ)(μ−Xˉ)]+E[(μ−Xˉ)2]=E[Var(X)]−E[Var(Xˉ)]=NN−1σ2所以:
σ2=Var(X)=E[N−11i=1∑N(Xi−Xˉ)2]换而言之,若希望从观测数据集 D 中求出最大似然的 μ 与 σ2,即最大化 p(D∣μ,σ2),则:
p(D∣μ,σ2)=i=1∏NN(Xi∣μ,σ2)取对数,则:
lnp(D∣μ,σ2)=i=1∑NlnN(Xi∣μ,σ2)=i=1∑Nln2πσ21exp{−2σ21(x−μ)2}=i=1∑Nln2π1+i=1∑Nlnσ21−i=1∑N2σ21(x−μ)2=−2Nln(2π)−2Nlnσ2−2σ21i=1∑N(x−μ)2若要最大化,则对 μ 求导可知 μML=Dˉ,同样对 σ 求导可得 σML2=Var(D)。由此可知最大似然为 p(D∣Xˉ,Var(D))。但是这种情况下存在对数据 D 的过拟合,或者称为有偏估计(biased estimator),既 σML2=NN−1σ2(参见使用 Xˉ 作为 μ 的近似计算方差的情况),所以可得:
N(Xi∣Dˉ,N−1NVar(D))为数据 D 的分布的最大似然估计