0


参数估计方法总结(超全!!!)

参数估计方法总结(超全!!!)

参数估计是统计学中的一个重要问题,涉及到从样本数据中推断出总体参数的过程。在实际应用中,我们经常需要使用各种参数估计方法来解决各种问题。本篇文章将介绍一些常见的参数估计方法。

1. 点估计

点估计是指用样本数据推断总体参数的方法。其中,点估计量是一个由样本数据构成的函数,其值在某种意义下代表了总体参数的“最好猜测”。

1.1 最大似然估计

最大似然估计是一种常见的点估计方法,它基于观察到的样本数据,试图找到一个参数值,使得在该参数值下观察到这些数据的概率最大化。

具体来说,如果我们有一个随机变量

     X 
    
   
  
    X 
   
  
X,它的分布函数为  
 
  
   
   
     F 
    
   
     ( 
    
   
     x 
    
   
     ; 
    
   
     θ 
    
   
     ) 
    
   
  
    F(x;\theta) 
   
  
F(x;θ),其中  
 
  
   
   
     θ 
    
   
  
    \theta 
   
  
θ 是一个参数。给定一个样本  
 
  
   
    
    
      X 
     
    
      1 
     
    
   
     , 
    
    
    
      X 
     
    
      2 
     
    
   
     , 
    
   
     . 
    
   
     . 
    
   
     . 
    
   
     , 
    
    
    
      X 
     
    
      n 
     
    
   
  
    X_1,X_2,...,X_n 
   
  
X1​,X2​,...,Xn​,它们的联合密度函数为  
 
  
   
   
     f 
    
   
     ( 
    
    
    
      x 
     
    
      1 
     
    
   
     , 
    
    
    
      x 
     
    
      2 
     
    
   
     , 
    
   
     . 
    
   
     . 
    
   
     . 
    
   
     , 
    
    
    
      x 
     
    
      n 
     
    
   
     ; 
    
   
     θ 
    
   
     ) 
    
   
  
    f(x_1,x_2,...,x_n;\theta) 
   
  
f(x1​,x2​,...,xn​;θ)。那么,最大似然估计量  
 
  
   
    
     
     
       θ 
      
     
       ^ 
      
     
     
     
       M 
      
     
       L 
      
     
       E 
      
     
    
   
  
    \hat{\theta}_{MLE} 
   
  
θ^MLE​ 就是满足以下条件的参数值:


  
   
    
     
      
      
        θ 
       
      
        ^ 
       
      
      
      
        M 
       
      
        L 
       
      
        E 
       
      
     
    
      = 
     
     
      
       
       
         arg 
        
       
         ⁡ 
        
       
         max 
        
       
         ⁡ 
        
       
      
        θ 
       
      
      
    
      f 
     
    
      ( 
     
     
     
       x 
      
     
       1 
      
     
    
      , 
     
     
     
       x 
      
     
       2 
      
     
    
      , 
     
    
      . 
     
    
      . 
     
    
      . 
     
    
      , 
     
     
     
       x 
      
     
       n 
      
     
    
      ; 
     
    
      θ 
     
    
      ) 
     
    
   
     \hat{\theta}_{MLE} = \underset{\theta}{\arg\max} \, f(x_1,x_2,...,x_n;\theta) 
    
   
 θ^MLE​=θargmax​f(x1​,x2​,...,xn​;θ)

如果联合密度函数是连续的,那么上式等价于以下条件:

        θ 
       
      
        ^ 
       
      
      
      
        M 
       
      
        L 
       
      
        E 
       
      
     
    
      = 
     
     
      
       
       
         arg 
        
       
         ⁡ 
        
       
         max 
        
       
         ⁡ 
        
       
      
        θ 
       
      
      
     
     
       ∏ 
      
      
      
        i 
       
      
        = 
       
      
        1 
       
      
     
       n 
      
     
    
      f 
     
    
      ( 
     
     
     
       x 
      
     
       i 
      
     
    
      ; 
     
    
      θ 
     
    
      ) 
     
    
   
     \hat{\theta}_{MLE} = \underset{\theta}{\arg\max} \, \prod_{i=1}^n f(x_i;\theta) 
    
   
 θ^MLE​=θargmax​i=1∏n​f(xi​;θ)

如果联合密度函数是离散的,则上式中连乘号应该替换为连加号。

最大似然估计量具有一些良好的性质,比如渐进正态性、无偏性等。但同时,它也存在某些局限性,比如可能出现多个最大值、不能直接估计置信区间等。

1.2 矩估计

矩估计是另一种常见的点估计方法,它基于样本数据的矩来推断总体参数。

具体来说,假设我们有一个随机变量

     X 
    
   
  
    X 
   
  
X,它的分布函数为  
 
  
   
   
     F 
    
   
     ( 
    
   
     x 
    
   
     ; 
    
   
     θ 
    
   
     ) 
    
   
  
    F(x;\theta) 
   
  
F(x;θ),其中  
 
  
   
   
     θ 
    
   
  
    \theta 
   
  
θ 是一个参数。给定一个样本  
 
  
   
    
    
      X 
     
    
      1 
     
    
   
     , 
    
    
    
      X 
     
    
      2 
     
    
   
     , 
    
   
     . 
    
   
     . 
    
   
     . 
    
   
     , 
    
    
    
      X 
     
    
      n 
     
    
   
  
    X_1,X_2,...,X_n 
   
  
X1​,X2​,...,Xn​,它们的前  
 
  
   
   
     k 
    
   
  
    k 
   
  
k 个样本矩分别为:


  
   
    
     
      
       
        
        
          μ 
         
        
          1 
         
        
       
      
      
       
        
         
        
          = 
         
        
          E 
         
        
          ( 
         
        
          X 
         
        
          ) 
         
        
       
      
     
     
      
       
        
        
          μ 
         
        
          2 
         
        
       
      
      
       
        
         
        
          = 
         
        
          E 
         
        
          ( 
         
         
         
           X 
          
         
           2 
          
         
        
          ) 
         
        
       
      
     
     
      
       
        
       
      
      
       
        
         
        
          . 
         
        
          . 
         
        
          . 
         
        
       
      
     
     
      
       
        
        
          μ 
         
        
          k 
         
        
       
      
      
       
        
         
        
          = 
         
        
          E 
         
        
          ( 
         
         
         
           X 
          
         
           k 
          
         
        
          ) 
         
        
       
      
     
    
   
     \begin{aligned} \mu_1 &= E(X) \\ \mu_2 &= E(X^2) \\ &... \\ \mu_k &= E(X^k) \end{aligned} 
    
   
 μ1​μ2​μk​​=E(X)=E(X2)...=E(Xk)​

那么,矩估计量

       θ 
      
     
       ^ 
      
     
     
     
       M 
      
     
       M 
      
     
    
   
  
    \hat{\theta}_{MM} 
   
  
θ^MM​ 就是满足以下条件的参数值:


  
   
    
     
      
       
        
        
          μ 
         
        
          1 
         
        
       
      
      
       
        
         
        
          = 
         
        
          E 
         
        
          ( 
         
        
          X 
         
        
          ; 
         
        
          θ 
         
        
          ) 
         
        
       
      
     
     
      
       
        
        
          μ 
         
        
          2 
         
        
       
      
      
       
        
         
        
          = 
         
        
          E 
         
        
          ( 
         
         
         
           X 
          
         
           2 
          
         
        
          ; 
         
        
          θ 
         
        
          ) 
         
        
       
      
     
     
      
       
        
       
      
      
       
        
         
        
          . 
         
        
          . 
         
        
          . 
         
        
       
      
     
     
      
       
        
        
          μ 
         
        
          k 
         
        
       
      
      
       
        
         
        
          = 
         
        
          E 
         
        
          ( 
         
         
         
           X 
          
         
           k 
          
         
        
          ; 
         
        
          θ 
         
        
          ) 
         
        
       
      
     
    
   
     \begin{aligned} \mu_1 &= E(X;\theta) \\ \mu_2 &= E(X^2;\theta) \\ &... \\ \mu_k &= E(X^k;\theta) \end{aligned} 
    
   
 μ1​μ2​μk​​=E(X;θ)=E(X2;θ)...=E(Xk;θ)​

如果需要估计一个参数,则仅需要用前

     k 
    
   
  
    k 
   
  
k 个样本矩来代替总体矩,然后解出上式即可。

矩估计量具有一些较好的性质,比如无偏性、相对效率等。但同时,它也存在某些局限性,比如无法处理大量参数、不能直接估计方差等。

2. 区间估计

区间估计是指根据样本统计量和样本量,给出一个包含总体参数的的区间,并指出该区间内参数的置信度。

2.1 置信区间

置信区间是区间估计的一种形式,它表示某个总体参数在一定置信水平下所在的区间范围。

比如,如果我们希望在置信水平

     α 
    
   
  
    \alpha 
   
  
α 下估计一个随机变量  
 
  
   
   
     X 
    
   
  
    X 
   
  
X 的均值  
 
  
   
   
     μ 
    
   
  
    \mu 
   
  
μ,那么我们可以使用样本均值  
 
  
   
    
    
      X 
     
    
      ˉ 
     
    
   
  
    \bar{X} 
   
  
Xˉ 和样本标准差  
 
  
   
   
     S 
    
   
  
    S 
   
  
S 来构造置信区间:


  
   
    
    
      ( 
     
     
     
       X 
      
     
       ˉ 
      
     
    
      − 
     
     
     
       t 
      
      
      
        n 
       
      
        − 
       
      
        1 
       
      
        , 
       
       
       
         α 
        
       
         2 
        
       
      
     
     
     
       S 
      
      
      
        n 
       
      
     
    
      , 
     
     
     
       X 
      
     
       ˉ 
      
     
    
      + 
     
     
     
       t 
      
      
      
        n 
       
      
        − 
       
      
        1 
       
      
        , 
       
       
       
         α 
        
       
         2 
        
       
      
     
     
     
       S 
      
      
      
        n 
       
      
     
    
      ) 
     
    
   
     (\bar{X}-t_{n-1,\frac{\alpha}{2}}\frac{S}{\sqrt{n}}, \bar{X}+t_{n-1,\frac{\alpha}{2}}\frac{S}{\sqrt{n}}) 
    
   
 (Xˉ−tn−1,2α​​n​S​,Xˉ+tn−1,2α​​n​S​)

其中,

      t 
     
     
     
       n 
      
     
       − 
      
     
       1 
      
     
       , 
      
      
      
        α 
       
      
        2 
       
      
     
    
   
  
    t_{n-1,\frac{\alpha}{2}} 
   
  
tn−1,2α​​ 是  
 
  
   
   
     t 
    
   
  
    t 
   
  
t 分布的上分位数。

2.2 频率派区间估计

频率派区间估计是一种区间估计方法,它基于大样本时统计量的渐进正态性,使用标准正态分布来构造置信区间。

假设我们有一个随机变量

     X 
    
   
  
    X 
   
  
X,它的分布函数为  
 
  
   
   
     F 
    
   
     ( 
    
   
     x 
    
   
     ; 
    
   
     θ 
    
   
     ) 
    
   
  
    F(x;\theta) 
   
  
F(x;θ),其中  
 
  
   
   
     θ 
    
   
  
    \theta 
   
  
θ 是一个参数。给定一个样本  
 
  
   
    
    
      X 
     
    
      1 
     
    
   
     , 
    
    
    
      X 
     
    
      2 
     
    
   
     , 
    
   
     . 
    
   
     . 
    
   
     . 
    
   
     , 
    
    
    
      X 
     
    
      n 
     
    
   
  
    X_1,X_2,...,X_n 
   
  
X1​,X2​,...,Xn​,它们的联合密度函数为  
 
  
   
   
     f 
    
   
     ( 
    
    
    
      x 
     
    
      1 
     
    
   
     , 
    
    
    
      x 
     
    
      2 
     
    
   
     , 
    
   
     . 
    
   
     . 
    
   
     . 
    
   
     , 
    
    
    
      x 
     
    
      n 
     
    
   
     ; 
    
   
     θ 
    
   
     ) 
    
   
  
    f(x_1,x_2,...,x_n;\theta) 
   
  
f(x1​,x2​,...,xn​;θ)。那么,频率派区间估计量  
 
  
   
    
     
     
       θ 
      
     
       ^ 
      
     
     
     
       C 
      
     
       I 
      
     
    
   
  
    \hat{\theta}_{CI} 
   
  
θ^CI​ 就是满足以下条件的区间:


  
   
    
    
      P 
     
    
      ( 
     
    
      θ 
     
    
      − 
     
     
      
       
       
         z 
        
        
        
          α 
         
        
          2 
         
        
       
      
        σ 
       
      
      
      
        n 
       
      
     
    
      ≤ 
     
     
     
       X 
      
     
       ˉ 
      
     
    
      ≤ 
     
    
      θ 
     
    
      + 
     
     
      
       
       
         z 
        
        
        
          α 
         
        
          2 
         
        
       
      
        σ 
       
      
      
      
        n 
       
      
     
    
      ) 
     
    
      = 
     
    
      1 
     
    
      − 
     
    
      α 
     
    
   
     P(\theta-\frac{z_{\frac{\alpha}{2}}\sigma}{\sqrt{n}} \leq \bar{X} \leq \theta+\frac{z_{\frac{\alpha}{2}}\sigma}{\sqrt{n}}) = 1-\alpha 
    
   
 P(θ−n​z2α​​σ​≤Xˉ≤θ+n​z2α​​σ​)=1−α

其中,

      z 
     
     
     
       α 
      
     
       2 
      
     
    
   
  
    z_{\frac{\alpha}{2}} 
   
  
z2α​​ 是标准正态分布的上分位数, 
 
  
   
   
     σ 
    
   
  
    \sigma 
   
  
σ 是总体标准差的估计值。

2.3 贝叶斯区间估计

贝叶斯区间估计是一种利用贝叶斯定理进行区间估计的方法。它可以给出一个后验分布函数,然后根据该分布函数来给出置信区间。

具体来说,我们首先需要给出一个先验分布函数

     p 
    
   
     ( 
    
   
     θ 
    
   
     ) 
    
   
  
    p(\theta) 
   
  
p(θ),表示对于  
 
  
   
   
     θ 
    
   
  
    \theta 
   
  
θ 的不确定性。然后,我们使用贝叶斯定理来计算后验分布函数:


  
   
    
    
      p 
     
    
      ( 
     
    
      θ 
     
    
      ∣ 
     
     
     
       x 
      
     
       1 
      
     
    
      , 
     
     
     
       x 
      
     
       2 
      
     
    
      , 
     
    
      . 
     
    
      . 
     
    
      . 
     
    
      , 
     
     
     
       x 
      
     
       n 
      
     
    
      ) 
     
    
      ∝ 
     
    
      f 
     
    
      ( 
     
     
     
       x 
      
     
       1 
      
     
    
      , 
     
     
     
       x 
      
     
       2 
      
     
    
      , 
     
    
      . 
     
    
      . 
     
    
      . 
     
    
      , 
     
     
     
       x 
      
     
       n 
      
     
    
      ∣ 
     
    
      θ 
     
    
      ) 
     
    
      p 
     
    
      ( 
     
    
      θ 
     
    
      ) 
     
    
   
     p(\theta|x_1,x_2,...,x_n) \propto f(x_1,x_2,...,x_n|\theta)p(\theta) 
    
   
 p(θ∣x1​,x2​,...,xn​)∝f(x1​,x2​,...,xn​∣θ)p(θ)

最后,我们可以基于后验分布函数来计算置信区间。

3. 假设检验

假设检验是指根据样本数据对总体分布进行推断的方法。在假设检验中,我们通常会认为总体分布服从某个特定的分布,然后利用样本数据来判断这个假设是否成立。

3.1 单样本均值检验

单样本均值检验是指检验一个随机变量

     X 
    
   
  
    X 
   
  
X 的均值是否等于某个特定的值。在单样本均值检验中,我们有以下假设:


  
   
    
     
     
       H 
      
     
       0 
      
     
    
      : 
     
    
      μ 
     
    
      = 
     
     
     
       μ 
      
     
       0 
      
     
     
     
     
       H 
      
     
       1 
      
     
    
      : 
     
    
      μ 
     
    
      ≠ 
     
     
     
       μ 
      
     
       0 
      
     
    
   
     H_0: \mu = \mu_0 \\ H_1: \mu \neq \mu_0 
    
   
 H0​:μ=μ0​H1​:μ=μ0​

其中,

      H 
     
    
      0 
     
    
   
  
    H_0 
   
  
H0​ 表示原假设, 
 
  
   
    
    
      H 
     
    
      1 
     
    
   
  
    H_1 
   
  
H1​ 表示备择假设。

单样本均值检验通常使用

     t 
    
   
  
    t 
   
  
t 检验或  
 
  
   
   
     z 
    
   
  
    z 
   
  
z 检验来进行。如果总体分布已知且方差已知,则使用  
 
  
   
   
     z 
    
   
  
    z 
   
  
z 检验;否则,使用  
 
  
   
   
     t 
    
   
  
    t 
   
  
t 检验。

3.2 双样本均值检验

双样本均值检验是指比较两个随机变量的均值是否相等。在双样本均值检验中,我们有以下假设:

       H 
      
     
       0 
      
     
    
      : 
     
     
     
       μ 
      
     
       1 
      
     
    
      = 
     
     
     
       μ 
      
     
       2 
      
     
     
     
     
       H 
      
     
       1 
      
     
    
      : 
     
     
     
       μ 
      
     
       1 
      
     
    
      ≠ 
     
     
     
       μ 
      
     
       2 
      
     
    
   
     H_0: \mu_1 = \mu_2 \\ H_1: \mu_1 \neq \mu_2 
    
   
 H0​:μ1​=μ2​H1​:μ1​=μ2​

双样本均值检验通常使用

     t 
    
   
  
    t 
   
  
t 检验来进行。如果两个样本的方差相等,则使用等方差  
 
  
   
   
     t 
    
   
  
    t 
   
  
t 检验;否则,使用不等方差  
 
  
   
   
     t 
    
   
  
    t 
   
  
t 检验。

3.3 卡方检验

卡方检验是一种常见的假设检验方法,用于检验一个随机变量的分布是否符合某种特定的分布。

举例来说,如果我们的假设是一个随机变量

     X 
    
   
  
    X 
   
  
X 的分布是二项分布,那么我们需要计算观察值和期望值之间的偏差,并使用卡方统计量来检验这种偏差是否显著。

卡方检验通常使用卡方统计量来计算,其表达式为:

       χ 
      
     
       2 
      
     
    
      = 
     
     
     
       ∑ 
      
      
      
        i 
       
      
        = 
       
      
        1 
       
      
     
       k 
      
     
     
      
      
        ( 
       
       
       
         O 
        
       
         i 
        
       
      
        − 
       
       
       
         E 
        
       
         i 
        
       
       
       
         ) 
        
       
         2 
        
       
      
      
      
        E 
       
      
        i 
       
      
     
    
   
     \chi^2 = \sum_{i=1}^k \frac{(O_i-E_i)^2}{E_i} 
    
   
 χ2=i=1∑k​Ei​(Oi​−Ei​)2​

其中,

      O 
     
    
      i 
     
    
   
  
    O_i 
   
  
Oi​ 是观察值, 
 
  
   
    
    
      E 
     
    
      i 
     
    
   
  
    E_i 
   
  
Ei​ 是期望值。

4. 模型选择

模型选择是指在一组可能的统计模型中,根据样本数据来选择最合适的模型。在模型选择中,我们需要考虑到模型的复杂度和拟合程度等因素。

4.1 最小二乘法

最小二乘法是一种常见的回归分析方法,用于拟合一个线性模型。

具体来说,假设我们有一个随机变量

     Y 
    
   
  
    Y 
   
  
Y,它受到一个或多个随机变量  
 
  
   
    
    
      X 
     
    
      1 
     
    
   
     , 
    
    
    
      X 
     
    
      2 
     
    
   
     , 
    
   
     . 
    
   
     . 
    
   
     . 
    
   
     , 
    
    
    
      X 
     
    
      k 
     
    
   
  
    X_1,X_2,...,X_k 
   
  
X1​,X2​,...,Xk​ 的影响。我们希望找到一个线性模型:


  
   
    
    
      Y 
     
    
      = 
     
     
     
       β 
      
     
       0 
      
     
    
      + 
     
     
     
       β 
      
     
       1 
      
     
     
     
       X 
      
     
       1 
      
     
    
      + 
     
     
     
       β 
      
     
       2 
      
     
     
     
       X 
      
     
       2 
      
     
    
      + 
     
    
      . 
     
    
      . 
     
    
      . 
     
    
      + 
     
     
     
       β 
      
     
       k 
      
     
     
     
       X 
      
     
       k 
      
     
    
      + 
     
    
      ϵ 
     
    
   
     Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_k X_k + \epsilon 
    
   
 Y=β0​+β1​X1​+β2​X2​+...+βk​Xk​+ϵ

其中,

     ϵ 
    
   
  
    \epsilon 
   
  
ϵ 表示误差项。

最小二乘法的目标是使得误差的平方和最小化,即:

        min 
       
      
        ⁡ 
       
      
      
       
       
         β 
        
       
         0 
        
       
      
        , 
       
       
       
         β 
        
       
         1 
        
       
      
        , 
       
      
        . 
       
      
        . 
       
      
        . 
       
      
        , 
       
       
       
         β 
        
       
         k 
        
       
      
     
     
     
       ∑ 
      
      
      
        i 
       
      
        = 
       
      
        1 
       
      
     
       n 
      
     
    
      ( 
     
     
     
       Y 
      
     
       i 
      
     
    
      − 
     
     
     
       β 
      
     
       0 
      
     
    
      − 
     
     
     
       β 
      
     
       1 
      
     
     
     
       X 
      
      
      
        i 
       
      
        1 
       
      
     
    
      − 
     
     
     
       β 
      
     
       2 
      
     
     
     
       X 
      
      
      
        i 
       
      
        2 
       
      
     
    
      − 
     
    
      . 
     
    
      . 
     
    
      . 
     
    
      − 
     
     
     
       β 
      
     
       k 
      
     
     
     
       X 
      
      
      
        i 
       
      
        k 
       
      
     
     
     
       ) 
      
     
       2 
      
     
    
   
     \min_{\beta_0,\beta_1,...,\beta_k} \sum_{i=1}^n (Y_i - \beta_0 - \beta_1 X_{i1} - \beta_2 X_{i2} - ... - \beta_k X_{ik})^2 
    
   
 β0​,β1​,...,βk​min​i=1∑n​(Yi​−β0​−β1​Xi1​−β2​Xi2​−...−βk​Xik​)2

最小二乘法可以帮助我们找到最佳的

     β 
    
   
  
    \beta 
   
  
β 值。

4.2 AIC和BIC准则

AIC和BIC准则是一种模型选择方法,它们都基于信息理论的概念,用于衡量模型的质量和复杂度。

AIC准则使用以下公式来计算:

      A 
     
    
      I 
     
    
      C 
     
    
      = 
     
    
      − 
     
    
      2 
     
    
      ln 
     
    
      ⁡ 
     
    
      ( 
     
    
      L 
     
    
      ) 
     
    
      + 
     
    
      2 
     
    
      k 
     
    
   
     AIC = -2\ln(L) + 2k 
    
   
 AIC=−2ln(L)+2k

其中,

     L 
    
   
  
    L 
   
  
L 是模型的最大似然值, 
 
  
   
   
     k 
    
   
  
    k 
   
  
k 是参数个数。

BIC准则使用以下公式来计算:

      B 
     
    
      I 
     
    
      C 
     
    
      = 
     
    
      − 
     
    
      2 
     
    
      ln 
     
    
      ⁡ 
     
    
      ( 
     
    
      L 
     
    
      ) 
     
    
      + 
     
    
      k 
     
    
      ln 
     
    
      ⁡ 
     
    
      ( 
     
    
      n 
     
    
      ) 
     
    
   
     BIC = -2\ln(L) + k\ln(n) 
    
   
 BIC=−2ln(L)+kln(n)

其中,

     n 
    
   
  
    n 
   
  
n 是样本大小。

AIC和BIC准则可以帮助我们选择最优的模型。通常来说,我们应该选择AIC或BIC值最小的模型。

总结

本文介绍了常见的参数估计方法,包括点估计、区间估计、假设检验和模型选择等。


本文转载自: https://blog.csdn.net/m0_72410588/article/details/130474860
版权归原作者 饕子 所有, 如有侵权,请联系我们删除。

“参数估计方法总结(超全!!!)”的评论:

还没有评论