0


内容补充页(相关公式解释)

from 学习日记_20241117_聚类方法(高斯混合模型)

学习日记_20241117_聚类方法(高斯混合模型)

公式

     P 
    
   
     ( 
    
   
     Z 
    
   
     = 
    
   
     k 
    
   
     ) 
    
   
     = 
    
    
    
      π 
     
    
      k 
     
    
   
  
    P(Z=k) = \pi_k 
   
  
P(Z=k)=πk​

在高斯混合模型 (GMM) 中,公式

     P 
    
   
     ( 
    
   
     Z 
    
   
     = 
    
   
     k 
    
   
     ) 
    
   
     = 
    
    
    
      π 
     
    
      k 
     
    
   
  
    P(Z=k) = \pi_k 
   
  
P(Z=k)=πk​ 描述了选择某个高斯成分  
 
  
   
   
     k 
    
   
  
    k 
   
  
k 的概率,其中  
 
  
   
   
     Z 
    
   
  
    Z 
   
  
Z 是一个潜在变量(latent variable),表示数据点所属的成分。

详细解释

  1. 潜在变量 Z Z Z:- Z Z Z 是一个离散随机变量,它的取值范围为 { 1 , 2 , … , K } {1, 2, \ldots, K} {1,2,…,K},其中 K K K 是模型中高斯成分的数量。每个 k k k 对应一个高斯分布。
  2. 权重 π k \pi_k πk​:- π k \pi_k πk​ 是与成分 k k k 相关的权重,表示在所有成分中选择成分 k k k 的概率。它满足以下条件: - π k ≥ 0 \pi_k \geq 0 πk​≥0(非负性)- ∑ k = 1 K π k = 1 \sum_{k=1}^{K} \pi_k = 1 ∑k=1K​πk​=1(归一化条件)
  3. 模型解释:- 这个公式表明,在生成数据的过程中,根据权重 π k \pi_k πk​,我们会选择其中一个成分 k k k。这个选择是随机的,但在长期来看,每个成分 k k k 被选择的概率正好等于其权重 π k \pi_k πk​。

生成过程

在 GMM 的生成过程中,首先选择一个成分 $ Z $,然后在选择的成分下从对应的高斯分布中生成样本 $ X $。这个过程可以概述为:

  1. 从权重分布中选择成分 k k k: P ( Z = k ) = π k P(Z=k) = \pi_k P(Z=k)=πk​
  2. 在选择的成分下,从该成分的高斯分布中生成数据: X ∣ Z = k ∼ N ( μ k , Σ k ) X | Z=k \sim \mathcal{N}(\mu_k, \Sigma_k) X∣Z=k∼N(μk​,Σk​)

例子

假设我们有一个 GMM 模型,其中包含两个高斯成分(即

     K 
    
   
     = 
    
   
     2 
    
   
  
    K = 2 
   
  
K=2),其权重分别为  
 
  
   
    
    
      π 
     
    
      1 
     
    
   
     = 
    
   
     0.6 
    
   
  
    \pi_1 = 0.6 
   
  
π1​=0.6 和  
 
  
   
    
    
      π 
     
    
      2 
     
    
   
     = 
    
   
     0.4 
    
   
  
    \pi_2 = 0.4 
   
  
π2​=0.4。这意味着:
  • 有 60% 的概率选择成分 1,生成该成分下的样本。
  • 有 40% 的概率选择成分 2,生成该成分下的样本。

总结

公式

     P 
    
   
     ( 
    
   
     Z 
    
   
     = 
    
   
     k 
    
   
     ) 
    
   
     = 
    
    
    
      π 
     
    
      k 
     
    
   
  
    P(Z=k) = \pi_k 
   
  
P(Z=k)=πk​ 是高斯混合模型的核心部分,定义了数据生成过程中选择每个高斯成分的概率。通过这些成分的加权组合,GMM 能够有效地建模复杂的分布结构。



公式

     X 
    
   
     ∣ 
    
   
     Z 
    
   
     = 
    
   
     k 
    
   
     ∼ 
    
   
     N 
    
   
     ( 
    
    
    
      μ 
     
    
      k 
     
    
   
     , 
    
    
    
      Σ 
     
    
      k 
     
    
   
     ) 
    
   
  
    X | Z=k \sim \mathcal{N}(\mu_k, \Sigma_k) 
   
  
X∣Z=k∼N(μk​,Σk​)

公式

     X 
    
   
     ∣ 
    
   
     Z 
    
   
     = 
    
   
     k 
    
   
     ∼ 
    
   
     N 
    
   
     ( 
    
    
    
      μ 
     
    
      k 
     
    
   
     , 
    
    
    
      Σ 
     
    
      k 
     
    
   
     ) 
    
   
  
    X | Z=k \sim \mathcal{N}(\mu_k, \Sigma_k) 
   
  
X∣Z=k∼N(μk​,Σk​)描述的是在给定潜在变量  
 
  
   
   
     Z 
    
   
  
    Z 
   
  
Z 等于某个特定值  
 
  
   
   
     k 
    
   
  
    k 
   
  
k 的情况下,随机变量  
 
  
   
   
     X 
    
   
  
    X 
   
  
X 的条件分布。这里的含义可以分解为以下几点:

1. 条件分布

  •                                     X                            ∣                            Z                            =                            k                                  X | Z=k                     X∣Z=k 表示在选择了成分                                         k                                  k                     k 的条件下生成的数据点                                         X                                  X                     X。
    
  • 这意味着我们只关注在成分 k k k 下生成的数据特性。

2. 高斯分布

  •                                     ∼                            N                            (                                       μ                               k                                      ,                                       Σ                               k                                      )                                  \sim \mathcal{N}(\mu_k, \Sigma_k)                     ∼N(μk​,Σk​) 表示                                         X                                  X                     X 服从均值为                                                    μ                               k                                            \mu_k                     μk​、协方差矩阵为                                                    Σ                               k                                            \Sigma_k                     Σk​ 的多元高斯分布(或正态分布)。   - **均值                                                                      μ                                        k                                                           \mu_k                              μk​**:这是成分                                                   k                                          k                           k 的中心位置,表示该成分的“典型”数据点。- **协方差矩阵                                                                      Σ                                        k                                                           \Sigma_k                              Σk​**:它描述了成分                                                   k                                          k                           k 的数据点的分布形状和方向。协方差矩阵的对角线元素表示不同特征的方差,而非对角线元素则表示特征之间的相关性。
    

3. 模型的生成过程

在高斯混合模型中,生成数据的过程可以总结为以下两步:

  1. 选择成分:- 根据权重 π k \pi_k πk​ 随机选择一个成分 k k k。
  2. 生成样本:- 一旦选择了成分 k k k,根据该成分的高斯分布生成数据点 X X X。这可以通过从高斯分布中抽样来实现。

举例说明

假设我们有两个高斯成分

     K 
    
   
     = 
    
   
     2 
    
   
  
    K=2 
   
  
K=2:
  • 成分 1: μ 1 = [ 2 , 3 ] \mu_1 = [2, 3] μ1​=[2,3], Σ 1 = [ 1 0 0 1 ] \Sigma_1 = \begin{bmatrix} 1 & 0 \ 0 & 1 \end{bmatrix} Σ1​=[10​01​]
  • 成分 2: μ 2 = [ 5 , 7 ] \mu_2 = [5, 7] μ2​=[5,7], Σ 2 = [ 2 0 0 2 ] \Sigma_2 = \begin{bmatrix} 2 & 0 \ 0 & 2 \end{bmatrix} Σ2​=[20​02​] 在生成数据时:
  1. 以一定的概率(例如 π 1 = 0.6 \pi_1 = 0.6 π1​=0.6, π 2 = 0.4 \pi_2 = 0.4 π2​=0.4)选择成分。
  2. 如果选择成分 1,生成的数据点 X X X 将会满足: X ∣ Z = 1 ∼ N ( [ 2 3 ] , [ 1 0 0 1 ] ) X | Z=1 \sim \mathcal{N}\left(\begin{bmatrix} 2 \ 3 \end{bmatrix}, \begin{bmatrix} 1 & 0 \ 0 & 1 \end{bmatrix}\right) X∣Z=1∼N([23​],[10​01​]) 这意味着生成的点将会在均值 [ 2 , 3 ] [2, 3] [2,3] 附近,并且具有单位方差,表示每个维度独立。

总结

公式

     X 
    
   
     ∣ 
    
   
     Z 
    
   
     = 
    
   
     k 
    
   
     ∼ 
    
   
     N 
    
   
     ( 
    
    
    
      μ 
     
    
      k 
     
    
   
     , 
    
    
    
      Σ 
     
    
      k 
     
    
   
     ) 
    
   
  
    X | Z=k \sim \mathcal{N}(\mu_k, \Sigma_k) 
   
  
X∣Z=k∼N(μk​,Σk​)

是高斯混合模型的核心部分,描述了在选择特定高斯成分

     k 
    
   
  
    k 
   
  
k 的情况下数据的分布特性。通过不同成分的组合,GMM 能够灵活地捕捉复杂数据集的结构。
标签: 学习

本文转载自: https://blog.csdn.net/2301_81791289/article/details/143833467
版权归原作者 行然梦实 所有, 如有侵权,请联系我们删除。

“内容补充页(相关公式解释)”的评论:

还没有评论