0


【面试】如何度量概率分布的相似度

面试模拟场景

面试官: 你能解释一下如何度量概率分布的相似度吗?

参考回答示例

1. KL散度(Kullback-Leibler Divergence)

定义:

  • KL散度是衡量两个概率分布之间差异的一种非对称度量。对于两个概率分布 P P P 和 Q Q Q,KL散度定义为: D KL ( P ∥ Q ) = ∑ x P ( x ) log ⁡ P ( x ) Q ( x ) D_{\text{KL}}(P | Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)} DKL​(P∥Q)=x∑​P(x)logQ(x)P(x)​ 或在连续情形下: D KL ( P ∥ Q ) = ∫ P ( x ) log ⁡ P ( x ) Q ( x ) d x D_{\text{KL}}(P | Q) = \int P(x) \log \frac{P(x)}{Q(x)} dx DKL​(P∥Q)=∫P(x)logQ(x)P(x)​dx性质:
  • KL散度非负,且只有当 P = Q P = Q P=Q 时为零。
  • KL散度是非对称的,即 D KL ( P ∥ Q ) ≠ D KL ( Q ∥ P ) D_{\text{KL}}(P | Q) \neq D_{\text{KL}}(Q | P) DKL​(P∥Q)=DKL​(Q∥P)。

应用:

  • KL散度常用于衡量一个模型生成的概率分布与真实分布之间的差异。在变分推断和信息论中,KL散度被广泛应用于最小化模型分布与目标分布之间的差异。

2. JS散度(Jensen-Shannon Divergence)

定义:

  • JS散度是KL散度的一种对称化形式,用于度量两个概率分布之间的相似度。JS散度定义为: D JS ( P ∥ Q ) = 1 2 D KL ( P ∥ M ) + 1 2 D KL ( Q ∥ M ) D_{\text{JS}}(P | Q) = \frac{1}{2} D_{\text{KL}}(P | M) + \frac{1}{2} D_{\text{KL}}(Q | M) DJS​(P∥Q)=21​DKL​(P∥M)+21​DKL​(Q∥M) 其中 M = 1 2 ( P + Q ) M = \frac{1}{2}(P + Q) M=21​(P+Q) 是 P P P 和 Q Q Q 的平均分布。

性质:

  • JS散度是对称的,即 D JS ( P ∥ Q ) = D JS ( Q ∥ P ) D_{\text{JS}}(P | Q) = D_{\text{JS}}(Q | P) DJS​(P∥Q)=DJS​(Q∥P)。
  • JS散度值在 [ 0 , log ⁡ 2 ] [0, \log 2] [0,log2] 之间,0表示两个分布完全相同。

应用:

  • JS散度常用于生成对抗网络(GANs)中,作为生成器和判别器之间的损失函数。此外,JS散度还被用于比较两个概率分布的相似度,尤其是在两个分布重叠较多的情况下。

3. Wasserstein距离(Earth Mover’s Distance)

定义:

  • Wasserstein距离衡量两个概率分布之间的“最小传输成本”,可以直观地理解为将一个分布形状“转换”成另一个分布形状所需的最小“工作量”。对于两个概率分布 P P P 和 Q Q Q,Wasserstein距离定义为: W ( P , Q ) = inf ⁡ γ ∈ Γ ( P , Q ) E ( x , y ) ∼ γ [ ∥ x − y ∥ ] W(P, Q) = \inf_{\gamma \in \Gamma(P, Q)} \mathbb{E}_{(x,y) \sim \gamma}[|x - y|] W(P,Q)=γ∈Γ(P,Q)inf​E(x,y)∼γ​[∥x−y∥] 其中 Γ ( P , Q ) \Gamma(P, Q) Γ(P,Q) 是所有在 P P P 和 Q Q Q 之间的联合分布的集合。

性质:

  • Wasserstein距离是对称的,且满足三角不等式。
  • Wasserstein距离对于捕捉概率分布之间的全局差异特别有效,尤其适合度量概率分布的形状差异。

应用:

  • Wasserstein距离广泛应用于最优传输问题、图像处理中的形状匹配,以及Wasserstein GAN(WGAN)的优化中。

4. 总变差距离(Total Variation Distance)

定义:

  • 总变差距离是两个概率分布之间的最大绝对差异,用于度量两个分布的“最大不相似性”。对于两个离散概率分布 P P P 和 Q Q Q,总变差距离定义为: D TV ( P , Q ) = 1 2 ∑ x ∣ P ( x ) − Q ( x ) ∣ D_{\text{TV}}(P, Q) = \frac{1}{2} \sum_{x} |P(x) - Q(x)| DTV​(P,Q)=21​x∑​∣P(x)−Q(x)∣ 对于连续概率分布,则为: D TV ( P , Q ) = 1 2 ∫ ∣ P ( x ) − Q ( x ) ∣ d x D_{\text{TV}}(P, Q) = \frac{1}{2} \int |P(x) - Q(x)| dx DTV​(P,Q)=21​∫∣P(x)−Q(x)∣dx性质:
  • 总变差距离值在 [ 0 , 1 ] [0, 1] [0,1] 之间,0表示两个分布完全相同,1表示两个分布完全不同。
  • 总变差距离与其他度量相比,更加关注两个分布在最大差异处的表现。

应用:

  • 总变差距离通常用于统计检验、分布匹配问题和概率模型的评价中。它适用于需要对两个分布进行严格比较的场景。

5. 总结

  • KL散度: 衡量两个概率分布之间差异的非对称度量,常用于变分推断和信息论。
  • JS散度: KL散度的对称形式,适合度量两个分布的相似度,广泛应用于GANs。
  • Wasserstein距离: 衡量两个分布之间的全局差异,特别适合形状匹配和最优传输问题。
  • 总变差距离: 度量两个分布之间的最大绝对差异,常用于统计检验和概率模型评价。

本文转载自: https://blog.csdn.net/Lewiz_124/article/details/141111869
版权归原作者 Lewiz_124 所有, 如有侵权,请联系我们删除。

“【面试】如何度量概率分布的相似度”的评论:

还没有评论