面试模拟场景
面试官: 你能解释一下如何度量概率分布的相似度吗?
参考回答示例
1. KL散度(Kullback-Leibler Divergence)
定义:
- KL散度是衡量两个概率分布之间差异的一种非对称度量。对于两个概率分布 P P P 和 Q Q Q,KL散度定义为: D KL ( P ∥ Q ) = ∑ x P ( x ) log P ( x ) Q ( x ) D_{\text{KL}}(P | Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)} DKL(P∥Q)=x∑P(x)logQ(x)P(x) 或在连续情形下: D KL ( P ∥ Q ) = ∫ P ( x ) log P ( x ) Q ( x ) d x D_{\text{KL}}(P | Q) = \int P(x) \log \frac{P(x)}{Q(x)} dx DKL(P∥Q)=∫P(x)logQ(x)P(x)dx性质:
- KL散度非负,且只有当 P = Q P = Q P=Q 时为零。
- KL散度是非对称的,即 D KL ( P ∥ Q ) ≠ D KL ( Q ∥ P ) D_{\text{KL}}(P | Q) \neq D_{\text{KL}}(Q | P) DKL(P∥Q)=DKL(Q∥P)。
应用:
- KL散度常用于衡量一个模型生成的概率分布与真实分布之间的差异。在变分推断和信息论中,KL散度被广泛应用于最小化模型分布与目标分布之间的差异。
2. JS散度(Jensen-Shannon Divergence)
定义:
- JS散度是KL散度的一种对称化形式,用于度量两个概率分布之间的相似度。JS散度定义为: D JS ( P ∥ Q ) = 1 2 D KL ( P ∥ M ) + 1 2 D KL ( Q ∥ M ) D_{\text{JS}}(P | Q) = \frac{1}{2} D_{\text{KL}}(P | M) + \frac{1}{2} D_{\text{KL}}(Q | M) DJS(P∥Q)=21DKL(P∥M)+21DKL(Q∥M) 其中 M = 1 2 ( P + Q ) M = \frac{1}{2}(P + Q) M=21(P+Q) 是 P P P 和 Q Q Q 的平均分布。
性质:
- JS散度是对称的,即 D JS ( P ∥ Q ) = D JS ( Q ∥ P ) D_{\text{JS}}(P | Q) = D_{\text{JS}}(Q | P) DJS(P∥Q)=DJS(Q∥P)。
- JS散度值在 [ 0 , log 2 ] [0, \log 2] [0,log2] 之间,0表示两个分布完全相同。
应用:
- JS散度常用于生成对抗网络(GANs)中,作为生成器和判别器之间的损失函数。此外,JS散度还被用于比较两个概率分布的相似度,尤其是在两个分布重叠较多的情况下。
3. Wasserstein距离(Earth Mover’s Distance)
定义:
- Wasserstein距离衡量两个概率分布之间的“最小传输成本”,可以直观地理解为将一个分布形状“转换”成另一个分布形状所需的最小“工作量”。对于两个概率分布 P P P 和 Q Q Q,Wasserstein距离定义为: W ( P , Q ) = inf γ ∈ Γ ( P , Q ) E ( x , y ) ∼ γ [ ∥ x − y ∥ ] W(P, Q) = \inf_{\gamma \in \Gamma(P, Q)} \mathbb{E}_{(x,y) \sim \gamma}[|x - y|] W(P,Q)=γ∈Γ(P,Q)infE(x,y)∼γ[∥x−y∥] 其中 Γ ( P , Q ) \Gamma(P, Q) Γ(P,Q) 是所有在 P P P 和 Q Q Q 之间的联合分布的集合。
性质:
- Wasserstein距离是对称的,且满足三角不等式。
- Wasserstein距离对于捕捉概率分布之间的全局差异特别有效,尤其适合度量概率分布的形状差异。
应用:
- Wasserstein距离广泛应用于最优传输问题、图像处理中的形状匹配,以及Wasserstein GAN(WGAN)的优化中。
4. 总变差距离(Total Variation Distance)
定义:
- 总变差距离是两个概率分布之间的最大绝对差异,用于度量两个分布的“最大不相似性”。对于两个离散概率分布 P P P 和 Q Q Q,总变差距离定义为: D TV ( P , Q ) = 1 2 ∑ x ∣ P ( x ) − Q ( x ) ∣ D_{\text{TV}}(P, Q) = \frac{1}{2} \sum_{x} |P(x) - Q(x)| DTV(P,Q)=21x∑∣P(x)−Q(x)∣ 对于连续概率分布,则为: D TV ( P , Q ) = 1 2 ∫ ∣ P ( x ) − Q ( x ) ∣ d x D_{\text{TV}}(P, Q) = \frac{1}{2} \int |P(x) - Q(x)| dx DTV(P,Q)=21∫∣P(x)−Q(x)∣dx性质:
- 总变差距离值在 [ 0 , 1 ] [0, 1] [0,1] 之间,0表示两个分布完全相同,1表示两个分布完全不同。
- 总变差距离与其他度量相比,更加关注两个分布在最大差异处的表现。
应用:
- 总变差距离通常用于统计检验、分布匹配问题和概率模型的评价中。它适用于需要对两个分布进行严格比较的场景。
5. 总结
- KL散度: 衡量两个概率分布之间差异的非对称度量,常用于变分推断和信息论。
- JS散度: KL散度的对称形式,适合度量两个分布的相似度,广泛应用于GANs。
- Wasserstein距离: 衡量两个分布之间的全局差异,特别适合形状匹配和最优传输问题。
- 总变差距离: 度量两个分布之间的最大绝对差异,常用于统计检验和概率模型评价。
本文转载自: https://blog.csdn.net/Lewiz_124/article/details/141111869
版权归原作者 Lewiz_124 所有, 如有侵权,请联系我们删除。
版权归原作者 Lewiz_124 所有, 如有侵权,请联系我们删除。