0


数据分析4--相关分析

数据分析中如何探究两个或者多个变量之间的相关性?注意⚠️相关性并不等于因果性,因此基于相关性,数据分析师还会开展一系列的因果性分析。

相关性分析是数据分析中较为常用的方法,数据分析师在日常工作中经常会使用该方法。举个例子,对于游戏用户留存分析来说,数据分析师会去探讨用户在线时长、好友组队、比赛场次等多种因素与用户留存之间的相关性,以辅助运营人员或产品专员及时调整策略提升用户留存率。

一、相关系数

两变量的相关关系有三种,即正相关、负相关、不相关。

r系数:当r>0时,两变量之间呈现正相关关系;当r=0时,两变量之间无线性相关关系;当r<0时,两变量之间呈现负相关关系。

在数据分析中,常用的相关系数有三种,即皮尔森相关系数、斯皮尔曼相关系数、肯德尔相关系数

  1. 皮尔逊相关系数:

皮尔逊(Pearson)相关系数也称为积差相关系数,用于度量两个变量x和y之间的线性相关程度。在正式介绍皮尔逊相关系数之前,我们有必要先了解协方差的概念。协方差表示两变量总体的误差,通俗易懂的解释就是两个变量x,y在变化过程中是同向的还是反向的。x变大,y也变大,此时协方差为正;x变大,同时y变小,此时协方差为负。

只有当两个变量x, y满足以下条件,皮尔逊相关系数才适用:(1)两变量x, y之间是连续数据,且呈现线性关系。(2)两变量x, y的总体的数据分布是正态分布,或者接近正态的单峰分布。(3)两变量x, y的观测值是成对的,每对观测值之间相互独立。

  1. 斯皮尔曼相关系数:

斯皮尔曼(Spearman)相关系数是一种秩相关系数。“秩”可以理解成一种顺序或者排序。该系数与皮尔逊相关系数类似,只不过把变量x,y的坐标换成各自的秩,即变量x,y的等级。斯皮尔曼相关系数是通过对两个等级变量x,y作差进行计算的,其本质是等级变量之间的皮尔逊相关系数。因此斯皮尔曼相关系数也称为“等级差数法”,它是一种无参数的检验方法,即与数据分布无关。对于样本容量为n的样本,n个原始数据被转换成等级数据,则其相关系数计算公式如公式 (di为两个等级变量x,y的差)

  1. 肯德尔相关系数:

肯德尔(Kendall)相关系数也是一种秩相关系数,是用于反映分类变量的相关性的指标。对于样本容量为n的样本,其数据点对分别为[插图],那么一共有[插图]对样本对,然后看每一对中x,y的观测值是否同时增大(或同时减小)。比如,考虑点[插图],[插图],可以计算乘积[插图]是否大于0,如果大于0,则说明x, y同时增大或者同时减小,称这两点为协同(Concordant)点,否则为不协同(Disconcordant)点。如果协同点数多一些,两变量更加正相关一些;如果两变量不协同点数多一些,则两变量更加负相关一些;如果既不正相关,也不负相关,则不相关[7]。肯德尔相关系数的取值范围是-1~1,当其值等于1时,表示两随机变量拥有一致的等级相关性;当其值为-1时,表示两随机变量拥有相反的等级相关性;当其值等于0时,表示两随机变量是相互独立的[7]。肯德尔相关系数适用于两变量x,y为有序分类的情况。

二、相关与因果

相关性不等于因果性!

相关性很大程度上可以判断两个变量之间的关系。但是作为数据分析师,对于相关性的运用必须谨慎,因为相关性不等于因果性,相关关系不等于因果关系。

为什么会这样呢?这里举几个例子进行说明。根据美国疾病控制预防管理中心统计数据显示,美国的自杀人数与财政在自然科学领域的投入资金呈正相关关系。财政在自然科学领域的投入资金与自杀人数之间虽然呈现正相关关系,但是两变量之间并不存在因果关系,显然美国政府不可能通过减少在自然科学领域的投入资金来降低民众自杀率。由此可见,相关关系不等于因果关系,但因果关系首先是相关关系。类似的案例很多,这里就不再一一列举。通过这个案例,你已经理解了相关性和因果性之间的关系了,知道了相关性并不等于因果性,那么如何才能确定两个变量是否具有因果关系呢?这就涉及因果推断。

从辛普森悖论谈因果推断

上述辛普森悖论的思路就是基本的因果推断的分析思路,其研究要点有二:

一是因果发现(Causal Discovery),即挖掘变量之间真正因果关系,辨识并剔除伪因果关系;

二是确定因果效应(Causal Effect),即确定实施干预后为观测值带来多大的提升。

因果推断

因果推断的方法:

随机试验在实施过程中可能受到多种因素的影响,例如,试验组的样本并未接受干预,如果只分析试验组中接受干预的样本数据,无疑会存在“幸存者偏差”。为了避免“幸存者偏差”,可以考虑将对照组与试验组进行比较,但是试验组中未接受干预的样本会削弱试验效果。面对这种情况可以使用依从者的平均因果效应(ComplierAverage Causal Effect,CACE)法进行因果推断,该方法是工具变量(Instrumental Variable)法的一种[12,13]。

在随机试验时,每个样本都有自己的偏好和需求,因此可能存在同样的干预手段在不同组别中效果不一样的现象。面对这类情况,可以使用异质性处理估计(Heterogeneous Treatment Estimation,HTE)法。另外,营销增益模型(Uplift Model)及分位数回归(Quantile Regression)法在该情况下也适用。如果想要探究干预是如何影响结果的,可以选择中介模型(Mediation Model),该模型可以打开试验干预与结果之间的黑匣子,以揭示潜在机制。

断点回归(Regression Discontinuity)是一种接近于准自然试验的设计,其基本思想是将某一连续变量随机进行分段,分析断点前后结果变量是否存在差异。举个例子来说,高考一本线可近似认为是一个断点,研究考上一本和未考上一本对未来收入的影响可近似认为是一个断点回归模型[17]。

双重差分法(Differences-in-Differences)又称“倍差法”,也称“差中差”,是因果推断的重要利器。双重差分法的主要思想是通过对比干预前后结果变量之间的差异,衡量干预行为的效果[10]。双重差分法可用于研究商品价格调整前后客户购买率及复购率的差异。

合成控制法(Synthetic Control Method,SCM)是基于反事实框架的因果推断方法,该方法最初用于评估某个政策在某国家或地区实施的效果[18]。以评估某政策在某区域的实施效果为例,如果使用合成控制法进行因果推断,其实施过程如下。首先,假设该地区没有受到干预,数据分析师通过其他相似的地区合成一个新的地区作为对照组;然后,将对照组与事实上受到干预的试验组做对比,二者之差即“处理效应”。

倾向性得分匹配(Propensity Score PSM)也基于反事实推断理论框架,该方法主要用于减少数据偏差及混杂变量的影响,以更加合理地比较试验组和对照组。倾向性评分是一个能够反映多个混杂因素影响的综合指标,在观察性研究中,数据分析师可以将两组样本按照倾向性评分从小到大进行匹配,以达到仅用倾向性评分一个指标同时控制多个混杂因素的目的。

因果推断常用的框架

实战:

微软提出的因果推断开源框架DoWhy,通过该框架探究影响用户取消酒店预订的关键因素。


本文转载自: https://blog.csdn.net/weixin_43784274/article/details/129434415
版权归原作者 不上晚自习 所有, 如有侵权,请联系我们删除。

“数据分析4--相关分析”的评论:

还没有评论