5道面试中的常见的统计学问题

1、伯努利试验与二项分布的区别

伯努利试验仅指单个试验，而二项分布指多个伯努利试验。伯努利有两种可能的结果：成功和失败。

2、你需要采取那些步骤进行抽样才能正确推断总体

样本是随机选择的，需要无偏差地反映所有可满足的状态。如果有偏差则偏差也需要是最小的。

3、为什么我们必须使用推论统计而不是描述统计?

描述性统计，将提供关于样本数据的信息。它提供的是有关数值度量的信息，如平均值、众数、中值和偏度、离群值、两个变量之间的关系和空值等，它并不深入了解其内部规律。

推论统计，研究如何根据样本数据去推断总体数量特征的方法。它是在对样本数据进行描述的基础上，对统计总体的未知数量特征做出以概率形式表述的推断。更概括地说，是在一段有限的时间内，通过对一个随机过程的观察来进行推断的。

描述性统计仅“描述”研究，而不能得出结论或预测。推论统计使研究人员有可能得出结论并预测有关关注领域可能发生的变化。描述性统计通常在包含整个目标人群的特定区域内进行，推论统计通常是从一个人口样本中抽取的，尤其是在人口太大而无法进行研究的情况下。

4、当你进行假设检验时，你在哪个分布上找到临界值或p值来发现统计显著性?

抽样分布是总体中给定大小的所有样本均值的分布。利用CLT的性质，可以从抽样分布中推断总体。这也有助于检验假设因为抽样分布的均值等于总体均值。因此，可以将其与样本均值进行比较来检验是否需要拒绝零假设的证据。

5、请简述卡方检验的?

卡方独立性检验用于确定两个名义（分类）变量之间是否存在显着关系，主要有三个重点

较大的卡方值 χ2 意味着原假设更易被拒绝当期望值和实际值相差越大，代表两个变量更可能相关。相差越小，代表两个变量更独立，原假设成立可能性越大。除此以外还需要引入自由度（degree of freedom, df）和显著性水平（significance level）来提供额外的信息

从卡方值角度来看

当卡方值 ≥ 临界值：可拒绝原假设 H0 ，两个变量相关。

当卡方值 < 临界值：无法拒绝原假设 H0 ，两个变量互相独立。

从p值和显著性水平 α 角度来看，

当p值 ≤α ：可拒绝原假设 H0 ，两个变量相关。

当p值 >α：无法拒绝原假设 H0 ，两个变量互相独立。

标签：机器学习统计学数据分析