0


模型不达标调整

一 、模型不达标调整

模型构建就是——科学的研究问题的数学表达;比如线性回归模型中的模型公式。

在进行建模时,很多同学会遇到模型不达标的问题,这种情况很常见,通常需要进行模型不达标的调整。

模型不好如何处理

模型拟合不好,我们能想到的原因主要有以下几个方面

其一:样本的多少

通常情况下,样本越多,样本的数据质量越高,那么会对模型拟合有正向的帮助;

其二:测量指标的好坏与多少

如果选取的指标不能很好地代表所研究的问题,那么指标的选取就存在问题,会影响到后续模型的拟合;同时,指标如果过少(考虑不全面,如缺少控制变量)、过多(指标冗杂、重复指标较多)都会影响到模型的好坏。

其三:模型存在潜在问题

例如:忽略了异方差和共线性的问题,导致模型不好。

其四:模型需要更换

如果无论如何调整都无法很好的拟合模型,则需要考虑更换模型。

综上所述:当模型不好时,可以从样本变化、指标变化、模型修正、模型更换四个方面进行调整。

① 样本变化

  • 增加样本

数据分析中,一般来讲,样本量越多越好,样本量过少会引起数据分析结果的代表性降低;因此增加样本量,可以作为调整模型的一种方式。

增加样本可以从两方面考虑:

其一加入新样本,扩大整体样本量;

其二将缺失值进行填补

SPSSAU系统数据处理->异常值功能,可将缺失数据(null)进行填补。SPSSAU当前支持平均值、中位数、众数和随机数填补等。一般情况下,平均值、中位数或众数使用较多。

  • 删减样本

如果样本数据质量不高,缺失值和异常值较多,同样会影响到模型的拟合。那么,删减样本也可以作为模型调整的一种方式。

删减样本包括无效值处理和异常值处理两方面。对于异常值,常见的处理方法比如缩尾or截尾处理;同样,可以在SPSSAU系统->数据处理板块进行操作。

② 指标变化

  • 替换法

指标的选取会影响模型拟合效果,如果使用不合适的指标描述所研究问题,那么错误的指标得到的模型自然是错误的。虽然一些指标代表的意义乍一看相近,可以替换使用,但是“差之毫厘失之千里” ,所以,将指标进行替换可以作为一种模型调整方式。

例如:一般使用人均GDP而不使用GDP衡量一个地区的发展水平

  • 增加指标

如果指标的选取并不全面,无法涵盖绝大部分信息,那么模型自然也是不好的,所以增加指标为指标变化调整的另一种方式。例如:研究地区经济的发展时,忽略了控制变量人口,那么就需要相应地增加控制变量(干扰变量);或者其他容易忽略的个体属性(如年龄、性别等)、遗漏变量等。

  • 删除指标

将重复指标或者质量差的指标进行删除,也是模型调整的一种方式。例如:研究学生学习水平时,“ 学历 ” 和 “ 受教育年限 ” 之间一定存在很强的共线性,二者取其一即可。

③ 模型修正

模型不达标还可能是因为忽略了一些需要在意的问题,比较常见的有是否存在异方差或共线性问题。

  • 异方差问题

处理异方差问题有三种办法,分别是数据处理(取对数等)、稳健标准误回归、FGLS回归

  • 共线性问题

如果出现多重共线性问题,一般可有3种解决办法:一是使用逐步回归分析(让模型自动剔除掉共线性过高项);二是使用岭回归分析(使用数学方法解决共线性问题);三是进行相关分析,手工移出相关性非常高的分析项(通过主观分析解决),然后再做线性回归分析。

④ 模型更换

如果无论如何调整都无法很好的拟合模型,则需要考虑更换模型。

例如:使用结构方程模型研究影响关系时,模型不达标,可以考虑将结构方程模型改为路径分析;或者改为研究线性回归模型。

或者,在研究线性回归模型时,可以改为研究二元logit回归(例如将收入换成“高收入和低收入”两类)。

二、减少模型不达标问题经验说明

为了尽量避免模型不达标的情况,应该从前期样本准备、指标选择就做好准备。接下来,小编将说明前期数据以及模型的一些基本准备;并使用问卷式模型以及计量式模型进行举例,分享一些模型构建的注意事项。

1、数据准备

  • 数据样本量尽量多

保证样本量尽量多的目的有两个分别是:稳健性检验、防止样本有缺失

  • 数据完善性

缺失样本不能过多,会影响分析结果

  • 指标有预留

指标最好在开始的时候,就多预留出几个,其目的有三,分别是:用作控制变量、稳健性检验、替换作用。

说明——稳健性检验

稳健性检验通俗的讲,就是改变某个特定的参数,进行重复的实验,来观察实证结果是否随着参数设定的改变而发生变化,如果改变参数设定以后,结果发现符号和显著性发生了改变,说明不是稳健性的,需要寻找问题的所在。一般根据自己文章的具体情况选择稳健性检验 ① 从数据出发,根据不同的标准调整分类,检验结果是否依然显著 ② 从变量出发,从其他的变量替换,如:研发金额投入可以使用研发项目数量衡量 ③ 从计量方法出发,可以用OLS等进行回归,看结果是否依然显著

2、模型准备

  • 在找数据时,应该大概知道模型是什么样子

带着目的找数据,可以节省时间,提高数据准确性以及与研究问题的匹配度。

  • 模型尽量有备选

如果一个模型不合适,可以及时更换模型,不至于重头再来,节省时间与精力。

3、问卷式模型

例如:研究商超购物满意度模型

数据准备:上图中六个变量分别对应的数据

可以从样本量、样本特征、变量测量3个角度做文章

问卷设计注意事项:

  • 一个指标尽量多对应问卷题目,建议4~7个

便于后续的筛选、删除;在后面的调整模型时也可能用到。

  • 其他相关数据——人口统计学变量

干扰变量(控制变量)的设计可用于模型调整、丰富分析内容。

基于结构方程模型的黑龙江冰雪旅游游客满意度研究-成春蕾

  • 必填题目设置——用于模型调整和稳健性检验使用

基于结构方程模型的黑龙江冰雪旅游游客满意度研究-成春蕾

  • 筛选题设置——用于筛选适合样本

例如:消费次数1次/年,25次/年,510次/年,10次以上/年;如果填写问卷的参与调查的人在该商超的消费次数过低,自然应该被排除在外,不属于我们研究的合适样本。同时,筛选题的设置可用于后续模型的调整和模型稳健性检验使用。

基于结构方程模型的黑龙江冰雪旅游游客满意度研究-成春蕾

  • 样本量

收集的问卷有效样本量应该在问卷题目个数的5倍以上,若样本数据偏离正态分布,则样本量最好为问卷题目数的10倍以上,以便模型数据更具有说服力。

问卷研究常用方法:

SPSSAU系统中,提供多种主流问卷研究方法,常见的主要有信度分析、效度分析、多选题分析、调节作用、中介作用、路径分析、结构方程模型等方法。

同学们可结合自己所研究问题,进行方法的选择。如果不知道自己应该进行哪种分析,还可以在SPSSAU官网右上角客服中心联系人工客服,会有专业老师解答问题。

4、计量式模型

例如:高管团队特征对企业创新投入的影响

  • 数据准备:各个变量分别对应的数据
  • 样本量、指标变化、模型更换
  • 确定自变量、控制变量、因变量

自变量(解释变量):女性高管人数、高管团队任期、高管团队受教育水平(受教育年限)等

控制变量:企业资产、企业盈利指标ROA、政府补贴等

因变量(被解释变量):研发投入金额

注意事项:

  • 数据尽量多

例如:使用多个年份、多个行业(国有企业、外资企业等)的数据

可以达到样本筛选、模型调整、稳健性检验、丰富研究、异常数据清理的目的。

高管团队特征对企业创新的影响研究——王彩虹

  • 指标更换

例如:高管团队任期替换为高管团队更换频率

受教育水平替换为受教育年限

研发投入金额替换为研发项目数量等等

指标更换对应数据准备中的指标有预留,为的是后续进行模型不达标调整、稳健性检验等等。

高管团队特征对企业创新的影响研究——王彩虹

  • 模型更换

例如:OLS回归->robust回归

OLS回归->面板模型

OLS回归->是否加入控制变量 / 控制变量的变化等等

模型更换是进行模型不达标调整的最后底线

计量研究常用方法:

在计量经济研究中,可选择的方法更多,需要结合所研究内容以及自身专业进行判断,可以在SPSSAU官网查看每种方法的帮助手册进行方法的学习。

标签: 人工智能 python

本文转载自: https://blog.csdn.net/m0_37228052/article/details/128481659
版权归原作者 spssau 所有, 如有侵权,请联系我们删除。

“模型不达标调整”的评论:

还没有评论